欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

性能更強 功耗更高! GeForce RTX 5090 D顯卡天梯榜首測

  發(fā)布時間:2025-02-12 08:20:25   作者:佚名   我要評論
耕升RTX 5090 D踏雪憑借優(yōu)秀的硬件設(shè)計與軟硬結(jié)合的技術(shù)創(chuàng)新,定義了高性能顯卡的新標準,詳細請看下文測評

時隔兩年又三個多月,英偉達終于帶來了全新的GeForce RTX 50系顯卡。然而受到相關(guān)規(guī)定(滿足綜合運算性能TPP不超過4800的限制)的影響,RTX 5090的命運和RTX 4090一樣,化身RTX 5090 D進入國內(nèi)市場。同時,RTX 5090 D是沒有公版(Founder Edition)的,因此,高端玩家們就只能從一眾非公顯卡里面去挑選適合自己的那一款了。

而說起耕升的踏雪系列,可能大家第一時間更多會想到純白設(shè)計、中高端定位,很難會將過往最高只搭載過RTX 4070 TI SUPER芯片的它和旗艦顯卡聯(lián)想到一起。不過,當英偉達正式進入RTX 50系顯卡時代之后,踏雪也迎來的蛻變,出現(xiàn)在了耕升的RTX 5090 D的產(chǎn)品名單里面。在了解耕升 GeForce RTX 5090 D 踏雪之前,我們先來簡單回顧一下英偉達RTX 50系顯卡到底有什么新的特點。

關(guān)于RTX 5090 D

相較于上一代RTX 4090 D來看,RTX 5090 D在芯片的規(guī)模上有了較大幅度的升級。雖然制程工藝不變,依然是定制的TSMC 4N,但是,憑借更大的芯片面積和新一代的Blackwell核心架構(gòu),后者的晶體管數(shù)量從763億個增加至922億個,CUDA核心數(shù)量增加將近50%,而且同樣是12個GPC,RTX 5090 D每個GPC里的TPC和SM數(shù)量增多了,TPC從6個增至8個,SM從12個增至16個。編解碼器同樣進行了迭代加碼,新增了4:2:2色度采樣視頻編解碼的能力,節(jié)省CPU的負擔,提升內(nèi)容創(chuàng)作者的工作效率。此外,RTX 5090 D還用上了容量更大、性能更強的GDDR7顯存,位寬也從384-bit增至512-bit。顯示輸出接口升級為3×DisplayPort 2.1b+1×HDMI 2.1b的配置,借助DSC技術(shù)最高支持4K@480Hz或8K@140Hz。

不過,這次的RTX 5090 D的命運并不像RTX 4090 D一樣在核心規(guī)格作出調(diào)整。我們從表面參數(shù)上基本看不出與RTX 5090有什么區(qū)別,對游戲性能造成的影響肯定是遠小于RTX 4090 D當初的。至于AI性能嘛,RTX 5090 D則從RTX 5090的3352 AI TOPS降至2375 AI TOPS,降幅約29%。

Blackwell架構(gòu)有多牛

不斷壯大的核心規(guī)模

其實,完全體的 Blackwell GB202共有12組GPC、24576個CUDA核心,RTX 5090 D上的GB202-250則用了其中的88.5%。從整體結(jié)構(gòu)圖上還能看到,GigaThread Engine調(diào)度器隔壁多了一個叫做AI-Management Processor(AI管理處理器,簡稱AMP)的幫手。AMP是一個位于管線前端的RISC-V處理器,支持Windows硬件加速GPU計劃,能夠更自由地管理GPU。CUDA、RT Core和Tensor Core三大部分在它的帶領(lǐng)下可以協(xié)調(diào)工作,實現(xiàn)AI響應速度提高的同時,游戲畫面也不會受到影響。

GPC段中,它所包含的TPC從Ada Lovelace的6組擴展到了8組。不過布局上還是一樣的,一個獨立的光柵引擎,兩個ROP分區(qū)(每個包含8個ROP單元),而每組TPC包含兩組SM。

SM段的變化是比較大的?,F(xiàn)在所有的32個CUDA核心都能執(zhí)行FP32/INT32運算了,因此INT32的算力可以說是增加了一倍。不過在一個時鐘周期里面,核心只能二選一運算。NVIDIA表示,這種設(shè)計是為神經(jīng)著色器優(yōu)化的。

Tensor Core和RT Core自然也有升級。第5代Tensor Core繼承了上一代架構(gòu)的特性,并新增了FP4、FP6的支持,還把FP8 Transformer Engine更新到了第二代。其中,F(xiàn)P4是個比較值得關(guān)注的點,它相比常規(guī)的FP16模型需要的顯存更小,在TensorRT模型優(yōu)化器的支持下能夠做到幾乎沒有質(zhì)量損失。

現(xiàn)在,Blackwell上的SER(著色器重排序) 2.0還可以將神經(jīng)網(wǎng)絡(luò)的負載直接發(fā)送至Tensor Core處理,加速神經(jīng)網(wǎng)絡(luò)渲染,效率達到了Ada Lovelace上的2倍,降低開銷之余還能提高精準度。

同時運作的話,LLM的響應時間變慢,游戲幀率也會受影響

而第4代RT Core中,新增的組件包括有Triangle Cluster Intersection Engine、Triangle Cluster Compression Engine以及Linear Swept Spheres。同時,Blackwell提供了兩倍于上一代Ada Lovelace的Ray-Triangle交叉檢測吞吐量。它們的出現(xiàn),與Mega Geometry技術(shù)息息相關(guān),起到一個打基礎(chǔ)的作用。

Mega Geometry是在TLAS(頂層加速結(jié)構(gòu))和BLAS(底層加速結(jié)構(gòu))兩個層級的架構(gòu)上做改進。BLAS一側(cè)的Cluster-level Acceleration Structures(CLAS,簇級加速結(jié)構(gòu))最多能把256個三角形簇打包好,并將其作為BVH的基礎(chǔ)部分輸入,最后組成BVH樹。同時,CLAS不僅能在游戲里面按需創(chuàng)建,還能緩存到硬盤里面,后面的幀要用的話直接從硬盤加載。這樣一來,系統(tǒng)要處理的事情就少很多了。

TLAS還有個兄弟叫Partitioned Top-Level Acceleration Structure(PTLAS,分區(qū)頂層加速架構(gòu)),是針對復雜場景設(shè)計的。NVIDIA表示,在很多游戲里面,場景內(nèi)有不少物品比如建筑都是固定不變的,但是如果每一幀都要給它們構(gòu)建一次TLAS,肯定就不劃算。而正如名稱中的Partitioned分區(qū)所示,PTLAS把場景內(nèi)的物體分成了多個區(qū)域,一些用來放置靜態(tài)的物品,然后一個全局分區(qū)用于處理動態(tài)的物品,同樣可以做到減輕了系統(tǒng)的壓力,提高運算效率。

值得一提的是,所有RTX顯卡都能支持Mega Geometry,但跟所有新技術(shù)一樣,Blackwell是目前支持最好的。

相關(guān)文章

最新評論