性能更強功耗更高! GeForce RTX 5090 D顯卡天梯榜首測

發(fā)布時間：2025-02-12 08:20:25 作者：佚名

耕升RTX 5090 D踏雪憑借優(yōu)秀的硬件設(shè)計與軟硬結(jié)合的技術(shù)創(chuàng)新，定義了高性能顯卡的新標準，詳細請看下文測評

時隔兩年又三個多月，英偉達終于帶來了全新的GeForce RTX 50系顯卡。然而受到相關(guān)規(guī)定（滿足綜合運算性能TPP不超過4800的限制）的影響，RTX 5090的命運和RTX 4090一樣，化身RTX 5090 D進入國內(nèi)市場。同時，RTX 5090 D是沒有公版（Founder Edition）的，因此，高端玩家們就只能從一眾非公顯卡里面去挑選適合自己的那一款了。

而說起耕升的踏雪系列，可能大家第一時間更多會想到純白設(shè)計、中高端定位，很難會將過往最高只搭載過RTX 4070 TI SUPER芯片的它和旗艦顯卡聯(lián)想到一起。不過，當英偉達正式進入RTX 50系顯卡時代之后，踏雪也迎來的蛻變，出現(xiàn)在了耕升的RTX 5090 D的產(chǎn)品名單里面。在了解耕升 GeForce RTX 5090 D 踏雪之前，我們先來簡單回顧一下英偉達RTX 50系顯卡到底有什么新的特點。

關(guān)于RTX 5090 D

相較于上一代RTX 4090 D來看，RTX 5090 D在芯片的規(guī)模上有了較大幅度的升級。雖然制程工藝不變，依然是定制的TSMC 4N，但是，憑借更大的芯片面積和新一代的Blackwell核心架構(gòu)，后者的晶體管數(shù)量從763億個增加至922億個，CUDA核心數(shù)量增加將近50%，而且同樣是12個GPC，RTX 5090 D每個GPC里的TPC和SM數(shù)量增多了，TPC從6個增至8個，SM從12個增至16個。編解碼器同樣進行了迭代加碼，新增了4:2:2色度采樣視頻編解碼的能力，節(jié)省CPU的負擔，提升內(nèi)容創(chuàng)作者的工作效率。此外，RTX 5090 D還用上了容量更大、性能更強的GDDR7顯存，位寬也從384-bit增至512-bit。顯示輸出接口升級為3×DisplayPort 2.1b+1×HDMI 2.1b的配置，借助DSC技術(shù)最高支持4K@480Hz或8K@140Hz。

不過，這次的RTX 5090 D的命運并不像RTX 4090 D一樣在核心規(guī)格作出調(diào)整。我們從表面參數(shù)上基本看不出與RTX 5090有什么區(qū)別，對游戲性能造成的影響肯定是遠小于RTX 4090 D當初的。至于AI性能嘛，RTX 5090 D則從RTX 5090的3352 AI TOPS降至2375 AI TOPS，降幅約29%。

Blackwell架構(gòu)有多牛

不斷壯大的核心規(guī)模

其實，完全體的 Blackwell GB202共有12組GPC、24576個CUDA核心，RTX 5090 D上的GB202-250則用了其中的88.5%。從整體結(jié)構(gòu)圖上還能看到，GigaThread Engine調(diào)度器隔壁多了一個叫做AI-Management Processor（AI管理處理器，簡稱AMP）的幫手。AMP是一個位于管線前端的RISC-V處理器，支持Windows硬件加速GPU計劃，能夠更自由地管理GPU。CUDA、RT Core和Tensor Core三大部分在它的帶領(lǐng)下可以協(xié)調(diào)工作，實現(xiàn)AI響應速度提高的同時，游戲畫面也不會受到影響。

GPC段中，它所包含的TPC從Ada Lovelace的6組擴展到了8組。不過布局上還是一樣的，一個獨立的光柵引擎，兩個ROP分區(qū)（每個包含8個ROP單元），而每組TPC包含兩組SM。

SM段的變化是比較大的?，F(xiàn)在所有的32個CUDA核心都能執(zhí)行FP32/INT32運算了，因此INT32的算力可以說是增加了一倍。不過在一個時鐘周期里面，核心只能二選一運算。NVIDIA表示，這種設(shè)計是為神經(jīng)著色器優(yōu)化的。

Tensor Core和RT Core自然也有升級。第5代Tensor Core繼承了上一代架構(gòu)的特性，并新增了FP4、FP6的支持，還把FP8 Transformer Engine更新到了第二代。其中，F(xiàn)P4是個比較值得關(guān)注的點，它相比常規(guī)的FP16模型需要的顯存更小，在TensorRT模型優(yōu)化器的支持下能夠做到幾乎沒有質(zhì)量損失。

現(xiàn)在，Blackwell上的SER（著色器重排序） 2.0還可以將神經(jīng)網(wǎng)絡(luò)的負載直接發(fā)送至Tensor Core處理，加速神經(jīng)網(wǎng)絡(luò)渲染，效率達到了Ada Lovelace上的2倍，降低開銷之余還能提高精準度。

同時運作的話，LLM的響應時間變慢，游戲幀率也會受影響

而第4代RT Core中，新增的組件包括有Triangle Cluster Intersection Engine、Triangle Cluster Compression Engine以及Linear Swept Spheres。同時，Blackwell提供了兩倍于上一代Ada Lovelace的Ray-Triangle交叉檢測吞吐量。它們的出現(xiàn)，與Mega Geometry技術(shù)息息相關(guān)，起到一個打基礎(chǔ)的作用。

Mega Geometry是在TLAS（頂層加速結(jié)構(gòu)）和BLAS（底層加速結(jié)構(gòu)）兩個層級的架構(gòu)上做改進。BLAS一側(cè)的Cluster-level Acceleration Structures（CLAS，簇級加速結(jié)構(gòu)）最多能把256個三角形簇打包好，并將其作為BVH的基礎(chǔ)部分輸入，最后組成BVH樹。同時，CLAS不僅能在游戲里面按需創(chuàng)建，還能緩存到硬盤里面，后面的幀要用的話直接從硬盤加載。這樣一來，系統(tǒng)要處理的事情就少很多了。

TLAS還有個兄弟叫Partitioned Top-Level Acceleration Structure（PTLAS，分區(qū)頂層加速架構(gòu)），是針對復雜場景設(shè)計的。NVIDIA表示，在很多游戲里面，場景內(nèi)有不少物品比如建筑都是固定不變的，但是如果每一幀都要給它們構(gòu)建一次TLAS，肯定就不劃算。而正如名稱中的Partitioned分區(qū)所示，PTLAS把場景內(nèi)的物體分成了多個區(qū)域，一些用來放置靜態(tài)的物品，然后一個全局分區(qū)用于處理動態(tài)的物品，同樣可以做到減輕了系統(tǒng)的壓力，提高運算效率。