DLSS 4讓幀數(shù)突破顯示極限! 技嘉RTX 5080超級(jí)雕顯卡評(píng)測(cè)

發(fā)布時(shí)間：2025-02-17 08:26:44 作者：佚名

今天繼續(xù)為大家?guī)鞟ORUS Geforce RTX 5080 MASTER 16G的顯卡評(píng)測(cè)，此前沒有關(guān)注RTX 5080首測(cè)的朋友，可以再詳細(xì)的了解一下

完整的GB202核心包含192個(gè)SM單元，每個(gè)SM包含128個(gè)CUDA核心；1個(gè)第4代RT Core；4個(gè)第5代Tensor Core；4個(gè)紋理單元。1個(gè)256KB的寄存器文件和128KB的L1共享緩存，它可以根據(jù)圖形和計(jì)算工作負(fù)載的需要配置不同的大小。

在Blackwell架構(gòu)的SM單元中，INT32整數(shù)運(yùn)算的數(shù)量增加了一倍。與Ada架構(gòu)的SM單元相比，實(shí)現(xiàn)了INT32與FP32內(nèi)核的完全統(tǒng)一。不過在時(shí)鐘周期內(nèi)，統(tǒng)一內(nèi)核只能作為FP32或INT32內(nèi)核運(yùn)行。

與Blackwell架構(gòu)一同推出的還有GDDR7顯存，采用pam3信號(hào)技術(shù)，它有著更高頻率與更低電壓的特點(diǎn)。

本代RTX 5090配備28 Gbps GDDR7顯存，峰值顯存帶寬可達(dá)1792GB/s/秒，而RTX 5080配備更高的30 Gbps時(shí)鐘頻率的GDDR7顯存，峰值內(nèi)存帶寬可達(dá)960 GB/秒。結(jié)合新的引腳編碼方案，GDDR7實(shí)現(xiàn)了顯著增強(qiáng)的信噪比（SNR）。

通過增加信道密度、改進(jìn)的pam3信噪比、先進(jìn)的均衡方案、重新設(shè)計(jì)的時(shí)鐘架構(gòu)和增強(qiáng)的I/O訓(xùn)練，GDDR7提供了更高的帶寬。這些進(jìn)步還顯著提高了能源效率，提供了更好的性能和延長(zhǎng)電池壽命，特別是在移動(dòng)端，或功率受限的系統(tǒng)中。

Blackwell 第4代RT Core

在第4代RT Core中，簡(jiǎn)單來說它相比Ada架構(gòu)，在渲染光線追蹤場(chǎng)景時(shí)，提供了兩倍光線三角形相交測(cè)試吞吐量，并引入了Mega Geometry的結(jié)構(gòu)算法。

Opacity Micromap Engine

不透明微引擎在Ada架構(gòu)中已經(jīng)引入，這里不再過多講述，它主要的作用是優(yōu)化光線追蹤渲染，可大幅減輕著色器的工作負(fù)擔(dān)。

比如樹葉之類的復(fù)雜物體，不同的光線都會(huì)影響它的表現(xiàn)狀態(tài)，以及樹葉之間的光線反彈，所以對(duì)于光線追蹤的計(jì)算量是巨大的。

不過Opacity Micromap Engine可以將光線追蹤特性烘焙到不透明蒙版中，所以那些不規(guī)則形狀和半透明的對(duì)象，也就能夠更快更精準(zhǔn)的渲染出來，從而極大減輕著色器的工作負(fù)擔(dān)。

RTX Mega Geometry

除了上面提到的Opacity Micromap Engine，在BlackWell架構(gòu)中，還引入了Mega Geometry（大型幾何）的運(yùn)算概念。其中包含了Triangle ClusterIntersection Engine、Linear Swept Spheres等新硬件。

新的Blackwell RT核心包含一個(gè)Triangle ClusterIntersection Engine三角形群集交集引擎，它能夠進(jìn)一步加速大型幾何的光線追蹤，同時(shí)它的工作還包含標(biāo)準(zhǔn)的光線三角形交集測(cè)試。Linear Swept Spheres則主要用于光線追蹤中精細(xì)的幾何形狀，比如發(fā)絲。

RTX Mega Geometry的理念與虛幻5引擎的Nanite虛擬微多邊形幾何體系統(tǒng)相同，在現(xiàn)代游戲中，模型更加細(xì)致，需要渲染的工作量大幅增加，如果全部按照最精細(xì)的級(jí)別處理，將會(huì)耗費(fèi)極大的計(jì)算資源，所以將LOD分級(jí)便應(yīng)運(yùn)而生。

簡(jiǎn)單來說，就是根據(jù)一個(gè)物體距離攝像機(jī)的遠(yuǎn)近，來調(diào)節(jié)物體的細(xì)節(jié)水平。此前《黑神話：悟空》便應(yīng)用了這樣的技術(shù)，它消除了LOD的繁瑣任務(wù)，可以掃描并導(dǎo)入極高精細(xì)程度的模型。并且，這不會(huì)影響性能。仍然可以獲得實(shí)時(shí)幀速率。

在RTX Mega Geometry中提供了新的BVH構(gòu)建功能，它采用三角形集群作為一級(jí)基元。新的集群加速結(jié)構(gòu)Cluster-level Acceleration Structures（CLAS）可以從256個(gè)三角形空間緊湊批次中生成，然后使用CLAS集合作為輸入來構(gòu)建最終的BVH。

不過虛幻5引擎并非專為Blackwell而設(shè)計(jì)，RTX Mega Geometry的工作只是更高效的讓游戲引擎調(diào)用API。由于其輸入?yún)?shù)完全由GPU內(nèi)存驅(qū)動(dòng)，游戲引擎可以在GPU上更高效的運(yùn)行LOD選擇、動(dòng)畫、剔除等邏輯。同時(shí)最大限度減少對(duì)CPU的往返，進(jìn)而減少與BVH管理相關(guān)的CPU開銷。

然而在更加精細(xì)化的游戲引擎中，按照傳統(tǒng)的流程，應(yīng)用程序必須從場(chǎng)景中的每一幀的所有對(duì)象中構(gòu)建一個(gè)頂層加速結(jié)構(gòu)。而隨著更大的世界規(guī)模以及繁雜的場(chǎng)景物體，僅靠LOD分級(jí)仍然難以實(shí)現(xiàn)質(zhì)的變化。

為了解決這個(gè)問題，RTX Mega Geometry引入了一種新型的頂層加速結(jié)構(gòu)（TLAS），稱為分區(qū)頂層加速結(jié)構(gòu)（PTLAS）。

它無需在每一幀都從頭開始構(gòu)建一個(gè)新的TLAS，PTLAS能夠辨別從一幀到另一幀，哪些對(duì)象是靜態(tài)的。

應(yīng)用程序通過將對(duì)象聚合到分區(qū)中，并僅更新那些已更改的對(duì)象來節(jié)省開銷。

例如，游戲可以將靜態(tài)游戲世界的各個(gè)部分放入所屬的分區(qū)中，同時(shí)將動(dòng)態(tài)對(duì)象分離到每幀重建的“全局分區(qū)”中。與傳統(tǒng)的TLAS相比，請(qǐng)求的分區(qū)更新越少，節(jié)省的運(yùn)行時(shí)開銷就越大。

另外好消息是，RTX Mega Geometry可通過底層API進(jìn)行擴(kuò)展支持，適用于所有支持光線追蹤的NVIDIA GPU，也就是從圖靈架構(gòu)（Turing）開始。

不過Blackwell的第4代RT Core是專門為RTXMega Geometry而設(shè)計(jì)的，硬件中的特殊集群引擎實(shí)現(xiàn)了幾何和BVH數(shù)據(jù)的新壓縮方案，同時(shí)是第3代RT Core光線三角形相交率的2倍。因此，Blackwell架構(gòu)可以實(shí)現(xiàn)用更小的顯存，更高效的處理這些內(nèi)容。