DLSS 4讓幀數(shù)突破顯示極限! 技嘉RTX 5080超級(jí)雕顯卡評(píng)測(cè)

發(fā)布時(shí)間：2025-02-17 08:26:44 作者：佚名

今天繼續(xù)為大家?guī)?lái)AORUS Geforce RTX 5080 MASTER 16G的顯卡評(píng)測(cè)，此前沒(méi)有關(guān)注RTX 5080首測(cè)的朋友，可以再詳細(xì)的了解一下

Blackwell 第5代Tensor Core

本代架構(gòu)除了RT Core進(jìn)行了改進(jìn)升級(jí)，專(zhuān)門(mén)負(fù)責(zé)AI及高性能計(jì)算的Tensor Core也迎來(lái)了重大升級(jí)。

與NVIDIA Ada Tensor Cores一樣，Blackwell架構(gòu)的Tensor Cores支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。

Blackwell還增加了對(duì)FP4和FP6 Tensor Core操作的新支持，以及新的第二代FP8 Transformer Engine。

FP4精度支持

FP4提供了一種較低的量化方法，類(lèi)似于文件壓縮，可以減小模型大小，提升生成速度。與FP16精度（大多數(shù)型號(hào)發(fā)布的默認(rèn)方法）相比，F(xiàn)P4只需要不到一半的顯存。FP4使用NVIDIA TensorRT提供的量化方法，幾乎沒(méi)有質(zhì)量損失。

例如，目前最強(qiáng)的AI繪畫(huà)模型FLUX.dev ，在FP16上需要超過(guò)23GB的顯存，而這意味著它只能由每一代的期間產(chǎn)品RTX 4090，RTX 5090和專(zhuān)業(yè)GPU來(lái)支持。

而對(duì)于FP4，F(xiàn)LUX.dev測(cè)試對(duì)顯存的需求將少于10GB，讓更多80級(jí)和70級(jí)的顯卡均能在本地運(yùn)行。

在性能和效果對(duì)比上，使用帶有FP16的RTX 4090，F(xiàn)LUX.dev模型可以通過(guò)30個(gè)步驟在15秒內(nèi)生成圖像。使用帶有FP4的RTX 5090，只需5秒多一點(diǎn)就可以生成圖像。

DLSS 4

DLSS 4是本代RTX 50系顯卡帶來(lái)的重大更新，對(duì)于玩家來(lái)說(shuō)它也是最能實(shí)際感受到的。最新版本DLSS 4帶來(lái)了新的多幀生成（MFG），具有更快的性能和更低的顯存使用等特性。包含超分辨率（SR），光線(xiàn)重建（RR）和深度學(xué)習(xí)抗鋸齒（DLAA）模型，可進(jìn)一步增強(qiáng)圖像質(zhì)量和穩(wěn)定性。

這些新技術(shù)由RTX 50系GPU和第5代Tensor Cores支持，并由云端的NVIDIA Al超級(jí)計(jì)算機(jī)提供支持。不過(guò)對(duì)于手持RTX 40系或更早期顯卡的玩家還無(wú)緣體會(huì)。DLSS 4新增的多幀生成，目前僅支持RTX 50系顯卡。

Multi Frame Generation（多幀生成）

DLSS多幀生成能夠通過(guò)每個(gè)傳統(tǒng)渲染幀，生成多達(dá)三幀的額外幀來(lái)提高FPS。新的幀生成AI模型相比之前的幀生成方法快40%，使用的顯存減少30%，并且每個(gè)渲染幀只需要運(yùn)行一次就可以生成多個(gè)幀。高效的AI模型代替了上一代的硬件光流模型，從而加快了光流場(chǎng)的生成速度，并顯著降低了生成額外幀的計(jì)算成本。

從生成幀的層面來(lái)說(shuō)，上一代DLSS 3幀生成基于CPU的幀節(jié)奏，而這種方式可能會(huì)讓生成的幀與額外的幀混合在一起，導(dǎo)致每幀之間的幀節(jié)奏不太一致，影響平滑性。

為了解決生成多幀的復(fù)雜性，Blackwell架構(gòu)將幀節(jié)奏邏輯轉(zhuǎn)移到顯示引擎，使GPU能夠更精確地管理顯示時(shí)序，從而避免與額外幀混合的情況，進(jìn)而提升幀生成的準(zhǔn)確性及穩(wěn)定性。

而第5代Tensor Cores擁有更高的計(jì)算能力，這使得它們能夠更快地執(zhí)行計(jì)算光流和生成多幀的一系列AI模型。并更好地調(diào)度DLSS AI處理、圖形渲染和幀速度算法。

Transformer模型

此前DLSS所用的模型為Convolutional Neural Network，即我們熟悉的卷積神經(jīng)網(wǎng)絡(luò)（CNN），CNN的工作原理是將像素局部聚集在一起，并以樹(shù)的形式從低到高地進(jìn)行分析數(shù)據(jù)。這種結(jié)構(gòu)的計(jì)算效率很高，這也是為什么它被稱(chēng)為卷積神經(jīng)網(wǎng)絡(luò)。

而DLSS 4引入了基于Transformer的AI模型，用于DLSS超分辨率、DLSS光線(xiàn)重建和深度學(xué)習(xí)抗鋸齒（DLAA），從而提高圖像質(zhì)量和渲染平滑度?；赥ransformer模型體系結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，擅長(zhǎng)處理涉及順序和結(jié)構(gòu)化數(shù)據(jù)的任務(wù)。簡(jiǎn)單來(lái)說(shuō)，就是Transformer能夠抓住“重點(diǎn)”，可以更好地理解和渲染復(fù)雜場(chǎng)景。

與CNN模型相比，Transformer更容易在更大的像素窗口中識(shí)別更遠(yuǎn)距離的模式，具有一定的學(xué)習(xí)能力和“前瞻性”。

本代DLSS 4將基于CNN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，轉(zhuǎn)變?yōu)榛赥ransformer的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，在許多場(chǎng)景下圖像質(zhì)量都有著顯著提升。

Shader Execution Reordering (SER) 2.0

Shader Execution Reordering（著色器重排序）是在RTX 40系架構(gòu)中引入的一項(xiàng)技術(shù)，它可以使帶有光追的程序有效地重組GPU上的大量并行線(xiàn)程，以最大限度地利用硬件。

因?yàn)檫B貫執(zhí)行神經(jīng)工作負(fù)載的線(xiàn)程可以直接發(fā)送到Tensor Core，所以SER也顯著加速了神經(jīng)著色。在Blackwell架構(gòu)中，SER的核心重排序邏輯效率是原來(lái)的兩倍，減少了重排序開(kāi)銷(xiāo)并提高了精度。從而進(jìn)一步提高了該功能的有效性。這項(xiàng)功能更多地是為應(yīng)用程序開(kāi)發(fā)者而設(shè)計(jì)，它僅需一個(gè)小的API改動(dòng)，即可執(zhí)行重排序操作，進(jìn)而提升總體項(xiàng)目的負(fù)載性能。

測(cè)試平臺(tái)簡(jiǎn)介

首先介紹一下測(cè)試平臺(tái)，為了保障AORUS Geforce RTX 5080 MASTER 16G的性能發(fā)揮，我們的平臺(tái)也再次進(jìn)行了全面更新。

除了AORUS Geforce RTX 5080 MASTER 16G這張顯卡，處理器選擇了AMD R7 9800X3D游戲神U。

為了方便觀(guān)察DLSS 4在畫(huà)質(zhì)上的提升和4K高幀率帶來(lái)的游戲變化。我們選擇了技嘉FO32U2P OLED顯示器，這款顯示器采用了4K@240Hz的高分高刷規(guī)格，可完美適配DLSS 4的多幀生成。而99%的DCI-P3色域覆蓋，更可細(xì)致入微地觀(guān)察Transformer模型帶來(lái)的細(xì)節(jié)提升。

本次RTX 50系顯卡采用了帶寬速率更高的PCIe5.0x16，應(yīng)用于顯卡的PCIe5.0x16帶寬速度高達(dá)128GB/s，用于固態(tài)硬盤(pán)的PCIe5.0x4也高達(dá)32GB/s，致態(tài)TiPro9000，實(shí)測(cè)順序讀寫(xiě)速度高達(dá)14526.95MB/s和13869.24MB/s，達(dá)到“滿(mǎn)血”級(jí)別，可大幅提升操作系統(tǒng)/大型游戲/創(chuàng)作軟件的響應(yīng)和加載速度。

首先看一下GPU-Z的參數(shù)，最新的2.62版本已經(jīng)能夠識(shí)別GPU信息。AORUSGeforce RTX 5080 MASTER 16G采用GB203核心，采用與上一代相同的TSMC 4nm定制工藝（TSMC 4nm 4N NVIDIACustomProcess），芯片面積378mm2，相比于RTX 5090的750mm2小了一半。值得注意的是，在RTX 50系顯卡中，使用了PCIE×165.0帶寬。

上一頁(yè) 1 2 3 45 6 7 8 下一頁(yè) 閱讀全文