DLSS 4讓幀數(shù)突破顯示極限! 技嘉RTX 5080超級(jí)雕顯卡評(píng)測(cè)

Blackwell 第5代Tensor Core
本代架構(gòu)除了RT Core進(jìn)行了改進(jìn)升級(jí),專(zhuān)門(mén)負(fù)責(zé)AI及高性能計(jì)算的Tensor Core也迎來(lái)了重大升級(jí)。
與NVIDIA Ada Tensor Cores一樣,Blackwell架構(gòu)的Tensor Cores支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。
Blackwell還增加了對(duì)FP4和FP6 Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。
FP4精度支持
FP4提供了一種較低的量化方法,類(lèi)似于文件壓縮,可以減小模型大小,提升生成速度。與FP16精度(大多數(shù)型號(hào)發(fā)布的默認(rèn)方法)相比,F(xiàn)P4只需要不到一半的顯存。FP4使用NVIDIA TensorRT提供的量化方法,幾乎沒(méi)有質(zhì)量損失。
例如,目前最強(qiáng)的AI繪畫(huà)模型FLUX.dev ,在FP16上需要超過(guò)23GB的顯存,而這意味著它只能由每一代的期間產(chǎn)品RTX 4090,RTX 5090和專(zhuān)業(yè)GPU來(lái)支持。
而對(duì)于FP4,F(xiàn)LUX.dev測(cè)試對(duì)顯存的需求將少于10GB,讓更多80級(jí)和70級(jí)的顯卡均能在本地運(yùn)行。
在性能和效果對(duì)比上,使用帶有FP16的RTX 4090,F(xiàn)LUX.dev模型可以通過(guò)30個(gè)步驟在15秒內(nèi)生成圖像。使用帶有FP4的RTX 5090,只需5秒多一點(diǎn)就可以生成圖像。
DLSS 4
DLSS 4是本代RTX 50系顯卡帶來(lái)的重大更新,對(duì)于玩家來(lái)說(shuō)它也是最能實(shí)際感受到的。最新版本DLSS 4帶來(lái)了新的多幀生成(MFG),具有更快的性能和更低的顯存使用等特性。包含超分辨率(SR),光線重建(RR)和深度學(xué)習(xí)抗鋸齒(DLAA)模型,可進(jìn)一步增強(qiáng)圖像質(zhì)量和穩(wěn)定性。
這些新技術(shù)由RTX 50系GPU和第5代Tensor Cores支持,并由云端的NVIDIA Al超級(jí)計(jì)算機(jī)提供支持。不過(guò)對(duì)于手持RTX 40系或更早期顯卡的玩家還無(wú)緣體會(huì)。DLSS 4新增的多幀生成,目前僅支持RTX 50系顯卡。
Multi Frame Generation(多幀生成)
DLSS多幀生成能夠通過(guò)每個(gè)傳統(tǒng)渲染幀,生成多達(dá)三幀的額外幀來(lái)提高FPS。新的幀生成AI模型相比之前的幀生成方法快40%,使用的顯存減少30%,并且每個(gè)渲染幀只需要運(yùn)行一次就可以生成多個(gè)幀。高效的AI模型代替了上一代的硬件光流模型,從而加快了光流場(chǎng)的生成速度,并顯著降低了生成額外幀的計(jì)算成本。
從生成幀的層面來(lái)說(shuō),上一代DLSS 3幀生成基于CPU的幀節(jié)奏,而這種方式可能會(huì)讓生成的幀與額外的幀混合在一起,導(dǎo)致每幀之間的幀節(jié)奏不太一致,影響平滑性。
為了解決生成多幀的復(fù)雜性,Blackwell架構(gòu)將幀節(jié)奏邏輯轉(zhuǎn)移到顯示引擎,使GPU能夠更精確地管理顯示時(shí)序,從而避免與額外幀混合的情況,進(jìn)而提升幀生成的準(zhǔn)確性及穩(wěn)定性。
而第5代Tensor Cores擁有更高的計(jì)算能力,這使得它們能夠更快地執(zhí)行計(jì)算光流和生成多幀的一系列AI模型。并更好地調(diào)度DLSS AI處理、圖形渲染和幀速度算法。
Transformer模型
此前DLSS所用的模型為Convolutional Neural Network,即我們熟悉的卷積神經(jīng)網(wǎng)絡(luò)(CNN),CNN的工作原理是將像素局部聚集在一起,并以樹(shù)的形式從低到高地進(jìn)行分析數(shù)據(jù)。這種結(jié)構(gòu)的計(jì)算效率很高,這也是為什么它被稱(chēng)為卷積神經(jīng)網(wǎng)絡(luò)。
而DLSS 4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光線重建和深度學(xué)習(xí)抗鋸齒(DLAA),從而提高圖像質(zhì)量和渲染平滑度?;赥ransformer模型體系結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),擅長(zhǎng)處理涉及順序和結(jié)構(gòu)化數(shù)據(jù)的任務(wù)。簡(jiǎn)單來(lái)說(shuō),就是Transformer能夠抓住“重點(diǎn)”,可以更好地理解和渲染復(fù)雜場(chǎng)景。
與CNN模型相比,Transformer更容易在更大的像素窗口中識(shí)別更遠(yuǎn)距離的模式,具有一定的學(xué)習(xí)能力和“前瞻性”。
本代DLSS 4將基于CNN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),轉(zhuǎn)變?yōu)榛赥ransformer的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在許多場(chǎng)景下圖像質(zhì)量都有著顯著提升。
Shader Execution Reordering (SER) 2.0
Shader Execution Reordering(著色器重排序)是在RTX 40系架構(gòu)中引入的一項(xiàng)技術(shù),它可以使帶有光追的程序有效地重組GPU上的大量并行線程,以最大限度地利用硬件。
因?yàn)檫B貫執(zhí)行神經(jīng)工作負(fù)載的線程可以直接發(fā)送到Tensor Core,所以SER也顯著加速了神經(jīng)著色。在Blackwell架構(gòu)中,SER的核心重排序邏輯效率是原來(lái)的兩倍,減少了重排序開(kāi)銷(xiāo)并提高了精度。從而進(jìn)一步提高了該功能的有效性。這項(xiàng)功能更多地是為應(yīng)用程序開(kāi)發(fā)者而設(shè)計(jì),它僅需一個(gè)小的API改動(dòng),即可執(zhí)行重排序操作,進(jìn)而提升總體項(xiàng)目的負(fù)載性能。
測(cè)試平臺(tái)簡(jiǎn)介
首先介紹一下測(cè)試平臺(tái),為了保障AORUS Geforce RTX 5080 MASTER 16G的性能發(fā)揮,我們的平臺(tái)也再次進(jìn)行了全面更新。
除了AORUS Geforce RTX 5080 MASTER 16G這張顯卡,處理器選擇了AMD R7 9800X3D游戲神U。
為了方便觀察DLSS 4在畫(huà)質(zhì)上的提升和4K高幀率帶來(lái)的游戲變化。我們選擇了技嘉FO32U2P OLED顯示器,這款顯示器采用了4K@240Hz的高分高刷規(guī)格,可完美適配DLSS 4的多幀生成。而99%的DCI-P3色域覆蓋,更可細(xì)致入微地觀察Transformer模型帶來(lái)的細(xì)節(jié)提升。
本次RTX 50系顯卡采用了帶寬速率更高的PCIe5.0x16,應(yīng)用于顯卡的PCIe5.0x16帶寬速度高達(dá)128GB/s,用于固態(tài)硬盤(pán)的PCIe5.0x4也高達(dá)32GB/s,致態(tài)TiPro9000,實(shí)測(cè)順序讀寫(xiě)速度高達(dá)14526.95MB/s和13869.24MB/s,達(dá)到“滿血”級(jí)別,可大幅提升操作系統(tǒng)/大型游戲/創(chuàng)作軟件的響應(yīng)和加載速度。
首先看一下GPU-Z的參數(shù),最新的2.62版本已經(jīng)能夠識(shí)別GPU信息。AORUSGeforce RTX 5080 MASTER 16G采用GB203核心,采用與上一代相同的TSMC 4nm定制工藝(TSMC 4nm 4N NVIDIACustomProcess),芯片面積378mm2,相比于RTX 5090的750mm2小了一半。值得注意的是,在RTX 50系顯卡中,使用了PCIE×165.0帶寬。
相關(guān)文章
DLSS 4再次定義電子游戲! NVIDIA GeForce RTX 5080 FE顯卡評(píng)測(cè)
RTX 5080卻是有著NVIDIA自家推出的 Founders Edition公版設(shè)計(jì)產(chǎn)品,而且這次的Founders Edition設(shè)計(jì)非常精湛,稱(chēng)其為工業(yè)藝術(shù)品也毫不為過(guò),下面我們就來(lái)看看詳細(xì)測(cè)評(píng)2025-02-14DLSS 4大力水手更猛了! iGame GeForce RTX 5080 Ultra W OC 16GB評(píng)測(cè)
今天我們來(lái)看看七彩虹 iGame GeForce RTX 5080 Ultra W OC 16GB顯卡,帶著對(duì)于RTX 50系顯卡性能與游戲表現(xiàn)的好奇,搶先幫大家測(cè)試了一波,如果你也對(duì)RTX 5080感興趣,可以2025-02-14黑金設(shè)計(jì)搭配 DLSS 4! 影馳GeForce RTX 5080魔刃顯卡評(píng)測(cè)
今天,我們就將目光投向影馳 GeForce RTX 5080 魔刃顯卡,這款顯卡定位 RTX 50 系列中的中高端市場(chǎng),下面我們就來(lái)看看詳細(xì)測(cè)評(píng)2025-02-11經(jīng)典性價(jià)比次旗艦乘上DLSS 4東風(fēng)! 耕升 GeForce RTX 5080 追風(fēng)顯卡評(píng)測(cè)
耕升推出了新一代GeForce RTX 50系列產(chǎn)品,包括炫光、踏雪、追風(fēng)等系列,今天我們就來(lái)看看追風(fēng)顯卡性能測(cè)評(píng)2025-02-11DLSS 4性能全力沖鋒! 耕升RTX5080炫光OC顯卡拆解超頻測(cè)試
繼GeForce RTX 5090 D之后,RTX 5080也相約面世,在這里要為大家推薦的是來(lái)自耕升的玩燈高手——GeForce RTX 5080炫光OC2025-02-08GeForce RTX 5080和RTX 4090誰(shuí)是顯卡之王? 7款游戲性能實(shí)測(cè)
RTX 5080上市后,性能備受關(guān)注,它和上一代旗艦RTX 4090誰(shuí)更強(qiáng)?一種論調(diào)聲稱(chēng)其性能非常炸裂,另外一種論調(diào)聲稱(chēng)其性能提升幅度并不大,下面我們就來(lái)看看實(shí)際測(cè)評(píng)2025-02-08DLSS4開(kāi)啟電競(jìng)級(jí)3A新時(shí)代 技嘉RTX 5080 AERO雪鷹顯卡全面評(píng)測(cè)
作為全球一線板卡廠商的技嘉,為玩家們推出了超級(jí)雕(黑/白)、魔鷹、雪鷹和風(fēng)魔、等一系列產(chǎn)品線的旗艦顯卡,今天我們就來(lái)看看RTX 5080 AERO雪鷹顯卡測(cè)評(píng)2025-02-08