欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

DLSS 4讓幀數(shù)突破顯示極限! 技嘉RTX 5080超級雕顯卡評測

  發(fā)布時間:2025-02-17 08:26:44   作者:佚名   我要評論
今天繼續(xù)為大家?guī)鞟ORUS Geforce RTX 5080 MASTER 16G的顯卡評測,此前沒有關(guān)注RTX 5080首測的朋友,可以再詳細的了解一下

Blackwell 第5代Tensor Core

本代架構(gòu)除了RT Core進行了改進升級,專門負責AI及高性能計算的Tensor Core也迎來了重大升級。

與NVIDIA Ada Tensor Cores一樣,Blackwell架構(gòu)的Tensor Cores支持FP16、BF16、TF32、INT8、INT4和Hopper的FP8 Transformer Engine。

Blackwell還增加了對FP4和FP6 Tensor Core操作的新支持,以及新的第二代FP8 Transformer Engine。

FP4精度支持

FP4提供了一種較低的量化方法,類似于文件壓縮,可以減小模型大小,提升生成速度。與FP16精度(大多數(shù)型號發(fā)布的默認方法)相比,F(xiàn)P4只需要不到一半的顯存。FP4使用NVIDIA TensorRT提供的量化方法,幾乎沒有質(zhì)量損失。

例如,目前最強的AI繪畫模型FLUX.dev ,在FP16上需要超過23GB的顯存,而這意味著它只能由每一代的期間產(chǎn)品RTX 4090,RTX 5090和專業(yè)GPU來支持。

而對于FP4,F(xiàn)LUX.dev測試對顯存的需求將少于10GB,讓更多80級和70級的顯卡均能在本地運行。

在性能和效果對比上,使用帶有FP16的RTX 4090,F(xiàn)LUX.dev模型可以通過30個步驟在15秒內(nèi)生成圖像。使用帶有FP4的RTX 5090,只需5秒多一點就可以生成圖像。

DLSS 4

DLSS 4是本代RTX 50系顯卡帶來的重大更新,對于玩家來說它也是最能實際感受到的。最新版本DLSS 4帶來了新的多幀生成(MFG),具有更快的性能和更低的顯存使用等特性。包含超分辨率(SR),光線重建(RR)和深度學習抗鋸齒(DLAA)模型,可進一步增強圖像質(zhì)量和穩(wěn)定性。

這些新技術(shù)由RTX 50系GPU和第5代Tensor Cores支持,并由云端的NVIDIA Al超級計算機提供支持。不過對于手持RTX 40系或更早期顯卡的玩家還無緣體會。DLSS 4新增的多幀生成,目前僅支持RTX 50系顯卡。

Multi Frame Generation(多幀生成)

DLSS多幀生成能夠通過每個傳統(tǒng)渲染幀,生成多達三幀的額外幀來提高FPS。新的幀生成AI模型相比之前的幀生成方法快40%,使用的顯存減少30%,并且每個渲染幀只需要運行一次就可以生成多個幀。高效的AI模型代替了上一代的硬件光流模型,從而加快了光流場的生成速度,并顯著降低了生成額外幀的計算成本。

從生成幀的層面來說,上一代DLSS 3幀生成基于CPU的幀節(jié)奏,而這種方式可能會讓生成的幀與額外的幀混合在一起,導致每幀之間的幀節(jié)奏不太一致,影響平滑性。

為了解決生成多幀的復雜性,Blackwell架構(gòu)將幀節(jié)奏邏輯轉(zhuǎn)移到顯示引擎,使GPU能夠更精確地管理顯示時序,從而避免與額外幀混合的情況,進而提升幀生成的準確性及穩(wěn)定性。

而第5代Tensor Cores擁有更高的計算能力,這使得它們能夠更快地執(zhí)行計算光流和生成多幀的一系列AI模型。并更好地調(diào)度DLSS AI處理、圖形渲染和幀速度算法。

Transformer模型

此前DLSS所用的模型為Convolutional Neural Network,即我們熟悉的卷積神經(jīng)網(wǎng)絡(CNN),CNN的工作原理是將像素局部聚集在一起,并以樹的形式從低到高地進行分析數(shù)據(jù)。這種結(jié)構(gòu)的計算效率很高,這也是為什么它被稱為卷積神經(jīng)網(wǎng)絡。

而DLSS 4引入了基于Transformer的AI模型,用于DLSS超分辨率、DLSS光線重建和深度學習抗鋸齒(DLAA),從而提高圖像質(zhì)量和渲染平滑度?;赥ransformer模型體系結(jié)構(gòu)的神經(jīng)網(wǎng)絡,擅長處理涉及順序和結(jié)構(gòu)化數(shù)據(jù)的任務。簡單來說,就是Transformer能夠抓住“重點”,可以更好地理解和渲染復雜場景。

與CNN模型相比,Transformer更容易在更大的像素窗口中識別更遠距離的模式,具有一定的學習能力和“前瞻性”。

本代DLSS 4將基于CNN的神經(jīng)網(wǎng)絡結(jié)構(gòu),轉(zhuǎn)變?yōu)榛赥ransformer的神經(jīng)網(wǎng)絡結(jié)構(gòu),在許多場景下圖像質(zhì)量都有著顯著提升。

Shader Execution Reordering (SER) 2.0

Shader Execution Reordering(著色器重排序)是在RTX 40系架構(gòu)中引入的一項技術(shù),它可以使帶有光追的程序有效地重組GPU上的大量并行線程,以最大限度地利用硬件。

因為連貫執(zhí)行神經(jīng)工作負載的線程可以直接發(fā)送到Tensor Core,所以SER也顯著加速了神經(jīng)著色。在Blackwell架構(gòu)中,SER的核心重排序邏輯效率是原來的兩倍,減少了重排序開銷并提高了精度。從而進一步提高了該功能的有效性。這項功能更多地是為應用程序開發(fā)者而設計,它僅需一個小的API改動,即可執(zhí)行重排序操作,進而提升總體項目的負載性能。

測試平臺簡介

首先介紹一下測試平臺,為了保障AORUS Geforce RTX 5080 MASTER 16G的性能發(fā)揮,我們的平臺也再次進行了全面更新。

除了AORUS Geforce RTX 5080 MASTER 16G這張顯卡,處理器選擇了AMD R7 9800X3D游戲神U。

為了方便觀察DLSS 4在畫質(zhì)上的提升和4K高幀率帶來的游戲變化。我們選擇了技嘉FO32U2P OLED顯示器,這款顯示器采用了4K@240Hz的高分高刷規(guī)格,可完美適配DLSS 4的多幀生成。而99%的DCI-P3色域覆蓋,更可細致入微地觀察Transformer模型帶來的細節(jié)提升。

本次RTX 50系顯卡采用了帶寬速率更高的PCIe5.0x16,應用于顯卡的PCIe5.0x16帶寬速度高達128GB/s,用于固態(tài)硬盤的PCIe5.0x4也高達32GB/s,致態(tài)TiPro9000,實測順序讀寫速度高達14526.95MB/s和13869.24MB/s,達到“滿血”級別,可大幅提升操作系統(tǒng)/大型游戲/創(chuàng)作軟件的響應和加載速度。

首先看一下GPU-Z的參數(shù),最新的2.62版本已經(jīng)能夠識別GPU信息。AORUSGeforce RTX 5080 MASTER 16G采用GB203核心,采用與上一代相同的TSMC 4nm定制工藝(TSMC 4nm 4N NVIDIACustomProcess),芯片面積378mm2,相比于RTX 5090的750mm2小了一半。值得注意的是,在RTX 50系顯卡中,使用了PCIE×165.0帶寬。

相關(guān)文章

最新評論