SUPER超能力 NVIDIA GeForce RTX 4070 SUPER顯卡首發(fā)評測

發(fā)布時間：2024-01-17 09:31:44 作者：佚名

本次我們測試的 GEFORCE RTX 4070 SUPER，按照 NVIDA 的定位，RTX 4070 SUPER 是目前非常適合 2K 高刷游戲的消費級顯卡，并擁有一定的 AI 計算能力，下面我們就來看看詳細(xì)測評

在NVIDIA的定義中，GeForce RTX SUPER系列的定位相當(dāng)于版本進(jìn)階。與Ti系列作為不同數(shù)字型號之間產(chǎn)品線完善不同，SUPER就是沖著提升對應(yīng)型號性能與性價比去的。在CES 2024上首次展出的GeForce RTX 4070 SUPER就是其中一個很好的例子，不僅帶來更高的性價比，生成式AI創(chuàng)作上也得到進(jìn)一步創(chuàng)新，戰(zhàn)斗力十足。

更確切的說，GeForce RTX 4070 SUPER是當(dāng)下最有機(jī)會進(jìn)入教科書的產(chǎn)品之一，同樣是基于AD104打造，但核心數(shù)量已然向GeForce RTX 4070 Ti靠攏，包括7168個CUDA Core，224個第四代Tensor Core和56個第三代RT Core，重點是L2緩存一步拉滿至與GeForce RTX 4070 Ti相同的48MB，誠意已然拉滿。

重點是GeForce RTX 4070 SUPER的發(fā)布定價與GeForce RTX 4070發(fā)布之初相同的599美元，這意味著GeForce RTX 4070 SUPER在相同的價格策略下?lián)碛袩o限接近于GeForce RTX 4070 Ti的表現(xiàn)，特別是當(dāng)下熱門的AI加速，DLSS 3.5游戲，以及生成式AI和NVIDIA Studio特性，在GeForce RTX 4070 SUPER上都應(yīng)該會著高性價比且強(qiáng)勢的表現(xiàn)。

那么事實真的如此？按照慣例，在性能解禁的當(dāng)下，讓我們奉上NVIDIA GeForce RTX 4070 SUPER Founders Edition的首發(fā)評測。

AD104-350新范式

AD104擁有廣泛且成熟的產(chǎn)品線陣營，GeForce RTX 4070，GeForce RTX 4070 Ti，移動端的GeForce RTX 4080，以及專業(yè)領(lǐng)域的RTX 4000 Ada Generation，RTX 4500 Ada Generation都是基于AD104打造的。

GeForce RTX 4070 SUPER所采用的AD104-350-A1已經(jīng)非常接近于完全體的AD104，同時繼承了所有AD102、AD103上的功能特性，包括對DirectX 12 Ultimate很好的支持，芯片面積達(dá)到294mm2，晶體管數(shù)量358億個，采用臺積電4N NVIDIA定制工藝，并圍繞第三代RT Core，第四代Tensor Core以及大量核心所構(gòu)建起來的芯片。

我們知道Ada Lovelace架構(gòu)GPU中包含了若干個GPC（Graphics Processing Clusters，圖形處理集群），GPC下包含若干個TPC（Texture Processing Clusters，紋理處理簇），再往下就是SM、CUDA、RT Core、Tensor Core等等。每個GPC之間包含的TPC數(shù)量相等，當(dāng)GPU進(jìn)行定位區(qū)分的時候再進(jìn)行GPC、TPC的物理屏蔽實現(xiàn)。

完整的AD104包含5個GPC，每個GPC包含6組TPC，每組TPC包含2個流式多處理器（Streaming Multiprocessors，SM）。其中每個SM包含4個處理塊，每個處理塊包含1個64KB寄存器堆，1個L0指令緩存，1個Warp調(diào)度器，1個調(diào)度單元，4個加載/存儲單元，1個特殊功能單元（Special Function Unit，SFU）用于執(zhí)行超越函數(shù)指令（比如正弦、余弦、倒數(shù)、平方根等）和圖形差值算法指令。

每個SM下的128個CUDA Core隨處理塊分成4組，每組CUDA由16個專門用于FP32的CUDA Core，16個可以在FP32和INT32之間切換的CUDA Core組成。同時每個SM還包含4個第四代Tensor Core，1個第三代RT Core，成為后續(xù)游戲?qū)崟r光線追蹤和DLSS 3.5性能提升的重要前提。

GeForce RTX 4070 SUPER的厲害之處在于，它與GeForce RTX 4070 Ti相當(dāng)接近，僅在GeForce RTX 4070 Ti的基礎(chǔ)上減少2個TPC，即4個SM，最終擁有56組SM，7168個CUDA Core，224個第四代Tensor Core，56個第三代RT Core，224個紋理單元，80個ROP，并搭配192-bit 12GB GDDR6X。

在緩存方面GeForce RTX 4070 SUPER也毫不吝嗇，配合56組SM，每組SM搭配128KB L1緩存，因此L1緩存容量達(dá)到了7,168KB，L2緩存則沒有任何減少，達(dá)到49,152KB，也就是48MB。

這相對于GeForce RTX 30系列的GPU而言是給非常龐大的數(shù)字，就算是上一代旗艦GeForce RTX 3090的L2緩存也不過48MB，GeForce RTX 3070僅有4MB。這意味著GeForce RTX 4070 SUPER的L2緩存是GeForce RTX 3070的12倍，這將為后續(xù)的光線追蹤性能發(fā)揮、AI加速奠定了很好的基礎(chǔ)。

具體對比表格參考如下：

黑化版的FE

與GeForce RTX 4070 Founders Edition一樣，GeForce RTX 4070 SUPER Founders Edition也只占2個槽位，長度也與RTX 4070 FE相同，可以輕松放進(jìn)ATX機(jī)箱或者更小的機(jī)型中。

在整體的設(shè)計元素上，GeForce RTX 4070 SUPER Founders Edition偏向于深黑色，包括固定中框的處理使用了深黑色外觀，上手來看實現(xiàn)的更高級了。散熱設(shè)計則與RTX 4070 FE相似，在GPU貼合底座使用了銅基座設(shè)計，并通過4根熱管將熱量快速擴(kuò)展到鋁制散熱片中，同時雙軸風(fēng)扇也提供了更好的氣體流動性，能夠提供比GeForce RTX 3070 Ti FE更強(qiáng)的20%氣體流動提升。

特別是針對12GB GDDR6X的發(fā)熱量，GeForce RTX 4070 SUPER Founders Edition使用了8層PCB板以確保給GPU和vRAM提供干凈的電流，并使用了6相電源供電設(shè)計，其中2相被設(shè)計為專為21Gbps的GDDR6X供電。

在接口設(shè)計上，GeForce RTX 4070 SUPER Founders Edition供電使用了16pin（12VHPWR）接口設(shè)計，隨機(jī)包裝配送了2x8pin轉(zhuǎn)接線。輸出接口則包括3個DisplayPort 1.4a和1個HDMI 2.1接口。

雖然GeForce RTX 4070 SUPER Founders Edition的硬件參數(shù)已經(jīng)接近于RTX 4070 Ti，但TGP僅需要220W，因此在壓力測試中GeForce RTX 4070 SUPER Founders Edition的散熱模組能夠輕松的穩(wěn)定住GPU和顯存的發(fā)熱量。例如在壓力測試下GPU溫度最高為68℃，通過紅外線測試可以看到GeForce RTX 4070 SUPER Founders Edition表面最高溫度在PCB部分，為67.7℃。

與此同時，GeForce RTX 4070 SUPER Founders Edition的游戲功耗表現(xiàn)也非常出色，這里我們對5款游戲的2K分辨率最高畫質(zhì)下RTX 4070 SUPER實際功耗進(jìn)行比較，可以2K分辨率下很難超過200W功耗，TGP 220W已經(jīng)足夠GeForce RTX 4070 SUPER使用。

DLSS 3.5超進(jìn)化

如開頭所言，GeForce RTX 4070 SUPER性能提升源自于核心數(shù)量增加以及更大的緩存設(shè)計。特別是GeForce RTX 4070 SUPER的L2緩存達(dá)到了與GeForce RTX 4070 Ti相同的48MB，并且CUDA Core數(shù)量，第三代RT Core和第四代Tensor Core數(shù)量都接近GeForce RTX 4070 Ti。

在探究GeForce RTX 4070 SUPER的表現(xiàn)之前，慣例放出測試平臺，包括最新的Core i9-14900K、ROG MAXIMUS Z790 DARK HERO、G.SKILL Trident Z5 DDR5-7200 16GBx2，并配以Thermaltake TPI RGB PLUS 1250W電源作為支持，在GPU對比上則使用GeForce RTX 4070、GeForce RTX 3070 Ti、GeForce RTX 4070 Ti等GPU作為參考。

在基礎(chǔ)性能測試中，主要參考檢測DirectX 11和DirectX 12性能的3DMark Time Spy，3DMark Time Spy Extreme，3DMark Fire Strike Extreme，3DMark Fire Strike Ultra，Port Royal。

GeForce RTX 4070 SUPER距離GeForce RTX 4070 Ti基準(zhǔn)測試相差性能只有4%到8%之間，同時GeForce RTX 4070 SUPER比GeForce RTX 4070快了15%到23%，GeForce RTX 4070 SUPER也比GeForce RTX 3070 Ti快了26%到40%。這意味著GeForce RTX 4070 SUPER實際性能表現(xiàn)高于RTX 3090，同時功耗只需要220W，效率非常高。

特別是DLSS 3和DLSS 3.5以后版本在GeForce RTX 40系列上的應(yīng)用，讓GeForce RTX 4070 SUPER的效率得到進(jìn)一步的提升。這得益于第四代Tensor Core性能提升幅度巨大，包括的FP16、BF16、TF32、INT8、INT4性能相對前一代提升兩倍以上，并支持商業(yè)Hopper GPU架構(gòu)中出現(xiàn)的FP8 Transformer Engine。并且輔以光流加速器（Optical Flow Acceleration，OFA）與DLSS相結(jié)合的辦法，構(gòu)建出了一個更為立體的分析方式，讓GPU實際執(zhí)行過程壓縮到原本的 1/8，更多的工作由DLSS 3及以后的版本完成。

而DLSS 3.5更近一部，它是一套基于AI，讓畫質(zhì)和幀率同時提升的解決方案，同時包含DLSS幀生成（FG）與光線重建（RR, Ray Reconstruction）技術(shù)搭配，再加上超分辨率（Super Resolution）、DLAA、幀生成（Frame Generation）多種技術(shù)融合，讓游戲效率表現(xiàn)更為突出。

在理論測試中，我們先引用3DMark DLSS 3功能測試作為參考，能夠看出GeForce RTX 4070 SUPER的DLSS表現(xiàn)要比GeForce RTX 3070 Ti高出了115%，比GeForce RTX 4070高出了15%。

游戲測試部分，我們以近期即將上線的多人武俠開放世界RPG游戲《燕云十六聲》作為例子，這款游戲來自Everstone工作室，主打單人模式和多人模式下的劇情、畫面沉浸體驗，僅在黃鐘測試階段便廣受好評，仍處在調(diào)試階段的游戲畫面已經(jīng)達(dá)到了相當(dāng)精細(xì)的效果。

《燕云十六聲》無疑成為GeForce RTX 4070 SUPER理想的測試場景之一。為了保證游戲流暢性，《燕云十六聲》會根據(jù)GPU性能鎖定畫質(zhì)等級，GeForce RTX 4070 SUPER最高可以開啟超高檔位。這時候在4K分辨率下，不做任何設(shè)置的GeForce RTX 4070 SUPER已經(jīng)相當(dāng)能打，但顯然這是遠(yuǎn)遠(yuǎn)不夠的，重點便是開啟DLSS 3。

先說畫質(zhì)，這里遠(yuǎn)處山林在柔霧下光影的細(xì)節(jié)處理，DLSS 3開啟之后過度變得更為自然。

再比如光照下屋檐的光斑處理，以及同一場景中柔霧展示，開啟DLSS 3后的《燕云十六聲》多了意境感。

當(dāng)然更重要的還是幀率提升，4K分辨率超高畫質(zhì)下，GeForce RTX 4070 SUPER可以讓游戲的幀率維持在接近60FPS的程度，而一旦開啟DLSS，引入DLSS幀生成（FG），情況立馬不一樣了，幀率一下提升了170%。GeForce RTX 4070提升幅度也很明顯，但實際表現(xiàn)仍然與GeForce RTX 4070 SUPER有20FPS，超過15%的差距。

這里我們原本想進(jìn)一步對GeForce RTX 3070 Ti和GeForce RTX 2070 Super進(jìn)行進(jìn)一步測試，但無奈測試版本中的游戲畫質(zhì)等級被限制，因此沒有參考的價值了。

DLSS 3另一個好處就是Reflex的加入讓游戲響應(yīng)延遲的進(jìn)一步降低，在同一場景下，可以看到GeForce RTX 4070 SUPER不僅讓游戲獲得了更高的游戲幀率，延遲也更低，也進(jìn)而提升了游戲擊打的準(zhǔn)確度，對于《燕云十六聲》這款武俠動作游戲而言，無疑顯得更為重要。

與此同時，我們也做了《無畏契約》《堡壘之夜》和《APEX英雄》的系統(tǒng)響應(yīng)延遲測試，GeForce RTX 4070 SUPER與DLSS 3.5雙重加持下，甚至可以讓游戲的延遲部分接近10ms左右?？梢奊eForce RTX 4070 SUPER已經(jīng)能夠很好的承擔(dān)競技GPU的工作。

在更多的游戲測試中，我們以2K分辨率最高游戲畫質(zhì)作為參考，分別對比RTX 2070，RTX 3070和RTX 3090，差距感一下子就拉滿了，GeForce RTX 4070 SUPER對比RTX 2070提升最多甚至可以有800%，而對比GeForce RTX 3070，表現(xiàn)則可以達(dá)到55%至200%以上。

即便是對抗當(dāng)年卡皇RTX 3090，GeForce RTX 4070 SUPER也占了不小優(yōu)勢，DLSS 2場景表現(xiàn)與卡皇相當(dāng)，而DLSS 3加持之后，最高也能拉出100%以上的差距。

下圖表格中RT代表光線追蹤Ray Traced，PT代表更高階的路徑追蹤Path Traced，RR則是在DLSS 3.5中開啟了光線重建Ray Reconstruction。

同時在實際游戲中，DLSS 3.5帶來的畫質(zhì)變化也是質(zhì)的攀升。例如在《賽博朋克2077：往日之影》中，早期車燈照射不準(zhǔn)確的效果被修正，原因是之前人工調(diào)整降噪器的采樣不準(zhǔn)確，現(xiàn)在交予DLSS 3.5的AI不僅節(jié)省了調(diào)整的成本，效果也非常出色。特別在廣告牌、霓虹燈反射的積水路面上，有了更準(zhǔn)確的表達(dá)。

另外在《心靈殺手2》也能夠明顯感受到DLSS光線重建帶來質(zhì)的變換。以第二章節(jié)開始的咖啡廳櫥窗為例，如果關(guān)閉DLSS 3.5，就會在玻璃上看到明顯的噪點，窗戶內(nèi)人物衣服的二次反射，也不會投影到櫥窗中，缺少了真實玻璃通透的質(zhì)感。

AI創(chuàng)作很能打

有意思的是，游戲表現(xiàn)只屬于GeForce RTX 40系列GPU性能表現(xiàn)的一部分，利用GPU的對AI加速的優(yōu)勢，以及本地運行的大模型，PC已經(jīng)能夠很好的在離線狀態(tài)下具備完善的AIGC生成式內(nèi)容創(chuàng)作。不僅如此，NVIDIA Studio加持下，常見的Adobe等專業(yè)內(nèi)容創(chuàng)作軟件，不僅也具備AI性能表現(xiàn)，在日常內(nèi)容創(chuàng)作中性能也被很好的提升。

這里先進(jìn)入喜聞樂見的Stable Diffusion生成式圖像創(chuàng)作。隨著Stable Diffusion SDXL發(fā)布，相比Stable Diffusion 1.5版本，SDXL模型擴(kuò)大了3倍，圖像的生成質(zhì)量向上猛升了一個臺階。

圖像質(zhì)量的提升代價是需要更長時間的出圖，自然就敦促更多針對硬件加速優(yōu)化的誕生。NVIDIA針對Stable Diffusion Web UI 的TensorRT 加速插件就是其中之一，它可以讓GeForce RTX在AI性能提升2倍率，并大幅提升Stable Diffusion出圖效率。重點是對于消費者而言，這些都是免費的，只要記得將軟件更新即可。

在配置完Stable Diffusion Web UI + TensorRT之后，這次我們用更短的語言描述生成10張分辨率為1024x1024的星際航行圖片，每次運算1張圖片，即總共執(zhí)行10次，采樣步數(shù)設(shè)置為50。

文字描述部分的神秘小代碼參考如下：

epic space battle over a water planet, many ships, cinematic lighting, Depth of Field, hyper-detailed, beautifully color-coded, 8k, many details, chiaroscuro lighting

可以看到，在不到2分鐘的時間內(nèi)，GeForce RTX 4070 SUPER完成了10張質(zhì)量非常高的圖片創(chuàng)作，12GB GDDR6X被完全使用，精細(xì)度高下立判，輕松甩出Stable Diffusion 1.5一條街。

Stable Diffusion SDXL + TensorRT

Stable Diffusion 1.5

這里我們通過記錄時間，推算出每分鐘推算圖片效率，參考公式為60 / (TotalTime / (BatchSize * BatchCount)) = Images Per Minute。通過對比可以看出，在768x768分辨率下，GeForce RTX 4070 SUPER表現(xiàn)出的戰(zhàn)斗力已經(jīng)很接近RTX 4070 Ti的水平了。

如果Stable Diffusion SDXL生成圖像還顯得有些抽象，D5渲染器利用DLSS 3.5加速效果無疑更為直接。在最新版本的D5 Rander中，利用DLSS 3.5光線重建（Ray Reconstruction, RR）完成AI渲染加強(qiáng)，不需等待即可看到最終的展示效果。換而言之，在諸如《賽博朋克2077》DLSS 3.5中體驗到的流暢感，在D5 Rander中也能感受到。

值得注意，在D5渲染器中，DLSS 3.5使用了比DLSS 3多5倍的數(shù)據(jù)訓(xùn)練，因此也可以更好的識別光線追蹤效果，在時間、空間數(shù)據(jù)中做出更合理的判斷，從而實現(xiàn)高效率的擴(kuò)展。

在D5渲染器中開啟DLSS 3.5的方法很簡單，只需要在菜單中找到DLSS 3.5選項，勾選所有的子選項，就能直接過得DLSS 3.5帶來的暢快感覺。

其中在畫質(zhì)上，搭配光線重建的DLSS 3.5帶來的效果非常明顯，例如反光質(zhì)感金屬裝飾桿噪點被處理得很通透。再例如窗戶的透明與折射過度變得更為自然。

與此同時，D5渲染器的實時幀率在DLSS 3.5加持下得到明顯提升，這里用GeForce RTX 4070 SUPER與RTX 3070進(jìn)行對比，由于RTX 3070不支持幀生成，D5渲染器的場景幀率只有12FPS，但在GeForce RTX 4070 SUPER中，開啟DLSS 3.5后幀率提升至將近40FPS，性能提升輕松超過200%了。

AI測試部分我們利用了ON1 Resize AI 2022對圖片分辨率進(jìn)行提升，在五個場景中進(jìn)行比較，并記錄平均時間，時間越少說明AI性能越強(qiáng)。可以看出GeForce RTX 4070 SUPER相對GeForce RTX 4070節(jié)省了8%的時間，相對GeForce RTX 3070 Ti則節(jié)省了50%的時間，效率非常高。

SPECviewperf特點是可測量在OpenGL和Direct X API下運行的系統(tǒng)的3D圖形性能，專業(yè)軟件包括3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks，憑借著幾乎完整的AD104核心，GeForce RTX 4070 SUPER表現(xiàn)出的常規(guī)性能也非常突出。

Octane Render RTX則是用來測試GPU的光線追蹤性能表現(xiàn)，在復(fù)雜場景下考驗GPU每秒產(chǎn)生的樣本率，GeForce RTX 4070 SUPER相對GeForce RTX 4070提升4%，相對GeForce RTX 3070 Ti提升51%。

在V-Ray 5 Benchmark中，會分別對CUDA Core和RTX進(jìn)行檢測，借助更多的CUDA Core數(shù)量，GeForce RTX 4070 SUPER對比RTX 4070也有非常明顯的優(yōu)勢，提升達(dá)到25%以上，相對RTX 3070 Ti提升更是達(dá)到66%以上。

Blender Benchmark主要檢測了Moster、Junkshop、Classroom三個輸出場景，這里也可以看到GeForce RTX 4070 SUPER提升達(dá)到5%左右，相對RTX 3070 Ti提升達(dá)到60%以上。

寫在最后：用SUPER定義性價比

無論游戲、AI創(chuàng)作還是專業(yè)軟件加速，GeForce RTX 4070 SUPER都給留下了讓人相當(dāng)深刻的印象，原因也很簡單，在與GeForce RTX 4070定價相當(dāng)?shù)那疤嵯?，展現(xiàn)出來的性能與GeForce RTX 4070 Ti相當(dāng)，并且能夠在大部分場景中戰(zhàn)勝上一代卡皇RTX 3090，配合只有220W TGP，無論效能、性價比，GeForce RTX 4070 SUPER表現(xiàn)都非常出色。

可以這么說，GeForce RTX 4070 SUPER展示了SUPER系列所達(dá)到的性價比高度。特別是在NVIDIA軟件與驅(qū)動不斷升級和加持下，通過DLSS 3.5讓游戲獲得更好的畫質(zhì)和流暢體驗，或者搭配TensorRT高質(zhì)量的加速Stable Diffusion SDXL，再或者光線重構(gòu)給D5渲染器帶來實際使用時質(zhì)的提升，這都是GeForce RTX 30系列以前GPU所無法比擬的。

重點在于，如果你已經(jīng)是GeForce RTX 40系列用戶，那么恭喜你，這篇評測中提到的所有關(guān)于GPU的新功能和AI加速，都已經(jīng)可以免費獲得。而如果是GeForce RTX 30系列以前的用戶，比如GeForce RTX 3070 Ti，GeForce RTX 2070 SUPER的玩家們，不需要猶豫，GeForce RTX 4070 SUPER就是當(dāng)下所能買到最具性價比的GeForce RTX 40系列GPU。

最后，英偉達(dá)GeForce RTX 40 Super系列現(xiàn)已上市，請到京東DIY Super超能年貨節(jié)上選購GeForce RTX 4070 Super/80 Super 公版和合作伙伴顯卡。