技嘉RTX 3060 Ti GAMING OC PRO 魔鷹詳細評測

中關(guān)村在線 發(fā)布時間：2020-12-22 09:15:52 作者：林爽雨

今天將給大家?guī)硪豢畛鲎约技沃值腞TX 3060 Ti GAMING OC PRO 魔鷹，下面一起看看吧

如果說具體到哪一款顯卡值得等等黨的選購，那大概就是RTX 3060Ti顯卡莫屬了，在性能方面要小幅度領(lǐng)先上一代RTX 2080 SUPER顯卡，但是卻支持眾多的“黑科技軟件應(yīng)用”，并且在價格上更是讓人大快人心，感興趣的朋友不要錯過了。

今天筆者將給大家?guī)硪豢畛鲎约技沃值腞TX 3060 Ti GAMING OC PRO 魔鷹，按照慣例，在評測之前，我們先來了解一下這款顯卡的特點。

性能表現(xiàn)出眾，性能略強于RTX 2080 SUPER，并且價格更低，真正的新一代“甜品卡”。

注重散熱細節(jié)，正逆轉(zhuǎn)氣流導(dǎo)向設(shè)計。風(fēng)扇正逆轉(zhuǎn)設(shè)計形成氣流漩渦，能夠快速帶走熱量。實測壓力測試中顯卡在平臺上最高僅為64°且噪音極低，表現(xiàn)出眾。

光線追蹤、DLSS等功能加持，游戲畫面更加真實暢爽。

技嘉RTX 3060 Ti GAMING OC PRO 魔鷹顯卡采用了NVIDIA Ampere架構(gòu)，相較于上一代的NVIDIA Turing架構(gòu)有什么不同呢？

NVIDIA 3060 Ti首測

第一代RTX架構(gòu) Turing下的RTX 2060 SUPER

NVIDIA 3060 Ti首測

第二代RTX架構(gòu) Ampere下的RTX 3060 Ti

相較于初代的Turing RTX架構(gòu)，NVIDIA Ampere架構(gòu)在算力上有著成倍的增長，這一點在RTX 3060 Ti中依舊有體現(xiàn)，每個時鐘執(zhí)行2次著色器運算，而Turing為1次，RTX 3060 Ti的著色器性能達到16.2 TFLOPS單精度性能，而Turing為7.2 TFLOPS。

NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量，RT Core達到31.6 RT TFLOPS，而Turing為21.7 RT TFLOPS。而且第二代光線追蹤最重要的不僅僅是性能提升，還增加了對游戲中運動模糊部分場景的光線追蹤計算加速。

例如最新發(fā)布的《賽博朋克2077》中，當(dāng)玩家在游戲中遭遇賽車，追逐，打斗等激烈運動場景，第二代光追在架構(gòu)上可以確保顯卡渲染幀率相對更平穩(wěn)，游戲體驗上不會有頻繁掉幀帶來的頓挫感。

索泰3060ti評測

《賽博朋克2077》

全新的Tensor Core可自動識別并消除不太重要的DNN權(quán)重，處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍，算力高達129.6 Tensor TFLOPS，而Turing為57.4 Tensor TFLOPS。

芯片雖然決定了顯卡的性能和規(guī)格，但是顯卡工作的整體穩(wěn)定性，溫度表現(xiàn)，噪音等級卻更依賴顯卡制造商在PCB布線，電子元器件的適配，散熱系統(tǒng)調(diào)校等綜合能力。

01 技嘉RTX 3060 Ti GAMING OC PRO 魔鷹顯卡產(chǎn)品概述

技嘉RTX 3060Ti GAMING OC PRO 8G顯卡評測

技嘉RTX 3060 Ti GAMING OC PRO 魔鷹顯卡整體采用黑色的設(shè)計，表面采用磨砂工藝，在提供出色的手感之外還能防止留下指紋痕跡。

技嘉RTX 3060Ti GAMING OC PRO 8G顯卡評測

在背部，技嘉RTX 3060 Ti GAMING OC PRO 魔鷹顯卡的背部設(shè)計金屬感十足，具有十分不錯觀賞性。同時，我們能夠看到，散熱鰭片一直延伸到PCB板之外能夠進一步強化散熱效率。

技嘉RTX 3060Ti GAMING OC PRO 8G顯卡評測

在散熱方面則為是重點，技嘉RTX 3060 Ti GAMING OC PRO 魔鷹顯卡采用的是技嘉風(fēng)之力散熱系統(tǒng)，正面搭載了三個80mm的刀刃式風(fēng)扇，并采用了特殊的刀刃式設(shè)計，透過扇葉的邊緣三角立體造型以及扇葉葉面的導(dǎo)流溝槽，能夠提供更強的進風(fēng)量。并且還支持正逆轉(zhuǎn)功能以及風(fēng)扇智能啟停功能。

技嘉顯卡首測

正逆轉(zhuǎn)功能

在內(nèi)部，搭載了5根高性能復(fù)核導(dǎo)熱管，可以直接與GPU相接觸，最大效率的進行散熱。整套散熱系統(tǒng)搭配起相得益彰，關(guān)于溫度方面的測試，將會在下文體現(xiàn)。

技嘉RTX 3060Ti GAMING OC PRO 8G顯卡評測

在接口方面，技嘉RTX 3060 Ti GAMING OC PRO 魔鷹顯卡搭載了2個HDMI 2.1接口，還有2個 DP 1.4a接口。新增的HDMI 2.1接口，可以支持單線8K的視頻輸出，而上一代HDMI 2.0僅支持4K 98Hz的視頻輸出，如果想要連接8K電視，則需要更多的線纜支持。

技嘉RTX 3060Ti GAMING OC PRO 8G顯卡評測

在供電方面，技嘉RTX 3060 Ti GAMING OC PRO 魔鷹顯卡采用的是單6Pin+單8Pin的設(shè)計。同時在顯卡的上方搭載了一個RGB LOGO燈。

關(guān)于顯卡的外觀，相信大家已經(jīng)有所了解，接下來帶大家了解一下NVIDIA Ampere架構(gòu)。

02 NVIDIA Ampere架構(gòu)下RTX 3060 Ti

技嘉RTX 3060 Ti GAMING OC PRO 魔鷹顯卡采用了NVIDIA Ampere架構(gòu)，我們首先來看一下RTX 3060 Ti的提升。

NVIDIA 3060 Ti首測

第一代RTX架構(gòu) Turing下的RTX 2060 SUPER

NVIDIA 3060 Ti首測

第二代RTX架構(gòu) Ampere下的RTX 3060 Ti

相較于初代的Turing RTX架構(gòu)，NVIDIA Ampere架構(gòu)在算力上有著成倍的增長，這一點在RTX 3060 Ti中依舊有體現(xiàn)，每個時鐘執(zhí)行2次著色器運算，而Turing為1次，RTX 3060 Ti的著色器性能達到16.2 TFLOPS單精度性能，而Turing為7.2 TFLOPS。

NVIDIA Ampere架構(gòu)翻倍了光線與三角形的相交吞吐量，RT Core達到31.6 RT TFLOPS，而Turing為21.7 RT TFLOPS。

全新的Tensor Core可自動識別并消除不太重要的DNN權(quán)重，處理稀疏網(wǎng)絡(luò)的速率是Turing的兩倍，算力高達129.6 Tensor TFLOPS，而Turing為57.4 Tensor TFLOPS。

NVIDIA RTX 3070首測比肩RTX 2080Ti

技嘉RTX 3060 Ti GAMING OC PRO 魔鷹顯卡采用GA104核心擁有174億個晶體管，392平方毫米的面積，基于三星的8nm NVIDIA定制工藝，另外在RTX 3060 Ti中我們都知道仍然采用了GDDR6顯存，不過不同于RTX 3080的Micron，RTX 3060 Ti采用了三星的GDDR6顯存。

我們在發(fā)布會中經(jīng)常聽到性能翻倍的說法，其實是因為本次NVIDIA Ampere的SM在Turing基礎(chǔ)上增加了一倍的FP32運算單元，這就使得每個SM的FP32運算單元數(shù)量提高了一倍，同時吞吐量也就變?yōu)榱艘槐丁?/p>

而通常我們計算顯卡的CUDA數(shù)量，并不是把SM中的所有單元加起來計數(shù)，而是只統(tǒng)計FP32單元的數(shù)量，所以這樣一來，SM中的【FP32 : INT32】從 1:1 變?yōu)?2:1。

RTX 3060 Ti共有4864個CUDA，其實它有2432個INT32單元，但由于內(nèi)部的FP32數(shù)量翻了一倍，所以最終實現(xiàn)了4864這個驚人的數(shù)字。

而這樣粗暴的提升CUDA數(shù)量對于游戲其實有著非常大的幫助，通常在游戲中浮點運算相比整數(shù)計算要常用的多，圖形、算法以及各種計算操作中著色器工作負載通常需要混合使用FP32算數(shù)指令，而FP32的加速也有助于光線追蹤降噪著色器。

雙倍加量不加價 NVIDIA RTX 3080顯卡首測

光追工作原理示意

在此次的NVIDIA Ampere架構(gòu)中，NVIDIA官方宣布為第二代RT Core，它和第一代有什么不同呢。首先要知道RT Core的工作原理是，著色器發(fā)出光線追蹤的請求，交給RT Core來處理，它將進行兩種測試，分別為邊界交叉測試（Box Intersection testing）和三角形交叉測試（Triangle Intersection testing）?；贐VH算法來判斷，如果是方形，那么就返回縮小范圍繼續(xù)測試，如果是三角形，則反饋結(jié)果進行渲染。

而光線追蹤最耗時的正是求交計算，因此，要提升光線追蹤性能，主要是對兩種求交（BVH/三角形求交）進行加速。

雙倍加量不加價 NVIDIA RTX 3080顯卡首測

RT Core的變化

在Turing的RT Core中，可以每個周期完成5次BVH遍歷、4次BVH求交以及一次三角形求交，在第二代RT Core 里，NVIDIA增加了一個新的三角形位置插值模塊以及一個的額外的三角形求交模塊，這樣做的目的是為了提升諸如運動模糊特效時候的光線追蹤性能。

雙倍加量不加價 NVIDIA RTX 3080顯卡首測

運動模糊渲染原理

第二代RT Core可以讓光線追蹤與著色同時進行，進行的光線追蹤越多，加速就越快，它將光線相交的處理性能提升了一倍，在渲染有動態(tài)模糊的影像時，按照NVIDIA自己的實測，比Turing快8倍。

雙倍加量不加價 NVIDIA RTX 3080顯卡首測

稀疏深度學(xué)習(xí)

Tensor Core可以看作是GeForce RTX GPU上的AI大腦?？杉铀儆糜谏疃壬窠?jīng)網(wǎng)絡(luò)處理功能的線性代數(shù)，這是現(xiàn)代AI的基礎(chǔ)。例如用于AI超分辨率的NVIDIA DLSS和用于AI增強的聲畫處理技術(shù)NVIDIA Broadcast應(yīng)用。

在本次的NVIDIA Ampere架構(gòu)的Tensor Core也得到了極大地加強，在第三代Tensor Core中，NVIDIA引入了稀疏化加速，可自動識別并消除不太重要的DNN（深度神經(jīng)網(wǎng)絡(luò)）權(quán)重，同時依然能保持不錯的精度。

首先原始的密集矩陣會經(jīng)過訓(xùn)練，刪除掉稀疏矩陣，再經(jīng)過訓(xùn)練稀疏矩陣，從而實現(xiàn)稀疏優(yōu)化，進而提高Tensor Core的性能。

與此次RTX 30系顯卡一同發(fā)布的還有一項新技術(shù)——RTX IO。目前很多游戲動輒幾十G甚至百G的安裝空間，對于存儲空間的負擔(dān)暫且不提，但存放在硬盤中的數(shù)據(jù)，如果顯卡想要讀取到，需要先由CPU從硬盤中讀取壓縮過的數(shù)據(jù)，經(jīng)過解壓縮再發(fā)送到顯存中。

雖然隨著NVMe SSD的推出，讀取速度相較機械硬盤能夠快20倍，但受制于傳統(tǒng)I/O限制，NVMe高達7GB/秒的高速讀寫對于CPU是極大的負擔(dān)。

雙倍加量不加價 NVIDIA RTX 3080顯卡首測

傳統(tǒng)的數(shù)據(jù)交換

在這個過程中，會占用多個CPU核心，壓力急劇增大，占用較多的內(nèi)存，而此時其實GPU是處于閑置狀態(tài)的。RTX IO的作用就是越過CPU解壓再傳輸數(shù)據(jù)這一步，直接從PCIE總線讀取硬盤上經(jīng)過壓縮的數(shù)據(jù)，并且完成無損GPU解壓，降低CPU占用，變向提升了性能。

雙倍加量不加價 NVIDIA RTX 3080顯卡首測

RTX IO可以極大解放CPU負擔(dān)

當(dāng)然這項技術(shù)作為系統(tǒng)底層的運行方式改變，還需要借助微軟發(fā)布的DirectStorage來實現(xiàn)，對于目前容量的游戲來說，RTX IO的改善效果有限，但假以時日等游戲容量上百G成為常態(tài)的時候，這項技術(shù)將會發(fā)揮巨大的功效。

03 測試平臺簡介

首先介紹一下測試平臺，為了保證此次評測能夠發(fā)揮技嘉RTX 3060 Ti GAMING OC PRO 魔鷹顯卡的最佳性能，主板和CPU采用了目前桌面旗艦級配置，具體如下。

技嘉RTX 3060Ti GAMING OC PRO 8G顯卡評測：性能飛躍溫度更“嘉”

配置信息

在測試成績上，基準(zhǔn)測試采用3D MARK，游戲性能測試使用游戲自帶Benchmark取游戲平均幀數(shù)。

技嘉RTX 3060Ti GAMING OC PRO 8G顯卡評測

GPU-Z

首先看一下GPU-Z的參數(shù)，軟件更新到2.36已經(jīng)可以正確顯示核心并修復(fù)了紋理單元識別錯誤的情況。RTX 3060 Ti采用GA104核心，三星8nm工藝，芯片面積392平方毫米，擁有4864個CUDA，技嘉RTX 3060 Ti GAMING OC PRO 魔鷹顯卡的頻率為1410-1770MHz。頻率相較于公版要更高一些，顯卡采用8GB GDDR6顯存，位寬為256bit，顯存帶寬達到了448GB/s，光柵單元和紋理單元為80和152。