為什么RTX4090的規(guī)格是RTX4070顯卡的將近3倍性能卻只有2倍？

發(fā)布時(shí)間：2024-05-16 11:25:21 作者：佚名

我要評(píng)論

RTX 4090的核心規(guī)模是RTX 4070的2.78倍，顯存帶寬是RTX 4070的2倍，顯存容量也是RTX 4070的2倍，越是分辨率高的游戲，帶寬的影響就越明顯

我發(fā)現(xiàn)4090這款顯卡的邊際效應(yīng)相當(dāng)明顯，這一發(fā)現(xiàn)讓我頗感意外。

在GPU這種超大規(guī)模并行計(jì)算領(lǐng)域，最能突顯性能差距的無(wú)疑是GPU渲染或計(jì)算能力，因?yàn)檫@類運(yùn)算完全依賴于GPU，幾乎不受其他因素的影響。

我特地從OC渲染的benchmark天梯榜上搜集了40系顯卡的成績(jī)數(shù)據(jù)（未開(kāi)啟RT），并進(jìn)行了深入分析。

這份數(shù)據(jù)結(jié)果真的讓我大吃一驚，4090的渲染性能竟然只比4070高出將近兩倍。要知道，在以往的顯卡評(píng)測(cè)中，這種情況可是從未出現(xiàn)過(guò)的。畢竟，4090的規(guī)模幾乎是4070的三倍，但渲染性能卻只高出兩倍。

我仔細(xì)計(jì)算了相對(duì)衰減幅度，并據(jù)此推測(cè)，顯存帶寬可能是RTX40系顯卡的一個(gè)主要瓶頸?？梢哉f(shuō)，顯存設(shè)置上的吝嗇可能限制了RTX40系顯卡發(fā)揮出其應(yīng)有的性能。

4060Ti 8G就是一個(gè)典型的例子。盡管它的流處理器數(shù)量比4060多了41.67%，但由于顯存帶寬僅略高于4060，其最終渲染性能的提升幅度也僅有13.6%。

相比之下，4070在流處理器規(guī)模僅比4060Ti多出35.3%的情況下，其渲染性能卻強(qiáng)出了57.56%。這得益于4070的顯存配置——192bit 21Gbps，最終帶寬達(dá)到了504GB/s，比4060Ti的288GB/s高出了75%。

我記得在RTX30系顯卡的時(shí)代，我們?cè)谶M(jìn)行OC渲染時(shí)并沒(méi)有特別關(guān)注顯存帶寬這個(gè)因素。

RTX30系的衰減情況可以說(shuō)是微乎其微，顯存帶寬問(wèn)題并沒(méi)有那么突出。因此，以前我們?cè)谠u(píng)估GPU渲染性能時(shí)，通常會(huì)將渲染性能與顯卡規(guī)模直接掛鉤。

再來(lái)看一下RTX20系的情況。

在GDDR6顯存還未普及的時(shí)代，只有高端顯卡的衰減情況較為明顯。因此，我們有理由相信，RTX40系高端顯卡的瓶頸已經(jīng)變得相當(dāng)顯著，甚至在GPU渲染用途上已經(jīng)開(kāi)始出現(xiàn)明顯的性能衰減。

對(duì)于RTX4090渲染性能僅有4070兩倍不到這個(gè)問(wèn)題，我嚴(yán)重懷疑顯存帶寬是一個(gè)重要的制約因素。這可能與GDDR7顯存的缺失有關(guān)。

另一方面，我也對(duì)Ada Lovelace架構(gòu)的邊際效應(yīng)問(wèn)題產(chǎn)生了懷疑。從目前已知的信息來(lái)看，Ada Lovelace架構(gòu)相較于30系的Ampere架構(gòu)，除了加入了一些新特性（如第四代Tensor Core、第三代RT Core以及光流加速器、大L2等）外，主要就是換用了臺(tái)積電4N工藝，擴(kuò)大了規(guī)模并提高了頻率。

然而，AD102核心的流處理器數(shù)量相較于GA102有了巨大的增長(zhǎng)，但顯存帶寬卻保持不變，都是1008GB/s。這意味著單個(gè)SM的光柵渲染性能提升可能主要來(lái)自于頻率的提高，這可能會(huì)導(dǎo)致在超大規(guī)模下GPU的并行效率下降。

也許在下一代GPU中，隨著架構(gòu)的改進(jìn)和GDDR7顯存的采用，我們才能看到這種規(guī)模的GPU應(yīng)有的實(shí)力。

至于游戲方面，由于游戲性能還受到CPU和內(nèi)存等其他因素的影響，因此性能差距可能會(huì)進(jìn)一步縮小。