CPU片內(nèi)總線結(jié)構(gòu)差異對(duì)游戲性能有什么影響?

發(fā)布時(shí)間：2020-04-30 11:01:20 作者：佚名

為什么英特爾的處理器要比AMD的更適合玩游戲呢？除去在主頻上的優(yōu)勢(shì)之外，很重要的一點(diǎn)就是英特爾在CPU本身的架構(gòu)上，要比AMD的Zen/ Zen2架構(gòu)，更適合應(yīng)對(duì)游戲這種包含大量復(fù)雜邏輯的運(yùn)算形式，這其中涉及到的很重要的一個(gè)部分，就是CPU內(nèi)部的“片內(nèi)總線”，一起看看吧

大家都知道，最近一段時(shí)間游戲大作頻發(fā)，先是《使命召喚：戰(zhàn)區(qū)》火爆全球，緊隨其后的《騎馬與砍殺2》也在一片叫好聲中登頂Steam單周銷量榜首。熱門游戲自然少不了大量的測(cè)試，細(xì)心的玩家就會(huì)發(fā)現(xiàn)，在這些測(cè)試中，英特爾的CPU性能表現(xiàn)都要遠(yuǎn)優(yōu)于AMD的Ryzen系列，特別是同樣核心規(guī)模的時(shí)候，這種優(yōu)勢(shì)就愈發(fā)的明顯。

為什么英特爾的處理器要比AMD的更適合玩游戲呢？除去在主頻上的優(yōu)勢(shì)之外，很重要的一點(diǎn)就是英特爾在CPU本身的架構(gòu)上，要比AMD的Zen/ Zen2架構(gòu)，更適合應(yīng)對(duì)游戲這種包含大量復(fù)雜邏輯的運(yùn)算形式，這其中涉及到的很重要的一個(gè)部分，就是CPU內(nèi)部的“片內(nèi)總線”。

片內(nèi)總線負(fù)責(zé)連接CPU芯片內(nèi)部的各個(gè)模塊，包括CPU核心以及顯示核心、內(nèi)存控制器等輔助模塊。作為各模塊數(shù)據(jù)交換的途徑，片內(nèi)總線的效率，會(huì)對(duì)CPU性能有著顯著的影響，甚至可以說(shuō)片內(nèi)總線的結(jié)構(gòu)，決定著一顆CPU最合適的應(yīng)用場(chǎng)景。片內(nèi)總線的結(jié)構(gòu)通常包括星形、線形、樹形、環(huán)狀（Ring）、網(wǎng)狀（Mesh）以及全連接這幾種。其中星形就是早期單核心CPU的主要結(jié)構(gòu)，Core作為中央節(jié)點(diǎn)，其他模塊都和它鏈接。進(jìn)入多核時(shí)代后，星形結(jié)構(gòu)就不再適用了。線形和樹形同樣不適合，因此目前能見到的片內(nèi)總線方案，主要就是Ring、Mesh和全連接這三種方式。

全連接的方式，從結(jié)構(gòu)上來(lái)說(shuō)很理想，因?yàn)镃PU內(nèi)部每一個(gè)核心節(jié)點(diǎn)都能直連另外任意節(jié)點(diǎn)，信息傳遞效率最高，延遲也最低。但是全連接的復(fù)雜度會(huì)隨著核心數(shù)量的增加而大幅提升的，比如4核心需要6條內(nèi)部通路，而8核心就需要28條，16核心就需要120條。如此復(fù)雜的線路在設(shè)計(jì)和制造都是災(zāi)難性的，因此目前只有AMD在Zen架構(gòu)上，采用了縮水版的全連接方式。

所謂縮水，就是Zen/Zen2架構(gòu)，實(shí)際上只做了4核心的全連接，這樣只需要6條互聯(lián)通路，在復(fù)雜度上還算可以承受。那么Ryzen和ThreadRipper那么多核心數(shù)量是怎么來(lái)的呢？那就要說(shuō)到“膠水”（Multi-Chip-Module）技術(shù)了。

在Zen架構(gòu)中，AMD把這4個(gè)全連接的核心成為一個(gè)CCX（CPUComplex）模塊，2個(gè)這樣的CCX通過(guò)IF互聯(lián)的總線連接，組成了一個(gè)芯片（一級(jí)膠水）。在Zen2架構(gòu)中，AMD將這樣一個(gè)芯片稱作CCD（CoreChiplet Die），然后再通過(guò)組合多個(gè)CCD與I/O模塊（cIOD），組成一顆完整的Ryzen3000系列CPU（二級(jí)膠水）。

經(jīng)過(guò)兩次膠水之后，全連接方式的優(yōu)勢(shì)就被完全抵消了，因?yàn)樵诳鏑CX進(jìn)行數(shù)據(jù)交換要通過(guò)IF總線，跨CCD溝通甚至要通過(guò)銅電路，由此帶來(lái)的延遲將變得非?？鋸垺Ｍ瑫r(shí)，也正是因此，Ryzen系列處理器非常依賴Windows操作系統(tǒng)的調(diào)用機(jī)制，AMD也多次與微軟合作希望通過(guò)打補(bǔ)丁的方式讓W(xué)indows10系統(tǒng)在進(jìn)行線程跳轉(zhuǎn)時(shí)，盡可能地在CCX內(nèi)部完成，以此來(lái)降低延遲帶來(lái)的性能損失，然而收效甚微。

既然膠水結(jié)構(gòu)有這么大的劣勢(shì)，為什么AMD還堅(jiān)持使用這樣的結(jié)構(gòu)呢？原因很簡(jiǎn)單——省錢。通過(guò)使用這種模塊化的結(jié)構(gòu)，縮小了單一芯片的規(guī)模，AMD能夠更好的控制芯片制造的良品率，畢竟用兩個(gè)8核心CCD“粘”成一個(gè)3950X的難度遠(yuǎn)小于造一個(gè)完整的16核心的芯片，而且萬(wàn)一CCD里面壞了兩個(gè)核心還能封包成3600X繼續(xù)賣。同時(shí)，在頻率和計(jì)算效率受限的情況下，AMD也是不得不靠膠水技術(shù)來(lái)堆核心數(shù)量，以換取市場(chǎng)上的一席之地。

自己有工廠生產(chǎn)CPU芯片的英特爾，在片內(nèi)總線的選擇上，更偏向?qū)π实淖非蟆Ｋ葬槍?duì)不同的應(yīng)用場(chǎng)景使用了不同的結(jié)構(gòu)。比如在MSDT平臺(tái)上，因?yàn)楹诵臄?shù)量相對(duì)少，大多數(shù)家用級(jí)用戶很少需要去應(yīng)對(duì)大規(guī)模并發(fā)數(shù)據(jù)運(yùn)算的情況，因此選擇了延遲控制更好的環(huán)形總線（RingBus）。

所謂RingBus就是通過(guò)一個(gè)環(huán)路（實(shí)際上包括順時(shí)針和逆時(shí)針兩個(gè)同心環(huán)）將所有的核心以及其他模塊串在一起，核心（或模塊）與總線連接的地方被稱為RingStop。如此一來(lái)，核心之間的數(shù)據(jù)交互結(jié)構(gòu)距離都不會(huì)超過(guò)RingStop的一半（因?yàn)镽ing是雙向的），保證了數(shù)據(jù)交換的延遲盡可能低且穩(wěn)定。同時(shí)，再增加核心的時(shí)候，也不會(huì)增加互聯(lián)的復(fù)雜度，只需要增加一個(gè)新的RingStop即可。

當(dāng)然RingBus也不是萬(wàn)能的，當(dāng)核心數(shù)量超過(guò)12個(gè)的時(shí)候，會(huì)因?yàn)镽ingBus過(guò)長(zhǎng)而導(dǎo)致平均延遲增大到不可接受的地步。為此英特爾在需要更多核心的HEDT平臺(tái)上，引入了網(wǎng)狀（Mesh）結(jié)構(gòu)。相比于Ring結(jié)構(gòu)，Mesh解決了規(guī)模擴(kuò)增的靈活性，因?yàn)樵贛esh結(jié)構(gòu)中加入新的節(jié)點(diǎn)，并不會(huì)導(dǎo)致延遲像Ring結(jié)構(gòu)那樣線性的增加。實(shí)際上Mesh針對(duì)早期HEDT平臺(tái)所使用的2-Ring結(jié)構(gòu)，還降低了內(nèi)部核心數(shù)據(jù)交換延遲以及RAM和I/O的訪問(wèn)延遲。不過(guò)HEDT平臺(tái)并不是我們這篇文章的重點(diǎn)，所以這里就不展開了。

讓我們打個(gè)比方來(lái)解釋一下這上面說(shuō)到的這3種片內(nèi)互聯(lián)結(jié)構(gòu)的差異：英特爾的Ring總線就相當(dāng)于在一個(gè)大會(huì)議室里進(jìn)行圓桌會(huì)議，每一個(gè)人就相當(dāng)于一個(gè)核心節(jié)點(diǎn)。數(shù)據(jù)在核心之間的傳遞過(guò)程就相當(dāng)于進(jìn)行一次“擊鼓傳花”的游戲，只要人數(shù)（節(jié)點(diǎn)）不太多，那么在任意兩個(gè)人之間傳遞東西，所花的時(shí)間都會(huì)控制在一個(gè)非常少的水平。

Mesh架構(gòu)則很像我們上學(xué)時(shí)候的教室，里面的每一個(gè)學(xué)生就相當(dāng)于一個(gè)核心節(jié)點(diǎn)。這時(shí)候如果要把一個(gè)東西在任意兩個(gè)點(diǎn)之間傳遞，只需要選擇最合適的路徑傳遞過(guò)去就可以了，所需要的時(shí)間依然會(huì)很少。

相比之下，AMDRyzen處理器的CCX相當(dāng)于4個(gè)人坐在一個(gè)房間里，一個(gè)CCD就是一棟樓里面有這樣兩個(gè)房間，Ryzen93950X或更高的TR系列則由2棟或更多棟樓組成。因此當(dāng)數(shù)據(jù)在CCX里的4個(gè)人之間傳遞的時(shí)候，效率還算不錯(cuò)，但如果要傳遞給隔壁房間里的人，就要開門出屋，也就是延遲會(huì)大幅度增加。如果還要傳遞給其他樓里的人，那就要出房間，下樓上樓再進(jìn)房間，過(guò)程中浪費(fèi)的時(shí)間就可想而知了。

實(shí)際的測(cè)試結(jié)果很好的體現(xiàn)出了片內(nèi)總線的結(jié)構(gòu)差異帶來(lái)的性能區(qū)別：

采用Ring結(jié)構(gòu)的Corei9-9900K在延遲方面大幅優(yōu)于同樣8C/16T的Ryzen7 3800X，而對(duì)于采用雙CCD進(jìn)行片上膠水的Ryzen93950X更是遙遙領(lǐng)先。而在游戲過(guò)程中，CPU本身就需要頻繁的對(duì)內(nèi)存進(jìn)行讀寫操作，這就將Ring結(jié)構(gòu)的優(yōu)勢(shì)充分發(fā)揮了出來(lái)。即使對(duì)于騎砍2這樣的大規(guī)模集團(tuán)作戰(zhàn)的游戲來(lái)說(shuō)，理論上應(yīng)該能夠很好的發(fā)揮多核心的優(yōu)勢(shì)，但是因?yàn)閆en2架構(gòu)的內(nèi)核互聯(lián)延遲太高，因此在我們開篇的測(cè)試數(shù)據(jù)中，16C32T的3950X反而被Corei9-9900K遠(yuǎn)遠(yuǎn)甩開。

考慮到無(wú)論是英特爾還是AMD，目前的微架構(gòu)都將至少還要延續(xù)2代產(chǎn)品，因此可以肯定地說(shuō)，在未來(lái)一段時(shí)間內(nèi)，如果要為打游戲而裝電腦，英特爾處理器還是最靠譜的選擇。