英特爾Nehalem技術(shù)詳解
● Nehalem新技術(shù)詳解
1 .QPI總線技術(shù)

Nehalem QPI總線示意圖
在Nehalem之前,Intel一直使用FSB前端總線作為處理器與芯片組連接的橋梁,雖然1600Mhz的前端總線對于桌面級數(shù)據(jù)處理來說已是綽綽有余,但對于數(shù)據(jù)量龐大的服務器來說,其仍然是性能的瓶頸。Nehalem因此引入了全新的串行總線QPI,QPI總線是基于數(shù)據(jù)包傳輸(packet-based)。其擁有高帶寬、低延遲的點到點互連技術(shù)等特點,它的傳輸速度可以達到每秒6.4G次數(shù)據(jù)。與FSB最大的不同在于,QPI不僅僅可以負責CPU與北橋通信,還可以實現(xiàn)CPU與CPU之間的相互連通。正如前文中所提到的Nehalem模塊化的特點,對于不同市場的Nehalem,可以具有不同的QPI總線條數(shù)。比如桌面市場的CPU,具有1條或者半條QPI總線(半條可能是用10bit位寬或單向);DP服務器(雙CPU插座)的CPU,每個具有2條QPI總線;而MP服務器(4個或8個CPU插座)的,則每個具有4條或更多的QPI總線。
2.內(nèi)存控制器
在AMD整合了內(nèi)存控制器長達5年之久后,Intel終于按捺不住了。為了進一步降低處理器訪問內(nèi)存的延遲以提高處理器的性能,Intel也引入了內(nèi)存控制器的概念。

Intel 整合內(nèi)存控制器(IMC)示意圖
Intel的整合內(nèi)存控制器(integrated memory controller),可以支持3通道的DDR3內(nèi)存運行在1.33GT/s(DDR3-1333),這樣總共的峰值帶寬就可以達到32GB/s。三通道的DDR3內(nèi)存,其每通道都能夠獨立操作,其處理器所集成的內(nèi)存控制器需要亂序執(zhí)行來降低延遲。
不過,高性能也是有高付出的,在高端平臺上,必須要三條DDR3內(nèi)存才能夠打開三通道,而且三通道內(nèi)存也并沒有加入DDR2的設(shè)計,因此用戶只能夠選擇DDR3內(nèi)存來感受內(nèi)存延遲降低的快感。
3.同步多線程技術(shù)
自從奔騰4時期開始,超線程技術(shù)便已經(jīng)是家喻戶曉了。在當時31級流水線的P4上面,為了提高處理器的性能,細化的流水線可以操作不同的任務進程。然而,在14級流水線下的Core上面,超線程技術(shù)消失了。不過這一切都是暫時的。因為Nehalem又重新引入了類似于·超線程技術(shù)的同步多線程技術(shù)。

Nehalem同步多線程技術(shù)圖解
Nehalem的同步多線程(Simultaneous Multi-Threading,SMT)是2-way的,每核心可以同時執(zhí)行2個線程。這樣就可以壓縮多任務處理時所需要的總時間。同步多線程功能的好處是只需要消耗很小的核心面積代價,就可以在多任務的情況下提供顯著的性能提升,比起完全再添加一個物理核心來說要劃算得多。并且,Nehalem因為L3大緩存的設(shè)計及內(nèi)存控制器的集成使之擁有了更大的緩存和更大的內(nèi)存帶寬,而且基于Core微架構(gòu)中表現(xiàn)優(yōu)秀的分支預測設(shè)計能夠更加有效的發(fā)揮多線程的性能。
4.緩存結(jié)構(gòu)
在早期的奔騰D時代,由于2顆核心之間互相獨立,因此其之間的數(shù)據(jù)調(diào)配需要通過前端總線來進行,這使得數(shù)據(jù)的處理存在非常高的延遲。在Core時代,這一情況有所好轉(zhuǎn),因為Core核心共享了L2緩存,這使得數(shù)據(jù)處理延遲大大降低。而在Nehalem上,我們又看見了一種新的緩存管理機制,包含式緩存。

Nehalem緩存結(jié)構(gòu)
Nehalem上,8MB的L3對于前兩級來說,是完全包含式的,并且由4個核心共享,其可以處理幾乎所有的一致性流量問題,而不需要打攪到每個獨立核心的私有緩存。如果在L3中發(fā)生命中失敗,那么要訪問的數(shù)據(jù)就肯定也不在任何一個L2和L1中,不需要偵聽其它內(nèi)核。另一方面,Nehalem的L3對于緩存命中成功,也扮演著偵聽過濾器的角色。在Nehalem的L3中的每一個緩存行里,有4 bit是用來做核心確認的,表明是哪一個核心在它的私有緩存里具有這個行的數(shù)據(jù)備份。如果一個核心確認位被設(shè)置成0,則那個核心就不具有該行的數(shù)據(jù)備份。Nehalem使用的是MESIF緩存一致性協(xié)議(MESIF cache coherency protocol),如果兩個以上核心的確認位都有效(設(shè)置成1),那么該緩存行就被確定是未被修改的,任何一個內(nèi)核的緩存行都不能夠進入更改模式。當L3緩存命中,而4個核心確認位都是0時,就不需要對其它內(nèi)核做偵聽;而只有1個位是有效時,則只需要偵聽那一個核心。這兩種技術(shù)的聯(lián)合使用,使得L3可以盡可能的讓每個核心避免數(shù)據(jù)一致性錯誤,這樣就給出更多的實際帶寬。
Nehalem的每個核心有64KB L1和256KB 必須在L3 緩存中保留數(shù)據(jù),這就意味著在8MB的L3中,有1-1.25MB的數(shù)據(jù)是前兩級緩存中也有的數(shù)據(jù)。這也恰恰就是包含式緩存額外的開銷。
寫在最后:
從對Nehalem詳細的技術(shù)解析來看,它無論是對Core架構(gòu)的一個改進也好,還是對Core的一個全面革新,其強勁的性能飛躍已是一個不爭的事實。雖然在COMPUTEX 2008展會上我們已經(jīng)看見了Nehalem的工程樣品的實物展示,但更進一步的詳細性能測試恐怕也只有在第四季度發(fā)布之前才能夠得以真正的揭曉
相關(guān)文章

AMD 銳龍 9 9955HX3D首測:單核多核一路領(lǐng)先
新一代筆記本正在陸續(xù)到來,HotHardware搶先拿到了一臺微星的泰坦18 Pro,簡單測試了其首發(fā)配備的AMD銳龍9 9955HX3D,展現(xiàn)了新一代X3D旗艦的威力2025-03-28
游戲裝機不花冤枉錢! 銳龍5 9600X性價比完勝酷睿Ultra 7 265K
花更多的錢,是不是真的能換來更好的游戲體驗?咱今天就來嘮嘮這個事兒,看看這錢到底該不該花,接下來我們不妨拿競品高端定位的酷睿Ultra 7 265K來和銳龍5 9600X進行一個對2025-03-25
AMD銳龍7 9700X板U套裝推薦:輕松獲得僅次于9800X3D的游戲性能
銳龍7 9700X的首發(fā)上市價格為2549元,現(xiàn)在該產(chǎn)品也大幅降價到1999元,性價比非常誘人,今天我們就來看看AMD銳龍7 9700X板U套裝推薦2025-03-17
銳龍7 7800X3D實力完勝i9-14900K! 3000元內(nèi)游戲CPU推薦
在當前3000元以內(nèi),最熱門的游戲CPU莫過于銳龍7 7800X3D和酷睿i9-14900K,那么這兩款產(chǎn)品究竟誰性價比更高呢?下面我們就來看看詳細測評2025-03-12
游戲與生產(chǎn)力雙高 綜合實力最強! 銳龍9 9950X3D處理器首發(fā)評測
AMD終于將銳龍 9000系列的王牌產(chǎn)品——銳龍 9 9950X3D拿了出來,在搭載了超大容量的3D緩存之后,這顆處理器可以說是兼顧了游戲以及創(chuàng)作能力,同時也是消費級銳龍 9000處理2025-03-12
64位和32位CPU有什么區(qū)別? 電腦32位和62位系統(tǒng)區(qū)別介紹
在選購或使用電腦時,我們經(jīng)常會聽到“32位”和“64位”這樣的術(shù)語,那么,這兩個概念到底是什么意思?它們對計算機的性能和兼容性有什么影響?詳細請看下文介紹2025-03-07
為什么主流裝機玩家都選AMD 銳龍5 9600X? 五大理由告訴你
你可能會奇怪,為什么最近Zen5架構(gòu)的銳龍9000系列桌面處理器在主流玩家群體中的口碑這么好;為什么在追求性價比搭配,期望用最少花費實現(xiàn)盡可能好游戲體驗的玩家群體中,AM2025-02-28
有銳龍7 9700X還考慮什么酷睿i9/Ultra 9處理器? 性能級游戲裝機推薦
別看銳龍7 9700X只是一款2000元價位的產(chǎn)品,但是具備了挑戰(zhàn)競品旗艦酷睿i9-14900K和酷睿Ultra 9 285K的強悍實力,具體差距如何?請看下文測評2025-02-27
CPU散熱你了解多少? CPU 熱節(jié)流機制的利與弊分析
CPU熱節(jié)流是指當處理器在運行過程中產(chǎn)生過多的熱量,達到一定的溫度閾值時,為了防止過熱和損壞,CPU會自動降低時鐘速度和性能的技術(shù),下面我們就來看看它的利弊2025-02-19
CPU 的 L1、L2 和 L3 Cache 在現(xiàn)代計算機架構(gòu)中起著關(guān)鍵作用,它們的設(shè)計、大小、位置以及讀寫速度和延遲都有顯著的差異,詳細請看下文介紹2025-02-19











