英特爾新一代顯卡架構(gòu)Larrabee解析

Larrabee,穿著馬甲的CPU?
Larrabee與AMD、NVIDIA的通用計算圖形處理器技術(shù)不同,后兩者使用Stream Processing(流處理)來滿足對GPU計算的需求。
傳統(tǒng)的x86架構(gòu)
而Larrabee基于傳統(tǒng)的x86架構(gòu),是一種可編程的多核心架構(gòu),不同的版本會有不同數(shù)量的核心,并使用經(jīng)過調(diào)整的x86指令集,性能上將會達到萬億次浮點運算級別。值得注意的是,Larrabee中的處理核心為順序執(zhí)行核心,與CPU中的亂序執(zhí)行核心不同。
Larrabee內(nèi)部工作流程
在Larrabee的內(nèi)部,每一個處理核心都可以發(fā)出2條指令,這種架構(gòu)是繼承了最初的奔騰處理器的設計。當然在老奔騰的基礎(chǔ)上,INTEL的工程師們也作了許多修改和提升。首先Larrabee 架構(gòu)具有衍生自雙指令執(zhí)行 Pentium 處理器的純量管線,并采用具有完整連貫性高速緩存架構(gòu)的短執(zhí)行管線。Larrabee 架構(gòu)提供顯著的最新改良技術(shù),如寬幅向量處理單元、多線程、64 位延伸指令,以及精密的指令預取功能 。這將促使可用之運算能力大幅提升,并能發(fā)揮程序設計師對英 特爾架構(gòu)的熟悉度及容易入門的程序開發(fā)優(yōu)勢。同時Larrabee的執(zhí)行流水線階層非常的短,最初的Pentium處理器的執(zhí)行流水線僅有5個階層,這意味著擁有不錯的運算效率。Larrabee 將包含數(shù)個支持繪圖及其他應用程序的固定功能邏輯區(qū)塊,這些運算單元被謹慎選用以平衡及強化每瓦效能,并對架構(gòu)的彈性與可編程化能力有所貢獻。Larrabee 的原生程序設計模式支持高度平行運算應用程序,亦包括采用非規(guī)則性數(shù)據(jù)結(jié)構(gòu)的運算。這項特性將促使繪圖 API 的開發(fā)、新繪圖算法更迅速的創(chuàng)新,以及在繪圖處理器上執(zhí)行以現(xiàn)有個人計算機軟件開發(fā)工具軟件所實作 之真正的一般目的運算。
邏輯處理單元的分布
在算矢量處理單元的部分。Pentium由于設計年代久遠,未曾出現(xiàn)過SIMD單指令多數(shù)據(jù)單元,而Larrabee在這方面有了巨大的飛躍,支持16路的矢量ALU算數(shù)邏輯單元。其運算效能非常強大,這16路可以同時執(zhí)行32bit的浮點操作,這比INTEL所生產(chǎn)過的任何處理器都要強大許多。介于Larrabee本身的架構(gòu)優(yōu)勢,這些矢量單元會更好的發(fā)揮其作用。INTEL的工程師們在指令的預取方面會為Larrabee做更多海量并行數(shù)據(jù)處理方面的優(yōu)化。但究竟會對實際的效能產(chǎn)生多大的影響,目前仍是個迷。Larrabee所有超強的性能,都是基于這16路矢量ALU邏輯運算單元。請記住!這僅僅是Larrabee的一個核心,當它用于處理3D圖像的時候,其內(nèi)部還有很多的核心在并行工作。
此外,INTEL還對Larrabee架構(gòu)指令集擴展進行了優(yōu)化改進。比如16-Widevector指令,streamprocessing最佳化緩存控制指令等。另外64-bit指令也得到了支持。簡單得說就是以x86基本指令集為基礎(chǔ)加上適當?shù)膕tream processing指令。另外據(jù)說當前的GPU原生指令集與CPU指令集非常相似。INTEL關(guān)于Larrabee指令擴展并沒有進行詳細介紹。不過估計可以有點,首先就是指令格式必須容易解碼。x86指令解碼多且復雜。因此為了解決這個問題,Larrabee的擴張指令最好是固定長度指令。
GPU也有L2緩存?!
由于基于Pentium 處理器架構(gòu),因此Larrabee同樣沿用了完整的L1/L2緩存設計,這也是目前GPU所不具備的。
Pentium處理器架構(gòu)
在L1高速緩存容量方面,其中指令緩存為32KB,L1數(shù)據(jù)緩存為32KB和,這個比各自為8KB的Pentium處理器相比提升了4倍。 同時每一個處理核心都具備256KB的L2高速緩存,未來Larrabee最初的二級緩存容量為4M,這意味著Larrabee最少有16個內(nèi)核。
INTEL Core 2 Duo Hypothetical Larrabee
# of CPU Cores 2 out of order 10 in-order
Instructions per Issue 4 per clock 2 per clock
VPU Lanes per Core 4-wide SSE 16-wide
L2 Cache Size 4MB 4MB
Single-Stream Throughput 4 per clock 2 per clock
Vector Throughput 8 per clock 160 per clock
根據(jù)INTEL所述,這種256KB的緩存尺寸是專門針對Larrabee所設計的。一般來說在Larrabee進行OpenGL/DirectX渲染的時候,許多紋理都是基于64X64或128X128像素規(guī)格的,他們的色深一般為32bit,另帶有32bit的Z緩沖,這些大約會消耗128KB的空間,同時Larrabee的處理核心還有128KB的空間可以加載其他的數(shù)據(jù)。
AMD RV770 NVIDIA GT200 INTEL Larrabee
Scalar ops per L1 Cache 80 24 16
L1 Cache Size 16KB unknown 32KB
Scalar ops per L2 Cache 100 30 16
L2 Cache Size unknown unknown 256KB
#p#
獨特的顯存架構(gòu)
在顯存控制器方面, AMD和NVIDIA的GPU使用的是64bit的顯存控制器,并且在芯片內(nèi)只有一組控制器。鑒于INTEL的Larrabee采用多核心設計,內(nèi)部需要更多的顯存帶寬, Larrabee將采用1024-bit雙向環(huán)形總線,單向傳輸位寬為512-bit。在加上GDDR5顯存的助力,Larrabee將會有不錯的性能表現(xiàn)。目前的GDDR5顯存顆粒還十分昂貴,不過相信到了2010年的時候,會迅速普及,價格自然也會降低到一個比較合理的價位。
嵌入式存儲架構(gòu)
值得一提的是,AMD公司已經(jīng)在它的GPU中放棄了他們的環(huán)形顯存控制器架構(gòu),轉(zhuǎn)而采用更先進的片上嵌入式存儲,因為他們的GPU需要更加強大的存儲帶寬。AMD認為環(huán)形的總線會將數(shù)據(jù)直接排擠送出,這種線路設計會相對簡單許多,它可以大幅減少芯片的復雜程度,不過他的缺點也比較明顯,它需要一根很長的電線貫穿整個芯片。并且無論接收方是否需要,都為所有的接收端提供了較高的數(shù)據(jù)帶寬。因此如果內(nèi)存接收方需要更高的內(nèi)存,或者需要提高系統(tǒng)總線的帶寬的話,提供一條雙向的帶寬就可以輕松解決。INTEL可能有比AMD更高明的環(huán)形總線方案。因為Larrabee支持超高速相關(guān)性緩存,并且可以跨越核心通信。L2高速緩存可以被分割為2個部分,同時可以用環(huán)形總線保持他們數(shù)據(jù)的一致性。這樣可以促進信息更好的被傳遞,也讓繁重的數(shù)據(jù)處理變得更加輕松。如果Larrabee所有的處理核心都通過一個雙向的環(huán)形總線連接,每個方向提供512bit的位寬。這條總線的工作頻率,可能與Larrabee的主頻相同。我們假設一下Larrabee的運行頻率為2GHz以上,那么這條總線將會提供非常高的帶寬吞吐量,而且它的工作頻率要遠遠高于AMD的GPU。
SLI、交火不算什么,Larrabee的多內(nèi)核設計!
目前的GPU全是采用單核芯片設計,圖形顯示系統(tǒng)要想達到更高的性能只能采用雙GPU設計或雙卡、四卡并聯(lián)運行方案。這在成本上往往是用戶所不能接受的。而在Larrabee上,INTEL采用多核心設計,這也將是首款采用多核設計的GPU。根據(jù)INTEL初步的計算,最初Larrabee的核心數(shù)量將會是16個核心,今后按照翻倍的步進也許會升級到32個核心。這是因為要應付目前主流的3D圖形的運算,起步至少要16個核心才可以從容應對,但是24個核心的產(chǎn)品也是有可能的,畢竟以目前的生產(chǎn)工藝來看做到這一點完全是沒有問題的。
半導體芯片核心
目前我們的半導體芯片核心面積可以做到286平方毫米,NVIDIA的GT200和AMD的RV770就處在這個層次上。因此在Larrabee集成更多的處理核心應該并非難事。假設INTEL要想集成40個處理核心,那么至少需要572平方毫米的芯片。事實上NVIDIA的GT200使用的是65nm制造工藝技術(shù),如果INTEL用最為先進的32nm制造工藝技術(shù),那么芯片的尺寸還會大幅縮小。就目前的INTEL 45nm制造工藝來說,芯片的核心面積可以減小至少50%,但是根據(jù)INTEL的說法,只要轉(zhuǎn)產(chǎn)到45nm,甚至可以減小到60~70%的樣子。屆時Larrabee將能集成更多的處理核心。INTEL推測,40個核心45nm版本的Larrabee其核心面積約為370平方毫米。像NVIDIA的產(chǎn)品線一樣,INTEL也會將芯片根據(jù)核心數(shù)量分成不同的檔次,面向不同人群推出?! ?br />
游戲性能與核心數(shù)量的增長趨勢
根據(jù)INTEL的說法,這種特性在《戰(zhàn)爭機器》、《F.E.A.R.》、《半條命2:第二章》等游戲中表現(xiàn)最明顯,實際性能基本隨著核心數(shù)量呈線性增長趨勢。如果8核心的性能算作1,那么16核心就約等于2、24核心約等于3、32核心約等于4。如果一直這樣增長下去,那Larrabee的實力將是恐怖的。不過INTEL也承認,隨著核心數(shù)量的繼續(xù)增多,這種線性關(guān)系會逐漸減弱,到了40核心只有3.8-3.9,48核心就僅僅4.4-4.6了,64核心甚至可能都不到7。因此如果解決多核心中復雜的數(shù)據(jù)共享問題及功耗問題,這都是INTEL需要面對的。
除此之外,Larrabee還同時能夠支持4路硬件線程。而Larrabee也能夠在CPU內(nèi)核心進行4組套轉(zhuǎn)換。INTEL CPU比如Nehalem都支持2-way多線程,Larrabee則為4-way multi-threadCPU。而GPU產(chǎn)品中支持多線程的則很少。GPU產(chǎn)品通常配備有數(shù)十以上的線程硬件轉(zhuǎn)換功能。比如GeForce GTX 200(GT200)在32寄存器/線程時轉(zhuǎn)換為16warp(NVIDIA用語)。根據(jù)Larrabee的資料,硬件多線程設計是為了在進行編譯的時候減少二級緩存的等待時間為目的。這與GPU的硬件多threading不同。 另外 Larrabee的硬件多線程比GPU少的原因是架構(gòu)上的不同。值得注意的是,INTEL指出Larrabee“全面支持IEEE標準單、雙精度浮點運算”,但沒有透露具體指標。AMD和NVIDIA顯卡在單精度方面表現(xiàn)都很出色,RV770系列已經(jīng)輕松超過1TFlops,不過雙精度性能還相差甚遠,比如Tesla的單精度性能可達900-1000GFlops,雙精度就只有100GFlops左右。如果出Larrabee全雙精度浮點運算的話,那么它的通用運算能力要遠遠強于當前的GPU。
盡管INTEL進軍獨立顯卡市場的野心已然明確,但據(jù)消息來源表示,目前很多細節(jié)還處于混沌狀態(tài)。INTEL將會在今年第四季度公開發(fā)布詳細完整的獨立顯卡產(chǎn)品線roadmap。到那個時候,Larrabee顯卡才會變得更加清晰。相較于GPGPU來說,它最大的優(yōu)勢就在于采用了大家熟悉的x86架構(gòu)。目前多數(shù)的軟件工程師仍不熟悉如何將GPU應用在多任務處理及平行運算上,這點就占了不少優(yōu)勢。如果順利的話,INTEL將肯定在2008年展示Larrabee系列獨立顯卡。根據(jù)比較可靠的消息來看,Larrabee項目其實是隸屬于Tera-Scale計劃(“萬億級別計算研究項目”。這個計劃的重要工作內(nèi)容,就是分析未來10年內(nèi)人們對電腦及服務器的應用需求。這一計劃涉及的研究領(lǐng)域非常廣泛,共有超過 400 間大學、美國國防部高等研究計劃局 (DARPA) ,以及像是微軟與惠普等相關(guān)公司,共同為 Larrabee 應用進行研究。
相關(guān)文章
AMD 銳龍 9 9955HX3D首測:單核多核一路領(lǐng)先
新一代筆記本正在陸續(xù)到來,HotHardware搶先拿到了一臺微星的泰坦18 Pro,簡單測試了其首發(fā)配備的AMD銳龍9 9955HX3D,展現(xiàn)了新一代X3D旗艦的威力2025-03-28游戲裝機不花冤枉錢! 銳龍5 9600X性價比完勝酷睿Ultra 7 265K
花更多的錢,是不是真的能換來更好的游戲體驗?咱今天就來嘮嘮這個事兒,看看這錢到底該不該花,接下來我們不妨拿競品高端定位的酷睿Ultra 7 265K來和銳龍5 9600X進行一個對2025-03-25AMD銳龍7 9700X板U套裝推薦:輕松獲得僅次于9800X3D的游戲性能
銳龍7 9700X的首發(fā)上市價格為2549元,現(xiàn)在該產(chǎn)品也大幅降價到1999元,性價比非常誘人,今天我們就來看看AMD銳龍7 9700X板U套裝推薦2025-03-17銳龍7 7800X3D實力完勝i9-14900K! 3000元內(nèi)游戲CPU推薦
在當前3000元以內(nèi),最熱門的游戲CPU莫過于銳龍7 7800X3D和酷睿i9-14900K,那么這兩款產(chǎn)品究竟誰性價比更高呢?下面我們就來看看詳細測評2025-03-12游戲與生產(chǎn)力雙高 綜合實力最強! 銳龍9 9950X3D處理器首發(fā)評測
AMD終于將銳龍 9000系列的王牌產(chǎn)品——銳龍 9 9950X3D拿了出來,在搭載了超大容量的3D緩存之后,這顆處理器可以說是兼顧了游戲以及創(chuàng)作能力,同時也是消費級銳龍 9000處理2025-03-1264位和32位CPU有什么區(qū)別? 電腦32位和62位系統(tǒng)區(qū)別介紹
在選購或使用電腦時,我們經(jīng)常會聽到“32位”和“64位”這樣的術(shù)語,那么,這兩個概念到底是什么意思?它們對計算機的性能和兼容性有什么影響?詳細請看下文介紹2025-03-07為什么主流裝機玩家都選AMD 銳龍5 9600X? 五大理由告訴你
你可能會奇怪,為什么最近Zen5架構(gòu)的銳龍9000系列桌面處理器在主流玩家群體中的口碑這么好;為什么在追求性價比搭配,期望用最少花費實現(xiàn)盡可能好游戲體驗的玩家群體中,AM2025-02-28有銳龍7 9700X還考慮什么酷睿i9/Ultra 9處理器? 性能級游戲裝機推薦
別看銳龍7 9700X只是一款2000元價位的產(chǎn)品,但是具備了挑戰(zhàn)競品旗艦酷睿i9-14900K和酷睿Ultra 9 285K的強悍實力,具體差距如何?請看下文測評2025-02-27CPU散熱你了解多少? CPU 熱節(jié)流機制的利與弊分析
CPU熱節(jié)流是指當處理器在運行過程中產(chǎn)生過多的熱量,達到一定的溫度閾值時,為了防止過熱和損壞,CPU會自動降低時鐘速度和性能的技術(shù),下面我們就來看看它的利弊2025-02-19- CPU 的 L1、L2 和 L3 Cache 在現(xiàn)代計算機架構(gòu)中起著關(guān)鍵作用,它們的設計、大小、位置以及讀寫速度和延遲都有顯著的差異,詳細請看下文介紹2025-02-19