英特爾新一代顯卡架構Larrabee解析

獨特的顯存架構
在顯存控制器方面, AMD和NVIDIA的GPU使用的是64bit的顯存控制器,并且在芯片內只有一組控制器。鑒于INTEL的Larrabee采用多核心設計,內部需要更多的顯存帶寬, Larrabee將采用1024-bit雙向環(huán)形總線,單向傳輸位寬為512-bit。在加上GDDR5顯存的助力,Larrabee將會有不錯的性能表現(xiàn)。目前的GDDR5顯存顆粒還十分昂貴,不過相信到了2010年的時候,會迅速普及,價格自然也會降低到一個比較合理的價位。
嵌入式存儲架構
值得一提的是,AMD公司已經(jīng)在它的GPU中放棄了他們的環(huán)形顯存控制器架構,轉而采用更先進的片上嵌入式存儲,因為他們的GPU需要更加強大的存儲帶寬。AMD認為環(huán)形的總線會將數(shù)據(jù)直接排擠送出,這種線路設計會相對簡單許多,它可以大幅減少芯片的復雜程度,不過他的缺點也比較明顯,它需要一根很長的電線貫穿整個芯片。并且無論接收方是否需要,都為所有的接收端提供了較高的數(shù)據(jù)帶寬。因此如果內存接收方需要更高的內存,或者需要提高系統(tǒng)總線的帶寬的話,提供一條雙向的帶寬就可以輕松解決。INTEL可能有比AMD更高明的環(huán)形總線方案。因為Larrabee支持超高速相關性緩存,并且可以跨越核心通信。L2高速緩存可以被分割為2個部分,同時可以用環(huán)形總線保持他們數(shù)據(jù)的一致性。這樣可以促進信息更好的被傳遞,也讓繁重的數(shù)據(jù)處理變得更加輕松。如果Larrabee所有的處理核心都通過一個雙向的環(huán)形總線連接,每個方向提供512bit的位寬。這條總線的工作頻率,可能與Larrabee的主頻相同。我們假設一下Larrabee的運行頻率為2GHz以上,那么這條總線將會提供非常高的帶寬吞吐量,而且它的工作頻率要遠遠高于AMD的GPU。
SLI、交火不算什么,Larrabee的多內核設計!
目前的GPU全是采用單核芯片設計,圖形顯示系統(tǒng)要想達到更高的性能只能采用雙GPU設計或雙卡、四卡并聯(lián)運行方案。這在成本上往往是用戶所不能接受的。而在Larrabee上,INTEL采用多核心設計,這也將是首款采用多核設計的GPU。根據(jù)INTEL初步的計算,最初Larrabee的核心數(shù)量將會是16個核心,今后按照翻倍的步進也許會升級到32個核心。這是因為要應付目前主流的3D圖形的運算,起步至少要16個核心才可以從容應對,但是24個核心的產(chǎn)品也是有可能的,畢竟以目前的生產(chǎn)工藝來看做到這一點完全是沒有問題的。
半導體芯片核心
目前我們的半導體芯片核心面積可以做到286平方毫米,NVIDIA的GT200和AMD的RV770就處在這個層次上。因此在Larrabee集成更多的處理核心應該并非難事。假設INTEL要想集成40個處理核心,那么至少需要572平方毫米的芯片。事實上NVIDIA的GT200使用的是65nm制造工藝技術,如果INTEL用最為先進的32nm制造工藝技術,那么芯片的尺寸還會大幅縮小。就目前的INTEL 45nm制造工藝來說,芯片的核心面積可以減小至少50%,但是根據(jù)INTEL的說法,只要轉產(chǎn)到45nm,甚至可以減小到60~70%的樣子。屆時Larrabee將能集成更多的處理核心。INTEL推測,40個核心45nm版本的Larrabee其核心面積約為370平方毫米。像NVIDIA的產(chǎn)品線一樣,INTEL也會將芯片根據(jù)核心數(shù)量分成不同的檔次,面向不同人群推出。
游戲性能與核心數(shù)量的增長趨勢
根據(jù)INTEL的說法,這種特性在《戰(zhàn)爭機器》、《F.E.A.R.》、《半條命2:第二章》等游戲中表現(xiàn)最明顯,實際性能基本隨著核心數(shù)量呈線性增長趨勢。如果8核心的性能算作1,那么16核心就約等于2、24核心約等于3、32核心約等于4。如果一直這樣增長下去,那Larrabee的實力將是恐怖的。不過INTEL也承認,隨著核心數(shù)量的繼續(xù)增多,這種線性關系會逐漸減弱,到了40核心只有3.8-3.9,48核心就僅僅4.4-4.6了,64核心甚至可能都不到7。因此如果解決多核心中復雜的數(shù)據(jù)共享問題及功耗問題,這都是INTEL需要面對的。
除此之外,Larrabee還同時能夠支持4路硬件線程。而Larrabee也能夠在CPU內核心進行4組套轉換。INTEL CPU比如Nehalem都支持2-way多線程,Larrabee則為4-way multi-threadCPU。而GPU產(chǎn)品中支持多線程的則很少。GPU產(chǎn)品通常配備有數(shù)十以上的線程硬件轉換功能。比如GeForce GTX 200(GT200)在32寄存器/線程時轉換為16warp(NVIDIA用語)。根據(jù)Larrabee的資料,硬件多線程設計是為了在進行編譯的時候減少二級緩存的等待時間為目的。這與GPU的硬件多threading不同。 另外 Larrabee的硬件多線程比GPU少的原因是架構上的不同。值得注意的是,INTEL指出Larrabee“全面支持IEEE標準單、雙精度浮點運算”,但沒有透露具體指標。AMD和NVIDIA顯卡在單精度方面表現(xiàn)都很出色,RV770系列已經(jīng)輕松超過1TFlops,不過雙精度性能還相差甚遠,比如Tesla的單精度性能可達900-1000GFlops,雙精度就只有100GFlops左右。如果出Larrabee全雙精度浮點運算的話,那么它的通用運算能力要遠遠強于當前的GPU。
盡管INTEL進軍獨立顯卡市場的野心已然明確,但據(jù)消息來源表示,目前很多細節(jié)還處于混沌狀態(tài)。INTEL將會在今年第四季度公開發(fā)布詳細完整的獨立顯卡產(chǎn)品線roadmap。到那個時候,Larrabee顯卡才會變得更加清晰。相較于GPGPU來說,它最大的優(yōu)勢就在于采用了大家熟悉的x86架構。目前多數(shù)的軟件工程師仍不熟悉如何將GPU應用在多任務處理及平行運算上,這點就占了不少優(yōu)勢。如果順利的話,INTEL將肯定在2008年展示Larrabee系列獨立顯卡。根據(jù)比較可靠的消息來看,Larrabee項目其實是隸屬于Tera-Scale計劃(“萬億級別計算研究項目”。這個計劃的重要工作內容,就是分析未來10年內人們對電腦及服務器的應用需求。這一計劃涉及的研究領域非常廣泛,共有超過 400 間大學、美國國防部高等研究計劃局 (DARPA) ,以及像是微軟與惠普等相關公司,共同為 Larrabee 應用進行研究。
相關文章
- 新一代筆記本正在陸續(xù)到來,HotHardware搶先拿到了一臺微星的泰坦18 Pro,簡單測試了其首發(fā)配備的AMD銳龍9 9955HX3D,展現(xiàn)了新一代X3D旗艦的威力2025-03-28
游戲裝機不花冤枉錢! 銳龍5 9600X性價比完勝酷睿Ultra 7 265K
花更多的錢,是不是真的能換來更好的游戲體驗?咱今天就來嘮嘮這個事兒,看看這錢到底該不該花,接下來我們不妨拿競品高端定位的酷睿Ultra 7 265K來和銳龍5 9600X進行一個對2025-03-25AMD銳龍7 9700X板U套裝推薦:輕松獲得僅次于9800X3D的游戲性能
銳龍7 9700X的首發(fā)上市價格為2549元,現(xiàn)在該產(chǎn)品也大幅降價到1999元,性價比非常誘人,今天我們就來看看AMD銳龍7 9700X板U套裝推薦2025-03-17銳龍7 7800X3D實力完勝i9-14900K! 3000元內游戲CPU推薦
在當前3000元以內,最熱門的游戲CPU莫過于銳龍7 7800X3D和酷睿i9-14900K,那么這兩款產(chǎn)品究竟誰性價比更高呢?下面我們就來看看詳細測評2025-03-12游戲與生產(chǎn)力雙高 綜合實力最強! 銳龍9 9950X3D處理器首發(fā)評測
AMD終于將銳龍 9000系列的王牌產(chǎn)品——銳龍 9 9950X3D拿了出來,在搭載了超大容量的3D緩存之后,這顆處理器可以說是兼顧了游戲以及創(chuàng)作能力,同時也是消費級銳龍 9000處理2025-03-1264位和32位CPU有什么區(qū)別? 電腦32位和62位系統(tǒng)區(qū)別介紹
在選購或使用電腦時,我們經(jīng)常會聽到“32位”和“64位”這樣的術語,那么,這兩個概念到底是什么意思?它們對計算機的性能和兼容性有什么影響?詳細請看下文介紹2025-03-07為什么主流裝機玩家都選AMD 銳龍5 9600X? 五大理由告訴你
你可能會奇怪,為什么最近Zen5架構的銳龍9000系列桌面處理器在主流玩家群體中的口碑這么好;為什么在追求性價比搭配,期望用最少花費實現(xiàn)盡可能好游戲體驗的玩家群體中,AM2025-02-28有銳龍7 9700X還考慮什么酷睿i9/Ultra 9處理器? 性能級游戲裝機推薦
別看銳龍7 9700X只是一款2000元價位的產(chǎn)品,但是具備了挑戰(zhàn)競品旗艦酷睿i9-14900K和酷睿Ultra 9 285K的強悍實力,具體差距如何?請看下文測評2025-02-27CPU散熱你了解多少? CPU 熱節(jié)流機制的利與弊分析
CPU熱節(jié)流是指當處理器在運行過程中產(chǎn)生過多的熱量,達到一定的溫度閾值時,為了防止過熱和損壞,CPU會自動降低時鐘速度和性能的技術,下面我們就來看看它的利弊2025-02-19- CPU 的 L1、L2 和 L3 Cache 在現(xiàn)代計算機架構中起著關鍵作用,它們的設計、大小、位置以及讀寫速度和延遲都有顯著的差異,詳細請看下文介紹2025-02-19