以工程美學的角度來看,英特爾酷睿微架構與AMD K10微架構都缺乏一種技術之美:前者擁有更強的并行指令執行能力,因而具有出色的每瓦性能,讓英特爾在新一輪戰爭中贏得勝利。但酷睿平臺依然采用老舊的南北橋芯片組架構,CPU與CPU、CPU與內存之間無法實現短延時的快捷通訊,未能將系統性能發揮到極致。K10微架構沒有這方面的缺點,但它的指令解碼機制不過是當年K7架構的翻版,致使其指令效能相對不高。
英特爾將于下半年發布的Nehalem將成為史上第一種稱得上完美的架構,Nehalem繼承了現行酷睿微架構高指令解碼能力的優點,具有更為出色的每瓦性能,同時又糅合了AMD K8所創立的集成內存控制器、芯片間高速直連等思想——AMD為此掀起了一場新的口水仗,認為技術創新先出于己,但這顯然經不起深究,因為K8的連接架構實際上是來自RISC體系,早在上個世紀末,IBM的Power 4處理器即采用此項設計。不管怎么說,我們將在Nehalem身上看到一次X86處理器的革命,英特爾平臺也將因此進入新的紀元。
Nehalem的技術概要
無論是在處理器設計還是半導體工藝,英特爾都顯得更加銳意進取,為了保證市場領先,讓對手沒有可乘之機,英特爾執行嚴格的工藝升級和架構更迭道路,英特爾內部將每一次工藝升級都稱為一次“Tick”,Tick除了工藝升級外還會對現行的處理器架構進行改良,譬如這次Penryn推出就屬于一次Tick:制造工藝從65納米升級到45納米,同時Penryn在Core 2 Duo基礎上進行改良,包括SSE4指令集引入、二級緩存增加,等等。而每一次微架構更換則稱為“Tock”,譬如從NetBurst到Core就是一次Tock,新一輪的Tock便是Nehalem微架構的推出。根據計劃,英特爾的每個Tick-Tock周期為兩年時間,也就是每隔兩年都將推出一次新架構,同時在某種架構推出一年后,將會推出新工藝和改良設計的新產品,這種有序的升級模式可以令英特爾每個年度都有性能更出色的新產品、新平臺出現,如果未來AMD無法跟上英特爾的步伐,那么將會被越拋越遠。
我們將在2008年第四季度看到Nehalera微架構的推出。在指令解碼、執行部分,Nehalem實際上是基于現行的酷睿架構開發,譬如它擁有4條指令并行解碼能力,微指令融合、宏指令融合等技術一應俱全——這些方面改進的余地相對有限。指令集部分,Nehalem采用增強版的SSE4.2,它在現行SSE4基礎上增加了7條數據庫操作相關的新指令,使之可以高效率地處理數據庫構建、查詢等繁重任務,同時也加快數據傳輸,可以顯著提升數據庫服務器的實際性能。另外,Nehalem將支持類似HyperThreading的SMT多線程處理能力,雖然Penryn也具有多線程技術,但Nehalem在該方面的性能可比Penryn高出20%-100%,這主要得益于Nehalem擁有更先進的多線程算法。
Nehalem將支持原生四核設計,這一點也符合今天的潮流,基本上,Nehalem在指令處理方面并沒有根本性的變革,但它將酷睿微架構的高效率演繹到極致。Nehalera的革命性更多體現在它引入集成內存控制器設計和名為“QuickPath”的內部互聯架構——后者可以同AMD的HyperTransport超傳輸總線直接類比。內存控制器方面,Nehalem的設計十分恐怖:它首度支持三通道DDR3規范,這意味著Nehalem平臺的最高內存帶寬將達到32GBps(DDR3-1333),相當于目前GeForce 8600GTS的顯存帶寬;另外,Nehalem不再對目前的DDR2提供支持,充分體現英特爾激進設計的風范。QuickPath總線也就是原先所說的“CSI”總線,它在功能上與HyperTransport類似,不過英特爾其實是在PCI Express總線基礎上開發Quick Path——QuickPath采用點對點設計,每個基本通路包括一個線路對,分別負責數據發送和接收;QuickPath的數據傳輸頻率高達4.8GHz-6.4GHz,這意味著每個線路對的傳輸速率將達到4.8Gbps-6.4Gbps,由于Nehalem的QuickPath傳輸包括4條鏈路,這就意味著QuickPath可以提供24GBps-32GBps的帶寬,對于處理器與處理器、處理器與芯片組的數據傳輸任務而言,這樣的帶寬數字綽綽有余。
針對服務器的Nehalem處理器將擁有至少4組QuickPath傳輸,可組成包括4枚處理器的4路服務器系統——由于每顆處理器可包含4顆CPU核心,4路系統將包括16枚運算內核,再加上SMT多線程支持,4路Nehalem系統最多可支持32線程并行運作。英特爾目前未公布Nehalem是否能夠支持更多處理器的互聯,但以集成內存控制器設計和QuickPath總線設計來看,Nehalem平臺理論上可具有媲美AMD K10的擴展彈性,即可以任意多處理器構成集群系統,并且處理器數量可以隨意增加和減少,這對于構建高性能集群非常有利。當然要做到這一點,QuickPath總線就必須支持線纜傳輸,英特爾雖然還未公布QuickPath是否具有這樣的能力,但這顯然是QuickPath技術的發展方向。
深度改良的微架構、集成內存控制器設計以及QuickPath直連技術,令Nehalem擁有更為出色的執行效率——在單線程、同頻率條件下,Nehalem的運算性能比現行Penryn架構提升10%-25%;而在相同功耗下,Nehalem的效能同比上升30%,或者說在相同效能條件下,Nehalem的功耗比Penryn低出30%,整體表現極為優秀!很明顯,如果AMD繼續打算用K10架構來應對Nehalem,那么將會一敗涂地,及時推出可與之匹敵的新一代微架構勢在必行。
除了每瓦性能的提升,Nehalem也更加注重運行時的實際功耗表現,譬如它將擁有高度靈活的能源管理機制,可實現類似AMD Griffen移動處理器的供電分離和動態頻率管理,這將大幅度降低處理器在閑置條件下的能耗水平。與此同時,Nehalem還將具有一項名為“Turbo Mode”的功能,該功能其實類似于Santa Rosa迅馳平臺的IDA(Enhanced DynamicAcceleration),即當系統只執行單線程任務時,將其中的一個核心關閉,另一個核心則自動提高頻率,相當于超頻運作,達到提高單線程性能的目的。我們不必擔心會有功耗過高、CPU過熱之類的問題,Turbo Mode自身將根據處理器實際功耗、溫度以及規格限制進行IDA運作,確保在安全穩定條件下進行加速,而由于一個核心閑置,另一個核心即便超頻運作,也不會導致CPU功耗超過限定值。
Nehalem平臺的I/O中樞
集成內存控制器和QuickPath設計讓Nehalem拋棄了沿用多年的“前端總線(FSB)”設計,現在,CPU不必經過“前端總線一北橋一內存總線”的轉接才能訪問內存,而是直接通過內存控制器就能訪問內存資源,訪問延遲可以降低50%以上!QuickPath總線則實現了多處理器的直接互聯,同樣無需再經過FSB。這套連接架構無疑要比傳統的方案更為先進,AMD平臺過去多年的成功經驗也很好地說明了這一點。
不過,Nehalem在集成方面比AMD K10更進了一步,它不僅將內存控制器納入CPU內部,而且將PCI Express控制器也直接集成(Nehalem的首款產品并未集成這兩者),換句話說Nehalem實際上包含了整個北橋。既然如此,未來英特爾的芯片組就將進入單芯片時代,只需由一枚I/O芯片(即傳統意義上的南橋)負責與外圍設備的通訊,英特爾將該枚芯片稱為PCH(Platform ControllerHub),首顆PCH芯片的開發代號為Ibexpeak。
據悉,Ibexpeak將采用65納米工藝制造,采用28×28FCBGA封裝,它的具體規格包括:支持8組PCI Express 2.0 X1接口,比上一代ICH的6組和PCI Express 1.0規范更進了一步,可充分滿足系統I/O擴展的需求,支持6組SATA 2.0硬盤接口,其中的Port4及Port5兩個端口可支持FIS-basedMulti,Port技術——所謂MultiPort,就是指可以讓一個SATA端口連接多塊SATA硬盤,該技術共有Command-based switching及FrameInformation Structure(FIS)-based switching兩種模式,區別在于Command-based switching只容許一組SATA設備獨占所有帶寬,其他設備則需要等候該指令完成后才能做出調用,相當于通過時間片劃分來管理資源,現行的IC H9南橋便是支持這種模式。與之不同,FIS based switching則允許多個SATA設備同時共享帶寬,它的工作效率比Command-based Switching更高,也更能充分發揮出SATA 2.0 3Gbps帶寬的優勢,不過這種設計比較復雜,要求南橋具有較高的硬件性能,以滿足多設備頻繁數據傳輸的要求。USB方面,Ibexpeak支持多達14個USB 2.0接口,并且使用RateMatching Hub取代舊有的UHCI架構,令所有的USB端口均支持HS/FS/LS工作模式,從而有效節省USB設備的電能消耗。
Ibexpeak芯片平臺的AMT主動管理技術也升級到更先進的6.0版本,AMT 6.0的主要改進在于加入了硬件KVM(Keyboard Video Mouse)控制器,該控制器可以讓遠程用戶直接進行BIOS設定、操作系統安裝等工作,甚至在系統崩潰和藍屏時也能正常運作,遠程人員仿佛和維護本機一樣方便。
在現行的ICH9和即將發布的ICH10平臺中,NAND閃存加速模塊都是通過PCI Express總線與系統相連,AMD的SB700南橋則是通過IDE總線與閃存模塊掛接——但無論哪一種方案都存在總線轉接環節,導致NAND閃存傳輸效率不高。Ibexpeak芯片直接內置了NAND讀寫控制器,主板廠商可以將ONFI connector規格的NAND閃存芯片直接集成在主板上,以達到系統加速的目的。而為了進一步降低主板廠商的成本,Ibexpeak芯片內直接內建了ClockChip Buffer,主板廠商不必額外增加一枚BOM芯片,這在同時也有效減少了PCB板的空間占用。
由于ICH10已經徹底拋棄了PCI接口和PS/2鍵盤鼠標接口,Ibexpeak自然也繼承了這一特性,換句話說,我們在Ibexpeak中將看不到任何一點舊有技術的身影。ICH10將集成萬兆以太網控制器,Ibexpeak同樣也將完整保留。
“Bloomfield”鎖定第四季度
首款Nehalem架構處理器將在2008年第四季度推出,它就是代號為“Bloomfield”的四核心處理器。據悉,Bloomfield將采用45納米工藝生產和原生四核設計,它不再像Yorkfield一樣采用雙芯片封裝的做法;同時,Bloomfield也擁有SMT(Simultaneous Multi-hreading)多線程技術,單顆處理器就可以支持8個線程并行運作。二級緩存方面,Bloomfield采取四核心共享的做法,二級緩存容量為8MB,比Yorkfield的6MB×2規格少了不少,但Bloomfield的二級緩存命中率更高,一定程度上彌補了容量較小的不足。Bloomfield將采用全新的LGA1366插座,芯片整體大小為42.5×45mm,它的散熱器設計雖然與目前LGA775的散熱方案類似,但卻無法做到相互兼容,原因在于Bloomfield的接觸面積為80平方毫米,比LGA775的72平方毫米大一些。功耗方面,Bloomfield的最高TDP達到130瓦,必須采用全新的VRM 11.1(Voltage Regulator Module)版本方能滿足供電需求——作為一款面向服務器和發燒市場的四核心產品,這樣的功耗指標并不算過分。
也許是為了保證良品率和減小新架構產品的技術風險,Bloomfield并沒有將內存控制器和PCIExpress 2.0控制器集成,這些功能都由獨立的北橋芯片來完成,因此它仍然屬于常規的連接架構。與Bloomfield搭配的北橋代號為Tylersburg,該款北橋通過全新QuickPath Interconnect技術與Bloomfield處理器連接——換言之傳統的并行FSB總線已被徹底摒棄,點對點的高速串行QuickPath總線取而代之。QuickPath總線可提供與FSB近似的延遲,并且對多線程、LT/VT等技術都作了優化,最高速度達到6.4GTps(每秒傳輸6.4G次數據),比AMD的HyperTransport 3.0速度快了許多(HyperTransport 3.0最高頻率為2.6GTps)。內存支持方面,Tylersburg北橋可支持6組DIMM的三通道DDR3規范,最高可支持到DDR3-1600,內存總容量最高可達24GB——三通道DDR3將系統內存性能提升了一個臺階,而主板PCB布線的難度也非常之高,預計該平臺的價格會相當高昂!不過,OEMV商也可以只實現雙通道方案以達到降低成本的目的,當然性能也會隨之下降。
Tylersburg北橋內建四組PCI-Express 2.0 X8圖形接口,可支持AMD Quad CrossFireX的四卡并聯運作,由于PCI Express 2.0規范的數據率達到5GTps,即便是X8規范也能提供雙向8GBps的傳輸帶寬,這足以滿足下一代旗艦級顯卡的需要。此外,Tylersburg亦可支持雙X16模式,此時每個圖形接口可提供多達16GBps的雙向帶寬。
Tylersburg將與現行的ICH10南橋配合——ICH10也是英特爾最后一代傳統意義的南橋,它的規格相比ICH9并沒有大幅度的改動,仍保持6個PCI Express X1接口、4個PCI接口,12個USB 2.0接口及2組EHCI控制器,并支持USB端口禁用功能。硬盤接口方面,ICH10共有6組SATA接口,支持3Gbps、eSATA及Port Disable,Intel MatrixStoragegt術亦并沒有任何改動,同樣是支援RAID0、1、5、10及Matrix RAID等陣列模式。不過,ICHlO首度加入硬件AH CI技術,成為它的一大賣點。AHCI技術全稱為Serial ATA Advanced HostController Interface,這項接口技術由英特爾、AMD、戴爾、Marvell、邁拓、微軟、Red Hat、希捷和StorageGear等多家企業聯合開發,它可允許存儲驅動程序啟用高級串行ATA功能,包括NCQ、熱插拔等等,不過其最大的用途就是自身具備I/O控制能力,可有效降低I/O操作時的CPU占用率,間接起到改善功耗的作用。
ICH10的喚醒、管理和安全功能都將獲得強化,其中標準版和ICH10R支持Corwin Springs喚醒模式,數字辦公版ICH10DO則追加Wake OnVOIP模式。管理方面,ICHlOD支持TPM 1.2和AMT 3.x,ICHl0DO則支持更先進的AMT 5.0,加入了大量管理功能。
Bloomfield平臺主要針對發燒市場,預計至少包含3個型號,價格則從266美元起跳——如果這個價格最終確定,那么Bloomfield將極富競爭力,這對于AMD可謂是當頭一棒!
桌面/移動主流各領風騷
在2009年的第一季度末,英特爾將推出代號為“Lynnfield”的第二款Nehalem架構處理器,與B100mfield不同,Lynnfield將集成內存控制器和PCI Express 2.0控制器,相當于將整個北橋都納入其中。同樣,Lynnfield采用45納米和原生四核設計,支持SMT多線程技術,搭載8MB容量的二級緩存——Lynnfield的規格與Bloomfield相當接近,二者區別在于Lynnfield只能支持雙通道DDR3-1600而非三通道,另外它整合了16個PCI Express 2.0鏈路,僅可支持1組PCI Express 2.0 X16圖形接口或分割為2組PCI Express 2.0 X8使用,同樣它也可支持AMD的CrossFireX技術。Lynnfield將采用全新的LGA1160插座,插座尺寸為37.5×37.5毫米,但由于Lynnfield的接觸面積達到75平方毫米,略略大于目前的LGA775,因此現有散熱平臺也無法兼容——如果將它與相同架構的Bloomfield對比,我們發現這二者的插座與散熱器方案同樣不相同。功耗方面,Lynnfield的TDP功耗也達到95瓦,對于散熱系統要求較高。
由于CPU已經將北橋直接集成,Lynnfield處理器就沒有采用Quick Path Interconnect技術與I/O芯片(即傳統意義上的南橋)連接,而是通過原有的DMI總線,該條總線的最高速度為2GTps,已足以滿足I/O芯片的實際需要。
而到2009年第二季度末,英特爾將會帶來第三款Nehalem架構的“Havandale”處理器,Havendale將針對主流市場,采用45納米工藝生產,所不同的是它是第一款Nehalem架構的雙核心處理器。Havendale擁有4MB共享二級緩存,相對于Penryn的6MB,Havendale反而有所縮水,這樣做顯然是為降低成本考慮。Havendale同樣將內建雙通道內存控制器、PCI Express 2.0圖形接口,在此基礎上它還直接集成了圖形核心——不過這些功能邏輯并非采用原生設計,而是做成一枚單獨的芯片,然后將它與CPU封裝在一起,這些外圍單元與CPU的通訊則是通過Quick Path Interconnect進行。簡單點說,Havendale就是將CPU芯片與北橋芯片封裝為一個模塊,而非真正意義上的集成北橋設計。圖形核心方面,Havendale將采用統一渲染架構,擁有12個運算單元,可支持DirectXl0、Shader Model 4.0及OpenGL 2.1,采用全新Unified Shader架構,它的固定功能運算單元從G45的6組提升至8組,具有一個專門負責高清視頻解碼的CABA C引擎。在該引擎的幫助下,Havendale能夠對MPEG2、VC-1及AVC(H.264)等格式的高清視頻進行全硬件的解碼,支持40Mbps碼率的藍光和HD DVD高清光碟的播放,整體功能完全可滿足用戶的正常需要。物理設計方面,Havendale同樣采用LGA1160插座,與同效能級的Lynnfield處理器相互兼容,但它的最高TDP僅為75瓦。
既然將北橋納入Havendale封裝內,Havendale同樣只需要采用一顆I/O南橋即可,這一點也與Lynnfield處理器完全相同,不過,Havendale本身并沒有內建視頻輸出功能,圖形核心渲染出的畫面必須轉由I/O南橋負責輸出,因此配套的IbexpeakI/O芯片還內建了Analog(VGA)及Digital(SDVO、HDMI、Display Port及DVI)圖像處理單元,HDCPKey也內建于該芯片內,可直接實現HDMI輸出。
同樣在第二季度末,英特爾將推出Nehalem微架構的移動版本,它們包括四核心的Clarkefield、雙核心/內建圖形單元的Aubumdalc——不難看出,這兩者其實就是Lyrmfield和Havendale的移動版本,只不過功耗大幅度下降以滿足筆記本電腦的要求。其中,Clarkefield將有最高TDP 45瓦和55瓦兩種版本,前者針對效能級移動平臺,后者則針對游戲機型,這樣的功耗數字或許讓人感到瞠目結舌,但與現行的迅馳平臺相差并不算大,因為Clarkefield集成了北橋,而目前迅馳平臺的IGP北橋功耗達到12瓦,將其扣除之后CPU部分的TDP功耗降低到33瓦和43瓦,尚屬于正常水平。而主流級的Auburndale功耗同樣為45瓦,與現行迅馳平臺大體相當。
但就這些功耗數字來看,Nehalem移動平臺未必能夠繼續在電池續航力方面保有絕對優勢,AMD同時期的移動處理器功耗僅為35瓦,同樣內建北橋功能,只要AMD在移動處理器的能源管理機制方面繼續加強,那么有望在這一領域超越對手。
Nehalem將帶來產業界的洗牌
Nehalem微架構的出現,標志著X86 PC進入到一個嶄新的紀元,更高的效能和卓越的效率將捍衛英特爾在X86處理器領域的王者地位,倘若AMD不加速新一代架構的開發步伐,那么將被對手越拋越遠。AMD當前可以拿出的應對之策就是借助圖形技術的優勢,形成平臺化的合力——至少在圖形領域,英特爾遠非AMD的對手,AMD有能力打造包括處理器、芯片組和高端圖形技術合一的平臺,英特爾就無法做到這一點。
Nehalem的集成北橋設計同樣將改變產業界的格局,首先,我們可以肯定第三方芯片組開發商將丟掉飯碗,即便是nVIDIA這樣的巨頭,在芯片組領域也將沒有機會,理由很簡單,Nehalem平臺只需要一枚I/O芯片,而I/O芯片并不會對整機性能帶來多大的影響;其次,Nehalem的主流和移動型號在CPU中集成了圖形核心,這意味著nVIDIA將失去整個低端圖形市場,只能依靠高端圖形技術生存。至于AMD自身也在進行類似的事情,現在我們已經可以看到,主板廠商將AMD自家的芯片組作為首選,nVIDIA日趨遭遇邊緣化。
然而,Nehalem微架構也留下了遺憾,至少移動平臺的高能耗就是個大問題,英特爾在過去兩年都高調宣揚8小時續航力,在主流級的Nehalem移動平臺中我們將無法看到這一點,或許它的低功耗、超低功耗版本可以讓用戶實現這一愿望——或許將長效續航的愿望寄托在電池技術改良上更切合實際。