自Nehalem開始,英特爾就采用了融合核心的設計,亦即在不同的產品線中使用同一個微架構,只是核外部分有所不同。例如,同一時代面向服務器的Xeon 5600/3500系列架構、面向高端桌面的Core i7 990X、面向主流桌面的Core i7 870均屬于Westmere架構(Nehalem微架構)。一般來說,同一個微架構系列會衍生出3到4個不同的系統架構來面向多個不同的產品線。
Sandy Bridge-E處理器
內存控制器、PCI Express和QPI這些IO需要不少的針腳數,如Nehalem/Westmere時代有LGA1567(四內存通道)、LGA1366(三內存通道)、LGA1156(雙內存通道)的區別;到了Sandy Bridge,由于架構的大變化,針腳也有所改動,變成了LGA2011和LGA1155兩種。顯然,LGA1155就是LGA1156的后續,兩個內存通道維持不變。而LGA1567的Sandy Bridge后續型號則從路線圖上消失。跟Nehalem-EX/Westmere-EX不同,Sandy Bridge-EX只有四路而沒有八路產品。歷史上曾經存在LGA1367,后來融合進LGA2011產品線,因為LGA2011封裝已經非常復雜,并且可以包含LGA1367的所有功能,沒有必要再自找麻煩增加一個型號。
因此LGA2011就是LGA1366的后續。LGA2011是一個將會應用得非常廣泛的針腳/插槽系統,包括企業級的Sandy Bride-EN/EP/EX產品線均會采用。在桌面系統上,使用LGA2011的處理器代號為Sandy Bridge-E。
Sandy Bridge-E的微架構和低端的LGA1155 Sandy Bridge完全一致,只是核外架構更為強大。LGA2011 Sandy Bridge-E目前最高的配置可以達到6個核心/12個線程,而LGA1155 Sandy Bridge則被限制為4個核心/8個線程。Sandy Bridge-E沒有搭載GPU,更多的空間用來加大L3 Cache容量,6核心版本提供了15MB的容量,平均每核心2.5MB,在LGA1155上平均每核心為2MB。從下圖的Sandy Bridge-E晶圓圖可以看出,它就是使用企業級的Sandy Bridge-EP裁減而來,包括圖中兩個被裁減的核心以及對應的L3緩存塊,以及左上角的QPI接口電路。最下方為占用兩個環形總線站臺的內存控制器,每個環形總線站臺連接兩個內存通道,右上角為System Agent系統代理,包括PCI Express控制器、DMI接口以及其它控制電路。
Sandy Bridge-E提供了40個PCIe Lanes,比普通Sandy Bridge的最大值24個Lanes要多近一倍,并且需要特別說明的是,Sandy Bridge-E支持PCI Express 3.0,速率達到8GT/s,采用128b/130b編碼,而傳統的Sandy Bridge僅支持PCI Express 2.0,速率為5GT/s,8b/10b編碼,經過簡單的運算可以得出,PCIe 3.0的單位帶寬是PCIe 2.0的兩倍。
除了提供超高帶寬的IO能力之外,Sandy Bridge-E還將內存支持提升到四個通道,此外還官方支持DDR3-1600規格(以及更高的超頻規格),在提高內存帶寬的同時提升了內存支持容量。Sandy Bridge-E支持最大64GB的內存。
座駕:X79芯片組
作為Gulftown的下一代,Sandy Bridge-E平臺從原來的三芯片方案進化到雙芯片方案,原有的北橋(IOH)部分被CPU完全整合。PCI Express控制器的電路實現比較復雜,在上一代平臺中,不得不使用一個獨立的IOH(工藝為65nm)用于提供最多36個PCIe 2.0 Lanes,在融合進CPU之后,得益于工藝的進步,PCIe控制器最終提升到了3.0版本,帶寬翻番并且數量也提升到了40條。也是因為其復雜度,Sandy Bridge-E和對應的企業級處理器發布做了幾次延期。此外,由于PCI-SIG認證的原因,Sandy Bridge-E官方宣稱仍然不支持PCIe 3.0,我們需要明白,它確實支持。
由于獨立北橋芯片的消失,因此處理器芯片組現在就只剩下了南橋部分。Sandy Brdige-E搭配的主板芯片組稱為X79,屬于Patsburg家族,跟CPU一樣,也是由對應的企業級芯片組裁減而來。Patsburg企業級芯片組有“-A”、“-B”、“-T”、“-X”四個型號,基本規格跟LGA1155 Sandy Brdige使用的Cougar Point沒有什么不同,區別在于Patsburg提供了一個SAS/SATA Controller Unit(SCU),用來提供額外的存儲連接能力。SCU的出現源于英特爾認為,隨著CPU處理能力的提升和文件系統的進化,未來存儲將會從硬RAID轉向軟RAID。
Patsburge四個型號的區別就是SCU的配置依次增強,“-A”型號在基本功能上增加4個SATA接口(僅支持6Gb/s),“-B”則可以進一步地支持SAS,“-T”將SCU的接口數量提升到8個,并且SCU通過獨立的SCU Uplink連接到LGA2011 Sandy Bridge處理器,而不再是需要經過狹窄的DMI通道,“-X”型號則是可以支持RAID 5功能。由于SCU穩定性的問題,X79芯片組的規格一再修改,目前發布的版本SCU功能已經徹底禁用,或許未來會再次出現。由于需要配合SCU,因此Patsburge搭配的磁盤驅動也不再是普通的Rapid Storage Technology,而是新的Rapid Storage Technology enterprise(RSTe)。除了SCU之外,X79并沒有什么特別的地方:支持8個PCI Express 2.0 Lanes、14個USB 2.0、2個SATA 6Gb/s接口和4個SATA 4Gb/s接口。為了對應Sandy Bridge-E的超頻功能,X79支持一些獨特的調整項目。
耗時長久的性能測試
我們使用了一整套Sandy Bridge系統進行了SPEC CPU 2006 v1.1測試,并與之前的數據進行對比。這套系統使用的處理器是Core i7 3960X,6核心12線程,默認頻率為3.3GHz,6核心Turbo Boost可以達到3.6GHz,單/雙核心Turbo Boost可以達到3.9GHz。Turbo Boost技術會對性能分析帶來影響,因此本文給出打開/關閉Turbo Boost技術后的性能成績。此外,在Nehalem/Sandy Bridge微架構中,一些資源如TLB、ROB、RS等是兩個硬件線程共享的,超線程實際上會導致單線程運行資源的減少,因此我們分別測試了打開和關閉超線程下的成績。
內存子系統也是SPEC CPU測試的重要因素,我們為測試系統準備了32GB的內存(8 x 4GB)。Sandy Bridge處理器現在可以支持DDR3-1600規格的內存,因此我們還分別測試了DDR3-1333與DDR3-1600規格下的性能成績。此外,為了體現內存帶寬的影響,我們還分別測試了3個內存通道與4個內存通道下的性能。我們使用了一塊古老的ATI Radeon X550顯卡來進行測試。SPEC CPU幾乎不受CPU和內存之外部件的影響。為了將磁盤的影響最小化,我們使用了6個Intel X25-V SSD組建一個RAID 0陣列來作為存儲系統。
測試使用的操作系統平臺是Windows Server 2008 R2,Sandy Bridge支持的AVX指令集需要升級到SP1版本才能支持,我們確實進行了SP1下的SPEC CPU 2006測試,不過本篇中,我們僅給出了傳統平臺上的測試。與以往的測試完全一樣:基于SPEC CPU 2006 v1.1和一年多前的Intel Compiler 11.0,不支持Sandy Bridge的AVX指令集,這可以體現出Sandy Bridge在運行老的代碼時相對上一代處理器架構的變化。每個SPEC CPU 2006的測試時間大概為2#12316;3天左右。總耗時近一個月。
SPEC CPU測試會給出大量的數據,例如,可以分為測試單線程運行效能的speed測試和測試多線程運行效能/測試整個處理器運算吞吐量的rate測試,或者分為測試通常優化性能的base測試和極致優化性能的peak測試。此外,每個測試同時包含了整數的int測試和浮點的fp測試,總共會得出8個測試數據表,每個表包括一個總分和若干個子項目得分,由于不同的子項目代表不同的應用,因此我們給出了具體的子項目成績。限于篇幅,這里不給出具體子項目的成績。
性能分析
我們先來看測試單線程運行效能的speed測試,包含了SPECint_base2006和SPECfp_base2006兩個項目,它可以體現出處理器在將所有資源都提供給一個測試實例下的運行效能。由于更大的L3和更多的內存通道,Core i7 3960X的表現不錯,比Core i7 2600K高1%(整數)/10%(浮點),特別是考慮到在不使用Turbo Boost時其默認頻率要比Core i7 2600K低100MHz。
測試多線程運行效能/測試整個處理器運算吞吐量的rate測試是個不同的情況,它包含了SPECint_rate_base2006和SPECfp_rate_base2006兩個項目,它體現的是處理器全力運轉的運算吞吐量和數據吞吐量,雖然其中的單個測試線程性能會受到影響,然而處理器的資源得到了最大程度的利用。從結果來看,在使用DDR3-1333的時候,Core i7 3960X比Core i7 2600K高50%(整數)/62.6%(浮點),可以看出大容量L3和大內存帶寬對浮點運算的作用。
四通道DDR3-1333比三通道DDR3-1333高4.8%(整數)/11.8%(浮點),四通道DDR3-1600比四通道DDR3-1333高4.5%(整數)/4.6%(浮點)。在四通道DDR3-1333下,超線程開關的影響是16.5%(整數)/4.1%(浮點),一般情況下,你不需要關閉超線程。
總結
跟普通的Sandy Bridge相比,Sandy Bridge-E最大的變化就是新增加的40個PCI Express 3.0 Lanes和四通道內存支持,此外L3緩存容量也有不小的提升。PCI Express 3.0的作用我們以后會進行評估,在現在的測試中,我們可以看到四通道內存和大容量L3的作用。從測試數據來看,四通道DDR3-1600已經是Sandy Bridge-E比較完美的配置,降為三通道將會受到較明顯的浮點性能下降,而將DDR3-1600降為DDR3-1333影響不算很大。可以猜測,8核心的Sandy Bridge-EP將會對內存帶寬更為渴求,這就需要等到2012年第一季度才能進行驗證了。總的來說,Sandy Bridge-E比普通的Sandy Bridge提供了多于50%的運算性能,可以滿足高端玩家、工作站用戶的計算能力需求。