


彈指一揮間,第一代Atom處理器發布到如今已經整整5年了,5年對于IT業界而言是一個不算短的時間。不過,Atom處理器卻沒有如英特爾期待的那樣,復制它的前輩們在桌面和筆記本電腦平臺上的輝煌:除了在上網本和一體機流行的時期有過短暫的驚艷表現之外,大多數時間它都糾結于并不出色的性能、令人難以接受的耗電量和較大的發熱量之間。它的對手——ARM架構處理器則在新興的智能手機和平板電腦市場中出盡了風頭,甚至把觸手伸向了服務器領域。
但是平心而論,這5年來Atom處理器的進步可謂非常顯著。無論是從晶體管數量、運算能力還是從微架構革新等方面來看,Atom處理器的發展速度都超越了摩爾定律的藩籬,甚至創造了x86處理器的多項“第一”,特別是x86架構SoC處理器實現了可謂革命性的進步。
雖然此前英特爾似乎并未把精力過多放在Atom平臺上,但目前這種情況似乎有所改觀。Sivermont架構的Atom處理器有望成為英特爾在低功耗高性能處理器領域扭轉乾坤的里程碑。
Silvermont:英特爾的新微架構
英特爾5月中旬剛剛發布了Silvermont微架構,這也是英特爾寄予厚望、對抗ARM Cortex A15內核的秘密武器。與上一代微架構Saltwell相比,Silvermont有著諸多新特性。
全新的亂序執行引擎
數年前的手持移動設備處理器,如ARM Cortex A8內核處理器、英特爾早期的Atom(Bonnell)以及高通的Scorpion處理器都采取“順序執行”模式。從Coretex A9開始,ARM采用了亂序執行的設計,CoretexA15則采用更優化的管線進一步提升了性能。針對這樣的形勢,英特爾將Atom升級為采用了亂序執行引擎的Silvermont微架構也順理成章。
與此前的“Saltwell”微架構相比,Silvermont微架構的執行效率更高。前者流水線誤預測為13個時鐘周期,后者則僅為10個時鐘周期。不過,英特爾尚未給出Silvermont具體的管線長度。參考Saltwell為16級管線,大致可以預測Silvermont的管線在14~17級之間。與亂序架構對應,Silvermont對分支預測器做出了改進,增加了一個間接分支預測器,這使得指令預測更加準確。兩方面的改進使得Silvermont比Bonnel/Saltwell的每時鐘周期指令效率提升了5%~10%。綜合節能和性能考慮,英特爾在Silvermont微架構中仍然采用了雙發射指令的結構(Cortex A15是3發射,目前的酷睿微架構為4發射)。
多內核和新指令
Silvermont微架構最多支持8個內核協同運算。由于目前新一代智能手機和平板電腦皆已采用四核處理器,因此更新的Silvermont支持到8個內核并不稀奇。考慮到Atom處理器的單個內核運算能力基本領先于同一時代的ARM處理器,所以可以預見,在今年年底發布的Silvermont系列處理器將再度奪得性能錦標。
Silvermont微架構還能夠支持64位運算。去年年底英特爾已經推出了基于Atom平臺的64位服務器芯片S1200,功耗僅為6W。Silvermont微架構對64位運算的支持也符合時代的潮流。除了服務器的需求外,隨著移動設備運算量的增大,64位運算的普及也勢在必行。Silvermont微架構的競爭對手之一ARM Cortex A15僅支持32位運算,在這方面英特爾仍有一定優勢。Silvermont微架構還支持SSE 4.1/4.2、POPCNT及AES-NI指令集,彌補了上代產品的缺憾。
新的能效特性
Atom處理器在節能方面表現不佳是此前它屢戰屢敗的原因之一,不過Silvermont處理器可望摘掉耗能大戶的帽子。在Silvermont出現之前,Atom處理器已經支持英特爾的Turbo Boost技術,但它們的表現并不盡如人意。Silvermont微架構加入了硬件功耗控制單元,它可以監控處理器的發熱并動態處理SoC芯片內各模塊的功耗分配,在處理器溫度允許的范圍內,運行頻率可以得到最大幅度的提升,TDP上限也可被短時超過。Silvermont也允許對單一CPU或GPU內核加速,從而提升效能。在處理器節能狀態方面,Silvermont對C6狀態模式進行了改進。新增加的“CacheRetention”(緩存留置)可使得二級緩存狀態介于部分活躍和完全關閉之間,進一步提高了處理器的節能效果。
制造工藝紅利助推Atom
Tick-Tock策略曾經有效地幫助英特爾擺脫了Pentium 4帶來的困境,如今英特爾也把這套策略搬來對抗ARM。眾所周知,英特爾擁有目前最為先進的半導體加工工藝,這使得它在新一代超節能處理器的競爭中占據優勢。Silvermont微架構處理器將會采用英特爾已經成熟的22nm、3D晶體管工藝制造,而目前主流的ARM處理器還都在使用28/32nm工藝。
在每晶體管耗能和漏電率方面,英特爾的22nm工藝占據著明顯的優勢。在工作電壓為1.0V時,22nm工藝處理器比32nm工藝處理器快18%,而在0.7V工作電壓時快37%,可見僅僅工藝提升就能夠給同功耗的處理器性能帶來將近20%~30%的提高。而用于Atom處理器的22nm工藝很可能還將獲得進一步改進。借助這些進步,Silvermont微架構處理器單內核運行頻率很可能達到2.5GHz級別,節電性也將進一步提高。就目前的情況來看,英特爾還將借助工藝優勢推行Tick-Tock戰略。目前已經可以確認,英特爾在下一代Atom處理器Airmont中將會采用14nm工藝生產,上市時間約為2014年下半年。
Atom處理器家族四面開花
基于Silvermont微架構衍生的新一代Atom處理器家族,目前已知的處理器有4種,四核的“Bay Trail-T”處理器芯片計劃用于平板電腦,相關產品將在2013年圣誕節購物季推出。據稱Bay Trail處理器的計算性能是英特爾目前平板電腦產品的兩倍以上。此外,Bay Trail-M/D平臺還將用于入門級筆記本電腦和低端一體式臺式機市場,如近來流行的混合模式筆記本電腦等。根據英特爾方面的資料,與現在的處理器Atom Z2760相比,Bay Trail單線程性能有2~4.7倍的提升,多線程性能有2.5~4.4倍的提升,進步相當顯著。頻率較低,同時大幅降低能耗的“Merrifield”將用于智能手機平臺,據英特爾表示,它的性能和電池續航時間均優于當前產品,還支持情境感知和個性化服務、面向Web流的超高速連接以及更高的數據、設備和隱私保護等功能。此外,“Avoton”將接替S1200處理器,進入數據中心內的微型服務器、存儲和擴展性負載。它的特性包括64位指令集、集成結構、錯誤代碼校正、英特爾虛擬化技術以及超強的軟件兼容性等。“Rangeley”則主要針對網絡和通信基礎設施,比如入門級到中端路由器、交換機和安全設備。這兩款產品均計劃于今年下半年上市。
SoC芯片進軍服務器
早在數年之前,英特爾萬億次計算項目取得的成果就已經顯示,多個小內核并行組成的處理器有能力進行高強度的運算,如同一大群螞蟻和大象都有能力搬走一座米山那樣。不過,在面對一些輕量的需求,如網絡服務請求時,低能耗處理器可能更具備成本的優勢。如果將至強處理器比作大象的話,那么目前的超節能處理器就是螞蟻。盡管大象力氣大,但每次需要運載的重量可能都遠不及大象的承載力,很多能量被白白消耗;而螞蟻盡管每次只能扛起一粒米,但蟻群可以根據米粒數量決定派出螞蟻的數目,盡可能多地節約能源。有鑒于此,英特爾和ARM都把微服務器(面向大量的輕量需求)領域作為自家超節能處理器的重要發展方向。
2012年年底,英特爾推出了面向微服務器的64位Atom處理器S1200,它的TDP僅為6W?;萜展?013年4月份發布的服務器Moonshot就采用了這款處理器,該服務器的目標市場為云計算和軟件定義服務器領域。惠普表示,Moonshot服務器能耗降低了89%,體積減少了94%,而且成本也僅為原來的37%。Moonshot可以滿足呈指數增長態勢的云計算需求。只要有10家大型網絡服務供應商將它們傳統的服務器換代為Moonshot服務器,它們每年就能節省總價值1.2億美元的能源使用支出,并減少近100萬噸的二氧化碳排放量,相當于減少了18萬輛汽車的尾氣排放量。而英特爾聲稱,還有約20家合作伙伴準備采用Atom處理器。
x86尚需努力
盡管業界對英特爾在SoC超節能處理器領域取得的進展給予肯定,但大部分評論者對Atom處理器的前景依然表示謹慎。畢竟此前的差距并非一代Silvermont就可以彌補,想要在這一領域呼風喚雨,英特爾還需要更加努力。而x86集團的另一位重要成員AMD目前尚未拿出令人信服的產品,或許注重圖形表現的SoC處理器才是它的關注所在。
Baytrail:首次磨刀
Baytrail對英特爾來說,可謂十年磨一劍,除了在制程上首次令Atom趕上主流PC的22nm外,又是和酷睿微架構等價的Silvermont低功耗微架構的首款商業化產品。該產品融入了Turbo Boost技術,實現原理與下圖所示的Sandy Bridge架構如出一轍,但是它具備更強的單個核心供電控制技術,在“低”下去的時候節能表現將大大提升。
隨著發展重點從保持30年優勢的PC領域轉向移動計算領域,英特爾將越來越多的技術引入移動平臺。如果將Silvermont的發展軌跡與酷睿微架構的產品放在一起對比,那么明顯可以看到其更新速度更快。在引入日益成熟的22nm工藝之后,移動平臺產品將有望率先引入14nm工藝,光憑制程上的兩代優勢,Atom性能及低功耗表現就將大幅領先。
管線周期
Silvermont架構和前代的Saltwell架構相比,新增的亂序執行能力對管線深度提出了較高要求。為了避免Pentium 4 Willamette架構的超長流水線在分支錯誤返回浪費過多時鐘周期,英特爾刻意縮減了Silvermont的管線,這也在很大程度上控制了核心發熱量。
順序執行和亂序執行
在最為理想的狀態下,一條指令的執行按照如下的步驟進行:首先進行指令獲取,如果該指令的運算對象已經在寄存器中,則指令會被發射到合適的功能單元執行,并將結果寫回到寄存器中。但是,如果在當前的時鐘周期下運算對象不在寄存器中(比如在內存中),那么處理單元會消耗一定的時間來等待它。對于順序執行處理器而言,只有等待到運算對象之后,指令才能夠被繼續執行下去。亂序執行則將這段等待的時間利用起來:指令首先被存入指令緩沖區。如果運算對象并不在寄存器中,那么后面其他可執行的指令將會被先執行,結果寫入另一個緩沖區。等到前面的指令執行后,再按照原先的順序將指令寫入到寄存器中。
很顯然,對于復雜和大量的指令,亂序執行的效率更高,但也需要處理器有更強的運算能力,這通常意味著會消耗更多的能源。因此,究竟采用順序執行管線還是亂序執行管線,歸根結底要取決于設計者對運算能力和能耗的平衡。早期ARM和Atom處理器出于對能耗的嚴苛要求,均設計為順序執行,但隨著人們對移動平臺運算能力要求大幅度提高以及半導體工藝不斷改進,亂序執行處理器逐漸成為寵兒。
聲音
“通過我們的設計與制程技術的共同優化,Silvermont已經超出了我們預期的目標。借助我們在微架構開發領域的專長以及領先的制程技術,我們提供的技術包能夠顯著地提升性能和能效,同時具備更高的頻率。我們為此成就深感自豪,并堅信Silvermont將為各種全新的低功耗英特爾系統芯片奠定強大而靈活的基石?!?/p>
——Belli Kuttanna 英特爾院士兼首席架構師