

我們總是希望掌中的智能手機和平板電腦可以流暢地顯示動畫特效、迅速地對用戶的操作做出反饋。實現它的前提條件是擁有一顆性能強勁的CPU,但是很多Android平板電腦卻無法滿足條件,不管是安裝了Android 3.0或者4.0系統,在使用過程中我們總是會明顯地感受到操作延遲和界面不平滑的過渡。不得不承認,ARM是移動處理器領域事實上的壟斷者,當前幾乎每臺主流移動設備都采用了ARM提供的CPU設計方案。從蘋果、英偉達到三星、高通和德州儀器(TI),所有的芯片制造商都需要從ARM公司獲得CPU設計授權。近兩年來,雖然SoC芯片層出不窮,但是CPU設計架構并未升級,一直是基于ARM的Cortex-A9架構。
與此相對的是,移動設備的性能需求卻不斷提高,現在它們需要驅動顯示分辨率更高的屏幕、播放碼流更高的高清電影以及運行更復雜的游戲。ARM的新架構設計——Cortex-A15將會滿足這些需求。從下半年開始,大部分芯片制造商都會量產基于Cortex-A15的SoC芯片。在新的Cortex-A15架構上,ARM打破了一些Cortex-A9遇到的瓶頸,例如由于更強大的浮點運算被集成到了Cortex-A15的流水線中(見左圖,在上一代的產品中浮點運算的單元是可選的),所以動畫中的丟幀現象將成為歷史。
高主頻和長流水線
流水線長度是每個處理器架構的設計關鍵,它決定了每一個運算周期內CPU可以處理的操作類型和數量。Cortex-A15的流水線提高到了最大24級,在數量上是A9架構的兩倍。同時時鐘頻率最高可支持2.5GHz,從而保證了延長的流水線可以更高效、快速地執行運算。這種加速隨著芯片制造商將CPU工藝從40nm提升到28nm而成為可能。在更小的體積下,制造商可以在保持功耗不變的情況下提升芯片的時鐘頻率。流水線的長度決定了從加載(Ioading)和解碼(decoding)到運行一條命令所執行的操作數量。如果一個CPU在更長的流水線上執行更高效,就能支持更多的并行命令數。現在,Cortex-A15的最少流水線是15級,這就意味著在全負荷的情況下,它在每個時鐘周期至少可以運行15條不同的命令。
ARM開發的Cortex-A15是個高性能、低功耗的處理器架構。在40nm制作工藝下,與28nm工藝的A9具有同樣的功耗。ARM提供了一些進一步降低功耗的建議,其具體內容可以在ARM提供的新架構說明文檔中找到。
挑戰PC處理器
擁有2.5GHz的頻率,Cortex-A15的算術運算性能不限于僅僅滿足智能手機和平板電腦的需求。盡管它無法與英特爾的移動版Ivy Bridge甚至Sandy Bridge處理器相抗衡,但是它足以驅動中低端的筆記本電腦。而且ARM架構的處理器有更低的功耗,每個核心功耗約為1.0W~1.6W。基于Cortex-A15芯片的筆記本電腦可以實現與主流平板電腦相當的電池續航時間,比同體積采用英特爾或AMD處理器的機器多出幾個小時。同樣,在微型服務器領域,處理器并不需要執行過多的密集型運算。Cortex-A15核心支持ARM開發的高級微控制器總線架構協議(Advanced Microcontroller Bus Architecture,AMBA),總線寬度為128位,是A9架構的兩倍。這保證了處理器核心之間能實現更直接和快速的數據交換。同時,由于A9架構僅支持最大32位的地址總線長度,所以最多只能支持4GB的內存,就像32位的Windows系統一樣。但是Cortex-A15支持40位的地址總線,最大支持1TB的內存。不難發現,新ARM芯片的性能已經可以滿足微型處理器的需求,應用在中低端的上網本上自然也不在話下。
Cortex-A15架構的藍圖
幾乎在目前市面上所有的智能手機和平板電腦中都可以找到采用ARM架構的CPU。芯片制造商例如三星和英偉達需要獲得ARM的授權才能進行移動處理器的制造。目前,旨在取代現在的Cortex-A9架構平臺的Cortex-A15平臺已經準備就緒。
新一代移動處理器
高通的驍龍(Snapdragon)S4處理器是第一款基于Cortex-A15架構的產品,HTC One S手機中采用了這款處理器。德州儀器(TI)的OMAP 5和三星的Exynos 5250也將在2012年下半年正式上市。英偉達將在2013年用Cortex-A15架構的Tegra 4取代目前的Tegra 3,另外,蘋果也將在新一代的iOS設備中采用基于Cortex-A15架構的A6處理器。
全新架構
Cortex-A15的時鐘頻率將增加到1.5GHz~2.5GHz。因此就需要更長、更靈活的流水線來處理命令。因為流水線的長度決定了每個時鐘周期可以執行的并行操作數量(見右側示意圖)。
代碼加載更快速
在流水線的前半部分,命令會按照加載時的次序進行順序處理。解碼器將長命令分割為短的指令。Cortex-A15可以發送3個并行指令,而A9為兩個。另外,A9缺少循環緩沖模塊。總之,A9的流水線6級可用,Cortex-A15為12級。通常一條指令會占用一級流水線,然而也有很多指令需要占用多級流水線,例如Fetch指令。
并行計算
完成調度之后,流水線將會進入亂序執行狀態。處理器可以重新分配命令的優先級,保證更高的執行效率。Cortex-A15支持8個并行的算術運算,這是A9的兩倍。此外,在新架構中浮點運算不再是可選項,而是集成在處理器架構內部,并且性能翻倍。