超越超級計算機？解析NVIDIA Tegra X1

2015-04-29 00:44:03

電腦迷 2015年3期

去年那則NVIDIA要退出手機市場的消息廣泛傳播，讓大家覺得NVIDIA可能真的要放棄移動芯片市場了，而之后NVIDIA CEO黃仁勛在接受采訪時又表示，NVIDIA并不是要完全退出移動設備市場，而是希望在平板、車載電腦、游戲機頂盒市場上有所作為，這也為后面埋下了伏筆。

NVIDIA已經連續幾年在每年開頭的CES上發布新一代的Tegra移動處理器了，所以今年黃仁勛再次親自登臺發布Tegra X1，大家并不覺得意外。雖然前兩代作品并不算特別成功，但是作為一款宣稱性能達到TFlops級別，媲美15年前超級電腦的移動處理器，Tegra X1還是成功的吸引了大家地關注。

全新旗艦級移動處理器Tegra X1配備了八核64位CPU以及256核Maxwell GPU，CPU設計部分和高通驍龍810以及三星Exynos7系列相似，256核GPU光看數量就已經堪比入門級桌面獨顯了，而跑分自然也碾壓了上代產品K1和蘋果A8X。那么Tegra X1究竟為何如此強悍，又是否真的具備其所說的那樣達到超級計算機的技能能力呢？下面我們來一一解析。

CPU：放棄自主構架用公版

Tegra X1采用了ARM的標準Cortex架構，而沒有采用大家想象中的Tegra K1的Denver架構增強版。無獨有偶，競爭對手高通這次也放棄了之前為之驕傲的Krait架構，同樣也選用了ARM的標準Cortex架構。作為基于ARM標準Cortex深度定制的版本，英偉達和高通為Denver和Krait架構付出了相當多心血，在這個時候放棄自主架構，很容易讓人想到是為了降低研發周期盡早上市。而且Tegra X1和驍龍810在處理器核心上的選擇也驚人的相似，均搭載了四顆Cortex-A57性能核心和四顆Cortex-A53低功耗核心。

具體來看，Tegra X1 A57核心采用了2MB共享二級緩存，每個核心還有48KB一級指令緩存和32KB一級數據緩存，A53核心共享512KB二級緩存，同時每個核心有32KB一級指令緩存和32KB一級數據緩存。NVIDIA吸取了之前在Tegra3上就開始應用的4-PLUS-1設計經驗，Tegra X1能夠實現比其他同樣采用A57/A53 CPU的SoC方案具有更高的能耗比，同時該系統采用緩存一致性解決方案，不會像類似方案那樣損失功耗和性能。

雖然從處理核心的角度來看，Tegra X1和驍龍810的差距不大，不過其實兩者還是有很多區別的，各種優化方案和電源管理的加入，使得兩者最終的表現可能會大相徑庭。

另外，Tegra X1和驍龍810也都使用了20nm工藝制程，核心面積得以縮小并且功耗得到了更好的控制。NVIDIA目前尚未公布Tegra X1的主頻，從曝光的跑分測試來看，其主頻可能為1.9GHz-2.0GHz，而高通驍龍810的最高主頻可以達到2.7GHz。NVIDIA宣稱，Tegra X1在同等的CPU性能下和同級別SoC相比能夠提供幾乎2倍能耗比，在同等能耗比下則能提供后者1.4倍的CPU性能。如果這真能實現，還是非?？植赖摹?/p>

GPU：Maxwell架構加持 1TFlops FP16浮點性能

除了處理器內核中看不到的區別之外，NVIDIA Tegra X1和高通驍龍810最大的區別就在于兩者搭載的GPU了。作為一家從GPU起家的公司，NVIDIA無論在桌面還是移動市場都對GPU有著非常高的重視程度。

NVIDIA花了兩年的時間將Kepler微架構應用在了移動處理器K1上，而如今Maxwell微架構從推出到登陸移動處理器上只花了一年的時間，另外，Tegra X1采用的是第二代Maxwell架構，它在桌面上推出到X1推出也才經過了一個季度而已，進步速度可以說相當明顯。相比于配備192個渲染核心的Tegra K1，Tegra X1的GPU配備了多達256個Maxwell架構渲染核心。256個CUDA核心在Maxwell架構中正好是2組SMM單元，而Tegra K1所用的192個CUDA核心在Kepler架構中是1組SMX單元，所以雖然CUDA核心數提升并不多，但2組SMM單元對1組SMX單元，紋理單元、ROP單元也都大大增強了，均有16個，尤其后者翻了兩番，性能依舊得到了大幅提升。

新架構的許多新圖形特性包括更高效的CUDA核心、更優秀的SMM陣列、第三代Delta色彩壓縮、保守光柵化算法、體積區塊資源（DX11.2）、多幀抗鋸齒（MFAA）等也被帶到了Tegra X1上。

值得一提的是，和開普勒一樣，麥克斯韋架構也只有專門的單精度FP32、雙精度FP64 CUDA核心，并沒有給FP16分配獨立資源。在半精度FP16的支持上，NVIDIA稱之為“雙倍速FP16”（Double Speed FP16）。Tegra K1 FP16操作會被給予和FP32相同的待遇，每一個都交給FP32 CUDA核心處理。Tegra X1上如果條件允許，則會將兩個FP16合并成一個Vec2，交給單獨一個FP32 CUDA核心去處理，同時要保證這兩個FP16操作屬于同一類型，比如都是加法或者乘法。所以說，NVIDIA宣稱的原生支持FP16并不完全準確，相對競爭對手來說還是會差一些。ARM Mali、Imagination PowerVR都有獨立的FP16單元，AMD GCN 1.2版也會引入。FP16在Android顯示合成里使用非常頻繁，游戲里也大量使用，同時它還能參與圖形計算，如圖像識別，在NVIDIA Drive PX車載平臺里就需要用到它。

回過頭來看競爭對手的驍龍810，其則配備了288個渲染核心的Adreno 430 GPU。雖然數量比Tegra X1還要多，但是主頻只有600MHz。Tegra X1的GPU主頻雖未公布，但是按照NVIDIA宣稱的1TFlops FP16浮點性能，那么應該是1GHz以上（1GHz×2FP16×2FMA×256=1TFlops），這樣的話Tegra X1的GPU性能超過驍龍810應該是沒有什么懸念。

從現有曝光的測試來看，BaseMark X測試中，Tegra X1的成績為56.9FPS，蘋果A8X為40.2FPS，而Tegra K1則是36.3FPS。3DMark 1.2版Unlimited模式中，Tegra X1的成績為58448，蘋果A8X為31781，而Tegra K1則是36688。GFXBench 3.0 Manhattan 1080p （Offscreen）測試中，Tegra X1的成績為63.6FPS，蘋果A8X為32.6FPS，而Tegra K1則是31.7FPS。Tegra X1成功地碾壓了蘋果A8X和前作K1，另外在功耗上的表現依舊非常優秀，Tegra X1的GPU部分功耗大約只有1.51W的樣子，而蘋果A8X的GPU部分功耗則達到了2.67W。

不過值得我們注意的是，從現在NVIDIA的意思來看， Tegra X1主要的應用領域是在車載電腦領域，憑借強大的CPU和GPU性能，Tegra X1不僅能夠在汽車行駛過程中計算距離，而且還能同時處理來自多達六個攝像頭的視頻信號。但是如此強大的性能，進入平板市場應該也是遲早的事情，但是在這些領域，Tegra X1可能不得不為了節省電量和出于散熱考慮而降低頻率，另外還需要考慮到GPU對游戲數據包的兼容性問題，因此實際的體驗或許并不會和測試一樣比目前市面上的高端處理器優秀太多。

其他性能同樣優秀

除了強大的處理器性能之外，作為一顆移動處理器，多媒體性能、通信功能和其他功能也是非常重要的。NVIDIA Tegra X1支持60fps 4K視頻通過HDMI 2.0接口輸出，同時還支持H.265/H.264編解碼，JPEG圖片的壓縮和解壓縮速度也得到了大幅提高。此外，Tegra X1還支持eMMC 5.1、藍牙、Wi-Fi、NFC、GPS以及搭配2G/3G/4G通信基帶。相對來說，驍龍810在這方面的表現稍差，只支持eMMC 5.0，只能通過HDMI 1.4輸出或編輯4K/30fps的視頻，但是驍龍810整合了支持LTE Cat. 9網絡的基帶，最高數據下載速度可達450Mbps，讓其在手機領域能有更加出色的表現。

內存帶寬作為限制移動SoC性能的瓶頸一直是各大芯片廠商需要想辦法解決的部分。傳統的解決方案是增加位寬，但這個解決方案會大大提高復雜度和實現成本。Tegra X1已經使用64-bit位寬，但是在內存壓縮上大做文章，采用了第三代Delta色彩壓縮和新的端到端壓縮技術，再輔以頻率可達1600MHz 的LPDDR4內存，峰值帶寬可達25.6GB/s，內存帶寬問題得到了很好的解決。

超過超級計算機，還只是期望

NVIDIA宣稱Tegra X1的性能超過了15年前最快的超級計算機ASCI Red，那么這是真的嗎？較真是一件很有趣的事，下面我們一起來看看。

ASCI Red在美國能源部桑迪亞國家實驗室服役了十年之久，是全球第一臺每秒能夠達到萬億次浮點運算的超級計算機系統，ASCI Red的占地面積超過了150㎡，功率高達500kW，且為其所占空間散熱還需再消耗500kW的電能，而Tegra X1只有拇指指甲大小，功耗不到15W。如此大的差異在讓人感嘆科技進步的同時，不得不問，這是真的嗎？

這其實只是CEO老黃的一個文字游戲而已，通過Tegra X1的16位浮點性能和ASCI Red的64位浮點性能進行比較而得出的，也就是說X1的FP16性能接近了ASCI Red的FP64性能。目前16位浮點運算雖然能夠滿足某些圖像應用程序的需要，但是對于高性能計算應用卻還差得很遠，所以FP16對比FP64并沒有太大的可比性，由于Maxwell架構并不是為超級計算機設計，而64位浮點計算速率只相當于32位浮點計算速率的1/32左右，因此Tegra X1中的256個渲染核心在32位浮點下能夠實現512GFlops浮點運算能力的話，那么在64位浮點計算下其速度僅為16GFlops浮點運算能力而已，距離ASCI Red的TFlops級別還太遠太遠。但在16位浮點計算下能夠達到1TFlops的計算速度還是足以證明了Tegra X1擁有強大的性能，只是取代超級計算機還只是一個遙遠的期望而已。

進軍智能汽車市場

借助強大的性能，NVIDIA在CES2015上推出了兩套基于Tegra X1的車載平臺：“Drive CX”和“Drive PX”。Drive CX是一套全數字化的汽車計算套裝，硬件上依靠Tegra X1，軟件則是“Drive Studio”，可以實現車載娛樂、導航等全套功能，整個駕駛界面也是硬件渲染3D的，一個完整的解決方案。

Drive PX則是一個自動駕駛開發平臺，使用了兩顆Tegra X1，支持最多12路攝像頭輸入，浮點性能2.3萬億次。NVIDIA宣稱該系統會調動CPU、GPU、VPE、ISP等幾乎所有處理模塊，并使用了GPU運行的神經網絡技術，可實時處理路況信息，包括其他車輛、信號燈、路標、道路標志、監控攝像頭等等，甚至部分行人。另外還擁有基于“Surround Vision”（環繞立體視覺）的自動泊車，會根據攝像頭數據，生成停車場環境模擬，尋找停車路徑，自動放好。

好技術不愁沒人賞識，奧迪已經表示將引入“Drive CX”和“Drive PX”以幫助自己實現駕駛室數字化和自動駕駛。而基于該系統的Renovo Coupe復古電動超跑也將在今年內發售。

毫無疑問，NVIDIA Tegra X1已經成為了目前移動平臺最強勁的處理器，不過英偉達表示智能手機和平板電腦現在還用不到Tegra X1的超強性能。我們需要注意的是，強大的性能帶來的高功耗和高發熱也是智能手機和平板電腦所不希望看到的，所以Tegra X1更適合智能汽車組件等對性能有著極高要求且無需嚴格限制功耗的領域。至于手機和平板，今年估計還是高通驍龍810的天下。而挑戰Tegra X1的高通的驍龍815/820也在計劃之中，到底鹿死誰手，我們拭目以待。

電腦迷2015年3期

電腦迷的其它文章: 如何安全網上購藥; 圖解微信實用技巧2; 向經典致敬《像素魂斗羅2》; 卡牌化趨勢《怪物獵人大狩獵》; 3D韓式風格獵魔通緝令; 心跳快感《極限摩托4》

超越超級計算機？解析NVIDIA Tegra X1

超越超級計算機？解析NVIDIA Tegra X1