清華大學電子系 蘇光大
當前,非CPU、GPU的新型AI芯片的發展令人矚目。谷歌的AlphaGo內置AI芯片TPU,在人機大賽中戰勝了著名棋手李世石,展示了AI芯片的非凡能力。北京寒武紀科技有限公司、華為公司、北京比特大陸科技有限公司、北京地平線信息技術有限公司、深圳云天勵飛公司的AI芯片得到了廣泛的應用。人工智能芯片也應用于人臉識別,取得了驕人業績。更多的公司也把AI芯片作為自己的發展方向。
AI芯片是執行人工智能算法的芯片,隨著AI算力需求的飆升,AI芯片面臨馮·諾伊曼“內存墻”的問題進一步凸顯。雖然AI芯片計算資源豐富,但存儲體數據搬運效率低下,導致了計算效率下降。顯然,推倒“內存墻”,也是AI芯片發展的一個“金蘋果”式的目標。
眾所周知,芯片的發展有兩大關鍵技術,一個是工藝技術,另一個是體系架構。摩爾定律是半導體行業工藝發展的一個著名定律,經過黃金發展時期之后,現在工藝水平的發展遇到困難,發展放緩已成為不爭的事實。順勢而上,架構創新則進入了黃金發展時期。
清華大學發布了類腦計算芯片“天機芯”的研究成果。該芯片是面向人工智能的異構融合類腦計算芯片。基于此研究成果的論文“面向人工通用智能的異構天機芯片架構”(Towards artificial general intelligence with hybrid Tianjic chip architecture)作為封面文章在2019年8月1日的《自然》(Nature)上發表。天機芯片采用28nm工藝、存算一體技術,支持多種不同AI算法。具有高速度、高性能、低功耗的特點。采用28nm制造工藝卻達到了世界級水平,存算一體技術功不可沒,這個成果足以說明并行體系架構的重要性。
內存計算優于硬盤計算,二維內存計算優于一維內存計算。顯然,發展二維內存計算,是當前計算模式的重要發展方向。清華大學提出了2D-PP on N-M的計算模式(2D Pipeline Processing On Neighborhood Memory 基于鄰域存儲體的二維流計算),這是一種二維內存計算模式,該模式采用了存儲芯片的堆疊、裂變、不完全輪換矩陣技術,以及2D-PP技術。其最大優勢在于算法、存儲、處理具有二維數據結構的同一性和并行性,從而改善了馮·諾依曼瓶頸(即馮·諾伊曼“內存墻”),實現了高速的二維流水處理。
賽靈思公司新推出的ACAP自適應計算加速平臺(Adaptive Compute Acceleration Platform),這是一種多AI核異構結構,在優化數據搬運路線與近內存計算方面取得了顯著性進展。同時,賽靈思公司采用堆疊硅片互聯技術將高帶寬存儲器HBM DRAM與FPGA 邏輯緊密耦合在一個封裝內,2019年實現16GB HBM FPGA批量生產。
可以說,AI芯片的技術進步和應用拓展都異常迅猛。在AI芯片發展的過程中,不僅要關注馮·諾伊曼“內存墻”問題,還要注意AI芯片運算精度問題、編程的生態環境問題。
眾所周知,芯片的精度有雙精、單精、半精或8bit精度的。8bit精度的AI芯片對AI算法帶來的負面影響有多大?即便用8bit的數據去訓練,也會出現負面影響。至于編程生態問題,GPU的CUDA編程工具、賽靈思的FPGA編程工具都是值得我們學習的。
考量算力,不僅僅要考量人工智能芯片的算力,還要考量搭載人工智能芯片的人工智能硬件系統的算力。一般來說,人工智能硬件系統的算力要小于或等于人工智能芯片的算力。如果人工智能芯片的應用頻繁存在馮·諾依曼“內存墻”問題,其算力將大打折扣。由此看來,僅僅強調AI芯片的算力是不全面的。
綜上所述,AI芯片還在不斷的發展。在本專題中,具有AI芯片的4家公司發表了在AI芯片方面的論文,值得大家分享。
