李飛云

阿爾法狗戰勝李世乭用了1920個CPU,256個GPU,它的運算效率約3千萬億次,能耗約500千瓦左右,而李世乭只消耗了約0.1千瓦。
“阿爾法狗戰勝李世乭后,很多人都希望有一個象阿爾法狗這樣的大腦。大家有所不知,阿爾法狗用了1920個CPU,256個GPU,它的運算效率約3千萬億次,能耗約500千瓦左右,而李世乭只消耗了約0.1千瓦,我們可以想像未來在能耗方面是一個多么大的挑戰!”王恩東如此說道。
云計算、大數據、物聯網、以大數據為依托的人工智能時代的來臨,給人類帶來莫大的興奮和激動,中國工程院院士、中國大數據專家委員會副主任委員、中國電子學會云計算專家委員會副主任委員王恩東日前在第八屆中國云計算峰會上給這些炙手可炎的熱潮澆上了一桶冷水:在智慧計算時代,能耗面臨巨大挑戰。
他預測,到了2020年之后,計算可分為三類,一類是面向解決重大科學問題的科學計算;另一類就是如金融、通信應用里一些關鍵應用計算;更大的一類可以歸納為智慧計算。
高能耗的數據中心
不久前,麥肯錫曾經對影響世界的22項技術做了一次調查和分析,排在前5位的是移動互聯網、自動化、物聯網、云計算、機器人。由此可見,計算機技術對人類生活、社會發展將產生越來越大的影響和作用,包括現在炒得很熱的人工智能,更被視為是未來的發展趨勢。然而,王恩東院士在此時潑了一股冷水,他舉例說,谷歌人工智能,用了十天的時間,通過識別一千萬張圖片,教會了計算機能夠認識貓的圖片,這項人類只需3毫秒就能認識一只貓,作為擁有強大系統的計算機,需這么長時間,它的能耗是“非常非常大的”。
王恩東院士舉例說,目前全球數據中心的能耗,每年是3千億千瓦時,中國的數據中心大概是1千億千瓦時,相當于一個三峽大壩的總發電量。現在都在考慮如何降低能耗,而數據中心實際用在IT設備里,PUE值(是評價數據中心能源效率的指標,基準是2,越接近1表明能效水平越好)都比較低,美國用自然風制冷,大概能做到1.1和1.1以下,而國內包括大規模的數據中心,基本上都是在1.5和2.0之間;現在傳統的PUE值都超過了3,甚至超過4, 就是說大量的能耗并非全用在IT設備上,今天人工智能的發展,對能耗會提出更大的挑戰。
“阿爾法狗戰勝李世乭后,很多人都希望有一個象阿爾法狗這樣的大腦。大家有所不知,阿爾法狗用了1920個CPU,256個GPU,它的運算效率約3千萬億次,能耗約500千瓦左右,而李世乭只消耗了約0.1千瓦,我們可以想像未來在能耗方面是一個多么大的挑戰!”王恩東院士如此說道。
數據中心集中規模化帶來的挑戰
隨著智慧計算時代的到來,數據量的爆發,使得計算重心向后轉移,通過物聯網,前端設備可以將各種數據持續向后端傳輸,同時數據來源多樣性、格式的復雜性和語義的不確定性,使得前端設備愈來愈趨向輕量發展,而數據中心正朝著集中化、規模化發展。
目前,國內互聯網企業進入全球互聯網前十強的,有阿里、百度、騰訊和京東,與全球前3家的谷歌、亞馬遜和Facebook,可看到全球大規模數據中心服務器都非常大:騰訊百度都有50萬臺左右的服務器,阿里約60萬臺,最多如美國的亞馬遜約有300臺。王恩東說:“在2012年有5萬臺就是最大的數據中心,而今天20萬臺、十幾萬臺的數據中心已經不少了。預計到2020年單個數據中心50萬臺就會出現,所以數據中心的規模化是一個很明顯的趨勢。”
王恩東院士認為,數據中心的集中化和規模化,也必然會帶來很多的問題和挑戰。
首先是性能。尤其是來自于CPU半導體性能的技術支撐。從2005年之后CPU的頻率就由于能耗、工藝等各方面的限制,基本上就停留在3G赫茲以下。隨著工藝越來越接近于極限,現在是14納米,接下來是7納米,再往下可能就變成幾個原子這樣一個寬度。所以半導體的工藝越來越挑戰極限。在過去三、四十年間,摩爾定律是半導體技術快速發展、性能提升的主要依據,2014年ITTRS(半導體技術發展的組織)發布未來的半導體技術不再遵循摩爾定律。所以半導體發展在性能上會遇到一個大挑戰。
還有儲存和網絡的性能。因為架構將計算和儲存做了分離,從CPU與內存訪問的延遲,訪問中硬盤外存的延遲,延遲比例變化非常大,因此就形成了這種內存強I/O(輸入/輸出)強,影響計算機系統性能的提升。而設備內版間的網絡速度,和設備間的網絡速度是一個逐次遞減的過程,設備間要通過交換機分配到各個端口上去,交換的模式、交換機的背板限制了端口速度和帶寬。
第二個挑戰是效率的問題。一方面服務器、儲存的需求在快速增長,與此同時,它們的利用效率卻并不高。現在80%的服務器,利用效率在25%以下,全球數據中心的平均利用率約為15%。現在開始采用虛擬化的技術,希望能夠提高效率,通過虛擬化,使資源能夠在不同的計算設備之間進行平衡。虛擬化在一定程度上提升了計算設備的總效率,然而還有很多制約效率的問題,到目前還沒有完全解決,如計算設備、儲存設備和網絡設備,事實上每一個設備里面,都有大量的計算、儲存和網絡的資源,但這些資源都是隔離的,它們之間并沒有得到共享。
此外,就是通用的CPU在效率上不如專用芯片要快。如何來解決這問題?就是能耗。數據中心要綠色、要節能,關鍵在于能耗的問題。
融合架構過度瓶頸
計算能力出路在何方?王恩東院士認為盡管“融合”一詞并不是一個很好的詞,這只是更多地把現有技術給整合到一起,來滿足某種需要,“但既然今天計算技術在很多方面遇到了瓶頸,還沒有革命性解決方案出現,在未來十年甚至更長的時期內,也許用融合技術來提升數據中心性能是一條路徑。”他推測,未來的數據中心是融合架構的數據中心。
王恩東院士提出融合架構分成三步走,第一步就是首先要把一些非計算的資源進行整合,滿足數據中心在能耗、密度方面的要求;第二步把一些儲存同計算、網絡進行整合;第三步要成為完全可重構的數據中心,完全用軟件定義的數據中心。
什么是融合架構?他解釋,即硬件網絡設備中的同類資源整合成一個資源池,不同的設備能夠任意的整合,在軟件的動態感知業務的資源需求,利用硬件重組的能力來滿足各類應用的需要。這過程需要一些演進性技術支撐,像高速互聯技術的發展、新興內存技術的發展、可重構芯片的發展、軟件定義等,“尤其是高速的互聯技術,使硅光互聯進入到芯片間的互聯成為一種可能,因為光傳輸與電傳輸相比有很多優點;現在隨著半導體技術演進,使資源結構由原來對結點的結構、對芯片的結構,進入細密度的結構。”
按照這樣的整合理念來做的計算儲存設備,比傳統設備表現出更強的優勢。百度、阿里的數據中心,融合架構的產品,在部署密度上提高了14%,功耗降低了15%。
另外就是新型儲存材料的出現,會改變原來傳統計算機傳統層次,出現更大內存的計算機,會縮減訪問慢速儲存所帶來的延遲或者效率資源的消耗。還有一種支撐技術就是半導體的3D技術發展,使處理器內部增加速度,使可編程的芯片成為可能。