導(dǎo)語:當(dāng)前,高性能計(jì)算應(yīng)用軟件的發(fā)展落后于計(jì)算機(jī)系統(tǒng)的發(fā)展是不爭的事實(shí)。然而,有一種觀點(diǎn)認(rèn)為,通過引進(jìn)國外商業(yè)軟件就可以在高性能計(jì)算機(jī)上滿足我國高性能計(jì)算應(yīng)用需求,甚至將高性能計(jì)算等同于高性能計(jì)算機(jī),這是極其片面和非常有害的。高性能計(jì)算機(jī)的速度是一個國家計(jì)算機(jī)領(lǐng)域研制和發(fā)展能力的體現(xiàn),而高性能計(jì)算應(yīng)用的規(guī)模和質(zhì)量則是一個國家各學(xué)科研究和發(fā)展能力的體現(xiàn)。
高性能計(jì)算(High Performance Computing)也稱數(shù)值計(jì)算,或數(shù)值模擬實(shí)驗(yàn),能夠利用先進(jìn)的計(jì)算能力去實(shí)施和解決復(fù)雜問題,特別是理論、實(shí)驗(yàn)難以解決或無法解決的科學(xué)問題。加速高性能計(jì)算與應(yīng)用的發(fā)展,對提升我國自主創(chuàng)新能力,增強(qiáng)國家競爭力、保障國家安全,促進(jìn)國民經(jīng)濟(jì)建設(shè)發(fā)展具有十分重要的現(xiàn)實(shí)意義。
高性能計(jì)算機(jī)系統(tǒng)和高性能應(yīng)用軟件是推動高性能計(jì)算發(fā)展的兩個必要支撐條件。堅(jiān)持高性能計(jì)算應(yīng)用軟件和高性能計(jì)算機(jī)系統(tǒng)的統(tǒng)籌規(guī)劃、均衡投資、協(xié)調(diào)發(fā)展,是高性能計(jì)算與應(yīng)用發(fā)展的關(guān)鍵。
高性能計(jì)算機(jī)系統(tǒng)
現(xiàn)狀
高性能計(jì)算機(jī)系統(tǒng)不僅是現(xiàn)代高新技術(shù)的基礎(chǔ),而且也是現(xiàn)代科學(xué)前沿研究的平臺。當(dāng)前科學(xué)研究與工程實(shí)施正在向更大規(guī)模、更高復(fù)雜度、更加微觀或宏觀的領(lǐng)域發(fā)展,這種復(fù)雜、多樣的應(yīng)用需求,驅(qū)動了多種類型、不同結(jié)構(gòu)的計(jì)算機(jī)芯片和計(jì)算機(jī)的研發(fā),并推動計(jì)算機(jī)系統(tǒng)性能的不斷提高。
主要應(yīng)用領(lǐng)域包括納米技術(shù)、燃燒模擬、核聚變、氣候模擬和空間物理等復(fù)雜物理過程的數(shù)學(xué)模型是一組非定常的非線性微分方程,這類問題的數(shù)值求解數(shù)據(jù)往返交換多、計(jì)算量大、計(jì)算時間長,要求計(jì)算精度高,分辨率高,這對計(jì)算機(jī)系統(tǒng)的處理器(CPU)主頻、訪存和互連帶寬和延遲、穩(wěn)定性、可靠性和易用性等都提出了極高的要求。這就是定制能力型(Capability)MPP超級計(jì)算機(jī)系統(tǒng)/通用(General Purpose)系統(tǒng),它致力于解決最具挑戰(zhàn)性的問題。這種計(jì)算機(jī)系統(tǒng)建造困難、研制周期長、造價高,且數(shù)量有限,需要國家進(jìn)行專項(xiàng)投資。這種計(jì)算機(jī)系統(tǒng)的研制,可以逐步滿足高端計(jì)算不斷提出的對計(jì)算機(jī)系統(tǒng)性能的要求,而且促進(jìn)和驅(qū)動計(jì)算機(jī)技術(shù)的全面提升,也將推動普適性計(jì)算機(jī)系統(tǒng)(如集群系統(tǒng))技術(shù)的提高。
在數(shù)據(jù)處理、通訊、金融、自動控制等對計(jì)算機(jī)訪存、通信等要求不是特別高的行業(yè)應(yīng)用領(lǐng)域,使用的是普適性計(jì)算機(jī)系統(tǒng)(如集群-Cluster系統(tǒng))。它基于工業(yè)標(biāo)準(zhǔn)生產(chǎn),采用商品化的處理器、互連網(wǎng)絡(luò)等硬件,采用標(biāo)準(zhǔn)的(或開源)的Linux操作系統(tǒng),通用/商用數(shù)據(jù)庫、管理軟件等。這類計(jì)算機(jī)稱作容量型(Capacity)計(jì)算機(jī)系統(tǒng),它建造周期短,整體性能低于定制能力型MPP計(jì)算機(jī)系統(tǒng),造價也低很多,同樣峰值的集群系統(tǒng)和定制能力型計(jì)算機(jī)系統(tǒng)之間價格有數(shù)倍之差,是目前國際上占有量最大的高性能計(jì)算機(jī)系統(tǒng),2010年世界TOP500排行榜所列的全世界500臺最快超級計(jì)算機(jī)系統(tǒng)中,集群系統(tǒng)就有414臺之多,占82.80%的份額。當(dāng)前稱為業(yè)界熱點(diǎn)的“云計(jì)算”應(yīng)用大多運(yùn)行在這種類型的計(jì)算機(jī)系統(tǒng)之上。
以目前的半導(dǎo)體技術(shù)能力,主要靠提升處理器芯片主頻來提升計(jì)算系統(tǒng)計(jì)算速度,這種做法將會導(dǎo)致系統(tǒng)漏電急劇增加、系統(tǒng)無法及時散熱和用戶難以承受功耗負(fù)擔(dān)等問題。多核處理器和加速部件如Cell、GPGPU等的推出和混合使用將計(jì)算機(jī)系統(tǒng)的性能提高到了一個新的高度,并將系統(tǒng)性能功耗比控制在較好的水平,成為目前國內(nèi)外低功耗體系結(jié)構(gòu)的主流方式。面向高端裝備制造、生物醫(yī)藥、石油數(shù)據(jù)處理、海洋環(huán)境工程、天氣預(yù)報與氣候預(yù)測、數(shù)字媒體與動漫渲染等主要應(yīng)用需求,由國防科學(xué)技術(shù)大學(xué)研制,安裝在中國國家超級計(jì)算天津中心的“天河-1A”就是這種CPU和GPU混用的異構(gòu)型計(jì)算機(jī)系統(tǒng)。“天河-1A”由7168個結(jié)點(diǎn),每個結(jié)點(diǎn)由2個Intel X5670(2.9GHz,6核),1個NVIDIA tesla M2050 GPU(1.15GHz,14核,448個CUDA核),以及32GB的內(nèi)存構(gòu)成,封裝在112個水風(fēng)混合冷卻機(jī)柜里(柜高2米,寬1.45米,深1.2米)。全系統(tǒng)采用光電混合網(wǎng)絡(luò)相連接,鏈路雙向帶寬為160Gbps,理論峰值性能為4.701Petaflops(千萬億次),LINPACK測試性能為2.566Petaflops,創(chuàng)下了全新的世界紀(jì)錄,成為當(dāng)今世界最快的高性能計(jì)算機(jī)。實(shí)現(xiàn)這一性能時消耗的電力為404萬瓦特,即每瓦特能耗可實(shí)現(xiàn)每秒635.15百萬億次浮點(diǎn)運(yùn)算,這個效能值也排名世界第二位。這種CPU+GPU異構(gòu)型集群比單一CPU的集群價格又要低數(shù)倍。
以上列舉出的三類計(jì)算機(jī)——定制MPP、單一CPU集群和CPU+GPU異構(gòu)集群,由于研制難度不同,性價比不同,適用領(lǐng)域不同,各自均有自己的生存空間。因此,應(yīng)用的原則應(yīng)該是:只要能滿足應(yīng)用需求,能用易構(gòu)建、性價比高的計(jì)算機(jī),就不用其它類型的計(jì)算機(jī)。
應(yīng)用軟件
制約高性能計(jì)算發(fā)展
高性能計(jì)算應(yīng)用軟件(簡稱應(yīng)用軟件)是高性能計(jì)算應(yīng)用的具體體現(xiàn),應(yīng)用問題不同,與之相應(yīng)的應(yīng)用軟件就不同。應(yīng)用軟件的開發(fā)、研制和驗(yàn)證是一個系統(tǒng)工程,應(yīng)用問題越復(fù)雜,應(yīng)用軟件的開發(fā)、研制就越困難,研制周期就越長。
應(yīng)用軟件的研制和發(fā)展對高性能計(jì)算應(yīng)用發(fā)展具有舉足輕重的地位。毋庸諱言,高性能計(jì)算應(yīng)用軟件的發(fā)展落后于計(jì)算機(jī)系統(tǒng)的發(fā)展是不爭的事實(shí)。應(yīng)用軟件的發(fā)展越來越引起人們的關(guān)注,特別是在高端計(jì)算應(yīng)用領(lǐng)域中。2004年,美國Jack Dongarra教授就指出“高端計(jì)算的真正危機(jī)在于軟件,軟件成本已成為現(xiàn)代技術(shù)中最主要的經(jīng)濟(jì)開支”。應(yīng)用軟件是高性能計(jì)算的基礎(chǔ),其生命周期一般可持續(xù)幾十年,而一般高性能計(jì)算機(jī)的生命周期才不過五年左右,其重要性和價值可見一斑。
高性能計(jì)算的關(guān)鍵是高科學(xué)置信度,也就是高性能計(jì)算的結(jié)果要有一個可信度的量化表示,而且隨著科技的發(fā)展對這種可信度量化表示的要求也會越來越高。為此,美國能源部、美國宇航局等部門制定了以此為目標(biāo)的規(guī)劃和投資。美國能源部ASC計(jì)劃的軟件目標(biāo)是:研制和開發(fā)高逼真度、可檢驗(yàn)、高效的三維預(yù)言性程序(能正確地揭示或預(yù)測未知的規(guī)律和現(xiàn)象的程序)。
美國科學(xué)家總結(jié)過去60多年核武器的研究和1149次核試驗(yàn)后認(rèn)為:美國至今仍然沒有研究出一套能明確地把物理現(xiàn)象和基本原理連接起來的核武器定理和方程式。他們認(rèn)為,物理模型是高性能計(jì)算應(yīng)用軟件的出發(fā)點(diǎn),ASC計(jì)劃把它放在建立可信計(jì)算能力(2030年基本實(shí)現(xiàn))的關(guān)鍵研究領(lǐng)域位置。
開發(fā)、研制應(yīng)用軟件的目標(biāo)之一是實(shí)現(xiàn)全系統(tǒng)(全過程)計(jì)算,要求研究的數(shù)值方法和算法高效、可擴(kuò)展,能實(shí)現(xiàn)數(shù)千、數(shù)萬至數(shù)十萬個處理器核的大規(guī)模并行,同時研究匹配的可擴(kuò)展物理參數(shù)。其目標(biāo)之二是逐步實(shí)現(xiàn)高分辨率、更高精密度的計(jì)算。在這個研究過程中將用解驗(yàn)證(Solution Verification)方法進(jìn)行先驗(yàn)估計(jì),定量估計(jì)離散誤差、迭代誤差和舍入誤差,分析評估它們對計(jì)算精度的影響和計(jì)算模型對真實(shí)物理模型反映的程度,并用程序驗(yàn)證(Code Verification)的方法查驗(yàn)可能出現(xiàn)的算法錯誤、參數(shù)錯誤和編程錯誤,確保應(yīng)用程序正確地求解物理模型。ASC計(jì)劃把確認(rèn)(Validation)和驗(yàn)證(Verification)作為確保數(shù)值模擬置信度的一種系統(tǒng)方法,設(shè)立專門機(jī)構(gòu)、編制專門人員、撥付專門經(jīng)費(fèi)從事這項(xiàng)工作。
ASC計(jì)劃根據(jù)研究任務(wù)的需要和應(yīng)用軟件所能達(dá)到的能力提出了近十年(至2018年)平衡配置容量(Capacity)、能力(Capability)和先進(jìn)型(Advance)計(jì)算平臺的計(jì)劃,于2018年實(shí)現(xiàn)艾級(Exascale,1018)規(guī)模的計(jì)算。
高性能計(jì)算應(yīng)用軟件作為國家戰(zhàn)略科技創(chuàng)新的基本工具,直接服務(wù)于國家重大科技項(xiàng)目,專業(yè)性和多學(xué)科交叉性非常強(qiáng),需要國家的長期規(guī)劃和長期穩(wěn)定的經(jīng)費(fèi)支持和人員配備,這也完全不同于市場運(yùn)作的商業(yè)軟件。
應(yīng)有計(jì)劃地發(fā)展
高性能計(jì)算與應(yīng)用
經(jīng)過幾十年的不懈努力,目前,高性能計(jì)算已經(jīng)在我國的一些重要科技領(lǐng)域得到了有效的應(yīng)用,取得了十分重要的成果。例如:在核武器的研制中,高性能計(jì)算已經(jīng)成為禁試后核武器理論設(shè)計(jì)中唯一可行的實(shí)驗(yàn)驗(yàn)證手段;在大氣環(huán)流、海洋環(huán)流和氣候變化的數(shù)值模擬方面,我國發(fā)展了獨(dú)具中國特色的四代氣候系統(tǒng)模式,而且已利用它們在高性能計(jì)算機(jī)上模擬了人類活動對全球變化的可能影響以及未來氣候的可能演變趨勢,為世界各國經(jīng)濟(jì)發(fā)展長遠(yuǎn)規(guī)劃和科學(xué)研究提供了重要參考;在業(yè)務(wù)數(shù)值天氣預(yù)報方面,不僅能對全球范圍的天氣形勢做出3到10天的中期天氣預(yù)報,而且通過同化各種觀測資料,能對區(qū)域尺度的劇烈天氣事件做出24#12316;48小時短期精細(xì)預(yù)報;在海洋災(zāi)害方面,不僅能利用高性能計(jì)算機(jī)對厄爾尼諾作長期預(yù)報,而且能對風(fēng)暴潮、海浪、海流和海冰作日常業(yè)務(wù)預(yù)報,以及對溢油等緊急事件作應(yīng)急預(yù)報;在新藥研發(fā)方面,能夠利用高性能計(jì)算機(jī)實(shí)現(xiàn)活性化合物的虛擬篩選,從篩選的活性化合物出發(fā)進(jìn)行靶點(diǎn)的發(fā)現(xiàn)與確證,以及進(jìn)行大分子動力學(xué)模擬來研究靶標(biāo)的構(gòu)象空間與作用機(jī)理。
不久前,研制成功并投入使用的天河-1A的應(yīng)用計(jì)算也取得了一些可喜的結(jié)果。例如,用24576個CPU核進(jìn)行了地球外核熱流體數(shù)值模擬;最多使用85860個核進(jìn)行了石油地震資料處理。此外,“天河-1A”的強(qiáng)大計(jì)算資源還為藥物機(jī)理、飛機(jī)制造,中長期天氣預(yù)報等研究提供了多種規(guī)模的數(shù)值模擬,取得了滿意的結(jié)果。
雖然我國高性能計(jì)算機(jī)系統(tǒng)裝機(jī)峰值已處世界領(lǐng)先地位,并取得了一些應(yīng)用成果,但高性能計(jì)算的應(yīng)用能力與西方先進(jìn)國家比,還存在很大差距,要使高性能計(jì)算在實(shí)際應(yīng)用中真正成為科技創(chuàng)新的重要手段,仍然面臨巨大挑戰(zhàn)。
實(shí)際上,除了一些國防建設(shè)和國民經(jīng)濟(jì)建設(shè)的重要單位擁有各自的高性能計(jì)算機(jī)資源并從高性能計(jì)算中得到科技創(chuàng)新能力外,許多高等院校和科研院所的研究人員對高性能計(jì)算的使用還處于各自為政的狀態(tài),使用個人電腦或小規(guī)模集群/集群的少量處理器(核)進(jìn)行數(shù)值計(jì)算。同時,大量使用的是商用軟件或開源軟件,很多軟件的源碼不可得,使用的只是目標(biāo)程序。因此,很難或根本就沒辦法去研究這些軟件的物理假設(shè)、簡化、參數(shù)的不確定度和計(jì)算格式、算法的逼近度和誤差等問題,這些程序計(jì)算精度和分辨率不高,計(jì)算規(guī)模受限,很難發(fā)揮高性能計(jì)算機(jī),如數(shù)百萬億次、數(shù)千萬億次計(jì)算機(jī)系統(tǒng)強(qiáng)大的計(jì)算能力,關(guān)鍵應(yīng)用受限制,嚴(yán)重地影響和阻礙了我國的自主創(chuàng)新。有一種觀點(diǎn)認(rèn)為,通過引進(jìn)國外商業(yè)軟件就可以在高性能計(jì)算機(jī)上滿足我國高性能計(jì)算應(yīng)用需求,甚至將高性能計(jì)算等同于高性能計(jì)算機(jī),這是極其片面和非常有害的。高性能計(jì)算機(jī)的速度是一個國家計(jì)算機(jī)領(lǐng)域研制和發(fā)展能力的體現(xiàn),而高性能計(jì)算應(yīng)用的規(guī)模和質(zhì)量則是一個國家各學(xué)科研究和發(fā)展能力的體現(xiàn)。
鑒于此,我們應(yīng)該借鑒國外發(fā)展經(jīng)驗(yàn)盡快改變當(dāng)前我國高性能計(jì)算應(yīng)用落后的現(xiàn)狀。首先,應(yīng)從國家層面制定高性能計(jì)算整體戰(zhàn)略規(guī)劃,統(tǒng)一領(lǐng)導(dǎo)、組織和管理我國的高性能計(jì)算。其次,應(yīng)堅(jiān)持高性能計(jì)算應(yīng)用軟件和高性能計(jì)算機(jī)系統(tǒng)的長期支持、均衡投資、協(xié)調(diào)發(fā)展,以推動高性能計(jì)算與應(yīng)用的發(fā)展。再次,高性能計(jì)算涉及應(yīng)用科學(xué)、科學(xué)與工程計(jì)算和計(jì)算機(jī)科學(xué)等多個學(xué)科,高等教育應(yīng)該建立相關(guān)學(xué)科,建立合理的評價機(jī)制,加大經(jīng)費(fèi)支持,鼓勵和提高研究人員從事高性能計(jì)算與應(yīng)用的積極性。
高性能計(jì)算與應(yīng)用發(fā)展任重道遠(yuǎn),讓我們堅(jiān)持高性能計(jì)算應(yīng)用軟件、計(jì)算機(jī)系統(tǒng)和計(jì)算機(jī)環(huán)境的協(xié)調(diào)同步發(fā)展,有計(jì)劃、有步驟地建設(shè)千萬億次、億億次,以及更高計(jì)算能力的計(jì)算系統(tǒng),適應(yīng)我國國民經(jīng)濟(jì)發(fā)展和國家安全的需要。
袁國興 北京應(yīng)用物理與計(jì)算數(shù)學(xué)研究所,研究員。主要研究方向?yàn)閿?shù)值方法,并行計(jì)算、計(jì)算機(jī)性能評測研究和高性能計(jì)算應(yīng)用。
張?jiān)迫?中國科學(xué)院軟件研究所研究員,CCF高級會員、高性能計(jì)算專業(yè)委員會秘書長,研究方向?yàn)榇笮筒⑿袛?shù)值軟件、并行程序設(shè)計(jì)和性能評價、并行計(jì)算模型和計(jì)算性能評測等。
邵京云 北京應(yīng)用物理與計(jì)算數(shù)學(xué)研究所高級工程師,高性能計(jì)算中心副主任,CCF會員,主要研究方向?yàn)楦咝阅苡?jì)算機(jī)系統(tǒng)系統(tǒng)配置、性能評測以及管理。