楊如峰
金航數(shù)碼科技有限責(zé)任公司,北京 100028
航空制造業(yè)是高端裝備制造業(yè)(也稱先進裝備制造業(yè))典型代表,是國防科技工業(yè)的重要組成部分,是國家工業(yè)技術(shù)能力的集大成者。高性能計算技術(shù)作為其技術(shù)革新、科技進步的重要抓手,在其發(fā)展過程中起到非常關(guān)鍵的作用。我國高性能計算基礎(chǔ)設(shè)施能力建設(shè)在航空制造業(yè)方面的儲備相比美國等先進國家還比較薄弱,發(fā)展面臨的問題比較嚴峻。在企業(yè)數(shù)字轉(zhuǎn)型的關(guān)鍵階段,機遇和挑戰(zhàn)并存,如何有序、健康地推動高性能計算基礎(chǔ)設(shè)施能力建設(shè),釋放高性能計算的效能,對于當(dāng)下發(fā)展十分重要。
高性能計算基礎(chǔ)設(shè)施能力的不斷增強推動著航空制造業(yè)仿真計算應(yīng)用的不斷深入,加快了科技進步的步伐,美國在此方面表現(xiàn)較為突出,例如美國戰(zhàn)斗機YF-23 采用CFD 進行氣動設(shè)計后比前一代YF-17 減少了60%的風(fēng)洞實驗量[1],使之大大縮短了物理試驗時間和降低了成本。高性能計算技術(shù)是美國科技創(chuàng)新重要基礎(chǔ),已經(jīng)成為美國的戰(zhàn)略資源,布局長遠。
美國國家航空航天局(National Aeronautics and Space Administration,簡稱NASA)是航空航天領(lǐng)域高性能計算技術(shù)應(yīng)用和發(fā)展的佼佼者。據(jù)其官網(wǎng)目前信息顯示,其計算能力已從2004年的一個50 兆次浮點系統(tǒng)發(fā)展到2019年的四個系統(tǒng),包括8.32萬億次的Electra 和7.24 萬億次的Pleiades 超級計算機,已研制出一批優(yōu)秀的仿真計算軟件,在高性能計算領(lǐng)域投入巨大、效果顯著,為其國際戰(zhàn)略地位和國防產(chǎn)品研制提供了有力支撐。另一方面,波音公司和NASA 于2014年聯(lián)合發(fā)布了航空CFD 技術(shù)2030發(fā)展愿景,提出2025年前實現(xiàn)E 量級和2030年實現(xiàn)30Eflops 計算能力,以滿足航空CFD 技術(shù)發(fā)展需要[2]。
美國國防部空軍實驗室在2019年2月26日項目啟動儀式上,被稱為“美國航空百年神魂”的空軍研究實驗室(AFRL)正式公布了“共享國防部機密高性能計算資源”計劃,該計劃將首次共享國防部四臺最新的超級計算機,其中,性能最強大的“野馬”是唯一一臺對非涉密項目研究開放的超級計算機,“野馬”系統(tǒng)是一臺價值1500 萬美元,帶有56 448 個計算核心的惠普SGI8600 超級計算機。其余三臺則共享給各類涉密項目,分別以著名的飛機機型暗影、幽靈、巫毒命名,專門處理涉密項目,被安裝在美國國防部空軍研究實驗室超級計算機資源中心(DSRC)的一個新安全附加裝置中,以便在國防部和美國其他政府機構(gòu)之間可以安全地共享超算能力[3]。
我國作為高性能計算技術(shù)的后起之秀,從2006年開始,在國家重大科技專項的支持下,通過多個“五年”的周期計劃,分別以國家高技術(shù)研究發(fā)展計劃、國家重點基礎(chǔ)研究發(fā)展計劃、國家自然科技基金重大研究計劃等對國家高性能計算方面的研究和基礎(chǔ)設(shè)施進行資助,建設(shè)了天津、深圳、濟南、長沙、無錫、廣州等一大批超級計算中心,以天河一號、天河二號、神威太湖之光為代表的中國超級計算機多次位列高性能計算 TOP500 榜首,成績傲人。
我國航空制造業(yè)領(lǐng)域高性能計算技術(shù)的引進和應(yīng)用也取得了長足的進步和發(fā)展,過程貫穿產(chǎn)品設(shè)計、試驗和驗證,部分代替物理試驗,縮短研制周期和降低物理試驗成本,用虛擬試驗填補不具備條件的物理試驗空白。隨著產(chǎn)品研制由實物模型向數(shù)字模型轉(zhuǎn)變,高性能計算技術(shù)受到越來越多的科研人員青睞。目前大部分主研制單位具備了百萬億次量級的計算能力,其中部分單位已經(jīng)具備了千萬億次量級的計算能力,擁有上千計算核心的計算資源。在空氣動力學(xué)、多體動力學(xué)、力學(xué)、材料、液壓、控制、電子、電磁、噪聲等多個學(xué)科開展了應(yīng)用,大部分領(lǐng)域具備了定性分析的能力,部分領(lǐng)域具備了定量分析的能力。
我國航空制造業(yè)高性能計算基礎(chǔ)設(shè)施能力相比國外同類企業(yè)較為薄弱,能力建設(shè)不足、發(fā)展不均衡。
(1)在系統(tǒng)能力供給方面
①資源供給不足。高性能計算系統(tǒng)的硬件資源的最佳使用周期一般為5年,具有顯著的前期投入大、連續(xù)性要求高的特點。當(dāng)前我國大部分航空制造業(yè)基礎(chǔ)設(shè)施能力建設(shè)以型號任務(wù)為單元的計劃投入為主,存在規(guī)模小、配置不均衡、架構(gòu)不合理等普遍問題,資源在峰谷時期不均衡的情況明顯。據(jù)國家超級計算廣州中心官網(wǎng)信息顯示,商飛北京民用飛機技術(shù)研究中心利用2.4 萬CPU 核開展了大型商用飛機全參數(shù)氣動優(yōu)化設(shè)計,在天河二號計算6 天,完成了在其自身計算平臺上約需要2年的工作量[4],可以看出企業(yè)的工程需求和基礎(chǔ)能力的不匹配問題突出。同時,隨著企業(yè)數(shù)字轉(zhuǎn)型的不斷深入,多單位協(xié)同研制模式逐漸形成,多產(chǎn)品并行開展成為常態(tài),一些協(xié)同配套單位高性能計算基礎(chǔ)設(shè)施能力建設(shè)剛剛起步,資源和能力存在較大差距,導(dǎo)致一些領(lǐng)域存在明顯的木桶效應(yīng)。
②軟件自主能力不足。制約我國高性能計算技術(shù)在制造業(yè)發(fā)展的另一個主要問題是工具軟件問題,特別是涉及到大型工業(yè)產(chǎn)品設(shè)計,如飛機、船舶、汽車等,對工具依賴性較強。目前以采購國外進口軟件為主,比較有代表性的包括Abaqus、Ansys、
CFX、Dytran、Fluent、HFSS、MSC Marc、MSC Nastran、FEKO、Tecplot360 等。這些軟件采購?fù)度氤杀据^高,中小型企業(yè)難以承受,部分軟件功能對國內(nèi)存在封鎖情況,自主可控問題突出。從國外經(jīng)驗看,這些工具軟件大部分都產(chǎn)生在工業(yè)部門,需要長時間的積累和工程的不斷試驗,而高性能計算基礎(chǔ)設(shè)施能力是開展相關(guān)驗證試驗的基礎(chǔ)。我國航空制造領(lǐng)域雖然已經(jīng)研制了一批像HAJIF、ARI_CFD 等專業(yè)軟件,但工程試驗支撐能力較弱,用于科學(xué)論證的計算資源不足,在工程全面應(yīng)用還需時間。同時,人才儲備和培養(yǎng)也成為當(dāng)前另一個發(fā)展問題。
(2)在系統(tǒng)規(guī)劃設(shè)計方面
①業(yè)務(wù)與規(guī)劃脫節(jié)。大部分企業(yè)在進行高性能計算系統(tǒng)規(guī)劃、建設(shè)過程中往往“拍腦袋”的情況居多,尤其在部件級研制企業(yè)比較普遍。在規(guī)劃設(shè)計時,很難給出連續(xù)建設(shè)路線和新舊系統(tǒng)融合協(xié)同的方案;在需求確認過程中,業(yè)務(wù)部門無法提出具體的需求或提出的需求太過專業(yè)無法轉(zhuǎn)化成信息化部門聽得懂的語言,規(guī)劃/運維部門對需求如何落地?zé)o從下手,專業(yè)性太強、跨學(xué)科等因素最終導(dǎo)致規(guī)劃、建設(shè)、使用過程中問題層出不窮。
②過度依賴外部能力。以曙光、浪潮、聯(lián)想、華為為代表的高性能計算廠商占據(jù)了90%以上的市場份額,其營銷網(wǎng)絡(luò)遍布全國各地,具有不同領(lǐng)域的技術(shù)專家,根據(jù)各種行業(yè)和領(lǐng)域的特點也總結(jié)了一套較為通用的解決方案。但由于投資規(guī)模限制,往往大部分企業(yè)在進行系統(tǒng)規(guī)劃、建設(shè)甚至售后服務(wù)過程中無法獲取這些優(yōu)質(zhì)的資源。對于照本宣科的設(shè)計,再根據(jù)經(jīng)費預(yù)算進行不同層次的配置削減,雖然能解決使用問題,但會出現(xiàn)系統(tǒng)可持續(xù)、可擴展性不強等問題,例如配置了多顆CPU 而只配置了少量的內(nèi)存等問題,給企業(yè)后期使用帶來了很多問題。
③在資源共享方面
航空制造業(yè)在科學(xué)研究和工程應(yīng)用需求均較高,機密性程度高,多單位資源共用問題一直是難題,尤其是對社會資源的遠程使用和數(shù)據(jù)高效傳輸、數(shù)據(jù)異地攜帶等技術(shù)問題和知悉范圍控制等管理問題。
李國杰院士曾指出:美國發(fā)展超級計算機主要是應(yīng)用牽引,而我國側(cè)重于技術(shù)驅(qū)動。對于我國高性能計算生態(tài)環(huán)境而言,最薄弱的環(huán)節(jié)是軟件和企業(yè)應(yīng)用[5]。航空制造業(yè)企業(yè)作為應(yīng)用和科技創(chuàng)造的主力軍和國際同類計算軟件的發(fā)源地,加快推動航空制造業(yè)高性能計算基礎(chǔ)設(shè)施能力建設(shè),對我國高性能計算產(chǎn)業(yè)發(fā)展和能力提升意義重大。
隨著信息科學(xué)技術(shù)的不斷進步,航空制造業(yè)高性能計算系統(tǒng)帶來了一些新的變化。
(1)按需定制的環(huán)境要求
隨著數(shù)字化技術(shù)的不斷深入,仿真計算環(huán)境被越來越多地嵌套或關(guān)聯(lián)到企業(yè)數(shù)據(jù)管理、試驗管理等系統(tǒng)中,以實現(xiàn)協(xié)同。同時,由于仿真計算軟件版本變化和學(xué)科應(yīng)用越來越多,對于計算資源配置、計算工作環(huán)境需求會有所差別,快速定制計算環(huán)境也成為當(dāng)前的另一個發(fā)展趨勢。
(2)業(yè)務(wù)融合的安全要求
在仿真計算過程,根據(jù)作業(yè)的大小和迭代的次數(shù)會產(chǎn)生大量數(shù)據(jù)、大規(guī)模任務(wù),過程中需要頻繁的數(shù)據(jù)交換和快速的數(shù)據(jù)處理、結(jié)果反饋。在多單位協(xié)同、多用戶使用時,保障應(yīng)用的機密性、完整性,提供有效的信息安全體系,是在系統(tǒng)建設(shè)中必須考慮的因素之一。同時,隨著惡意攻擊方式變得多樣,信息安全在建設(shè)過程中越來越受重視。
(3)應(yīng)用可視化
在計算的前、中、后階段可視化有助于使用者決策,可及時發(fā)現(xiàn)問題、糾正問題,在問題發(fā)生前能及時處置,同時通過可視化的展示和數(shù)據(jù)可視化分析可提高用戶的作業(yè)質(zhì)量和降低用戶入門門檻。
(4)運維數(shù)字化
高性能計算系統(tǒng)的高效運行不但需要具備操作系統(tǒng)、網(wǎng)絡(luò)、存儲及其硬件知識,還需要具備計算環(huán)境、作業(yè)調(diào)度以及計算軟件等配置調(diào)優(yōu)的能力。而這些對于中、小型企業(yè)來說挑戰(zhàn)巨大。因此,一套高效、友好的可視化、數(shù)字化運維管理平臺顯得十分重要,已經(jīng)成為企業(yè)建設(shè)系統(tǒng)的必備工具。
(1)云計算與高性能計算
高性能計算機有兩種基本類型,一是能力(capability)型,強調(diào)解決單一復(fù)雜問題的最高計算速度,盡量縮短求解一個最大最難問題的時間;二是容量(capacity)型,強調(diào)同時處理多個大任務(wù),每個任務(wù)只用到計算機的一部分能力[5]。航空制造業(yè)在這兩個方面需求均比較迫切,建設(shè)高性能計算基礎(chǔ)設(shè)施能力首選是希望計算能力越強越好,使其具備同時開展科學(xué)研究、技術(shù)攻關(guān)和工程設(shè)計驗證工作的條件。但這種建設(shè)方式會面臨資源的供給平衡等問題,而高性能計算技術(shù)與云計算技術(shù)的融合應(yīng)用能剛好解決削峰填谷的問題,AWS 云、阿里云、中國科技云·超算云等用實踐已經(jīng)給出了答案。當(dāng)前航空、航天、船舶、電子等多家高端裝備制造業(yè)企業(yè)開始或已經(jīng)開展云平臺建設(shè)/應(yīng)用,云上協(xié)同成為數(shù)字轉(zhuǎn)型的主要抓手,高性能計算技術(shù)與云計算技術(shù)的融合應(yīng)用也將成為數(shù)字轉(zhuǎn)型時期的新的模式。
(2)量子計算與高性能計算
乳腺癌是婦女最常見的惡性腫瘤之一,是導(dǎo)致女性死亡的首要原因,我國以每年新增3%~4%的發(fā)病率逐年上升[5]。單純的DCIS術(shù)后沒有1例發(fā)生前哨淋巴結(jié)轉(zhuǎn)移,而術(shù)前此類診斷為浸潤性導(dǎo)管癌的病例中有出現(xiàn)前哨淋巴結(jié)轉(zhuǎn)移,因此乳腺導(dǎo)管原位癌是否需行前哨淋巴結(jié)活檢亟待明確[6-8]。因此,能夠在術(shù)前術(shù)中做出正確的前哨淋巴結(jié)活檢技術(shù)受到廣泛的關(guān)注。
量子計算是一種遵循量子力學(xué)規(guī)律調(diào)控量子信息單元進行計算的新型計算模式,與高性能計算系統(tǒng)的融合成為新的熱點,空客、霍尼韋爾、洛克希德·馬丁、雷神等航空制造企業(yè)紛紛在量子計算領(lǐng)域開展了大量的研究工作。其中空客早在2015年就開始在量子計算技術(shù)方面進行了布局,其堅信量子計算與更傳統(tǒng)的高性能計算解決方案相結(jié)合,可以幫助解決關(guān)鍵的計算密集型任務(wù)。為此,空客2016年投資QC Ware,2019年發(fā)起空客量子計算挑戰(zhàn)賽(AQCC),并提出了從簡單的數(shù)學(xué)到飛行物理學(xué),包括飛機爬升優(yōu)化、計算流體動力學(xué)、用于求解偏微分方程的量子神經(jīng)網(wǎng)絡(luò)、機翼設(shè)計優(yōu)化、飛機裝載優(yōu)化五個不同類型的問題。
(3)人工智能與高性能計算
作為“新基建”的重要組成,人工智能將繼高性能計算之后成為企業(yè)的又一科技創(chuàng)新的利器。近幾年大數(shù)據(jù)分析和機器學(xué)習(xí)等人工智能應(yīng)用已經(jīng)成為高性能計算的主要負載,美國、日本等國紛紛將正在研制的超級計算機成為智能計算機。當(dāng)前國內(nèi)HPC 進入了以應(yīng)用需求牽引系統(tǒng)研制的理性階段,也涌現(xiàn)一大批積極探索新型的HPC 類型應(yīng)用,包括數(shù)據(jù)分析、機器學(xué)習(xí)、信息服務(wù)等[6]。在航空制造領(lǐng)域,近期歐洲航空安全局發(fā)布人工智能路線圖中提出了8個航空特定領(lǐng)域?qū)⑸钍苋斯ぶ悄艿挠绊懀ǎ猴w機設(shè)計與運行,飛機生產(chǎn)與維修,空中交通管理,無人機、城市空中機動和U 型空間,安全風(fēng)險管理,網(wǎng)絡(luò)安全,環(huán)境,歐盟條例。該路線圖還預(yù)計機器學(xué)習(xí)在“飛行控制律優(yōu)化、傳感器校準、油箱數(shù)量評估、結(jié)冰探測”等飛機系統(tǒng)中的潛在應(yīng)用,在這些飛機系統(tǒng)中,機器學(xué)習(xí)可以取代對可能組合和相關(guān)參數(shù)值的人類分析[7]。
航空制造業(yè)的高性能計算系統(tǒng)建設(shè)不但要考慮系統(tǒng)建設(shè)所承載的軟件特性,也需考慮建設(shè)投入的持續(xù)性、系統(tǒng)的擴展性。以下基于航空制造業(yè)目前面臨的問題,集成新的發(fā)展需求,提出如下集成建設(shè)方法。
航空制造業(yè)高性能計算系統(tǒng)建設(shè)要兼顧科學(xué)計算和工程應(yīng)用兩個方面的需求,科學(xué)計算在計算時需要大量的機器投入使用,隨著科學(xué)研究的深入,需要的機器會越來越多,而在閑時這些資源需要被充分利用起來,實現(xiàn)投資效益最大化;另一方面,由于各類軟件所依賴的開發(fā)環(huán)境有所不同,計算環(huán)境的配置質(zhì)量直接會影響計算的質(zhì)量,環(huán)境切換時不但要保證平滑還要保證質(zhì)量,同時也要兼顧在一套環(huán)境下多種計算環(huán)境的情況。考慮到投資的連續(xù)性和資源的充分利用,以傳統(tǒng)科學(xué)仿真計算的高性能計算框架為基礎(chǔ),融合云計算技術(shù),本文提出一套“混合”高性能計算專有云框架,實現(xiàn)靈活配置、動態(tài)調(diào)度、按需供給和融合持續(xù)發(fā)展。
(1)高性能計算專有云采用裸金屬架構(gòu)和虛擬化、容器架構(gòu)的融合基礎(chǔ)設(shè)施環(huán)境。其中虛擬化技術(shù)提供的虛擬機適合類型多樣、需求各異的中小規(guī)模高性能計算應(yīng)用需求;容器技術(shù)的高度定制靈活的特性,通過構(gòu)建高性能計算應(yīng)用環(huán)境鏡像庫,為臨時搭建特定高性能計算集群應(yīng)用環(huán)境提供快速場景;裸金屬架構(gòu)適合于長期多任務(wù)、高并發(fā)的任務(wù)[8-9],對這類資源的充分利用可以考慮配置無盤啟動的集群管理方式,通過對操作系統(tǒng)打包鏡像管理,保證切換的環(huán)境是調(diào)優(yōu)后的環(huán)境。
(2)在高性能計算專有云中構(gòu)建協(xié)同研制環(huán)境,使用平臺實現(xiàn)需求供給側(cè)的對接;充分利用云環(huán)境下人才資源的互動性,有效彌補人才資源的不足;通過多單位互惠協(xié)議,賦予軟硬件資源供給方和使用方雙重角色,通過高性能計算專有云的安全API構(gòu)建安全通道,可在滿足各自的需求的同時在資源峰值需求和平時閑時進行相互租賃,充分調(diào)動資源,提高資源的利用率。
(3)通過構(gòu)建專業(yè)領(lǐng)域高性能計算生態(tài)社區(qū),建立歷史模型庫,降低用戶使用的門檻,提高知識的共享;通過將開發(fā)庫、通用軟件庫組件化,實現(xiàn)高性能計算環(huán)境隨需提供科學(xué)計算、人工智能、數(shù)據(jù)分析等服務(wù)環(huán)境。
在基礎(chǔ)設(shè)施層面由各類計算、存儲、網(wǎng)絡(luò)設(shè)備組成計算資源池,以有效支撐上層不同層次的計算需求;總體的資源使用統(tǒng)一由高性能計算云操作系統(tǒng)來完成管理。
在平臺服務(wù)層,通過對各類常見的模型進行抽象形成不同場景的資源模型,供軟件服務(wù)層進行調(diào)度使用,實現(xiàn)系統(tǒng)環(huán)境、資源狀態(tài)、調(diào)度模式等靈活定制。資源調(diào)度器由作業(yè)調(diào)度器引擎、云計算調(diào)度引擎、分布式搜索引擎等組成。
在軟件服務(wù)層,支持應(yīng)用交付對外窗口,是系統(tǒng)的入口,供用戶訪問使用,也是第三方互動主要接口。
在以上三個層面的背后配置歷史資源數(shù)據(jù)庫,通過利用相關(guān)技術(shù)對提交作業(yè)的質(zhì)量、行為進行預(yù)判。在用戶提交作業(yè)前提供最佳實踐指導(dǎo),有效提高系統(tǒng)效率,降低系統(tǒng)的使用成本;在作業(yè)運行完成后,通過提取作業(yè)數(shù)據(jù)進行問題分析和提煉經(jīng)驗,納入歷史資源庫供后續(xù)同類應(yīng)用參考。同時,在系統(tǒng)每個環(huán)節(jié)嵌入信息安全防護能力,包括身份鑒別、訪問控制、完整性等措施,保障各業(yè)務(wù)模塊開展過程中的機密性和完整性。
基于航空制造業(yè)的特點和發(fā)展現(xiàn)狀以下給出方案設(shè)計選擇方法。

圖1 高性能計算專有云參考框架Fig.1 High performance computing proprietary cloud reference framework
4.2.1 業(yè)務(wù)方案設(shè)計
在進行高性能計算技術(shù)選型時,要從業(yè)務(wù)的實際使用場景出發(fā),在有些方面需要大內(nèi)存、大容量、高主頻,而有些方面對于內(nèi)存、容量要求并不高。在某種程度上,應(yīng)用軟件的特性決定了硬件平臺的選擇。
從對計算資源的需求來說,隱式解法的基本特點是內(nèi)存占用多、磁盤IO 大、進程通信量大,因此,隱式解法要求系統(tǒng)的內(nèi)存容量大、訪存帶寬高、磁盤IO 速度快、通信延遲低;相對而言,顯式解法對內(nèi)存、磁盤IO 和通信延遲的要求要低一些。
從軟件的擴展性上來說,采用靜態(tài)隱式算法的軟件,擴展性相對較差,計算性能在8-16 CPU 核以上就很難獲得進一步的提升;而采用動態(tài)隱式算法的軟件,擴展性要好的多,在64-128 CPU/核以內(nèi)都能獲得較好的并行性能。顯式算法的軟件,擴展性非常好,可支持數(shù)百CPU 核甚至更多的并行。另外CFD 應(yīng)用的擴充性也非常好,無論是結(jié)構(gòu)化網(wǎng)格還是非結(jié)構(gòu)化網(wǎng)格,都可支持上百個CPU 核的并行。電磁分析軟件如FEKO 通常對CPU 的要求不高,但需要大內(nèi)存[9]。
在硬件資源的配置和選擇上要考慮計算任務(wù)各個階段的使用需要。以CAE 為例,目前應(yīng)用在CAE當(dāng)中的計算技術(shù)在實際應(yīng)用中包括三個步驟:首先是建模亦即前處理,是指對需要計算的問題建立幾何和物理模型并劃分網(wǎng)格,以便可以將非線性的力學(xué)方程離散為計算機可以識別的代數(shù)方程,這一過程需要較好的顯示能力,并且要求具有一定的內(nèi)存空間能夠容納大量的網(wǎng)格信息,通常在工作站上進行;模型建立后就是求解過程,這一過程需要大量的CPU、內(nèi)存資源以及存儲空間,通常利用作業(yè)調(diào)度系統(tǒng)提交到高性能計算機上執(zhí)行,結(jié)果數(shù)據(jù)存放在大容量磁盤陣列中;之后是后處理過程,即對計算得到的數(shù)據(jù)進行分析處理,得到各種曲線和圖形信息,這一過程同樣對顯示能力要求較高,通常在工作站上進行[10]。
4.2.2 硬件資源選擇
(1)計算資源選擇
高性能計算系統(tǒng)中的計算核心硬件資源,一般由Cluster 集群、SMP 服務(wù)器和異構(gòu)處理器、眾核處理器的服務(wù)器組成,在選擇過程中需要充分考慮處理器、內(nèi)存、IO 接口卡等各組件之間關(guān)聯(lián)性,保證資源的合理分配。

圖2 業(yè)務(wù)階段劃分和資源需求Fig.2 Business phase division and resource requirements
在處理器架構(gòu)選擇上,X86 架構(gòu)為主流,其生態(tài)環(huán)境較為完善。ARM 架構(gòu)由于其低功耗的特性,也開始在高性能計算領(lǐng)域嶄露頭角,在2020年6月發(fā)布的TOP 500 中排名第一的日本研制的Fugaku 采用了A64FX 處理器,其對企業(yè)的自主開發(fā)能力要求較高。
在處理器的主頻、核數(shù)選擇方面,雖然沒有絕對的配比關(guān)系,但一般主頻越高,核數(shù)會越少,是選擇高主頻還是選擇多核心,需要根據(jù)仿真軟件的需要和計算量來配置。對于處理器的數(shù)量需按偶數(shù)配置。對于處理器型號選擇建議可以以TOP500(由國際組織“TOP500”編制,每半年發(fā)布一次,是給全球已安裝的超級計算機排座次的知名榜單)和HPC TOP100(中國高性能計算機性能TOP100 排行榜,簡稱HPC TOP100,是指依據(jù)Linpack 測試性能進行排序的中國最快的100 臺計算機系統(tǒng)的榜單列表,是衡量中國高性能計算機系統(tǒng)及應(yīng)用發(fā)展的重要參考依據(jù))的數(shù)據(jù)作為參考。
在內(nèi)存的配置方面,一般和所選擇的機型、處理器型號有非常密切的關(guān)系。作為介于處理器和硬盤存儲之間的高速存儲,對于處理器能否發(fā)揮出最大效能影響非常大。一般要求所配置的內(nèi)存條數(shù)量需和處理器架構(gòu)中通道數(shù)量成正比關(guān)系,需盡量保證處理器訪問內(nèi)存路徑最短。而內(nèi)存的總?cè)萘恳蛐枨蠖悾话憬ㄗh在96GB 以上。
除了選擇用于計算的服務(wù)器外,用于資源管理的服務(wù)器的選擇也不容忽視。一般主要由IO 節(jié)點、管理節(jié)點、對外服務(wù)節(jié)點服務(wù)器組成。其中管理節(jié)點主要是外部管理訪問的入口計算機,一般以邏輯訪問控制區(qū)域為單位配置為宜;對外服務(wù)節(jié)點一般根據(jù)對外服務(wù)用戶數(shù)量來配置,建議采用雙機冗余架構(gòu),對外接口建議采用多端口捆綁配置;IO 節(jié)點服務(wù)器的配置需要和所選擇的后端存儲類型來確定是否配置,一般所有IO 節(jié)點服務(wù)器的HBA 卡接口、IB 接口(若使用此接口與計算節(jié)點通信)或以太網(wǎng)接口中每種接口類型的總帶寬不能小于存儲接口總帶寬。
(2)存儲資源選擇
良好的存儲系統(tǒng)方案設(shè)計可以大幅度提高高性能計算平臺的計算效率。選購存儲資源時可以采用磁盤陣列、光纖交換機、IO 節(jié)點、并行文件系統(tǒng)的松耦合式方式,也可以采用緊耦合方式的并行存儲。前者具有良好的擴展性,不會受限于品牌的限制,但工程中系統(tǒng)的調(diào)試情況會影響系統(tǒng)性能;后者集成度高、出廠已經(jīng)完成調(diào)優(yōu),但受品牌限制。
存儲的可用容量大小選擇需要根據(jù)項目建設(shè)實際使用需要以及長期存儲數(shù)據(jù)量、臨時數(shù)據(jù)存儲量的要求進行選擇,一般建議配置至少30%以上的存儲空間余量。存儲系統(tǒng)性能指標主要關(guān)注讀寫帶寬,其中松耦合方式除考慮前文提到的IO 節(jié)點服務(wù)器的接口卡帶寬的問題時,還要考慮存儲設(shè)備前端、后端接口帶寬和磁盤總帶寬的匹配問題,避免出現(xiàn)“木桶效應(yīng)”。
(3)網(wǎng)絡(luò)通信資源選擇
高性能計算網(wǎng)絡(luò)通信資源從功能上分為高性能計算網(wǎng)絡(luò)、高性能管理網(wǎng)絡(luò)、高性能監(jiān)控網(wǎng)絡(luò)組成。三個網(wǎng)絡(luò)需實現(xiàn)不同接口卡的物理隔離部署。在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計上,其中特別需要注意對于高性能計算網(wǎng)絡(luò)的選擇,當(dāng)前較為流行的是Infiniband、Intel Omni-Path、萬兆以太網(wǎng),從2020年6月TOP500 榜單看萬兆以太網(wǎng)占據(jù)了“半壁江山”。

圖3 2020年6月TOP500 排名網(wǎng)絡(luò)類型統(tǒng)計Fig.3 Statistics of top 500 network types in June 2020
從技術(shù)發(fā)展和管理上各自有優(yōu)缺點,需要根據(jù)配置的服務(wù)器數(shù)量和網(wǎng)絡(luò)的整體冗余性和可靠性進行選擇部署,原則上盡量保證節(jié)點與節(jié)點通信的無阻塞,最大限度減少由于計算網(wǎng)絡(luò)的延遲、阻塞帶來的整體平臺計算能力下降。
(4)軟件資源選擇
①高性能計算基礎(chǔ)軟件資源
高性能計算基礎(chǔ)軟件資源主要由操作系統(tǒng)和用于計算支撐開發(fā)環(huán)境軟件組成。這些軟件的選擇需要根據(jù)計算軟件特性進行配置。
②集群管理軟件
集群管理軟件是運維管理人員的主要工作平臺,也是高性能計算云的核心組件,根據(jù)企業(yè)建設(shè)的規(guī)模和是否要建設(shè)成計算云平臺來選擇。若建設(shè)規(guī)模比較小可選擇國內(nèi)將集群管理軟件和作業(yè)調(diào)度門戶集成的產(chǎn)品,也可選擇BrightComputing、xCAT 等成熟的產(chǎn)品;若建設(shè)成云平臺,需要選擇具有集群管理能力的云操作系統(tǒng)軟件。
③作業(yè)調(diào)度引擎
作業(yè)調(diào)度引擎是利用高性能計算平臺開展并行技術(shù)的核心組件,可選擇包括LSF、PBS、Slurm 等。
④用戶門戶
用戶門戶是用戶通過WEB 界面訪問、提交、查看、下載作業(yè)的主要窗口,是用戶日常操作的主要平臺。在產(chǎn)品選擇上,中小規(guī)模建議選擇集成了作業(yè)調(diào)度引擎、集群管理模塊的系統(tǒng),便于維護。長期發(fā)展,建議單獨配置。
(5)前后端設(shè)計資源選擇
根據(jù)計算軟件的特性和工作特點,一般前端設(shè)計資源可采用遠程處理、本地處理多種方式組成,可以配置高端圖形工作站也可以采用遠程可視化來完成。
后置處理一般為將后期處理的結(jié)果進行分析和顯示處理,對顯卡處理能力要求較高,同時需要配置相應(yīng)的3D 圖形處理軟件。為了更好的顯示分析,可以配置3D 顯示系統(tǒng)進行處理數(shù)據(jù)的三維顯示。
(6)安全體系資源設(shè)計
系統(tǒng)不能完全單獨采用一種安全防護技術(shù),在設(shè)計中須充分利用操作系統(tǒng)的一些安全的特性,通過與傳統(tǒng)的安全防護技術(shù)相融合,來提升系統(tǒng)的安全性。結(jié)合信息安全技術(shù)體系及基礎(chǔ)資源關(guān)系,采用身份鑒別、認證與授權(quán)、病毒與惡意代碼的防治、系統(tǒng)層安全防范、網(wǎng)絡(luò)管理、監(jiān)控與審計、漏洞掃描、數(shù)據(jù)傳輸加密與壓縮、運行安全、準入控制、入侵行為檢測、邊界防護和運行安全為系統(tǒng)建設(shè)一套可靠的安全屏障[11]。
4.2.3 系統(tǒng)建設(shè)及驗收
系統(tǒng)集成工作是設(shè)計落地的重要保障,其集成要求不同于一般的信息系統(tǒng)集成。對于工程師來說不但需要了解高性能內(nèi)部組件的組成和邏輯關(guān)系結(jié)構(gòu),同時也要考慮到計算軟件特性和應(yīng)用模式。因此在系統(tǒng)建設(shè)時一定要明確好集成服務(wù)內(nèi)容和標準。在最后確認系統(tǒng)穩(wěn)定性和性能方面,需要至少開展以下幾方面的測試:
(1)浮點運算測試。即HPL(High Performance Linpack),也叫高度并行計算基準測試,是針對現(xiàn)代并行計算機提出的測試方式,是評價高性能計算平臺的好壞的公用標準。在不修改任意測試程序的基礎(chǔ)上,可以調(diào)節(jié)問題規(guī)模大小、使用到的CPU 數(shù)目、使用各種優(yōu)化方法等來執(zhí)行該測試程序,以獲取最佳的性能。HPL 采用高斯消元法求解線性方程組。
(2)內(nèi)存訪問性能測試。一般采用STREAM 為簡單向量內(nèi)核(Simple Vector Kernels)持續(xù)內(nèi)存帶寬和相應(yīng)的計算速度基準測試。
(3)存儲帶寬測試。一般采用IOzone 工具為文件系統(tǒng)進行數(shù)據(jù)的讀取、寫入基準測試。
(4)軟件調(diào)優(yōu)和集成。根據(jù)軟件的特性,充分將軟件使用簡單化,充分結(jié)合作業(yè)調(diào)度軟件的特性簡化使用操作,開展調(diào)度策略調(diào)試、功能集成等工作。
企業(yè)在初期建設(shè),可采用行業(yè)/領(lǐng)域的一些最佳實踐,可做量的裁剪,不做配置的裁剪,建議可采用集成度較高的作業(yè)調(diào)度引擎+集群管理+作業(yè)門戶集成的方式建設(shè);建設(shè)過程中,可根據(jù)技術(shù)能力儲備程度和未來業(yè)務(wù)發(fā)展需要選擇商業(yè)/開源的作業(yè)調(diào)度引擎,同時建議將集群管理、作業(yè)門戶分開部署,實現(xiàn)專業(yè)化管理,在集群管理平臺的選擇上要考慮未來云計算平臺的接口銜接問題;新舊系統(tǒng)更換階段,在選擇技術(shù)路線上,可根據(jù)資源的利用率和能耗開銷上逐步替代,優(yōu)化隊列配置和集群管理系統(tǒng)的配合,實現(xiàn)資源的最優(yōu)使用。
高性能計算機已經(jīng)成為顛覆產(chǎn)品設(shè)計研發(fā)、引領(lǐng)創(chuàng)新的重要保障手段和技術(shù)。在當(dāng)前航空制造業(yè)快速發(fā)展階段,航空制造業(yè)高性能計算基礎(chǔ)能力建設(shè)需加快建設(shè)步伐,補齊短板,首先解決高性能計算基礎(chǔ)能力與日常研制所需仿真計算需求嚴重不匹配的剛需問題,做好適應(yīng)發(fā)展的合理規(guī)劃設(shè)計,保證系統(tǒng)建設(shè)的可持續(xù);其次,充分利用云計算技術(shù),多單位聯(lián)合,盤活一切可用計算資源,讓有限的投資發(fā)揮最大的能效。同時,兼顧人才隊伍的建設(shè),加強高性能計算復(fù)合型人才的培養(yǎng)和儲備,需要借助各個領(lǐng)域力量打造培育行業(yè)高性能計算領(lǐng)域高端智庫,打造良性生態(tài)圈,實現(xiàn)領(lǐng)域能力的全面能力水平提升。隨著人工智能、工業(yè)大數(shù)據(jù)逐步從理論走向?qū)嵺`,高性能計算技術(shù)在航空制造業(yè)的應(yīng)用場景將更加多樣,做好儲備和需求牽引,推動整體發(fā)展。
利益沖突聲明所有作者聲明不存在利益沖突關(guān)系。