張 焱, 鄧伯軍, 王 勤
(南京航空航天大學a.信息化處;b.馬克思主義學院;c.通用航空飛行科室,南京 210016)
隨著科學技術的不斷發展,數據信息爆炸式增長,各領域研究問題的計算量也大幅提升[1],科學研究越來越依賴于高性能計算資源[2]。2022 年國務院發布的《“十四五”數字經濟發展規劃》文件中就曾明確指出,要加快構建算力、算法、數據、應用資源協同的全國一體化數據中心體系,推進云網協同發展,提升數據中心跨網絡、跨地域的數據交互能力。
科學計算已經成為與理論研究和科學實驗并列的第3 種科學研究方法[3]。高性能計算(High Performance Computing,HPC)作為一種由數千甚至更多處理器組成的能提供高響應效率的并行處理系統,能計算普通計算機和服務器不能完成的大型復雜數據運算[4],是開展科學計算的主要基礎設施,是國家科技發展水平和創新能力的重要標志。如高性能計算能以極低的成本模擬高溫、高壓以及強磁場等極端環境下研究對象的變化,反復運行來獲取實驗全過程、全時空的變化信息,并對各種條件下的獲得所有數據進行比較,這些都是真實實驗無法達到或實驗代價過于昂貴而被認為不值得的[5]。
高校作為科學研究的主力軍之一,要建成世界一流大學,關鍵的一條標準就是科研成果和學術聲譽。商業上的計算需求,有各種各樣的商業解決方案可以滿足,但高校科研工作很多找不到更適合商業云計算方案,難以馬上落地成技術。因此,這時學校如果有超算平臺,就能支持很多基礎科研開展,實施起來更方便靈活。
我校作為一所包含理、工、管、經、哲、法、文、藝等多學科協調發展的綜合研究型大學[6],其中,理、工等主要學科對高性能計算有著迫切需求[7],特別是在航空航天、動力工程、機械設計、電氣工程、電子信息、材料科學、人工智能以及數理分析等學科領域。目前有多個科研團隊承擔著國家自然科學基金和軍事攻關等研究項目,這都依賴于高性能計算平臺來承擔海量的計算任務[6]。
高校不少課題組均擁有一定數量的計算機,但這些計算機由各單位獨立管理與使用,缺乏專門的機房及維護人員[5],導致師生不僅需專注于科研還需考慮機房基礎設施(如空調、配電等)建設和儀器正常運行;此外,分散配置的計算機缺乏資源共享,導致多數設備重復購置,沒有科學合理地利用資源,投資效益高。
基于以上情況,建設滿足高校學科發展的高性能計算平臺,以“服務用戶”為理念,充分發揮集群性能,不斷探索平臺在建設和管理領域的需求與創新,具有舉足輕重的作用。
隨著高性能計算需求的增加以及國家、政府、科研機構等對科學計算的大力投入,各地的超算平臺如雨后春筍一般蓬勃發展。相比于公共超算平臺通用性強、易于擴展的優點,高校高性能計算平臺在數據傳輸速率、溝通交互成本以及數據安全可控等方面均具有其獨特的優勢。
(1)數據傳輸效率高。高校校園網絡環境良好,數據連接系統完善。隨著信息化水平的提升以及學校對信息化的投入,多數高校基于一校多地多校區的辦學格局,在各校區之間實現全光網絡互聯,校園主要區域實現F5G與WiFi6 網絡全覆蓋,進一步提升網絡的實時性和覆蓋度。其中,我校在各學院建立計算室與高性能計算平臺直連,并通過物聯網技術及支持海量設備鏈接的5G網絡,實現對各設備的高效管理,能提供精準的資源覆蓋,實現快速接入。
(2)溝通交互成本低。高校高性能計算平臺建設的出發點是服務師生,助力科學研究與人才培養,因此通常設有專門的管理服務中心,聚焦用戶具體業務而非平臺本身。校內師生可直接與管理人員進行交流,以期平臺提供差異化服務。同時在作業運行期間,任何與平臺有關的問題均可直接向管理人員反映,溝通交互成本低,應急措施快速。
(3)數據安全可控。高校信息系統安全穩定,網絡安全管理制度體系完善,用戶權限管理嚴格,任何使用平臺的校內用戶均需與校內統一身份認證平臺對接,數字校園、智慧校園的開展,有效保障了數據的機密性和完整性,數據安全可靠。
為支持學校“雙一流”建設,保障學校人才培養、科學研究、學科建設等計算服務需求,自2018 年開始規劃建設高性能計算平臺。截至2022 年,平臺已陸續投入使用多套集群,現有計算總核心數達18 996 個,峰值計算能力為3Pflops,存儲容量達3PB。集群系統架構如圖1 和圖2 所示:

圖2 高性能計算集群二期系統架構
基于高校高性能計算平臺的優勢,為進一步提升平臺的服務支撐能力,吸引校內用戶廣泛使用,保障平臺穩定、安全、高效運行。學校利用信息化手段,從管理、技術、服務以及合作體系4 個方面出發,進一步探索平臺協同化建設管理模式。
管理制度體系建設是高校高性能計算平臺開放共享的基礎性、長期性工作,需要與高校學科發展規劃和文化價值理念相融合,隨著平臺發展不斷進行完善與修訂,持續進行優化。
高性能計算中心制定了“南京航空航天大學高性能計算平臺服務管理辦法”“南京航空航天大學高性能計算中心機房安全管理規定”“高性能計算平臺用戶使用手冊”等一系列規章制度來規范平臺的開放政策和使用模式[6]。建立“產出導向、鼓勵創新”的激勵機制,制定“平臺共享實施細則”來擴展平臺覆蓋范圍,提高平臺利用效率,鼓勵用戶產出優質成果。如設立青年教師專項來為符合要求的青年教師提供免費機時支持,緩解青年教師科研經費壓力,幫助青年教師成長;設立實踐教學專項,滿足相關課程的實踐需求,助力教學實施;設立平臺共建專項,鼓勵用戶研究平臺性能優化技術,提升平臺服務水平;設立成果獎勵專項,為依托平臺開展高質量研究、產出高質量成果的用戶提供機時獎勵。
為保證平臺7 ×24 h 持續穩定運行,機房配有一整套智能動環管理系統[8],包括:溫濕度監控、配電間監控、漏水監測、空調監控、短信提醒、雷電防控、消防報警等。并利用信息化手段,與管理人員通信設備相連,對機房存在的故障問題及時發送預警信息,提醒管理人員進行相應處理,實現疫情常態化防控下的遠程機房監控。圖3、4 分別為高性能計算平臺的動環管理系統和實時監控系統。

圖3 高性能計算平臺動環管理系統

圖4 高性能計算平臺實時監控系統
平臺堅持“客戶思維”,簡化用戶開戶、技術協議簽訂以及資源申請流程,改紙質為線上辦事大廳辦理[9],讓“數據多跑路,師生少跑腿”,提高平臺使用效率,降低管理成本。技術協議簽署流程如圖5 所示,平臺開放共享專項申請流程如圖6 所示。

圖5 技術協議簽署流程

圖6 平臺開放共享專項申請流程
除此之外,平臺技術人員還創新性的使用圖形化管理系統,讓用戶無須撰寫復雜的腳本即可提交和運行作業,方便用戶使用。同時不斷升級動態資源調度技術,對項目周期短,社會價值高的任務優先提供資源;對項目周期長,平臺性能要求低的任務降低作業優先級,保證用戶公平合理地共享集群資源,提高系統利用率和吞吐率[10]。
高性能計算平臺與其他儀器設備不同,沒有固定的操作規程,用戶不同,具體需求則不同[11]。平臺管理人員根據用戶類別進行細分,創辦難度不等的培訓班,撰寫對應《用戶使用手冊》[6],提供更精準的差異化服務。針對剛開始接觸平臺的新用戶加強宣傳、培訓與服務,幫助其盡快掌握一些高性能計算的基礎知識[12];針對科研產出率高的用戶進行重點服務與支持,甚至特別定制適合用戶使用的操作系統[12];針對自己開發軟件的用戶提供深入開發幫扶[12],鼓勵中心技術人員積極參與,協同創新。
平臺還定期與用戶組織交流會,了解用戶在使用過程中所遇難題及期望平臺所能提供的服務,分析撰寫“用戶常見問題與解答”等技術文檔[6],幫助用戶了解高性能計算的專業知識,并逐步升級平臺性能,提供更優質的服務。
為培養具有較高學術水平和創新能力的高性能計算人才,提高后備儲蓄力量,平臺與研究高性能計算相關的課題組和學院展開合作,為他們免費提供場地、實驗數據和設備資源,組成創新開發團隊,共同探索資源調度方法以及軟硬件協同配置方案。同時,在團隊老師的帶領下共同申報國家、省部級重大項目,尋找最佳平臺建設方案,達到合作共贏,協同發展的新態勢。
同時,平臺管理人員還將當前領域內的重大熱點引入校園,定期組織有關的學術報告,讓學生對新興熱點技術有所了解[13];開展高性能計算大賽,鼓勵全校師生積極參與[14],豐富校園學術氛圍,推廣平臺使用;在滿足校內用戶服務需求的前提下,與大規模超算平臺互動,實現資源的有效整合,從資源池中獲取支持,保證高校計算平臺的可持續發展,自我造血;加強與兄弟院校、研究所、企業之間的交流合作[6],充分發揮各專業聯合優勢,實現“產、教、學、研”多元一體化共享平臺建設,為國家和地方經濟提供計算服務。
高性能計算平臺自2020 年6 月投入使用以來,師生廣泛參與,覆蓋了全校所有理工科學院和專業技術部門,2021 年用戶數即超過400 人,完成作業量超過90 萬件,服務項目數超290 個,其中與航空航天相關的學科使用尤為明顯。如圖7、8 分別為2021 年學校高性能計算平臺的用戶分布和項目分布情況。

圖7 2021年南航高性能計算平臺用戶分布

圖8 2021年南航高性能計算平臺項目分布
同時,高性能計算平臺作為計算機科學與技術學院一級學科的重要平臺以及學校籌建“先進計算產業學院”的重要載體,面向全校師生開展“跨學科實驗室探索”教學活動,為近1 000 名學生提供教學支撐,助力人才培養。
高性能計算平臺建設是新世紀高校學科建設和人才培養的重要組成部分[15]。學校從高校平臺數據傳輸效率高、溝通交互成本低、數據安全可控等優勢出發,以信息化技術為手段,進一步探索平臺在管理體系、技術體系、服務體系以及合作體系四大方面的創新,以期提高平臺開放共享能力,為用戶提供更好的服務。實踐結果表明,協同化的平臺建設模式能有效提高資源的利用效率和支撐學校人才培養。