陳園園,崔貫勛
(重慶理工大學,重慶 400054)
在高校科學研究中,隨著各領域研究問題的計算量大幅增加,數據規模呈數量級增長,高性能計算方面的快速發展為研究這些科學問題提供了強有力的支持。但高性能計算平臺在管理上存在很多難點:
(1)服務器異構、數量多、類型復雜,管理技術人員配比少,只依靠人工管理方式無法完成系統運維;
(2)故障類型多,定位故障要求專業技術程度高并處理及時;
(3)高性能計算平臺需7*24h對外提供運行穩定、不間斷的服務。
基于以上現狀[1],為使高性能計算平臺滿足高校多學科應用的需求,并具備可持續發展的科研競爭實力,重慶理工大學明確平臺定位,將“服務用戶”理念[2]落實到平臺建設、運維和管理服務等各個方面,吸引校內外用戶,促進平臺健康發展。
1.1.1 高校對高性能計算的需求
重慶理工大學是一所包含理、工、文、管、經、法、醫、藝等多學科協調發展的綜合應用研究型大學。其中,理、工、醫等主要學科在高性能計算方面有著巨大需求,特別是在理論物理、氣候分析、機械工程、材料科學、汽車制造、電力通信、生物醫學等領域。目前有多個科研團隊承擔著國家自然科學基金項目和科技攻關等項目,都依賴于高性能計算平臺來完成海量計算工作。
1.1.2 高校高性能計算平臺按需建設
2016年,重慶理工大學以開放、共享為前提部署一套高性能計算平臺,集群總體計算能力為20 Tflop/s、數據存儲能力為100 TB。該平臺正好滿足學校目前科研與教學的需求。后期將根據學校發展需要,遵照“按需建設,逐步升級”的建設原則,實行資源與應用需求同步增長,提高資源利用率,使其發揮最大作用。
高性能計算集群[3]是整個高性能計算平臺的核心,是融合了計算、網絡、軟件和存儲的綜合體系。重慶理工大學高性能計算集群系統為異構系統[4],集群系統架構如圖1所示。

圖1 高性能計算集群系統架構
1.2.1 高性能計算集群硬件
重慶理工大學高性能計算集群系統采用Cluster集群架構[5]。其中計算節點由雙路刀片通用計算節點、四路SMP胖計算節點和眾核GPU計算節點組成,并配置一臺管理監控節點用于集群的管理,在該節點上部署集群管理系統GridView3.2、PBS作業調度系統和用戶主要應用軟件,負責整個集群系統的軟硬件管理、監控與維護;同時該節點復用為I/O存儲節點,部署1套NFS文件系統。配置一臺登錄節點,為普通用戶提供登錄和高性能計算服務。將管理節點與登錄節點分開,大大提高了集群的安全性。
1.2.2 高性能計算集群網絡
整個集群配置3套網絡系統[6]:FDR InfiniBand計算網、千兆管理/監控網絡(Eth1)和硬件管理網(Eth2)。計算網由所有服務器節點通過InfiniBand萬兆交換機連接,使得這些節點可以高速訪問,但只允許普通用戶通過登錄節點訪問計算網,通過PBS作業調度系統提交作業使用計算資源,以保證系統安全。Eth1千兆管理/監控網絡傳輸整個千兆網的控制信號。Eth2管理網絡為千兆以太網,用來管理硬件設備。高性能計算集群拓撲[7]如圖2所示。

圖2 高性能計算集群拓撲
另外,系統內嵌1臺筆記本電腦作為系統管理的物理顯示端,并配置一套Cluskvm100 KVM以供系統安裝調試用。
1.2.3 高性能計算平臺軟件
平臺除部署高性能計算必需的編譯器、數學庫、并行庫外,還安裝了各學科領域用戶常用的開源或商用等軟件,逐步構建一個簡便、友好的平臺使用環境。
為向用戶提供良好的科研環境,中心在運維管理體系[8]建設中不斷完善管理制度、隊伍建設以及管理技術,三者的有機結合,保障高性能計算平臺安全、高效、穩定運行。高性能計算平臺運維管理體系如圖3所示。

圖3 高性能計算平臺運維管理體系
嚴格的制度管理是設備安全、穩定運行的前提保障。中心制定了《高性能計算平臺管理辦法(試行)》《高性能計算平臺操作管理手冊》《高性能計算平臺值班巡檢守則》《用戶使用手冊》等規章制度。另外為規范資源申請流程[9],改紙質為線上申請,提高資源準備效率。資源申請流程如圖4所示。

圖4 資源申請流程
2.2.1 提高專業技術服務水平
高性能計算平臺的建設和管理對管理人員[10]要求非常高,除了精通硬件、網絡和軟件等專業技術,還要具備各學科知識背景,了解各應用領域研究現狀,具體涉及各學科專業軟件的使用。因此中心鼓勵技術人員努力學習各領域知識,提供參加高性能計算行業先進技術培訓和溝通交流的機會。
2.2.2 管理隊伍“傳、幫、帶”
為提供高效、穩定的高性能計算服務,平臺管理人員需要定期檢查設備、查看分析系統日志、正確判斷問題故障、熟練掌握解決辦法,確保設備正常運行。在管理人員欠缺的情況下,中心申請1~2名相關專業的研究生助管,由管理人員教導助管進行設備檢查和故障排除,在維護中傳授高性能計算基礎知識和實踐經驗,為高性能計算平臺的運維管理提供保障。
2.2.3 增加科研經歷
鼓勵管理人員參與科研,加入課題小組,在提供高性能計算平臺技術服務的同時提升其科研能力。通過參與科研,力圖打造一支技術過硬,多學科交叉,科研經歷豐富的管理團隊。
2.3.1 環境監控
為保證集群系統7*24h提供服務,機房配有不間斷電源UPS,并配備一套智能監控系統[11],包括:供配電監控、空調監控、溫濕度監控、視頻監控、漏水監測、消防報警、聲光報警、防雷、短信報警等。另外,管理人員每天進入機房對集群系統進行例行檢查,每周做一次全面檢查,以保證安全性[12]。
2.3.2 集群管理系統——GridView
平臺采用曙光GridView集群管理系統[13],該系統整合了clusconf、clussoft、HPC_installer等工具。GridView提供對節點硬件的實時全狀態監控及遠程協助管理。
2.3.3 PBS作業調度系統
中心采用PBS作業調度系統[14]為高性能計算資源提供統一的Web訪問接口,整合集群軟硬件資源及認證信息,控制用戶權限,為用戶作業統一分配資源,避免沖突。平臺采用Web Portal方式[15]提交用戶作業,Web Portal包括了basic類型的mpi、serial、general三個基本應用portal。用戶無需安裝客戶端,僅通過Web界面就能完成提交作業、傳輸文件、查看結果等操作,簡便易用。
2.3.4 安全、可靠的遠程終端訪問
當管理人員或用戶需要傳輸數據或使用命令調試運行程序時,可通過SSH、PuTT、VNC等工具遠程終端軟件訪問平臺[16]。
2.3.5 用戶管理
(1)用戶信息登記備案。
中心根據用戶資源申請表相關信息建立用戶信息庫,了解用戶背景和需求,根據用戶需求及其研究內容為用戶作業配置資源隊列,再根據其課題和成果設置用戶優先級[17],優先保障對國家級重大課題的支持。年終,中心根據用戶研究成果及論文發表情況給予機時獎勵,保證獲得高水平研究成果的用戶更多使用計算資源,形成良性循環。
(2)用戶目錄隔離。
用戶訪問高性能計算平臺門戶網站[18],系統將建立用戶唯一訪問目錄/public/userName,用戶之間相互隔離。在用戶整個會話期內,系統管理用戶證書,以此提供更加細粒度的資源分配和服務控制。
(3)作業提交隔離。
用戶一律通過作業管理系統提交作業、隊列計算和查詢結果,嚴禁繞過作業管理系統使用計算資源,不可查詢他人作業。
重慶理工大學高性能計算平臺建設至今,積極開展各種形式的對外合作與交流,充分發揮自身優勢為不同用戶和企業提供優質的服務。已發展成為集高性能計算應用、科學研究與創新、技術咨詢、產學研合作、人才培養等多功能為一體的技術先進、服務優良、成果突出的科研創新支撐平臺。通過不斷地創新和探索,總結出面向校內外開放、資源共享的校級高性能計算平臺服務模式[19],如圖5所示。

圖5 高性能計算平臺服務模式框架
作為校級公共計算資源平臺,始終以“服務用戶”為宗旨,為校內的科研團隊、教師和學生提供高效、穩定的計算服務。在滿足校內需求的同時,向社會開放應用,滿足社會用戶的計算需求,提高服務水平。
3.2.1 專業培訓
平臺大部分用戶為非計算機專業的教師和學生,對高性能計算平臺熟悉程度參差不齊。因此,中心根據用戶的不同情況,創辦難度不同的培訓班,并撰寫《用戶使用手冊》。培訓內容包括Linux基礎、專業軟件安裝優化、并行程序開發等,為不同層次、不同需求的用戶提供高性能計算培訓[20]。
3.2.2 咨詢服務
在使用平臺計算服務的過程中,管理人員認真回答用戶在使用過程中遇到的問題,并撰寫“用戶常見問題與解答”等技術文檔,幫助用戶了解高性能計算的專業知識和技術,以提供優質的咨詢服務。
中心積極參與學校和本地區各類高性能計算項目的申報,加強與兄弟院校、研究所、企業之間的交流合作[21],鼓勵并支持平臺管理人員深入到重大科研項目中,建立跨學科、專業聯合的科研模式,發揮各自所長,充分體現各專業聯合優勢,使項目研究取得顯著突破,使平臺服務水平獲得質的飛躍。
采用多種方式加強平臺的推廣[22],體現開放、共享、交流特色。
3.4.1 大力宣傳和推廣平臺
為宣傳和推廣高性能計算平臺,中心搭建了高性能計算平臺門戶網站[23],一是用于展示中心資源、發布新聞通知、技術培訓、論文發表、科研成果等信息,體現科研競爭實力;二是用于促進合作交流,擴大資源開放共享范圍。通過宣傳和推廣,努力將其建設成為設施一流,功能齊全,面向社會開放,資源共享的高性能計算公共服務平臺。
3.4.2 開展平臺應用交流活動
作為學校科研服務平臺的建設單位,中心積極與國內超算中心、相關實驗室和企業交流,邀請高性能計算專家來校指導,舉辦高性能計算應用系列講座,探討高性能計算平臺建設管理經驗,大力創新服務模式。
3.4.3 定期用戶回訪,提高服務質量
加強用戶溝通交流對提高服務質量起到至關重要的作用。平臺定期對用戶進行調查回訪和意見收集,對用戶使用情況進行統計分析,不斷優化系統管理,提高服務質量。
重慶理工大學高性能計算平臺自2016年底建成即投入使用,該文以2017~2018年高性能計算平臺開戶情況(圖6)、提交作業數(表1)、使用機時(表2)等情況作為參考,分析改進管理模式的有效性[24],如下。

圖6 2017~2018年HPC開戶情況對比

表1 2017~2018年提交作業數情況

表2 2017~2018年機時使用情況(核時)
從圖6、表1中可以看出,在2017年使用初期,只有計算機、藥學、理學、車輛、電氣等幾個專業申請開戶,只計算一些簡單、用時少的作業,資源利用率低。發現問題后,中心通過提高管理人員專業技能、廣泛宣傳、組織培訓交流、提供咨詢等方式,大膽進行管理制度和運行機制的創新。從2018年的開戶情況上看,學科專業領域在橫向和縱向上都有所增長。從圖7、圖8看,雖然2017~2018年在作業提交數和機時使用量上有浮動,但從月度使用差額來看,總體趨勢向上。

圖7 2017~2018年提交作業數情況對比

圖8 2017~2018年機時使用情況對比
改進管理模式后,平臺使用量自2018年11月顯著增長,極大地提高了平臺的科研服務水平和資源利用率,更好地保障了學校激增的科研計算需求,成效顯著。
在圍繞把重慶理工大學建設成為國內一流的高水平應用研究型大學的總體要求下,該校高性能計算平臺的建設與發展以智慧校園建設為核心,引進先進技術,升級管理系統,整合各重點學科優勢,對平臺管理機制、服務模式進行全面探索與創新,加強與研究機構的交流與合作,積極吸引和開拓用戶群,構建一個技術先進、服務優良、成果突出的科研創新支撐平臺,從而促進學校基礎科研的發展,提高核心競爭力。