鮑磊磊 吳銳濤 姜淑楊 黃 亮 李 敏
1(南通市氣象局 江蘇 南通 226300) 2(海門市氣象局 江蘇 海門 226100)
基于HPC的中尺度數值模式系統設計與應用
鮑磊磊1吳銳濤1姜淑楊1黃 亮1李 敏2
1(南通市氣象局 江蘇 南通 226300)2(海門市氣象局 江蘇 海門 226100)
為沿海開發、海洋捕撈、灘涂養殖、港口航運,以及平安海區建設等提供優質氣象服務,設計基于HPC的近海沿岸地區中尺度數值模式系統。系統的建設涉及高性能計算機(HPC)集群系統的硬件、軟件系統、網絡的選型設計、安裝調試和測試應用。介紹了HPC集群系統搭建、集群管理軟件、作業調度系統和并行文件系統,重點介紹了中尺度數值模式應用系統的業務流程、模式特點和方案設計,并選取一次典型的寒潮天氣過程進行數值模式應用。通過單個輸出產品和雷達實測生成產品對比表明:系統的實現為海洋氣象預測預警提供更加穩定可靠的信息運算、存儲平臺和服務產品支撐。
HPC Xcat 作業調度 GPFS ARPS-3DVAR WRF
高性能計算已經成為很多行業數據處理的關鍵,高性能計算一般采用多臺計算機組成的集群實現數據的大規模并行處理,顯著地提高了的計算能力和速度,廣泛應用于科研、國防等領域[1]。國家氣象信息中心早在2004年就已安裝IBM高性能計算機系統用于數值模式的應用研究[2],其計算時數據交換通過IBM HPS網絡實現[3]。技術的發展使得高性能計算機系統一般需要成百上千臺Linux集群服務器通過高速網絡進行構建,傳統的計算網絡、I/O方式已很難滿足大規模集群服務器之間的高速數據通信及其對存儲系統的需求[4]。受氣象重點工程“近海沿岸中尺度數值模式系統”項目的資金支持,2016年南通市建成了基于HPC的中尺度數值模式系統硬件平臺,已投入業務和科研應用。
1.1 硬件設計
系統采用刀片式HPC集群為數值模式提供硬件平臺,系統由以下幾個部分組成:
(1) 管理節點 負責管理集群系統的軟硬件、部署計算節點、提供任務調度,用戶登錄管理節點,在自己的目錄下編譯、運行和提交作業。管理節點是集群的控制中心。
(2) 計算節點 集群中用來為數值預報模式提供計算的資源。計算節點是集群中最常使用的部分,系統管理員可以使用管理節點配置它們。
(3) I/O節點 計算節點和存儲節點的中間設備,負責數據的存儲并響應計算節點的存儲請求。
(4) 存儲節點 通過GPFS等網絡文件系統協議,為計算節點提供文件共享服務。集群中可以采用專門的I/O服務器連接存儲。存儲節點可以根據需求拓展,實現負載均衡或冗余[5-6]。
本系統管理節點采用1臺X3650M3系列服務器,I/O節點采用2臺X3650M3 服務器。計算節點采用43個HS 23系列刀片服務器,采用以上46個節點構建HPC。裝載刀片服務器和交換機的刀箱采用4個IBM BladeCenter H刀片中心,采用IBM DS 3524系列存儲解決整個高性能計算的大容量存儲需求。硬件系統連接圖如圖1所示。

圖1 高性能計算機系統硬件連接
1.2 網絡設計
系統的網絡分為三類:
(1) 管理網絡 用于連接管理節點、計算節點和I/O節點以進行集群系統軟硬件的管理和通信。本文選擇獨立高速以太網。在管理網絡里,主要傳送的數據包括: dsh并行命令、xCAT管理軟件控制信息、xCAT管理數據傳送、NTP網絡時鐘以及GPFS的管理與TORQUE作業調度的應用。
(2) 計算網絡 針對并行程序、氣象應用等高性能運算的特殊所需,采用Infiniband(IB) QDR高性能交換網絡來連接所有的計算節點[7]。IB高性能交換網絡是屬于集群里的最主要計算網絡,擁有高帶寬、低延遲的特性,并能同時支持US (User Space)協議和IP(包括IPv4 及IPv6)協議,為高性能計算、并行應用、節點間Message Passing提供一個高速可靠的通道。
(3) 存儲網絡 用于 I/O服務器與存儲之間的連接。提供系統數據的讀取、存儲。考慮到集群系統和計算節點總數,本文采用了8 GB的存儲網絡,這樣使得整個高性能計算機系統成為一個平衡的系統,并充分滿足氣象數值模式應用對I/O性能的要求[8]。
1.3 系統性能測試方案設計
系統測試分為連通性測試和計算能力測試,連通性測試一般采用ping 工具,計算能力測試選用業界公認的HPL[Linpack基準( High Performance Computing Linpack Benchmark)]測試工具[9]。由于Linpack測試結果的影響因素較多,在實際測試過程中,需要通過修改編譯生產的HPL.dat文件,選擇和系統硬件匹配的參數進行調整優化[10]。如參數:測試矩陣大小N的選擇,在考慮增大矩陣規模N的同時需兼顧其消耗系統內存的大小,一般最佳占用率為系統總內存的80%左右[11]。設計選用的相關參數及測試結果如表1所示。

表1 Linpack優化參數設置及測試結果
本次所用的HS23高性能計算節點采用Intel Xeon處理器,每個處理器的峰值浮點性能為140.8GFlops,整個系統配置86個Intel E5-2660處理器用做數值計算,峰值浮點性能為12.1088TFLOPS。選用Linpack基準測試的結果為10.940 TFLOPS,測試效率為90.3%。
2.1 集群管理軟件
系統采用xCAT作為集群管理軟件,將其安裝在管理節點上,使用者可以通過一個單點控制對43個計算節點構成的集群系統進行管理。xCAT是一個開源的可擴展的高級集群管理和配置工具,可實現集群系統管理的大部分內容。xCAT的工作原理如圖2所示。

圖2 xCAT集群管理軟件工作原理
當管理節點上的xCATd接收到計算節點發送過來的用 XML 封裝的命令時,它將通過 ACL來判定發送者是否有權限執行這些命令,如果 ACL 判決出該用戶有權限執行指令,則被放進queue運行隊列中等待執行。該任務指令執行后,結果會再被服務器發回給客戶端,并顯示在任務指令發出者的終端屏幕上,從而完成整個任務指令的執行過程[12]。
xCAT安裝完成后,即可實現對集群系統的如下管理:
(1) 硬件管理 管理員常用的rpower on或off命令啟動或關閉整個集群系統。
(2) 軟件管理 方便地實現軟件的安裝、配置、分布式執行等功能。常用的命令有:pping用于查看計算節點是否啟動完成;psh用于在計算節點上批量執行;pscp實現批量遠程拷貝等。
(3) 系統監控 實現節點狀態監控,此外xCAT還支持第三方監控軟件,比如:SNMP、Nagios等。
2.2 作業管理與調度軟件
在管理節點上安裝完xCAT后需安裝作業管理與調度系統,從用戶角度看,HPC就像一臺服務器并支持多用戶使用。但太多用戶同時使用,系統的性能會變差,為充分利用集群系統的計算能力,需要合理給各個用戶提交的作業分配資源并進行管理。Torque是PBS的一個開源版本,可提供對批處理作業和分散計算節點的控制,但因其自帶的作業調度器 pbs_sched功能簡單,因此本文選擇Torque和Maui作業調度器結合來管理集群系統中的資源,Maui比pbs_sched功能更豐富。用戶也可根據自己的使用習慣和需要選擇其他的作業管理和調度軟件,如Platform LSF、SGE等[13]。
軟件安裝完成后,用戶即可利用qsub指令去提交自己的作業。Maui會根據HPC中各種資源的屬性狀態、用戶提交的作業信息和指定的調度策略生成作業優先級列表。Torque根據這個優先級列表調度作業[14]。管理員可利用其提供的常用指令管理和查看系統中的用戶作業。
2.3 并行文件系統
文件系統采用GPFS,可以使構成集群系統的所有節點并行訪問整個文件系統。對于分布在不同節點的不同硬盤上的文件,GPFS不僅允許用戶以掛載的方式共享這些文件,還支持UNIX文件系統的工具,用戶使用起來就像使用普通文件系統一樣。GPFS并行文件系統由:磁盤、網絡共享磁盤、GPFS 文件系統[15]構成,如圖3所示。

圖3 GPFS并行文件系統架構
(1) 磁盤 底層物理磁盤設備,可以是磁盤、磁盤分區或者邏輯單元。
(2) NSD 網絡共享磁盤,由磁盤虛擬映射而來,和磁盤是對應關系。本系統使用了NSD的兩個屬性分別為:Meta and data,用于存儲GFPFS文件系統中的所有信息;Data Only,用于存儲文件系統中的數據信息。
(3) GPFS文件系統 GPFS文件系統是一個可被掛載的文件系統,由NSD創建而成。創建GPFS文件系統之前應進行:環境規劃;安裝GPFS;添加GPFS命令的環境變量;構建GPFS群集;創建NSD磁盤。
本系統采用46個節點構建GPFS集群,其中:2個I/O節點分別為io1-ib和io2-ib;1個manage節點為manage-ib;43個計算節點。計算節點的命名規則為:bc刀箱序號-刀片序號-ib,如第一個刀箱的第四把刀片命名為:bc1-04-ib。將存儲劃分為7個邏輯單元映射給兩臺I/O節點,用于創建并行文件系統網絡共享文件盤NSD。節點io1-ib做為NSD主服務器,節點io2-ib做為NSD備服務器分別通過8 GB的光纖連接到存儲,提供到存儲設備的IO訪問。構建GPFS并行文件系統gpfsa和gpfsnew,將邏輯單元gpfs1nsd構建并行文件系統gpfsa提供2.2 TB的存儲資源分配給用戶home文件系統,home文件系統下的個人用戶目錄采用配額管理,限制每個用戶的資源分配,避免存儲大文件。通過擴展邏輯單元gpfs2nsd~gpfs7nsd構建文件系統gpfsnew提供22 TB的存儲資源用于氣象數據存儲。具體規劃如表2所示。

表2 GPFS文件系統環境規劃表
3.1 業務應用系統流程設計
近海沿岸中尺度數值模式系統依托高性能計算系統,將自動站、雷達資料同化后采用比較流行的WRF模式開展應用[16]。具體流程設計如圖4所示。
此業務模式用于提供華東區域,臺風期間水平空間分辨率達1 km,時間分辨率達1 h的分析產品,在模式輸出場的基礎上開發了大量物理量診斷產品[17]。發布的產品主要有:對流有效位能和螺旋度;組合反射率和風;露點溫度、海平面氣壓和風;散度;垂直切變;相當位溫等1 km物理量分析產品。
3.2 模式的選型設計
資料同化系統選型:美國風暴分析和預測中心研發的基于三維曲線坐標系統的ARPS模式,相比其他模式系統(如WRF、MM5)的特點在于其計算網格可以隨意變化,主要適用于中小尺度天氣系統。已有人將其應用到龍卷、颮線、臺風中進行研究的先例。本文選取其三維變分資料同化系統(3DVAR),將常規及非常規氣象數據資料(如多普勒雷達反射率和徑向風等)進行同化后應用到強風、短時強降水等近海沿岸地區初始場中可得汛期常見天氣過程的數值模擬或預報。
數值預報模式選型:選用業務上廣泛使用的WRF模式,具有代表性。
3.3 資料同化系統
ARPS-3DVAR的本質是將資料同化問題歸結為求二次泛函的極小值問題,函數如公式所示。


(1)
等式右邊分為三項:
第一項用來表述分析變量與背景場向量的偏差,分析變量向量X包括:三維風場(u、v、w)、位溫(θ),氣壓(p),水汽混合比(qv)以及系統中所包含的水汽凝結物種類的混合比。xb是x的對應的背景場向量,B為背景場誤差協方差矩陣[18]。第二項用來表述分析向量與觀測變量的偏差,yo為觀測向量,H稱為觀測算子,它通過空間插值將格點上的分析變量變換到觀測空間中對應的觀測量。R為觀測誤差協方差矩陣[19]。第三項是輻散約束項,由于大尺度的地轉平衡不適用于小尺度非靜力平衡流場,此項必須考慮。對于多普勒雷達的徑向速度,還需考慮三維連續方程、氣壓診斷方程等動力約束條件。
將ARPS-3DVAR應用到本業務中進行資料同化,改善WRF模式初始場的優點總結如下:
(1) 系統自帶多普勒雷達資料質量控制模塊。
(2) 將模式向實際觀測空間的映射引入二次泛函的方程中,從而函數趨于極小化的過程中獲得與資料、背景場和動力約束相協調的分析場[20]。
(3) 目標函數中加入了輻散約束項,對中小尺度天氣系統尤其適用。
(4) 背景場誤差協方差使用給定空間的遞歸濾波器進行調整。
(5) 具有多尺度分析及云分析模塊。云分析模塊是一個獨立的云模式系統。
3.4 業務模式方案設計
業務模式選擇兩重嵌套,粗網格區域設置240×240個格點,空間分辨率為9 km;細網格區域設置720×720個格點,水平分辨率達1 km,垂直層次設置51層。通過將9 km的WRF數值分析結果插值到1 km網格上,提供1 h時效內的風、溫、濕、組合反射率、散度、垂直切變等物理量診斷產品。模式為每小時的整點時刻、12分鐘、24分鐘、48分鐘各輸出一次產品。模式運行時,開始獨占用46個計算節點進行并行積分計算,此作業所在隊列的優先級設為最高。
選取2016年12月13日,9點24分一股較強冷空氣東移南下影響本省產生的一次降溫降水過程進行分析,此次寒潮帶來了本省大部分地區最低氣溫下降10 ℃左右,冷空氣影響時伴有近海沿岸地區沿海7~9級偏北大風。在此天氣過程中,選取116~122 °E,30~35 °N區域內,本系統數值模式計算生成的組合反射率產品(圖5)和雷達實測組合反射率拼圖產品(圖6)進行對比,得到以下結論。

圖5 數值模式生成組合反射率產品

圖6 雷達實測拼圖組合反射率產品
(1) 1 km的高分辨率的情況下,中尺度WRF數值預報模式和雷達實測數據生成的組合反射率產品基本一致。
(2) 本文設計的基于3DVAR-WRF數值模式的業務流程能有效模擬近海沿岸地區寒潮天氣過程中大風、降水等氣象要素。基于HPC的輸出可以為近海沿岸地區短時災害性臨近預報提供很好的診斷產品。
本文完成了中尺度數值模式系統的基礎平臺:高性能計算機集群系統的設計、集成測試和軟件部署。系統計算能力的測試效率達90.3%。并利用集群構建GPFS文件系統開展數值模式應用,詳細介紹了業務流程和實驗方案的設計,重點介紹了模式的選型和優勢。通過選取一次典型的天氣過程個例應用分析表明:在應用ARPS3DVAR-WRF模式系統的不穩定天氣形勢下的短時臨近診斷分析中,效果和實際情況一致。項目的建成大大提升了氣象業務和科研能力,其輸出的物理量診斷產品為預報員提供了很好的參考。
[1] 王彬.高性能計算機技術在氣象部門的應用[J].計算機工程與設計,2014,25(4):1476-1479.
[2] 洪文董.高性能計算機的發展與氣象應用[J].計算機工程與應用,2004,40(5):32-35.
[3] 宗翔,孫婧.IBM高性能計算機系統一次重大故障分析[J].氣象科技,2007,35(S1):41-44.
[4] 楊昕.GPFS文件系統原理和模式I/O優化方法[J].氣象科技,2006,34(S1):27-30.
[5] Wickberg T,Carothers C.The RAMDISK storage accelerator:a method of accelerating I/O performance on HPC systems using RAMDISKs[C]//International Workshop on Runtime and Operating Systems for Supercomputers.ACM,2012:1-8.
[6] Frings W,Hennecke M.A system level view of Petascale I/O on IBM Blue Gene/P[J].Computer Science-Research and Development,2011,26(3-4):275-283.
[7] 魏敏.氣象高性能計算應用服務環境適應性研究[J].氣象,2015,41(1):92-97.
[8] 朱平,朱建濤,高劍剛,等.高性能計算存儲關鍵技術研究[J].計算機研究與發展,2011,48(S1):354-364.
[9] 魏敏,孫婧,沈瑜,等.高性能計算系統性能評測方法及其應用[J].應用氣象學報,2013,24(6):753-759.
[10] 肖華東,孫婧,魏敏,等.高性能計算機系統相對持續性能度量模型[J].計算機工程與應用,2015,51(5):33-37.
[11] 薛娟,蘇厚勤.并行處理技術在ETL計算環境中的應用研究[J].計算機應用與軟件,2011,28(8):216-218.
[12] 吳瓊,王穎,梁金鈐,等.Linux環境下基于Qt和xCAT的集群部署系統①[J].計算機系統應用,2013,22(7):27-30.
[13] 孫超.高性能計算平臺的設計與應用[D].天津:天津大學電子信息工程學院,2013.
[14] 王彬,宗翔,田浩.國家氣象計算網格的設計與建立[J].應用氣象學報,2010,21(5):632-640.
[15] 朱啟偉,趙滿春,張向陽.SNFS并行文件系統負載均衡技術的研究與實現[J].計算機應用與軟件,2012,29(8):220-225.
[16] Christidis Z.Performance and Scaling of WRF on Three Different Parallel Supercomputers[C]//International Conference on High Performance Computing.Springer,Cham,2015:514-528.
[17] 袁衛華,趙玉娟,孟冬梅,等.天津中尺度數值預報業務系統的設計與實現[J].氣象科技,2011,39(6):828-833.
[18] 杜寧珠.機載和地基雷達資料三維變分同化方案在臺風數值預報中的影響研究[D].南京:南京信息工程大學,2014.
[19] 溫德垚.同化非均勻分布的雷達資料對臺風路徑模擬效果的影響[D].甘肅:蘭州大學,2011.
[20] 施麗娟.雷達資料三維變分同化在登陸臺風模擬中的應用[D].北京:中國氣象科學研究院,2008.
DESIGNANDAPPLICATIONOFMESOSCALENUMERICALMODELSYSTEMBASEDONHPC
Bao Leilei1Wu Ruitao1Jiang Shuyang1Huang Liang1Li Min2
1(NantongMeteorologicalBureau,Nantong226300,Jiangsu,China)2(HaimenMeteorologicalBureau,Haimen226100,Jiangsu,China)
In order to provide high-quality meteorological services for coastal developing, marine fishing, beach breeding, port shipping, and construction of Peaceful Sea Area, a numerical model of the mesoscale numerical system based on HPC is developed. The system involves the hardware, software systems, network design, installation commissioning and testing of high performance computer (HPC) cluster systems. This paper introduced HPC cluster system construction, cluster management software, job scheduling system and parallel file system. It mainly introduced the business process, model characteristics and schemed design of the application system, and selected a typical cold wave weather process for numerical mode application. Comparison of a single output of products and radar-measured product showed that the realization of the system could provide more stable and reliable information computing, storage platform and service product for marine meteorological forecasting and early warning.
HPC Xcat Job scheduling GPFS ARPS-3DVAR WRF
2016-12-28。國家自然科學基金項目(41675090);南通市“十二五”氣象現代重點工程建設項目(NTZC201504 54);南通市市級科技計劃項目(YYZ16035)。鮑磊磊,工程師,主研領域:氣象裝備及信息網絡。吳銳濤,工程師。姜淑楊,助工。黃亮,高工。李敏,工程師。
TP39
A
10.3969/j.issn.1000-386x.2017.12.019