



摘要:HPC以往都是以引進國際品牌的服務器、存儲以及網絡產品為主,隨著國產技術發展及信息安全原因,國家現階段高度重視國產化,HPC逐漸向國產化方向發展,國產HPC集群能否滿足本行業的業務需求,就需對服務器集群作傳統部署和Linpack測試。通過全都由國產知名品牌存儲、服務器、網絡部署HPC集群系統,并進行各種場景的性能測試研究與分析,得出國產HPC性能優越,完全符合業務需求的結論。
關鍵詞:HPC;Linpack;性能測試;國產
一、前言
油氣地球物理勘探[1],占百分之九十的是地震勘探,此外還有重力、磁力、電法及遙感等勘探技術手段,而地震勘探的核心內容是野外地震資料數據的采集、處理和解釋,這其中又以地震資料數據處理為主要技術手段,地震資料數據處理主要包括地震反褶積、疊加和偏移成像三大技術,這些技術都是依賴密集的浮點運算,涉及大量的求解密集型波動方程,所以對浮點計算的性能要求非常高,HPC[2]正是為滿足油氣勘探的典型需要應運而生的。HPC的部署通常包含服務器、存儲及網絡設備等。
HPC在油氣勘探行業大規模使用開始后,服務器、存儲設備、網絡設備采用國際品牌,如服務器多數是IBM、HP、DELL等,存儲設備多為EMC、IBM、DDN、HITACHI等,網絡設備主要是Cisco、Force10、Mellanox等。近年來,隨著國產品牌的崛起,國產品牌的技術能力不斷提升,同時國家對信息安全的高度重視,油氣勘探領域逐步進行了HPC部署[3]的國產化,目前處于引進設備和國產設備混裝狀態,但服務器和存儲設備已基本達到國產化,只有少量網絡設備仍采用國外設備,其中以Cisco和Mellanox居多。用于HPC的國產化服務器主要有:華為、浪潮、聯想、曙光等,存儲設備主要有華為Oceanstor系列、曙光parastor系列等,網絡設備主要有華為、新華三、TP-LINK等。本文針對新近所部署的純國產HPC集群進行全面的性能研究與分析,尤其是在Linpack性能測試中,遇到了從未遇到的問題,通過研究與分析,改變了網絡通信模式,成功進行性能測試,并與以往引進設備為主所部署的HPC集群的性能測試對比,結果出乎預料,性能優越,完全能滿足科研、生產需求,為今后再購置國產設備提供實例依據奠定基礎。
二、部署方案
(一)集群拓撲架構
整體HPC由9臺聯想高性能服務器和5臺華為Oceanstor9000v5存儲以及前后端交換機組成,組網拓撲圖如圖1所示。
(二)存儲部署
此次部署5臺華為Oceanstor 9000 v5[4]存儲節點5臺,每臺設計容量128T,1臺冗余,實際容量470T,主要通過Web方式管理。
DeviceManager是華為技術有限公司開發的集成存儲管理軟件。在任意一臺與存儲系統連接的維護終端上,通過瀏覽器訪問存儲系統控制器的管理網口IP地址,使用本地用戶名,可以登錄DeviceManager管理界面。
配置概述:完成存儲系統部署以及license激活后,開始進行目錄創建及共享配置,包括集群網絡DNS、動態地址配置、創建目錄、創建共享、創建配額策略等內容。
配置主要過程如下:
1.申請及導入許可:獲取存儲集群的ID,導入license文件并激活。
2.配置集群網絡:在管理界面選擇設置,使用InfoEqualizer選型,設置動態域名為oceanstor9000v5,保存退出。
3.創建目錄:填寫所要創建目錄的名稱,進入資源管理器中查看所創建的目錄。
4.創建共享:勾選所創建目錄的共享類型,此次選NFS,字符編碼選默認UTF-8。
5.創建配額:在資源分配中選InfoAllocator進行配額管理,創建配額,選擇配額目錄,選強制配額,填入配額數值。
6.掛載使用:在集群服務器端配置DNS,讓服務器使用域名掛載,掛載共享:
mount -t nfs -o" rw,noatime,nodirplus,vers=3,wsize=1048576,rsize=1048576,noacl,nocto oceanstor9000v5:/data0" "/data0
(三)集群服務器部署
1.服務器性能參數
此次部署集群服務器9臺,為聯想高性能服務器[5],主要參數如下:
服務器:聯想Thinksystem SR650,19\"機架式,2U(含機柜安裝套件)。
處理器:2×Intel Xeon 6248R處理器。
內存:512 GB ECC DDR4 2933MHz RDIMM,24個槽位。
硬盤:系統盤2×960G SSD硬盤,4×1.92TB SSD硬盤。
RAID陣列卡:緩存2GB,支持RAID 0、1、5、6、10、50等。
網絡:2×25GB以太網端口(含25GB 模塊),2×1GB管理網絡端口。
2.系統安裝及基本配置
(1)BIOS配置:關閉超線程和虛擬化功能。
(2)配置raid:此次兩塊960G的SSD盤做raid1,其余做raid5。
(3)配置Xcat:整理9臺服務器的Mac地址。
(4)通過遠程控制臺分發安裝操作系統,掛載光盤介質,此次安裝RHEL7.9。
(5)安裝完成后的配置:主機名,IP地址,關閉不必要的服務,禁SELinux,配置DNS,安裝網卡驅動,配置Yum源,配置SSH無密訪問。
(6)配置xCAT:安裝xCAT軟件,完成xCAT基本配置后,執行系統部署。
(四)交換機部署
此次部署前端交換機一臺,型號:華為CE6863E-48S6CQ,48口,25GB上行端口。連接集群的光纜(帶模塊),線長根據現場具體情況確定。電源冗余。
后端交換機兩臺,型號:華為CE6810-4854Q-Li數據中心交換機,48×10GE SFP+,4×40GE QSFP+ 。
管理交換機一臺,型號:S1730S-S48T4S-A1,48×1000M電口,4×1000M光口,Web管理型交換機,主要用于管理配置存儲節點。
以上均為國產華為品牌交換機。
三、測試及分析
(一)測試情況及結果
1.存儲IOZONE測試[6]情況
IOZONE是Linux文件系統對存儲讀寫性能的測試工具。
測試命令:
#./iozone -i 0 -i 1 -r 1M -s 1024G -w -b iozone-1n1p-0215.xls -t 1 -+m /data3/node9 -+n
#./iozone -i 0 -i 1 -r 1M -s 1024G -w -b iozone-9n1p-0215.xls -t 1 -+m /data3/node9 -+n
#./iozone -i 0 -i 1 -r 1M -s 1024G -w -b iozone-9n4p-0215.xls -t 1 -+m /data3/node9 -+n
測試結果見表1。
2.集群linpack測試情況
Linpack是國際上最流行的用于測試高性能計算機系統浮點性能的測試工具,是針對現代并行計算機提出的測試方式,通過對高性能計算機采用高斯消元法求解一元N次稠密線性代數方程組的測試,評價高性能計算機的浮點性能。
測試方法:節點內SMP、節點間MPI。每個節點內配置適當的MPI進程(小于CPU核數),其余的由程序自動分配線程,使CPU發揮最大性能。節點之間仍采用MPI方式。這種方式在保證CPU滿負荷運行的情況下,減少MPI個數,減緩了網絡延遲瓶頸帶來的CPU效率降低問題。測試結果見表2。
(二)所遇問題
在集群測試中,遇到以下錯誤信息,導致測試無法繼續進行。
#./runme_intel64_dynamic
This is a SAMPLE run script. Change it to reflect the correct number of CPUs/threads, number of
Nodes, MPI processes per node, etc..
Rank=0, Node=0
Rank=1,Node=1
[qelr_create_qp:683] create qp: failed on ibv_cmd_create_qp with22
[qelr_create_qp:683] create qp: failed on ibv_cmd_create_qp with22
……
(三)分析解決
通過研究分析,發現引起上述問題的原因是Linpack選擇的網路方式默認是走IB協議[7],將IB協議改為以太網協議[8],問題得到解決,完成測試,如圖2所示。
四、結語
為了滿足生產需求,響應國家信息化產業必須要逐步國產化的要求,此次全部購置純國產品牌的服務器、存儲和網絡產品,搭建HPC集群系統,用國際標準的測試工具及流程,對集群整體性能進行測試,存儲進行IZONE測試,服務器采用Linpack工具[9]測試。特別在linpack性能測試[10]中,遇到了測試無法進行的難題,通過研究分析,找到了引起問題的原因,圓滿完成性能測試,并與某進口品牌所搭建的HPC集群進行對比。結果出乎預料,國產HPC集群性能完全優于國外品牌,完全能滿足本領域的科研、生產需求,逐漸擺脫對進口產品的依賴,是HPC在油氣勘探領域發展的大趨勢。
參考文獻
[1]鄒才能.油氣勘探開發實用地震新技術[M].北京:石油工業出版社,2002.
[2]龐世明.高性能計算技術及其在油氣勘探中的應用[J].勘探地球物理進 展,2002(01):35-40.
[3]陳良華,鄭輝,陳彬.一種集群并行運算環境的部署方法[P].中國:201110065647,[2025-02-26].
[4]Fan R.Huawei OceanStor 9000 Big Data Storage System Tops SPEC Benchmark Test for the Third Consecutive Year[J].telegraphindia,2018(11):124-125.
[5]馮保民.聯想高性能集群系統管理與維護——系統篇[C]//中國計算機學會CCF外圍設備專業委員會2006年學術年會.中國計算機學會,2006.
[6]徐德發.超級計算中心網絡及數據傳輸的設計與實現[D].上海:上海交通大學,2006.
[7]鄭明玲,劉衡竹.Infiniband協議的特點[C]//中國計算機學會.中國計算機學會,2002.
[8]Rui C , Zhuo Y, Feng X. iZone: A Location-Based Mobile Social Networking System[J]. IEEE Computer Society 2011(10):1109.
[9]都志輝,吳博,劉鵬,等.LINPACK與機群系統的LINPACK測試[J].計算機科學,2002(05):8-10+59.
[10]羅水華,楊廣文,張林波,等.并行集群系統的Linpack性能測試分析[J].數值計算與計算機應用,2003(04):285-292.
作者單位:中國石油勘探開發研究院西北分院計算機技術研究所,中國石油天然氣集團有限公司物聯網重點實驗室
責任編輯:王穎振 楊惠娟