張志堅(jiān),伍光勝,孫偉忠,張 靜
(1.廣州市氣象信息網(wǎng)絡(luò)中心,廣州 511430;2.廣州市氣象臺(tái),廣州 511430)
?
IBM Flex P460高性能計(jì)算機(jī)系統(tǒng)及氣象應(yīng)用
張志堅(jiān)1,伍光勝1,孫偉忠1,張靜2
(1.廣州市氣象信息網(wǎng)絡(luò)中心,廣州511430;2.廣州市氣象臺(tái),廣州511430)
摘要:高性能計(jì)算機(jī)在氣象領(lǐng)域的數(shù)值預(yù)報(bào)、科學(xué)研究及大量數(shù)據(jù)模擬計(jì)算等方面發(fā)揮重要的作用。以廣州市氣象局IBM Flex P460高性能計(jì)算機(jī)集群系統(tǒng)為例,從集群系統(tǒng)建設(shè)、硬件系統(tǒng)架構(gòu)、軟件系統(tǒng)架構(gòu)、氣象應(yīng)用等方面對(duì)高性能計(jì)算機(jī)系統(tǒng)進(jìn)行闡述,以提高對(duì)高性能計(jì)算機(jī)系統(tǒng)的認(rèn)識(shí)和應(yīng)用。
關(guān)鍵詞:高性能計(jì)算機(jī);集群架構(gòu);GPFS;LoadLeveler;xCat
2013年,中國氣象局通過“氣候變化應(yīng)對(duì)決策支撐系統(tǒng)工程”引進(jìn)了IBM高性能計(jì)算機(jī)系統(tǒng),總體峰值計(jì)算能力達(dá)1759TFlops,大大提高了氣象數(shù)值預(yù)報(bào)、科學(xué)研究及數(shù)據(jù)模擬計(jì)算等的能力和水平,在氣象預(yù)報(bào)、氣候預(yù)測和氣象防災(zāi)減災(zāi)中發(fā)揮重要的作用。該高性能計(jì)算機(jī)系統(tǒng)分國家局(Uranus)、國家局(Neptune)、廣州(國家局:Pluto,區(qū)域:Mercury)、沈陽(Venus)、上海(Saturn)、成都(Jupiter)和武漢(Mars)七個(gè)子系統(tǒng)。廣州市氣象局的IBM Flex P460高性能計(jì)算機(jī)系統(tǒng)作為子系統(tǒng)3,于2013年下半年開始建設(shè),在2014年1月完成,主要承擔(dān)數(shù)值預(yù)報(bào)模式、華南中尺度天氣預(yù)報(bào)模式等數(shù)值模式業(yè)務(wù)運(yùn)算以及相關(guān)科研的科學(xué)計(jì)算服務(wù)[1-3]。
IBM Flex P460高性能計(jì)算機(jī)集群子系統(tǒng)3主要由P460服務(wù)器(Power7處理器,芯片:8 Cores,3.55GHz,8 Floating Point/Cycle,227.2GFlops)組成,計(jì)算節(jié)點(diǎn)數(shù)量為427個(gè),總理論峰值達(dá)到391.6TFlops,存儲(chǔ)物理容量超過400TB,全系統(tǒng)共計(jì)有CPU核數(shù)13664個(gè),內(nèi)存總量58000GB。集群配置了計(jì)算網(wǎng)絡(luò)、存儲(chǔ)網(wǎng)絡(luò)、管理網(wǎng)絡(luò)(以太網(wǎng))和集群通信網(wǎng)絡(luò)(千兆以太網(wǎng))等不同的網(wǎng)絡(luò)來滿足系統(tǒng)的數(shù)據(jù)傳輸、集群管理等需求,整個(gè)集群系統(tǒng)采用冗余方式進(jìn)行設(shè)計(jì),充分保證集群的高可用性和可靠性[4-5]。
高性能計(jì)算機(jī)系統(tǒng)及網(wǎng)絡(luò)架構(gòu)分為計(jì)算節(jié)點(diǎn)、I/O存儲(chǔ)部分、前后處理節(jié)點(diǎn)、登錄節(jié)點(diǎn)、管理節(jié)點(diǎn)、管理網(wǎng)絡(luò)、集群通信網(wǎng)絡(luò)、Infiniband計(jì)算網(wǎng)絡(luò)和存儲(chǔ)網(wǎng)絡(luò)共計(jì)九部分構(gòu)成[5-13]。高性能計(jì)算服務(wù)器集群系統(tǒng)架構(gòu)圖如圖1所示。

圖1 高性能計(jì)算服務(wù)器集群系統(tǒng)架構(gòu)圖
2.1節(jié)點(diǎn)類型
IBM Flex P460高性能計(jì)算機(jī)集群子系統(tǒng)3按節(jié)點(diǎn)功能分計(jì)算節(jié)點(diǎn)、I/O節(jié)點(diǎn)、前后處理節(jié)點(diǎn)、登錄節(jié)點(diǎn)和管理節(jié)點(diǎn)五類。節(jié)點(diǎn)按一定的規(guī)則命名,按順序放置在7953型機(jī)柜的刀箱(Chassis),每個(gè)機(jī)柜配備了4個(gè)刀箱,每個(gè)刀箱都配置了雙刀箱管理模塊CMM(Chassis Management Module)用于刀箱內(nèi)部的節(jié)點(diǎn)管理。
計(jì)算節(jié)點(diǎn):作為高性能計(jì)算機(jī)系統(tǒng)的計(jì)算核心,主要承擔(dān)業(yè)務(wù)應(yīng)用和科研的計(jì)算任務(wù)。子系統(tǒng)3的計(jì)算節(jié)點(diǎn)由404臺(tái)4GB per Core P460節(jié)點(diǎn)和23臺(tái)8GB per Core P460節(jié)點(diǎn)構(gòu)成,P460節(jié)點(diǎn)均使用4口1GB IP網(wǎng)卡1塊和2口QDR IB卡1塊來進(jìn)行通訊。
I/O存儲(chǔ)節(jié)點(diǎn):作為高性能計(jì)算機(jī)系統(tǒng)的GPFS服務(wù)器和數(shù)據(jù)服務(wù)器,為高性能計(jì)算提供快速的I/O訪問。子系統(tǒng)3共計(jì)8臺(tái)P740存儲(chǔ)節(jié)點(diǎn),均使用4口1GBIP網(wǎng)卡1塊、10GB IP網(wǎng)卡2塊和2口QDR IB卡4塊來進(jìn)行通訊。
前后處理節(jié)點(diǎn):承擔(dān)前后處理等任務(wù)。子系統(tǒng)3共計(jì)有8臺(tái)8GB per Core P460節(jié)點(diǎn)前后處理節(jié)點(diǎn),分布在2臺(tái)刀箱中,與計(jì)算節(jié)點(diǎn)共同使用相同的7953機(jī)柜,均使用4口1GB IP網(wǎng)卡1塊和2口QDR IB卡1塊來進(jìn)行通訊。
登錄節(jié)點(diǎn):作為到集群的網(wǎng)關(guān),用于用戶遠(yuǎn)程登錄集群。子系統(tǒng)3的登錄節(jié)點(diǎn)由4臺(tái)4GB per Core P460節(jié)點(diǎn)構(gòu)成,采用硬件冗余方式,分布在2臺(tái)刀箱中,均使用4口1GB IP網(wǎng)卡1塊和2口QDR IB卡2塊來進(jìn)行通訊。
管理節(jié)點(diǎn):作為管理軟件xCat服務(wù)器,用于管理和監(jiān)控節(jié)點(diǎn),子系統(tǒng)3共計(jì)2臺(tái)P750管理節(jié)點(diǎn)做為主備模式,均使用4口1GB IP網(wǎng)卡1塊, 10GB IP網(wǎng)卡2塊,來進(jìn)行通訊。
2.2管理網(wǎng)絡(luò)和集群通信網(wǎng)絡(luò)
IBM Flex P460高性能計(jì)算機(jī)集群子系統(tǒng)3的內(nèi)部IP網(wǎng)絡(luò)配置了管理網(wǎng)絡(luò)(以太網(wǎng))和集群通信網(wǎng)絡(luò)(千兆以太網(wǎng))。管理網(wǎng)絡(luò)是由雙機(jī)熱備份EMS管理節(jié)點(diǎn)、雙機(jī)熱備份硬件管理控制臺(tái)HMC(Hardware Management Console)、其他節(jié)點(diǎn)以及存儲(chǔ)設(shè)備構(gòu)成,主要用于管理節(jié)點(diǎn)通過HMC對(duì)節(jié)點(diǎn)硬件方面的控制,包括創(chuàng)建和維護(hù)多分區(qū)環(huán)境,診斷、報(bào)告和保存硬件環(huán)境的改動(dòng),控制被管理的系統(tǒng)加電和關(guān)機(jī)以及其他管理功能。集群通信網(wǎng)絡(luò)是由管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、I/O存儲(chǔ)節(jié)點(diǎn)、前后處理節(jié)點(diǎn)、登錄節(jié)點(diǎn)以及存儲(chǔ)設(shè)備之間的互聯(lián)構(gòu)成,主要用于節(jié)點(diǎn)之間的通信和集群管理。
2.3 Infiniband計(jì)算網(wǎng)絡(luò)
Infiniband以提供易于使用的消息服務(wù)作為原則。消息服務(wù)可以用來與其他應(yīng)用程序、進(jìn)程或者存儲(chǔ)進(jìn)行通信。Infiniband消息服務(wù)是一個(gè)非常高效、直接的消息服務(wù),它摒棄了傳統(tǒng)網(wǎng)絡(luò)和應(yīng)用程序之間消息傳遞的復(fù)雜結(jié)構(gòu),應(yīng)用程序不再向操作系統(tǒng)提交訪問其他資源的申請(qǐng),直接使用Infiniband消息服務(wù),其低延遲、高帶寬和原生的通道架構(gòu)更加適合高性能計(jì)算系統(tǒng)進(jìn)程通信的科學(xué)運(yùn)算需求。
計(jì)算網(wǎng)絡(luò)使用的是InfiniBand網(wǎng)絡(luò),計(jì)算網(wǎng)絡(luò)用于計(jì)算節(jié)點(diǎn)在計(jì)算時(shí)進(jìn)程的數(shù)據(jù)交換,主要是在計(jì)算節(jié)點(diǎn)與IO存儲(chǔ)節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)與計(jì)算機(jī)之間進(jìn)行數(shù)據(jù)交換。IBM Flex P460高性能計(jì)算機(jī)集群子系統(tǒng)3內(nèi)部采用無阻塞胖樹架構(gòu)(Fat-Tree)Infiniband網(wǎng)絡(luò)進(jìn)行互連,構(gòu)成系統(tǒng)內(nèi)部高速數(shù)據(jù)交換網(wǎng)絡(luò)。每個(gè)計(jì)算節(jié)點(diǎn)和IO存儲(chǔ)節(jié)點(diǎn)配置2個(gè)InfiniBand端口,分別連接到所在刀箱內(nèi)置的兩個(gè)相互獨(dú)立邊緣交換機(jī)(Edge IB Switch),再通過2個(gè)邊緣交換機(jī)分別連接到2個(gè)核心交換機(jī)(Core IB Switch)。單個(gè)節(jié)點(diǎn)對(duì)外通訊的聚合帶寬最大可達(dá)雙向160Gb/s+160Gb/s,計(jì)算節(jié)點(diǎn)的Infini-Band端口、IB邊緣交換機(jī)和IB核心交換機(jī)均采用基于硬件冗余的方式進(jìn)行設(shè)計(jì),消除單點(diǎn)故障的可能性,充分保證系統(tǒng)數(shù)據(jù)交換網(wǎng)絡(luò)的可靠性、高可用性以及足夠的節(jié)點(diǎn)通信帶寬。
2.4存儲(chǔ)網(wǎng)絡(luò)
存儲(chǔ)網(wǎng)絡(luò)由P740IO存儲(chǔ)節(jié)點(diǎn)、DCS3700存儲(chǔ)以及Exp擴(kuò)展柜構(gòu)成,用于集群GPFS并行文件系統(tǒng)的通信和數(shù)據(jù)訪問。8個(gè)I/O節(jié)點(diǎn)通過光纖通道擁有對(duì)集群存儲(chǔ)的可見性。每四個(gè)I/O節(jié)點(diǎn)通過光纖通道SAN連接四個(gè)DCS3700存儲(chǔ),DCS3700存儲(chǔ)通過光纖通道跟Exp擴(kuò)展柜連接,為集群的提供共享的存儲(chǔ)訪問,提高系統(tǒng)數(shù)據(jù)訪問效率和高可用性。
集群主要的組成軟件有操作系統(tǒng)AIX(Advanced Interactive eXecutive)、集群管理軟件xCAT (Extreme Cloud Administration Toolkit)、文件系統(tǒng)GPFS(General Parallel File System)和作業(yè)調(diào)度器LoadLeveler等[14-19]。高性能計(jì)算機(jī)系統(tǒng)軟件架構(gòu)如圖2所示。

圖2 高性能計(jì)算機(jī)集群系統(tǒng)軟件架構(gòu)圖
3.1操作系統(tǒng)AIX和作業(yè)調(diào)度器LoadLeveler
AIX操作系統(tǒng)是高性能計(jì)算機(jī)系統(tǒng)完成所有功能的基礎(chǔ)。AIX7是目前功能最完善,穩(wěn)定性和擴(kuò)展性最好的企業(yè)級(jí)UNIX操作系統(tǒng)。
作業(yè)調(diào)度器LoadLeveler具有多個(gè)隊(duì)列和靈活的調(diào)度策略,可以根據(jù)作業(yè)的優(yōu)先級(jí)和資源需求對(duì)作業(yè)進(jìn)行調(diào)度,管理集群中的資源包括節(jié)點(diǎn)、網(wǎng)絡(luò)、CPU、內(nèi)存等,具有負(fù)載均衡作用,保證高性能計(jì)算機(jī)系統(tǒng)資源的充分利用,是氣象行業(yè)最常用的作業(yè)調(diào)度軟件。
3.2管理軟件xCat
xCAT作為集群管理和配置工具,允許用戶通過一個(gè)單點(diǎn)控制和管理一個(gè)集群系統(tǒng),主要功能是硬件管理(電源控制、硬件識(shí)別和配置、固件和ASU配置更新等)、軟件管理和集群性能和狀態(tài)監(jiān)控這三個(gè)方面。xCAT是基于C/S架構(gòu)的應(yīng)用程序,由管理節(jié)點(diǎn)上運(yùn)行的xCAT Daemon(xcatd)來控制客戶端和服務(wù)器端之間的通信。當(dāng)客戶端需要管理節(jié)點(diǎn)完成某項(xiàng)任務(wù)時(shí),輸入的任務(wù)指令就會(huì)被封裝成XML格式發(fā)送給管理節(jié)點(diǎn),管理節(jié)點(diǎn)上的xCat Daemon(xcatd)接收到指令后對(duì)指令進(jìn)行解析,并通過ACL(Access Control Lists)來判定該用戶是否有權(quán)限執(zhí)行這些命令,如果ACL判決出該用戶有權(quán)限發(fā)起該任務(wù)指令,則該任務(wù)就將被放進(jìn)運(yùn)行隊(duì)列中等待執(zhí)行;xCat執(zhí)行完該任務(wù)指令后會(huì)把指令的執(zhí)行結(jié)果返回給客戶端。此外,xCAT daemon (xcatd)在安裝配置計(jì)算節(jié)點(diǎn)和各個(gè)節(jié)點(diǎn)重新啟動(dòng)的時(shí)候還會(huì)收集各個(gè)節(jié)點(diǎn)發(fā)來的狀態(tài)和資源信息。子系統(tǒng)3配置了2臺(tái)EMS管理節(jié)點(diǎn),通過xCAT集群管理軟件實(shí)現(xiàn)子系統(tǒng)級(jí)別的軟硬件管理以及系統(tǒng)監(jiān)控。
3.3通用并行文件系統(tǒng)
GPFS通用并行文件系統(tǒng)是IBM為AIX操作系統(tǒng)開發(fā)的,可以使HPCS直接接入全局文件系統(tǒng)。GPFS是一種專門為集群環(huán)境系統(tǒng)提供高性能、共享磁盤、分布式文件系統(tǒng)服務(wù)的并行文件系統(tǒng)。GPFS可以在集群中的多個(gè)節(jié)點(diǎn)間實(shí)現(xiàn)快速存儲(chǔ),提供統(tǒng)一的文件系統(tǒng)視圖。GPFS沒有單一故障點(diǎn),通過配置它可以為所有的磁盤和服務(wù)器的故障提供容錯(cuò)機(jī)制。這種類型的文件系統(tǒng)可以為用戶存儲(chǔ)超過249PBytes的數(shù)據(jù)。每個(gè)文件系統(tǒng)所支持的最大文件為2.56億。GPFS允許通過任意的GPFS客戶端節(jié)點(diǎn)訪問系統(tǒng)內(nèi)的文件,可以被各種串行和并行作業(yè)使用,并且在多個(gè)集群的多個(gè)存儲(chǔ)設(shè)備的范圍內(nèi)共享數(shù)據(jù)。
lsdef+節(jié)點(diǎn)名,可以查看特定節(jié)點(diǎn)的定義。例如:lsdef gza01n01,可以查看gza01n01這個(gè)計(jì)算節(jié)點(diǎn)的定義信息,如下所示:
Object name: gza01n01
cons=fsp
getmac=blade
groups=all,compute,blade,aixnodes,gza01n,gza01b1n,128G
hcp=192.168.38.1
hwtype=blade
id=1
mac=00:0a:f7:1b:a1:6c
os=AIX
parent=gza01b1cmm
nodels+節(jié)點(diǎn)組名,可以查看Xcat中定義群組的所有節(jié)點(diǎn)。例如,需要查看第一個(gè)機(jī)柜的第一個(gè)刀箱有定義的節(jié)點(diǎn),可以用:nodels gza01b1n,結(jié)果如下所示:
gza01n01gza01n02gza01n03gza01n04gza01n05gza01n06gza 01n07
xdsh+節(jié)點(diǎn)組名+uname+-uM,可以查看指定節(jié)點(diǎn)組名每個(gè)節(jié)點(diǎn)的可訪問性,如果節(jié)點(diǎn)可以訪問,則會(huì)列出該節(jié)點(diǎn)的umane;如果節(jié)點(diǎn)應(yīng)故障不可訪問,則會(huì)列出該節(jié)點(diǎn)的不可訪問。例如,查看所有存儲(chǔ)節(jié)點(diǎn)是否可以訪問:xdsh nsd uname–uM,結(jié)果如下所示:
gzai06: IBM,8205-E6C IBM,0206B859T
gzai03: IBM,8205-E6C IBM,0206B853T
gzai07: IBM,8205-E6C IBM,0206B856T
gzai01: IBM,8205-E6C IBM,0206B858T
gzai04: IBM,8205-E6C IBM,0206B855T
gzai02: IBM,8205-E6C IBM,0206B857T
gzai05: IBM,8205-E6C IBM,0206B854T
gzai08: IBM,8205-E6C IBM,0206B85AT
mmgetstate-aL-s,可以查看GPFS的狀態(tài)信息,-a表示查看所有節(jié)點(diǎn),-L表示勒出仲裁數(shù),-s表示添加匯總信息。例如,xdsh gza01n01 mmgetstate–s,返回結(jié)果如下所示:
gza01n01: Node number Node name GPFS state
gza01n01: ---------------------
gza01n01: 2 gza01n01 active
gza01n01: Summary information
gza01n01: ---------------------
gza01n01: Number of nodes defined in the cluster: 437
gza01n01: Number of local nodes active in the cluster: 436
gza01n01: Number of remote nodes joined in this cluster: 0
gza01n01: Number of quorum nodes defined in the cluster: 7
gza01n01: Number of quorum nodes active in the cluster: 7
gza01n01: Quorum = 4, Quorum achieved
xdsh+節(jié)點(diǎn)名+mmstartup(mmshutdown),xdsh +節(jié)點(diǎn)名1,節(jié)點(diǎn)名2+mmstartup(mmshutdown),xdsh+節(jié)點(diǎn)名+ mmgetstartup(mmshutdown)–a分別可以啟動(dòng)(關(guān)閉)單個(gè)節(jié)點(diǎn)、啟動(dòng)多節(jié)點(diǎn)、啟動(dòng)所有節(jié)點(diǎn)的GPFS。
llstatus可以查看檢查loadleveler狀態(tài)信息,例如,執(zhí)行xdsh gza01n01 llstatus,返回的結(jié)果如下所示:
gza01n01: Active 423/423
gza01n01: Schedd 2/2 33 job steps
gza01n01: Startd 420/421 2755 running tasks
xdsh+節(jié)點(diǎn)名+llctl start,xdsh +節(jié)點(diǎn)名1,節(jié)點(diǎn)名2+ llctl start,xdsh+節(jié)點(diǎn)組名+llctl start分別可以啟動(dòng)單個(gè)節(jié)點(diǎn)、多節(jié)點(diǎn)、所有節(jié)點(diǎn)的loadleveler。
rpower+單個(gè)節(jié)點(diǎn)名或者多個(gè)節(jié)點(diǎn)名(中間用逗號(hào)隔開)或者節(jié)點(diǎn)群組名+on(off),可以開啟(關(guān)閉)節(jié)點(diǎn)的電源;rpower+單個(gè)節(jié)點(diǎn)名或者多個(gè)節(jié)點(diǎn)名(中間用逗號(hào)隔開)或者節(jié)點(diǎn)群組名+state可以查看節(jié)點(diǎn)的電源狀態(tài)信息。例如,需要查看存儲(chǔ)節(jié)點(diǎn)的電源狀態(tài)信息,執(zhí)行rpower nsd state,返回的結(jié)果如下:
gzai01: Runninggzai02: Runninggzai03: Runninggzai04: Running
gzai05: Runninggzai06: Runninggzai07: Runninggzai08: Running
高性能計(jì)算機(jī)在氣象領(lǐng)域的數(shù)值預(yù)報(bào)、科學(xué)研究及大量數(shù)據(jù)模擬計(jì)算等方面所起的作用越來越重要。中國氣象局“氣候變化應(yīng)對(duì)決策支撐系統(tǒng)工程”高性能計(jì)算機(jī)系統(tǒng)子系統(tǒng)3計(jì)算資源主要用于運(yùn)行業(yè)務(wù)模式,以GRAPES_MESO為核心模塊,其中包括中國南海臺(tái)風(fēng)模式(TRAMS,0.36)、華南中尺度模式(MARS,0.12)、華南精細(xì)數(shù)值預(yù)報(bào)模式(MARS,0.03)、專業(yè)模式海洋氣象數(shù)值預(yù)報(bào)模式和環(huán)境氣象數(shù)值預(yù)報(bào)模式。如表1所示,74%的系統(tǒng)計(jì)算資源主要用于數(shù)值模式業(yè)務(wù)運(yùn)算,約26%的系統(tǒng)計(jì)算資源用于氣象科學(xué)研究、科學(xué)實(shí)驗(yàn)、數(shù)據(jù)模擬運(yùn)算以及其他的計(jì)算任務(wù)。

表1 HPC計(jì)算資源使用分布表
高性能計(jì)算機(jī)的引進(jìn),對(duì)改進(jìn)和提高天氣預(yù)報(bào)應(yīng)用模式的分辨率以及時(shí)效起到關(guān)鍵性的作用。高性能計(jì)算機(jī)的高運(yùn)算能力不僅使得天氣預(yù)報(bào)模式的預(yù)報(bào)準(zhǔn)確性得到提升,還使數(shù)值模式計(jì)算的時(shí)間減短,提供了預(yù)報(bào)模式的效率;另外,還為氣象科研工作提供了強(qiáng)有力的支撐,解決了科研中復(fù)雜的科學(xué)運(yùn)算問題。引進(jìn)高性能計(jì)算機(jī)將滿足氣象業(yè)務(wù)發(fā)展和科研工作對(duì)高性能計(jì)算的需求,這也是提升數(shù)值預(yù)報(bào)能力必不可少的一項(xiàng)任務(wù),也是實(shí)現(xiàn)氣象現(xiàn)代化的重要舉措之一。
參考文獻(xiàn):
[1]中國氣象局高性能計(jì)算機(jī)系統(tǒng)使用簡介_v1.pdf.北京:國家氣象信息中心,2014.
[2]廣州氣象局子系統(tǒng)3實(shí)施手冊2.0.doc.北京:國家氣象信息中心,2014.
[3]王彬.高性能計(jì)算技術(shù)在氣象部門的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(4):1476-1479.
[4]廣州市氣象局高性能計(jì)算機(jī)簡介.ppt.廣州:廣州市氣象局,2014.
[5]廣州市氣象局HPC培訓(xùn).ppt.北京:國家氣象信息中心,2015.
[6]陳曉霞,孫婧.中國氣象局的高性能計(jì)算機(jī)系統(tǒng)[J].科技信息化與應(yīng)用,2012,3(5):83-90.
[7]沈瑜,孫婧,李娟.中國氣象局高性能計(jì)算機(jī)系統(tǒng)高可靠性設(shè)計(jì)[J].信息安全與技術(shù),2013,(6)::42-45.
[8]宗翔,王彬.國家級(jí)氣象高性能計(jì)算機(jī)管理與應(yīng)用網(wǎng)絡(luò)平臺(tái)設(shè)計(jì)[J].應(yīng)用氣象學(xué)報(bào),2006,17(5):629-634.
[9]謝向輝,彭龍根,吳志兵等.基于InfiniBand的高性能計(jì)算機(jī)技術(shù)研究[J].計(jì)算機(jī)研究與發(fā)展,2005,42(6):905-912.
[10]羅明,卜俊輝.基于InfiniBand的高性能計(jì)算機(jī)技術(shù)研究[EB/OL]. http://www.ibm.com/developerworks/cn/aix/library/1105_luoming_infiniband/,2011-05-10/2015-07-18.
[11]金戈. Linux高性能集群-硬件和網(wǎng)絡(luò)體系結(jié)構(gòu)[EB/OL]. http://www.ibm.com/developerworks/cn/linux/cluster/hpc/part3/,2002-11-20/2015-07-18.
[12]Graham White,Mandie Quartly.安裝大型Linux集群,第1部分簡介和硬件配置[EB/OL]. http://www.ibm.com/developerworks/cn/ linux/es-linuxclusterintro/,2007-03-13/2015-07-18.
[13]程燕,王磊,孫婧. IBM System p集群節(jié)點(diǎn)的快速發(fā)現(xiàn)與管理[EB/OL]. http://www.ibm.com/developerworks/cn/aix/library/1003_ chengyan_openslp/#authorN1003B,2010-03-29/2015-07-18.
[14]楊析. GPFS文件系統(tǒng)的原理和模式I/O優(yōu)化方法[J].氣象科技,2006,34(增刊):27-30.
[15]張雨馨. xCAT在IBM高性能計(jì)算機(jī)集群系統(tǒng)中的應(yīng)用[J].中國管理信息化,2014,17(21):34-35.
[16]祁曉璐.使用xCAT簡化AIX集群的部署和管理[EB/OL].http://www.ibm.com/developerworks/cn/aix/library/1009_qixl_xcataix/,2010-09-01/2015-07-18.
[17]Chris Gibson.在IBM AIX上構(gòu)建一個(gè)雙節(jié)點(diǎn)的IBM GPFS集群[EB/OL].http://www.ibm.com/developerworks/cn/aix/library/au-aixbuilding-two-node-gpfs-cluster/.2013-10-31/2015-07-18.
[18]李威.使用LoadLeveler實(shí)現(xiàn)AIX無盤工作站集群上的作業(yè)調(diào)度管理[EB/OL].http://www.ibm.com/developerworks/cn/aix/library/ 1103_liwei_loadlevelerforaix/,2011-03-17/2015-07-18.
[19]王榮.構(gòu)建高可用、高性能的GPFS集群[EB/OL].http://www.ibm.com/developerworks/cn/aix/library/au-gpfsplan/,2007-12-17/ 2015-07-18.
張志堅(jiān)(1989-),男,廣東茂名人,本科,助理工程師,研究方向?yàn)楦咝阅苡?jì)算機(jī)應(yīng)用、氣象大數(shù)據(jù)挖掘
伍光勝(1966-),男,高級(jí)工程師,研究方向?yàn)樘綔y技術(shù)與信息處理
孫偉忠(1986-),男,工程師,研究方向?yàn)榫W(wǎng)絡(luò)管理和數(shù)據(jù)庫管理
張靜(1987-),女,工程師,研究方向?yàn)闅庀箢A(yù)報(bào)和氣象服務(wù)。
IBM Flex P460 High Performance Computer System and Its Meteorological Application
ZHANG Zhi-jian1,WU Guang-sheng1, SUN Wei-zhong1,ZHANG Jing2
(1. Guangzhou Meteorological Information &Network Center, Guangzhou Guangdong 511430;2. Guangzhou Meteorological Observatory, Guangzhou 511430)
Abstract:High performance computer play an important role in the field of meteorological numerical prediction, scientific research, a large number of data simulation calculation and other aspects. introduces the IBM Flex P460 high performance computer of Guangzhou Meteorological Bureau from the construction of cluster, hardware architecture, software architecture and meteorological application, in order to improve the understanding of high performance computer system and its application.
Keywords:High Performance Computer; Cluster Architecture; GPFS; LoadLeveler; xCat
收稿日期:2015-12-31修稿日期:2016-03-03
作者簡介:
文章編號(hào):1007-1423(2016)09-0051-05
DOI:10.3969/j.issn.1007-1423.2016.09.013