陳卓航,陳雅琴,郭志勇
(西南民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,成都 610225)
隨著計(jì)算機(jī)信息技術(shù)的發(fā)展,對(duì)數(shù)據(jù)處理的需求不斷增大,使得高性能計(jì)算類型不再是單一的計(jì)算密集型計(jì)算, 數(shù)據(jù)密集型計(jì)算已成為高性能計(jì)算中不可或缺的一部分。MPI[1-2]適用于計(jì)算密集型計(jì)算,在如今的高性能計(jì)算中仍占主導(dǎo)地位,但是不太適合現(xiàn)在具有數(shù)據(jù)密集型特征的計(jì)算。
印度國(guó)立大學(xué)提出的將HDFS和Matlab分布式計(jì)算節(jié)點(diǎn)進(jìn)行整合[3],集群中的每一個(gè)節(jié)點(diǎn)既作為HDFS的存儲(chǔ)節(jié)點(diǎn)也作為Matlab分布式計(jì)算的計(jì)算結(jié)點(diǎn)。這種架構(gòu)資源利用率更高,測(cè)試結(jié)果表明存儲(chǔ)效率比普通文件系統(tǒng)高。
文中詳細(xì)闡述基于HDFS的MPIFS分布式文件系統(tǒng)的設(shè)計(jì)思路以及實(shí)現(xiàn),將MPI和HDFS結(jié)合提出一種分布式文件系統(tǒng)架構(gòu)。該文件系統(tǒng)整合Hadoop和MPI各自的優(yōu)點(diǎn),同時(shí)支持?jǐn)?shù)據(jù)密集型與計(jì)算密集型計(jì)算。
MPI是1994年發(fā)布的一個(gè)基于Pipe管道通訊的通訊協(xié)議,適用于計(jì)算密集型并行計(jì)算,成為并行計(jì)算的主要實(shí)現(xiàn)方法。它是一個(gè)跨語(yǔ)言的通訊協(xié)議,用于編寫并行計(jì)算程序,常用于編寫并行代碼指令,同時(shí)支持點(diǎn)對(duì)點(diǎn)、面對(duì)面、廣播等多種協(xié)議連接形式[4]。
MPI計(jì)算特點(diǎn)是數(shù)據(jù)向計(jì)算遷移[5],需要計(jì)算的數(shù)據(jù)通過(guò)網(wǎng)絡(luò)傳輸?shù)接?jì)算節(jié)點(diǎn),當(dāng)MPI遇到數(shù)據(jù)密集型計(jì)算就會(huì)出現(xiàn)大文件傳輸,給MPI集群網(wǎng)絡(luò)造成較大壓力。這樣會(huì)導(dǎo)致整個(gè)MPI工作時(shí)長(zhǎng)增加,有效工作(計(jì)算)時(shí)間占比下降。MPI大多用于計(jì)算密集型科學(xué)計(jì)算,涉及較多的是計(jì)算和消息傳遞,幾乎不涉及本地文件的訪問(wèn)和處理。……
黑龍江工程學(xué)院學(xué)報(bào)
2024年1期