999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多核的進程拓撲感知映射研究

2021-04-23 05:51:08
軟件導(dǎo)刊 2021年4期
關(guān)鍵詞:進程信息

馮 慧

(山東科技大學(xué)計算機科學(xué)與工程學(xué)院,山東青島 266000)

0 引言

多核架構(gòu)目前為并行計算中較常見的計算架構(gòu),未來幾年芯片上的核心數(shù)量仍會急劇增長,在高性能計算中,集群已從單個網(wǎng)絡(luò)互連的單處理器轉(zhuǎn)變?yōu)閺?fù)雜且高度分層的結(jié)構(gòu),如中國超級計算機中心的超級計算機系統(tǒng)神威·太湖之光[1]由40 960 個節(jié)點組成。通常每個計算節(jié)點包含多個共享內(nèi)存的多核處理器,節(jié)點內(nèi)的內(nèi)存訪問時間取決于計算核心與內(nèi)存之間的距離。與不同芯片上的計算核相比,同一芯片上的計算核之間通信延遲要低得多,通信帶寬要高得多。因此,編程標(biāo)準(zhǔn)及其實現(xiàn)在充分發(fā)揮硬件系統(tǒng)計算潛力方面起著關(guān)鍵作用。在并行編程標(biāo)準(zhǔn)中,消息傳遞接口(Message Passing Interface,MPI)因其豐富的接口而廣受歡迎,但是MPI 是一種跨平臺的編程標(biāo)準(zhǔn),設(shè)計成獨立于硬件、不提供拓撲感知的進程映射功能。一般的MPI 提供諸如MPI_DIST_GRAPH_CREATE[2]功能創(chuàng)建拓撲,但由于未考慮底層架構(gòu),所以并不能提供有效的映射方法。

如何更好地利用多核體系架構(gòu)是真正的挑戰(zhàn)。為在多核環(huán)境下獲得最佳性能,必須考慮到硬件底層架構(gòu)和應(yīng)用特點。關(guān)于拓撲感知映射研究有:Hoffler[3]提出結(jié)合幾種啟發(fā)式算法的網(wǎng)格互連體系結(jié)構(gòu)的通用拓撲映射策略;Bhatele[4]針對網(wǎng)格互聯(lián)提出規(guī)則通信圖的自動映射方法;Hatazaki[5]為特殊的HP 集群實現(xiàn)MPI 拓撲映射功能;Mercier 等[6]使用圖分區(qū)工具SCOTCH[7]實現(xiàn)加權(quán)通信圖到加權(quán)節(jié)點架構(gòu)圖映射,但其沒有考慮網(wǎng)絡(luò)拓撲;Jeannot 等[8]提出TreeMatch 算法計算NUMA 集群中進程到資源的近似最優(yōu)映射;Wu 等[9]提出遞歸樹映射算法和遞歸二分映射算法,解決并行應(yīng)用程序的層次任務(wù)映射;Li 等[10]提出一種基于拓撲感知進程映射的同構(gòu)樹映射算法,該算法根據(jù)進程間的親和性將進程分區(qū)映射;Brandfass 等[11]通過重新排序MPI 的進程號建立MPI 進程到CPU 內(nèi)核的映射;Pellegrini[12]提出一種基于應(yīng)用程序進程圖和目標(biāo)體系結(jié)構(gòu)圖的遞歸雙分割映射算法進行映射。

本文針對當(dāng)前進程拓撲感知映射方法進行測試分析,重點討論硬件架構(gòu)和應(yīng)用通信特點二者在多核環(huán)境下進程拓撲感知映射中的影響,總結(jié)解決此類問題的研究思路:利用不同類型的應(yīng)用(CGKernal 和分子動力學(xué))在兩種系統(tǒng)(天河1A 和曙光)上進行測試,依據(jù)測試結(jié)果分析不同架構(gòu)處理應(yīng)用時的不同特點,總結(jié)進程拓撲感知映射的適用范圍,以更好地發(fā)揮拓撲感知映射優(yōu)勢處理更復(fù)雜的大規(guī)模計算問題,硬件的架構(gòu)選擇和不同類型應(yīng)用的選擇在進程拓撲感知映射中同等重要。

1 拓撲感知信息獲取及分析

檢索有關(guān)底層硬件的內(nèi)存層次結(jié)構(gòu)、內(nèi)核編號等信息并非易事,目前一些感知工具可獲得硬件的底層結(jié)構(gòu),最常見的工具是HardwareLocality(HWLOC)[13]。這種工具能輕松地提供有關(guān)廣泛系統(tǒng)上各種高速緩存級別信息,通過HWLOC 收集硬件的詳細內(nèi)部信息,如插槽的數(shù)量、計算核心數(shù)量以及內(nèi)存層次信息(包括NUMA 節(jié)點中的多級緩存)。使用HWLOC 將硬件結(jié)構(gòu)抽象成樹進行建模,其深度與層次結(jié)構(gòu)中硬件組件的深度(如網(wǎng)絡(luò)交換機、機柜、節(jié)點、處理器、緩存、核心)相對應(yīng),其葉子節(jié)點是架構(gòu)的計算單元。

HWLOC 的靈活性使其允許跨操作系統(tǒng)對硬件架構(gòu)進行建模。HWLOC 實現(xiàn)了眾多功能的庫函數(shù),可被其它軟件調(diào)用,因此可用來動態(tài)建立模型。另一種分析硬件方法是使用LINUX[14]查看CPU 信息指令,雖然可以通過進一步分析得出硬件的架構(gòu)信息,但前提是必須對硬件信息比較了解,才能準(zhǔn)確無誤地分析出硬件信息。另外,通過LINUX 自帶的命令分析出來的硬件信息并不完整,cache的層次不能得到完整構(gòu)建。相反,通過HWLOC 可以檢測到任意節(jié)點的硬件信息,通過命令行方式以PDF 或XML格式對硬件信息進行輸出,使硬件信息更加直觀,這也是使用HWLOC 的一大便利。

2 應(yīng)用通信獲取及分析

為獲得應(yīng)用的通信信息,Zhang 等[15]提出OPP 方法,根據(jù)通信庫中集合通信的實現(xiàn),將集合通信轉(zhuǎn)換為一系列點對點通信操作;Buntinas[16]通過修改MPICH2[17]和Open MPI 堆棧中的低級通信層,在點對點和集合通信情況下詳盡跟蹤數(shù)據(jù)交換信息。由于該收集應(yīng)用通信信息的方法比較簡單,因此不會影響應(yīng)用程序的執(zhí)行。還有其他的MPI 實現(xiàn)者也采用這種方法,Chen 等[18]結(jié)合應(yīng)用程序代碼的靜態(tài)分析和對修改后的應(yīng)用程序動態(tài)執(zhí)行,使該應(yīng)用程序執(zhí)行速度更快,同時保留了與原始應(yīng)用程序相同的通信模式,目的是將確定通信模式所需的時間減少幾個數(shù)量級;Bosilca 等[19]提供了基于MPI 工具信息接口標(biāo)準(zhǔn)的MPI,在不修改應(yīng)用程序情況下進行通信信息追蹤。要注意的是,在所有方法中都必須執(zhí)行原始版本或更簡單版本的應(yīng)用程序。

應(yīng)用通信特點在拓撲感知映射過程中的作用至關(guān)重要,可從兩個方面去考慮應(yīng)用通信類型:①應(yīng)用通信是否規(guī)則;②應(yīng)用通信占比大小。較規(guī)則的通信應(yīng)用特點是每個進程和其它所有進程進行通信傳送的信息量幾乎一樣。另外不能忽略應(yīng)用通信占比,一般來講,應(yīng)用通信時間占總體運行時間較小的應(yīng)用對拓撲感知映射效果不會很好。

3 測試

3.1 測試環(huán)境及測試程序

在兩類架構(gòu)上對兩種類型應(yīng)用進行測試。

3.1.1 兩種架構(gòu)

(1)TH-1A。登陸節(jié)點由8 個CPU 插槽組成,每個CPU 由8 個計算核心組成(不考慮開啟超線程情況),登陸節(jié)點一共有64 個計算核心。每個CPU 上的8 個核心分別擁有32KB 的一級指令cache、32KB 的一級數(shù)據(jù)cache 和256KB 的二級cache,同時每個CPU 上的8 個計算核心通過片上互聯(lián)共享18MB 的三級cache;TH-1A 登陸節(jié)點的8個CPU 通過PCI 總線技術(shù)共享256GB 內(nèi)存。

(2)曙光集群單節(jié)點架構(gòu)。曙光登陸節(jié)點由2 個CPU插槽組成,每個CPU 由8 個計算核心組成(不考慮開啟超線程情況),登陸節(jié)點一共有16 個計算核心,每個CPU 上的8 個核心分別擁有32KB 的一級指令cache、32KB 的一級數(shù)據(jù)cache 和256KB 的二級cache,同時每個CPU 上的8 個計算核心通過片上互聯(lián)共享20MB 的三級cache;曙光登陸節(jié)點的2 個CPU 通過PCI 總線技術(shù)共享64GB 內(nèi)存。

3.1.2 兩類應(yīng)用

(1)分子動力學(xué)。分子動力學(xué)(Molecular Dynamics,MD)模擬指使用數(shù)值方法,利用計算機模擬原子核和電子所構(gòu)成的多體系統(tǒng)運動過程,廣泛應(yīng)用于物理、化學(xué)、生物、材料、醫(yī)學(xué)等多個領(lǐng)域,用來研究系統(tǒng)的結(jié)構(gòu)和性質(zhì)。通過對MD 應(yīng)用各部分運行時間進行分析,得知該應(yīng)用的大部分運行時間在進行計算,進程和進程間的通信時間占整個應(yīng)用運行時間極小部分,幾乎可以忽略不計。通過跟蹤MD 應(yīng)用的進程間通信信息,對應(yīng)用進程間通信的信息量進行分析,發(fā)現(xiàn)進程間的通信不規(guī)則以及進程之間信息交換總量小,所以MD 屬于通信不規(guī)則且通信量占比很小的應(yīng)用。

(2)CG Kernal。CG(Conjugate Gradient)是NAS Parallel Benchmarks(NPB)[20]中的一個核心程序,用于求解大型稀疏對稱正定矩陣最小特征值的近似值,它表征了非結(jié)構(gòu)風(fēng)格計算和非規(guī)整遠程通信計算類問題。通過跟蹤MD 應(yīng)用的進程間通信信息,對應(yīng)用進程間通信的信息量大小進行分析,發(fā)現(xiàn)進程間通信是不規(guī)則的,同時該應(yīng)用進程間通信的信息總量較大,所以CG 應(yīng)用屬于通信不規(guī)則且通信量較大的應(yīng)用。

3.2 測試結(jié)果及分析

分別對MD 和CG 兩類應(yīng)用在TH-1A 和曙光集群上進行3 種映射算法(自動調(diào)度、RR 算法、TreeMatch 算法)測試,測試結(jié)果見圖1—圖4。

Fig.1 Molecular dynamics(TH-1A)圖1 分子動力學(xué)(TH-1A)

Fig.2 Molecular dynamics(Dawn)圖2 分子動力學(xué)(曙光)

Fig.3 CG Kernal(TH-1A)圖3 CG Kernal(TH-1A)

Fig.4 CG Kernal(Dawn)圖4 CG Kernal(曙光)

在TH-1A 和曙光架構(gòu)上分別對3 種調(diào)度算法進行分子動力學(xué)映射綁定測試。3 種調(diào)度映射算法都沒有表現(xiàn)出較好的計算結(jié)果,這是因為分子動力學(xué)中進程間通信的時間占總體執(zhí)行時間比較小,所以進行拓撲感知映射不能得到好的效果,見圖1 和圖2。分別對CG Kernal 進行3 種調(diào)度測試,CG Kernal 在TH-1A 上使用匹配樹算法,和另外兩種算法相比表現(xiàn)出較好性能,相反CG Kernal 在曙光上3種調(diào)度方式結(jié)果差異性不明顯,如圖3 和圖4 的測試結(jié)果所示。使用相同應(yīng)用在不同架構(gòu)上進行的測試結(jié)果相差較大,分析原因是硬件架構(gòu)不同。在TH-1A 上使用64 個計算核心進行測試,由8 個CPU 插槽組成。由于計算核心數(shù)量較多,所以計算核心之間存在的層次關(guān)系也較多,需要描述的親和性信息也更加復(fù)雜。而在曙光上使用16 個計算核心,由兩個CPU 插槽組成,相較于TH-1A 計算核心數(shù)量較少,計算核心之間層次較單一,親和關(guān)系較簡單,由此可見硬件架構(gòu)特點在拓撲感知映射中至關(guān)重要。

4 結(jié)語

本文針對當(dāng)前的拓撲感知映射,從系統(tǒng)架構(gòu)和應(yīng)用特點兩方面分析了進行拓撲感知映射性能優(yōu)化時需要考慮的問題,并分析了目前該領(lǐng)域相關(guān)研究進展及特點。

綜合當(dāng)前存在的拓撲感知映射方法硬件架構(gòu)差異較大、應(yīng)用通信特點不同問題,從硬件的架構(gòu)層次及應(yīng)用的通信特點兩個方面考慮多核環(huán)境下進行拓撲感知映射性能提升,這也是未來研究的趨勢。

猜你喜歡
進程信息
債券市場對外開放的進程與展望
中國外匯(2019年20期)2019-11-25 09:54:58
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
我國高等教育改革進程與反思
Linux僵死進程的產(chǎn)生與避免
男女平等進程中出現(xiàn)的新矛盾和新問題
俄羅斯現(xiàn)代化進程的阻礙
論文萊的民族獨立進程
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 无码高潮喷水在线观看| 国产欧美在线| 伊人狠狠丁香婷婷综合色| 狠狠亚洲婷婷综合色香| 69av免费视频| 九九精品在线观看| 伊人久久大香线蕉综合影视| 美女一区二区在线观看| 国产尤物jk自慰制服喷水| 亚洲AV成人一区二区三区AV| 国产理论一区| 超清无码熟妇人妻AV在线绿巨人| 国产一在线观看| 韩日无码在线不卡| 欧美精品三级在线| 草逼视频国产| 久久精品人人做人人爽| www.91中文字幕| 啪啪啪亚洲无码| 欧美不卡二区| 免费在线视频a| 97免费在线观看视频| 毛片大全免费观看| 91成人在线观看视频| 国产老女人精品免费视频| 国产精品毛片在线直播完整版| 精品国产欧美精品v| 亚亚洲乱码一二三四区| 好紧好深好大乳无码中文字幕| 尤物视频一区| 色欲国产一区二区日韩欧美| 乱系列中文字幕在线视频 | 精品视频一区二区三区在线播| 中文字幕永久在线看| 日韩专区欧美| 四虎精品免费久久| 日韩精品专区免费无码aⅴ | 无码福利日韩神码福利片| 好吊妞欧美视频免费| 丁香婷婷激情网| 亚洲一区二区三区国产精品 | 囯产av无码片毛片一级| 国产91麻豆免费观看| 一本二本三本不卡无码| 国内精品伊人久久久久7777人| 亚洲国产精品不卡在线| 一区二区自拍| 青青草国产精品久久久久| 色综合婷婷| 色久综合在线| 亚洲中文字幕在线精品一区| 国产主播在线一区| 18禁黄无遮挡免费动漫网站| 特级精品毛片免费观看| 亚洲成年网站在线观看| 中文毛片无遮挡播放免费| 免费看av在线网站网址| 亚洲日本一本dvd高清| 欧美国产精品不卡在线观看 | 亚洲91在线精品| 国产日本欧美亚洲精品视| 成人欧美在线观看| 亚洲精品无码专区在线观看 | 久操中文在线| 456亚洲人成高清在线| 成人毛片免费在线观看| 99国产精品一区二区| 天天躁夜夜躁狠狠躁躁88| 久久亚洲天堂| 亚洲 日韩 激情 无码 中出| 一区二区偷拍美女撒尿视频| 国内精品九九久久久精品| 午夜a视频| 欧洲极品无码一区二区三区| 婷婷六月综合网| 午夜a视频| 欧美高清视频一区二区三区| 亚洲日本韩在线观看| 国产精品极品美女自在线| 国产精品永久不卡免费视频| 午夜精品区| 91在线免费公开视频|