999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

GRAPES_GFS四維變分同化預(yù)報(bào)系統(tǒng)應(yīng)用特征分析

2021-07-16 08:12:32顧文靜張新諾
關(guān)鍵詞:進(jìn)程特征系統(tǒng)

顧文靜 李 娟 張新諾

(國家氣象信息中心高性能計(jì)算室 北京 100081)

0 引 言

隨著氣象業(yè)務(wù)的快速發(fā)展,中國氣象局業(yè)務(wù)模式已經(jīng)蘊(yùn)含了天氣、氣候、人工影響天氣和公共服務(wù)模式等四個(gè)主要部分。其中天氣模式包含GRAPES集合預(yù)報(bào)、GRAPES全球預(yù)報(bào)、臺(tái)風(fēng)和海浪預(yù)報(bào),以及核應(yīng)急模式和睿圖-STv2.0系統(tǒng)等;氣候模式包含月動(dòng)力延伸預(yù)測、季節(jié)氣候預(yù)測、大氣污染潛勢氣候預(yù)測、東亞重要環(huán)流型預(yù)測和厄爾尼諾/拉尼娜監(jiān)測診斷預(yù)測等;人工影響天氣模式包含CPEFS和GRAPES_CAMS;公共服務(wù)模式包含全國風(fēng)能太陽能預(yù)報(bào)、近海海上預(yù)報(bào)和RMAPS_Wind系統(tǒng)等。

2018年4月,中國氣象局派-曙光高性能計(jì)算機(jī)系統(tǒng)正式提供給用戶使用,派-曙光高性能高性能計(jì)算機(jī)系統(tǒng)分為兩個(gè)子系統(tǒng)(業(yè)務(wù)和科研),每個(gè)子系統(tǒng)計(jì)算性能4 004.25 TFLOPS,存儲(chǔ)物理容量23 088 TB。2019年8月,氣象業(yè)務(wù)模式基本完成移植工作,派-曙光系統(tǒng)資源使用量隨之增長,業(yè)務(wù)子系統(tǒng)CPU使用率超過60%,科研子系統(tǒng)CPU使用率高達(dá)80%,存儲(chǔ)資源使用率近70%。如此規(guī)模的高性能計(jì)算機(jī)系統(tǒng)上線僅一年,資源使用量約三分之二,業(yè)務(wù)應(yīng)用的運(yùn)行特征分析變得至關(guān)重要。建立應(yīng)用軟件的運(yùn)行特征是對(duì)業(yè)務(wù)模式分析的最有效手段。

GRAPES_GFS系統(tǒng)的核心部分是模式動(dòng)力框架和物理過程,是一類非常具有典型性的科學(xué)計(jì)算類應(yīng)用;整個(gè)過程不僅涉及密集的計(jì)算,同時(shí)伴隨大量的網(wǎng)絡(luò)操作,應(yīng)用運(yùn)行特征復(fù)雜。GRAPES_GFS是目前發(fā)展較為完善的業(yè)務(wù)模式,本文將以該模式作為分析對(duì)象,從資源使用情況和運(yùn)行特征進(jìn)行分析并提出優(yōu)化建議。

1 應(yīng)用運(yùn)行特征分析方法

隨著時(shí)間的變化,在特定的負(fù)載環(huán)境和特定的測試方法下,對(duì)業(yè)務(wù)模式運(yùn)行時(shí)硬件各類資源的消耗情況即為該應(yīng)用運(yùn)行特征。采用一種應(yīng)用運(yùn)行特征的快速分析架構(gòu),從系統(tǒng)級(jí)、應(yīng)用級(jí)和微架構(gòu)級(jí)綜合出發(fā),應(yīng)用Paramon和Paratune軟件采集真實(shí)、準(zhǔn)確的性能指標(biāo)數(shù)據(jù),憑借這些指標(biāo)數(shù)據(jù)完整呈現(xiàn)應(yīng)用程序的基本運(yùn)行特征[1]。

系統(tǒng)級(jí)的指標(biāo)考慮CPU、內(nèi)存和磁盤網(wǎng)絡(luò)共計(jì)9種特征指標(biāo)。其中:CPU%為CPU總利用率,衡量CPU資源的使用情況,CPU SYS %為CPU系統(tǒng)開銷利用率,衡量CPU資源中系統(tǒng)開銷的比例,二者反映出當(dāng)前應(yīng)用在CPU資源上的運(yùn)行特征,Memory%為內(nèi)存利用率,對(duì)應(yīng)用程序的性能影響很大,MemBW(GB/s)為內(nèi)存帶寬,連接CPU與內(nèi)存之間的橋梁,決定了內(nèi)存數(shù)據(jù)訪問的速度,SWAP%為交換分區(qū)利用率,在物理內(nèi)存用盡后,將磁盤空間虛擬成內(nèi)存來使用,應(yīng)用程序在用盡內(nèi)存后,使用SWAP分區(qū)后,應(yīng)用程序的性能一定會(huì)降低,三者可以反映出當(dāng)前應(yīng)用在內(nèi)存資源上的運(yùn)行特征,Disk Read(MB/s)為磁盤讀速率(磁盤讀帶寬),Disk Write (MB/s)為磁盤寫速率(磁盤寫帶寬),IB Send (MB/s)為IB網(wǎng)發(fā)送速率,IB Recv (MB/s)為IB網(wǎng)接收速率,派-曙光系統(tǒng)InfiniBand網(wǎng)絡(luò)雙向100 GB/s,四者衡量應(yīng)用在磁盤和網(wǎng)絡(luò)上的運(yùn)行特征標(biāo)準(zhǔn)為速率,即磁盤讀寫速率以及網(wǎng)絡(luò)收發(fā)速率[1]。

微架構(gòu)級(jí)指標(biāo)考慮浮點(diǎn)計(jì)算、向量化比例、指令執(zhí)行效率等5類特征指數(shù)。其中GFLOPS的峰值與節(jié)點(diǎn)CPU主頻和核數(shù)有關(guān),派-曙光系統(tǒng)每個(gè)計(jì)算節(jié)點(diǎn)包含2個(gè)Intel Xeon Gold 6142處理器,每個(gè)處理器主頻2.6 GHz,浮點(diǎn)運(yùn)算2 662.4 GFLOPS。VEC%和AVX%為向量化比例,實(shí)現(xiàn)單指令流多數(shù)據(jù)流SIMD,向量化是CPU峰值計(jì)算的倍數(shù)因子,對(duì)應(yīng)用程序性能影響很大,向量化指令需要根據(jù)應(yīng)用的邏輯,取值范圍為0%~100%。CPI(Cycles Per Instruction)表示每條指令平均時(shí)鐘周期數(shù)。GIPS為單位時(shí)間內(nèi)的指令總數(shù),統(tǒng)計(jì)每秒鐘執(zhí)行的指令總數(shù)。CPI越小或GIPS越高,表示指令執(zhí)行效率越高。LLCM%為Cache Miss的百分比,在Cache 內(nèi)存和物理盤中Cache是CPU讀寫速度最快的,Cache miss表示CPU在Cache中找不到需要讀取的頁。Cache miss會(huì)導(dǎo)致CPU花費(fèi)更多的時(shí)間在查找和讀取以及內(nèi)存替換上,降低了CPU的性能[1]。

2 GRAPES_GFS模式介紹

全球區(qū)域一體化同化預(yù)報(bào)系統(tǒng)GRAPES(Global/Regional Assimilation and Prediction System)是在科學(xué)技術(shù)部和中國氣象局支持下我國自主研發(fā)的數(shù)值預(yù)報(bào)系統(tǒng),該系統(tǒng)是氣象與氣候研究的基礎(chǔ)和核心。在“十一五”科技支撐計(jì)劃的支持下建立了GRAPES全球同化預(yù)報(bào)系統(tǒng)試驗(yàn)版,2007年面向業(yè)務(wù)應(yīng)用,開始系統(tǒng)的建設(shè)和優(yōu)化全球數(shù)值預(yù)報(bào)系統(tǒng)GRAPES_GFS(GEAPES Global Forecast System)[2]。

隨著多核計(jì)算技術(shù)的發(fā)展,基于多核處理器的集群系統(tǒng)逐漸成為主流架構(gòu),為了滿足GRAPES計(jì)算和時(shí)效需求,研發(fā)部門對(duì)GRAPES全球模式進(jìn)行MPI與OpenMP混合并行方案設(shè)計(jì)和優(yōu)化。2018年至2019年GRAPES_GFS由IBM系統(tǒng)遷移到派-曙光系統(tǒng)上,同化方面實(shí)現(xiàn)了從三維變分(3DVar)到四維變分(4DVar)的改進(jìn),四維變分(4DVar)實(shí)現(xiàn)了高低分辨率內(nèi)外循環(huán)、多重外循環(huán)和高低分辨率之間的插值精度,優(yōu)化線性化物理過程使之發(fā)揮作用,有效使用衛(wèi)星等多時(shí)次連續(xù)觀測資料,優(yōu)化計(jì)算效率,保障業(yè)務(wù)運(yùn)行的時(shí)效[2]。

目前,GRAPES_GFS_V2.4正式業(yè)務(wù)運(yùn)行,每天運(yùn)行四個(gè)時(shí)次,分別是世界標(biāo)準(zhǔn)時(shí)00時(shí)次(03:40UTC)、06時(shí)次(09:40UTC)、12時(shí)次(15:40UTC)和18時(shí)次(21:40UTC),業(yè)務(wù)系統(tǒng)包含數(shù)據(jù)檢索及處理、臺(tái)風(fēng)渦旋初始化、同化處理、模式積分、數(shù)據(jù)后處理和數(shù)據(jù)備份等模塊,其中同化內(nèi)外循環(huán)(4DVar)和模式積分(fcst)是GRAPES_GFS主要的并行應(yīng)用模塊,本文以此為研究對(duì)象進(jìn)行并行應(yīng)用特征分析。

3 GRAPES_GFS應(yīng)用特征分析

3.1 特征分析

(1) 算例描述和運(yùn)行環(huán)境。當(dāng)GRAPES_GFS模式在曙光高性能計(jì)算機(jī)系統(tǒng)上運(yùn)行時(shí),收集整個(gè)過程的應(yīng)用運(yùn)行數(shù)據(jù),然后對(duì)性能指標(biāo)數(shù)據(jù)進(jìn)行分析。

4DVar使用0.25°/1.0°(外循環(huán)/內(nèi)循環(huán))分辨率算例。模式積分(fcst)使用0.25°算例。00時(shí)次和12時(shí)次預(yù)報(bào)240小時(shí),06時(shí)次和18時(shí)次預(yù)報(bào)120小時(shí),前120小時(shí)3小時(shí)輸出一次模式面變量modvar,后120小時(shí)6小時(shí)輸出一次modvar。4DVar模塊使用1 024進(jìn)程,fcst模塊使用4 096進(jìn)程。

運(yùn)行環(huán)境是中國氣象局派-曙光高性能計(jì)算系統(tǒng)。操作系統(tǒng)是Red Hat Enterprise Linux Server release 7.4,配置2路32核Intel Xeon Gold處理器,浮點(diǎn)運(yùn)算能力為2 662.4 GFLOPS、12通路DDR4 2666的內(nèi)存(192 GB/384 GB)和雙向100 GB/s 的InfiniBand 網(wǎng)絡(luò)。

(2) 運(yùn)行特征指標(biāo)分析。對(duì)GRAPES_GFS同化內(nèi)外循環(huán)(4DVar)模塊和模式積分(fcst)的各類指標(biāo)情況匯總?cè)绫?和表2所示。

表1 GRAPES_GFS系統(tǒng)級(jí)性能指標(biāo)表

表2 GRAPES_GFS微架構(gòu)性能指標(biāo)表

CPU使用效率接近100%,系統(tǒng)開銷比例較小,因此CPU絕大部分時(shí)間在處理用戶程序,說明GRAPES_GFS是計(jì)算密集型的應(yīng)用程序;LLCM%在60%左右,一定程度上影響了CPU性能。

Gflops%和VEC%值偏低,說明浮點(diǎn)計(jì)算運(yùn)算效率偏低,沒有充分利用CPU浮點(diǎn)計(jì)算部件。AVX%峰值基本為0%,派-曙光系統(tǒng)支持AVX指令,可以通過向量化提高程序性能。CPI方面,4DVar優(yōu)于fcst模塊,但指令執(zhí)行效率仍有待提升。

整個(gè)計(jì)算過程持續(xù)有網(wǎng)絡(luò)數(shù)據(jù)的收發(fā),數(shù)據(jù)收發(fā)是通過派-曙光系統(tǒng)InfiniBand網(wǎng)絡(luò)完成的,通信傳輸率方面,二者均達(dá)到500 MB/s以上,但相較派-曙光系統(tǒng)100 GB/s網(wǎng)絡(luò)帶寬,仍有可優(yōu)化空間。

內(nèi)存使用量僅為峰值的1/3~1/2,說明當(dāng)前計(jì)算規(guī)模下,每個(gè)進(jìn)程的邏輯計(jì)算較少。4DVar模塊使用虛擬內(nèi)存(SWAP%),會(huì)影響應(yīng)用性能。

(3) F/M和F/C分析。除直接獲取的特征數(shù)據(jù)外,也可以通過計(jì)算獲得一些指標(biāo)數(shù)據(jù),如F/M、F/C等。F/M,即GFLOPS與Memory BandWidth的比值,每字節(jié)內(nèi)存讀寫操作對(duì)應(yīng)的浮點(diǎn)計(jì)算能力,可以精確定位應(yīng)用是否為內(nèi)存帶寬敏感型應(yīng)用;F/C,即GFLOPS與網(wǎng)絡(luò)通信的比值,每字節(jié)網(wǎng)絡(luò)操作對(duì)應(yīng)的浮點(diǎn)計(jì)算操作,可以精確定位應(yīng)用是否為網(wǎng)絡(luò)帶寬敏感型應(yīng)用。其他比值操作類似。

通過這些性能指標(biāo)提供的數(shù)據(jù),詳細(xì)了解應(yīng)用程序在運(yùn)行過程中對(duì)各類節(jié)點(diǎn)上處理器、內(nèi)存、網(wǎng)絡(luò)和存儲(chǔ)的依賴情況,快速地建立應(yīng)用的運(yùn)行特征[3-4]。

通過收集到的定量數(shù)據(jù)可知,4DVar和fcst模塊的F/M和F/C數(shù)值如表3所示,F(xiàn)/M、F/C的結(jié)果越小表示對(duì)CPU之外的系統(tǒng)資源的依賴越明顯。

表3 F/M和F/C數(shù)值表

(4) 運(yùn)行特征圖分析。GRAPES_GFS模式4DVar和fcst模塊運(yùn)行特征如圖1和圖2所示。回放各個(gè)指標(biāo)的任意歷史時(shí)段的瞬時(shí)信息,CPU、內(nèi)存利用率在運(yùn)行過程中平穩(wěn),各進(jìn)程間運(yùn)行特征相似,運(yùn)行過程階段性強(qiáng)。各進(jìn)程間運(yùn)行特征有細(xì)微差別,說明負(fù)載比較均衡。

圖1 4DVar運(yùn)行特征

圖2 fcst運(yùn)行特征

3.2 函數(shù)級(jí)分析

應(yīng)用Intel itac工具收集GRAPES_GFS運(yùn)行中邏輯處理函數(shù)和通信函數(shù)信息,并用Intel VTune分析各通信函數(shù)中計(jì)算執(zhí)行效率較低和CPU等待時(shí)間(Spin Time)較長的邏輯熱點(diǎn)。Spin Time是CPU busy的等待時(shí)間,當(dāng)同步API導(dǎo)致CPU輪詢,而軟件線程正在等待時(shí),通常會(huì)發(fā)生這種情況。由于實(shí)驗(yàn)資源有限,本文僅以GRAPES_GFS的fcst模塊為分析對(duì)象,計(jì)算規(guī)模選擇512進(jìn)程,函數(shù)各進(jìn)程數(shù)據(jù)分析如下。

(1) 通信函數(shù)分析。根據(jù) itac采集數(shù)據(jù),fcst模塊邏輯處理時(shí)間占比為58%,MPI通信時(shí)間占比42%。MPI通信中以MPI_Sendrecv、MPI_Allreduce操作居多(見圖3),涉及全局范圍的同步操作。

圖3 各熱點(diǎn)函數(shù)耗時(shí)比例

對(duì)通信函數(shù)各進(jìn)程耗時(shí)的統(tǒng)計(jì)結(jié)果如圖4所示。① MPI通信函數(shù)MPI_Sendrecv、MPI_Allreduce占比最高。② MPI_Sendrecv函數(shù)0-18進(jìn)程段的計(jì)算耗時(shí)明顯偏低,其他進(jìn)程段通信函數(shù)耗時(shí)呈現(xiàn)波浪狀周期性變化,波動(dòng)約15%,負(fù)載均衡需要微調(diào)。③ 其他通信函數(shù)各進(jìn)程周期性波動(dòng)較小。

圖4 fcst各進(jìn)程間通信函數(shù)耗時(shí)變化

(2) 邏輯熱點(diǎn)分析。根據(jù)VTune采集數(shù)據(jù),MPI_Sendrecv通信函數(shù)中Spin Time最長的邏輯熱點(diǎn)主要集中在module_model_parallel_mp_glob_Updatehalo,占比達(dá)24.6%。分析結(jié)果如圖5所示,其中多個(gè)數(shù)組元素更新操作,操作熱點(diǎn)分散,條件判斷操作居多,計(jì)算過程中基本為內(nèi)存訪問,訪存方式為連續(xù)和跨步訪存,導(dǎo)致Spin Time時(shí)間較多,對(duì)應(yīng)用程序性能和可伸縮性產(chǎn)生負(fù)面影響。

圖5 熱點(diǎn)函數(shù)分析

MPI_Allreduce函數(shù)的計(jì)算效率較低的程序邏輯熱點(diǎn)主要集中在module_gcr_mp_psolve_gcr_main,psolve_gcr_main調(diào)用的matrixpro函數(shù)源碼如下,該函數(shù)循環(huán)邏輯復(fù)雜,編譯器未能進(jìn)行向量化。

DO j=jbegin,jend

DO k=kts,kte

DO i=ibegin,iend

c(i,k,j) = &+

a(1,i,k,j)*b(i,k,j) &+

a(2,i,k,j)*b(i-1,k,j) &+

a(3,i,k,j)*b(i+1,k,j) &+

a(4,i,k,j)*b(i,k,j-1) &+

a(5,i,k,j)*b(i,k,j+1) &+

a(6,i,k,j)*b(i+1,k,j+1) &+

a(7,i,k,j)*b(i+1,k,j-1) &+

a(8,i,k,j)*b(i-1,k,j-1) &+

a(9,i,k,j)*b(i-1,k,j+1) &+

a(10,i,k,j)*b(i,k-1,j) &+

a(11,i,k,j)*b(i-1,k-1,j) &+

a(12,i,k,j)*b(i+1,k-1,j) &+

a(13,i,k,j)*b(i,k-1,j-1) &+

a(14,i,k,j)*b(i,k-1,j+1) &+

a(15,i,k,j)*b(i,k+1,j) &+

a(16,i,k,j)*b(i-1,k+1,j) &+

a(17,i,k,j)*b(i,k+1,j-1) &+

a(18,i,k,j)*b(i,k+1,j-1) &+

a(19,i,k,j)*b(i,k+1,j+1)+

END DO

END DO

END DO

3.3 不同進(jìn)程下運(yùn)行狀況對(duì)比

不同進(jìn)程下運(yùn)行狀況比較可以測試應(yīng)用的可擴(kuò)展性,根據(jù)各項(xiàng)特征指標(biāo)變化趨勢選擇最適合計(jì)算的規(guī)模,提供模式業(yè)務(wù)化運(yùn)行。

(1) 4DVar模塊。同化分高低分辨率的內(nèi)外循環(huán),目前低分辨率的格點(diǎn)數(shù)少,分辨率使用0.1°算例,因此計(jì)算規(guī)模選擇512、1 024和2 048進(jìn)程測試。性能指標(biāo)如表4所示,隨著計(jì)算規(guī)模的增加,CPU和內(nèi)存利用率逐漸減少,在進(jìn)程規(guī)模較大時(shí),內(nèi)存使用率偏低,每個(gè)進(jìn)程的邏輯計(jì)算減少,說明在同等計(jì)算規(guī)模下,可以適當(dāng)?shù)丶哟笏憷?guī)模,進(jìn)行更大問題的計(jì)算;通信方面,計(jì)算期間無密集通信時(shí)間顯著增加(圖6),網(wǎng)絡(luò)通信速率(IB Send和IB Recv)在1 024進(jìn)程時(shí)達(dá)最大值。微架構(gòu)方面,各規(guī)模差異不大。各項(xiàng)指標(biāo)均衡考量,1 024進(jìn)程的規(guī)模比較適合4DVar模塊。

表4 不同進(jìn)程4DVar模塊性能指標(biāo)表

圖6 4DVar不同規(guī)模應(yīng)用運(yùn)行特征示例圖

(2) fcst模塊。fcst模塊使用0.25°算例,分辨率較高,故選擇1 024、2 048、4 096和8 192四種規(guī)模進(jìn)行比較測試,結(jié)果顯示fcst模塊相對(duì)4DVar模塊具有較好的可擴(kuò)展性。性能指標(biāo)如表5所示,隨著計(jì)算規(guī)模的增加,CPU和內(nèi)存利用率較為平穩(wěn);通信方面,運(yùn)行特征圖(圖7)顯示,隨著進(jìn)程數(shù)的增多,粒度變小,計(jì)算期間密集通信程度減弱,相較4DVar模塊,無密集通信網(wǎng)絡(luò)時(shí)間減少不明顯;通信速率(IB Send和IB Recv)隨進(jìn)程增加呈增長趨勢,到4 096進(jìn)程后銳減;內(nèi)存使用率均偏低,未飽和,且與計(jì)算規(guī)模關(guān)聯(lián)較小;微架構(gòu)級(jí)指標(biāo)方面,8 192規(guī)模浮點(diǎn)計(jì)算能力降低,向量化比例和代碼執(zhí)行效率增加,Cache miss對(duì)CPU性能影響降低。綜合各項(xiàng)指標(biāo),4 096進(jìn)程的規(guī)模優(yōu)勢明顯。

表5 不同進(jìn)程fcst模塊性能指標(biāo)表

圖7 fcst不同規(guī)模應(yīng)用運(yùn)行特征示例圖

4 GRAPES_GFS運(yùn)行特征分析和優(yōu)化方向

4.1 運(yùn)行特征

通過對(duì)應(yīng)用特征和函數(shù)級(jí)分析,GRAPES_GFS模式CPU%比例較高,屬于計(jì)算密集性應(yīng)用。Cache miss比例高,一定程度上影響CPU性能。F/M、F/C值偏小,內(nèi)存帶寬和網(wǎng)絡(luò)通信依賴明顯。浮點(diǎn)計(jì)算運(yùn)算效率和向量化比例偏低,指令執(zhí)行效率不高。MPI通信負(fù)載比較均衡。MPI_Sendrecv、MPI_Allreduce等函數(shù)耗時(shí)較多。

4.2 優(yōu)化方向

代碼優(yōu)化是自上而下的,從系統(tǒng)到應(yīng)用再到處理器,可以通過串行和標(biāo)量、并行化、內(nèi)存訪問,以及向量化幾個(gè)方面優(yōu)化。

進(jìn)行向量化優(yōu)化。從應(yīng)用特征的向量化指標(biāo)值(VEC,AVX)可以看出應(yīng)用程序在該算例執(zhí)行過程中的向量化比率低,導(dǎo)致集群系統(tǒng)的浮點(diǎn)運(yùn)算效率低。因此需要通過對(duì)代碼的核心計(jì)算部分,深入分析數(shù)據(jù)操作的依賴關(guān)系,進(jìn)行向量化優(yōu)化,對(duì)于有規(guī)律的離散訪存,通過數(shù)組轉(zhuǎn)置方法將離散訪存轉(zhuǎn)換為連續(xù)訪存[5-7],以提高應(yīng)用程序整體的運(yùn)行性能。

降低Cache miss對(duì)性能的影響。在處理數(shù)據(jù)前,盡量使用連續(xù)數(shù)據(jù)。修改數(shù)據(jù)結(jié)構(gòu)或通過內(nèi)存拷貝,將非連續(xù)數(shù)據(jù)變成連續(xù)數(shù)據(jù)存儲(chǔ)。根據(jù)算法模型,調(diào)整數(shù)據(jù)結(jié)構(gòu),以降低Cache miss對(duì)性能的影響。

減少CPU等待時(shí)間。從VTune分析數(shù)據(jù)看出,MPI_Sendrecv通信函數(shù)中Spin Time最長的邏輯熱點(diǎn)的計(jì)算過程中基本為內(nèi)存訪問,訪存方式為連續(xù)和跨步訪存,導(dǎo)致Spin Time時(shí)間較多[8]。可調(diào)整通信策略和拓?fù)浣Y(jié)構(gòu),降低通信時(shí)間。對(duì)于小的循環(huán),可以展開,或者使用臨時(shí)空間記錄重復(fù)使用的數(shù)據(jù)。

消除負(fù)載不均衡。從函數(shù)級(jí)分析可以看出,在整個(gè)運(yùn)行過程中,應(yīng)用代碼耗時(shí)在不同進(jìn)程間的占比有波動(dòng),說明GRAPES對(duì)該算例處理過程中有潛在的負(fù)載不均衡因素,需要結(jié)合代碼以及算例的處理邏輯,進(jìn)行深入的分析,通過負(fù)載均衡的改善,提高程序性能。

5 結(jié) 語

基于本文的應(yīng)用運(yùn)行特征分析方法,實(shí)現(xiàn)了對(duì)GRAPES_GFS模式主要并行模塊的快速分析,通過分析結(jié)果,精確定位了應(yīng)用的類型,完整地建立了應(yīng)用的運(yùn)行特征,定位應(yīng)用運(yùn)行瓶頸,找到應(yīng)用優(yōu)化的方向。本文方法不僅可以針對(duì)氣象類應(yīng)用,同樣適合其他行業(yè)的應(yīng)用運(yùn)行特征建立、應(yīng)用優(yōu)化,甚至機(jī)群方案設(shè)計(jì)。

猜你喜歡
進(jìn)程特征系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無人機(jī)系統(tǒng)
ZC系列無人機(jī)遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
如何表達(dá)“特征”
債券市場對(duì)外開放的進(jìn)程與展望
中國外匯(2019年20期)2019-11-25 09:54:58
不忠誠的四個(gè)特征
抓住特征巧觀察
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
社會(huì)進(jìn)程中的新聞學(xué)探尋
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 色噜噜中文网| 中文字幕人成乱码熟女免费| 中文字幕丝袜一区二区| 在线免费a视频| 久久久久久久97| 亚洲精品免费网站| 久久综合婷婷| 亚洲精品视频在线观看视频| 欧美A级V片在线观看| 澳门av无码| 中文字幕 91| 欧美日韩在线第一页| 欧美区日韩区| 青草91视频免费观看| 成AV人片一区二区三区久久| 国产成人亚洲综合a∨婷婷| 精品国产91爱| 99在线视频精品| 亚洲va视频| 久久久久亚洲精品无码网站| 男女男精品视频| 亚洲免费人成影院| 国产精品女主播| 国产精品中文免费福利| 亚洲开心婷婷中文字幕| 中日无码在线观看| 国产又色又爽又黄| 免费国产高清视频| 久久一本日韩精品中文字幕屁孩| 激情视频综合网| 亚洲国产精品日韩欧美一区| www.精品国产| 在线精品自拍| 亚洲熟女中文字幕男人总站| 欧美精品1区| 亚洲黄网在线| 欧美精品黑人粗大| 四虎在线观看视频高清无码 | 国产办公室秘书无码精品| 啊嗯不日本网站| 国产99视频精品免费视频7| 国产91无毒不卡在线观看| www.国产福利| 在线亚洲精品福利网址导航| 色播五月婷婷| 最新日韩AV网址在线观看| a在线亚洲男人的天堂试看| 中文国产成人久久精品小说| 欧美色亚洲| 成人免费午夜视频| 97国内精品久久久久不卡| 欧美成a人片在线观看| 久久午夜夜伦鲁鲁片无码免费| 欧美精品亚洲精品日韩专区| 国产成人精品优优av| 国产一级毛片在线| 五月天香蕉视频国产亚| 在线观看91精品国产剧情免费| 国产另类乱子伦精品免费女| 99视频精品全国免费品| 亚洲中文精品人人永久免费| 青青热久麻豆精品视频在线观看| 国产第二十一页| 亚洲第一福利视频导航| 国产一区二区精品福利| 亚洲精品天堂自在久久77| AV色爱天堂网| 日本久久久久久免费网络| 91小视频在线观看| 色综合久久综合网| 午夜无码一区二区三区在线app| 国产网站在线看| 九九精品在线观看| 日韩无码黄色| 呦女亚洲一区精品| 日本免费一级视频| 视频国产精品丝袜第一页| 久久96热在精品国产高清| 青青草一区二区免费精品| 国产成人精品男人的天堂| 久久国产精品影院| 九九九国产|