基于GPU加速的三維堆芯物理程序STORK的開(kāi)發(fā)與驗(yàn)證

2024-03-13 07:19:32俞陸林楊高升陳國(guó)華蔣校豐高明敏

原子能科學(xué)技術(shù) 2024年3期

關(guān)鍵詞：程序

俞陸林,楊高升,陳國(guó)華,卑華,蔣校豐,高明敏,王濤

(1.上海核星核電科技有限公司,上海 201103;2.核電運(yùn)行研究(上海)有限公司,上海 200126)

面對(duì)越來(lái)越復(fù)雜的反應(yīng)堆堆芯和燃料組件設(shè)計(jì),目前用于大型商用反應(yīng)堆堆芯核設(shè)計(jì)軟件受到了挑戰(zhàn),需要開(kāi)發(fā)適用性更廣、計(jì)算精度更高、計(jì)算效率能夠滿足工程應(yīng)用需求的堆芯物理分析軟件。近年來(lái),國(guó)內(nèi)外對(duì)新一代堆芯中子學(xué)計(jì)算方法展開(kāi)了廣泛研究,如美國(guó)和韓國(guó)聯(lián)合開(kāi)展的I-NERI計(jì)劃[1-2]、美國(guó)的CASL計(jì)劃[3]、歐盟的NURESIM計(jì)劃[4]等,國(guó)內(nèi)科研機(jī)構(gòu)也基于不同的輸運(yùn)方程求解算法開(kāi)發(fā)了高精度的堆芯物理計(jì)算程序,如基于2D+1D框架的西安交通大學(xué)輸運(yùn)計(jì)算軟件NECP-X[5]、中國(guó)核動(dòng)力研究院的Tiger[6]、KYCORE[7]和KuaFu[8]等,基于三維MOC框架的中國(guó)原子能科學(xué)研究院的ANT-MOC[9]、清華大學(xué)的TCM[10]、哈爾濱工程大學(xué)的HNET[11]、ALPHA[12]等,基于2D+3D框架的上海核工程研究設(shè)計(jì)院有限公司的SCAP-N[13]。

另一方面,隨著人工智能領(lǐng)域?qū)λ懔π枨蟮谋l(fā)式增長(zhǎng),基于CPU/GPU異構(gòu)的系統(tǒng)在高性能計(jì)算領(lǐng)域的應(yīng)用愈加廣泛。在反應(yīng)堆計(jì)算分析領(lǐng)域,無(wú)論是在基于非確定論方法的計(jì)算程序中,如韓國(guó)首爾大學(xué)的PRAGMA程序[14],還是在基于確定論方法的計(jì)算程序中,如上海應(yīng)用物理研究所的ThorMOC程序[15]、哈爾濱工程大學(xué)的ALPHA程序[12]、韓國(guó)首爾大學(xué)的nTRACER[16]、GPU都開(kāi)始得到了應(yīng)用,并且顯著提高了程序的計(jì)算效率。計(jì)算機(jī)算力的大幅增長(zhǎng),使得采用高精度的算法求解三維輸運(yùn)方程來(lái)滿足工程應(yīng)用需求開(kāi)始變得可能,其中包括以棒柵為均勻化單位進(jìn)行全堆芯精細(xì)化建模和計(jì)算。在此背景下,本文基于GPU加速技術(shù)研發(fā)了二維MOC耦合三維SP3計(jì)算的堆芯物理分析計(jì)算程序STORK。該程序首先根據(jù)軸向材料布置自動(dòng)化地對(duì)堆芯模型進(jìn)行軸向分層;針對(duì)所有包含活性區(qū)的分層,在GPU上并行地開(kāi)展二維全堆MOC計(jì)算,并采用兩重非結(jié)構(gòu)化網(wǎng)格粗網(wǎng)有限差分方法(UCMFD)進(jìn)行加速[17];利用二維全堆輸運(yùn)計(jì)算結(jié)果在線產(chǎn)生每一層的少群或中間能群形式的柵元均勻化截面以及超級(jí)均勻化(SPH)因子[17];對(duì)非活性區(qū)軸向?qū)?則采用與其相鄰的活性區(qū)層的能譜產(chǎn)生柵元均勻化截面;最后基于上述步驟獲得的均勻化截面及SPH因子進(jìn)行全堆三維SP3計(jì)算,獲得有效增殖因數(shù)、棒功率分布等堆芯物理參數(shù)。

1 理論模型

1.1 多群常數(shù)庫(kù)及共振計(jì)算

STORK程序采用多群核數(shù)據(jù)庫(kù)RLIB,RLIB是上海核星核電科技有限公司在國(guó)際原子能機(jī)構(gòu)“WIMS-D多群常數(shù)庫(kù)更新項(xiàng)目(WLUP)”項(xiàng)目ENDF/B-Ⅶ.0 69群數(shù)據(jù)庫(kù)的基礎(chǔ)上完善而來(lái)的,主要包括:重新制作了鈾、钚等重要同位素的截面;增加了鎢、錸同位素以及鏑等同位素的多群截面及燃耗鏈信息以滿足AP1000和VVER1000反應(yīng)堆控制棒的計(jì)算;擴(kuò)展了如鈾、钚等重要同位素之間共振干涉因子表;補(bǔ)充了獨(dú)立的俘獲釋能和裂變釋能用來(lái)更精確地統(tǒng)計(jì)堆芯釋熱率分布等。

STORK程序采用強(qiáng)化中子流方法[18]與等價(jià)理論[19]相結(jié)合的方式進(jìn)行共振計(jì)算。強(qiáng)化中子流方法通過(guò)構(gòu)建特殊的固定源問(wèn)題,采用MOC方法來(lái)計(jì)算獲得反應(yīng)率,最后由式(1)統(tǒng)計(jì)每個(gè)共振材料區(qū)每個(gè)共振能群的Dancoff因子D:

(1)

式中:Rtot為總反應(yīng)率;Σs,f為宏觀勢(shì)散射截面;Σe為與該共振區(qū)平均弦長(zhǎng)相關(guān)的“逃脫”截面。STORK中不進(jìn)行顯式的Dancoff效應(yīng)修正計(jì)算,而是直接將與位置相關(guān)的Dancoff效應(yīng)體現(xiàn)在二項(xiàng)有理近似展開(kāi)式中,詳細(xì)介紹參見(jiàn)文獻(xiàn)[20]。另外,為了能夠更為精確地考慮共振干涉效應(yīng),STORK不再采用傳統(tǒng)等價(jià)理論中本底迭代的方法,而是通過(guò)預(yù)先制作好的共振干涉因子表來(lái)加以考慮。

1.2 幾何處理及輸運(yùn)計(jì)算

STORK采用構(gòu)造實(shí)體(CSG)幾何建模方式,通過(guò)對(duì)圓和任意凸多邊形這兩種內(nèi)置基本幾何體的布爾運(yùn)算構(gòu)造各種復(fù)雜幾何體。如圖1所示,像VVER的組件格架及重反射層、十字螺旋燃料棒、板狀燃料及十字形控制棒等復(fù)雜幾何體,STORK都可以精確建模。此外,在幾何建模的方式上,STORK遵從嚴(yán)格的面向?qū)ο蟛呗?對(duì)燃料組件、毒物棒束、控制棒束、圍板反射層等三維對(duì)象分別建模完成后,再添加位置信息形成最終的三維反應(yīng)堆。STORK程序具有自動(dòng)進(jìn)行網(wǎng)格劃分、軸向分層、區(qū)域分解等功能,極大地簡(jiǎn)化了用戶輸入。

圖1 STORK程序的幾何處理能力Fig.1 Modeling capabilities of STORK code

STORK求解線性源近似[21]的MOC方程,從而能在更少的離散網(wǎng)格數(shù)下達(dá)到更高的計(jì)算精度,并降低存儲(chǔ)開(kāi)銷(xiāo)。STORK采用組件模塊化的特征線形式[22],以利用組件模塊化特征線存儲(chǔ)小、邊界可以直接連接等優(yōu)點(diǎn)。但在特征線產(chǎn)生方式上,不同于傳統(tǒng)組件模塊化特征線基于組件的方式,STORK基于GPU直接在兩維全堆層面上一次性產(chǎn)生全部特征線信息,以提高特征線信息計(jì)算過(guò)程的并發(fā)量。在特征線儲(chǔ)存時(shí)進(jìn)行連續(xù)存儲(chǔ),不同層次的特征線以指針形式獲取,以提高特征線掃描時(shí)GPU的合并訪存率。

為了提高計(jì)算效率同時(shí)兼顧方形組件和六角形組件,STORK程序采用適用于任意凸多邊形的非規(guī)則網(wǎng)格CMFD方法加速M(fèi)OC方程的收斂[17],并且采用多群和少群雙重CMFD加速策略,其中少群CMFD的截面和偏流分別由多群CMFD的截面和偏流壓群而來(lái),由少群CMFD求解的注量率則再返回于多群CMFD中。為了能夠高效地在GPU上求解,STORK對(duì)CMFD線性系統(tǒng)采用雅可比和紅-黑迭代相結(jié)合的源迭代求解方法。同時(shí),CMFD也采用與MOC完全一致的多層區(qū)域分解并行在多個(gè)GPU上求解。在具體計(jì)算策略方面,由于多群CMFD單次迭代計(jì)算量大,只進(jìn)行固定次數(shù)迭代,而少群CMFD單次迭代計(jì)算量小、迭代次數(shù)多,負(fù)責(zé)全局問(wèn)題的收斂。

1.3 在線等效均勻化方法

在線等效均勻化方法中,利用二維全堆MOC計(jì)算(軸向采用全反射邊界條件)得到各活性區(qū)軸向?qū)拥闹凶幼⒘柯誓茏V,產(chǎn)生柵元均勻化少群截面參數(shù),并迭代產(chǎn)生超級(jí)均勻化修正因子(SPH因子):

(2)

(3)

對(duì)于處于堆芯頂部和底部的反射層,直接利用與它相鄰的活性區(qū)層的中子注量率能譜來(lái)產(chǎn)生柵元均勻化截面,而SPH因子則設(shè)為1.0。

1.4 三維堆芯pin-by-pin SP3方法

SP3理論由球諧函數(shù)(PN)方法簡(jiǎn)化而來(lái),相比于擴(kuò)散理論,能夠?qū)斶\(yùn)理論做出更好的近似,能夠兼顧計(jì)算精度和計(jì)算效率,是三維全堆pin-by-pin計(jì)算的理想選擇。STORK程序中三維SP3求解器采用了趙榮安提出的SP3方法[24-27]的方程形式:

患者眩暈癥狀全部消失，不影響患者的正常工作及生活，隨訪2個(gè)月無(wú)復(fù)發(fā)評(píng)價(jià)為顯效；患者眩暈癥狀有顯著改善，頭疼現(xiàn)象有明顯減輕，隨訪2個(gè)月發(fā)作頻率較之前有明顯減少評(píng)價(jià)為有效；達(dá)不到上述標(biāo)準(zhǔn)者評(píng)價(jià)為無(wú)效。臨床總有效率=顯效率+有效率。

(4)

(5)

(6)

(7)

(8)

式中:Σ0,g為移出截面;Σt,g為總截面;Qg為中子源項(xiàng);χg為裂變譜;keff有效增殖因數(shù);vΣf,g為裂變中子產(chǎn)生截面;Σs,g′g為能群g′到g的中子散射截面;F0,g為零階中子注量率;F2,g為二階中子注量率。

在該SP3方程形式下的邊界條件為:

(9)

(10)

(11)

(12)

對(duì)于方形節(jié)塊問(wèn)題,STORK程序采用半解析展開(kāi)節(jié)塊法求解SP3方程[28]。STORK程序首先采用橫向積分技術(shù)將三維SP3方程分解為3個(gè)一維SP3方程進(jìn)行求解,通過(guò)橫向泄漏項(xiàng)進(jìn)行耦合。對(duì)于每個(gè)一維方程,對(duì)節(jié)塊橫向積分注量率采用多項(xiàng)式或半解析展開(kāi)式進(jìn)行近似,利用節(jié)塊面偏流連續(xù)等條件定解展開(kāi)式系數(shù)。具體而言,考慮到STORK應(yīng)用于三維全堆pin-by-pin計(jì)算,在徑向方向,節(jié)塊尺寸較小,橫向積分中子注量率采用拋物線展開(kāi),利用節(jié)塊表面平均入射流、出射流連續(xù)的條件進(jìn)行定解;而在軸向方向,節(jié)塊尺寸較大,橫向積分中子注量率采用半解析展開(kāi),除了節(jié)塊面平均入射流、出射流地連續(xù)性條件,還需引入一階矩權(quán)重和二階矩權(quán)重的條件,以確定所有展開(kāi)系數(shù)。對(duì)于中子源項(xiàng),采用拋物線近似,橫向泄漏項(xiàng)通過(guò)三節(jié)塊法確定其展開(kāi)式。為了提高三維pin-by-pin計(jì)算的效率,采用粗網(wǎng)有限差分方法加速本征值和注量率的收斂。

在STORK的SP3計(jì)算模塊中,根據(jù)GPU的數(shù)據(jù)讀取特點(diǎn)和計(jì)算特性,采用統(tǒng)一內(nèi)存管理的方式,合理設(shè)計(jì)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)和算法,最大限度地發(fā)揮GPU的計(jì)算性能。在算法層面,在求解SP3方程時(shí),采用單節(jié)塊掃描方式,即給定節(jié)塊面平均入射注量率,通過(guò)求解單個(gè)節(jié)塊內(nèi)的三維SP3方程,得到節(jié)塊內(nèi)各方向的橫向積分注量率展開(kāi)式及節(jié)塊體積平均注量率,從而確定節(jié)塊各面的平均出射注量率,在下一次計(jì)算前并行地更新所有節(jié)塊的面平均入射注量率,這種單節(jié)塊掃描方式可最大限度增加算法的可并行度,此外,結(jié)合SP3方程求解算法,STORK基于合并訪存的理念,合理設(shè)計(jì)數(shù)據(jù)的儲(chǔ)存結(jié)構(gòu),以提高程序計(jì)算效率。

2 程序?qū)崿F(xiàn)

STORK程序采用CUDA、C++、Python三種語(yǔ)言混合編程。所有計(jì)算相關(guān)模塊,如共振計(jì)算、輸運(yùn)計(jì)算、CMFD加速、燃耗計(jì)算等都采用CUDA編寫(xiě),幾何建模、日志信息管理、計(jì)算結(jié)果編輯、輸入輸出等模塊采用C++編寫(xiě),而模型及結(jié)果可視化則使用Python編寫(xiě),充分發(fā)揮不同編程語(yǔ)言的優(yōu)勢(shì)。

STORK程序以單臺(tái)多GPU的深度學(xué)習(xí)服務(wù)器為開(kāi)發(fā)計(jì)算平臺(tái),在CPU端采用OpenMP并行技術(shù),GPU端采用基于CUDA Unified Memory的多GPU并行技術(shù)。為了盡可能提高計(jì)算效率,STORK中的計(jì)算流程中,包括MOC、CMFD、共振計(jì)算、燃耗計(jì)算、SP3計(jì)算模塊中的計(jì)算部分都放在GPU端(圖2),并且采用統(tǒng)一的軸向網(wǎng)格劃分,單個(gè)GPU計(jì)算連續(xù)的多層,以減少GPU間的數(shù)據(jù)傳遞開(kāi)銷(xiāo)、提高并發(fā)量。此外,由于采用CUDA Unified Memory技術(shù),自動(dòng)實(shí)現(xiàn)GPU端和CPU端的數(shù)據(jù)遷移,并且能夠在GPU顯存不夠的情況下,以內(nèi)存作為補(bǔ)充來(lái)模擬超大規(guī)模問(wèn)題,如大型商用壓水堆堆芯問(wèn)題。

圖2 STORK計(jì)算流程Fig.2 Calculation flow of STORK

為了提高程序的計(jì)算效率,STORK程序在性能優(yōu)化方面做了大量工作,例如:精細(xì)設(shè)計(jì)每個(gè)計(jì)算模塊的主要數(shù)據(jù)結(jié)構(gòu),特別是散射矩陣、燃耗矩陣等,使其存儲(chǔ)方式能夠滿足GPU線程最大限度的合并訪存;采用大數(shù)組與指針相結(jié)合的方式來(lái)滿足面向?qū)ο蟪绦蛟O(shè)計(jì)的同時(shí)又能夠高效地進(jìn)行大規(guī)模內(nèi)存的分配和回收;根據(jù)GPU硬件設(shè)計(jì)特點(diǎn),如GPU的寄存器、共享內(nèi)存、常量?jī)?nèi)存等多級(jí)存儲(chǔ)架構(gòu),合理設(shè)計(jì)程序算法,采用中間變量在線計(jì)算等方式,盡量減少全局內(nèi)存的訪問(wèn)次數(shù);采用CUDA內(nèi)建的指令級(jí)優(yōu)化的數(shù)學(xué)函數(shù),如指數(shù)運(yùn)算、除法運(yùn)算等;采用基于多個(gè)Stream同時(shí)并發(fā)的方式來(lái)重疊計(jì)算與數(shù)據(jù)傳輸?shù)臅r(shí)間;在Unified Memory架構(gòu)下的多GPU并行時(shí)采用DataPrefetch等手段減少數(shù)據(jù)傳遞開(kāi)銷(xiāo)。

3 數(shù)值驗(yàn)證

本文選取三維C5G7插棒基準(zhǔn)題和美國(guó)輕水堆數(shù)值反應(yīng)堆項(xiàng)目(CASL)中的VERA系列基準(zhǔn)例題[29]對(duì)STORK程序進(jìn)行數(shù)值驗(yàn)證,以驗(yàn)證程序的計(jì)算精度及性能。

3.1 C5G7-MOX插棒基準(zhǔn)題

C5G7-MOX插棒基準(zhǔn)題[30]是OECD/NEA于2005年發(fā)布的用于檢驗(yàn)輸運(yùn)計(jì)算程序求解非均勻堆芯問(wèn)題數(shù)值精度的基準(zhǔn)問(wèn)題。由于它的組件能譜差異較大、非均勻性較強(qiáng),被國(guó)際研究機(jī)構(gòu)廣泛用于堆芯計(jì)算方法的檢驗(yàn)。三維C5G7-MOX插棒基準(zhǔn)題包含兩個(gè)插棒子問(wèn)題,插棒問(wèn)題A(C5G7-Rodded-A)和插棒問(wèn)題B(C5G7-Rodded-B)。

本文中基準(zhǔn)題的參考解由OpenMC[31]計(jì)算產(chǎn)生。STORK和OpenMC都采用1/4堆芯建模,OpenMC共計(jì)算了2 000代,其中后1 500代計(jì)入統(tǒng)計(jì),每代投入的粒子數(shù)為200 000個(gè)。SROTK計(jì)算MOC采用線性源近似,單個(gè)象限極角數(shù)目為2個(gè),方位角數(shù)目為8個(gè),特征線密度為0.03 cm,軸向每層3.57 cm,共分為18層。

該基準(zhǔn)問(wèn)題的計(jì)算在配有1張NVIDIA GeForce RTX 3090顯卡的計(jì)算平臺(tái)上完成。STORK程序的計(jì)算結(jié)果見(jiàn)表1和圖3。在計(jì)算效率方面,C5G7-Rodded-A問(wèn)題和C5G7-Rodded-B問(wèn)題的計(jì)算時(shí)間分別為8.90 s和9.95 s。

表1 C5G7插棒基準(zhǔn)題計(jì)算結(jié)果Table 1 Result for C5G7-Rodded problem

圖3 C5G7-Rodded-A(a)和C5G7-Rodded-B(b)柵元徑向功率相對(duì)偏差分布Fig.3 Radial pin power relative error distributions for C5G7-Rodded-A (a) and C5G7-Rodded-B (b)

3.2 VERA#3三維基準(zhǔn)題

VERA #3基準(zhǔn)問(wèn)題是一個(gè)三維HZP BOC狀態(tài)下的燃料組件問(wèn)題,主要用于驗(yàn)證程序在沒(méi)有熱工反饋和燃耗下有效增殖因數(shù)以及棒功率分布的計(jì)算精度[29]。該基準(zhǔn)問(wèn)題包含A和B兩個(gè)子問(wèn)題,參考解由蒙特卡羅程序KENO-Ⅵ計(jì)算產(chǎn)生。

限于篇幅,本文僅給出VERA #3A問(wèn)題的驗(yàn)證結(jié)果。圖4為STORK程序所建的VERA基準(zhǔn)問(wèn)題#3A模型,STORK計(jì)算得到的本征值為1.175 32,與參考解的偏差為-40.0 pcm。圖5、6分別為棒功率分布和軸向功率分布與參考解的比較。從結(jié)果看,STORK程序計(jì)算得到的徑向棒功率分布與KENEO-Ⅵ的計(jì)算結(jié)果相比偏差較小,最大偏差在0.2%以內(nèi)。但軸向功率分布在局部位置出現(xiàn)了較大偏差,達(dá)到3%,出現(xiàn)在靠近底部反射層的位置,并且在活性區(qū)內(nèi)部格架位置也出現(xiàn)了較大偏差,接近2%。這主要是因?yàn)槟壳癝TORK程序中軸向反射層直接采用了與其相鄰層的活性區(qū)的能譜,而內(nèi)部格架位置處的軸向?qū)游纯紤]相鄰軸向?qū)拥闹凶有孤?duì)其能譜的影響。后續(xù)將開(kāi)展針對(duì)性的研究以解決這些問(wèn)題。

圖4 VERA基準(zhǔn)問(wèn)題#3A的STORK模型Fig.4 STORK model for VERA benchmark #3A

圖5 VERA基準(zhǔn)問(wèn)題#3A STORK和KENO-Ⅵ的棒功率分布相對(duì)偏差Fig.5 Deviation of pin power distributions between STORK and KENO-Ⅵ for VERA benchmark #3A

圖6 VERA基準(zhǔn)問(wèn)題#3A STORK和KENO-Ⅵ的軸向功率分布及偏差Fig.6 Axial power distribution and deviation between STORK and KENO-Ⅵ for VERA benchmark #3A

該基準(zhǔn)問(wèn)題的計(jì)算在配有2張NVIDIA GeForce RTX 3090 GPU顯卡的計(jì)算平臺(tái)上進(jìn)行,STORK的計(jì)算時(shí)間為29.39 s,相比于KENO-Ⅵ在240核的計(jì)算平臺(tái)上的計(jì)算效率(耗時(shí)120 h)具有明顯優(yōu)勢(shì),國(guó)際同類(lèi)計(jì)算程序的計(jì)算時(shí)間約為390 s[5]。

3.3 VERA#5三維基準(zhǔn)題

該基準(zhǔn)例題[29]堆芯共由193盒燃料組件組成,除堆芯活性區(qū)外,還包含了圍板、吊籃、中子屏蔽體和壓力容器等堆外結(jié)構(gòu),如圖7所示,A、B、C、D為調(diào)節(jié)棒組,SA、SB、SC、SD為停堆棒組。

圖7 VERA#5三維基準(zhǔn)題堆芯燃料和控制棒控制圖Fig.7 Fuel and control rod configuration for 3D VERA#5 benchmark

該基準(zhǔn)例題按硼濃度、溫度及控制棒棒位等不同堆芯工況分為32個(gè)算例,其參考解也由KENO-Ⅵ產(chǎn)生。限于篇幅,本文僅給出算例1的STORK驗(yàn)證結(jié)果。

該基準(zhǔn)問(wèn)題的計(jì)算在配有10張NVIDIA GeForce RTX 3090 GPU顯卡的計(jì)算平臺(tái)上進(jìn)行,STORK的計(jì)算時(shí)間為399 s,相比于KENO-Ⅵ在180核的計(jì)算平臺(tái)上的計(jì)算效率(耗時(shí)約696 h)具有明顯優(yōu)勢(shì)。

在計(jì)算精度方面,STORK計(jì)算的keff為0.999 98,與KENO-Ⅵ的偏差為-2 pcm,組件功率分布及偏差如圖8所示。其中,組件功率的最大偏差僅為-0.75%。

圖8 VERA#5基準(zhǔn)題算例1組件功率分布計(jì)算結(jié)果Fig.8 Assemble power distribution for case 1 of VERA#5 benchmark

上述基準(zhǔn)題的計(jì)算結(jié)果表明,與國(guó)際上采用高性能CPU集群平臺(tái)開(kāi)發(fā)的其他中子學(xué)計(jì)算軟件相比,基于CPU/GPU異構(gòu)系統(tǒng)開(kāi)發(fā)的、運(yùn)行與單機(jī)服務(wù)器上的STORK程序所用的計(jì)算時(shí)間更少,針對(duì)大型壓水堆堆芯,STORK程序單個(gè)狀態(tài)點(diǎn)計(jì)算時(shí)間為數(shù)百秒,折合能耗不到1 kW·h(配有10張NVIDIA GeForce RTX 3090 GPU顯卡的計(jì)算平臺(tái)功率為4.0 kW),而高性能CPU集群平臺(tái)的計(jì)算能耗,以天河超算平臺(tái)為例,約為0.5 (kW·h)/核時(shí),基于高性能CPU集群平臺(tái)的中子學(xué)計(jì)算軟件的計(jì)算時(shí)間為數(shù)十至上百核時(shí)不等[13],折合能耗為數(shù)十至上百千瓦時(shí),由此可見(jiàn)STORK程序所花費(fèi)的計(jì)算成本更低,即使考慮單機(jī)服務(wù)器的購(gòu)置成本(本文所采用的10張NVIDIA GeForce RTX 3090 GPU顯卡的計(jì)算平臺(tái)購(gòu)置成本約為20萬(wàn)元),STORK程序的綜合計(jì)算成本也小于基于高性能CPU集群平臺(tái)開(kāi)發(fā)的中子學(xué)軟件。

4 結(jié)論

本文基于CPU/GPU異構(gòu)系統(tǒng)并采用二維MOC與三維SP3相耦合方法開(kāi)發(fā)了堆芯物理計(jì)算程序STORK。同通過(guò)對(duì)C5G7-MOX插棒基準(zhǔn)題和VERA#5基準(zhǔn)問(wèn)題的驗(yàn)證結(jié)果表明,STORK程序能夠獲得較高的計(jì)算精度。與國(guó)際上采用高性能CPU集群平臺(tái)開(kāi)發(fā)的同類(lèi)中子學(xué)計(jì)算軟件相比,基于CPU/GPU異構(gòu)系統(tǒng)開(kāi)發(fā)的STORK程序在計(jì)算效率和計(jì)算成本方面都具有明顯的優(yōu)勢(shì)。

目前研究已完成了STORK程序與同樣基于CPU/GPU異構(gòu)系統(tǒng)開(kāi)發(fā)的子通道程序NuCTF的耦合,并開(kāi)展了帶熱工反饋的國(guó)際基準(zhǔn)問(wèn)題以及國(guó)內(nèi)VVER-1000機(jī)組和M310機(jī)組等多個(gè)燃料循環(huán)的驗(yàn)證,這些工作將在后續(xù)文章中加以介紹。