李紅豫, 滕 軍, 李祚華
(哈爾濱工業大學 深圳研究生院,深圳 518055)
?
鋼筋混凝土框架結構非線性靜、動力分析的高效計算平臺HSNAS(GPU)
——Ⅱ驗證分析
李紅豫, 滕軍, 李祚華
(哈爾濱工業大學 深圳研究生院,深圳 518055)
摘要:利用GPU強大的并行計算能力,開發了一種結構非線性有限元靜力、動力分析的高精度和高效率分析平臺HSNAS(GPU)。為了驗證所開發平臺的計算精度和效率,分別對反復荷載作用下的鋼筋混凝土構件層次和整體結構層次的擬靜力試驗以及典型框架結構的振動臺試驗進行模擬。結果表明HSNAS(GPU)平臺得到的計算結果與試驗結果吻合較好,該平臺能較好地模擬構件軸力-彎矩-剪力的多維耦合效應以及剛度和強度退化等非線性行為,求解精度較高。與傳統CPU計算平臺相比,HSNAS(GPU)平臺顯示出12倍~ 14倍以上的加速效率。鑒于GPU的巨大計算潛能空間,所開發的計算平臺為工程應用中大規模梁柱結構非線性有限元分析提供了高精度和高效率的分析手段。
關鍵詞:鋼筋混凝土;非線性分析;滯回性能;地震響應;加速比
土木工程結構有限元數值模擬屬于相對計算密集型的問題,一般計算自由度可多達上千萬,在傳統CPU(Central Processor Unit,中央處理器)平臺上完成計算任務,精度不高,耗時過多成為目前結構有限元模擬面臨的瓶頸。近年來計算機圖形處理器GPU(Graphics Processor Unit)的高速發展,基于GPU平臺的高性能并行計算已經成為國內外研究的熱點[1-3]。由于其硬件構造特殊,GPU的浮點運算、并行計算能力提供數十倍乃至于上百倍于CPU的性能,可以很好地解決大規模的科學計算問題[4]。因此,基于GPU并行計算能力,開發高精度和高效率的有限元分析平臺,為解決目前結構數值模擬計算時間成本大的瓶頸提供一種新的思路[5]。
結構的分析模型和非線性求解算法開發是制約結構非線性分析應用的重要因素。纖維模型[6]已應用于鋼筋混凝土梁柱結構有限元分析,但傳統纖維模型單元剛度中忽略了剪切和扭轉,亦或采用較為簡化的材料本構,導致分析計算精度不高,因此如何彌補纖維模型上述不足,成為研究精細化分析模型需要解決的問題之一。其次,在求解結構非線性有限元靜力、動力計算方法上,如何提高求解精度和效率,保證算法收斂性和穩定性,仍然存在許多需要深入研究的問題。
為此,本課題組在CPU串行與GPU并行相結合的異構架構上,提出了適用于GPU加速計算的有限元靜力、動力算法,開發了GPU的線性方程組并行求解器和結構動力彈塑性時程分析軟件,在纖維模型單元中引入扭轉、剪切變形,采用精細化的非線性材料本構,建立了一種鋼筋混凝土框架結構非線性有限元分析的高效計算平臺HSNAS(GPU) (High-Rise Structure Nonlinear Analysis Software based on GPU)。
作者在上篇論文Ⅰ的研究基礎上,采用多個適用于GPU計算的并行計算策略和優化策略,進一步提高了HSNAS(GPU)計算平臺的執行效率。對多個鋼筋混凝土構件和結構的非線性靜力、動力試驗進行模擬,驗證了HSNAS(GPU)平臺的計算精度。通過與傳統CPU計算平臺對比,HSNAS(GPU)獲得了至少12倍~14倍以上的計算加速比,且隨計算模型增大,加速效率將更加明顯。基于GPU架構的進一步更新,HSNAS(GPU)的計算潛能將更加提高,必為結構非線性有限元分析提供一種高效實用的手段。
1GPU并行計算平臺優化策略
1.1合并訪問
當連續的16個線程同時進行全局存儲器訪問,如果內存地址滿足對齊要求,則合并為同一訪問,這樣能有效提升訪問速率[7]。本文的荷載向量、剛度矩陣等作為全局存儲,但由于總剛矩陣的稀疏特性,不論是以行優先還是列優先存儲,每個對角線上元素均是不連續的,且隨著半帶寬的變換,相距間隔較大,這樣的存儲方式將嚴重影響GPU的計算效率。為了滿足GPU中數據合并訪問要求,對總剛矩陣的存儲方式進行改進,將二維數據存入一維數組中,使得GPU可同時處理的元素在一維數組中地址連續。同樣的存儲模式也應用于荷載(內力)向量、位移向量等。
1.2線程和線程塊的劃分技術
GPU中使用單指令多線程(Single Instruction Multiple Threads,SIMT)的執行模式[7],每個SM (Streaming Multiprocessor)的SIMT單元處理一個線程塊(block)中的32個線程(thread),即32個thread會被組成一個線程束(warp)來一起執行;同一個warp里的thread,將會以不同的數據來執行同樣的指令。因此在程序設計中,block大小應設置為32的整數倍。如果block中的線程數太少,空余線程閑置資源,浪費計算能力。反之,如果block中的線程數太多,各線程能夠利用到的寄存器資源變少,則性能也將會下降。
因此,在劃分線程和線程塊的時候,不僅要考慮程序中的數據量參數,而且要考慮GPU架構的硬件參數。在目前現有的硬件架構中,每個線程塊最多可有1024個線程。本文采用的GPU為基于GF104架構的NVIDIA Geforce GTX 460,含有7個SM,每個SM配置48個SP,當計算規模不大時,線程數量保持在32~128;當計算規模較大時,線程可逐漸增大到128~512。
1.3減少數據交互
對CPU與GPU通信進行優化,減少其數據交互,從而能降低通信時間。因此在GPU端執行核心計算任務,盡量讓GPU與CPU之間的數據傳輸發生在核心計算任務的前后。在實際計算過程中,將多次的迭代循環劃分成不同的步驟,每次由CPU向GPU提交一組循環計算,待GPU計算完成后將結果返回給CPU,然后再次進行下一組循環計算。
1.4程序的異步執行
當程序中不可避免地進行CPU和GPU之間反復大量的數據傳輸時,可以采用異步執行進行優化。異步執行是指程序在GPU進行數據拷貝的同時CPU就可接著執行程序中的下一步操作,從而實現CPU和GPU的并行計算。通過調用cudaMemcpyAsync()異步函數,不需要等待全部數據傳輸完畢,CPU就可以執行kernel的調用。這種采用“邊拷貝邊運算”的執行方式,可以有效隱藏CPU和GPU間數據傳輸時間,從而改善程序的整體性能。
除了上述優化策略,還包括為避免同一個warp中線程出現分支而在程序中減少分支判斷語句;采用原子函數、CUBLAS庫的優化函數實現更加復雜的算法;利用共享存儲器和寄存器等優化策略。
2HSNAS(GPU)平臺模擬分析
計算平臺采用Intel i5-2300,頻率為2.8 GHz,內存為4.00 GB的CPU和NVIDIA GeForce GTX 460的GPU搭建。GPU有336個流處理器核心,流處理器頻率1.4 GHz,計算能力2.1,顯存為1.0 GB,顯存帶寬為115.2 GB/s。軟件程序采用Microsoft Visual Studio 2012開發環境和CUDA Fortran的PGI Accelerator Visual Fortran編譯器,CUDA 5.0驅動。
2.1靜力分析
2.1.1柱構件的擬靜力試驗模擬
選取美國太平洋地震研究中心鋼筋混凝土柱抗震性能試驗數據庫(PEER-Structural Performance Database)中的低周反復荷載作用下矩形鋼筋混凝土柱試驗結果[8-13],按照不同的破壞模式,分別選取了彎曲破壞、彎剪破壞、剪切破壞的柱構件試驗。圖1所示為試驗模型和采用的截面配筋形式。表1列出了各試件的具體參數。

圖1 試驗模型和截面配筋形式Fig.1 Tested models and reinforcement details

序號試件軸壓比截面尺寸/mm混凝土強度/MPa配箍形式柱高/mm破壞模式1ParkNo60.1550×55032.0RU1650彎曲2ParkNo70.3550×55032.1RJ1650彎曲3SaatciogluBG30.2350×35034.0RI1645彎曲4OnoCA025C0.26200×20025.8RI300彎剪5Nagasaka320.35200×20021.0R300彎剪6Ohue2D16RS0.14200×20032.0R400彎剪7ArakawaOA20.18180×18031.8R225剪切8ArakawaOA50.45180×18033.0R225剪切
HSNAS(GPU)平臺的模擬計算采用位移加載,柱構件采用1~2個纖維單元模擬,每個單元采用5個Gauss-Labotto積分點,HSNAS(GPU)平臺滯回曲線和骨架曲線的計算結果與試驗結果對比如圖2~圖9所示。從圖中看出計算得到的各級滯回環與試驗吻合較好,能夠較準確地反映反復荷載下柱構件的強度退化、剛度退化和滯回耗能等特性。從骨架曲線對比來看,計算得到的極限承載力與試驗吻合較好,并且本文所采用的位移控制算法可以獲得較滿意的下降段。此外,對于不可忽略剪切變形的短柱(剪切破壞),也能較精確地描述構件的非線性受力全過程。

圖2 試件Park No6計算對比(彎曲破壞)Fig.2 Comparison of column Park No6 (flexure failure)

圖3 試件Park No7計算對比(彎曲破壞)Fig.3 Comparison of column Park No7 (flexure failure)

圖4 試件Saatcioglu BG3計算對比(彎曲破壞)Fig.4 Comparison of column Saatcioglu BG3 (flexure failure)

圖5 試件Ono CA025C計算對比(彎剪破壞)Fig.5 Comparison of column Ono CA025C (flexure-shear failure)

圖6 試件Nagasaka 32計算對比(彎剪破壞)Fig.6 Comparison of column Nagasaka 32 (flexure-shear failure)

圖7 試件Ohue 2D16RS計算對比(彎剪破壞)Fig.7 Comparison of column Ohue 2D16RS (flexure-shear failure)

圖8 試件Arakawa OA2計算對比(剪切破壞)Fig.8 Comparison of column Arakawa OA2 (shear failure)

圖9 試件Arakawa OA5計算對比(剪切破壞)Fig.9 Comparison of column Arakawa OA5 (shear failure)
2.1.2框架結構的反復荷載下的試驗模擬
選取文獻[14]的一榀三層兩跨平面框架結構的低周反復加載試驗。鋼筋混凝土框架結構模型和截面配筋如圖10所示,材料參數如表2所示。

圖10 試驗框架模型和截面配筋Fig.10 Frame model and reinforcement details
在HSNAS(GPU)平臺上模擬過程中,分別在框架中柱和邊柱的柱頂施加500 kN和300 kN的恒定豎向壓力,框架頂層梁處施加側向水平位移,位移增量步設置為0.5 mm。圖11給出了HSNAS(GPU)平臺計算獲得的滯回曲線和骨架曲線與試驗結果對比。由圖中看出,峰值點前,計算結果與試驗結果吻合較好,峰值點后的下降段,試驗有較強的強度退化和捏攏效應,而模擬尚未考慮鋼筋和混凝土之間的黏結滑移作用,因此計算結果與試驗結果略有差別。但是綜合對比滯回曲線和骨架曲線的峰值點、剛度退化和滯回特性,表明HSNAS(GPU)平臺具有較高的求解精度。

表2 鋼筋混凝土框架材料參數

圖11 框架模型在反復荷載作用下的計算對比Fig.11 Comparison of the static cyclic response of frame model
2.2動力分析
選取文獻[15]的一棟12層鋼筋混凝土框架結構的振動臺模型試驗,模型比例1/10。標準層每層配重19.4 kg,屋面層19.7 kg。結構模型如圖12所示,材料參數如表3所示。
HSNAS(GPU)平臺計算得到的動力特性與試驗結果對比如表4所示,動力特性計算偏差在3.5%以內,表明計算模型能較好地反映試驗模型的動力特性。El-Centro波地震波峰值為35 gal和200 gal的頂層加速度時程曲線對比如圖13所示。由圖中看出,在35 gal工況作用下,結構基本保持彈性狀態,計算結果與試驗結果吻合較好,但在200 gal工況作用下,計算結果與試驗結果出現偏差。分析主要原因是試驗隨著振動次數增加和輸入激勵的加速度峰值增大,框架結構出現損傷,剛度退化嚴重,導致結構呈非線性響應。因此為了考慮前次地震輸入累積對本次地震反應所造成的影響,本文采用連續接力的計算方式,按照試驗的工況順序進行模擬,表5給出各工況下框架模型頻率計算結果。由表5知,200 gal工況下,頻率相對于初始降低幅度較大,表明框架結構已經受到較嚴重的損傷。在修正了框架模型頻率之后,計算得到的頂層加速度時程曲線(如圖14所示)與試驗結果較為吻合。圖15給出層間位移角的對比,從圖中看出,層間位移角沿高度方向的分布較為吻合,且均在4~6層處達到最大值。綜合以上分析,說明HSNAS(GPU)平臺的非線性時程分析能夠較好地描述結構的線性和非線性動力響應。

圖12 試驗框架模型和截面配筋形式Fig.12 Frame model and reinforcement details

材料規格彈性模量/MPa抗壓強度/屈服強度/MPa微粒混凝土1~2F8.490×1037.9693~4F7.062×1035.7355~6F7.649×1037.4027~8F7.917×1037.6699~10F7.322×1037.20211~12F8.065×1038.202鐵絲14#1.90×10539120#1.90×105327

表4 動力特性對比

圖13 頂層加速度響應對比Fig.13 Comparison of top story acceleration

Hz

圖14 模型修正后頂層加速度響應對比(El-Centro波200 gal)Fig.14 Comparison of top story acceleration of revised model

圖15 層間位移角對比Fig.15 Comparison of inter-floor drift ratio
3HSNAS(GPU)平臺的計算效率
3.1靜力問題
為了研究HSNAS(GPU)平臺的計算效率,分別測量HSNAS(GPU)平臺和傳統CPU串行平臺的計算耗時,采用加速比來衡量平臺計算速度所能得到的加速倍數[4]。表6給出框架有限元模型的單元劃分。圖16給出框架劃分規模分別與計算時間及加速比的關系,由圖16知,模型劃分單元數越大,HSNAS(GPU)平臺計算效率相比CPU平臺也越高,自由度數1 782時加速比為14倍。

表6 靜力計算框架模型大小

圖16 單個位移增量步計算耗時及加速比Fig.16 Comparison of computation time and speed up for one incremental displacement-step
3.2動力問題
分析模型單元劃分如表7所示。動力計算相對于靜力計算耗時更多,因此分別統計Newmark法單個時間步下的PCG線性方程組并行求解器耗時,與Newmark法10個時間步下的計算耗時,分別計算其加速比,分析結果見圖17和圖18。從圖17看出,采用GPU的線性方程組并行求解器,能夠較大程度地減少方程組的求解時間,當模型自由度為7 500時,獲得了25倍的加速效率。從圖18看出,Newmark法中10個時間積分步的加速比為12倍,不及每個時間步內求解方程組25倍的加速效率。這是因為在每一個時間步開始和結束時,數據需要在CPU和GPU之間進行傳輸,這樣的數據傳輸相對GPU的直接訪問是緩慢的,因此數據通信需要耗掉一定時間。但是隨著模型的計算規模增大,GPU和CPU之間的通信時間占總時間將逐漸減少。此外,在傳統CPU計算平臺對一個10 800自由度數的框架結構模型進行了大震彈塑性動力響應分析,整個計算耗時需要將近兩天半時間,而采用本文開發的HSNAS(GPU)平臺,只需5個小時就能完成計算,可見本平臺對減小時間成本具有較大優勢。

表7 動力計算框架模型大小

圖17 單個時間步的PCG求解器計算耗時及加速比Fig.17 Comparison of computation time and speed up for PCG solver in one time-step

圖18 Newmark法10個時間步的計算耗時及加速比Fig.18 Comparison of computation time and speed up for ten time-steps of Newmark-beta method
4結論
本文利用GPU強大的并行計算能力,開發了結構非線性有限元靜力、動力分析的高精度和高效率分析平臺HSNAS(GPU),對該平臺進行了計算精度和效率分析,獲得了以下結論:
(1) HSNAS(GPU)平臺上可有效地模擬低周反復荷載條件下鋼筋混凝土結構的非線性滯回性能,模擬得到的滯回關系曲線、骨架曲線與試驗結果吻合較好,能夠較好地考慮構件的剛度退化和強度退化等效應并且獲得了較滿意的下降段,對于橫向剪切變形不可以忽略的短柱等構件,也能較準確地描述其非線性性能。
(2) HSNAS(GPU)平臺上可有效地模擬鋼筋混凝土結構的非線性地震響應,通過與振動臺試驗對比表明計算精度較高。
(3) 在HSNAS(GPU)平臺上對鋼筋混凝土框架結構進行非線性靜力和動力分析的計算效率研究,分別獲得了14倍和12倍以上的提速效率。在并行前提條件相同的情況下,模型越復雜,計算數據越龐大,GPU的加速比會越高。因此可以證明,鑒于GPU的巨大計算潛能空間,本文開發的HSNAS(GPU)平臺,可在規模更大更復雜的框架計算模型中推廣應用。
參 考 文 獻
[1] Barreiro A, Crespo A J C, Domínguez J M, et al. Smoothed particle hydrodynamics for coastal engineering problems [J]. Computers & Structures,2013, 120: 96-106.
[2] Chetverushkin B N, Shilnikov E V, Davydov A A. Numerical simulation of the continuous media problems on hybrid computer systems [J]. Advances in Engineering Software, 2013, 60/61: 42-47.
[3] Bryan B A. High-performance computing tools for the integrated assessment and modelling of social-ecological systems[J]. Environmental Modelling & Software, 2013, 39: 295-303.
[4] 劉小虎, 胡耀國, 符偉. 大規模有限元系統的GPU加速計算研究[J]. 計算力學學報, 2012, 29(1): 146-152.
LIU Xiao-hu, HU Yao-guo, FU Wei. Solving large finite element system by GPU computation [J]. Chinese Journal of Computational Mechanics, 2012, 29(1): 146-152.
[5] 李紅豫, 滕軍, 李祚華. 基于CPU-GPU異構平臺的高層結構地震響應分析方法研究[J]. 振動與沖擊,2014,33(13): 86-91.
LI Hong-yu, TENG Jun, LI Zuo-hua. Analysis method for seismic response of high-rise structure based on CPU-GPU heterogeneous platform [J]. Journal of Vibration and Shock,2014,33(13): 86-91.
[6] Spacone E. Flexibility-based finite element models for the nonlinear static and dynamic analysis of concrete frame structures [D]. Berkeley,CA:University of California, 1994.
[7] 張舒, 褚艷利. GPU高性能運算之CUDA[M]. 北京:中國水利水電出版社,2009.
[8] Tanaka H, Park R. Effect of lateral confining reinforcement on the ductile behavior of reinforced concrete columns [R]. Christchurch, New Zealand: University of Canterbury, 1990.
[9] Saatcioglu M, Grira M. Confinement of reinforced concrete columns with welded reinforcement grids [J]. ACI Structure Journal, 1999, 96(1): 29-39.
[10] Ono A, Shirai N, Adachi H, et al. Elasto-plastic behavior of reinforced concrete column with fluctuating axial force [J]. Transactions of the Japan Concrete Institute, 1989, 11:239-246.
[11] Nagasaka T. Effectiveness of steel fiber as web reinforcement in reinforced concrete columns [J]. Transactions of the Japan Concrete Institute, 1982, 4:553-560.
[12] Ohue M, Morimoto H, Fujii S, et al. The behavior of RC short columns failing in splitting bond-shear under dynamic lateral loading [J]. Transactions of the Japan Concrete Institute, 1985, 7:293-330.
[13] Arakawa T, Arai Y, Mizoguchi M, et al. Shear resisting behavior of short reinforced concrete columns under biaxial bending-shear [J]. Transactions of the Japan Concrete Institute, 1989, 11:317-324.
[14] 徐云扉, 胡慶昌, 陳玉峰, 等. 低周反復荷載下兩跨三層鋼筋混凝土框架受力性能的試驗研究[J]. 建筑結構學報, 1986, 7(2): 1-16.
XU Yun-fei, HU Qing-chang, CHEN Yu-feng, et al. The experimental study of the behavior of a two-bay three-story RC frame under cyclic loading [J]. Journal of Building Structures, 1986, 7(2): 1-16.
[15] 呂西林, 李培振, 陳躍慶. 12 層鋼筋混凝土標準框架振動臺模型試驗的完整數據[R]. 同濟大學土木工程防災國家重點實驗室振動臺試驗室, 2004.
基金項目:國家自然科學基金重大國際(中美)合作研究項目(5126112037);國家自然科學基金面上項目(51278155;51378007)
收稿日期:2015-04-07修改稿收到日期:2015-07-07
通信作者李祚華 男,博士,副教授,1978年生
中圖分類號:TU375
文獻標志碼:A
DOI:10.13465/j.cnki.jvs.2016.14.009
An efficient platform HSNAS(GPU) for nonlinear static and dynamic analysis of reinforced concrete frames—Ⅱ. Program verification and analysis
LI Hong-yu, TENG Jun, LI Zuo-hua
(Shenzhen Graduate School, Harbin Institute of Technology, Shenzhen 518055, China)
Abstract:A simulation platform HSNAS(GPU) for nonlinear static and dynamic analysis based on the parallel computing ability of the graphics processing unit (GPU) was developed. In order to verify the precision and efficiency of the HSNAS(GPU), static cyclic loading tests and a shaking table test on reinforced concrete (RC) columns and frames were simulated using the platform HSNAS(GPU). The results of HSNAS(GPU) show a good agreement with the results of tests. Considering the strength/stiffness degradation and the coupling effects among axial force, shear force, and bending moment, the complicated nonlinear behavior of RC columns can be simulated effectively and precisely. The static and dynamic analyses using the developed platform HSNAS(GPU) achieve a speedup of 12-14 times in computation compared with the traditional serial platform. Based on exploiting the potential of GPU computation, the platform HSNAS(GPU) could provide a computation scenario with high accuracy and efficiency for the large-scale nonlinear analysis of reinforced concrete frames.
Key words:reinforced concrete; nonlinear analysis; hysteretic behavior; earthquake response; speedup
第一作者 李紅豫 女,博士生,1985年生