王 飛,李東珺,閆 冬,王 威
(1.南陽理工學院建筑與城市規劃學院,南陽 473004;2.南陽師范學院土木建筑工程學院,南陽 473061;3.北京工業大學建筑與城市規劃學院,北京 100124)
中國是世界上震害最嚴重的國家之一,隨著城城鎮進程的加快,許多中心城區面臨地震潛在次生災害的風險日益增高[1-2]。由于飽和砂土或砂礫土液化導致的建筑物震陷是造成城區建筑物破壞的主要危害之一,也是衡量工程結構失效與否的主要指標之一[3-4]。因此,對建筑物震陷量進行科學合理預測研究,是進行地震小區劃及提出抗震對策措施的重要依據。
目前,關于建筑物液化沉降量的預測方法研究主要有兩類[5]:①確定性方法,如現場調查法和抽樣統計方法;②不確定性方法,如概率分析法、模糊數學法和人工神經網絡等。一般來講,現場調查法是所有方法中最直觀、最可靠的方法,但存在工作量大、數據煩瑣、計算周期長等缺陷。概率分析法雖能夠考慮和模擬隨機事件的不確定性,但具有結果不穩定,沒有考慮隨機序列之間的相關性等缺陷。模糊數學理論在確定模糊算子時,存在一定的主觀隨意性。人工神經網絡對訓練樣本和學習樣本的數量要求比較高。因此,有必要進一步完善和豐富建筑物震陷量預測模型與方法。
高斯過程回歸(Gaussian process regression,GPR)是一種基于貝葉斯概率框架下的無參核方法[6-7]。該模型不僅可以對未知輸入進行預測,還可以先驗概率的形式表征過程的先驗知識,從而提高模型性能,與BP(back propagation)神經網絡與SVM(support vector machine)方法相比,其模型仿真參數更少,優化和收斂過程也更易于實現。另外,高斯模型可從給定的樣本中選擇超參數,對于其他機器學習方法則需要通過交叉驗證的方法進行獲取超參數。目前,許多學者將高斯模型廣泛應用于不同的專業領域:如燕柳斌等[8]提出一種基于高斯過程機器學習的巖溶塌陷預測模型,并將其成功應用于工程實例。夏戰國[9]針對軸承性能數據中的時序性難以回歸的問題,采用EM(expectation maximization)算法學習高斯回歸模型參數,且采用Cholesky分解法降低算法復雜度,并與其他預測方法進行驗證對比分析。張云鵬等[10]針對圍巖變形的高度非線性問題,采用高斯過程回歸模型對日本及四川兩個變形隧道工程進行仿真預測分析。龔艷冰等[11]為快速準確預測洪澇災害損失情況,提出基于高斯過程回歸模型的災害損失預測方法,并成功應用于重慶市的洪澇災損仿真模擬過程中。基于此,為了提高和改善模型的泛化能力和預測精度,本文根據高斯過程理論和貝葉斯規則對訓練樣本進行的“歸納推理學習”,即綜合先驗信息,調整各隨機變量的后驗分布。采用EP(expectation propagation)算法,獲得預測樣本潛在函數的近似后驗高斯分布,并與LSSVM(least squares support vector machine)模型、PLS(partial least squares)模型和MLR(multiple linear regression)模型進行對比驗證分析,結果分析驗證了高斯過程回歸預測模型的精度性和可靠性[12-13]。
高斯過程又稱為正態隨機過程[14],設數據集D={(xi,yi),i=1,2,…,n}為模型的訓練集,其中xi是其d維輸入變量,yi是目標輸出。若f服從高斯分布,即:f~GP(m,k),則m(x)是函數m的均值函數,k是協方差函數。根據高斯過程定義,均值函數f(x1),f(x2),…,f(xn)服從多元高斯分布,而且,m(xi)是多元高斯分布的均值向量,K是協方差矩陣,因此,服從高斯分布的均值函數可以描述為
f(xi)~MVN[m(xi),K],i=1,2,…,n
(1)
式(1)中:
(2)

(3)
式(3)中:K*=[k(x*,x1),k(x*,x2),…,k(x*,xn)],K**=k(x*,x*)。
根據多元高斯分布的條件形式,可以得出其回歸預測方程:
f*|X,y,X*~GP[m(x*),cov(f*)]
(4)
式(4)中:矩陣X是由xi列組成,矩陣X*是由xl*列組成。
(5)
(6)
根據上述分析,可以得出以下結論,協方差函數k的選擇對于高斯回歸過程分析至關重要。因此,協方差函數k必須滿足積分算子理論中Mercer定理條件,該定理條件的核函數可分為穩態和非穩態兩類。常用的平方協方差函數是指數函數,即:
(7)
考慮到白噪聲的情況,式(7)可用式(8)替代:
(8)

在實際的高斯過程回歸模型預測研究中,一般會將協方差函數進行預先設定[6],這樣可以使泛化更簡單些。另外,在樣本數據分布的基礎之上,可以對較為復雜的情況進行相關統計分析。為了使樣本數據更加清晰明確,有必要用更為復雜的協方差函數對樣本數據之間的關系進行重新描述。

(9)
2008年汶川地震之后展開了液化專項考察,發現較多的飽和砂土液化現象,并導致了地表破壞、噴水冒砂、結構不均勻震陷破壞等危害,影響范圍之廣[15],如圖1所示。

圖1 汶川地震中砂土液化破壞情況Fig.1 Sand liquefaction damage in Wenchuan Earthquake
一般來講,飽和砂土液化引起的建筑物震陷與三方面因素有關[5]:①地震動方面,地震震級、烈度、地面峰值加速度和震中距等;②上部結構特征方面,結構類型、平面布置、基礎類型和荷載大小等;③地基土特性方面,土性、厚度、承載力、液化厚度及埋深等。基于此,選取沉降因素為:地震烈度,長高比,基底壓力,寬深比,土的相對密度,非液化層厚度和地下水位。不同烈度下基底壓力對建筑物沉降量的影響如表1所示,地基基礎震害等級劃分表詳如表2所示。

表1 基底壓力對多層建筑物沉降的影響Table 1 Effect of foundation pressures on induced settlements of multi-stones building

表2 地震基礎震害等級劃分程度Table 2 Gradation on seismic damage of foundation
強震導致承災體發生沉降的原因相當復雜,影響因素也比較繁多,主要是由于飽和砂土液化或軟黏土的軟化引起的,液化是造成建筑物發生震害的首要原因,大約50%以上的地基震害源于液化。鑒于此,在抗震防災規劃設計里如能準確預估液化沉降,可以為抗震措施提供重要依據,借鑒李方明[5]液化判別及震陷預估思想,利用如日本新瀉地震液化震陷實例35個、唐山地震和海城地震實例20個及天津市建筑物震陷實例14個,共計震陷實例69個,選取其中61個樣本用來學習和測試,其中學習樣本41個,測試樣本20個,占樣本總數的33%,部分樣本數據如表3、表4所示。

表3 原始訓練樣本Table 3 Original data of study samples

表4 原始測試樣本Table 4 Original data of forecast samples
PLS方法因能處理復共線性、高維性、強噪音、甚至數據缺失的復雜問題,而廣泛被應用于統計學和災害學等領域。PLS將因變量Y和自變量X進行雙線性分解:Y=UQT+F,X=TPT+E,使得潛隱變量U和T盡可能多地攜帶數據樣本中的變異矩陣信息,并使進行最大重疊或相關,即有:U=CT+e,系數C可以由最小二乘法求得,e為殘差矢量,以上要求表明:在提取U和T相關信息時,盡可能代表Y和X的信息量,同時T對U又有最強的解釋能力。MLR是以多個解釋變量的給定值為條件的回歸分析,其一般表達形式為:Y=b0+b1X1+b2X2+…+bjXj+…+bkXk+μ,其中k是解釋變量的數目,bj(j=1,2,…,k)是回歸系數,μ是去除k個自變量對Y影響的隨機誤差。MLR模型的參數估計出來后,即求出樣本回歸函數后,還需進一步對該樣本回歸函數進行統計檢驗,以判定其參數估計的可靠程度。LSSVM是基于多類核的機器學習,其基本原理為:采用核函數,根據Mercer定理,從原始空間抽取數據特征,將原始空間中的數據樣本映射為高維特征空間中的一個向量,從而可以解決線性不可分的難題,其是SVM的一個擴展,可以表征為是SVM在二次損失函數下的一種形式,其只求解線性問題,且求解速度快,在函數逼近和估計方面有著廣泛應用。
對于上述預測模型,需要對其進行嚴格的統計交叉驗證處理,以此來確定其有效性和是否處于病態,采用內外部相結合的方式來測試其可靠性,內部驗證主要有訓練集擬和優度(goodness-of-fit)和10重交叉驗證(10-fold cross-validation)兩部分組成,10重交叉驗證將訓練集樣本均分為10組,每次抽出一組剩下9組進行模型預測,重復到每組都被抽中為止,以預測結果的優劣程度作為評價標準。統計建模和交叉驗證采用MATLAB工具箱ZP-explore[12-13]來完成,該程序已在各領域得到廣泛應用和驗證,并確認了其科學性與可靠性。
基于上述建模思路,分別采用MLR、PLS、LSSVM和GPR在原始訓練學習樣本基礎上進行預測建模,在此過程中,除了GPR模型無須人為干預,采用內嵌最大化邊際似然法自動獲取超參數外,其他三種方法均須選取模型參數確定策略,經模型計算可確定超參數,整體尺度的超參數overall scales為z1=0.337 5、z2=0.121 4、z3=1.384 6、z4=0.000 5。長度尺度的超參數length scales為:r1=10.660 3、r2=10.664 7、r3=10.660 6、r4=10.664 1、r5=10.662 9、r6=10.603 2。另外,其他三種統計方法也分別對訓練集和測試集樣本進行建模分析。對于MLR模型參數的選擇和確定,考慮利用最大似然估計得到其參數估計值,經模型計算可得其回歸系數為b0=0.013 8、b1=0.015 8、b2=0.002 4、b3=0.000 6、b4=-0.024 9、b5=-0.191 3、b6=0.001 1、b7=0.000 5。PLS模型最佳潛變量的數目由10-fold cross-validation確定,即:依次向該模型增加潛在變量的數目,同時得到其均方根誤差值(RMSCV)的大小,直到達到其最小時的潛變量個數為最佳,經模型計算得到其最佳個數為1。LSSVM的建模思路是基于SVM方法基礎之上的,該模型采用核函數擬采取RBF核函數,并基于網格的搜索方法來確定相關參數取值,在一定程度上提高了該模型的預測精度,為了與GPR模型進行對比驗證分析,四種模型的樣本訓練集和測試集震陷量預測對比分析示意圖如圖2所示,非線性GPR模型測試集預測結果給出了90%置信區間。


表5 GPR模型與其他模型參數對比Table 5 Contrast of parameter analysis between GPR and other models

圖2 四種統計模型擬合預測結果Fig.2 Fitting prediction result of four statistical models
以上研究表明:非線性預測模型GPR模型表現出了優秀的擬合和預測能力,相比來看,線性模型MLR和PLS模型表現較差,可看出 GPR和LSSVM模型表現出了良好的適應能力和執行能力,兩種模型訓練樣本和測試樣本預測值和實際震陷量值較為接近,如圖3所示,表明兩種模型均有較強的自學能力和外推能力。也進一步驗證了模型的可靠性與適用性。

圖3 模型預測對比分析Fig.3 Comparison analysis of several models
(1)研究充分考慮建筑物震陷量的形成機理,構建了建筑物震陷預測的高斯過程回歸非線性模型,該模型通過對原始訓練樣本和測試樣本的預測后,建立了基于各輸入因素和輸出因素之間的非線性關系,并通過模型仿真對比分析和蒙特卡洛交叉驗證,與其他統計模型進行對比驗證分析,顯示了模型優勢之處。
(2)目前由于相關建筑物震陷實測基礎資料較少,在模型仿真過程中會導致數據過于離散化,因此會造成其預測精度不高,故須要增加新的實測學習樣本資料,并通過模型訓練提高其泛化能力,進一步提高其預測仿真效果及模型的適用性。