黃 浩,薛新華,樊 旭
(四川大學 水利水電學院,成都 610065)
砂土地震液化是指飽和疏松的無黏性土或稍具黏性土,在不排水條件下受到地震荷載的持續作用,強度降低甚至消失,由固體狀態轉變為液體狀態的現象[1-5]。1964年美國阿拉斯加地震、日本新潟地震和1966年中國邢臺地震等,均產生了大面積的飽和砂土液化,造成建筑物嚴重破壞和人員大量傷亡。因此,國內外學者對砂土地震液化的判別開展了廣泛的研究。由于砂土介質的多樣性和地震荷載的隨機性,使得砂土液化的各種影響因素和砂土液化勢之間呈高度的非線性,傳統的經驗判別法無法考慮全部因素的影響。因此,近年來利用人工智能方法如人工神經網絡、遺傳算法、支持向量機等進行砂土液化判別越來越受到國內外專家的關注[6-13]。盡管上述人工智能算法在處理高維非線性問題方面具有其獨到的優勢,但這些算法仍存在一些不足之處,如人工神經網絡搜索全局最優值能力弱,容易產生過擬合陷入局部最優,且網絡收斂速度較慢;遺傳算法編程實現比較困難,局部搜索能力差,較依賴初始種群的選擇;支持向量機需要依賴經驗選取核函數和確定最優模型參數,在解決多維問題時穩定性和泛化能力較低等。
隨機森林(Random Forest,簡稱RF)是一種基于統計學習理論的組合分類智能算法[14]。該算法以決策樹為基本分類器,主要利用Bootstrap重抽樣方法從原始數據中抽取多個樣本,并對每個樣本進行分類樹構建,然后對所有分類樹的預測進行組合并通過投票方式得出最終結果。大量理論和實踐證明,該算法具有較高的計算精度,對噪聲和異常值具有很好的容忍性,不會出現過擬合現象,已被廣泛應用于臨床醫學、高光譜遙感、生物信息等領域。但將該方法應用于砂土地震液化判別方面的文獻尚不多見,因此本文對此進行了嘗試,以期為砂土地震液化判別提供一種新的思路和判別方法。
隨機森林實質是由一系列隨機決策樹構成的組合分類器。在隨機森林算法的實現過程中主要有兩次隨機選擇:①從樣本數據采集中采樣訓練數據集時,通過Bootstrap aggregating(簡稱Bagging)算法隨機抽樣生成T個不同的訓練樣本集,實現樣本擾動;②在每個訓練集中對應決策樹的M個屬性中隨機選擇m個屬性對當前節點進行分裂,實現屬性擾動。通過兩次隨機選擇,增加了決策樹的多樣性,從而使得RF算法具有較好的泛化性和噪聲容忍性。
基于隨機森林算法實現沙土地震液化判別的實質就是建立砂土地震液化影響指標與砂土液化判別結果的映射關系。具體步驟如下:
(1)利用Bootstrap重采樣(即有放回的隨機抽樣)方法從原始砂土液化樣本集S中隨機抽樣生成n個訓練集S1,S2,S3,…,Sn。原始樣本集中約36.8%的樣本不會出現在訓練集中,該部分數據被稱為袋外(Out of bag,簡稱OOB)數據,可用來評估模型的泛化誤差。
(2)利用每個隨機生成的訓練集,組成其對應的決策樹C1,C2,C3,…,Cn;在決策樹每個節點處的M個特征值中隨機選取m(m≤M)個特征作為當前節點的分裂屬性集,在每個節點上依據Gini系數選取最優的分裂方式對該節點進行分裂。若樣本空間S包含j個屬性,則Gini系數可定義為式(1)。
(1)
式中:Pj表示樣本集S包含屬性j的概率。
節點的Gini系數描述了節點的不純度,Gini系數越小,液化樣本的純凈度越高,分類效果越好。
(3)利用每一顆生成的決策樹對測試集中的砂土液化樣本X進行測試,得到對應的類別C1(X),C2(X),C3(X),…,Cn(X)。
(4)采用投票的方式,測試樣本集的結果采用n棵決策樹中輸出最多的類別,即輸出砂土液化判別結果。因此,基于隨機森林算法的砂土液化預測模型結構如圖1所示。

圖1 基于隨機森林算法的砂土液化預測模型結構圖Fig.1 Structure diagram of sand liquefaction prediction model based on random forest algorithm


表1 地震液化判別數據Tab.1 Data of soil liquefaction

表2 地震液化判別數據特征參數表Tab.2 Characteristic parameter of soil liquefaction


圖2 OOB錯誤率迭代曲線Fig.2 Error rate iteration curve of OOB
運用該模型對測試樣本進行測試,其中1代表未液化,2代表液化,判別結果如圖3所示。隨機森林實現過程中通過樣本擾動與屬性擾動增加決策樹的多樣性,提升算法泛化性、魯棒性與穩定性。與之同時,模型試驗具有不可重復性。因此,本模型測試精度取100次試驗的平均值,為97.84%。

圖3 隨機森林分類器分類效果Fig.3 Classification effect of random forest classifier
隨機森林算法能夠在分析數據的同時,通過程序提供的變量重要性評分(Variable importance measure, VIM)來衡量不同指標對分類結果的影響,通常采用Mean Decrease Accuracy和Mean Decrease Gini兩個參數來衡量,指標的重要程度越高,說明該指標具有越強的分類能力。從圖4可以看出砂土層的初始上覆壓力的指標重要程度最高,對該模型的精度影響最大。因此,應在地質勘察和室內試驗中盡可能提高該指標的量測精度,以便獲取最佳的預測結果。

圖4 砂土液化判別指標的重要性排序Fig.4 Comparasion of the importance of soil liquefaction discriminant index
目前,基于CPT實測數據的砂土液化判別,國內普遍采用《巖土工程勘察規范》(GB50021-2001)[17]推薦的方法(以下簡稱規范法)。規范法以歷史地震數據為基礎建立經驗公式,提出了在一定地震烈度條件下,場地的飽和砂土發生液化時所對應的單橋觸探液化臨界比貫入阻力pscr或雙橋觸探液化臨界錐尖阻力qccr的計算方法。其判別砂土液化表達式為:
pscr=ps0αwαuαp
(2)
qccr=qc0αwαuαp
(3)
αw=1-0.065(dw-2)
(4)
αu=1-0.050(du-2)
(5)
式中:pscr、qccr分別為飽和土CPT液化比貫入阻力臨界值和錐尖阻力臨界值,MPa;du為上覆非液化土層厚度,m,計算時應將淤泥和淤泥質土層厚度扣除;dw為地下水位深度,m;ps0、qc0分別為地下水深度dw=2 m、上覆非液化土層厚度du=2 m時,飽和土液化判別比貫入阻力基準值和液化判別錐尖阻力基準值,MPa:w為地下水位埋深dw的修正系數,地面常年有水且與地下水有水力聯系時,取w=1.13;u為上覆非液化土層厚度du修正系數,對于深基礎,取u=1.0;p為與CPT摩阻比有關的土性修正系數。
當實測比貫入阻力或錐尖阻力小于單橋觸探液化比貫入阻力臨界值或雙橋觸探液化錐尖阻力臨界值時,應判別為液化土;否則砂土不液化。
為驗證已建立的隨機森林沙土液化預測模型,采用文獻[18]提供的泰州長江大橋工程實例數據分別進行規范法與隨機森林的沙土液化判別。規范法與隨機森林模型判別對比結果如表3所示。

表3 砂土液化判別結果對比表Tab.3 Comparison of sand liquefaction discrimination results
在12組工程實測數據中,隨機森林模型共作出4次液化判別,8次非液化判別。其中,對照規范法,隨機森林模型作出的4次液化判別正確率100%,3次誤判全部集中于非液化判別。由于規范通常所用的液化強度比并不真正代表飽和砂土的極限狀態,含有一定的安全儲備[19],因此隨機森林沙土液化預測判別結果是合理的,并具有較高的液化判別精度。
砂土液化判別是一項復雜的巖土工程問題,對工程場地選擇具有重要影響,同時也受到多種因素的影響。基于CPT原位測試結果,綜合選取地震等級、埋深、上覆壓力、探錐阻力、最大地面加速度和有效上覆壓力等6個指標作為影響砂土液化的評判指標,建立了基于隨機森林算法的砂土地震液化預測模型,并基于工程實例將該模型的判別結果與規范法進行對比。得出的主要結論如下。
(1)本文建立的基于隨機森林的砂土地震液化預測模型經過工程實例驗證具有較高的準確率,是一種理想的砂土液化判別模型。
(2)較高預測精度表明本文的砂土液化評價指標的選取是合理的,并且6個指標中初始上覆壓力對模型的重要程度較高,應在地質勘察中盡可能提高該指標的量測精度,以便獲取最佳的預測結果。
(3)基于歷史地震數據建立的隨機森立砂土液化預測模型本質上也是一種經驗法,其預測精度受訓練樣本的影響。為提高預測模型的預測精度,應盡量擴大樣本庫,并選取不同地區的實測數據作為訓練樣本。
□