陳曙東
(西安工程大學電子信息學院,西安 710600)
滑坡、泥石流等地質災害作為目前影響我國人民生命財產的重要威脅來源,其發生有規模大、范圍廣的特點,且具有突發性[1-2]。特別是在丘陵山區,地殼運動劇烈,同時由于人類對山區進行改建擴建等相關活動,地質災害頻繁發生。根據2005~2019年我國災害發生的相關數據的分類統計,滑坡災害類型的發生占比達到了72.16%,因此預測滑坡災害的發生是非常有必要的[3-4]。我國學者針對滑坡災害的研究雖晚于國外學者,但成果顯著。于懷昌[5]將物聯網技術應用于多傳感器組網中,在欒川魏家溝滑坡實時監測項目上得到了應用,為滑坡成災參數選取提供一種新的可行性判據。但已有的模型都存在模型單一、預測精確度較低等問題。隨著科技不斷進步,新的預報模型不斷涌現,集成學習算法逐漸被廣泛應用。王茜[6]等人在多個數值預報模型的基礎上建立了集合預報模式系統,使得空氣日均濃度模擬相關系數達到了0.5~0.6,相關成果在上海世博會的空氣質量預警中得到了應用,取得很好的效果。針對影響因素的選取問題,汪國新[7]、黃亮[8]、陳樂瑞[9]等引入了核主成分分析法,通過該方法對影響因素進行降維,篩選出主要影響因素,降低了模型復雜度,避免了維數災難等問題的產生。
在此以陜西省山陽縣相關監測數據為研究對象。山陽縣位于陜西省東南部,地處秦嶺南麓,是一個“八山一水一分田”的土石山區。在地形上,呈現出“三山夾兩江”的特點。這也導致了研究區地質災害發生較為頻繁的特點,地質災害造成的損失嚴重的影響了人民群眾的生命財產安全。采用核主成分分析法選取預報參數,基于Logistic回歸算法建立了基于滑坡災害發生概率預報模型,并將該模型成功應用于陜西省山陽縣滑坡重點災害實驗區,為滑坡災害的預報及治理提供了一條新思路。
通過對陜西省山陽縣地質災害的影響因子做相關的調查和分析[10],發現影響因子不僅與地質條件或者山體內部的巖層有關,與部分外部因素也存在一定的關系,但是這些因素對最終的影響結果也存在差異。對此,通過核主成分分析法[11]篩選得到影響滑坡災害的主要因子,將各個影響因子根據重要性進行排序和選擇,減少了模型訓練時間。由于在高維空間中成災因子的選取是一個非線性的問題,KPCA方法易于處理非線性問題,特別是對于高維空間中成災因子的選取上有一定的優勢,在降維篩選中應用廣泛。KPCA方法實現的具體過程如下:
令樣本集為:X={x1,x2,...,xM},其中xk∈RN為列向量;M為樣本總數。協方差矩陣如下式:

其中,φ為滿足的非線性映射。
對C進行特征分解:令λν=Cν;其中特征向量ν是由φ(x1),φ(x2),...,φ(xM)組成的空間。
當所有特征值λ≥0時,得到表達式:

式中:k,r=1,2,...,M,νr為φ(x)的線性組合:

定義M×M維矩陣K,定義內積為Kij=<φ(xi)·?φ(xj)>,式中i,j=1,2,...,M,將式(1)和式(2)帶入式(3)得到:

其中,Mλr和cr是對應于K的特征值和特征向量。求得樣本φ(x)在特征向量的投影:

式中,r=p,p+1,...,M,g(x)為對應于φ(x)的非線性主元分量,所有投影形成一個矢量。
求解g(x)時,利用Mercer定理,使用核函數:

代替空間的點積運算,則:

當φ(x)的均值不為0時,空間樣本變為:

最后按照如下二式計算各成分的貢獻率Q及累計貢獻率Qall:

Logistic回歸(邏輯回歸)算法是一種廣義的線性回歸分析模型,由于其易于實現、解釋性好、容易擴展等優點廣泛應用于概率預測領域。和一般線性回歸模型不同的是,邏輯回歸模型是通過sigmoid函數將輸出的值限定在區間[0,1]上。算法中引入的sigmoid函數形式如下:

線性回歸模型為:z=wTx+b;邏輯回歸模型是在線性回歸的基礎上,使用sigmoid函數,將線性模型的結果壓縮到[0,1]之間,使其擁有概率意義。因此邏輯回歸函數可變換為:

對公式(12)取對數得:

在給定樣本x的條件下,將該樣本類別為1的概率視為類后驗概率。因為:P(y=1|x)+P(y=0|x)=1,則公式(13)可重寫為:

給定訓練數據集Z={(x1,y1),(x2,y2),...,(xN,yN)},其中xi∈RN,yi∈(0,1)用極大似然估計法估計模型參數w。設P(y=1|x)=f(x),P(y=0|x)=1,已知似然函數,則對數似然函數為:

對式(15)對w求偏導,令L(w)=0,便可求解出w:

由于L(w)為上凸函數,對式(16)乘以-1,即可變為下凸函數,此時利用梯度下降法求解最小值,即:


出于實驗需要,選取陜西省山陽縣地質災害監測點的監測數據作為模型數據集,采用前80%的數據作為訓練集,后20%的數據作為測試集。通過對數據的初步篩選,共選取100組樣本作為滑坡預報模型的數據集。選取前80組數據作為滑坡預報模型的訓練集,后20組數據作為測試集,用來驗證預報模型的準確性。通過相關資料分析得到影響滑坡發生的12個主要影響因子:土壤含水率;雨量流量;坡形特征;溫濕度;斜坡傾角;降雨量;裂縫位移;區蒸發量;岸坡水文地質條件;高程;孔隙水壓力;土壓力。對研究區監測點的歷史數據進行研究,利用歸一化的方法對數據進處理,隨后采用KPCA方法進行篩選。
根據相關工程實踐經驗,將滑坡體影響因素的主成分累積貢獻率設定在80%。貢獻率計算結果如表1。可見,前6個影響因素的累計貢獻率已經滿足實驗設定要求,因此將這些影響因子作為預報模型的輸入參數。

表1 滑坡體影響因素特征值及各主成分貢獻率
在上述因子選取的基礎上,選取降雨量、土壤含水率、土壓力、裂縫位移、斜坡傾角、高程這6個變量作為滑坡預報模型的主要輸入變量,所構建的樣本模型結構如圖1。在此模型基礎上,利用邏輯回歸算法對滑坡發生概率進行訓練。部分樣本數據如表2所示。

圖1 訓練樣模型構建

表2 部分樣本數據
將驗證的20組數據數據輸入上述模型進行驗證。預測值與實際值的對比情況如圖2所示。

圖2 模型預測結果對比
由圖可見,Logistic回歸算法預測值與實際值較為接近,僅部分值存在差異,相關預測結果滿足實驗預期。所建模型已成功應用到山陽縣重點災區實驗區,展示出了較高預測準確率和良好的收斂性。
首次將Logistic回歸算法應用到滑坡災害概率預測中。通過詳細討論KPCA核主成分分析法及建立Logistic回歸算法預測模型,采用了KPCA方法將初始12種滑坡災害影響因子降維至6維,降低了模型結構復雜度,避免維數災難的發生,所建立的預報模型采用陜西省山陽縣的部分監測點的實驗數據進行了驗證。然而預測災害發生時間的方法還需進一步深入研究。后續工作的重點應放在尋找針對與時序具有相關性的預測模型進行研究,從而更準確、更有效的對滑坡災害發生時間點進行預測、預報。