楊創奇 陶攀 楊正








摘要:研究合適的縣域滑坡易發性分區的方法,對于滑坡的防治有著非常重要的現實意義。鑒于此,基于陜西省延安市吳起縣的717個滑坡樣本,選取坡度、坡向、高程、平面曲率、剖面曲率、年平均降雨量、距道路的距離、距河流的距離、巖土體類型和NDVI作為影響因子,計算對應的熵指數,構建了基于熵指數的建模數據集。隨后,基于建模數據集,耦合熵指數(IOE)和邏輯回歸樹模型(LMT),建立了IOE-LMT混合分類模型,并繪制了吳起縣滑坡易發性分區圖。利用多種統計學指標、ROC曲線下的面積(AUROC)和平均絕對誤差(MAE)評價分區精度和模型的泛化性能。結果表明:IOE-LMT模型的泛化性能較強(AUROC=0.942),且滑坡易發性分區圖的精度較高;研究區內滑坡易發于黃土溝道范圍內,并且研究區北部的滑坡易發性明顯高于南部。評價結果合理可靠,可為當地的滑坡防治和國土空間規劃提供參考。
關 鍵 詞:滑坡易發性分區; 機器學習; 混合分類模型; 空間分析; 延安市; 陜西省
中圖法分類號: P694
文獻標志碼: A
DOI:10.16232/j.cnki.1001-4179.2022.05.021
0 引 言
滑坡是世界上發生頻率最高、分布范圍最廣的地質災害之一。如何精確地預測滑坡的發生范圍是滑坡防治的關鍵問題。滑坡易發性分區的原理是通過計算后驗概率來預測滑坡發生的可能性,是一種預測滑坡的有效方法[1]。現階段,滑坡易發性分區的評價方法總體分為兩大類:一類是知識驅動型方法,例如層次分析法(AHP)[2]、模糊邏輯法[3]、專家打分法[4]等。該類方法依賴人為的先驗知識,計算結果容易受到人為因素的干擾。另一類是數據驅動型方法,主要包括統計學方法和機器學習算法。統計學方法被大量應用于滑坡易發性分區的研究中,如確定性指數模型(CF)[5]、熵指數(IOE)[6]、證據權模型(WoE)[7]等,該類模型可以明確地反映滑坡與影響因素之間的聯系,計算簡便,但過度依賴樣本的質量,往往會造成結果錯分的現象出現。機器學習算法也被廣泛應用于滑坡易發性分區研究中,例如邏輯回歸(LR)[8]、決策樹模型(DT)[9]、支持向量機(SVM)[10]、人工神經網絡[11]等,雖然機器學習算法的計算效率高,但參數的選擇對機器學習模型的分類精度影響較大,并且大多數的機器學習算法無法直觀地展現分類過程,且計算量大,難以在大范圍地區開展分區建模。近年來,結合了統計學方法和機器學習算法優點的混合模型被越來越多地應用于滑坡易發性分區中,并取得了令人滿意的效果,如IOE-LR[12]模型、ANFIS[13]模型、PSO-SVM[14]模型等。
雖然諸多學者在縣域尺度下利用統計學習方法、機器學習算法和混合模型進行了滑坡易發性分區的研究,但不同區域內的地質條件和環境背景差異較大,并且模型的性能不僅會受到內部參數的影響,同時也會受到由特定研究區域生成的建模數據的影響,所得到的滑坡易發性分區結果的準確性以及合理性也會有所差別。目前,關于黃土高原地區縣域尺度下的滑坡易發性分區研究較少,該區域內的各縣仍然缺乏區域性國土空間用途管制規劃必備的滑坡易發性分區圖,探索利用合適的模型開展滑坡易發性分區研究,以及如何提高分區結果的準確性始終是此類地區需要研究的焦點。鑒于此,本文以陜西省延安市吳起縣作為研究區,基于野外實際調查的滑坡樣本、地質環境背景資料和前人的研究成果,利用混模型的優勢,借助于耦合邏輯回歸樹模型(Logistic model tree,LMT)與熵指數模型,構建了IOE-LMT模型,并對研究區滑坡易發性分區開展研究;最后對分區結果的精度和模型的泛化性能進行定量評估,研究結果可為研究區的滑坡防治工作以及相關區域的地質災害研究提供參考。
1 研究區概況和數據源
1.1 研究區概況
吳起縣位于陜西省延安市西北部,地理坐標為東經107°38′57"~108°32′49",北緯36°33′33"~37°24′27",總面積為3 791.5 km2(見圖1)。境內河流均屬黃河水系,河網密度約為0.86 km/km2,多年地表徑流量為1.357億m3。研究區地貌類型屬于黃土丘陵溝壑地貌,高程介于1 203~1 809 m之間,總體呈現出東北高、西南低的趨勢。研究區氣候類型屬于半干旱半濕潤溫帶大陸性季風氣候,年平均溫度和年平均降水量分別為7.8 ℃和483.4 mm。降水時段主要集中于7~9月,且該時段內的降水量約占全年降水量的62%。根據地層的出露情況,按照地層年代,可將研究區內的巖土體類型分為4組(見表1)。此外,研究區的地層位于整體向西傾斜,傾角介于1°~3°的單斜構造之上,區內地震活動頻率較低,且無斷層[15]。
1.2 數據源和滑坡編錄
1.2.1 數據源和影響因子提取
數據源和滑坡影響因子的選擇會對滑坡易發性分區的結果造成影響,因此,在開展滑坡易發性分區建模之前,需要闡明研究所使用的數據源[16]。本文在詳細參考相關文獻以及開展野外調查的基礎上,選取了坡度、坡向、高程、平面曲率、剖面曲率、年平均降雨量、距道路的距離、距河流的距離、巖土體類型以及NDVI作為滑坡影響因子。其中,坡度、坡向、高程、平面曲率和剖面曲率因子是基于30 m×30 m分辨率的數字高程模型(Digital Elevation Model,DEM)提取(見圖2(a)~(e));根據研究區10 a(2009~2019年)平均降水量數據提取年平均降雨量因子(見圖2(f));NDVI因子是利用8 m分辨率的GF-1多光譜遙感影像提取(見圖2(g));巖土體類型因子是基于研究區1∶200 000地質圖提取(見圖2(h));距道路的距離和距水系的距離因子是基于研究區內的路網以及河網矢量提取(見圖2(i)~(j))。由于因子圖層的分辨率不同會導致模型數據無法輸入,因此,每一種影響因子圖層的分辨率都被重采樣為30 m×30 m。
1.2.2 滑坡編錄和制備數據集
滑坡編錄是開展滑坡易發性分區研究的基礎,滑坡編錄圖主要包括研究區內滑坡的坐標、類型、規模和特征屬性等[17]。根據野外詳細調查的數據和歷史滑坡資料,研究區內共發育滑坡717處,其中包括681處堆積層滑坡和36處巖質滑坡,滑坡的最大平面面積、最小平面面積和平均平面面積分別為2.6×103,2.7×104,7.7×103 m2。由于研究區內的滑坡總面積僅占研究區總面積的0.04%,因此,為了提升計算效率,利用質心法將全部717處滑坡圖斑轉換為滑坡點,從而生成滑坡編錄圖(見圖1)。
此外,在構建分區模型之前,首先需要制備模型的輸入數據集。本文將全部717個滑坡點的標簽值設為1,作為正樣本。同時在非滑坡區域隨機地生成同等數量(717)的非滑坡點,將標簽值設為0,作為負樣本。最后,按照7/3的比例,將所有樣本隨機劃分為訓練樣本(501個滑坡點和501個非滑坡點)和測試樣本(216個滑坡點和216個非滑坡點);其中,訓練樣本用于構建分區模型,測試樣本用于驗證分區結果的精度和評估模型的泛化性能。
2 研究方法
2.1 熵指數(Index of entropy,IOE)
熵指數可以定量反映滑坡在空間中分布的混亂程度,同時也可以揭示滑坡影響因子與滑坡之間的內在聯系[18]。假設Sij和Zij分別代表影響因子各分級所占的比例以及各分級中滑坡點所占的比例,則滑坡發生的頻率密度可以表示為
FRij=Sij/Zij(1)
則熵指數為
IOE=FRij/Njj=1FRij(2)
2.2 多重共線性檢測
雖然滑坡的發生是多種影響因子綜合作用的結果,但是每一種影響因子之間并不是總是完全獨立。如果影響因子之間存在高度相關的關系,則會導致模型失真,這就是多重共線性問題。本文通過計算分析每一種影響因子的方差膨脹系數(Variance Inflation Factor,VIF)和容忍度(Tolerances,TOL)檢測因子之間的多重共線性問題。當VIF>10或TOL<0.1時,表明因子之間存在多重共線性問題,需要從數據集中剔除,不參與建模[19]。
2.3 邏輯回歸樹(Logistic model tree,LMT)
邏輯回歸樹模型(LMT)是在決策樹模型和邏輯回歸模型的基礎上衍生而來的混合模型,其原理就是在決策樹的節點中,使用邏輯回歸函數中的邏輯增益算法進行決策[20]。假設在數據集中有x個向量和C種類別,則每一種類別的后驗概率可以表示為
P(Cx)=eFc(x)Cn=1eFc(x)(3)
式中:Fc(x)表示線性回歸函數。在擬合的過程中,邏輯增益算法利用最大似然估計來尋找觀測值和預測值之間的最小偏差。
2.4 結果評估方法
滑坡易發性分區的精度直接影響著滑坡防治決策的效率,因此,對分區結果開展評估是十分必要的。本文分別利用敏感度(Sensitivity)、特異度(Specificity)、準確度(Accuracy)對分區結果的精度進行了評估,計算方法如下:
Sensitivity=TPTP+FN(4)
Specificity=TNTN+FP(5)
Accuracy=TP+TNTP+TN+FP+FN(6)
式中:TP和TN分別代表被正確分類的滑坡和非滑坡樣本,FP和FN分別代表被錯誤分類的滑坡和非滑坡樣本。
泛化性也是評價滑坡易發性分區方法的重要指標[21]。本文基于受試者工作特征曲線(Receiver Operating Characteristic Curve,ROC)下的面積(Area Under the ROC Curve,AUROC)和平均絕對誤差(Mean Absolute Error,MAE)對模型泛化性進行定量評估。ROC曲線的橫縱坐標分別為1-特異度和敏感度,曲線下的面積可以通過公式(7)計算。平均絕對誤差表示模型對每一個像元的分類結果與真實值之間誤差的平均值,MAE值越小,表示模型的分類結果越接近真實值。
AUROC=TP+TN717(7)
3 結果分析
3.1 因子篩選結果
基于訓練樣本計算每一種影響因子對應的方差膨脹系數和容忍度,結果如表2所列。從表2可以看出:NDVI因子的VIF最高(1.297),且TOL較低(0.771);距道路的距離因子的VIF最低(1.048),且TOL最高(0.954)。由于所有滑坡影響因子的VIF和TOL值都處于臨界值(VIF>10,TOL<0.1)之外,所以影響因子之間不存在多重共線性問題,因此,保留全部的影響因子,參與后續的建模。
3.2 模型耦合
本文首先計算每一種滑坡影響因子各分級對應的熵指數(見表3)。隨后基于計算得到的熵指數,對每一個影響因子圖層進行重分類,得到基于熵指數的因子圖層。
以劃分好的樣本和因子圖層為基礎,分別構建基于熵指數的訓練數據集和測試數據集。最后將訓練數據集輸入LMT模型中進行模型耦合,得到各滑坡影響因子對應的權重(見表4),并利用10折交叉驗證完成調參,完成IOE-LMT模型的構建。
3.3 滑坡易發性分區
基于訓練數據集,利用IOE-LMT模型計算研究區范圍內每一個像元的后驗概率,輸出范圍為0~1。該后驗概率即為滑坡易發性指數(Landslide Susceptibility Index,LSI),LSI越接近于1說明滑坡發生的可能性越高,LSI越接近于0,表明滑坡發生的可能性越低。為了更直觀地顯示易發性分區的范圍,本文利用自然間斷點法將LSI分割為4個區間,分別代表極低易發區(0.001~0.241)、低易發區(0.242~0.393)、中易發區(0.394~0.690)、高易發區(0.691~0.955)。最后基于ArcGIS軟件對易發區進行了可視化,如圖3所示。研究區內滑坡易發于黃土溝道范圍內,并且研究區北部的滑坡易發性明顯高于南部。
3.4 分區結果評估
3.4.1 分區結果精度評價
分別基于訓練樣本和測試樣本,計算分區結果的敏感度、特異度和準確度(見表5)。從表5可以看出:滑坡易發性分區的準確度大于0.700,表明滑坡易發性分區結果的精度較高[22];且訓練樣本和測試樣本的敏感度都大于特異度,說明IOE-LMT模型對滑坡的分類能力強于對非滑坡的分類能力。
3.4.2 滑坡易發性分區模型評估
滑坡易發性分區模型的泛化性能是評估模型是否適合在其他區域應用的重要指標。本文基于測試樣本繪制ROC曲線,對IOE-LMT模型的泛化性能進行了評估。從測試樣本的計算結果可以看出:IOE-LMT模型的AUROC值為0.942,標準差為0.011,且模型輸出結果的MAE值僅為0.22,表明模型輸出的結果與真實值偏差小,泛化能力較強,值得在其他范圍進行推廣應用(見圖4)。
4 討 論
本文利用熵指數量化滑坡影響因子,構建了基于熵指數的滑坡易發性分區建模數據集,耦合熵指數與LMT模型,建立了IOE-LMT模型,完成了陜西省延安市吳起縣滑坡易發性分區,并對分區的結果以及模型進行了評價。雖然本研究得到的結果令人滿意,但仍有一些問題值得討論。
在模型建立之前,對滑坡影響因子進行篩選十分必要。本文僅檢測了影響因子之間的多重共線性問題,而沒有估算因子對模型的貢獻度。但需要注意的是,在LMT模型中,葉子節點的判斷策略是通過計算各影響因子的信息增益率實現。而信息增益率本身就反映出了影響因子對模型的貢獻程度,如果貢獻程度為0,則會被排除[23]。因此,本研究沒有單獨計算影響因子的貢獻度。
熵指數可以反映出滑坡與影響因子之間的內在聯系。從IOE的計算結果來看:隨著高程的升高,IOE逐漸減小,并且當高程位于1 222.000~1 405.843 m范圍內時,IOE最高。造成這種現象的原因可能是由于研究區大量修建公路,造成坡腳開挖,從而導致滑坡發生,而公路所在的高程較低,因而研究區內的滑坡主要分布于低海拔范圍內。距道路的距離因子的熵指數計算結果也印證了這一現象,距道路的距離越近,IOE越高。并且結合野外觀察發現,IOE反映出的滑坡與影響因子之間的內在聯系較為貼近事實,因此,本文利用IOE量化影響因子,可以為提升滑坡易發性分區結果的精度做好基礎。
決策樹模型是一種經典的機器學習模型,其優點在于可以直觀地反映出分類決策的過程,容易解釋,但其處理缺失值的功能非常有限,容易出現過擬合[24]。而LMT模型則是以決策樹模型為基礎,集成邏輯增益算法而構建的,可以很好地規避決策樹模型的缺點。但LMT模型容易受到輸入數據質量的影響,而熵指數可以反映出滑坡影響因子與滑坡之間的內在聯系,并且利用熵指數量化滑坡影響因子可以統一數據量綱,起到數據增強的作用。因此,利用熵指數作為LMT模型的輸入數據構成的IOE-LMT模型,相比于2種基礎模型的分類性能更加優秀。此外,本研究中僅使用了一種模型進行滑坡易發性分區,缺乏參照。鑒于此,今后的研究將會在相同的研究區內,同時應用多種分類模型來完成滑坡易發性分區,并對結果和模型進行詳盡的評價。
5 結 論
本文以陜西省延安市吳起縣為研究區,基于717個實測滑坡數據,首先選取坡度、坡向、高程、平面曲率、剖面曲率、年平均降雨量、距道路的距離、距河流的距離、巖土體類型以及NDVI作為滑坡影響因子。隨后利用熵指數量化影響因子,基于因子篩選的結果,構建了建模數據集。耦合LMT模型和熵指數,建立了IOE-LMT模型,并完成了研究區滑坡易發性分區制圖。最后,應用多種統計學指標評價結果的精度,以及采用ROC曲線來評估模型的泛化性能。所得結論如下:
(1) 滑坡影響因子的VIF和TOL值均在臨界值以外,不存在多重共線性問題,可用于滑坡易發性分區建模。
(2) 滑坡易發性分區的準確度大于0.700,說明分區結果的精度較高,可以為當地的滑坡防治工作提供參考,并且IOE-LMT模型對滑坡的分類能力強于對非滑坡的分類能力。
(3) IOE-LMT模型的AUROC值為0.942,且絕對誤差和平均絕對誤差均在合理的范圍內,表明IOE-LMT模型的泛化性能強,值得推廣。
(4) 研究區內滑坡易發于黃土溝道范圍內,并且研究區北部的滑坡易發性明顯高于南部。
參考文獻:
[1] POURGHASEMI H,GAYEN A,PARK S,et al.Assessment of landslide-prone areas and their zonation using Logistic Regression,LogitBoost,and NaveBayes Machine-Learning Algorithms[J].Sustainability,2018,10(10):3694-3714.
[2] MYRONIDIS D,PAPAGEORGIOU C,THEOPHANOUS S.Landslide susceptibility mapping based on landslide history and analytic hierarchy process(AHP)[J].Natural Hazards,2016,81(1):1-19.
[3] 沈玲玲,許沖,王靜璞.基于多模型的滑坡易發性評價:以甘肅岷縣地震滑坡為例[J].工程地質學報,2016,24(1):19-28.
[4] 張像源,周萌.基于專家評分模型和GIS的滑坡預警分析開發研究[J].中國地質災害與防治學報,2006,22(2):111-114.
[5] 楊光,徐佩華,曹琛,等.基于確定性系數組合模型的區域滑坡敏感性評價[J].工程地質學報,2019,27(5):1153-1163.
[6] ZHANG T,HAN L,ZHANG H,et al.GIS-based landslide susceptibility mapping using hybrid integration approaches of fractal dimension with index of entropy and support vector machine[J].Journal of Mountain Science,2019,16(6):1275-1293.
[7] 許沖,徐錫偉,于貴華.基于證據權方法的玉樹地震滑坡危險性評價[J].地震地質,2013,35(1):151-164.
[8] SOMA A S,KUBOTA T,MIZUNO H.Optimization of causative factors using logistic regression and artificial neural network models for landslide susceptibility assessment in Ujung Loe Watershed,South Sulawesi Indonesia[J].Journal of Mountain Science,2019,16(2):144-162.
[9] HONG H,LIU J,BUI D T,et al.Landslide susceptibility mapping using J48 Decision Tree with AdaBoost,Bagging and Rotation Forest ensembles in the Guangchang area(China)[J].Catena,2018,163(7):399-413.
[10] 韓玲,張庭瑜,張恒.基于IOE和SVM模型的府谷鎮滑坡易發性分區[J].水土保持研究,2019,26(3):373-378.
[11] MOAYEDI H,MEHRABI M,MOSALLANEZHAD M,et al.Modification of landslide susceptibility mapping using optimized PSO-ANN technique[J].Engineering with Computers,2019,35(3):967-984.
[12] HANG T,HAN L,CHEN W,et al.Hybrid integration approach of entropy with logistic regression and support vector machine for landslide susceptibility modeling[J].Entropy,2018,20(11):884-900.
[13] CHEN W,POURGHASEMI H R,PANAHI M,et al.Spatial prediction of landslide susceptibility using an adaptive neuro-fuzzy inference system combined with frequency ratio,generalized additive model,and support vector machine techniques[J].Geomorphology,2017,297(15):69-85.
[14] 武雪玲,沈少青,牛瑞卿.GIS支持下應用PSO-SVM模型預測滑坡易發性[J].武漢大學學報(信息科學版),2016,41(5):665-671.
[15] 陜西省地質礦產局.陜西省區域地質志[M].武漢:地質出版社,1989.
[16] TANGESTANI M H.Landslide susceptibility mapping using the fuzzy gamma approach in a GIS,Kakan catchment area,southwest Iran[J].Journal of the Geological Society of Australia,2015,51(3):439-450.
[17] OMID G,THOMAS B,JAGANNATH A,et al.A new GIS-based technique using an adaptive neuro-fuzzy inference system for land subsidence susceptibility mapping[J].Journal of Spatial Science,2018,35(8):1-17.
[18] LIU J,DUAN Z.Quantitative assessment of landslide susceptibility comparing statistical index,index of entropy,and weights of evidence in the Shangnan Area,China[J].Entropy,2018,20(11):868-887.
[19] PADHAN B,LEE S.Delineation of landslide hazard areas on Penang Island,Malaysia,by using frequency ratio,logistic regression,and artificial neural network models[J].Environmental Earth Sciences,2010,60(5):1037-1054.
[20] BUI D T,TUAN T A,KLEMPE H,et al.Spatial prediction models for shallow landslide hazards:a comparative assessment of the efficacy of support vector machines,artificial neural networks,kernel logistic regression,and logistic model tree[J].Landslides,2016,13(2):361-378.
[21] CHEN W,YAN X,ZHAO Z,et al.Spatial prediction of landslide susceptibility using data mining-based kernel logistic regression,naive Bayes and RBFNetwork models for the Long County area(China)[J].Bulletin of Engineering Geology and the Environment,2019,78(1):247-266.
[22] 李航.統計學習方法[M].北京:清華大學出版社,2012.
[23] ABEDINI M,TULABI S.Assessing LNRF,FR,and AHP models in landslide susceptibility mapping index:a comparative study of Nojian watershed in Lorestan province,Iran[J].Environmental Earth Sciences,2018,77(11):405.
[24] WU Y,KE Y,CHEN Z,et al.Application of Alternating Decision Tree with AdaBoost and Bagging ensembles for landslide susceptibility mapping[J].Catena,2020,187(1):104-396.
(編輯:劉 媛)
Landslide susceptibility zoning based on logistic regression tree coupled entropy index model:case of landslide in Wuqi County,Yan'an City,Shaanxi Province
YANG Chuangqi1,TAO Pan2,3,YANG Zheng3
(1.Department of Civil Engineering,Sichuan Vocational and Technical College of Architecture,Deyang 618000,China; 2.Civil Engineering and Hydraulic Engineering School,Shandong University,Jinan 250100,China; 3.School of Water Conservancy Engineering,Yellow River Conservancy Technical Institute,Kaifeng 475004,China)
Abstract:
For landslide prevention and control,it is of great practical significance to study the appropriate method of landslide susceptibility zoning in the county area.In view of this,based on 717 landslide samples collected from Wuqi County,Yan’an City,Shaanxi Province,the slope,aspect,elevation,plane curvature,profile curvature,average annual rainfall,distance from road,distance from river,rock and soil mass type and NDVI were used as an impact factors,and their corresponding entropy indices were calculated to construct a modeling dataset based on entropy indices.Subsequently,based on the modeling dataset,coupled index of entropy (IOE) and logistic regression tree model (LMT),an IOE-LMT hybrid classification model was established to draw a zonal map of landslide susceptibility in Wuqi County.A variety of statistical metrics,area under the ROC curve (AUROC) and mean absolute error (MAE) were used to evaluate the partition accuracy and the generalization performance of the model.The results showed that the generalization performance of the IOE-LMT model was strong (AUROC=0.942),and the accuracy of the landslide susceptibility zoning was high.Landslide in the study area was prone to happen in the loess gullies,and the landslide susceptibility in the north of the study area was significantly higher than that in the south.The evaluation results are reasonable and reliable,and can provide reference for local landslide prevention and land space planning.
Key words:
landslide susceptibility zoning;machine learning;mixed classification model;spatial analysis;Yan 'an City;Shaanxi Province