劉 月,王寧濤,周 超,謝家龍,李遠耀
(1.中國地質大學(武漢)地質調查研究院,湖北 武漢 430074;2.中國地質調查局武漢地質調查中心(中南地質科技創新中心),湖北 武漢 430205; 3.中國地質大學(武漢)地理與信息工程學院,湖北 武漢 430074)
滑坡是我國自然災害的主要災種之一,對山地丘陵區的生態環境和生命財產安全構成重大威脅[1]。滑坡易發性評價是區域滑坡災害風險評估和防控的基礎,準確的滑坡易發性評價結果可為防災減災提供有效的技術支撐。
滑坡發育關鍵影響因素的選取是滑坡易發性建模的重要基礎,然而至今仍未達成統一的共識,現階段通常是在實際場地條件和資料收集的基礎上,結合滑坡內部巖土體屬性和外界誘發因素來選取評價指標。在滑坡易發性建模中,不同的評價指標具有不同的預測能力,即其在滑坡易發性建模中的重要性不同。不重要的評價指標會帶來噪音,這些指標對滑坡易發性建模精度提升的貢獻可能會弱于其噪音帶來的誤差,導致模型的精度降低[2]。因此,在滑坡易發性建模之前應先分析評價指標的重要性,剔除不重要的評價指標。評價指標的重要性可通過人為主觀經驗判斷或概率統計得到,如郭子正等[3]利用邏輯回歸模型公式中的回歸系數對滑坡易發性各評價指標的重要程度進行了排序。受試者工作特征曲線(Receiver Operating Characteristic curve,ROC曲線)是一種有效的模型精度評價方法,可定量地分析各評價指標對滑坡易發性建模性能的影響程度。
滑坡易發性評價模型由最初的定性評價模型[4]發展到定量物理力學評價模型[5],再到目前的概率統計模型,如信息量模型[6-9]、邏輯回歸模型[10]、確定性系數模型[11]等。隨著機器學習和人工智能技術的飛速發展,機器學習模型如人工神經網絡模型[12-14]、支持向量機模型[12,15-17]、決策樹模型[18-19]等也得到了廣泛的應用。雖然機器學習模型在精度上有一定的優勢,但是基于機器學習的滑坡易發性評價模型評價過程復雜,且在每次更新評價指標時都需要對整個研究區重新進行評價。而概率統計模型原理易懂、操作簡單、精度較高,且在更新評價指標時只需將指標的統計系數疊加到原始評價結果中,不需再對整個研究區進行重新評價,具有較好的推廣和應用價值。
本文以我國滑坡災害高發的三峽庫區奉節縣為研究區,首先采用頻率比方法對坡度、坡向等10個指標與滑坡發育的關系進行統計分析,通過統計結果對連續型指標進行分級并分析其對研究區滑坡發育的影響作用;然后,運用ROC曲線定量分析各評價指標對滑坡易發性建模精度的影響程度,剔除相對不重要的指標,構建對研究區滑坡易發性建模影響的關鍵評價指標體系;最后分別應用確定性系數法和邏輯回歸模型對研究區滑坡易發性進行建模與分區。通過本研究以期結合ROC曲線法和確定性系數法的優點,構建出一套簡單、準確的區域滑坡易發性評價技術方法,進一步完善滑坡災害易發性評價理論和技術方法。
研究區奉節縣隸屬于重慶市,為長江三峽庫區腹心之地,總面積約為4 000 km2,其地理位置見圖1。縣域地貌總體為東南、東北高而中部稍平緩,南北大致對稱分布,以長江為對稱軸,離長江越遠海拔越高,零星分布少量平緩河谷平壩。該區域屬中亞熱帶暖濕東南季風氣候,在海拔600 m以下的長江河谷兩岸及其階地,氣候溫和,雨量充沛,日照充足,晝夜溫差大。境內河流屬長江水系,其中長江干流長41.5 km,另有梅溪河、大溪河、石筍河、草堂河、朱衣河等主要河流。

圖1 研究區地理位置圖Fig.1 Geographical location map of the study area
由于區域地質環境條件復雜,加上降雨充沛和受三峽庫水位動態變化的影響,奉節縣地質災害頻發。據三峽庫區奉節縣地質災害排查資料,截止2017年奉節縣共發生地質災害1 600余處,其中滑坡1 424處,占總地質災害的89%,已嚴重影響了當地經濟和社會的可持續發展。本研究以奉節縣為研究區,選取研究區內2006年至2017年的937處滑坡災害點為基礎數據,開展了研究區滑坡易發性評價研究。
確定性系數(Certainty Factor,CF)本質上是一個概率函數,主要用來計算影響地質災害發生的各個評價因子的敏感性。該方法根據已知的地質災害隱患點,對影響地質災害發生的各個評價因子的不同區間進行敏感性計算,可以實現對連續型因子和離散型因子的敏感性分析。其原理公式如下:
(1)
式中:PPa為影響因子分級圖層中某一特征a的條件概率,在滑坡易發性評價中表示特征a中單元存在的地質災害隱患點的柵格數與特征a的柵格數的比值;PPs為滑坡事件在整個研究區中地質災害發生的先驗概率,可以表示為整個研究區滑坡地質災害隱患點柵格數與研究區總柵格數的比值;CF為確定性系數,其值越大,表示滑坡災害發生的確定性越高。
邏輯回歸(Logistic Regression,LR)模型是一種因變量滿足二項分布的多元統計分析模型,通過在一個因變量和多個自變量中建立回歸關系,預測某個區域某一事件發生的概率。在滑坡易發性評價中,LR模型可用于預測某一區域滑坡發生的概率。因變量即為是否發生滑坡(發生為1,未發生為0),自變量即為參與滑坡易發性評價的各項評價指標。其原理公式如下:
Y=α0+α1X1+α2X2+…+αnXn
(2)
(3)
式中:Y為累計分布函數;α0為常數項,α1,α2,…,αn為各評價指標的邏輯回歸系數;X1,X2,…,Xn為參與滑坡易發性評價的各項評價指標;P為滑坡發生的概率,其值越大,表示滑坡災害發生的概率越高。
受試者工作特征(ROC,Receiver Operating Characteristic)曲線又稱為感受性曲線,因其簡單、直觀的特點,可準確地反映所用分析方法特異性與敏感性的關系,具有很好的試驗準確性,因而已被廣泛應用于地質災害易發性評價中[20]。在滑坡易發性評價中,1-特異度為橫坐標,代表非滑坡預測為滑坡,敏感度為縱坐標,代表滑坡預測為滑坡,即可對比單個評價因子對滑坡發育的影響和重要性,也可比較不同模型下滑坡易發性評價結果的精度。ROC曲線法是通過ROC曲線下面積(Area Under Curve,AUC)來反映和比較模型的評價預測精度,當AUC值小于0.7表示模型的評價精度較差,當AUC值為0.7~0.8表示模型的評價精度中等,當AUC值為0.8~0.9表示模型的評價精度較好,當AUC值在0.9以上表示模型的評價精度非常好[21]。
本文以滑坡災害高易發區三峽庫區奉節縣為研究區,首先在實際場地條件和資料收集的基礎上,初步選取坡度、坡向、高程、剖面曲率、斷裂帶距離、巖土體類型、水系距離、降雨量、道路距離和植被覆蓋度10項基本指標,建立滑坡易發性初始評價指標體系,并采用頻率比法對連續型指標進行科學分級;然后,運用ROC曲線法剔除不重要的評價指標,建立研究區滑坡易發性評價的關鍵評價指標體系;最后,分別運用確定性系數法和邏輯回歸模型對研究區滑坡易發性進行評價與分區,并對比分析兩種模型的滑坡易發性評價結果的精度。具體評價流程見圖2。

圖2 滑坡易發性評價流程圖Fig.2 Flow chart of evaluation of landslide susceptibility
評價基礎單元的合理劃分對滑坡易發性評價結果有著直接的影響。目前,常用的評價單元有柵格單元、地域單元、均一條件單元、斜坡單元和地形單元等。其中,地域單元、均一條件單元、斜坡單元和地形單元均較適合小范圍大比例尺的區域,而研究區面積達到4 000 km2,選用大小相同的柵格單元更適合,既能提高評價效率也能滿足評價精度的要求。確定柵格單元大小的計算公式如下[22]:
Gs=7.49+0.000 6S-2.0×10-9S2+2.9×10-15S3
(4)
式中:Gs為適宜的網格大小(m);S為比例尺分母。
根據計算結果可知,研究區最佳柵格單元大小為50.4 m,本文最終選取50 m×50 m柵格作為基礎評價單元。研究區域共劃分為1 626 035個柵格,滑坡所占柵格數為28 890個。
首先,結合研究區野外調查和以往的研究成果[2],初步選取坡度、坡向、高程、剖面曲率、斷裂帶距離、巖土體類型、水系距離、降雨量、道路距離和植被覆蓋度10項指標;然后,采用滑坡相對頻率比法對各評價指標進行等級劃分,提高評價指標分級準確性[10]。滑坡相對頻率比(FR)表示評價指標各區間對滑坡易發性影響的重要程度,定義如下:

(5)
FR>0表示該分類區間利于滑坡發生;FR<0表示該分類區間不利于滑坡的發生。對FR值相近的區間進行合并,將各評價指標進行等級劃分,見圖3。

圖3 滑坡易發性各評價指標的滑坡相對頻率比圖Fig.3 Relative frequency ratio chart of each factor for landslide susceptibility evaluation
坡度、坡向、高程和剖面曲率均從DEM中直接提取,為連續型評價指標,對各評價指標進行等步長離散化。各評價指標的具體分級如下:
(1) 坡度:不同坡度,斜坡的應力分布、水文條件、人類工程活動等存在差異,從而影響滑坡的發育[23]。研究區內坡度以中緩坡為主,主要分布在0°~30°。
采用頻率比法對研究區坡度進行分級,先以10°為間隔,劃分為8個等級,由圖3(a)可見,在坡度為10°~20°時,滑坡FR值最大,利于滑坡的發生。因此,最終將研究區坡度分為4級:0°~10°、10°~20°、20°~30°、>30°。
(2) 坡向:不同坡向,光照條件不同,導致植被覆蓋度和地表徑流等存在差異,從而影響斜坡的穩定性。研究區內坡向主要集中在0°~45°。采用頻率比法對研究區坡向進行分級,先以45°為間隔,劃分為8個等級,由圖3(b)可見,在坡向為135°~270°時,滑坡FR值較大,利于滑坡的發生。因此,最終將研究區坡向分為5級:0°~45°、45°~135°、135°~270°、270°~315°、315°~360°。
(3) 高程:不同高程,植被類型、土壤類型、地表集水能力和人類工程活動等存在差異,從而間接影響滑坡的發育。研究區內高程主要集中在300~1 500 m。采用頻率比法對研究區高程進行分級,先以300 m為間隔,劃分為7個等級,由圖3(c)可見,在高程為0~900 m時,滑坡FR值大于0,利于滑坡的發生。因此,最終將研究區高程分4級:0~300 m、300~900 m、900~1 200 m、1 200~2 100 m。
(4) 剖面曲率:剖面曲率反映了坡面形態,不同的坡面形態坡體物質的搬運沉積情況不同,從而影響滑坡的發育。采用頻率比法對研究區剖面曲率進行分級,先以1為間隔,劃分為11個等級,由圖3(d)可見,在剖面曲率為0~5時,滑坡FR值大于0,利于滑坡的發生。因此,最終將研究區剖面曲率分為5級:0~1、1~2、2~5、5~10、>10。
(5) 斷裂帶距離:研究區斷裂帶及其周邊一定范圍內的巖土體遭受破壞,坡體的完整性降低,從而影響坡體的穩定性。采用頻率比法對研究區斷裂帶距離進行分級,先以500 m為間隔分為7級,由圖3(e)可見,在距斷裂帶500~1 000 m的區域,滑坡FR值較大,利于滑坡的發生。因此,最終將研究區斷裂帶距離分為5級:0~500 m、500~1 000 m、1 000~1 500 m、1 500~3 000m、>3 000 m。
(6) 巖土體類型:巖土體類型是孕育滑坡發生的重要內在因素。采用頻率比法對研究區巖土體類型進行分級,分為7級。巖土體類型中,1表示以堅硬厚層砂巖為主的巖組;2表示軟硬相間層狀砂巖、黏土巖互層巖組;3表示弱巖溶化軟硬相間層狀碎屑巖夾碳酸鹽巖巖組;4表示中等巖溶化軟硬相間層狀碳酸鹽巖碎屑巖互層巖組;5表示中強巖溶化軟硬相間層狀碳酸鹽巖夾碎屑巖巖組;6表示強巖溶化堅硬層狀碳酸鹽巖巖組;7表示以軟弱層狀黏土巖為主的巖組。由圖3(f)可見,研究區滑坡主要發育在軟硬相間層狀砂巖、黏土巖互層巖組之上。
(7) 水系距離:研究區庫水位的動態變化以及水流對坡腳的沖刷、侵蝕作用破壞了斜坡的穩定性,造成滑坡多沿水系分布。采用頻率比法對研究區水系距離進行分級,先以300 m為間隔,劃分為8級,由圖3(g)可見,在距水系距離為0~2 100 m時,滑坡FR值較大,利于滑坡的發生。因此,最終將研究區水系距離分為4級:0~300 m、300~900 m、900~2 100 m、>2 100 m。
(8) 降雨量:降雨是滑坡發生的重要誘發因素之一。通過全區的降雨量等值線,采用頻率比法對研究區降雨量進行分級,由圖3(h)可見,在降雨量為1 000~1 100 mm時,滑坡FR值大于0,利于滑坡的發生。因此,最終將降雨量劃分為4級:950~1 000 mm、1 000~1 100 mm、1 100~1 200 mm、1 200~1 300 mm。
(9) 道路距離:在道路建設過程中不合理地開挖坡腳等常會引起邊坡失穩,促進滑坡的發育。采用頻率比法對研究區道路距離進行分級,先以300 m為間隔,劃分為8級,由圖3(i)可見,在距道路距離為0~2 100 m時,滑坡FR值較大,利于滑坡的發生。因此,最終將研究區道路距離分為5級:0~300 m、300~600 m、600~1 500 m、1 500~2 100 m、>2 100 m。
(10) 植被覆蓋度:由于植被根莖的固土作用,植被覆蓋度不同,斜坡的穩定性存在差異。在ENVI中對下載的Landsat 8遙感影像數據進行處理得到植被覆蓋度指數,并在ArcGIS中進行重分類,以0.01為間隔,劃分為9類,由圖3(j)可見,在植被覆蓋度>0.08時,滑坡FR值較大,利于滑坡發生。因此,最終將研究區植被覆蓋度分為3級:<0.05、0.05~0.08、>0.08。
將ROC曲線法與確定性系數法相結合,在滑坡易發性評價過程中,先選取確定性系數法計算出不同評價指標各分級狀態下的確定性系數(CF)值,并利用ROC曲線法定量確定各評價指標的重要程度排序;然后在此基礎上按重要程度由小到大逐步剔除不重要的評價指標,并將剩余評價指標按CF值疊加計算出一次滑坡易發性評價結果;最后利用ROC曲線法比較滑坡各易發性評價結果的精度。在滑坡易發性評價結果的精度達到峰值時的評價指標體系即為關鍵評價指標體系,關鍵評價指標體系下的滑坡易發性評價結果為研究區最終的滑坡易發性分區。
ROC曲線法確定關鍵評價指標體系的首要任務是確定所有評價指標的重要程度排序。利用ROC曲線法對評價指標進行重要程度排序,首先是要計算各評價指標不同分級狀態下的CF值,其計算結果見表1。

表1 滑坡易發性各評價指標的確定性系數(CF)Table 1 Certainty Factor(CF) of each factor for landslide susceptibility evaluation
由表1可知,研究區滑坡主要發育在海拔低于300 m、植被覆蓋度較高以及距水系距離在300~900 m的區域,與歷史滑坡災害點分布情況相符。
以全區所有滑坡點和等量非滑坡點(發生滑坡為1;未發生滑坡為0)作為狀態變量,對應的各評價指標不同分級狀態下的CF值作為檢驗變量,利用ROC曲線法進行分析,并根據AUC值的大小對各評價指標重要程度進行排序,見圖4。

圖4 研究區滑坡易發性各評價指標ROC曲線分析圖Fig.4 Diagram of ROC curve analysis of each factor for landslide succeptibility evaluation of the study area
由圖4可見,對研究區滑坡發育影響最大的評價指標是高程,對研究區滑坡發育影響最小的評價指標是斷裂帶距離。研究區滑坡易發性各評價指標重要程度的排序為高程>巖土體類型>降雨量>水系距離>道路距離>坡度>剖面曲率>坡向>植被覆蓋度>斷裂帶距離。
首先對研究區滑坡易發性初始評價指標體系中評價評價指標按重要程度由小到大逐步剔除不重要的評價指標,并將剩余評價指標按CF值疊加計算出一次滑坡易發性評價結果;然后選取70%的滑坡作為訓練樣本,剩余的30%作為測試樣本,并在非滑坡面上隨機生成等量的非滑坡訓練樣本和測試樣本;最后利用ROC曲線法分析各次滑坡易發性評價結果的成功率和預測率,見圖5。

圖5 研究區滑坡易發性不同評價指標體系評價 結果的精度對比圖Fig.5 Comparison of accuracy of different index systems for landslide succeptibility evaluation of the study area
由圖5可見,當評價指標個數為7個時,研究區滑坡易發性評價結果的成功率和預測率分別為0.821和0.820,均達到最高。因此,研究區滑坡易發性的關鍵評價指標體系由坡度、高程、剖面曲率、巖土體類型、水系距離、降雨量和道路距離7個評價指標構成。
本文利用確定的滑坡易發性關鍵評價指標體系并基于邏輯回歸模型對研究區滑坡易發性進行了評價。以70%的滑坡及等量的非滑坡作為訓練樣本,是否發生滑坡(發生為1,未發生為0)作為因變量,各評價指標不同狀態下的歸一化值作為自變量,在SPSS軟件中進行二元邏輯回歸分析。本文使用滑坡發生率對各評價指標進行歸一化處理,其歸一化處理公式如下[24]:
(6)
(7)
式中:ALij為第i個一級評價指標中第j個二級評價指標內的滑坡面積(m2);ATij為第i個一級評價指標中第j個二級評價指標的區域總面積(m2);dij為第i個一級評價指標中第j個二級評價指標的滑坡發生概率;n為一級評價指標總數(個);m為二級評價指標總數(個);Iij為第i個一級評價指標中第j個二級評價指標的滑坡發生概率的歸一化值。
擬合得到的邏輯回歸方程如下:
Y=-5.202+2.721X1+1.761X2+4.656X3+5.288X4+2.295X5+1.348X6+2.170X7
(8)
式中:X1~X7依次為坡度、高程、剖面曲率、巖土體類型、水系距離、降雨量和道路距離。
基于公式(2)和(3)在Arcgis中利用柵格計算器計算研究區所有柵格的滑坡發生概率,從而得到了全區滑坡易發性分區。
本文將利用確定性系數法和邏輯回歸模型所得到的研究區滑坡易發性評價結果,采用自然斷點法將其分為高易發區、較高易發區、較低易發區和低易發區4級,從而得到三峽庫區奉節縣滑坡易發性分區圖,見圖6。

圖6 三峽庫區奉節縣滑坡易發性分區圖Fig.6 Landslide susceptibility zoning map of Fengjie County in Three Gorges Reservoir
由圖6可見,研究區滑坡高易發區主要是沿水系、道路分布,與歷史滑坡災害點的分布情況一致;確定性系數法下的研究區滑坡高易發區沿道路分布的特征較邏輯回歸模型更為明顯(見圖中標注處)。
3.6.1 模型合理性檢驗
本文通過統計測試樣本在研究區滑坡各易發性分區中的分布,來檢驗模型的有效性和科學性,其統計結果見表2和圖7。其中,滑坡比率Ri[25]為某滑坡易發性分區內滑坡柵格數占總滑坡柵格數的比例與該分區總柵格數占總研究區柵格數比例的比值,反映了滑坡在各個易發性分區中的強度。當Ri滿足下式時,表明滑坡易發性分區圖有效,且R1值越小、Rn值越大,說明滑坡易發性評價結果越理想。
R1 (9) 其中,下標1~n表示滑坡易發性等級由低到高。 由表2和圖7可知,利用確定性系數法和邏輯回歸模型確定的研究區滑坡易發性分區圖中滑坡比例依次增大,說明兩種模型的分區均合理;確定性系數法確定的研究區滑坡低易發區的Ri值為0.02,其值小于邏輯回歸模型的0.08,確定性系數法確定的研究區滑坡高易發區的Ri值為3.18,其值大于邏輯回歸模型的3.12;確定性系數法中有92.24%的滑坡分布在高易發區和較高易發區,其值高于邏輯回歸模型的80.65%,表明確定性系數法確定的研究區滑坡易發性分區結果更為理想。 表2 研究區滑坡柵格統計結果表Table 2 Statistical results of landslide grids of the study area 圖7 兩種模型的滑坡易發性等級對比Fig.7 Comparison of different levels of landslide susceptibility between two models 3.6.2 基于ROC曲線法的模型精度分析 本文在SPSS軟件中對兩種模型獲得的滑坡易發性評價結果進行ROC曲線分析,兩種模型的精度對比結果見圖8。 圖8 兩種模型的成功率及預測率曲線對比Fig.8 Comparison of success rate curves and prediction rate curves between two models 由圖8可見,確定性系數法的成功率和預測率為82.1%和82.0%,其值優于邏輯回歸模型的80.5%和79.5%。 (1) 本文以三峽庫區奉節縣為研究區,結合實際場地條件和資料收集情況,選取了坡度、坡向、高程、剖面曲率、斷裂帶距離、巖土體類型、水系距離、降雨量、道路距離和植被覆蓋度10項基本指標,建立了研究區滑坡易發性初始評價指標體系,并利用頻率比法對各評價指標進行分級,計算各評價指標不同分級狀態下的頻率比值,在坡度為10°~20°、高程低于300 m、巖土體類型為軟硬相間層狀砂巖、黏土巖互層巖組時,滑坡頻率比值較高,易于滑坡發育。 (2) 采用ROC曲線法剔除了斷裂帶距離、植被覆蓋度和坡向3個評價指標,從而構建了對研究區滑坡發育影響的關鍵評價指標體系,按評價指標的重要程度排序為:高程>巖土體類型>降雨量>水系距離>道路距離>坡度>剖面曲率,與三峽庫區滑坡多為降雨性滑坡且由于庫水位動態變化、長江兩岸滑坡較為發育這一實際情況相符。當剔除坡向、植被覆蓋度和斷裂帶距離3個評價指標時,模型的預測精度最高,為0.82。 (3) 對確定的研究區滑坡易發性關鍵評價指標體系,分別運用確定性系數法和邏輯回歸模型對研究區滑坡易發性進行評價,結果表明:確定性系數法確定的研究區滑坡低易發區的滑坡比率較邏輯回歸模型更小,確定的研究區滑坡高易發區的滑坡比率較邏輯回歸更大;確定性系數法中有92.24%的滑坡分布在高易發區和較高易發區,其值高于邏輯回歸模型的80.65%;確定性系數法的成功率和預測率為82.1%和82.0%,其值高于邏輯回歸模型的80.5%和79.5%。上述結果表明通過集合ROC曲線法和確定性系數法的優點構建的這一套簡單、準確的區域滑坡易發性評價技術方法,具有可靠性和精確性,可為進一步完善滑坡災害易發性評價理論和技術方法提供依據。


4 結 論