李宇新,鄧念東*,馬建全,周 陽,崔陽陽
(1.西安科技大學地質與環境學院,西安 710054;2.陜西省地質調查院,西安 710054;3.陜西省水工環地質調查中心,西安 710068)
隨著社會經濟的快速發展,地質環境逐漸惡化,衍生出一系列地質災害。漢中市漢臺區地處陜南漢中盆地中心,由于土地資源不合理利用、開墾山坡等人類工程活動,該區域地質環境遭到嚴重破壞,特別是滑坡對人類生命財產造成巨大威脅。科學高效地進行區域滑坡易發性評價是防災減災的有效措施,也是近些年來滑坡預防與土地規劃的熱點。
從20世紀80年代起,中外學者對滑坡易發性展開研究,其核心是評價指標和評價模型的確定。根據前人研究,評價指標主要根據區域地質環境條件進行選擇,尚未達成統一共識。評價方法主要可以劃分為確定性模型和非確定性模型[1]。確定性模型主要依靠專家經驗確定各類成災因素的權重值后進行疊加,取得了較好的預測效果,但過度依賴經驗判斷以及結論缺乏繼承性。隨著統計學習理論研究和計算機科學的發展,非確定性模型被廣泛應用到滑坡易發性評價中,主要包括信息量[2-3]、確定性系數法[4]、證據權法[5]以及一系列數據挖掘與機器學習方法,比如邏輯回歸[6]、決策樹[7]、人工神經網絡[8]、支持向量機[9]、隨機森林[10]、樸素貝葉斯[11]等。其中,以決策樹算法為基礎的一系列集成模型也被應用至滑坡易發性評價中,如J48算法[12]、隨機森林模型、旋轉森林模型[13]、邏輯回歸樹模型[14]等,該類模型主要以決策樹算法或多種分類器為基礎,采取不同的特征選擇和剪枝方式進行模型構建,提高模型分類正確率,同時一定程度上減少訓練樣本過擬合。研究表明,集成模型往往比單一機器學習模型預測能力更高。為進一步探索集成模型在我國滑坡易發性評價的適用性,分析漢中市漢臺區滑坡分布趨勢以及獲得較高精度的滑坡易發性圖,本文采用邏輯回歸樹和旋轉森林模型進行該區域的滑坡易發性評價。
邏輯回歸樹模型(logistic model tree, LMT)是結合決策樹學習理論與邏輯回歸的集成模型[14],使用LogitBoost算法在樹的節點上生成邏輯回歸模型,同時使用分類與回歸樹算法對樹進行剪枝。LMT模型通過交叉驗證進行大量迭代,采用遞增邏輯回歸計算分類LC,即是否為滑坡。最后使用線性邏輯回歸計算得到每個葉節點的后驗概率值P,作為該模型滑坡易發性評價結果。LC、ρ的計算公式分別為
(1)
(2)
式中:βi為因子的系數;xi為各評價因子;n為因子數量;D為分類數量,D=1,2。
旋轉森林(rotation forest, ROF)以決策樹為基分類器,構建包含滑坡因子屬性以及類別標簽的樣本集x=[x1,x2,…,xn]T,選擇L個基分類器{D1,D2,…,DL},隨機將特征集F劃分為K個不相交的子集,每個子集均有M個特征。對特征子集進行主成分分析,旋轉換后得到大小均為M×1的向量子集,同時存儲主成分系數組成Ri矩陣[式(3)]。根據式(4)計算Di決策樹分類器的平均概率值[15-16],即代表評價單元滑坡發生的概率。
Ri=
(3)
(4)

研究區位于陜西省西南部漢中盆地中心,地理坐標為東經106°51′40″~107°10′25″,北緯33°01′40″~33°22′00″,總面積為556 km2。屬北亞熱帶濕潤季風氣候區,氣溫受地形影響差異明顯,降雨主要集中在6—9月。地形地貌從南到北依次為平原區、丘陵區、中低山區。其中,平原區地勢平坦,地質環境問題較少;丘陵區膨脹土發育,發育膨脹土滑坡災害;中低山區山坡陡峻,山背狹長,陡坡處基巖裸露,緩坡殘坡積土覆蓋,在降雨充沛時易發生殘坡積層滑坡。區內出露地層為震旦系、寒武系、石炭系及第四系。受構造作用影響,巖層褶皺變形強烈,巖石破碎,巖體內部結合力較差。巖體以花崗巖、碳酸鹽巖、變質巖為主。較堅硬-較軟變質巖易風化產生破壞變形而產生滑坡。研究區人類工程活動劇烈,例如開墾山坡、道路建設開挖邊坡、礦山棄渣不合理堆放等,為滑坡發育提供了條件。
在前人進行區內1∶50 000地質災害詳查的基礎上,筆者通過遙感影像解譯與實地調查進行對比,共圈定40處滑坡。為更加便捷高效地獲取滑坡相關屬性信息,在劃分滑坡周界與對比核查屬性信息后,通過ArcGIS軟件提取其質心作為滑坡屬性點,得到區內滑坡編目圖(圖1),為后續評價研究奠定基礎。

圖1 研究區位置與滑坡編錄圖
主要通過以下方式獲取研究區相關數據。
(1)從“地理空間數據云”平臺中ASTER GDEM獲取研究區數字高程模型(digital elevation model,DEM)數據,獲得坡度、坡向、平面曲率、剖面曲率、歸一化植被利用指數(normalized difference vegetation index,NDVI)和地形濕度指數(topographic wetness index,TWI)因子。
(2)從1∶50 000地質圖矢量化生成地形地貌和巖土體類型數據。
(3)根據研究區氣象觀測站數據生成研究區年均降雨量因子。
(4)通過Bigemap地圖軟件獲得研究區水系、道路矢量數據。
結合研究區地質災害詳查報告及相關資料,研究區內滑坡受中低山地形貌控制,由于溝谷發育、斜坡高陡、降雨集中,以及強烈的人類工程活動為滑坡的發育提供條件。因此選取高程、坡度、坡向、年均降雨量、地形地貌、巖土體類型、TWI、NDVI、距水系距離、距道路距離、平面曲率和剖面曲率共12類因子進行評價。
根據湯國安經驗公式和研究區地質圖比例尺大小,選擇30 m分辨率柵格單元進行評價,共計614 117個柵格[17]。依據上述數據源生成12類因子數據,對連續型因子分別采用Jenks自然間斷法和等間距法進行分級;離散型因子根據二級因子類型進行劃分,各類因子專題圖層見圖2。采用頻率比對各分級下滑坡進行統計,表1顯示區內滑坡主要分布于高程在672~964 m、巖土體類型為石英片巖、坡度為7.37°~17.10°、平面曲率為-4.34~-0.50、年均降雨量在740~760 mm、坡向為東南以及NDVI為0.34~0.43的區域。

表1 各因子分級下滑坡頻率比
評價模型的數據之間往往存在一定的多重共線性關系,當多重共線性較大時,會嚴重影響到模型分類的辨識能力[18]。為有效避免這一影響,本文選擇方差膨脹因子(variance inflation factor,VIF)與容忍度(tolerance,TOL)進行分析。VIF反映多元線性回歸模型中多重共線性嚴重程度,表示回歸系數估計量的方差與假設自變量間不線性相關時方差相比的比值,其中TOL為VIF的倒數。一般認為VIF>10或TOL<0.1時,數據之間存在著嚴重的共線性,需要進行部分剔除與修正[19]。根據表2結果,所選12類因子之間共線性較弱。
因子貢獻率表征著與研究區滑坡發生的相關程度,一方面有利于滑坡發生機理分析;另一方面,貢獻率為0的因子對模型的分類預測不僅沒有幫助,反而容易會造成數據冗余,降低預測精度[20]。相關屬性評估(correlation attribute evaluation,CAE)通過計算影響因子與標簽屬性之間的相關性來評估因子的重要程度,其結果包括平均貢獻率(average merit,AM)和標準差(standard deviation,SD),根據貢獻率降序排列見表2。結果顯示,12類因子對研究區滑坡發生均有促進作用,其中貢獻率排列前三的影響因子分別為地形地貌(AM=0.258)、平面曲率(AM=0.223)以及巖土體類型(AM=0.225)。

表2 影響因子共線性分析與貢獻率
從滑坡范圍以外區域隨機提取等量的非滑坡點作為負樣本數據進行模型數據構建,按照7∶3比例隨機劃分為訓練集(56處)和驗證集(24處),并提取12類影響因子屬性值。本文通過Weka3.8軟件進行LMT和ROF模型的構建。通過十倍交叉驗證進行訓練,然后代入驗證集進行測試,最后將整個研究區的屬性集代入上述兩種模型,得到分別基于LMT和ROF模型的滑坡易發性指數(landslide susceptibility index, LSI),通過ArcGIS的重分類工具將LSI值劃分為5類:極低易發區、低易發區、中等易發區、高易發區和極高易發區,得到兩種模型的滑坡易發性分區圖(圖3)。

圖3 研究區滑坡易發性圖
圖3表明LMT與ROF模型分區結果基本一致,研究區滑坡高-極高易發區主要分布于中部丘陵區和北部中低山區。中部丘陵區巖性主要為第四系黏土,受降雨影響膨脹土變形加劇,黏性土滑坡最為發育。北部中低山區滑坡高易發區沿線狀分布,這是由于西北側人工擴建公路,頻繁開挖坡腳,以及石英礦、磷礦等礦山開采程度高,一系列人類工程活動破壞地質環境、改變地形地貌所造成。中低山東側地勢高差較大,歷史滑坡主要沿河谷分布,地層巖性為震旦系千枚巖夾灰巖,軟弱夾層多,較破碎、易風化,在降雨充沛條件下易發生滑坡。研究區滑坡低-極低易發區主要分布于南側平原區,該區域為廣闊的一、二級階地區域,地勢平坦,地層巖性以第四系黏土為主,極少有滑坡發育。
進行模型精度驗證與比較是分類結果對滑坡易發性分區可靠程度驗證的重要步驟。本文采用接受者工作特性曲線(receiver operating characteristic curve,ROC)與其線下面積(area under curve,AUC),以及滑坡頻率比對LMT模型和ROF模型進行評估。ROC曲線于20世紀90年代起開始廣泛應用于數據挖掘、機器學習等分類模型的評估,它以敏感度(即實際為滑坡,預測為滑坡)為縱坐標、1-特異性(即實際為非滑坡,預測為滑坡)為橫坐標,通過動態分類閾值避免界限值對結果的影響[21]。AUC取值范圍為0~1,值越大代表模型分類效果越好,通常認為AUC>0.7時,表明分類預測能力較強。圖4和圖5表明,ROF模型在訓練集的正確率(77.4%)較LMT模型(75.5%)相比更高,同時驗證集的預測率結果表明ROF模型(93.1%)優于LMT模型(84.0%)。圖6表明兩者模型各易發性等級下,區內滑坡集中分布在高-極高易發區,而低-極低易發區很少或無滑坡分布,證明分區結果符合歷史滑坡分布規律。其中ROF模型高-極高易發區分布有37處歷史滑坡,多于LMT模型(31處);并且ROF模型低易發區的滑坡數量為0,少于LMT模型(4處)。將歷史滑坡密度與分區等級面積占比的比值作為頻率比,用來對比不同模型預測滑坡發生的敏感性。由圖7可看出,兩種模型頻率比總體呈上升趨勢,ROF模型極高易發區的頻率比(6.52)高于LMT模型(2.07),說明ROF模型對滑坡分布更為敏感,預測結果更可靠。

圖4 訓練集ROC曲線

圖5 驗證集ROC曲線

圖6 分區結果與歷史滑坡數量對比

圖7 各易發性等級頻率比
機器學習模型的發展使得滑坡易發性評價更加快捷與高效,但仍存在如下不足。
(1)研究結果主要為對比LMT與ROF模型在中國滑坡易發性評價的適用性,后期宜展開模型參數調整對評價結果變化的動態研究。
(2)本次研究兩者模型驗證集AUC值均高于訓練集,這可能由于樣本數量因素以及樣本數據劃分的隨機性導致,后期宜探討滑坡樣本規模與評價模型適應性的關系。
(3)由于滑坡發生機理復雜,滑坡易發性評價的因子選擇仍存在一定片面性或主觀性,后期宜對滑坡影響因子的選取與優化進行補充研究。
通過對漢臺區進行基于LMT和ROF模型的滑坡易發性評價,得到以下結論。
(1)通過相關資料與野外調查,選取研究區高程、坡度、坡向、年均降雨量、地形地貌、巖土體類型、TWI、NDVI、距水系距離、距道路距離、平面曲率和剖面曲率共12類因子進行評價,并通過CAE和VIF表明,因子屬性適合分類模型的構建,并且各類因子對滑坡發育均有影響,其中關系最密切的是地形地貌、平面曲率、巖土體類型、NDVI和距道路距離。根據滑坡易發性分區圖,研究區滑坡主要為分布于中低山區和丘陵區黏性土滑坡。
(2)將數據代入Weka3.8軟件中構建LMT和ROF模型,生成基于兩種模型的滑坡易發性分區圖。結果顯示兩種模型預測分布趨勢基本一致,且符合歷史滑坡分布規律。
(3)通過ROC曲線、AUC值以及頻率比進行模型精度驗證與比較,結果顯示兩種模型均適用于研究區滑坡易發性評價。ROF模型的訓練集與驗證集AUC分別為0.774和0.931,均高于LMT模型的0.755和0.840;滑坡頻率比顯示,ROF模型較LMT模型對研究區滑坡易發性更敏感,分區結果更為精確。