基于確定性系數(shù)與支持向量機的滑坡易發(fā)性評價

2023-02-27 11:51:02陳芯宇師蕓溫永嘯史瑞遙米曉梅

科學技術(shù)與工程 2023年2期

關(guān)鍵詞：評價模型

陳芯宇，師蕓*，溫永嘯，史瑞遙，米曉梅

(1.西安科技大學測繪科學與技術(shù)學院，西安 710054； 2.自然資源部煤炭資源勘查與綜合利用重點實驗室，西安 710021)

中國地質(zhì)條件復雜，不同地區(qū)的地理環(huán)境存在較大差異，崩塌、滑坡、泥石流等地質(zhì)災(zāi)害頻發(fā)[1]。滑坡災(zāi)害分布范圍廣、發(fā)生頻率高、災(zāi)害損失嚴重，是主要地質(zhì)災(zāi)害之一，給社會經(jīng)濟帶來巨大損失，對滑坡災(zāi)害發(fā)生的預(yù)測及防治是當下的首要任務(wù)。

滑坡易發(fā)性評價主要目的是識別出極易發(fā)生滑坡的危險區(qū)域，其結(jié)果可為滑坡災(zāi)害風險管理以及防治提供重要理論依據(jù)和技術(shù)支撐。目前中外學者常用的評價模型包括定性和定量模型。其中定性主要有專家經(jīng)驗法及層次分析法[2]，定量主要為統(tǒng)計模型(信息量模型[3]、確定性系數(shù)模型[4])和機器學習模型(支持向量機[5]、隨機森林[6]、人工神經(jīng)網(wǎng)絡(luò)[7]、邏輯回歸[8])。Farooq等[9]采用證據(jù)權(quán)、信息量、頻率比、確定性系數(shù)4種統(tǒng)計模型建立滑坡易發(fā)性評價模型，所應(yīng)用的模型對喜馬拉雅山脈的杰赫勒姆谷地的滑坡易感性評估取得了較好的效果。Akgun等[10]采用邏輯回歸和穩(wěn)定性指數(shù)的方法對土耳其北部一個水壩庫區(qū)進行滑坡敏感圖的制作。譚玉敏等[11]采用信息量模型對重慶市涪陵區(qū)進行了地質(zhì)災(zāi)害易發(fā)性評價。單一模型能較好運用于滑坡易發(fā)性評價中，但仍存在評價因子的量綱不統(tǒng)一、不能確定評價因子權(quán)重及建模過程中人為主觀因素干擾等缺陷。因此，將兩種模型甚至多模型耦合能取長補短，提高模型評價精度，以便更適用于滑坡易發(fā)性評價中。徐勝華等[12]采用熵指數(shù)模型融入支持向量機模型制作易發(fā)性分區(qū)圖，IOE模型消除量綱等誤差影響，ROC曲線結(jié)果表明耦合模型(IOE-SVM)預(yù)測準確率高于單模型(SVM)。鄧念東等[13]分別采用自適應(yīng)提升模型和隨機森林模型以及基于兩者模型耦合進行滑坡易發(fā)性評價，結(jié)果表明耦合模型訓練集準確率和驗證集的預(yù)測率均為最高。

前人諸多經(jīng)驗表明，多模型耦合精度高于單模型。其中，確定性系數(shù)模型可以解決多個復雜因子之間的同區(qū)間定量化的問題，根據(jù)滑坡點在各因子分級類別下的分布情況，可以計算出各因子分級類別下與滑坡的相對權(quán)重，但是難以確定各個因子在高維空間中與滑坡點的關(guān)系[14-15]，支持向量機(SVM)能夠通過引入核函數(shù)將樣本值從低維映射到高維空間中，適用于較少樣本數(shù)據(jù)集，但輸入數(shù)據(jù)評價因子之間量綱不統(tǒng)一的問題會影響評價的結(jié)果。

因此，現(xiàn)將CF模型與SVM模型相結(jié)合，將評價因子的CF作為SVM模型輸入值，解決了量綱不統(tǒng)一問題。在研究區(qū)地質(zhì)災(zāi)害孕育基礎(chǔ)上，選取了高程、坡度、坡向、地形曲率、距河流距離、距路網(wǎng)距離、降雨量、歸一化植被指數(shù)(normalized difference vegetation index, NDVI)、地層年代、土地利用共10個評價因子對略陽縣進行滑坡易發(fā)性評價，但在以往研究區(qū)中非滑坡點的選取多數(shù)采用全區(qū)域隨機選點或緩沖區(qū)以外選點[16-17]，此種采樣方法都難以保證所選的非滑坡點發(fā)生滑坡的概率極低，具有誤差性。為了提高模型精度，更好用于易發(fā)性評價中，現(xiàn)采用CF模型對研究區(qū)進行易發(fā)性分區(qū)，在剔除極高、高易發(fā)區(qū)外選取非滑坡點，盡量保證所選的柵格單元發(fā)生滑坡的概率極低[18-19]。最終構(gòu)建CF-SVM易發(fā)性評價模型，以為當?shù)胤罏?zāi)減災(zāi)提供參考。

1 研究區(qū)概況

略陽縣位于漢中市西北部，秦嶺山脈南麓，地理坐標105°42′E～106°31′E，33°07′N～33°38′N，地勢由南向北逐漸增高，海拔高度介于559～2 399 m，降水多集中在7—9月，平均氣溫在6～13 ℃。區(qū)內(nèi)水系較為發(fā)達，縣境從北到南有嘉陵江主流線與脊嶺線兩條高度不等的相對平行線貫穿。區(qū)內(nèi)地質(zhì)結(jié)構(gòu)復雜，分布的巖層主要在古生代完成，變質(zhì)巖、千枚巖分布于主要分布于城北，灰?guī)r分布于城南，第四系堆積物主要分布在河谷兩岸。研究區(qū)地質(zhì)災(zāi)害主要以滑坡為主，區(qū)內(nèi)滑坡隱患點為186個(圖1)，為了便于統(tǒng)計及計算，將研究區(qū)按照30 m×30 m的柵格單元進行劃分，共計3 133 823個柵格單元。

圖1 略陽縣滑坡分布圖Fig.1 Distribution map of landslides in Lueyang county

2 數(shù)據(jù)來源和研究方法

2.1 數(shù)據(jù)來源

本文研究中滑坡易發(fā)性評價數(shù)據(jù)源主要包括：①滑坡災(zāi)害點數(shù)據(jù)是由中國科學院資源環(huán)境科學數(shù)據(jù)中心的“地質(zhì)災(zāi)害點數(shù)據(jù)分布數(shù)據(jù)”提供；②ASTER GDEM 30 m分辨率數(shù)字高程模型(digital elevation model，DEM)用于提取高程、坡度、坡向、地形曲率、水系；③OpenStreeMap提取該區(qū)矢量路網(wǎng)；④1∶200 000地質(zhì)圖矢量化得到地層年代；⑤2019年降雨量來源于中國氣象數(shù)據(jù)進行插值得到年累計降雨量；⑥土地利用類型數(shù)據(jù)來源FROM-GLC，分辨率為30 m；⑦30 m分辨率Landsat8 OLI用于提取NDVI因子圖層。

2.2 研究方法

2.2.1 確定性系數(shù)模型

確定性系數(shù)模型是一種概率模型，最早由Shortliffe等[20]在1975年提出，后來由Heckerman[21]對其進行改進。根據(jù)已有的滑坡災(zāi)害點，計算各個因子不同區(qū)間滑坡發(fā)生的概率，該模型屬于雙變量統(tǒng)計分析。CF計算公式為

(1)

式(1)中：PPa為地質(zhì)災(zāi)害在因子分類a中發(fā)生的條件概率，可以用因子分類a中滑坡點個數(shù)與該類單元面積之比表示；PPs為地質(zhì)災(zāi)害發(fā)生的先驗概率，在研究區(qū)中為滑坡總個數(shù)與研究區(qū)總面積之比。由式(1)可得CF取值為[-1，1]，當CF>0時，表示在該分類a下發(fā)生滑坡的概率較大，值越接近1發(fā)生滑坡的可能性越大；當CF<0時，表示在該分類a下發(fā)生滑坡概率較小，越接近-1表示該區(qū)間發(fā)生滑坡的可能性越小；當CF=0時，無法確定該分類a下是否有利于滑坡的發(fā)生。

2.2.2 支持向量機

支持向量機是一種分類器，于20世紀90年代中期發(fā)展起來、基于統(tǒng)計學習理論的一種機器學習，通過尋求最小化結(jié)構(gòu)風險來提高學習泛化能力，實現(xiàn)經(jīng)驗風險和置信范圍最小化，能夠在樣本較少的情況下，將低維非線性數(shù)據(jù)映射到高維空間中，解決非線性轉(zhuǎn)化為線性求解問題，尋找最優(yōu)超平面將正負兩類數(shù)據(jù)分開，并保持間隔達到最大，使得支持向量機具有較好的魯棒性[22-23]。

假設(shè)滑坡訓練樣本數(shù)據(jù)xi，其中i=1，2，…，n，n為訓練樣本的數(shù)量，xi包含10個評價因子輸入向量，yi∈[-1，1]為輸出值，表示滑坡與非滑坡。SVM是尋找一個最優(yōu)超平面將兩類數(shù)據(jù)正確區(qū)分開，超平面計算公式為

wΤx+b=0

(2)

式(2)中：w為法向量；x為樣本點特征向量；b為常數(shù)。為了保證劃分間隔最大化，最大間隔表示為

(3)

為方便求解，將其轉(zhuǎn)化為最小值問題：

(4)

s.t.yi(wΤxi+b)≥1，i=1，2，…，n

(5)

計算過程中引入松弛變量ξi≥0和懲罰因子C：

s.t.yi(wΤxi+b)≥1-ξi

(6)

引入拉格朗日公式得

(7)

式(7)中：ai為Lagrange函數(shù)，ai>0；xi、xj為空間上的點。

最后得到最優(yōu)分類函數(shù)為

(8)

對于非線性問題，可以通過引入核函數(shù)將樣本值從低維空間映射到高維空間，在空間中求得最優(yōu)分類超平面。將x做非線性映射φ:Rn→H將輸入的空間樣本Rn映射到高維的特征空間H中得到

x→φ(x)=[φ1(x)，φ2(x)，…,φn(x)]Τ

(9)

對于高維空間的最優(yōu)分類函數(shù)變?yōu)?/p>

(10)

3 評價因子選取與分級

本研究區(qū)選取了高程、坡度、坡向、地形曲率、距河流距離、距路網(wǎng)距離、降雨量、NDVI、土地利用、地層年代共10個評價因子。其中土地利用和地層年代為離散型因子，離散型數(shù)據(jù)按照野外調(diào)查進行劃分；剩余8個因子為連續(xù)性因子，連續(xù)型數(shù)據(jù)劃分標準較難把握。根據(jù)前人經(jīng)驗，各因子分級圖與分級表如表1和圖2所示。

高程是影響滑坡的一個重要因素，不同高程范圍具有不同植被類型及植被覆蓋度，與降雨量也有高度相關(guān)性，高程間接影響滑坡災(zāi)害的發(fā)育[24]，研究區(qū)高程599～2 399 m，按照自然間斷法將其分為5類。坡度是決定斜坡體應(yīng)力的大小和方向，是影

表1 評價因子分級Table 1 Evaluation factor classification

續(xù)表

地層年代1為上志留系；2為中志留系；3為新近系；4為奧陶系；5為震旦系；6為薊縣系；7為泥盆系；8為全新統(tǒng)；9為三疊系；10為石炭系；11為侏羅系；12為上古生界；13為下古生界；14為中新元古界；15為古太古界圖2 評價因子分級圖Fig.2 Evaluation factor grading chart

響滑坡的一個重要因素，由于平坡應(yīng)力小發(fā)生滑坡概率較小，隨著坡度的增加應(yīng)力也會增加，發(fā)生滑坡概率也會增大[25]。研究區(qū)坡度最高75°，按照5°等間隔劃分8類，大于35°分為1類。坡向決定了坡體受到陽光照射的方向，不同坡向受太陽輻射強度不同，導致溫度、降水也有所不同，將會影響土地覆蓋度、巖石風化速度等差異，研究區(qū)坡向0～360°，以45°為間隔劃分為9類。地形曲率是對地表凹凸變化的反映，正值表示凸坡，負值表示凹坡，地形曲率為0或者接近于0表示平坦[26]。由于地形曲率為0面積很小，將-0.2～0.2看成平面坡，<-0.2為凹坡，>0.2為凸坡。河流對兩岸存在不同程度的沖刷、侵蝕影響滑坡災(zāi)害的發(fā)育，將研究區(qū)河流300 m等距離提取緩沖區(qū)，得到 6 個類別。道路工程中的開挖、路基拓寬等工程活動，改變了斜坡應(yīng)力狀態(tài)，降低了斜坡的穩(wěn)定性。根據(jù)研究區(qū)道路的分布情況，以500 m為間隔對道路進行緩沖區(qū)分析，得到5個類別。NDVI反映植被覆蓋度，取值在[-1，1]，值越接近1表示植被覆蓋越茂盛，研究區(qū)NDVI取值在[-0.34，0.9]，將其按照自然間斷法分為5類。降雨量在地質(zhì)災(zāi)害的發(fā)生中起到誘發(fā)作用，突發(fā)強降雨，土質(zhì)受到侵水后會發(fā)生軟化，降低巖土體強度[27]。研究區(qū)降雨量927～1 032 mm，按照自然間斷法分為5類。土地利用對滑坡災(zāi)害也有著十分重要影響，不同類型的土地利用，對滑坡災(zāi)害影響不同，將研究區(qū)土地利用分為8類：耕地、森林、草原、灌木、濕地、水體、建筑用地、裸地。地層巖性控制著滑坡的分布，地層年代影響著巖石的風化程度，巖石古老程度由出露時代決定，時代越久遠，風化越嚴重。研究區(qū)按照地層年代實際分布分為15類：上志留系、中志留系、新近系、奧陶系、震旦系、薊縣系、泥盆系、全新統(tǒng)、三疊系、石炭系、侏羅系、上古生界、下古生界、中新元古界、古太古界。

研究區(qū)采用CF模型計算出每個因子分級區(qū)間的CF，CF越接近1，說明對應(yīng)區(qū)間對滑坡的發(fā)生促進作用越大，反之，CF越小，對滑坡發(fā)生促進作用越小。如表1所示。

4 滑坡災(zāi)害易發(fā)性評價

4.1 多重共線檢查

在模型計算之前，避免各因子之間存在高度相關(guān)性，導致模型分類結(jié)果準確率下降，為了保證各因子間的獨立性。提取樣本點的CF，采用SPSS軟件對10個因子進行多重共線性檢查。統(tǒng)計膨脹因子(VIF)和容忍度(TOL)，當容忍度小于0.1或者方差膨脹因子大于10，表示各因子共線性程度高[28]。由表2可知各因子容忍度大于0.1，膨脹因子小于10，各因子之間不存在多重共線性問題，可參與模型訓練。

表2 多重共線性檢查Table 2 Multiple covariance check

4.2 SVM模型滑坡易發(fā)性評價

對于SVM模型易發(fā)性評價，為了降低數(shù)據(jù)集的不平衡性，提高模型的預(yù)測精度，按照1∶3比例在研究區(qū)隨機選取非滑坡點558個與已有的滑坡點186個組成樣本點，將樣本點劃分為訓練集和測試集兩部分：70%用于訓練，30%用于測試。采用灰狼優(yōu)化算法優(yōu)化SVM參數(shù)得到最優(yōu)參數(shù)懲罰因子C和核參數(shù)σ，將最優(yōu)參數(shù)組合放入模型進行訓練，將訓練好的模型用于整個區(qū)域預(yù)測，最終得到略陽縣易發(fā)性指數(shù)。按照自然間斷法分為5類：極高易發(fā)區(qū)(4.74%)、高易發(fā)區(qū)(8.55%)、中易發(fā)區(qū)(14.40%)、低易發(fā)區(qū)(40.46%)、極低易發(fā)區(qū)(31.85%)，結(jié)果如圖3和表3可知，SVM模型從極低易發(fā)區(qū)到極高易發(fā)區(qū)頻率比值逐漸增大，有58.06%的滑坡點落在極高和高易發(fā)區(qū)，僅有5.38%的滑坡點落在極低易發(fā)區(qū)中，說明SVM模型能較好評價略陽縣滑坡易發(fā)性。

圖3 SVM模型易發(fā)性分區(qū)圖Fig.3 SVM model susceptibility partition map

表3 基于SVM模型的易發(fā)性分區(qū)統(tǒng)計Table 3 Statistics of susceptibility partition based on SVM model

4.3 CF-SVM模型易發(fā)性評價

采用CF-SVM進行易發(fā)性分區(qū)，先將10個因子計算出各分級類別下CF，采用ArcGIS柵格疊加得到CF模型的易發(fā)性指數(shù)，采用自然間斷法，將整個區(qū)域分為極低易發(fā)區(qū)、低易發(fā)區(qū)、中易發(fā)區(qū)、高易發(fā)區(qū)、極高易發(fā)區(qū)，在剔除極高、高易發(fā)區(qū)外隨機選取非滑坡點(圖4)，同樣采用1∶3進行選取非滑坡點，將非滑坡點與滑坡點組成樣本點，將其70%作為訓練集，30%作為測試集。經(jīng)過灰狼優(yōu)化算法優(yōu)化模型參數(shù)得到最優(yōu)C和σ，將訓練好的模型用于整個區(qū)域預(yù)測得到略陽縣滑坡易發(fā)性指數(shù)。按照自然間斷法分為5類：極高易發(fā)區(qū)(9.04%)、高易發(fā)區(qū)(15.74%)、中易發(fā)區(qū)(23.31%)、低易發(fā)區(qū)(29.55%)、極低易發(fā)區(qū)(2.6%)。如圖5和表4所示，極高和高易發(fā)區(qū)頻率比為4.58、2.08，其余頻率比小于1，符合事實，約有74.2%的滑坡柵格單元落入極高和高易發(fā)區(qū)，表明CF-SVM模型具有更好的預(yù)測精度。

圖4 非滑坡點選取圖Fig.4 Non-landslide point selection map

表4 基于CF-SVM模型的易發(fā)性分區(qū)統(tǒng)計Table 4 Statistics of susceptibility partition based on CF-SVM model

圖5 CF-SVM模型易發(fā)性分區(qū)圖Fig.5 CF-SVM model susceptibility partition map

5 結(jié)果評價與分析

5.1 模型評價

為了更好地評價兩種模型的預(yù)測能力，采用受試者特征曲線(receiver operate curve，ROC)曲線對略陽縣滑坡災(zāi)害易發(fā)性模型進行檢驗，真陽率為縱坐標(敏感度)，假陽率為橫坐標(1-特異性)，ROC曲線下的面積(AUC)取值范圍為[0.5，1]，AUC越大表示模型預(yù)測能力越好[29]，由圖6可知隨機選取的非滑坡點SVM模型曲線下的面積(AUC)為0.83，在CF模型下剔除高易發(fā)和極高易發(fā)選取的非滑坡點CF-SVM模型曲線下的面積(AUC)為0.95，說明CF-SVM模型略優(yōu)于SVM模型，證明了非滑坡點的選取會影響模型的精度，從而會影響模型易發(fā)性評價結(jié)果。CF模型基礎(chǔ)上能更準確地選取非滑坡點，使CF-SVM模型具有更好的預(yù)測性能。

圖6 ROC曲線結(jié)果Fig.6 ROC curve results

5.2 易發(fā)性分區(qū)分析

(1)以略陽縣為研究區(qū)，基于SVM模型得到易發(fā)性分區(qū)圖，并做出ROC曲線下AUC面積為0.83，在CF模型基礎(chǔ)上，在剔除極高和高易發(fā)區(qū)外選取非滑坡點與已知滑坡點組成樣本點訓練出來的模型用于整個區(qū)域得到CF-SVM易發(fā)性分區(qū)，ROC曲線下AUC=0.95，說明CF-SVM模型具有較好的評價精度。

(2)基于SVM模型易發(fā)性分區(qū)圖可知，從極低易發(fā)區(qū)到極高易發(fā)區(qū)頻率比分別為0.17、0.42、1.34、3.65、5.67，頻率依次增高，CF-SVM模型頻率比分別為0.05、0.16、0.85、2.08、4.58，高和極高易發(fā)區(qū)最高，符合事實。且SVM模型和CF-SVM模型計算極高頻率比分別占總頻率比值的50.0%和59.3%，表明CF-SVM模型要比SVM模型預(yù)測效果要好，在CF基礎(chǔ)上剔除極高和高易發(fā)區(qū)后更能準確地選取非滑坡點。

(3)由易發(fā)性分區(qū)圖可知，極高和高易發(fā)區(qū)主要分布在河流及道路附近，這些區(qū)域植被覆蓋較少，高程較低，人類活動頻繁，坡體易受到人為活動影響，導致邊坡不穩(wěn)定，極低易發(fā)區(qū)主要分布在高程較高，植被覆蓋度高，人為活動較少，邊坡穩(wěn)定，結(jié)果符合實際，能夠用于滑坡易發(fā)性評價。

6 結(jié)論

(1)采用SVM模型和CF-SVM模型得出易發(fā)性分區(qū)圖，將CF作為SVM模型輸入值能有效解決各因子之間量綱不統(tǒng)一問題，SVM模型與CF-SVM模型都能較好地評價略陽縣滑坡易發(fā)性，SVM模型在極高和高易發(fā)區(qū)涵蓋了58.06%滑坡點，CF-SVM模型在極高和高易發(fā)區(qū)涵蓋了74.2%滑坡點，只有1.7%滑坡點落在極低易發(fā)區(qū)，表明CF-SVM模型評價結(jié)果更準確，剔除高、極高易發(fā)取選取非滑坡點的可行性。

(2)對易發(fā)性結(jié)果檢驗可知，CF-SVM模型AUC為0.95，優(yōu)于隨機選取非滑坡點的SVM模型AUC為0.83，能夠有效反映出CF-SVM模型具有更好的評價精度。表明在CF模型易發(fā)區(qū)分區(qū)基礎(chǔ)上，剔除極高和高易發(fā)區(qū)后在剩下區(qū)域隨機選取非滑坡點，避免了少量非滑坡點選在高易發(fā)區(qū)，從而影響模型預(yù)測準確率。