茹 曼,鄭 燕,張 斌,常勤慧
河南省航空物探遙感中心,河南 鄭州 450000
青天河景區(qū)位于焦作市西北20 km 處的博愛縣境內(nèi),景區(qū)由佛耳峽、靳家?guī)X、月山寺等七大游覽區(qū)、308 個景點(diǎn)組成,是世界地質(zhì)公園、國家5A 級旅游景區(qū)、國家重點(diǎn)風(fēng)景名勝區(qū)、國家水利風(fēng)景區(qū)、國家獼猴自然保護(hù)區(qū),是素有“北方三峽”之美譽(yù)的綜合型山水休閑度假旅游地.近年來,一方面由于前期修建青天河水庫,兩岸形成高陡岸坡,另一方面隨著旅游業(yè)的快速發(fā)展及越來越多的新的景點(diǎn)被發(fā)現(xiàn)和開發(fā),以道路建設(shè)為主的人類工程活動不斷增加.受人類工程活動及自然的雙重影響,水庫兩岸地帶、景區(qū)道路、景點(diǎn)附近亦存在崩塌、滑坡、泥石流隱患,嚴(yán)重威脅游人的安全.特別是2021 年“7·20”“9·30”極端氣象條件的出現(xiàn),在景區(qū)內(nèi)引發(fā)了崩塌、滑坡等地質(zhì)災(zāi)害,使景區(qū)受到了一定程度的破壞.針對地質(zhì)災(zāi)害的突發(fā)性與高危害性,科學(xué)評價與防災(zāi)管理是減輕其損失的最佳方案,根據(jù)以往資料顯示①宋鵬飛,等.河南省博愛縣1∶5 萬地災(zāi)詳查報告.河南省地質(zhì)礦產(chǎn)勘查開發(fā)局測繪地理信息院.2015.,研究區(qū)內(nèi)易發(fā)性評價存在區(qū)劃中網(wǎng)格較大、易發(fā)區(qū)劃分效果較差等問題,沒有對研究區(qū)易發(fā)性真實(shí)情況進(jìn)行細(xì)化研究、評價.因此筆者在查明研究區(qū)雨后地質(zhì)災(zāi)害空間分布及孕災(zāi)地質(zhì)環(huán)境條件的基礎(chǔ)上,建立合適研究區(qū)的評價模型,實(shí)現(xiàn)地質(zhì)災(zāi)害易發(fā)性有效評價,為景區(qū)科學(xué)防災(zāi)管理及保護(hù)當(dāng)?shù)厣鐣?jīng)濟(jì)發(fā)展提供依據(jù).
地質(zhì)災(zāi)害易發(fā)性評價是地質(zhì)災(zāi)害危險性風(fēng)險性評價的基礎(chǔ),主要包括查明地質(zhì)災(zāi)害特征、挖掘易發(fā)孕災(zāi)條件、建立評價方法體系、對潛在易發(fā)區(qū)域預(yù)測,最終實(shí)現(xiàn)易發(fā)性高低合理分級[1-2].近年來,以統(tǒng)計(jì)學(xué)法和人工智能算法為代表的新技術(shù)使得地質(zhì)災(zāi)害易發(fā)性評價理論與技術(shù)的研究上了一個新臺階.常用的方法有:證據(jù)權(quán)法、邏輯回歸法、信息量法、隨機(jī)森林模型、支持向量機(jī)模型、神經(jīng)網(wǎng)絡(luò)模型及組合模型等.其建立的評價模型一方面可得到更為科學(xué)且嚴(yán)謹(jǐn)?shù)脑u價結(jié)果,另一方面能較好地解決地質(zhì)災(zāi)害復(fù)雜的多源性、時空性和非線性機(jī)理特征,具有廣闊的應(yīng)用前景與研究價值[3-17],豐富的成果為后續(xù)的研究奠定了堅(jiān)實(shí)的理論技術(shù)基礎(chǔ)及經(jīng)驗(yàn)參考.然而在上述研究中采用的地質(zhì)災(zāi)害樣本數(shù)量均較多,其理論方法是否適用于小樣本區(qū)域地災(zāi)評價?針對地質(zhì)災(zāi)害數(shù)量較少的區(qū)域如何更好地開展相關(guān)評價研究等問題,部分學(xué)者也開展了相關(guān)研究.薛永安等針對小樣本情況下基于CF(確定系數(shù)法)和SVM(支持向量機(jī))地質(zhì)災(zāi)害敏感性評價模型的適用性及成果的可靠性問題展開研究,結(jié)果顯示,無論單體模型還是組合模型其評價精度均較好,具有較高的適用性[18].另外,有部分研究者發(fā)現(xiàn),SVM 與其他模型相比,在小樣本數(shù)據(jù)中表現(xiàn)良好,被認(rèn)為是目前針對小樣本分類和回歸問題的最佳方法,更加適合樣本數(shù)據(jù)有限的情況[19-22].RF(隨機(jī)森林)模型其集成學(xué)習(xí)算法在小樣本數(shù)據(jù)中也展示了較好的模型預(yù)測精度[23-24].
基于上述研究現(xiàn)狀,本文嘗試采用SVM-RF 模型對青天河景區(qū)地質(zhì)災(zāi)害易發(fā)性評價進(jìn)行研究,探討該模型在研究區(qū)的適用性及預(yù)測性,為青天河景區(qū)科學(xué)防災(zāi)提供有價值的依據(jù).
支持向量機(jī)(SVM)作為一種在高維空間中尋找分割超平面的算法,理論基礎(chǔ)比較完善,面對形成機(jī)理復(fù)雜的地質(zhì)災(zāi)害,能夠通過核函數(shù)進(jìn)行復(fù)雜的非線性分類[25-26].在地質(zhì)災(zāi)害易發(fā)性評價中,災(zāi)害的特殊性決定了其樣本數(shù)據(jù)有限,無法人為干預(yù),且與各評價因子呈非線性關(guān)系.基于以上核心思想,引入SVM 可以高效地解決在災(zāi)害樣本數(shù)量有限的前提下對高維數(shù)據(jù)進(jìn)行非線性分類問題,故本研究選擇支持向量機(jī)二分類方法分析研究區(qū)地質(zhì)災(zāi)害易發(fā)性.
隨機(jī)森林(RF)是一種由多個決策樹分類器構(gòu)成的集成學(xué)習(xí)算法.其基本原理為:利用自主采樣法隨機(jī)產(chǎn)生k 個訓(xùn)練集,對k 個樣本分別建立k 個決策樹模型并形成k 個分類結(jié)果,RF 模型的輸出結(jié)果為k個決策樹中平均概率值最高的類型[27].整體工作流程見圖1.
選取青天河景區(qū)西北部為研究區(qū),面積約26.7 km2.區(qū)內(nèi)海拔最高處為970 m,最低處為300 m,相對高差670 m,地形起伏較大,區(qū)內(nèi)主要發(fā)育堅(jiān)硬厚層狀中等巖溶化石灰?guī)r.研究區(qū)氣候?qū)倥瘻貛Т箨懶约撅L(fēng)氣候區(qū),降水時空分布不均,根據(jù)博愛縣多年降雨資料,暴雨多發(fā)生于夏季(見圖2).

圖2 研究區(qū)地理位置Fig.2 Geographical location of the study area
本研究數(shù)據(jù)源主要包括以下兩個方面.
充分考慮遙感數(shù)據(jù)的時效并選用暴雨前后兩期影像作對比,分別是2021 年5 月和2021 年10 月中旬高分二號衛(wèi)星遙感影像,進(jìn)行地質(zhì)災(zāi)害及隱患遙感解譯.
通過影像的形態(tài)、色調(diào)、紋理結(jié)構(gòu)等特征,采用二維與三維相結(jié)合方式對研究區(qū)開展地質(zhì)災(zāi)害及隱患遙感解譯判別(見圖3).經(jīng)過野外實(shí)地驗(yàn)證,最終確定該區(qū)域在“7·20”“9·30”暴雨后引發(fā)的地質(zhì)災(zāi)害及隱患點(diǎn)共26 處,其中滑坡18 處、崩塌7 處、泥石流1 處,大部分規(guī)模為小型(見圖4).

圖3 研究區(qū)地質(zhì)災(zāi)害遙感解譯標(biāo)志及野外核查照片F(xiàn)ig.3 Remote sensing interpretation marks and field verification photographs of geological disasters in the study area

圖4 地質(zhì)災(zāi)害及隱患點(diǎn)空間分布圖Fig.4 Spatial distribution map of geological disasters and hidden danger sites
選取與研究區(qū)地質(zhì)災(zāi)害易發(fā)性評價相關(guān)的孕災(zāi)背景因子用到的基礎(chǔ)數(shù)據(jù)有:1)10 m 分辨率數(shù)字高程數(shù)據(jù)(提取于1 ∶10 000 地形圖),用于獲取坡度、坡向信息;2)Sentinel-2A 影像(2021 年7 月26 日,空間分辨率為10 m),用于提取植被覆蓋度;3)博愛縣1∶5萬巖土體工程地質(zhì)類型分區(qū)圖(源自博愛縣地質(zhì)災(zāi)害詳查報告),用于工程地質(zhì)巖組分類;4)高分二號影像(2021 年10 月中旬),用于提取土地分類信息.為了保證所有因子空間一致性,首先對收集到的遙感影像數(shù)據(jù)做預(yù)處理,數(shù)據(jù)處理主要包括遙感影像的輻射校正、正射糾正、圖像配準(zhǔn)、圖像融合、圖像增強(qiáng)以及遙感數(shù)據(jù)與其他地形、地質(zhì)數(shù)據(jù)的幾何配準(zhǔn)等處理;其次將部分因子?xùn)鸥窕辆哂邢嗤臻g分辨率.
根據(jù)研究區(qū)地質(zhì)災(zāi)害發(fā)育的空間分布、地質(zhì)環(huán)境條件并結(jié)合專家經(jīng)驗(yàn),最終選取7 個地質(zhì)災(zāi)害易發(fā)性評價指標(biāo)因子進(jìn)行分析,分別為高程、坡度、坡向、巖土體、植被覆蓋度、道路距離、土地利用.其中高程、坡度、植被覆蓋度因子為連續(xù)型圖層,坡向、巖組、道路距離、土地利用因子根據(jù)研究區(qū)地質(zhì)災(zāi)害實(shí)際分布情況及專家經(jīng)驗(yàn)進(jìn)行分級處理.最終所有評價指標(biāo)均由ArcGIS 軟件制成專題圖(見圖5).

圖5 研究區(qū)地質(zhì)災(zāi)害易發(fā)性評價指標(biāo)因子圖Fig.5 Evaluation index factors of geological hazard susceptibility in the study area
提取的評價特征因子可能存在異常值、數(shù)值之間的數(shù)量級不同,故做模型訓(xùn)練前須對其進(jìn)行處理.主要包含數(shù)據(jù)異常值處理、定性因子編碼化處理、標(biāo)準(zhǔn)化處理,處理后的因子數(shù)據(jù)集作為模型訓(xùn)練輸入值.
在Scikit-learn 機(jī)器學(xué)習(xí)框架下,使用Python 語言編程,構(gòu)建基于SVM-RF 地災(zāi)易發(fā)性評價模型.選取7 類經(jīng)過處理的特征數(shù)據(jù)作為模型訓(xùn)練輸入值;訓(xùn)練樣本隨機(jī)抽取20 個災(zāi)害點(diǎn)和20 個非災(zāi)害點(diǎn)組成訓(xùn)練集,測試樣本為剩余的6 個災(zāi)害點(diǎn)和6 個非災(zāi)害點(diǎn)組成測試集.因研究區(qū)樣本數(shù)量較少,將SVM 四種核函數(shù)一起參與模型訓(xùn)練,采取5 折交叉驗(yàn)證法進(jìn)行參數(shù)調(diào)優(yōu),調(diào)優(yōu)后參數(shù)C、gamma 和tol 分別設(shè)為5、auto和0.0001,共生成40 個SVM 模型.RF 模型通過GirdSearch 方法網(wǎng)格搜索最佳參數(shù),GirdSearch 選擇的指標(biāo)參數(shù)是Acc,同樣是采取5 折交叉驗(yàn)證的方法得到RF 模型的最優(yōu)參數(shù)值.調(diào)優(yōu)后模型決策樹的最大深度為7,決策樹的個數(shù)為45,通過選取4 種不同的模型參數(shù)種子,得到4 個RF 模型.兩種模型分別根據(jù)預(yù)測的結(jié)果概率通過加權(quán)法融合,逐格點(diǎn)計(jì)算地災(zāi)發(fā)生的概率.
根據(jù)上述模型分別求出SVM 和RF 的致災(zāi)概率分布,將兩種模型結(jié)果進(jìn)行加權(quán)融合,得到最終模型預(yù)測概率,輸出為具有地理意義的TIFF 格式空間數(shù)據(jù)并在GIS 中繪制預(yù)測結(jié)果.采用準(zhǔn)確率、F1 分?jǐn)?shù)、召回率等指標(biāo)對模型融合前后結(jié)果進(jìn)行評估(見表1),從表1各個指標(biāo)可看出,各模型的預(yù)測效果比較穩(wěn)定,融合模型精度優(yōu)于單個模型.

表1 模型指標(biāo)評價Table 1 Index evaluation of models
4.2.1 結(jié)果分析
通過上述耦合模型得到研究區(qū)內(nèi)地災(zāi)易發(fā)性概率分布,并基于自然斷點(diǎn)法將研究區(qū)劃分為穩(wěn)定區(qū)、低易發(fā)區(qū)、中易發(fā)、高易發(fā)區(qū)(見圖6).將發(fā)生的地災(zāi)點(diǎn)與各易發(fā)區(qū)進(jìn)行疊加,統(tǒng)計(jì)各易發(fā)區(qū)內(nèi)地災(zāi)點(diǎn)占比及地災(zāi)點(diǎn)密度,統(tǒng)計(jì)結(jié)果見表2.根據(jù)研究區(qū)地質(zhì)災(zāi)害易發(fā)性評價結(jié)果可看出:研究區(qū)地質(zhì)災(zāi)害高易發(fā)區(qū)主要分布于青天河水庫兩岸、青天河村-碗窯河一帶及X030 公路沿線.其中高易發(fā)區(qū)面積占研究區(qū)總面積的11.66%,發(fā)育的災(zāi)害點(diǎn)占總數(shù)的88.46%.其主要原因:一方面修建庫岸及景區(qū)人工棧道形成較低的高程及斜坡地形,另一方面活躍的人類工程活動形成不合理人工切坡使得地形坡度變陡.此外,該區(qū)域地層巖體主要為巖溶化石灰?guī)r,自身的物理特性不利于邊坡穩(wěn)定,且該區(qū)域林地茂密,根劈作用易破壞巖土體結(jié)構(gòu),在降雨沖刷、風(fēng)化剝蝕等外力因素下易引發(fā)崩塌、滑坡等地質(zhì)災(zāi)害.

表2 研究區(qū)地質(zhì)災(zāi)害與易發(fā)性分區(qū)關(guān)聯(lián)統(tǒng)計(jì)表Table 2 Correlation between geological disasters and susceptibility zoning in the study area

圖6 研究區(qū)地質(zhì)災(zāi)害易發(fā)性分區(qū)圖Fig.6 Zoning map of geological disaster susceptibility in the study area
從表2 和圖6 中可以看出,隨著災(zāi)害易發(fā)性等級的提高,地災(zāi)點(diǎn)密集程度亦逐漸增大,在高易發(fā)區(qū)達(dá)到最大值.根據(jù)研究區(qū)以往的地災(zāi)數(shù)據(jù)顯示①宋鵬飛,等.河南省博愛縣1∶5 萬地災(zāi)詳查報告.河南省地質(zhì)礦產(chǎn)勘查開發(fā)局測繪地理信息院.2015.,58%的地災(zāi)點(diǎn)在本研究災(zāi)害點(diǎn)調(diào)查中再次發(fā)生災(zāi)害,均分布在高易發(fā)區(qū)中,說明災(zāi)害在研究區(qū)有一定聚集特征,側(cè)面證明了易發(fā)性等級劃分結(jié)果與本次地災(zāi)點(diǎn)分布規(guī)律較為一致.
4.2.2 精度分析
采用成功率曲線做定量化分析,說明SVM-RF 模型在青天河景區(qū)地質(zhì)災(zāi)害易發(fā)性評價中的準(zhǔn)確性.該曲線線下面積大小反映了模型的預(yù)測準(zhǔn)確性,越接近1 準(zhǔn)確性越高[28-29].由圖7 可知,該模型的線下面積(AUC)為0.9224,即預(yù)測的準(zhǔn)確率為92.24%,說明該模型整體宏觀上是可靠的.

圖7 SVM-RF 模型成功概率曲線Fig.7 Success rate curve of SVM-RF model
本文以博愛縣青天河景區(qū)西北部為研究區(qū),通過建立SVM-RF 耦合模型對研究區(qū)進(jìn)行地質(zhì)災(zāi)害易發(fā)性評價,對耦合模型在研究區(qū)地災(zāi)易發(fā)性評價中的預(yù)測性能及適用性進(jìn)行了探討,主要結(jié)論如下.
(1)基于青天河景區(qū)的地質(zhì)環(huán)境條件與地質(zhì)災(zāi)害發(fā)育空間分布特征,選取高程、坡度、坡向、道路距離、土地利用、巖土體、植被覆蓋度等7 個地質(zhì)環(huán)境因子建立研究區(qū)地災(zāi)易發(fā)性評價體系.
(2)本研究一方面從對模型選取到參數(shù)調(diào)優(yōu),保證了模型訓(xùn)練精度,另一方面通過模型訓(xùn)練總結(jié)該研究區(qū)形成地質(zhì)災(zāi)害的行為模式.根據(jù)研究區(qū)地質(zhì)災(zāi)害易發(fā)性評價結(jié)果可看出:研究區(qū)地質(zhì)災(zāi)害高易發(fā)區(qū)主要分布于青天河水庫兩岸、青天河村-碗窯河一帶及X030 公路沿線.通過成功率曲線定量分析,得到SVM-RF 模型預(yù)測的準(zhǔn)確率為92.24%;與野外調(diào)查地災(zāi)數(shù)據(jù)對比,預(yù)測結(jié)果與實(shí)際情況吻合較好.顯示出在研究區(qū)內(nèi)地災(zāi)樣本數(shù)量少,隨機(jī)選取非地災(zāi)樣本進(jìn)行訓(xùn)練的情況下,其評價結(jié)果能較好地刻畫模擬研究區(qū)地災(zāi)易發(fā)性規(guī)律,填補(bǔ)青天河景區(qū)地災(zāi)易發(fā)性細(xì)化研究,為青天河景區(qū)防災(zāi)減災(zāi)工作提供有效決策.
(3)在未來的研究中,將能夠反映災(zāi)害體內(nèi)部結(jié)構(gòu)的指標(biāo)因子納入評價體系中,進(jìn)一步挖掘指標(biāo)因子與地質(zhì)災(zāi)害蘊(yùn)藏的關(guān)系.
致謝:文中地災(zāi)點(diǎn)野外調(diào)查照片及地形數(shù)據(jù)均來源于河南省資源環(huán)境調(diào)查一院,在此表示衷心的感謝!