楊延晨,周 超,施佳湄
(1. 中國地質(zhì)大學(武漢) 李四光學院, 湖北 武漢 430074; 2. 中國地質(zhì)大學(武漢) 地理與信息工程學院, 湖北 武漢 430078)
滑坡災(zāi)害是地質(zhì)災(zāi)害中最重要的一種類型,分布地區(qū)廣、發(fā)生頻率高、造成的損失嚴重。滑坡災(zāi)害的頻繁發(fā)生會對山區(qū)居民的生命財產(chǎn)安全造成巨大的威脅[1-2]。近年來三峽庫區(qū)地質(zhì)災(zāi)害頻發(fā),2013年,重慶市萬州區(qū)孫家鎮(zhèn)荊竹屋基地帶發(fā)生大面積滑坡,致使多條道路中斷,給交通和居民安全造成了重大的隱患[3]。2014年,湖北省秭歸縣發(fā)生杉樹槽滑坡,規(guī)模大、速度快,導致水電站被滑坡沖毀[4]。滑坡災(zāi)害的精細化風險管控是防災(zāi)減災(zāi)的重要手段,而滑坡易發(fā)性評價是其風險評價的基礎(chǔ)[5]。
滑坡易發(fā)性的研究始于20世紀70年代中期,在過去的幾十年里,國內(nèi)外學者對區(qū)域滑坡易發(fā)性評價開展了諸多的研究,經(jīng)驗?zāi)P蚚6-7]、信息量模型[8-9]、統(tǒng)計預測模型[5,10-11]及機器學習模型[12-13]在滑坡易發(fā)性評價中得到了廣泛的應(yīng)用。文獻[14—15]應(yīng)用多種統(tǒng)計方法對尼泊爾Mugling-Narayanghat地區(qū)進行了滑坡災(zāi)害易發(fā)性評價,并對比分析了各模型方法的評價結(jié)果;文獻[16]通過耦合支持向量機和粗糙集模型對三峽庫區(qū)秭歸至巴東段進行了滑坡災(zāi)害易發(fā)性評價,取得了較好的效果;文獻[17]將隨機森林和確定系數(shù)耦合進行滑坡易發(fā)性評價,發(fā)現(xiàn)耦合后的模型精度更高。滑坡易發(fā)性研究目前處于正在由傳統(tǒng)的統(tǒng)計方法、機器學習模型向更加智能精確化的深度學習模型過渡的階段[18]。
滑坡是否發(fā)生除與自身所在位置有關(guān)外,還與鄰接的地質(zhì)環(huán)境密切相關(guān)。目前的滑坡易發(fā)性模型多以像素為基礎(chǔ)評價單元,忽略了與其周邊地質(zhì)環(huán)境的關(guān)聯(lián)性,影響了制圖精度的提升[19]。深度學習是一種具有更強非線性預測能力的分類模型,以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學習方法能更有效地提取出圖像數(shù)據(jù)的深層信息,已經(jīng)在圖像分類[20-21]、遷移學習[22]等領(lǐng)域廣泛應(yīng)用。此外,深度學習建模使用的基礎(chǔ)數(shù)據(jù)為矩陣圖像[23-24],與基于機器學習等模型相比,可有效顧及目標樣本周邊鄰接像素對其的影響。
本文以三峽庫區(qū)萬州區(qū)為研究對象,選取坡度、坡向、地層巖性等滑坡發(fā)育的影響因子構(gòu)建評價指標體系,應(yīng)用信息量模型統(tǒng)計分析各指標與滑坡空間發(fā)育的量化關(guān)系,構(gòu)建基于卷積神經(jīng)網(wǎng)絡(luò)的易發(fā)性評價模型。
基于卷積神經(jīng)網(wǎng)絡(luò)的區(qū)域滑坡易發(fā)性評價主要分為以下4個部分:①多源數(shù)據(jù)準備,制作滑坡編錄數(shù)據(jù)庫,收集地形、地質(zhì)和遙感影像等研究所需的基礎(chǔ)數(shù)據(jù);②指標體系構(gòu)建,結(jié)合收集的數(shù)據(jù)對影響因子進行分級,采用信息量法分析影響因子與滑坡發(fā)育的關(guān)系,構(gòu)建滑坡易發(fā)性影響因子數(shù)據(jù)集;③智能模型建立,對構(gòu)建好的數(shù)據(jù)集進行劃分,隨機選取70%的數(shù)據(jù)進行訓練,30%的剩余樣本進行測試,分別利用機器學習和深度學習模型進行易發(fā)性建模,將模型的預測結(jié)果進行易發(fā)性制圖;④精度分析評級,采用ROC曲線等對比分析不同易發(fā)性模型的精度,探究關(guān)鍵參數(shù)對建模性能的影響。
信息量模型通過計算信息量評價影響因子與滑坡發(fā)生與否的相關(guān)性。滑坡災(zāi)害(y)受多種因素的影響,各種因素在滑坡形成過程中所起的作用大小不同。對滑坡分析要綜合研究各種影響因素及具體狀態(tài)的組合,可以用信息量衡量滑坡產(chǎn)生的可能性,信息量值越大表面滑坡災(zāi)害發(fā)生的可能性越大[25]。信息量計算公式為
(1)
式中,P為在影響因素共同作用下滑坡發(fā)生的概率;P(y)為滑坡發(fā)生的概率。受樣本統(tǒng)計數(shù)量的相關(guān)限制,可以進行如下的簡化操作[26]:以研究區(qū)域的柵格單元為基礎(chǔ),采用單因素信息量模型計算,再綜合疊加分析各種影響因素的共同影響,相應(yīng)的公式可改寫為
(2)

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)是一類包含卷積計算、具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)[27]。CNN主要由3部分構(gòu)成:①數(shù)據(jù)輸入層;②由n個卷積層和池化層的組合組成;③由一個全連結(jié)的多層感知機分類器(全連接層)及輸出層構(gòu)成。
將CNN應(yīng)用于滑坡易發(fā)性評價需要建立適用于網(wǎng)絡(luò)結(jié)構(gòu)的數(shù)據(jù)集,要求數(shù)據(jù)集在地理空間上增加維度,每個樣本為包含像素鄰接信息的多維矩陣。考慮鄰接場景對目標點的影響,通過將單一的像素擴充成由該位置和其四周的點所構(gòu)成的二維像素矩陣,提取滑坡在空間上的信息(如圖1所示)。在構(gòu)建數(shù)據(jù)集的過程中,需要根據(jù)樣本的信息設(shè)置特征和標簽,像素矩陣的維度和大小、滑坡影響因子的數(shù)量共同構(gòu)成樣本的特征,而像素矩陣對應(yīng)的位置是否發(fā)生過滑坡為樣本的標簽,發(fā)生過為1,未發(fā)生過為0。

圖1 模型數(shù)據(jù)集的構(gòu)建方式
受試者工作特征(receiver operating characteristic, ROC)曲線,是一種常用于評價二分類模型建模效果優(yōu)劣的圖形方法。ROC是二維曲線,其中縱坐標定義為真陽性率,表示正例得到正確判定的比例;橫坐標定義為假陽性率,表示錯誤判定的比例。通過計算ROC曲線下面積(area under the ROC curve, AUC)可以直觀評價分類器的好壞,較大的AUC代表了較好的性能[28]。
重慶市萬州區(qū)位于中國四川盆地的東北部。萬州區(qū)地質(zhì)條件復雜,出露地層的地質(zhì)年代以中生代三疊紀和侏羅紀為主,局部地區(qū)為古生代二疊紀和新生代第四紀地層。萬州區(qū)山高且陡峭,地形起伏較大,受長江及其支流侵蝕,堆積形成了多級河流階級地貌。萬州區(qū)屬亞熱帶季風氣候,四季分明,濕潤多雨,降雨一般集中在5—9月[29]。萬州區(qū)是三峽庫區(qū)地質(zhì)災(zāi)害發(fā)育最頻繁、最集中的地區(qū),地質(zhì)災(zāi)害分布密度大、范圍廣,主要發(fā)育的地質(zhì)災(zāi)害有崩塌、滑坡等,其中滑坡最為突出,在極端降雨、庫區(qū)水位波動及人工擾動的情況下,會引發(fā)新的滑坡,使得原本的滑坡穩(wěn)定性受到影響,加劇變形[30-31](如圖2所示)。

圖2 研究區(qū)高程和滑坡分布
準確的滑坡編錄數(shù)據(jù)是易發(fā)性建模的基礎(chǔ)。在滑坡歷史編錄數(shù)據(jù)的基礎(chǔ)上,通過野外調(diào)查和高分辨率遙感影像解譯,共發(fā)現(xiàn)700多處滑坡點,查明研究區(qū)滑坡災(zāi)害以土質(zhì)滑坡為主,平面形態(tài)上多發(fā)育為箕形,剖面上多發(fā)育為凸形和階梯形,中型滑坡占比達59.7%,小型滑坡和大型滑坡各占22%和17.8%。
滑坡的產(chǎn)生是由斜坡自身內(nèi)部基礎(chǔ)地質(zhì)條件與外界環(huán)境因素共同作用所造成的。其中,內(nèi)部基礎(chǔ)地質(zhì)條件是對滑坡發(fā)生起控制性作用的因素,主要包括地質(zhì)構(gòu)造、地層巖性、地形地貌等;外界環(huán)境因素對滑坡發(fā)生起觸發(fā)作用,如水文地質(zhì)環(huán)境、人類工程活動等[32]。通過對三峽庫區(qū)野外調(diào)查研究及相關(guān)文獻的分析,選取高程、高程變異系數(shù)、坡度、坡向、平面曲率、坡面曲率、地層巖性、坡體結(jié)構(gòu)、道路距離、歸一化植被指數(shù)、地形濕度、水系距離共12個因子構(gòu)建易發(fā)性評價指標體系。應(yīng)用的指標圖層由1∶5萬地形圖、1∶10萬地質(zhì)圖、Landsat 8遙感影像等數(shù)據(jù)提取得到。
評價指標數(shù)據(jù)類型可分為連續(xù)型數(shù)據(jù)(坡度、坡向等)和離散型數(shù)據(jù)(地層巖性等)。在進行易發(fā)性建模前需要通過設(shè)置一定的步長對連續(xù)型評價指標進行離散化處理,將得到的連續(xù)型指標因素進行分級[33]。為查明各指標與滑坡空間發(fā)育的定量關(guān)系,根據(jù)各評價指標的狀態(tài)分級計算出各指標的信息量。
考慮模型對0~1的數(shù)據(jù)敏感性較強,因此,在建模前需要對數(shù)據(jù)進行歸一化處理[34]。利用二維矩陣的方式完成適用于CNN網(wǎng)絡(luò)結(jié)構(gòu)的樣本數(shù)據(jù)集,通過卷積層、池化層和全連接層搭建CNN網(wǎng)絡(luò),將研究區(qū)的數(shù)據(jù)代入網(wǎng)絡(luò)模型中進行訓練,計算得到研究區(qū)滑坡易發(fā)性概率。為驗證CNN模型的性能,同時也采用了隨機森林(random forest,RF)、多層感知器神經(jīng)網(wǎng)絡(luò)(multilayer perceptron,MLP)和支持向量機(support vector machine,SVM)3種常見的機器學習模型進行易發(fā)性建模,其模型參數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)組合通過試算法確定。為了便于區(qū)分滑坡的易發(fā)程度,利用分位數(shù)法將滑坡易發(fā)性概率分為極高易發(fā)(10%)、高易發(fā)(10%)、低易發(fā)(10%)和極低易發(fā)(70%)共4個等級,最終得到基于以上模型的區(qū)域易發(fā)性等級圖(如圖3所示)。

圖3 易發(fā)性等級圖
由分級后的各影響因子信息量統(tǒng)計結(jié)果可知,高程變異系數(shù)(>0.08)的信息量為2.535,對應(yīng)區(qū)域內(nèi)的地表多為松散堆積層,為滑坡發(fā)育提供了物質(zhì)基礎(chǔ),在一定程度上對滑坡的發(fā)生起了較大的促進作用。長江水系緩沖區(qū)距離<400 m時,其信息量為2.546,因庫區(qū)工作造成的長江水位變化,對滑坡誘發(fā)的因素較強,易發(fā)性高和極高的區(qū)域大部分分布在長江兩岸及城區(qū)附近,越靠近水庫帶越易發(fā)生滑坡,長江對于滑坡發(fā)育具有較大影響。同時,道路<400 m的信息量為2.389,道路的建設(shè)對地表造成了一定的影響,進而誘發(fā)滑坡的發(fā)生,說明人類的工程活動是該研究區(qū)內(nèi)誘發(fā)滑坡的主要因素之一。
將像素單元擴充為二維像素矩陣是考慮CNN模型中鄰域?qū)δ繕讼袼氐挠绊憽樘骄苦徑訁^(qū)域的選擇范圍對滑坡易發(fā)性評價精度的影響程度,采用不同大小的二維矩陣構(gòu)建CNN模型,精度結(jié)果如圖4所示,5×5的二維矩陣對應(yīng)的AUC最小,為0.925,11×11的二維矩陣對應(yīng)的AUC最大,為0.937,設(shè)置二維矩陣的值越大,表明鄰接區(qū)域的選擇范圍越廣,CNN模型考慮鄰域?qū)δ繕讼袼赜绊懺蕉唷Q芯堪l(fā)現(xiàn),二維矩陣大小的改變對精度的影響較小,但隨著二維矩陣的增大,AUC在逐漸增大,在一定范圍內(nèi)增大二維矩陣可以提高易發(fā)性評價的精度。

圖4 不同二維矩陣大小ROC曲線
對于機器學習模型,在數(shù)據(jù)集的構(gòu)建中只需要考慮滑坡是否發(fā)生與單個像素包含的影響因子的關(guān)系,進而對滑坡點單個像素進行預測。而對于CNN模型,不同于機器學習模型數(shù)據(jù)集,CNN易發(fā)性模型的數(shù)據(jù)集在地理空間上增加了維度,考慮了滑坡是否發(fā)生與鄰接環(huán)境的關(guān)系,充分利用了CNN在空間數(shù)據(jù)處理鄰域的特點和優(yōu)勢,在數(shù)據(jù)集的構(gòu)建中考慮鄰接像素的影響,進而完成滑坡易發(fā)性評價。通過分析基于CNN和機器學習模型易發(fā)性評價結(jié)果(如圖5所示),比較不同模型AUC發(fā)現(xiàn),CNN模型在滑坡易發(fā)性評價中的精度優(yōu)于機器學習模型,能夠更好地提取出研究區(qū)滑坡及其影響因子的信息,進而對研究區(qū)域的易發(fā)性進行更加準確的評價。

圖5 不同易發(fā)性模型的ROC曲線
此外,在滑坡易發(fā)性評價的研究中,為更好地幫助當?shù)貦C構(gòu)根據(jù)滑坡的易發(fā)性對區(qū)域進行監(jiān)控和防治,期望得到的預測結(jié)果能盡量集中在兩極,即極高易發(fā)區(qū)和極低易發(fā)區(qū)。滑坡比率由各分級區(qū)滑坡占研究區(qū)總滑坡比例與各分級區(qū)占研究區(qū)比例的比值計算而得,通過計算和對比不同模型的滑坡比率,對易發(fā)性評價模型的分級結(jié)果進行更加全面的分析和評價。由本次易發(fā)性評價的滑坡比率結(jié)果分析可知(如圖6所示),基于CNN的滑坡易發(fā)性評價相比于其他的機器學習模型,預測結(jié)果的兩極化效果更顯著,即極高易發(fā)區(qū)和極低易發(fā)區(qū)之和占比較大。

圖6 易發(fā)性分級滑坡比值
滑坡易發(fā)性評價是山區(qū)滑坡地質(zhì)災(zāi)害防治最重要的基礎(chǔ)工作之一。本文以三峽庫區(qū)萬州區(qū)為例,通過提取與滑坡發(fā)育和發(fā)生相關(guān)的高程、坡度、道路距離等12個影響因子,構(gòu)建數(shù)據(jù)集,建立卷積神經(jīng)網(wǎng)絡(luò)模型,分析滑坡空間發(fā)育規(guī)律與影響因子的關(guān)系,開展滑坡易發(fā)性評價。研究表明,卷積神經(jīng)網(wǎng)絡(luò)模型可以更有效地提取出研究區(qū)域某個像素及其鄰接區(qū)域的信息,擁有較高的預測精度,其總體精度為92.5%。在一定范圍內(nèi)構(gòu)建適應(yīng)卷積神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)集時,適當提高二維矩陣的大小可以提高易發(fā)性評價的精度。綜上所述,基于卷積神經(jīng)網(wǎng)絡(luò)的易發(fā)性評價模型在滑坡等災(zāi)害的易發(fā)性評價研究中有巨大的潛力,同時也存在模型中的參數(shù)對預測結(jié)果影響較大而導致參數(shù)設(shè)置過程煩瑣、難度大等問題,將優(yōu)化算法引入學習易發(fā)性評價是今后的研究方向和發(fā)展目標之一。