鄧念東, 石 輝, 文 強, 李宇新, 曹曉凡
(西安科技大學地質與環境學院, 西安 710054)
崩塌作為中國的第二大地質災害,具有突發性強、影響范圍大等特點,會造成大量的人員傷亡、財產損失及環境破環等。地質災害易發性評價是地質災害風險性評估的基礎[1],可以為相關部門進行防災減災提供理論指導。
中外學者對地質災害易發性評價方法主要分為三類:知識驅動方法、確定性方法及數據驅動方法[2]。其中,知識驅動方法又稱定性評價方法,通過專家豐富的經驗對影響地質災害的各因子的貢獻率進行打分來判斷地質災害的易發性;確定性方法通過室內外實驗確定斜坡的巖土力學及水文等各參數來計算斜坡的穩定性[3],其真實可靠,但只適合單個斜坡,并不適用于大范圍的斜坡穩定性分析;數據驅動方法又稱定量評價方法通過反映出地質災害易發性與影響因素之間的非線性關系,以判斷地質災害發生的概率,從而確定出地質災害的易發程度。數據驅動方法不要求影響因素呈正態分布,適合于大面積區域[4],因此該方法越來越多的應用于地質災害易發性評價中。常見的數據驅動方法有:信息量法[5]、人工神經網絡法[6]、支持向量機法[7-8]、隨機森林模型[9]和邏輯回歸算法[10-11]等。其中,隨機森林模型具有很強的非線性處理能力,且在處理大數據量、高維度數據方面具有很好的泛化能力[12],預測精度高,較適合于地質災害易發性評價中。
為了利用分類模型進行地質災害易發性評價,需要選取一定數量的災害點與非災點,災害點根據已有歷史災害點數據獲得,而非災點數據的獲取主要以主觀推測或者隨機選取的方式獲得[13-14]。但隨機選取或主觀推測的非災點可能位于災點附近或潛在災點上[15],并不能保證所選的“非災點”易發性低,易造成樣本數據選取不合理,為增加模型訓練時災點與非災點的辨識度,減少分析誤差,提高模型的預測精度。現使用數理統計方法中原理清晰且容易建模的信息量模型先進行易發性分析,再從信息量模型得到的較低及低易發區選取與災點等量的非災點,以保證所選的非災點具有極低的崩塌發生概率。在此基礎上,構建出信息量模型(information value model,IV)支持下的隨機森林(random forests,RF)模型進行崩塌易發性分析。
崩塌是神木市最主要的地質災害之一(占全區地質災害的2/3),受人類工程活動及自然環境的影響,崩塌災害發育頻繁,嚴重威脅著當地居民的生命和財產安全。因此,以神木市為研究對象,利用IV支持下的RF模型對研究區進行崩塌易發性評價,并與隨機選取非災點的RF模型進行對比分析,探索更為理想的評價模型。
研究區地處陜北黃土高原溝壑區與毛烏素沙漠的過渡地區,西北高、東南低。地理坐標109°40′00″E~110°54′37″E、38°12′31″N~39°27′40″N(圖1),總面積7 635 km2,屬干旱大陸性氣候,年平均氣溫8.90 ℃。神木市多年平均降水量為423.2 mm,年內降水量變化較大,主要集中在7—9月,占全年降水量的69%,降水量由南向北遞減,降雨量以暴雨形式出現,易引發崩塌、滑坡等地質災害。研究區構造簡單,褶皺和斷裂不甚發育。根據地貌形態特征及成因,將神木市劃分為河谷階地區、丘陵區和沙漠灘地區3個地貌單元。水系較發育,河網密集,巖土體主要以黃土和砂泥巖為主,人類工程經濟活動頻繁,觸發了地質災害的發生,致使地質災害發育比較頻繁。區內地質災害主要為崩塌、滑坡、地面塌陷,其中崩塌地質災害約占全市地質災害的3/4以上,為區內的主要地質災害。研究區地理位置及崩塌點分布如圖1所示。

圖1 研究區地理位置及崩塌點分布Fig.1 Geographical location and collapse points distribution of the study area
信息量模型是以信息論為理論基礎的一種預測方法,通過熵的減少來表征地質災害發生的可能性大小[16]。各評價因子的信息量值預測地質災害發生的難易程度,即評價因子的信息量值越大,該評價因子的影響越大,表示地質災害越容易發生,反之,發生地質災害的可能性小。其計算公式為
(1)
(2)
式中:A為研究區的地質災害,即崩塌;Xi為不同的評價因子;I為各評價因子的信息量值;Ni為評價因子Xi中崩塌的個數;N為研究區總的崩塌個數;Si為評價因子Xi所占單元的面積;S為研究區總面積;Ii為各評價因子疊加后的總信息量值;n為評價因子的個數。
隨機森林是由Leo Breiman于2001年提出的一種集成分類器,是利用多棵樹對樣本進行訓練并預測的學習方法。它的基本單元是決策樹,每棵決策樹單獨完成分類任務后,由各個分類樹的分類結果投票決定最終的結果[17]。
隨機森林通過bootstrap重采樣技術從原始訓練樣本隨機有放回的抽取N′個樣本,作為新的訓練集,并用每一個獨立抽取的訓練樣本來訓練一棵決策樹。決策樹在進行特征分裂時從每個樣本的M個特征中隨機抽選m個(m 在結合相關文獻、研究區的地質條件、崩塌形成條件及發育特征等分析的基礎上,初步選取高程、坡度、坡向、曲率、距水系距離、距道路距離、地層巖性、地貌、降雨量、歸一化植被指數(normalized vegetation index,NDVI)10個影響因素作為評價因子。 數據來源為歷史崩塌數據庫、神木市地質災害詳查報告、地理空間數據云獲取的研究區30 m×30 m精度的數字高程模型(digital elevation model, DEM)數據、比例尺為1∶50 000的地質圖、降雨量數據。崩塌編錄數據來源主要為:①利用Arcgis軟件處理得到研究區坡度、坡向、高程、曲率4個地形地貌專題圖層;②利用91衛圖獲得研究區水系及路網圖,③通過1∶50 000地質圖矢量化得到地層巖性及地貌;④利用神木市氣象數據經克里金插值法獲得降雨量專題圖;⑤利用landsat8影像獲得該區的歸一化植被指數(NDVI)專題圖。 影響崩塌的評價因子存在著一定的關系,但是,并不是所有的評價因子都對評價結果產生積極的影響。當評價因子間存在多重共線問題時,會使模型變得復雜,從而降低模型的預測精度。為了避免這種影響,利用SPSS軟件對各評價因子進行相關性分析,若相關性系數的絕對值大于0.5,說明因子間有較強的相關性,反之,相關性較弱。在進行相關性分析后,得到結果如表1所示。由表1可知,各評價因子之間相關系數的絕對值均小于0.5,表明各因子間相關性較弱,所有評價因子均可用于崩塌易發性分析。部分因子專題圖層如圖2所示。 表1 評價因子間的相關系數Table 1 Correlation coefficient among evaluation factors 根據研究區地質環境和崩塌空間分布特征,對各評價因子進行分級。評價因子分為連續性和離散型。對于連續型評價因子進行等間隔及自然斷點法劃分,對于離散型評價因子按照其原有的分類方式進行分級,最終得到各評價因子的分級狀態如表2所示。其中,坡度、坡向、距斷層距離、距水系距離以及距道路距離按照等間隔劃分;高程、曲率、NDVI、降雨量按照自然間斷點法劃分;地層巖性分類編號如下:1為全新統沖積物、2為三疊系砂泥巖、3為全新統風積物、4為中上更新統風積物、5為上更新統沖積與湖積物、6為新近系紅黏土、7為全新統湖積物;地貌類型分類編號為:1為丘陵區、2為沙漠灘地區、3為河谷地區。 在進行崩塌易發性評價之前,需要對研究區進行單元網格劃分。中小比例尺(1∶50 000及以下)通常采用柵格單元劃分[19]。研究區在小比例尺(1∶50 000)的基礎上進行崩塌易發性分析,因此采用柵格作為評價單元。結合湯國安等[20]的DEM經驗公式:Gs=7.49+0.000 6S-2.0×10-9S2+2.9×10-15S3,其中S為地形圖比例尺,將研究區劃分為30 m×30 m精度的柵格單元,共計8 306 349個柵格單元。 利用信息量模型式(1)~式(2),將各因子的屬性值導入Excel中可計算得到分級狀態下的信息量Ii(表2)。信息量值越大,表示越容易發生崩塌,負值則表示發生崩塌的可能性小。由表2可知,坡度在40°~50°范圍內,降雨量在大于425 mm的河谷地區信息量值最大,表明此條件下容易誘發崩塌地質災害。 將研究區各評價因子分級后的信息量值經地理信息系統(geographic information system,GIS)加權求和后,得到研究區的總信息量值,其取值范圍為-7.36~5.39。利用自然間斷點法將總信息量值劃分為5個等級,即低易發區、較低易發區、中易發區、較高易發區、高易發區。最終生成崩塌易發性圖(圖3)。 圖3 基于IV模型的崩塌易發性圖Fig.3 Collapse susceptibility map based on IV model 由于崩塌往往發生于暫未發生崩塌的區域,為了避免隨機選取的非崩塌點落到潛在崩塌上,利用Arcgis在已生成的信息量模型的較低及低易發區選取與崩塌點等量的非崩塌點。將崩塌點與非崩塌點合并之后,利用Arcgis多值提取至點工具得到研究區各專題圖層的屬性值,建立崩塌屬性數據庫,用于構建模型。 在研究區隨機選取和歷史崩塌點等量的非崩塌點,與歷史崩塌點(共156個)一起作為崩塌易發性區劃的樣本。其中,將崩塌點設定為“1”,非崩塌點設定為“0”。分別隨機選取崩塌點及非崩塌點樣本中的70%(218個)作為訓練樣本,剩余的(94個)作為測試樣本。借助MATLAB軟件,將訓練樣本帶入編好的代碼進行訓練,訓練之后的模型用來測試樣本集,得到模型的測試精度為89.9%,隨后將整個區的崩塌屬性值代入建好的模型,得到研究區的崩塌易發性指數,利用Arcgis軟件的自然間斷點法將易發性指數劃分為5類,即低易發區、較低易發區、中易發區、較高易發區和高易發區。最終生成崩塌易發性圖,如圖4所示。 圖4 基于RF模型的崩塌易發性圖Fig.4 Collapse susceptibility map based on RF model 將信息量模型得到的非崩塌點,與歷史崩塌點(共156個)一起作為崩塌易發性區劃的樣本。再進行隨機森林模型訓練,得到模型的預測精度為96.5%,將整個區屬性值帶入模型,得到崩塌易發性指數,同樣采用自然間斷點法將易發性指數分成5類,分別為低、較低、中、較高及高易發區。生成最終的崩塌易發性圖(圖5)。 圖5 IV支持下的RF模型的崩塌易發性圖Fig.5 Collapse susceptibility map based on RF model supported by IV model 采用ROC曲線對兩種不同模型進行檢驗對比,通常用曲線下面積(area under curve, AUC)來說明模型的評價性能。AUC越大,模型的評價性能越好。當AUC<0.5時,說明模型無預測價值;AUC在0.5~0.7時,模型的評價性能較一般;AUC在0.7~0.9時,模型的評價性能較好;AUC>0.9時,模型的評價性能很好。 利用SPSS軟件以未發生崩塌被正確預測的概率為自變量,以發生崩塌被正確預測的概率為因變量繪制ROC曲線。分別用訓練樣本與測試樣本結果繪制成功率與預測率曲線,得到兩種不同模型的成功率與預測率,如圖6、圖7所示。 圖6 成功率曲線Fig.6 The success rate curve 圖7 預測率曲線Fig.7 The prediction rate curve 由圖6、圖7可知,RF模型及IV支持下的RF模型成功率分別為94.5%、96.9%,預測率分別為89.9%、96.5%。由此可知,IV支持下的RF模型的預測精度優于單一的模型。 以神木市為研究對象,基于前人研究成果及災害發育特征,選取了10類評價因子。基于GIS平臺,分別采取IV模型,RF模型及IV支持下的RF模型對研究區崩塌進行易發性評價,并得到如下結論。 (1)研究區崩塌受坡度、距道路距離、NDVI及距水系距離的影響較大,崩塌高易發區沿水系及公路相對發育;在坡度較高、植被覆蓋率低的區域也有較高的崩塌發生率。 (2)對于非崩塌點的選取,為避免隨機選取和主觀推測的非崩塌點具有較高的崩塌發生率,從信息量模型形成的較低及低易發區選取非崩塌點,構建IV支持下的RF模型,經ROC曲線對兩種評價模型進行檢驗,結果表明,IV支持下的RF模型在進行崩塌易發性評價時,比單獨的RF模型的成功率和預測率分別提高了2.4%和6.6%,表明IV支持下的RF模型能更準確地選取非崩塌點,適合于此研究區的崩塌易發性評價。3 評價因子選取及分級
3.1 評價因子選取與圖層制作
3.2 評價因子相關性分析

3.3 評價因子分級
4 崩塌易發性分析結果
4.1 信息量模型

4.2 隨機森林模型

4.3 信息量支持下的隨機森林模型

5 模型的檢驗與對比


6 結論