蔡抒 程先富



摘要:安徽大別山區是中國滑坡災害發生較為嚴重的地區之一,開展滑坡易發性評價研究,可為判斷滑坡易發分區的空間分布、產生原因提供科學依據。本文采用極限梯度提升算法、K近鄰、邏輯回歸、支持向量機、Stacking模型融合方法,利用貝葉斯算法優化模型,選擇安徽大別山區1959—2020年的降雨、植被覆蓋、地形地質、水文等數據作為輸入,結果如下:(1)XGBoost模型驗證集AUC為92.06%,Precision,Accuracy,Recall,F1-score得分較高,泛化能力好,適合做為研究區預測模型。模型得出的極高易發區和高易發區分別占總面積的23%和16.2%,分布范圍主要在金寨縣、霍山縣、舒城縣南部、潛山縣北部、太湖縣東部。(2)通過XGBoost模型的特征重要性排序發現,巖性、坡度、8月降雨是最重要的影響因子,曲率、TWI是最不重要的影響因子。
關鍵詞:滑坡;機器學習;安徽大別山區
中圖分類號:P642.22文獻標志碼: A文章編號:1001-2443(2024)02-0152-09
近年來,地質災害在中國多地頻繁發生。其隱蔽性、突發性和破壞性的特點,威脅著受災地區人民的生命財產安全[1-2]。隨著極端天氣氣候事件發生的不確定性因素增加,可能導致的強降雨事件增多,加之大規模基礎設施建設對地質環境影響劇烈,我國的地質災害治理工作仍面臨嚴峻挑戰。滑坡在地質災害中占比較多,滑坡易發性是指地表或者坡面土層在自然或人為因素的作用下,出現結構破壞、坡面變形等現象的概率,高易發性地區更容易產生滑坡。
滑坡易發性評價主要利用地理信息系統(Geographic Information System,GIS)技術獲得滑坡發生概率柵格圖,預測方法主要可分為啟發式模型[3]、常規數理統計模型[4]和機器學習模型[5]。信息價值模型[6]、熵指數[7]、確定性因子[8]、層次分析法[9]等多種統計方法也被廣泛應用于滑坡易發性圖譜繪制,但統計模型通常建立在一定的假設前提之上,這些假設可能不符合實際情況,導致模型的預測能力受到限制,某些復雜的統計模型可能很難被解釋和理解,這對于一些需要解釋的場景來說可能會帶來困難。相比之下,機器學習模型對處理的樣本數據限制較少,建模過程相對簡單高效[10]。梯度增強機(Gradient Boosting Machine,GBM)和極端梯度提升算法(Extreme Gradient Boosting,XGBoost)由于其預測能力和魯棒性出眾被熱衷。Merghadi等[11]對阿爾及利亞的案例研究,應用不同的機器學習技術進行比較,結果表明,所有基于樹的集合(隨機森林、極限梯度提升樹)在Kappa等指標上都優于其他機器學習模型(K近鄰、支持向量機和神經網絡)。Cao等[12]選擇了12個因子,利用隨機森林、支持向量機和 XGBoost三種方法生成滑坡分區圖,發現XGBoost優于其他兩種方法。在影響因子重要性上,Ali等[13]使用邏輯回歸模型和決策樹開展滑坡易發性評價時,發現臺灣地區降雨引發的滑坡,其最重要的影響因素是與河流的距離。Shrestha等[14]利用最大熵模型,采用刀切法得到每個因子AUC值,通過計算發現距斷層距離、高程是最重要的影響因子。
安徽大別山地區地質構造復雜,山區海拔高,降雨加之人為活動導致該地區滑坡災害頻繁。一些專家學者[15]對安徽大別山區滑坡的形成機理進行了研究,樓少甫[16]對大別山區開發了滑坡地質災害信息管理系統。本文通過收集安徽大別山區已發生滑坡的相關資料,利用機器學習模型預測滑坡發生的概率,繪制易發分區圖,分析影響因子重要性,為當地政府災前預警提供科學依據。
1 研究區概況及數據來源
1.1 研究區概況
研究區包括裕安、金安、葉集、金寨、霍山、霍邱、舒城、潛山、岳西、太湖、宿松八縣三區,地處安徽大別山腹地,共計2.36萬平方公里,如圖1所示。該區屬于北亞熱帶溫濕季風區,氣候溫暖濕潤,降水充沛。大別山山地地質構造基礎是古生代華力西中期的秦嶺大別山褶皺帶,主要由前震旦紀地層和侵入巖構成,以花崗巖、片麻巖等為主。大別山為淮河水系和長江水系的分水嶺,也是我國南北水系的分水嶺。山北水往北流入淮河,山南水往南流入長江,山南北兩側水系豐富,是淮河中游長江下游的重要水源補給區 。山地南北兩側修建了許多水庫,有佛子嶺水庫、梅山水庫、響洪甸水庫、白蓮河水庫、南灣水庫等[17]。
1.2 數據來源
在滑坡易發性評價中,建立合適的評價體系是準確預測的重要前提。影響因子的選取遵循以下條件:①影響因子和滑坡的形成因素相關。②控制模型影響因子的數量,盡可能避免因子間的共線性,減少模型過擬合風險。③結合研究區實際情況:根據爬取的滑坡新聞數據,發現部分滑坡發生在6、7、8月強降雨過程中,因此選擇6、7、8月平均降雨量和年均降雨量作為誘發因子。從谷歌地圖影像上觀察發現,有部分滑坡發生在植被茂盛和人類工程活動較多的地區,如圖2所示,因此選擇NDVI、距道路距離和距建筑用地距離作為影響因子。
如表1所示,以柵格單元為評價單元,將所有數據轉換為30m柵格數據,統一為蘭伯特投影。
2 數據處理及研究方法
2.1 數據處理
(1)本文對DEM 數據重采樣為30 m,提取坡度、坡向、曲率、地形起伏度、地表粗糙度五個地形因子和地形濕度指數(topographic wetness index,TWI)、水流強度指數(stream power index,SPI)2個水文因子。
(2)由于下載的滑坡點數據量較少,不能滿足機器學習模型需要的樣本點數量,本文采用Python爬蟲技術爬取百度新聞網站上2010—2020年安徽大別山區滑坡新聞,收集每個滑坡的地理位置。此外,還搜集了六安市國土資源局、金寨縣人民政府、霍山縣人民政府網站上歷史滑坡的地理位置或坐標,利用水經微圖4.1軟件,下載相應地區的谷歌地圖歷史影像數據。將影像數據導入ArcGIS,數字化滑坡的范圍,面轉柵格,再柵格轉點,結合中科院歷史滑坡數據形成最終滑坡點數據集。在地勢平坦地區,滑坡點周圍50~500 m范圍以及遠離滑坡點密集的地區分別選取非滑坡區域,利用面轉柵格、柵格轉點工具生成非滑坡點,導出為Excel表格,利用rand函數隨機選取和滑坡點數目相同的非滑坡點,共計912個。
(3)利用Map2Shp桌面版軟件將地質圖轉為保留屬性的shape格式。應用ArcGIS10.2軟件導入圖幅經緯度坐標,利用空間校正工具匹配圖幅經緯度。按照地質礦產術語分類代碼第10部分“巖石學(GB/T 9649.10—2009)”中的巖性代碼修改屬性信息。缺少的部分數據,利用安徽省1∶100萬巖性圖投影、數字化、添加屬性補全,和1∶20萬矢量數據合并并進行拓撲檢查。對照工程巖體分級標準(GB/T 50218—2014)中的巖石堅硬程度劃分標準分類。地下水數據和巖性數據處理方法相同。
(4)NDVI數據利用ArcGIS柵格計算器工具求取21年平均值。
(5)應用柵格計算器提取土地利用數據中的建筑用地,對道路、斷層、河流、建筑數據利用歐式距離、裁剪、重分類工具生成多環緩沖區,分辨率為30 m。參照有關參考文獻分級值,將道路、斷層、建筑用地三類因子的多環緩沖區值設置為0~500m、500~1000 m、1000~1500 m、1500~2000 m、大于2000 m總共5個等級,河流多環緩沖區值設置為0~200 m、200~500 m、500~1000 m、1000~2000 m、大于2000 m總共5個等級。
(6)利用Python程序計算22個氣象站點1959—2020年6、7、8月平均降雨量和年均降雨量。利用ArcGIS反距離加權法插值得到降雨量柵格數據集,分辨率為30 m。
(7)將分類后的矢量數據面轉柵格為柵格數據。所有柵格數據設置為蘭伯特坐標系,并統一為30 m分辨率,連續型數據統一按自然間斷法分為7級。
(8)利用ArcGIS多值提取至點工具,完成影響因子分級值與滑坡點、非滑坡點匹配,導出為csv格式,得到模型訓練集和驗證集。利用ArcGIS Python API編寫程序,多值提取至點并導出csv格式,總計26524738行,再與研究區點圖層匹配導出柵格文件。
2.2 研究方法
2.2.1 K近鄰 KNN(K-Nearest Neighbors)算法通俗的說就是“近朱者赤,近墨者黑”,其主要算法思想為:特征空間中的一個樣本,如果與其最類似的K個樣本中的大部分屬于某種類型,則該樣本也屬于該類別[18]。本文使用貝葉斯算法優化模型得到最優參數后,利用5折交叉驗證對訓練集進行訓練。
2.2.2 邏輯回歸模型(logistic regression,LR) 邏輯回歸模型是一種形式簡單的機器學習模型。該模型通過在線性回歸的基礎上增加一個sigmoid函數(非線形)映射,其計算代價不高,易于理解和實現[19]。本文使用貝葉斯算法優化模型得到最優參數后,利用5折交叉驗證對訓練集進行訓練。
2.2.3 極限梯度提升算法 極限梯度提升(Extreme Gradient Boosting,XGBoost)模型是梯度提升算法的一種代表算法,由陳天奇等[20]于2014年提出。XGBoost擴展和改進了梯度提升決策樹模型。其由多棵決策樹組成,決策樹對樣本特征進行映射,使每個樣本落在該樹的某個葉子節點上,每個葉子節點包含權重得分,多顆決策樹共同參與,最后將所有樹的分數累加起來作為最終的預測結果。本文使用貝葉斯算法優化模型得到最優參數后,利用5折交叉驗證對訓練集進行訓練。
2.2.4 Stacking 模型融合 Stacking算法由兩層結構組成,利用原始數據構建的多個學習器為初級學習器,其輸出結果構建的學習器為次級學習器。算法的效果好壞取決于兩個方面:一個是基模型的預測效果,通常基模型的預測效果越好,集成學習模型的預測效果越好;二是基模型之間需要有一定的差異性,以便讓不同的基模型學習到不同的特征,使每個模型充分發揮其優點[21]。本研究將貝葉斯優化后的SVC、XGBoost、LR模型作為基學習器,LR作為次學習器進行集成。
3 結果與分析
3.1 精度評價
采用斯皮爾曼相關系數進行相關性檢驗,發現年均降雨量和6月降雨量相關系數為0.94,地形起伏度和坡度、地表粗糙度相關系數分別為0.9、0.83,坡度和地表粗糙度相關系數為0.91,由于相關系數大于0.8為強相關,因此要去除強相關因子。利用特征工程中遞歸式特征消除(Recursive Feature Elimination, RFE)方法,得到每個影響因子的重要性排名,結合文獻引用較多的因子,去除地表粗糙度因子、年均降雨量、地形起伏度3個因子。再利用斯皮爾曼相關系數進行檢驗,沒有發現嚴重共線性因子。影響因子如圖3所示,其中地下水類型的圖例為:1為侵入巖風化裂隙水,2為變質巖類裂隙水,3為含鈣碎屑巖類溶蝕孔隙裂隙水,4為基巖裂隙水,5為巖漿巖類裂隙水,6為松散巖類孔隙水,7為混合花崗巖裂隙水,8為湖泊,9為火成巖風化裂隙水,10為碎屑巖類孔隙裂隙水,11為碳酸鹽巖類裂隙巖溶水,12為裸露型巖溶水。
利用Python將滑坡、非滑坡數據合并,選擇數據的70%,總共1264個樣本作為訓練集,剩余543個樣本作為驗證集。數據集包括8個類別型變量和8個連續型變量,連續型變量包括NDVI、曲率、SPI、TWI、6月平均降雨量、7月平均降雨量、8月平均降雨量和坡度,利用自然間斷法重分類為7級。刪除缺失值,得到1807個樣本數據,滑坡點數據和非滑坡點數據比例為50.36%和49.64%,數據平衡。
利用貝葉斯方法(BayesSearchCV),采用5折交叉驗證對每個模型的重要超參數進行優化,再應用學習曲線方法檢驗模型泛化能力。模型優化后的超參數值如表2所示。
XGBoost模型的訓練集AUC為91.88%,驗證集AUC為92.06%,Precision為82.19%,Accuracy為84.35%,Recall為87.91%,F1-score為84.96%。在訓練集和驗證集AUC指標上,XGBoost模型AUC值最高;在Precision方面,XGBoost模型排名第二,Stacking模型Precision值最高;在Accuracy方面,Stacking模型最優,XGBoost模型次之;在Recall方面,KNN模型最優,其次是SVC和Stacking;在F1-score 評估方法中,Stacking模型最高,其次是 XGBoost。以驗證集AUC指標為主要評估指標,發現XGBoost模型在5個模型中表現最優,其次是Stacking模型。XGBoost模型采用集成方法,基于貪心算法思想,在建立決策樹的過程中找到最佳的分裂點,和其他算法相比有一定優勢[22]。ROC曲線如圖4所示。
選取準確率(Accuracy)、AUC值、精確率(Precision)、召回率(Recall)、F1值這五項分類評價指標評估模型的性能,如表3所示。
3.2 易發性評價及影響因子重要性分析
利用訓練好的XGBoost模型對研究區的測試集數據進行預測,采用自然間斷法將評價結果分為:極高易發區(0.742~0.999)、高易發區(0.473~0.742)、中易發區(0.180~0.473)、低易發區(0.001~0.180)4類,如圖6所示,分別占研究區總面積的23%、16.2%、13.3%、47.5%。極高易發區,高易發區分布范圍主要在金寨縣、霍山縣、舒城縣南部、潛山縣北部、太湖東部和滑坡點密集區相一致,說明本文模型泛化結果較好。通過圖6發現:極高易發區的坡度較高,植被茂盛,可能是導致滑坡的主要因素。
XGBoost模型的特征重要性排序進一步分析,如圖7所示,巖性、坡度、8月降水是排名靠前的變量,說明在導致研究區滑坡發生的影響因子中,這三個因子是最重要的。坡度較大可能增大了潛在滑體的下滑力,破壞平衡導致滑坡發生,在降雨條件下容易斜坡積水,雨水加重了巖土體質量并對巖土體有軟化作用,從而降低了抗剪強度。模型顯示重要性最低的兩個因子是TWI和曲率。表明這兩個因子對研究區滑坡的作用最小。
4 結論
本文以安徽大別山區歷史滑坡點數據為基礎,利用機器學習模型預測滑坡發生概率,最后進行特征重要性排序。得到如下結論:
(1)當樣本點數量為900個左右時,可以確保5個機器學習模型的訓練和測試精度,而且模型泛化能力很好。當非滑坡取樣點均勻分布整個研究區時,模型預測的精度較高。
(2)研究區極高易發區,高易發區主要分布在金寨縣、霍山縣、舒城縣南部、潛山縣北部、太湖東部。從結果上發現,極高易發區和滑坡點密集區相一致,易發分區結果較為可信。巖性、坡度、8月降水在導致滑坡發生的影響因子中是最重要的影響因子。
參考文獻
[1] 周萍, 鄧輝, 張文江, 等. 基于信息量模型和機器學習方法的滑坡易發性評價研究: 以四川理縣為例[J]. 地理科學, 2022, 42(9): 1665-1675.
[2] 解明禮, 巨能攀, 趙建軍, 等. 區域地質災害易發性分級方法對比分析研究[J]. 武漢大學學報(信息科學版), 2021, 46(7): 1003-1014.
[3] HUANG F M, CAO Z S, GUO J F, et al. Comparisons of heuristic, general statistical and machine learning models for landslide susceptibility prediction and mapping[J]. Catena, 2020, 191: 1-14.
[4] 薛文洋, 高猛, 朱亞勝. 基于ArcGIS與證據權法的崩塌易發性評價[J]. 世界有色金屬, 2019, 529(13): 154-156.
[5] 林榮福, 劉紀平, 徐勝華, 等. 隨機森林賦權信息量的滑坡易發性評價方法[J]. 測繪科學, 2020, 45(12): 131-138.
[6] WANG Q, WANG Y, NIU R Q, et al. Integration of information theory, K-Means cluster analysis and the logistic regression model for landslide susceptibility mapping in the three gorges area, China[J]. Remote Sensing, 2017, 9(9): 28.
[7] BUI D T , SHAHABI H, SHIRZADI A, et al. Landslide detection and susceptibility mapping by AIRSAR data using support vector machine and index of entropy models in Cameron Highlands, Malaysia[J]. Remote Sensing, 2018, 10(10): 32.
[8] CHEN W, LI W P, CHAI H C, et al. GIS-based landslide susceptibility mapping using analytical hierarchy process (AHP) and certainty factor (CF) models for the Baozhong region of BaojiCity, China[J]. Environmental Earth Sciences, 2016, 75(1): 63.
[9] THI T N N, LIU C C. A new approach using AHP to generate landslide susceptibility maps in the Chen-Yu-Lan Watershed, Taiwan[J]. Sensors, 2019, 19(3): 18.
[10] MERGHADI A, YUNUS A P, DOU J, et al. Machine learning methods for landslide susceptibility studies: a comparative overview of algorithm performance[J]. Earth-Science Reviews, 2020, 207: 3225.
[11] MERGHADI A, ABDERRAHMANE B, BUI D T, et al. Landslide susceptibility assessment at Mila Basin (Algeria): a comparative assessment of prediction capability of advanced machine learning methods[J]. ISPRS International Journal of Geo-Information, 2018, 7(7): 30.
[12] CAO J, ZHANG Z, DU J, et al. Multi-geohazards susceptibility mapping based on machine learning-a case study in Jiuzhaigou, China [J]. Natural Hazards, 2020, 102(3): 851-871.
[13] ALI M Z,CHU H J,CHEN Y C, et al. Machine learning in earthquake- and typhoon-triggered landslide susceptibility mapping and critical factor identification[J]. Environmental Earth Sciences, 2021, 80(6): 233.
[14] SHRESTHA S, KANG T S, et al. Assessment of seismically-induced landslide susceptibility after the 2015 Gorkha earthquake, Nepal[J]. Bulletin of Engineering Geology and the Environment, 2019,78(3): 1829-1842.
[15] 楊穎達,崔可銳,崔亮,等.皖大別山區滑坡的形成機理研究[J].安徽地質,2014,24(4): 275-279+307.
[16] 樓少甫.基于GIS的大別山區滑坡地質災害信息管理系統研究[D]. 合肥:合肥工業大學, 2015: 54-63.
[17] 王哲. 大別山區生態產業開發及生態經濟區建設研究[M]. 合肥:合肥工業大學出版社, 2017: 26-28.
[18] 何龍. 深入理解XGBoost高效機器學習算法與進階[M]. 北京: 機械工業出版社, 2020: 45-47.
[19] 張華. 基于邏輯回歸的駕駛員信用評估研究[J]. 計算機時代, 2023, 369(3): 25-27+35.
[20] CHEN T Q, HE T, BENESTY M, et al. Xgboost: Extreme gradient boosting. R package version 1.0.0.2[EO/OL]. (2020-04-13) https://CRAN.R-project.org/package=xgboost, 2020-04-13.
[21] 夏曉圣. 中國PM2.5時空變化特征及其影響因子研究[D]. 蕪湖: 安徽師范大學, 2020: 13-14.
[22] 黃靜, 鄭慧慧. 基于XGBoost的不平衡員工晉升預測[J]. 軟件工程, 2023, 26(3): 25-29.
[23] 王鑫, 廖彬, 李敏, 等. 融合LightGBM與SHAP的糖尿病預測及其特征分析方法[J]. 小型微型計算機系統, 2022, 43(9): 1877-1885.
The Comparative Analysis of Landslide Susceptibility Assessment of Dabie Mountain Area, Anhui Province Based on Different Models
CAI Shu, CHENG Xian-fu
(School of Geography and Tourism,Anhui Normal University,Wuhu 241000,China)
Abstract:Dabie Mountain area in Anhui Province is one of the areas in China with serious landslide disasters. Conducting a susceptibility assessment of landslides provides a scientific basis for determining the spatial distribution and causes of landslide-prone areas. In this study, extreme gradient boosting algorithm, K-nearest neighbor, logistic regression, support vector machine, and Stacking model fusion method were used, and Bayesian algorithm was used to optimize the model. The rainfall, vegetation cover, topography, geology, hydrology and other data in Dabie Mountain area from 1959 to 2020 were selected as inputs. The results are as follows:
(1) The AUC of the XGBoost model on the validation set is 92.06%, and the Precision, Accuracy, Recall, and F1-score are high, indicating good generalization ability and suitability as a prediction model for the research area. The extremely high and high susceptibility areas determined by the model account for 23% and 16.2% of the total area, respectively, mainly distributed in Jinzhai County, Huoshan County, the southern part of Shucheng County, the northern part of Qianshan County, and the eastern part of Taihu County.
(2) The feature importance ranking of the XGBoost model shows that lithology, slope, and rainfall in August are the most important influencing factors, while curvature and TWI are the least important influencing factors.
Key words:landslide;machine learning; Dabie Mountain area in Anhui Province
(責任編輯:鞏 劼)