999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

3種典型機器學習方法在災害敏感性評估中的對比*

2018-08-06 05:36:06張雪蕾曹寅雪洪超裕
中國安全生產科學技術 2018年7期
關鍵詞:方法

張雪蕾,汪 明,曹寅雪,劉 凱,洪超裕

(1.環境演變與自然災害教育部重點實驗室,北京 100875;2.北京師范大學 地理科學學部減災與應急管理研究院,北京 100875)

0 引言

災害敏感性是指受災地區的致災因子或災情,對外部環境的敏感程度。災害敏感性分析和評估是指通過分析孕災環境敏感性的影響因素建立評價指標體系,利用歷史數據評估某一地區的災害敏感性。因此,災害敏感性方面的研究往往涉及大樣本或高維度數據的處理,因此越來越多的機器學習方法逐漸應用到災害敏感性分析和評估中。例如,通過貝葉斯網絡方法研究北川地區地震滑坡敏感性[1];結合蒙特卡洛仿真和貝葉斯logistic回歸,建立道路建設對滑坡敏感性影響的模型[2];此外,也有部分學者,采用人工神經網絡、支持向量機等對災害敏感性進行分析研究[3-7]。

在典型機器學習方法中,K近鄰認為相似(距離相近)的樣本類別相同,其相關概念簡潔清晰、易于實現,對于特征性質相似的數據有較好結果,但由于要計算測試樣本和所有訓練樣本的距離,分類速度相對較慢,且特征空間條件不均勻時,誤差較大;樸素貝葉斯是通過比較測試樣本各類別的條件概率進行預測,由于條件獨立性假設,故無需考慮各屬性間的關聯,且需要估計的參數較少,但在方法的實際應用過程中,相關問題往往很難滿足條件獨立性假設;決策樹是利用特征與類別之間的映射關系進行預測,結構簡單,適用于訓練集數據量較大的情況,分類速度快,對缺失值不敏感,可以不進行預處理,但決策樹不能保證最終的結果最優,且當訓練樣本含有噪聲或類別太多時,性能會受到很大影響;支持向量機是將樣本空間映射到一個高維空間,通過劃分超平面以對測試樣本進行預測,解決了線性不可分的情況,但當訓練集規模很大時,算法復雜度增加,進而導致效率不高,并且依靠經驗選擇核函數會對結果產生影響;神經網絡是模擬生物神經系統,通過確定節點及節點之間關系以進行預測,具有較強的遷移性,可以自主地從數據中提取知識,適合于大數據分析,并行分布處理能力強,充分逼近復雜的非線性關系,具備聯想記憶的功能,但神經網絡需要大量的參數,不能觀察學習過程,輸出結果難以解釋,并且許多實際問題往往不能提供足夠的數據,最終導致預測結果產生誤差;隨機森林構建了多棵決策樹,通過投票進行預測,優化了傳統決策樹容易出現的過擬合問題,并且當處理高維度數據時,不用提前做特征選擇,但在對于不均衡樣本,隨機森林仍有缺陷,并且樹的規模過大會使得構建時間過長[8-23]。

綜上,不同監督學習方法在敏感性研究中的適用性,特別是針對不同特征樣本、不同災害問題時,如何擇優選用、提高分析的可靠性和評估精度,值得進一步深入研究。本文選取K近鄰、樸素貝葉斯、隨機森林3種典型的監督學習方法,以深圳市城市快遞員電動自行車交通事故數據為基礎,對研究區域的電動車出險敏感性進行對比研究,探討方法間的差異、適用條件以及對區域敏感性制圖結果的影響,為災害敏感性研究過程中相關機器學習方法的選擇提供參考。

1 數據及模型

1.1 數據及處理

研究區域(深圳市)包括了平原、臺地、山峰等多種地貌類型,東部地區林地豐富,西部地區人口較為密集,市內交通狀況復雜,電動自行車出行風險暴露高。截至2015年7月,深圳市人均電動自行車占有量約每10人3.52輛[24],2015年涉及電動車的交通事故共造成114人死亡,占總死亡人數的26.45%,50%左右的傷亡事故與電動自行車有關[25]。

本文所采用的電動自行車出險數據來自于2014年11月至2016年12月深圳市快遞員電動自行車交通事故數據集,包含了出險時間、地點、事故簡介、損失金額、碰撞類型等;此外,還使用了中國科學院資源環境科學數據中心的以下數據:2010 年全國GDP空間分布公里網格數據、中國100萬地貌類型空間分布數據、2010年中國土地利用現狀遙感監測數據、2010年全國人口空間分布公里網格數據、中國海拔高度DEM(SRTM 30 m)空間分布數據30米柵格數據、中國地面氣候資料日值數據集(V3.0)、中國氣象背景——年平均氣溫(經DEM校正)數據。而道路數據,則使用了Open Street Map世界地圖的2016 Open Street Map data矢量數據。

本文利用ArcGIS軟件,通過高程數據生成坡度和坡向,并對研究區高程、氣溫、降水、坡度等數據進行重采樣,將其空間分辨率統一到1 km網格。利用道路數據,計算每平方公里網格內的道路總長度,獲得深圳市的道路密度;利用數字地圖確定出險地點的經緯度信息,獲得深圳市每平方公里網格電動車出險次數,根據是否出險將各網格的類別確定為出險、未出險2種情況。經過上述處理,每平方公里網格為1個樣本,樣本屬性包括: GDP、地貌類型、土地利用類型、人口、高程、降水、氣溫、道路密度、坡度、坡向,總計共生成1 771個樣本,其中219個出險樣本,1 552個未出險樣本。

1.2 模型及流程

1.2.1 K近鄰

K近鄰將測試樣本與訓練樣本一一比較,提取訓練樣本集中與測試樣本最相似的K個訓練樣本,根據訓練樣本的分類情況,對測試樣本進行預測。K近鄰的流程如圖 1所示。

圖1 K近鄰方法計算流程Fig.1 The flow chart of the K-nearest-neighbor

1.2.2 樸素貝葉斯

樸素貝葉斯計算出險或未出險的條件概率,當測試樣本被判斷為出險的條件概率大于未出險時,將測試樣本判斷為出險,反之判斷為未出險。圖 2所示內容為樸素貝葉斯方法的計算流程。

圖2 樸素貝葉斯方法計算流程Fig.2 The flow chart of the Na?ve Bayes

1.2.3 隨機森林

隨機森林可以分為2部分來理解,“隨機”和“森林”?!半S機”部分是指通過bootstrap對樣本進行有放回的隨機抽樣,進而建立二叉樹;“森林”部分是指反復建立二叉樹。當測試樣本進入森林后,每1棵二叉樹都可以得到1個分類結果,再進行“投票”過程,按照投票多寡判定出險與否,具體流程如圖3所示。

圖3 隨機森林方法計算流程Fig.3 The flow chart of the Random Forest

2 結果及對比

2.1 準確率與參數分析

深圳市每平方公里網格中未出險樣本的比例約達到90%,全部預測為未出險也可以使得準確率達到90%,因此改變樣本出險和未出險比例可能會影響模型的預測效果,本文選取了5種樣本比例:“全部樣本”;“未出險樣本”與“出險樣本”比例為7∶1;“未出險樣本”與“出險樣本”比例為5∶1;“未出險樣本”與“出險樣本”比例為3∶1;“未出險樣本”與“出險樣本”比例為1∶1。對于3種預測模型,首先確定出險和未出險的樣本比例,進而選擇三分之一樣本作為測試樣本,剩余三分之二為訓練樣本。對于K近鄰,不同的K值對分類結果有較大的影響[8],本文選擇K取值2到292(樣本比例為1:1時,訓練樣本的個數是292);對于樸素貝葉斯,連續變量離散化處理時的分組個數會影響條件概率,進而影響最終的預測結果;對于隨機森林,當隨機森林規模較小時,分類誤差大、性能也比較差[21],森林的規??赡軙绊懲镀钡谋壤M而影響最終的預測結果。

評價模型的預測結果時,本文使用準確率和混淆矩陣2種指標。準確率體現了模型總體的預測情況,混淆矩陣可以避免由于過擬合造成的準確率過高[26-28]。

(1)

混淆矩陣中,真陽性(TP)代表出險樣本中被預測為出險的百分比;假陰性(FN)代表出險樣本中被預測為未出險的百分比;假陽性(FP)代表未出險樣本中被預測為出險的百分比;真陰性(TN)代表未出險樣本中被預測未出險的百分比。3種預測模型的準確率和混淆矩陣如圖4~6所示,圖中,左側子圖是不同樣本比例和參數下的準確率曲線,右側子圖是不同樣本比例下的混淆矩陣。其中混淆矩陣由4個象限構成,每個象限中四分之一圓的半徑代表真陽性、假陰性、假陽性、真陰性的取值。

1)從K近鄰的準確率可以看到,同一樣本比例下,隨著K取值逐漸增大,準確率變化不大。其中樣本比例為1∶1時,當K取值接近訓練樣本個數時,準確率迅速下降到樣本比例50%;隨著樣本出險和未出險比例接近于1∶1,準確率逐漸降低。在同一樣本比例下,選擇使得準確率最高的K值繪制混淆矩陣;隨著樣本比例接近于1∶1,未出險樣本的預測準確率逐漸降低,出險樣本的預測準確率逐漸升高,且在樣本比例為1∶1時,出險樣本和未出險樣本的預測準確率非常接近。對于敏感性分析來說,更需要關注出險樣本的預測準確率,以便進行風險管控。因此,對于K近鄰來說,樣本比例為1∶1時預測結果更好。

2)從樸素貝葉斯的準確率可以看到,同一出險和未出險樣本比例下,隨著連續變量分類個數逐漸增大,準確率變化不大,其中連續變量分為2類時準確率較高。不同出險和未出險樣本比例下,準確率的差異不明顯。在同一樣本比例下,選擇準確率最高的連續變量分類個數,繪制混淆矩陣。全部樣本,樣本比例為7∶1,5∶1,3∶1時,未出險樣本準確率遠高于出險樣本準確率,顯然出現了過擬合現象;在樣本比例為1∶1時,對出險樣本的預測準確率高于未出險樣本。

3)從隨機森林的準確率可以看到,同一出險和未出險樣本比例下,隨著森林規模的增大,準確率始終在某一值附近波動;不同出險和未出險樣本比例下,隨著樣本比例接近1∶1,準確率逐漸降低,波動性逐漸增強;在同一樣本比例下,選擇準確率最高的森林規模,繪制混淆矩陣。對于隨機森林來說,隨著樣本比例接近于1∶1,對于未出險樣本的預測準確率迅速降低,出險樣本的預測準確率迅速升高,在樣本比例為1∶1時,對出險樣本的預測準確率較高于未出險樣本。

圖4 K近鄰準確率和混淆矩陣Fig.4 Accuracy rate and confusion matrix of K-Nearest-Neighbor

圖5 樸素貝葉斯準確率和混淆矩陣Fig.5 Accuracy rate and confusion matrix of Na?ve Bayes

圖6 隨機森林準確率和混淆矩陣Fig.6 Accuracy rate and confusion matrix of Random Forest

通過3種方法的準確率和混淆矩陣對比可以看出:隨機森林、K近鄰的準確率對樣本比例比較敏感,樸素貝葉斯相對不敏感;樸素貝葉斯的混淆矩陣對樣本比例比較敏感,K近鄰和隨機森林較不敏感;3種方法都在樣本比例為1∶1時預測效果最好,此時,K近鄰對2類樣本預測效果相近,樸素貝葉斯對出險樣本預測較好,隨機森林介于K近鄰、樸素貝葉斯之間。

2.2 敏感性圖

使用3種監督學習方法繪制敏感性圖,首先需要確定不同方法中表征敏感性的指標。在使用K近鄰的結果繪制敏感性圖時,可以得到與測試樣本最相似的K個訓練樣本中出險樣本的比例,以該比例作為評價該樣本的敏感性指標;在使用樸素貝葉斯繪制敏感性圖時,將每個測試樣本出險的條件概率作為評價該樣本的敏感性指標;在使用隨機森林繪制敏感性圖時,將每個測試樣本判定為出險的投票比例作為評價該樣本的敏感性指標。對于每種算法選擇準確率和混淆矩陣結果均最好的參數對所有樣本進行預測,獲得敏感性指標,即可獲得深圳市電動車出險的敏感性圖。3種方法的敏感性圖分別為圖 7、圖 8、圖 9。

圖7 K近鄰敏感性圖Fig.7 Susceptibility map of K-Nearest-Neighbor

圖8 樸素貝葉斯敏感性圖Fig.8 Susceptibility map of Na?ve Bayes

圖9 隨機森林敏感性圖Fig.9 Susceptibility map of Random Forest

3種方法得到的敏感性圖對于道路密集、出險發生較多的地區都評估出了較高的敏感性。但是,K近鄰方法對于主要為林地、電動車出險可能性較低的東部地區預測結果較差,出現了高敏感性和低敏感性的突變,另外,在敏感性較低的區域,會出現較高的異常值;樸素貝葉斯和隨機森林得到的敏感性圖比較相近,交通發達地區的敏感性普遍較高,對于林地地區的敏感性較低,隨機森林方法對林地的敏感性幾乎判別為0??傮w來說,3種方法中,隨機森林的結果最符合出險分布,樸素貝葉斯次之,K近鄰結果最差。

3 討論

1) K近鄰方法是通過比較樣本之間相似性對測試樣本進行評估。對于敏感性研究來說,高程、降水等環境相似的地區會形成相似的孕災環境和敏感性。因此,使用K近鄰進行災害敏感性分析從原理上有意義,保證了對出險和未出險2類樣本預測準確率均較高。另外,由于K近鄰對于樣本比例敏感性較強,對于敏感性分析問題要先進行樣本篩選工作。在度量2個樣本相似性時,由于部分變量差異較大,會出現將2個樣本的敏感性預測為完全不同的結果。以深圳市東部地區為例,該地區主要以林地為主,但是K近鄰判別的敏感性卻出現了突變,這是由于2地區的坡度、高程、坡向存在顯著差異,溫度和地貌類型存在部分差異。在利用K近鄰進行敏感性分析時,如果特征的單位對歐式距離影響較大,可以通過歸一化處理消除該影響。分類變量數值化方法的不同也可能對K近鄰的結果帶來影響。本文對地貌類型、土地利用類型定義了啞變量,其準確率和混淆矩陣都遠差于現有結果。另外,本文也利用內積距離、余弦距離計算樣本間距離,準確率和混淆矩陣都差于歐氏距離。

2) 樸素貝葉斯方法考慮到了歷史出險樣本可能出險的所有情況,對未來災害進行概率評估。由于樸素貝葉斯的準確率對于樣本比例不敏感,在不能對于樣本的分布進行判斷時,樸素貝葉斯的準確率具有參考價值。樸素貝葉斯對于出險樣本的預測結果要好于未出險樣本,更關注于可能的高敏感性樣本,更適合風險分析。但是計算條件概率時要注意避免概率為0的情況,可在計算過程中,對概率加常數、取對數,因此出險和未出險的條件概率可能得到大于1的偽概率值。此時,可以將出險和未出險的偽概率求和,求得出險偽概率所占比例作為敏感性指標。在利用樸素貝葉斯進行敏感性分析時,也要注意分類變量的類別劃分。本文對照了土地利用類型、地貌類型多種分類方式的預測準確率和混淆矩陣,結果顯示差別不大。

3)由于通常認為集成學習器可獲得比單一學習器顯著優越的泛化性能,因此在敏感性研究中,將集成學習方法與單一學習方法對比具有一定意義。對于深圳市電動車出險敏感性來說,土地利用類型是否為建設用地可能直接影響結果,因此,使用特殊的二叉決策樹——隨機森林,在原理上存在一定意義。隨機森林的整體準確率、出險樣本的預測準確率對樣本比例比較敏感,因此,在使用隨機森林進行敏感性分析時,要先進行樣本篩選工作。在利用隨機森林進行敏感性分析時,構建二叉樹的方法包括Accuracy、Gini、MDL等。通過對比發現,不同的方法對準確率和混淆矩陣的結果影響不大。由于使用了投票比例作為敏感性指標,其取值范圍為[0,1],無需進行任何處理即可繪制敏感性圖。

4 結論

1)運用K近鄰、樸素貝葉斯、隨機森林3種監督學習方法,通過設置不同參數和樣本比例訓練模型,通過準確率曲線和混淆矩陣比較了3種方法在災害敏感性評估中的效果,分析了3種方法的差異和適用條件。

2)由于K近鄰算法是利用距離度量樣本之間相似性,因此,當樣本數據的某一變量差異性較大時,或者不同變量的單位存在很大差異時,應盡量避免直接使用K近鄰算法。但是,當災害敏感性與地理相對位置相關性較強時,選擇K近鄰算法更有理論意義。

3)在利用機器學習方法對災害敏感性進行評估時,變量的選擇會影響敏感性評估結果。由于樸素貝斯算法的準確率對樣本比例不敏感,因此可以使用它避免反復隨機抽樣對計算效率帶來的負面影響。

4)當樣本數量大于1 500時,K近鄰算法、樸素貝葉斯算法、隨機森林算法的評估結果非常接近,但是隨機森林的效率明顯低于其他2種方法,因此在樣本數量較大時,單獨使用K近鄰和樸素貝葉斯算法即可得到較好的評估結果。另外,在隨機森林的評估結果中,低敏感性區域和高敏感性區域差異較大,低敏感性區域的敏感性幾乎為0。但是,對于大多數災害來說,沒有發生過災害的區域不代表不會發生災害,因此隨機森林在敏感性分析時也需要關注過擬合的問題。

猜你喜歡
方法
中醫特有的急救方法
中老年保健(2021年9期)2021-08-24 03:52:04
高中數學教學改革的方法
河北畫報(2021年2期)2021-05-25 02:07:46
化學反應多變幻 “虛擬”方法幫大忙
變快的方法
兒童繪本(2020年5期)2020-04-07 17:46:30
學習方法
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
最有效的簡單方法
山東青年(2016年1期)2016-02-28 14:25:23
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 91综合色区亚洲熟妇p| 国产精品嫩草影院av| 免费一级毛片不卡在线播放| 久久久精品无码一二三区| 国产av剧情无码精品色午夜| 青青草原偷拍视频| 2022国产无码在线| 婷婷亚洲最大| 免费一级全黄少妇性色生活片| 欧美精品在线视频观看| 麻豆精品视频在线原创| 亚洲精品第五页| 国产精品流白浆在线观看| 麻豆国产在线不卡一区二区| 国产乱人伦偷精品视频AAA| 尤物国产在线| 亚洲国产精品日韩欧美一区| 激情网址在线观看| 国产精品天干天干在线观看| 激情影院内射美女| 中文字幕无码av专区久久| 国产剧情国内精品原创| 熟妇丰满人妻| 全裸无码专区| 欧美精品亚洲日韩a| 亚洲精品自拍区在线观看| 亚洲精品黄| 国产91九色在线播放| 青青青国产在线播放| 中文字幕在线一区二区在线| 国产黄网永久免费| 久久香蕉国产线| 97在线免费| 国产亚洲视频免费播放| 四虎影视国产精品| 国产精品制服| 国产日本视频91| 亚洲三级视频在线观看| 免费人成视网站在线不卡| 在线观看网站国产| 日韩美毛片| 免费播放毛片| 国产青青草视频| 日本尹人综合香蕉在线观看 | 国产污视频在线观看| 亚洲首页在线观看| 亚洲一区二区三区香蕉| 国产91精品久久| 在线日韩日本国产亚洲| 五月婷婷亚洲综合| a国产精品| 秋霞国产在线| 五月天婷婷网亚洲综合在线| 国产欧美日韩18| aⅴ免费在线观看| 国产又粗又猛又爽| 福利一区在线| 亚洲成在人线av品善网好看| 亚洲精品少妇熟女| 久久久久中文字幕精品视频| 日韩天堂网| 69av免费视频| 美美女高清毛片视频免费观看| 国产麻豆aⅴ精品无码| 欧美一级一级做性视频| 欧美成人一级| 亚洲国产欧美中日韩成人综合视频| 亚洲AV无码一区二区三区牲色| 色综合热无码热国产| 欧洲欧美人成免费全部视频| 国产手机在线小视频免费观看| 午夜爽爽视频| 性做久久久久久久免费看| 亚洲人成人无码www| 91欧美在线| 亚洲午夜久久久精品电影院| 真实国产乱子伦高清| 国产av剧情无码精品色午夜| 免费一级大毛片a一观看不卡| www.狠狠| www.youjizz.com久久| 美女无遮挡被啪啪到高潮免费|