999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數據不平衡樣本集的重采樣方法及應用

2018-08-22 01:23:28汪海濤余永奎段春雨
現代計算機 2018年22期
關鍵詞:分類模型

汪海濤,余永奎,段春雨

(廣東電網有限責任公司中山供電局,中山 528400)

0 引言

在電力生產及運行維護的安全監督管理中,將電力事故事件分為設備事故和人身傷亡事故兩大類。近年來,隨著電力設備可靠性的不斷提高,人的不安全行為(違章)成為電力事故事件的主要風險源。揭示人的不安全行為與電力事故事件的內在關系及規律,進而開發出電力事故事件的預控模型,對電力事故事件防范于未然及提高電力企業安全生產具有重大的意義。

電力生產及運行維護中人的不安全行為俗稱為違章,而導致違章的因素很多,諸如人員本身因素、自然環境因素、作業復雜程度因素、作業工器具因素以及安全管理因素等。要從這種數據規模體量巨大以及種類繁多的浩瀚違章大數據中去發現人的不安全行為與電力事故事件的內在關系及規律,并非一件容易的事。可以說,靠傳統的統計分析方法和技術完成此類工作顯然是力不從心的。因此,探討應用大數據分析中的數據挖掘技術以及機器學習方法求解這類問題便成為目前的主要研究途徑,其研究價值和意義是顯而易見的。

機器學習方法中具有代表性的方法是聚類和分類,如果提供給機器學習的大數據樣本集是不平衡的類樣本,即正類和負類的比例差距懸殊,則用機器學習算法開發出來分類模型便會出現偏差和不可用,原因是機器學習算法往往是通過減少誤差來提高準確率的,而忽視了樣本類別的分布比例及類別平衡。例如,假設提供給機器學習的大數據樣本集規模為1萬個樣本,正類樣本9900個,而負類樣本只有100個,則機器學習算法在保證99%的分類準確率下會對少量的100個負類樣本視而不見(誤為噪聲),這種在不平衡樣本集下機器學習得到的分類模型是沒有實際應用價值的。

本文以筆者承擔的國內某電網公司的“電力事故事件與違章大數據分析及預控模型研究和應用”科技項目為例,對從多個渠道收集到的違章大數據不平衡的樣本集,提出一個從不平衡樣本集創建一個平衡的類分布樣本集的方法,解決電力違章事故事件機器學習分類算法模型中訓練樣本集的不平衡問題。本文研究的內容及成果,對解決其他行業開發機器學習分類算法模型中碰到的類似問題具有普遍的參考價值和意義。

1 基于增減法的樣本數據集重采樣[1]

增減法通過增加少數類的樣本數量或減少多數類的樣本數量實現數據集類別的平衡,平衡分類獲得大致相同數量的類實例規模。表1是幾種基于增減法的重采樣方法比較,表2是電力違章事故事件大數據樣本集重采樣的實例。

1.1 基于增減法的樣本數據集重采樣方法比較

表1 幾種基于增減法的重采樣方法比較

1.2 電力違章大數據樣本集重采樣實例

用于“電力事故事件與違章大數據分析及預控模型研究和應用”的電力違章大數據樣本集共有10300個樣本,其中事故事件違章樣本=300個,非事故事件違章樣本=10000個,事故事件發生率=300/10300=2.9%。

2 機器學習算法分類模型的評價方法

評價機器學習算法分類模型性能的評價方法一般使用如下的混淆矩陣工具:

表3

混淆矩陣中各元素的定義是:

真_正類(True Positive,TP)是指屬于類別 C 的樣本實例而被分類成類別C;

漏報(False Negative,FN)是指屬于類別C的樣本實例而被分類成非類別C;

誤報(False Positive,FP)是指非類別C的樣本實例被分類成為類別C;

真_負類(True Negative,TN)是指不屬于類別C的樣本實例而被分類成不屬于類別C。

評價機器學習算法分類模型性能通常使用下述三個指標:

分類模型的準確率=(TP+TN)/(TP+FN+FP+TN);

分類模型的精度=TP/(TP+FP);

分類模型的召回率=TP/(TP+FN)。

對于不平衡樣本集的數據挖掘,如果不做平衡處理,則使用準確率指標評價分類器模型的性能是不恰當的。例如,決策樹和回歸等分類器模型分類性能會偏向于樣本數量多的類別,而忽略樣本數量占少數的類別,這就會使分類器模型對少數類的誤判率會較高。當樣本集少數類與多數類的比例嚴重不平衡時,例如2%比98%的情形,分類器模型把所有樣本分為多數類,其準確率也達到98%,占2%的少數類樣本被視為噪聲而忽視。因此,評價分類器模型的性能應該綜合考慮準確率、精度和召回率多個指標。

3 結語

在大數據分析研究領域,選擇性能好的機器學習算法設計分類模型,往往是建立在多個機器學習算法預測性能的比較分析的基礎上的。對大數據不平衡樣本集進行平衡處理后,用作多個機器學習算法的訓練樣本,使這些機器學習算法的預測性能可以進行比較,從而為選擇機器學習算法設計分類模型提供輔助決策信息。

我們在“電力事故事件與違章大數據分析及預控模型研究和應用”科技項目中,分別應用本文討論的5種重采樣方法,對電力事故事件大數據不平衡樣本集進行平衡處理,并應用到目前流行的多個機器學習算法的訓練學習中,為項目設計電力事故事件預控模型提供了有價值的輔助決策信息。本文闡述的研究方法,對大數據分析及機器學習算法分類模型的研究及應用具有普遍的參考價值和意義。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 九九久久精品国产av片囯产区| 欧美曰批视频免费播放免费| 久久国语对白| 久久久精品国产SM调教网站| 国产97公开成人免费视频| 亚洲欧美不卡视频| 亚洲爱婷婷色69堂| 亚洲三级成人| 日韩欧美网址| 少妇人妻无码首页| 国产成人久久综合777777麻豆| 永久天堂网Av| 免费精品一区二区h| 国产精品内射视频| 天天操天天噜| 国产一区二区精品高清在线观看| 欧美日韩综合网| 久久美女精品| 91精品视频在线播放| 免费无码又爽又黄又刺激网站| 欧美成人国产| 国产主播在线一区| 国产精品夜夜嗨视频免费视频| 国产精品白浆无码流出在线看| 久久久噜噜噜| 国产精品成人观看视频国产| 国产精品无码一区二区桃花视频| 亚洲美女久久| 免费a在线观看播放| 国内a级毛片| аⅴ资源中文在线天堂| 精品1区2区3区| 国产91小视频| 日本三级精品| 浮力影院国产第一页| 福利国产在线| 国产成人艳妇AA视频在线| 久久久久亚洲Av片无码观看| 亚洲性日韩精品一区二区| 一区二区三区精品视频在线观看| AV无码国产在线看岛国岛| 亚洲无码日韩一区| 亚洲国产精品一区二区高清无码久久| 久爱午夜精品免费视频| 国产精品亚洲а∨天堂免下载| 国产成在线观看免费视频| 亚洲中文字幕在线精品一区| 国产噜噜在线视频观看| 欧美中文一区| 一级福利视频| 亚洲无码一区在线观看| 日韩专区欧美| 精品国产成人av免费| 特级做a爰片毛片免费69| a在线观看免费| 人妻一区二区三区无码精品一区 | 看国产毛片| 久久综合九色综合97婷婷| 国产日韩欧美黄色片免费观看| 国产精品漂亮美女在线观看| 老色鬼久久亚洲AV综合| 亚洲成综合人影院在院播放| 一级毛片在线播放| 国产浮力第一页永久地址 | 国产日产欧美精品| a天堂视频| 婷婷色一区二区三区| 国产精品自在线拍国产电影 | 国产精品夜夜嗨视频免费视频| 国产在线视频导航| 亚洲av无码人妻| 国产精品人成在线播放| 亚洲区视频在线观看| 香蕉网久久| 国产精品亚洲欧美日韩久久| 呦视频在线一区二区三区| 国产一区二区三区夜色| 国产拍揄自揄精品视频网站| 波多野结衣在线一区二区| 99久久99视频| 国产高清在线丝袜精品一区| 人妻精品久久无码区|