999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的航材不平衡樣本集數據分析方法研究

2021-10-21 08:51:30任宇軒
科技信息·學術版 2021年15期

任宇軒

摘要:不平衡樣本集一般指在多數類樣本個數與少數類樣本個數相差較大的數據集合,對這類數據進行分類時,結果會偏向于多數類,導致分類錯誤。為解決不平衡樣本集在數據分析時的問題,使用了一種基于代價敏感的隨機森林方法,并在飛機航材保障數據分析中應用,結果表明該方法能夠對不平衡數據進行較為準確的分析。

關鍵詞:隨機森林;不平衡數據;分類器;航材

1 引言

航材保障是為飛機檢修維修提供所需航材的重要工作,其直接關系到飛機能否正常執行任務。缺材停飛指飛機因缺乏航材導致無法飛行,為掌握航材保障工作規律,對保障數據進行分析,預判缺材停飛事件發生具有重要的意義。但是航材保障工作中缺材停飛屬于小概率事件,導致缺材停飛的航材占比一般不足百分之五,導致樣本集內正樣本與負樣本比例極不平衡,對這類樣本集進行數據分析會導致結果出現偏差,算法會使得分類結果偏向于樣本容量大的一類,如何解決不平衡樣本集對數據分析結果帶來的影響是當前的熱點研究方向。

2 代價敏感的隨機森林算法

代價敏感的思想對于不平衡數據分析有很好的效果,在對于不平衡數據的分類器中把少數類錯分為多數類的代價設為較大,能夠使得分類器對于少數類樣本更加關注。其主要思想與我們對待不平衡樣本集的思想相同,與其他對于不平衡樣本集的處理方法相比較,代價敏感矩陣擁有更低的時間復雜度,更適合大數據處理,但大家敏感矩陣的具體值確定較為困難,代價敏感矩陣方法分類方法一般有三種。

一是將誤分類的代價以權重的形式直接作用到數據集中,這種方法其實相當于通過改變數據權重的方式來修改數據的分布,使分類器朝著誤分類代價減少的方向學習。受到AdaBoost的啟發,有一些用于不平衡數據的代價敏感的Boosting算法已經提出,一個典型的算法就是AdaCost,它是AdaBoost的變種形式,只是將誤分類代價作為數據空間中權重更新的策略而引入。

二是把代價最小化技術同集成方法結合。先使用傳統的集成學習方法訓練模型,然后將訓練出的傳統模型與代價最小化技術相結合形成代價敏感模型。MetaCost是一種將傳統的分類器轉換為代價敏感模型的方法,傳統分類器通過一個“元學習”過程,根據最小期望代價修改訓練樣本的類標記,并使用修改后的訓練集重新學習新的模型。使用 MetaCost 的優勢就是它將分類器視為黑箱,不需要知道分類器的內部結構,同時可以應用到任何個數的基分類器上以及任何形式的代價矩陣上。

三是直接構造一個代價敏感模型,將代價敏感函數或者特征同分類器直接結合,通過學習器的學習過程將代價敏感函數擬合到分類器中。文獻將代價敏感方法和決策樹結合,提出了基于代價敏感的剪枝方法。該方法將代價函數作為剪枝評判的標準,對決策樹的過擬合問題起到一定的緩解作用。同時,經過剪枝后,分類器泛化能力和分類準確率得到了一定程度的提高。然而,剪枝操作對閾值的設定十分敏感,將閾值進行少量的變動,會引起整棵樹很大的變動。另外,將剪枝操作加入到分類器的學習中,無疑會加大分類器學習所需的時間。

隨機森林分類器是一種將多個決策樹組合為一個算法的機器學習方法,多棵決策樹表示為{h(X,θk),k=1,2,…,k},k表示隨機森林里基分類器的個數,決策樹基于Bagging的隨機有放回抽樣,在隨機空間進行魔性訓練,保證了基分類器的多樣性。由于在樣本選擇過程中的隨機性提高看分類的精準度,避開了過擬合問題。隨機森林方法組合多棵決策樹的分類結果,結果選擇多數決策樹的結果。

式中,hk(x)是決策樹模型,y是決策樹的分類結果,I(·)為指示器函數

代價函數是根據數據集特征得來,通過計算樣本分布,構造代價因子,詳細步驟如下。

第一步,計算整個數據集、多數類樣本、少數類樣本的的數據中心。

第二步,計算各類別數據中心到數據集數據中心的全中距離,在數據集中,重要特征相對較少,計算類別中心到整個數據集中心的歐式距離構造代價對重要特征不公平,本算法引入權重距離,利用信息增益衡量每個特征在不同類別中的重要性。

第三步,設多數類c1,少數類c0,其中樣本數分別為N1,N2,能夠定義γ系數如下:

3 實例驗證

實例選擇某保障單位一段時間內的保障數據進行分析,共1121條數據中,缺材數據占比約為百分之5,屬于不平衡數據集,采用代價敏感的隨機森林方法進行分析。為消除不同屬性之間量綱不同對結果的影響對數據集采用歸一化處理。

將代價敏感的隨機森林算法與普通隨機森林算法結果相比較,0表示未發生缺材,1表示發生缺材。下表中1/0表示實際為1算法分類結果為0,以此類推。是研究過表明傳統隨機森林算法會將絕大多數樣本歸類為多數類,而代價敏感的隨機森林算法能提高分類器對少數類樣本的分類準確度。

可見代價敏感隨機森林算法在處理不平衡數據時總準確率明顯提高,且將少數類樣本分類正確率也有極大的提升。

4 結論

不平衡樣本數據集對數據分析工作提出了更高的要求,傳統的機器學習算法會受到樣本容量不均的影響,對少數類樣本的分類能力較差。本文采用了一種代價敏感的隨機森林方法,使算法更加關注少數類樣本的分類結果,隨機森林綜合了多棵決策樹的結果,實例驗證表明該算法相較于傳統隨機森林方法,在處理不平衡數據時有著更高的準確率。

參考文獻

[1]曹正鳳.隨機森林算法優化研究[D].首都經濟貿易大學,2014.

[2]姚登舉.面向醫學數據的隨機森林特征選擇及分類方法研究[D].哈爾濱工程大學,2016.

[3]肖堅.基于隨機森林的不平衡數據分類方法研究[D].哈爾濱工業大學,2013.

[4]尹華,胡玉平.一種代價敏感隨機森林算法[J].武漢大學學報(工學版),2014,47(05):707-711.

[5]楊杰明,高聰,曲朝陽,闞中鋒,高冶,常成.基于代價敏感的隨機森林不平衡數據分類算法[J].科學技術與工程,2018,18(06):285-290.

[6]高聰.基于隨機森林的不平衡大數據分類算法研究[D].東北電力大學,2018.

[7]王平,單文英.改進的隨機森林算法在乳腺腫瘤診斷中的應用[J].計算機應用與軟件,2016,33(04):252-257+264.

主站蜘蛛池模板: 青草视频在线观看国产| 亚洲色图欧美激情| 超清无码一区二区三区| 91精品国产综合久久香蕉922 | 国产欧美日韩18| 日本久久久久久免费网络| 一本无码在线观看| 中文字幕无码电影| 亚洲中文无码av永久伊人| 青青青视频免费一区二区| 67194亚洲无码| 精品国产福利在线| 国产色伊人| 久久国产精品影院| 精品少妇三级亚洲| 爱色欧美亚洲综合图区| 亚洲国产天堂在线观看| 99久视频| 欧美激情第一区| 午夜一级做a爰片久久毛片| 看你懂的巨臀中文字幕一区二区| 国产成人精品在线| 精品一区二区三区视频免费观看| 日本一区高清| 欧美亚洲激情| 三上悠亚精品二区在线观看| 欧美性天天| 国产成人在线小视频| 草草线在成年免费视频2| 国产剧情一区二区| 无码高潮喷水在线观看| 欧美国产菊爆免费观看| 国产欧美日韩综合在线第一| 不卡国产视频第一页| 国产原创演绎剧情有字幕的| 亚洲视频在线观看免费视频| 欧美日韩中文国产| 国产成人做受免费视频| 国内毛片视频| 成人午夜亚洲影视在线观看| 曰韩免费无码AV一区二区| 欧美日韩动态图| 在线无码九区| 久久无码免费束人妻| 国产人前露出系列视频| 亚洲AⅤ永久无码精品毛片| 亚洲AV无码乱码在线观看代蜜桃| 国产成年无码AⅤ片在线| 免费播放毛片| 色网站在线视频| 秋霞午夜国产精品成人片| 国产亚洲欧美另类一区二区| 亚洲无码视频图片| 日日拍夜夜嗷嗷叫国产| 99久久免费精品特色大片| 成人欧美在线观看| 欧美精品成人| 欧美一区二区福利视频| 亚洲日韩国产精品无码专区| 福利一区在线| 欧美一道本| 亚洲视频无码| 456亚洲人成高清在线| 奇米影视狠狠精品7777| 国产精品综合久久久| 超薄丝袜足j国产在线视频| 激情乱人伦| 青青国产视频| 久久久久久久97| 在线免费无码视频| 欧美激情视频二区| 亚洲欧洲美色一区二区三区| 尤物亚洲最大AV无码网站| 欧美一区福利| 国产va在线观看| 看你懂的巨臀中文字幕一区二区| 国产丝袜91| 免费人欧美成又黄又爽的视频| 97国产精品视频人人做人人爱| 精品中文字幕一区在线| 亚洲无码电影| 亚洲另类国产欧美一区二区|