999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不平衡統計數據分類
——基于最近鄰降噪濾波器

2019-01-23 07:41:44
福建質量管理 2019年1期
關鍵詞:分類模型

(廣東財經大學 廣東 廣州 510320)

引言

隨著大數據時代的到來,現實生活中充斥著各種各樣結構化與非結構化的數據,如何有效的處理各種不同類型的數據顯得極為關鍵。數據分類作為數據挖掘體系中極為重要的一部分,雖然傳統的分類算法對于各類別分布較為均勻的數據能表現出較好的分類性能,但對于類別分布極不均勻的數據,其中傳統分類算法以總體精度作為優化目標,很容易造成大量的少數類樣本被錯誤分類的現象。例如在金融信用違約用戶監測的過程中,樣本中未違約用戶的數量遠遠高于違約用戶,傳統分類算法極易傾向于將所有樣本均判定為多數類,由此模型可以得到較高的總體分類精度。對于異常檢測等問題,無法將少數類樣本準確識別出來,模型具有再高的總體分類精度都沒有實際應用價值。這類數據廣泛的存在于現實應用領域,包括癌癥監測、金融欺詐監測、網絡入侵監測等。在癌癥監測問題上,如果將癌癥病人錯誤分類,錯過了醫治的最佳時間,將會付出更大的代價。因此不平衡數據分類的研究具有很強的社會意義,可以廣泛應用于社會中的各個領域并產生價值。

目前應用比較成熟的分類算法有決策樹、K近鄰、樸素貝葉斯分類器、SVM、神經網絡以及集成學習等,傳統算法都是基于兩個前提假設:1.樣本數據內各個類的分布情況大致均勻。2.各個類別被錯誤分類的代價基本相同。對于分類模型的性能評價指標以總體分類準確率作為核心指標,由此會對不平衡數據會產生較高的少數類樣本錯分率。國內外學者對于不平衡數據分類總要從數據預處理、代價敏感參數、單類別學習與集成學習四個方面展開。本文通過構建不平衡數據框架的分類器來處理UCI中近5個不平衡數據集,通過與傳統分類算法進行比較驗證有效性。

一、最近鄰降噪濾波不平衡數據處理框架

最近鄰降噪濾波不平衡數據處理框架包括對于多數類樣本進行欠采樣與對于少數類樣本進行降噪濾波處理,然后將處理后的數據進行分類并通過交叉驗證計算分類的性能。傳統的欠采樣往往會全部使用少數類樣本來進行模型的訓練,但少數類樣本中存在一些噪聲會降低分類器的性能。通過構建KNN降噪濾波過濾器來剔除噪聲以提高分類器的整體性能。

(一)少數類樣本降噪濾波處理。對于不平衡數據最基本的處理就是將多數類樣本通過欠采樣,由此使數據中各類樣本的分布基本均勻。但往往忽視了少數類樣本中存在的噪聲,有效確認少數類樣本中的噪聲并剔除將提高對于不平衡數據的分類性能。基本思路為判斷某個少數類樣本附近的K個近鄰樣本中少數類樣本的占比將此少數類樣本劃分為有效少數類樣本、相對有效少數類樣本、噪聲少數類樣本三類。其中有效少數類樣本的K個近鄰全是少數類樣本而噪聲少數類樣本的K個近鄰全是多數類樣本。

算法步驟:輸入不平衡樣本數據,少數類樣本記為Sm,多數類樣本記為SM,其中選擇的近鄰數記為K。對于i=1∶|Sm|,計算少數類Sm中各個樣本的K個近鄰以及其中含有多數類樣本的個數。將其中K個近鄰全是多數類的樣本進行標記,然后剔除。輸出通過降噪濾波過后的樣本數據。

二、多數類欠采樣方法

經典的欠采樣方法包括Undersampling、RUSBoost、UnderBagging、EasyEnsemble等。但欠采樣存在一個缺點是隨機欠采樣過程中容易將有價值的樣本點給遺漏,使得樣本失真,無法最大程度還原樣本原始特征。

Undersampling通過隨機從多數類中隨機抽取樣本從而減少多數類中的樣本數量來實現樣本內各類數據均衡。EasyEnsemble通過不斷從多數類中抽取樣本,使得每個模型的多數類和少數類樣本數量基本均衡,然后將多個模型集成起來。RUSBoost通過Adaboost作為基礎分類器對樣本進行集成學習進行樣本欠采樣。UnderBagging通過bagging的方式有放回地采樣進行,來實現樣本的欠采樣。

三、實驗與結果分析

為了證明降噪濾波器的有效性,選擇了5組UCI標準數據集進行測試,通過十折交叉驗證計算出AUC值。AUC指標是Roc曲線下面所包含的面積,AUC指標越大表示分類的性能越好,通常AUC等于1為完美分類器,AUC位于0.5至1之間優于隨機分類器,AUC位于0至0.5之間差于隨機分類器。

數據集UBUB-KFRUSBRUSB-KFUBUB-KFEEEE-KFPrima0.7570.7830.7450.760.7230.7330.8120.813Haberman0.6190.6450.660.660.6010.6250.6640.689Cmc0.6630.690.680.7010.6330.6510.70.735Yeast0.9540.9640.950.9630.9200.9270.9620.978Zernike0.8710.8740.870.8340.8360.8510.9010.989

四、實驗結論

從各個數據集的AUC值可以發現,KF最近鄰降噪濾波器的效果顯著,提高的傳統分類算法的性能,其中結合了EasyEnsemble的的分類器性能在各個數據中都表現優異。對于不平衡數據,多數類通過EasyEnsemble方法欠采樣并且對于少數類樣本通過最近鄰降噪濾波器來消除噪聲可以顯著提高分類器的性能。

猜你喜歡
分類模型
一半模型
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产网友愉拍精品| 最新国产高清在线| 97se亚洲综合在线韩国专区福利| 亚洲精品日产精品乱码不卡| av在线手机播放| 91破解版在线亚洲| 91在线播放国产| 久久精品无码中文字幕| 亚洲精品国产成人7777| 午夜毛片免费看| 亚洲欧美自拍一区| 波多野结衣无码AV在线| 亚洲最大福利视频网| 韩日无码在线不卡| 午夜a级毛片| 国产精品一区二区国产主播| 国产精品亚欧美一区二区| 香蕉久久国产超碰青草| 狠狠色香婷婷久久亚洲精品| 国产真实乱子伦精品视手机观看 | 久久鸭综合久久国产| 美女无遮挡被啪啪到高潮免费| 国产99久久亚洲综合精品西瓜tv| 亚洲高清中文字幕| 亚洲日本中文字幕乱码中文| 中文字幕在线观看日本| 国产精品无码影视久久久久久久| 香蕉伊思人视频| 亚洲欧美在线综合图区| 亚洲精品另类| 国产精品久线在线观看| 在线观看亚洲国产| aⅴ免费在线观看| 激情综合网址| 青青操视频免费观看| 亚洲AV成人一区二区三区AV| 国产区人妖精品人妖精品视频| 国产91丝袜在线播放动漫 | 国产福利免费视频| 久久77777| 国产白丝av| 久久伊人色| 天堂在线www网亚洲| 国产swag在线观看| 毛片网站免费在线观看| 一区二区欧美日韩高清免费| 怡春院欧美一区二区三区免费| 在线五月婷婷| 91精品专区国产盗摄| 日本三级欧美三级| 亚洲精品麻豆| 国产精品99久久久久久董美香| 国产亚洲高清视频| 久久这里只有精品66| 免费人成视频在线观看网站| 欧美精品aⅴ在线视频| 色综合成人| 无码AV日韩一二三区| 国产免费网址| 国产尤物jk自慰制服喷水| 欧美一级黄色影院| 真实国产乱子伦视频 | 日韩欧美中文在线| 97久久超碰极品视觉盛宴| 伊人久久精品无码麻豆精品| 在线国产91| 午夜精品久久久久久久2023| 在线精品亚洲一区二区古装| 伊人久久精品无码麻豆精品| 91黄色在线观看| 国产精品无码一二三视频| 国产日本一线在线观看免费| 国产噜噜噜视频在线观看| 中文字幕精品一区二区三区视频| 麻豆精品在线| 亚洲精品爱草草视频在线| 三上悠亚精品二区在线观看| 欧美人人干| 在线观看无码av五月花| 国内99精品激情视频精品| 岛国精品一区免费视频在线观看| 免费看美女自慰的网站|