999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于模糊粗糙最近鄰算法的不平衡數(shù)據(jù)分類

2020-01-05 07:00:06章春梅
軟件導(dǎo)刊 2020年11期

摘 要:為了提升不平衡數(shù)據(jù)中少數(shù)類的分類精度,利用SMOTE采樣方法對數(shù)據(jù)集進(jìn)行平衡化預(yù)處理;為了減輕樣本重新合成過程中產(chǎn)生的類重疊和噪聲對分類精度的影響,選擇模糊粗糙最近鄰算法(FRNN)作為分類器。在14個不平衡數(shù)據(jù)集上進(jìn)行的仿真實驗表明,該方法具有較好的分類表現(xiàn),F(xiàn)值和G值最高分別可達(dá)0.965、0.932,是一種適用于不平衡率偏高數(shù)據(jù)集的分類方法。

關(guān)鍵詞:不平衡數(shù)據(jù);分類器;SMOTE;模糊粗糙最近鄰算法

DOI:10. 11907/rjdk. 201674

中圖分類號:TP301 ??? 文獻(xiàn)標(biāo)識碼:A ?????? 文章編號:1672-7800(2020)011-0037-05

A Classification Method for Imbalanced Data Based on

Fuzzy Rough Nearest Neighbor

ZHANG Chun-mei

(Institute of Artificial Intelligence, Nanjing Vocational College of Information Technology, Nanjing 210023,China)

Abstract: In order to improve the classification accuracy of the minority classes in imbalanced data, the paper employs synthetic minority over - sampling technique(SMOTE) to balance data set firstly. Considering that the process of sample re-synthesis always leads to some noises such as class overlapping, fuzzy rough neareswast neighbor algorithm (FRNN) is selected as the classifier to alleviate the effect of noise. Classification experiment conducted on 14 unbalanced data sets shows that the proposed method performs well,? and the F value and G value can reach 0.965 and 0.932 respectively. It reveals that the proposed method is suitable for the classification on data sets with high imbalance rate.

Key Words: imbalanced data; classifier;SMOTE;fuzzy rough nearest neighbor algorithm

0 引言

在機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,不平衡數(shù)據(jù)分類受到研究者的廣泛關(guān)注。與一般意義上的數(shù)據(jù)分類不同,本文研究的不平衡分類更看重整體中的個別:少數(shù)類的分類準(zhǔn)確率。同時,在異常檢測[1]、市場行情判斷[2]、精準(zhǔn)醫(yī)療[3]等諸多數(shù)據(jù)分析實際應(yīng)用中,重要的決策信息往往蘊藏在少數(shù)類樣本中。因此,對這些樣本進(jìn)行正確地判斷歸類更具實際價值。

SMOTE(Synthetic Minority Over-sampling Technique)[4]及其衍生方法[5-10]是一種被廣泛使用的改善數(shù)據(jù)不平衡分布的重采樣方法,其基本思想是對少數(shù)類樣本進(jìn)行過采樣,并在此基礎(chǔ)上合成新的樣本。與其它方法相比, SMOTE對數(shù)據(jù)的預(yù)處理更為有效, 因而引起研究者的廣泛興趣。SMOTE這類方法的不足之處在于新樣本的合成過程中會產(chǎn)生樣本重疊和噪聲。模糊粗糙最近鄰(Fuzzy Rough Nearest Neighbor,F(xiàn)RNN)[11-13]是一種在特征不完備數(shù)據(jù)集上有良好分類性能的算法,該算法能有效減少重疊和噪聲對分類的影響。在實際數(shù)據(jù)中,不僅存在不平衡現(xiàn)象,而且存在屬性不足問題,即數(shù)據(jù)集本身具有粗糙性[14]。因此,將這兩類方法相結(jié)合實現(xiàn)不平衡數(shù)據(jù)分類頗具意義。

1 不平衡問題產(chǎn)生的原因

不平衡問題產(chǎn)生的主要原因是類與類之間的樣本數(shù)量不均衡,某個類的樣本數(shù)量明顯少于其它類樣本數(shù)量。一般而言,高的總體分類精度是各種經(jīng)典以及衍生分類模型的追逐目標(biāo),在這種目標(biāo)驅(qū)動下,訓(xùn)練模型將著重去擬合多數(shù)類樣本,勢必導(dǎo)致分類器在少數(shù)類樣本上的分類性能下降。一個大家熟知的例子是:對于一個不平衡率為? 99∶1的數(shù)據(jù)集而言,分類器在將少數(shù)類樣本完全誤判為多數(shù)類的情況下,所獲總體分類精度仍然很高,為99%,而此時少數(shù)類樣本的錯分率卻是100%。此外,相關(guān)研究也指出,在某類樣本中間由于存在樣本重疊現(xiàn)象,也可能導(dǎo)致一種不平衡,稱之為類內(nèi)不平衡[15]。類內(nèi)不平衡現(xiàn)象也是造成分類器性能下降、泛化能力減弱的一個原因。

2 不平衡問題處理辦法

不平衡數(shù)據(jù)分類性能提升方法主要有兩種:數(shù)據(jù)層面和算法層面。數(shù)據(jù)層面就是改善數(shù)據(jù)分布,使數(shù)據(jù)重新趨于平衡,主要是重新采樣技術(shù);算法層面是優(yōu)化分類算法,關(guān)注點是提高算法在少數(shù)類上的分類精度。

2.1 數(shù)據(jù)層面

重采樣技術(shù)是處理不平衡數(shù)據(jù)分類的一類主要技術(shù),重采樣是對訓(xùn)練樣本集中多數(shù)類樣本采用欠采樣方法,對訓(xùn)練樣本集中少數(shù)類樣本采用過采樣方法,從而達(dá)到提高訓(xùn)練樣本類分布均衡程度的目的,是當(dāng)前提高不平衡數(shù)據(jù)分類器性能的一種有效途徑。其中,欠采樣技術(shù)基本思想是刪除部分多數(shù)類樣本,故而會造成分類信息丟失;過采樣技術(shù)主要是增加少數(shù)類樣本,原始分類信息能夠得到較好保留。因此,在某些對各類樣本分類準(zhǔn)確率均要求較高的領(lǐng)域,通常選擇過采樣技術(shù)[16]。

5.2 評價指標(biāo)

考慮不平衡數(shù)據(jù)集上的二分類問題:設(shè)P為少數(shù)類,N 代表多數(shù)類,F(xiàn)P代表多數(shù)類樣本錯分?jǐn)?shù)目;FN指少數(shù)類樣本錯分?jǐn)?shù)目;FP和TN分別表示少數(shù)類和多數(shù)類樣本被正確分類的數(shù)目。如式(18)—式(22)所示,TPR為少數(shù)類樣本正確率(或稱召回率);TNR為多數(shù)類樣本正確率;Precision為少數(shù)類分類精度;G為幾何平均正確率;F是少數(shù)類樣本正確率和分類精度的調(diào)和均值。

G和F是兩個常用不平衡數(shù)據(jù)分類性能的評價標(biāo)準(zhǔn),指標(biāo)G綜合考慮了少數(shù)類和多數(shù)類兩類樣本的分類性能,F(xiàn)能全面反映分類器性能[19]。由式(22)可以看出,只有Precision和TPR同步增大時,F(xiàn)才會相應(yīng)增大,非常適合評價不平衡數(shù)據(jù)分類質(zhì)量。

5.3 結(jié)果分析

本文在Win10平臺下采用Eclipse 4.13,實現(xiàn)了EUSBOOST、HDDT+Bagging及SMOTE+FRNN 3種算法。其中,前兩種是頗具有代表性算法,每種算法在各數(shù)據(jù)集上運行10次,取G和F值的平均結(jié)果作比較,如表2、表3所示。

綜合表2、表3數(shù)據(jù)發(fā)現(xiàn),在對不平衡數(shù)據(jù)集中的少數(shù)樣本進(jìn)行分類時,相比其它已有方法,本文方法分類精度更高,且數(shù)據(jù)集不平衡率越高,分類優(yōu)勢越明顯。據(jù)此可以認(rèn)為,在不平衡數(shù)據(jù)分類問題上,先使用SMOTE方法作預(yù)處理,再使用FRNN算法進(jìn)行分類確實是一種有效的組合方案,值得進(jìn)一步研究。

6 結(jié)語

在不平衡數(shù)據(jù)分類問題上,將重采樣技術(shù)和分類算法結(jié)合使用不是一個新的研究課題,已出現(xiàn)了很多有價值的研究文獻(xiàn),文獻(xiàn)中的方法在實驗中也取得了較好效果。開展這類嘗試性研究的關(guān)鍵是要在掌握有關(guān)方法內(nèi)在機理的基礎(chǔ)上,有針對性地進(jìn)行選取并優(yōu)化組合,而不是為了組合而組合。真實數(shù)據(jù)中往往不僅存在不平衡現(xiàn)象,往往還伴有重疊和噪聲,其中的屬性特征也經(jīng)常不完整。FRNN算法既可以對屬性不足的數(shù)據(jù)進(jìn)行分類,又能有效地對抗樣本重疊和噪聲。該方法的不足就在于它對于所有類的關(guān)注是等同的,缺乏將多數(shù)類和少數(shù)類區(qū)別處理的機制,因此在對不平衡數(shù)據(jù)分類問題上,它與SMOTE方法具有明顯契合性,這也是本文研究的立足點所在。本文目前關(guān)注的僅是不平衡數(shù)據(jù)二分類問題,在多分類問題上還未作進(jìn)一步研究。此外,減小FRNN算法計算開銷也是需考慮的問題。

參考文獻(xiàn):

[1] LUO M,WANG K,CAI Z,et al.Using imbalanced triangle synthetic data for machine learning anomaly detection[J]. Computers,Materials & Continua,2019,58(1):15-26.

[2] CAHYA R A,BACHTIAR F A. Weakening feature independence of na?ve bayes using feature weighting and selection on imbalanced customer review data[C]. The 5th International Conference on Science in Information Technology(ICSITech),2019:182-187.

[3] 陳旭,劉鵬鶴,孫毓忠,等. 基于不平衡醫(yī)療數(shù)據(jù)集的疾病預(yù)測模型研究[J]. 計算機學(xué)報,2019,42(3):596-609.

[4] FERNANDEZ A,GARCIA S,CHAWLA N V,et al. SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary[J]. Journal of Artificial Intelligence Research,2018,61:863-905.

[5] GEORGIOS D,F(xiàn)ERNANDO B,F(xiàn)ELIX L. Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE[J]. Information Sciences,2018,465:1-20.

[6] DOUZAS G,BACAO F,LAST F.Improving imbalanced learning through a heuristic oversampling method based on k-means and SMOTE[J]. Information sciences,2018,465:1-20.

[7] DOUZAS G,BACAO F. Geometric SMOTE a geometrically enhanced drop-in replacement for SMOTE[J]. Information sciences,2019,501:118-135.

[8] QI W,ZHIHAO L,JINCAI H,et al.A Novel ensemble method for imbalanced data learning: bagging of extrapolation-SMOTE SVM[J]. Computational Intelligence & Neuroence,2017:1827016.

[9] MA L,F(xiàn)AN S.CURE-SMOTE algorithm and hybrid algorithm for feature selection and parameter optimization based on random forests[J]. BMC Bioinformatics,2017,18(1):1-18.

[10] GONG C,GU L.A Novel SMOTE-Based classification approach to online data imbalance problem[J].? Mathematical Problems in Engineering,2016(5):1-14.

[11] JENSEN R,CORNELIS C. Fuzzy rough nearest neighbour classification and prediction[J]. Theoretical Computer Science,2011,412(42):5871-5884.

[12] JENSEN R,CORNELIS C.Fuzzy-rough nearest neighbor classification[M]. Berlin: Springer Berlin Heidelberg,2011.

[13] SARKAR M. Fuzzy-rough nearest neighbor algorithms in classification[J]. Fuzzy Sets and Systems,2007,158(19):2134-2152.

[14] 何力,盧冰原. 基于EM 的模糊-粗糙集最近鄰算法[J]. 計算機工程,2010,36(24):136-138.

[15] 陶新民,郝思媛,張冬雪,等. 不均衡數(shù)據(jù)分類算法的綜述[J]. 重慶郵電大學(xué)學(xué)報( 自然科學(xué)版), 2013,25(1): 101-121.

[16] 王超學(xué),張濤,馬春森. 面向不平衡數(shù)據(jù)集的改進(jìn)型SMOTE算法[J]. 計算機科學(xué)與探索,2014,8(6):727-734.

[17] 劉余霞,劉三民,劉濤,等. 一種新的過采樣算法DB_SMOTE[J]. 計算機工程與應(yīng)用,2014,50(6):92-95.

[18] ENISLAY R,SARAH V,NELE V,et al.IFROWANN:Imbalanced fuzzy-rough ordered? weighted average nearest neighbor classification[J]. IEEE Transactions on Fuzzy Systems,2014(99):1-15.

[19] LEE Y H,HU P J H,CHENG T H,et al. A preclustering-based ensemble learning technique for acute appendicitis diagnoses[J]. Artificial Intelligence in Medicine,2013,58(2):115-12.

(責(zé)任編輯:孫 娟)

收稿日期:2020-07-09

作者簡介:章春梅(1979-),女,碩士,南京信息職業(yè)技術(shù)學(xué)院人工智能學(xué)院講師,研究方向為網(wǎng)絡(luò)應(yīng)用程序開發(fā)、數(shù)據(jù)挖掘。

主站蜘蛛池模板: 日韩精品久久无码中文字幕色欲| 日本成人福利视频| 精品福利视频导航| 熟妇丰满人妻| 亚洲—日韩aV在线| 九月婷婷亚洲综合在线| 亚洲中字无码AV电影在线观看| 男人天堂伊人网| 免费一极毛片| 日韩在线播放中文字幕| 欧美啪啪一区| 久爱午夜精品免费视频| 国产精品女人呻吟在线观看| 欧美午夜网| 香蕉精品在线| 黄色在线网| 午夜日b视频| 五月婷婷导航| 亚洲精品日产AⅤ| 午夜毛片免费观看视频 | 国产日韩av在线播放| 中文无码日韩精品| 国产免费久久精品99re不卡| 成人在线天堂| 又黄又湿又爽的视频| 91亚洲国产视频| 亚洲无码精彩视频在线观看| 国产又爽又黄无遮挡免费观看| av在线手机播放| 无码精品一区二区久久久| 国产大片喷水在线在线视频| 免费看久久精品99| 欧美无遮挡国产欧美另类| 亚洲第一网站男人都懂| 伊人网址在线| 美女一区二区在线观看| 老司国产精品视频| 亚洲妓女综合网995久久| 国产成人无码综合亚洲日韩不卡| 久久亚洲国产最新网站| 欧美劲爆第一页| 国产男女免费视频| 国产农村1级毛片| 中文无码毛片又爽又刺激| 毛片a级毛片免费观看免下载| 久久香蕉国产线| 伊人久久精品无码麻豆精品| a天堂视频| 三上悠亚在线精品二区| 国产极品粉嫩小泬免费看| 97se亚洲综合在线| 久久久亚洲色| 国产二级毛片| 亚洲人成电影在线播放| 国产精品久久久久久久久| 免费人欧美成又黄又爽的视频| 2019年国产精品自拍不卡| 欧美a在线| 久草视频精品| 人妻中文字幕无码久久一区| 日本尹人综合香蕉在线观看 | 免费激情网址| 日本黄色不卡视频| 538精品在线观看| 真实国产精品vr专区| 天天干天天色综合网| 国产AV无码专区亚洲A∨毛片| 91精品免费久久久| 91精品久久久无码中文字幕vr| 国产黄色爱视频| 97视频在线精品国自产拍| 一本无码在线观看| 91小视频在线观看免费版高清| 中文无码伦av中文字幕| 国产99精品久久| 国产精品林美惠子在线播放| 青青草国产在线视频| 国产欧美又粗又猛又爽老| 国产三级a| 最新国产你懂的在线网址| 亚洲精品无码抽插日韩| 在线看国产精品|