999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于聚類融合的不平衡數據分類方法

2015-12-02 03:01:00祿鎧銑
關鍵詞:分類融合方法

祿鎧銑

(澳門大學)

0 引言

不平衡數據集的特征就是在數據集里有一種樣本的數量大大小于其他的樣本數量.對于不平衡數據級來說,使用比較傳統的分類手段對其進行分類的話,其結果會十分的傾向多數類,一般來說,人們極為重視少數類,如果少數類被錯分,那么付出的代價十分的大,假如將入侵數據看作是正常數據來對待,有極大幾率會導致不必要的損失.

在數據挖掘與模式識別等等行業越來越喜歡用聚類算法了.如今聚類算法有很多種,可是,幾乎所有的聚類算法都有明顯的缺陷.因此,該文使用聚類融合技術,用來讓算法更加穩定.

1 基于聚類融合的不平衡數據分類方法

1.1 聚類融合

最近幾年內,融合方法大量應用在分類和回歸中,而且已經進入到了聚類行業中.Fred A L參考傳感器融合與分類器融合的成功經驗,發現了新的方法.它的詳細定義就是:把一組數據進行聚類的不一樣的結果相互融合,而不會使用該數據原來的自身特點.

主要在兩個方面進行探究:(1)怎樣生成有效果的聚類成員;(2)怎么對共識函數進行設計,讓聚類成員能夠合并到一起.具體就是聚類成員之間的區別,究竟對聚類融合結果有何影響,是否會影響聚類融合的穩定.聚類融合重點:

如果有包括n個對象的數據集X={x1,x2,…,xn},使用h次聚類的算法讓X數據集能夠得到 h 個結果,H={C1,C2,…,Ch},當中 Ck(k=1,2,…,h)為了可以得出聚類結果重點在于對第k次算法.將h個聚類成員的不同的聚類結果加在一起,然后利用比較專業的共識函數,得出有關結果.

相比于單一算法,聚類融合算法可以得到更好地結果.

(1)魯棒性:不論是何種領域與數據集,這種方法的平均性能無疑是最強的.

(2)適用性:聚類結果是一般是單一聚類方法不能比擬的.

(3)穩定性與確定性評價:聚類結果有一定的不確定性,可以從融合布局方面來進行評估噪聲、孤立點與抽樣,這對于聚類結果來說,沒有多大的影響.

(4)并行與可擴展性:可以讓數據子集并行合并或者是并行聚類,還可以合并分布式的數據源聚類結果或者是數據屬性的聚類結果.

1.2 不平衡數據分類方法

機器學習行業的重點探究對象就是分類問題,部分分類方法都日漸成熟,用這些分類方法來對平衡數據進行分類,肯定可以有不錯的效果.但是,很多行業里還是有很多不均衡數據及存在的.以往傳統分類方法似乎偏向于對多數類有比較高的識別率,少數類識別率則相對比較低.所以,對不均衡數據集有關分類問題的探究,必須要找到一些新的手段與辨別準則.

不平衡數據的分類大致可以分為兩種:以數據層面作為基礎與將算法層面作為基礎的方法.

1.2.1 數據層面的處理方法

數據層面的處理方法就是將數據進行重抽樣,包括兩種處理辦法,分別是過抽樣和欠抽樣.

一致子集(consistent subset).

編輯技術(常用的是W ilson.s editing)

以及單邊選擇(one-sided selection)等[1-2].

以上技術最重要的是啟發性的使用(加權)歐氏距離和K-近鄰規則去辨別能夠科學刪除的樣本.Barandela 等人[3]和 Batista 等人[4]都對以上多種欠抽樣方法進行了細致的試驗與深入的探究.Dehmeshki等人[5]發現了以規則作為基礎的數據過濾技術,實際上也屬于欠抽樣方法.

和欠抽樣對立,過抽樣技術是想方設法的來讓少數類的學習樣本增多.最具代表的就是Chawla等人[6]發明的SMOTE 技術.SMOTE 技術理論就是利用插值產生全新人工樣本,并不是對樣本進行復制.Han等人[7]以此作為參考,發明了Borderline-SMOTE技術.

1.2.2 算法層面的處理方法

根據有關記載,我們得知,如今重點集中在四個不一樣的方法,包括代價敏感與單類學習、組合方法和支持向量機方法.

1.3 算法描述

所提出分類算法是將聚類融合的不平衡數據作為基礎,就是 CE-Under,CE-SMOTE與CE-SMOTE+CE-Under方法.

2 實驗與分析

2.1不平衡數據分類的評價準則

精準度accuracy=(TP+TN)/(TP+TN+FP+FN)是分類問題里經常使用的評估標準(見表1).

表1 混合矩陣

從上可以得知分類器在數據集的整體分類方面的作用,可是不會發擰出不平衡數據集的分類作用.因此,在不平衡數據方面,必須要制定更為科學的評判標準,經常使用的標準包括:查全率 recall、F-value 值、查準率 precision、G-mean值、AUC.屬于少數類 recall、precision、G-mean、F-value值的計算手段如下:

F-value可以說是不平衡數據集學習里比較有效地評判標準,它將Recall與Precision相互組合,當中β是可調參數,一般取值為1.只有在Recall與Precision的值比較大的時候,F-value才會更大,所以它可以準確的反映出少數類的分類作用.另外,G-mean也如F-value一樣,是比較有效的評判標準,它是少數類里TP/(TP+FN)和多數類里TN/(TN+FP)的乘積的平方根,當這兩者的值都比較大的時候,G-mean才會變得更大,所以G-mean可以科學的評判不平衡數據集的整體分類作用.

2.2 實驗結果與分析

在該文里,選擇十個少數類與多數類樣本比例不均衡的UCI機器學習數據集做實驗,每個數據集的基本信息見表2.在表2里,N是樣本的數量總和,NMIN是少數類樣本的數量,NMAJ為多數類樣本的數量,CD是少數類與多數類的樣本比例,NA為屬性數量(包括類別屬性).

表2 數據集的基本信息

在試驗里,與C4.5決策樹算法(直接對原數據集進行分類學習)和七類不均衡數據分類方法的作用作比較.上文所述不平衡數據分類方法全部利用C4.5決策樹算法,分類學習重抽樣后的數據集.

為了能夠讓上述的不均衡數據分類方法的比較更具客觀性,下面全部的實驗數據都是10折交叉驗證之后得出的結論.

使用weka軟件里的Simple Means聚類算法來多次聚類數據.對一致性系數CI閾值α進行聚類,之后取全部樣本的平均數值.依據過抽樣率與欠抽樣率的概念我們可以知道,SMOTE方法產生的合成樣本數量和原有少數類樣本數量一模一樣,就是全部少數類樣本數量多出了一倍,而Random Under方法剔除的多數類樣本數量則是原有多數類樣本的一半.為了能夠將過抽樣與欠抽樣后的數據集作比較,該論文對不平衡程度指標I-degree做出定義,它的數值就是數據集里少數類與多數類樣本的比值,I-degree的值越高代表著數據集里少數類樣本數量越大,多數類樣本的數量越少.當I-degree值幾乎等于1的時候,代表著數據集里面的多數類與少數類的樣本數量比較均衡.圖1顯示十個UCI的初始數據集OldDataSet和使用CE-SMOTE+CEUnder,CE-SMOTE與CE-Under方法進行重抽樣之后數據集的I-degree值,而且每種I-degree值全部經過10折交叉驗證之后得出的結論.從圖1我們可以知道,該論文所提出的CESMOTE+CE-Under、CE-SMOTE 與 CE-Under方法都能夠讓數據集不平衡的程度有所降低.因為CE-SMOTE+CE-Under方法可以對少數類與多數類同時做處理,所以進行重抽樣之后數據集I-degree值是最高的,而CE-SMOTE方法的I-degree值稍微高于CE-Un-der方法的I-degree值.

圖1 10個數據集的I-degree值

表3 8種方法在10個UCI數據集的少數類F-value值對比

表4 8種方法的G-mean值對比

表3與表4分別列舉了8種方法在十個UCI數據集上的少數類F-value值與數據集總體的G-mean值.而表中最底部的一行則列舉出了每一個方法在全部數據集里的平均結果.對于每一個數據集來說,分別得來對結合法、過抽樣法與欠抽樣法里每一種方法的F-value與G-mean值做對比,同時用黑體字來代表這三種方法里最高的F-value與G-mean值.

從表3與表4當中可以知道,上文提到的七類不平衡數據分類方法的少數類F-value值與數據集總體的G-mean值比原始數據集進行分類的C4.5算法都要高..

三種方法經過橫向對比可以得出如下結果,結合法里面的CE-SMOTE+CE-Under方法很顯然要比SMOTE+RandomUnder方法更加優秀,而欠抽樣法里面的CE-Under方法一般來說要比Random Under方法更具優勢.把三種方法進行縱向對比,我們得出的結論是,過抽樣法與結合法作比較,欠抽樣法則更具優勢,同時結合法與過抽樣法的少數類F-value值與G-mean值相對比較大,綜上所述,上文提出的這些方法都是極為優秀的方法.

總之,該論文提到的有關基于聚類融合的不平衡數據分類方法的識別率相對較高,特別是對于部分少數類和部分數據集總體也有著不錯的識別率.通過一系列的實驗,并且對比各個實驗數據,我們可以得出以下的結論,CE-SMOTE+CE-Under方法與CE-SMOTE方法對不平衡數據集的分類作用比較強,CE-Under方法則相對較弱,但是它的對比算法與其他的算法相比更具優勢,這類方法的優勢還是比較多的,不論在不一樣的過抽樣率、還是不一樣的欠抽樣率下乃至是聚類次數下,這種方法的少數類F-value值總是十分的穩定.綜上所述,筆者提出的有關基于聚類融合的不平衡數據分類方法在不同條件下都可以良好降低數據集的不平衡程度,同理,在數據集整體G-mean值不下調的情況下,可以讓少數類的F-value值有所提升,這對多數類和少數類的均值都有不錯的識別率.

[1] Batista G E A P A,Pratir C,MONARDM C.A study of the behavior of several methods for balancing machine learning training data[J].Slgkdd Explorations,2004,6(1):20-29.

[2] KuBatm,Matwin S.Addressing the curse of imbalanced training sets:one-sided selection[C]//Proc of 14th International Conference on Machine Learning(ICML.97).Nashville:[s.n.],1997.179-186.

[3] Barandela R,Valdovindos R M,Snchez J S,et al.The imbalanced training sample problem:under or over sampling[C]//Proc of International Workshops on Structura,l Syntactic,and Statisti cal Pattern ecognition(SSPR/SPR.04).Lisbon:[s.n.],2004,806-814.

[4] Batista G E A P A,Pratir C,Monardm C.A study of the behavior of several methods for balancing machine learning training data[J].S IGKDD Explorations,2004,6(1):20-29.

[5] Dehmeshki J,Karak Y M,Casique M V.A rule-based scheme for filtering examples from majority class in an imbalanced training set[C] //Proc of MLDM,2003.215-223.

[6] Chawlanv,Halllo,Bowyer K W,et al.Smote:synthetic minority over sampling technique[J].Journal of Articial Intelligence Research,2002,16:321-357.

[7] Han H,Wang Wenyuan,Mao Binghuan.Borderline-SMOTE:a new over-sampling method in imbalanced data sets learning[C] //Proc of International Conference on Intelligent Computing(ICIC.05).Hefe:i[s.n.],2005.878-887.

猜你喜歡
分類融合方法
村企黨建聯建融合共贏
今日農業(2021年19期)2022-01-12 06:16:36
融合菜
分類算一算
從創新出發,與高考數列相遇、融合
《融合》
現代出版(2020年3期)2020-06-20 07:10:34
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 福利在线免费视频| 国内精品久久久久久久久久影视| 欧美亚洲国产精品久久蜜芽| 日本不卡在线播放| 亚洲第一区在线| 国产极品美女在线| 亚洲人成人伊人成综合网无码| 青青草原国产av福利网站| 91在线视频福利| 91色在线观看| 日韩精品无码一级毛片免费| 亚洲国产精品日韩专区AV| 亚洲第一区欧美国产综合| 亚洲天堂2014| 在线另类稀缺国产呦| 精品久久香蕉国产线看观看gif| 高清无码一本到东京热| 婷婷伊人五月| 欧美www在线观看| 欧美日韩一区二区在线播放| 波多野结衣无码视频在线观看| 国产精品免费露脸视频| 日韩在线永久免费播放| 国产色网站| 九九久久99精品| 国产拍在线| 国产噜噜在线视频观看| 国产啪在线| 亚洲最黄视频| 她的性爱视频| 波多野结衣AV无码久久一区| 色婷婷天天综合在线| 日韩专区欧美| 欧美日韩导航| 试看120秒男女啪啪免费| 最新亚洲av女人的天堂| 國產尤物AV尤物在線觀看| 国产精品尤物在线| 国产精品网址你懂的| 亚洲国产中文在线二区三区免| 美女毛片在线| 毛片卡一卡二| 精品国产电影久久九九| 亚洲 成人国产| 国产一区二区三区在线观看免费| 欧美亚洲第一页| 亚洲av无码牛牛影视在线二区| 98精品全国免费观看视频| 中国一级特黄大片在线观看| 一边摸一边做爽的视频17国产| 九九热视频在线免费观看| 日韩第一页在线| 91视频日本| 一级成人a毛片免费播放| a天堂视频| 国产日本欧美在线观看| 久久精品这里只有国产中文精品| 亚洲欧洲美色一区二区三区| 亚洲成a∧人片在线观看无码| 国产午夜福利片在线观看 | 国产成人亚洲无码淙合青草| 国产理论最新国产精品视频| 亚洲欧美不卡| 久热99这里只有精品视频6| 最新国产麻豆aⅴ精品无| 欧美另类精品一区二区三区| 亚洲中文字幕在线精品一区| 欧美在线国产| 18禁黄无遮挡免费动漫网站| 中文无码影院| 亚洲天堂免费在线视频| 亚洲第一区精品日韩在线播放| 精品无码一区二区三区在线视频| 91av成人日本不卡三区| 欧美日韩国产系列在线观看| 亚洲精品人成网线在线 | 狠狠色成人综合首页| 亚洲系列中文字幕一区二区| 欧亚日韩Av| 欧美精品不卡| 香蕉视频在线观看www| 福利姬国产精品一区在线|