面向不平衡數(shù)據(jù)集分類模型的優(yōu)化研究

2018-04-19 07:37:39,,

計(jì)算機(jī)工程 2018年4期

(1.東北林業(yè)大學(xué) 信息與計(jì)算機(jī)工程學(xué)院,哈爾濱 150040; 2.國(guó)家林業(yè)局哈爾濱林業(yè)機(jī)械研究所,哈爾濱 150086)

0 概述

在這個(gè)信息大爆炸的時(shí)代,為了從海量數(shù)據(jù)中挖掘出有效信息[1],許多實(shí)際應(yīng)用的數(shù)據(jù)集需要進(jìn)行分類處理,如防火墻過濾、入侵檢測(cè)[2]和缺陷預(yù)測(cè)[3]等。但多數(shù)情況下,這些數(shù)據(jù)集是不平衡的,表現(xiàn)出來的現(xiàn)象是,數(shù)據(jù)集中各個(gè)樣本之間的數(shù)量差距懸殊。在機(jī)器學(xué)習(xí)過程中,一般將數(shù)據(jù)集中關(guān)于類別分布的不均衡問題稱為數(shù)據(jù)集的不均衡問題(Class Imbalance Problem of Data Set,CIPD),體現(xiàn)在樣本的數(shù)量差異較大。采用傳統(tǒng)分類方法解決CIPD時(shí),分類結(jié)果往往傾向于多數(shù)類。對(duì)CIPD學(xué)習(xí)效果進(jìn)行改善,提高CIPD的分類準(zhǔn)確率是當(dāng)前機(jī)器學(xué)習(xí)算法領(lǐng)域的熱點(diǎn)之一[4-6]。

支持向量機(jī)以其效果穩(wěn)定、精確度高的優(yōu)點(diǎn)得到了廣泛應(yīng)用。但是在利用支持向量機(jī)(Support Vector Machine,SVM)對(duì)不均衡數(shù)據(jù)集分類時(shí)效果都不夠理想,原因是SVM算法學(xué)習(xí)得到的超平面傾向于少數(shù)類樣本,導(dǎo)致分類器性能較差。

過采樣通過生成少類樣本來減少數(shù)據(jù)的不均衡性。文獻(xiàn)[7]提出SMOTE算法,該算法通過隨機(jī)合成而不是復(fù)制少類樣本的方式有效解決了過擬合的現(xiàn)象,但是由于沒有對(duì)少類樣本進(jìn)行區(qū)域劃分,致使合成的樣本分布區(qū)域存在局限性。

針對(duì)SMOTE算法的不足,文獻(xiàn)[8]提出了B-SMOTE算法,用SMOTE算法對(duì)決策邊界的少數(shù)類樣本進(jìn)行人工合成。文獻(xiàn)[9]提出了對(duì)錯(cuò)分樣本進(jìn)行循環(huán)采樣人工合成新樣本的方法(L-SMOTE)。雖然這些方法有效地提升了SMOTE算法的性能,但是仍然存在一些不足。如B-SMOTE算法在執(zhí)行過程中,忽略了決策邊界外的少類樣本中的重要信息;L-SMOTE算法在執(zhí)行過程中,忽視了錯(cuò)分樣本中的噪聲點(diǎn),不斷合成新的噪聲樣本,影響了分類精確度。

文獻(xiàn)[10]通過精確選擇參數(shù)ε值提高了ε-SVM在均衡與不均衡數(shù)據(jù)集上的分類精度。文獻(xiàn)[11]引入雙隸屬度的非對(duì)稱加權(quán)算法對(duì)混合核SVM的核函數(shù)進(jìn)行優(yōu)化,并將其應(yīng)用到不平衡數(shù)據(jù)集分類中。以上2種方法有效改善了分類算法對(duì)不平衡數(shù)據(jù)集的分類效果,但是到目前為止,對(duì)于混合核ε-SVM的優(yōu)化方法只涉及到預(yù)測(cè)方面,而關(guān)于混合核ε-SVM對(duì)不平衡數(shù)據(jù)集分類方面的優(yōu)化方法還沒有提出過。

針對(duì)以上不足,本文提出一種從樣本采樣和分類算法兩方面同時(shí)優(yōu)化的分類模型。在樣本采集方面,給出一種面向決策邊界少類樣本循環(huán)過采樣的LD-SMOTE算法,并將新生成的樣本集與決策邊界外新生成的少類樣本進(jìn)行合并。在分類算法方面,將正負(fù)懲罰系數(shù)引入到混合核ε-SVM中,并將更具有客觀性的熵值法運(yùn)用到懲罰系數(shù)的選擇上。

1 基于決策邊界的L-SMOTE優(yōu)化方法

1.1 L-SMOTE算法

和傳統(tǒng)的SMOTE算法不同,L-SMOTE算法關(guān)注的是影響分類平面的錯(cuò)分樣本,根據(jù)錯(cuò)分樣本循環(huán)合成新樣本,提升這些關(guān)鍵樣本的質(zhì)量,提高分類的精確度。

但是該算法在執(zhí)行時(shí)存在一定的缺陷,如圖1所示,P3、P4和P5是少數(shù)類樣本,P1和P2是新生成的樣本,P2是較為合理的合成樣本,但是P1的有效性卻是值得商榷的,因?yàn)镻1生成的位置正好位于多數(shù)類的散列點(diǎn)中間,屬于噪聲點(diǎn),根據(jù)L-SMOTE算法,P1點(diǎn)是錯(cuò)分樣本點(diǎn),采取錯(cuò)分樣本的重采樣,那么生成的新樣本也必然是噪聲點(diǎn),循環(huán)執(zhí)行將會(huì)嚴(yán)重影響分類效果。

圖1 合成樣本的有效性

1.2 D-SMOTE算法

因?yàn)殄e(cuò)分類樣本主要集中在決策邊界,只對(duì)決策邊界的少類樣本進(jìn)行循環(huán)重采樣就會(huì)有效避免噪聲點(diǎn)的不斷生成。針對(duì)決策邊界少類樣本的人工合成,本文提出一種基于樣本間距的決策邊界過采樣算法(D-SMOTE)。

該算法的具體步驟如下:

步驟4對(duì)各個(gè)決策樣本計(jì)算在少數(shù)類樣本集中的k近鄰,從中任取一個(gè)aj,利用aj和ai兩個(gè)樣本,結(jié)合SMOTE算法合成新的樣本。公式如下:

anew=ai+random(0,1)×|ai-aj|

(1)

在對(duì)決策邊界的少類樣本進(jìn)行人工合成時(shí),本文用D-SMOTE算法取代傳統(tǒng)的B-SMOTE算法,因?yàn)锽-SMOTE算法在處理少數(shù)類樣本極少的樣本集時(shí),往往會(huì)造成合成的新樣本分布不均、過于集中的現(xiàn)象,而D-SMOTE通過比對(duì)數(shù)類和多數(shù)類樣本的間距來確定決策邊界樣本,有效地控制了決策樣本的分布范圍,樣本分布更均勻,提升了決策邊界樣本集的質(zhì)量。

1.3 LD-SMOTE算法

將本文提出的D-SMOTE算法與L-SMOTE算法相結(jié)合,得到LD-SMOTE算法。該算法的具體操作步驟如下:

步驟1用D-SMOTE算法選出少數(shù)類樣本的決策樣本集合,記為Pd。

步驟2用標(biāo)準(zhǔn)SMOTE算法對(duì)少數(shù)類樣本進(jìn)行人工合成,合成后的新樣本集合記作Pl。

步驟3用標(biāo)準(zhǔn)SMOTE算法對(duì)Pd中的樣本進(jìn)行人工合成,生成新的樣本集合,記為Pe。

步驟4令Pd=Pe,Pld=Pd+Pl,重復(fù)步驟3,直到Pld=nN。

Pld就是LD-SMOTE算法執(zhí)行后最終得到的少數(shù)類樣本集,與B-SMOTE算法合成的樣本集不同,該樣本集包含了非決策邊界的少數(shù)類樣本的重要信息,而且通過循環(huán)合成讓決策邊界的少數(shù)類樣本能夠反復(fù)學(xué)習(xí),從而提高了最終合成的少數(shù)類樣本集的質(zhì)量。

該算法的偽碼如下:

輸入樣本集T,少數(shù)類樣本集P,多數(shù)類樣本集N,少數(shù)類樣本數(shù)量nP,多數(shù)類樣本數(shù)量nN

輸出最終生成的少數(shù)類樣本集:Pld

1. Pd= D-SMOTE(P)

2. Pl= SMOTE(P)

3. Pe= SMOTE(Pd)

4. Pd=Pe,Pld= Pd+ Pl

5. While Pld!= nN

6. Pe= SMOTE(Pd)

7. Pd=Pe,Pld= Pd+ Pl

8. Endwhile

2 基于熵值法的混合核ε-SVM優(yōu)化方法

2.1 ε-SVM

SVM分為線性可分、非線性可分以及需要核函數(shù)映射3種情況。設(shè)訓(xùn)練樣本T={(xi,yi)}(i=1,2,…,l),xi為SVM的輸入特征,yi為類別標(biāo)簽,l為訓(xùn)練樣本個(gè)數(shù)?；诙诸惸繕?biāo)核函數(shù)SVM實(shí)現(xiàn)非線性劃分的分類算法,其模型的原始問題可表示為:

s.t.yi((w·φ(xi))+b)≥1-ξi,i=1,2,…,

ξi≥0,i=1,2,…,l

(2)

其中,w是一個(gè)被確定的權(quán)重向量,C和ζi分別為懲罰系數(shù)和松弛變量。

L(y,f(x,a))=L(|y-f(x,a)|ε)

(3)

f(xi)=ω·φ(xi)+b

(4)

其中,ω為回歸系數(shù),φ(xi)為輸入空間到特征空間的映射函數(shù),b為閾值。

2.2 混合核函數(shù)

混合核函數(shù)是指通過組合的方式將單個(gè)核函數(shù)合并成新的核函數(shù),同時(shí)考慮局部核函數(shù)和全局核函數(shù)的特性,將兩者的優(yōu)勢(shì)充分發(fā)揮,彌補(bǔ)兩者在應(yīng)用上的不足。由于Polynomial核函數(shù)有著良好的全局性質(zhì),而RBF核函數(shù)則是局部性強(qiáng),本文將這2種核函數(shù)組合起來,得到學(xué)習(xí)能力和推廣性都很強(qiáng)的混合核函數(shù),其構(gòu)造形式如下:

kPoly=[(x×xi)+1]q

(5)

kRBF=exp(-‖x-xi‖2/σ2)

(6)

k(x,x′)=λkPoly(x,x′)+(1-λ)kRBF(x,x′)

(7)

(8)

式(5)和式(6)分別表示Polynomial核函數(shù)和RBF核函數(shù)。式(7)表示構(gòu)造的混合核函數(shù),其中的λ表示的是單個(gè)核函數(shù)在混合核函數(shù)中占有的比重,0<λ<1。式(8)表示的是Mercer核函數(shù)約束條件。將k(x,x′)帶入到式(8)中,符合Mercer核函數(shù)約束條件[14-15]。文獻(xiàn)[14]已對(duì)k(x,x′)的線性組合進(jìn)行驗(yàn)證,滿足Mercer條件,這里不作具體論證。

將混合核函數(shù)植入到傳統(tǒng)的ε-SVM,構(gòu)造成混合核ε-SVM,分類算法具有了更強(qiáng)大的學(xué)習(xí)能力和泛化能力。

2.3 混合核ε-SVM的優(yōu)化

通過LD-SMOTE算法生成新樣本能夠使樣本數(shù)據(jù)集變得均衡,但是擴(kuò)充樣本集合時(shí),并不能改變?cè)袠颖痉植嫉耐鈬喞卣?這就意味著對(duì)分類問題中分類邊界的影響比較小,所以利用混合核ε-SVM訓(xùn)練樣本時(shí)超平面依然會(huì)偏向少數(shù)類,分類效果依然會(huì)受到影響。受文獻(xiàn)[16]的啟發(fā),在樣本訓(xùn)練過程中,將正負(fù)懲罰系數(shù)C+和C-引入到混合核ε-SVM中,并在正負(fù)懲罰系數(shù)的選擇上運(yùn)用了熵值法進(jìn)行優(yōu)化。

1)正負(fù)懲罰系數(shù)

二分類平面圖如圖2所示。圓和星分別表示多數(shù)類樣本和少數(shù)類本,虛線表示的是使用一個(gè)懲罰系數(shù)時(shí)的分割效果。在這種情況下,如果對(duì)2類樣本賦予不同的懲罰系數(shù)C+和C-,靈活地調(diào)節(jié)誤差代價(jià),最終就會(huì)得到理想的分類效果,圖中的實(shí)線表示調(diào)整正負(fù)懲罰系數(shù)后的分割效果。

圖2 二分類平面圖

通過以上分析,結(jié)合式(2)～式(4)、式(7),最終推導(dǎo)出改進(jìn)的混合核ε-SVM的約束化問題:

i=1,2,…,l

(9)

其中,ζi和ζi*為松弛因子,C+和C-表示少類樣本(正類)和多類樣本(負(fù)類)的懲罰系數(shù)。

在懲罰系數(shù)C+和C-的選擇上,傳統(tǒng)方法都沒有考慮到樣本內(nèi)各個(gè)屬性的相對(duì)變化程度,使得懲罰系數(shù)在選擇上過分依賴個(gè)人經(jīng)驗(yàn),具有很強(qiáng)的主觀性。

2)熵值法確定正負(fù)懲罰系數(shù)

本文將信息熵的思想用于到懲罰系數(shù)的選擇上,提出熵值法[17]確定懲罰系數(shù)的方法。根據(jù)多數(shù)類和少數(shù)類樣本的離散程度確定不同的懲罰系數(shù),避開主觀人為因素的干擾,即一種客觀的賦值方法,選出的懲罰系數(shù)更具有價(jià)值,其具體實(shí)現(xiàn)方法如下:

(10)

同理,負(fù)類樣本S-包含m個(gè)子類,負(fù)類樣本S-的熵值為:

(11)

計(jì)算正類樣本S+和負(fù)類樣本S-的差異性系數(shù),將式(10)、式(11)代入得:

(12)

(13)

其中,d+、d-分別表示正類和負(fù)類的差異性系數(shù)。令C+=C,得:

(14)

通過以上優(yōu)化方法,使得分類算法在對(duì)不平衡數(shù)據(jù)集分類時(shí)的性能進(jìn)一步提高。在參數(shù)的選擇上,本文利用文獻(xiàn)[18]提出的AMPSO算法進(jìn)行參數(shù)尋優(yōu)。將優(yōu)化后的混合核ε-SVM算法和LD-SMOTE算法相結(jié)合,最終得出本文的分類模型,如圖3所示。

圖3 本文的分類模型

本文的分類模型偽碼如下:

輸入訓(xùn)練樣本集中的多數(shù)類樣本D1,訓(xùn)練樣本集中的少數(shù)類樣本D2,測(cè)試數(shù)據(jù)集D3

輸出D3數(shù)據(jù)集的分類結(jié)果

1.計(jì)算LD-SMOTE決策邊界樣本語料庫(kù)

2.計(jì)算SMOTE非決策邊界樣本語料庫(kù)

3.DNEW = LD-SMOTE + SMOTE

4. 使用式(11)～式(16)訓(xùn)練模型ε-SVM參數(shù)

5.result =[]

6.for i in range(0,len(D3))

7. result_D3 =ε-SVM(D3[i])

8. result.append(result_D3)

9.end for

10.return result

3 實(shí)驗(yàn)設(shè)置與結(jié)果分析

3.1 數(shù)據(jù)來源

為了驗(yàn)證本文提出的分類模型的分類效果,采用UCI數(shù)據(jù)集[19]中的6個(gè)不平衡數(shù)據(jù)集作為測(cè)試性能的數(shù)據(jù),各個(gè)數(shù)據(jù)集的信息如表1所示,其中的比例表示的是少數(shù)類與多數(shù)類的比值。

表1 不平衡數(shù)據(jù)集

3.2 分析指標(biāo)

在對(duì)不平衡數(shù)據(jù)集進(jìn)行分類時(shí),常用的分析指標(biāo)有3種,分別是查準(zhǔn)率(Precision)p、敏感度(Sensitivity)s和綜合考慮F-measure指標(biāo)f,具體公式如下:

(15)

(16)

(17)

其中,FP表示將負(fù)類樣本錯(cuò)分成正類的數(shù)目,FN是指將正類樣本錯(cuò)分成負(fù)類的數(shù)目,TP表示正類樣本被正確分類的個(gè)數(shù)。

3.3 實(shí)驗(yàn)結(jié)果分析

將數(shù)據(jù)的70%作為樣本的訓(xùn)練集,30%作為樣本的測(cè)試集。利用word2vec對(duì)樣本進(jìn)行詞向量的訓(xùn)練,生成向量空間。實(shí)驗(yàn)中所有的數(shù)據(jù)集都采用了5折交叉驗(yàn)證,以便于驗(yàn)證分類模型的性能。

1)近鄰值參數(shù)k值的確定

k值的選擇對(duì)于本文提出的LD-SMOTE算法至關(guān)重要,將k值范圍設(shè)置在2～10之間進(jìn)行討論。實(shí)驗(yàn)數(shù)據(jù)采用UCI不平衡數(shù)據(jù)集中30%的測(cè)試數(shù)據(jù),對(duì)6個(gè)數(shù)據(jù)集分別進(jìn)行測(cè)試,將不同k值下的F-measure值作為評(píng)價(jià)指標(biāo),F-measure取6個(gè)數(shù)據(jù)集的平均值。用本文提出的改進(jìn)混合核ε-SVM作為分類算法,圖4表示的是在本文分類算法下,不同k值取得F-measure值的折線圖。當(dāng)k值到6時(shí),F-measure達(dá)到最高值,因此在接下來的實(shí)驗(yàn)中,將LD-SMOTE算法的k值設(shè)定為6。

圖4 不同k值下的實(shí)驗(yàn)結(jié)果

2)3種分類算法的實(shí)驗(yàn)結(jié)果對(duì)比

實(shí)驗(yàn)采用abalone作為測(cè)試數(shù)據(jù)集,該數(shù)據(jù)集是一個(gè)極度不均衡的數(shù)據(jù)集。該實(shí)驗(yàn)用本文提出的LD-SMOTE算法進(jìn)行樣本過采樣處理,然后用改進(jìn)的混合核ε-SVM算法、改進(jìn)的單核ε-SVM算法(采用RBF核函數(shù),運(yùn)用熵值法確定正負(fù)懲罰系數(shù))和傳統(tǒng)的ε-SVM算法(采用RBF核函數(shù))進(jìn)行學(xué)習(xí)和最終的預(yù)測(cè),利用文獻(xiàn)[18]提出的AMPSO算法對(duì)3種分類算法進(jìn)行參數(shù)優(yōu)化,下面的實(shí)驗(yàn)均用該方法進(jìn)行參數(shù)優(yōu)化。實(shí)驗(yàn)采用查準(zhǔn)率、敏感度和F-measure值作為評(píng)估標(biāo)準(zhǔn)。利用AMPSO算法尋找出最優(yōu)參數(shù)組合如表2所示,實(shí)驗(yàn)結(jié)果如圖5所示。

表2 參數(shù)尋優(yōu)結(jié)果

圖5 3種分類算法的實(shí)驗(yàn)結(jié)果

如圖5所示,本文提出的改進(jìn)混合核ε-SVM的3個(gè)評(píng)估指標(biāo)比其他2種分類算法明顯提高。因?yàn)椴捎昧遂刂捣ù_定正負(fù)懲罰系數(shù),所以在處理極度不均衡數(shù)據(jù)集時(shí),2種改進(jìn)算法的分類精度要比傳統(tǒng)ε-SVM算法有所提高。而混合核比單核分類精確度高是因?yàn)榛旌虾撕瘮?shù)具有更強(qiáng)的泛化能力和魯棒性。

3)傳統(tǒng)SMOTE算法和LD-SMOTE算法的分類結(jié)果對(duì)比

實(shí)驗(yàn)采用6個(gè)不平衡數(shù)據(jù)集作為測(cè)試數(shù)據(jù)集,分類算法均采用標(biāo)準(zhǔn)SVM,F-measure值作為評(píng)估標(biāo)準(zhǔn),實(shí)驗(yàn)結(jié)果如圖6所示。

圖6 2種采樣算法的實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)結(jié)果表明,LD-SMOTE+SVM的分類精確度比SMOTE+SVM算法有明顯提升。但是當(dāng)樣本集極度不均衡時(shí)(abalone數(shù)據(jù)集),只對(duì)訓(xùn)練樣本進(jìn)行重采樣處理,不對(duì)分類算法進(jìn)行改進(jìn),分類精確度明顯偏低。

4)3種分類方法實(shí)驗(yàn)結(jié)果對(duì)比

為了更好地驗(yàn)證本文提出的分類模型的性能,在相同實(shí)驗(yàn)條件下,與標(biāo)準(zhǔn)的SVM[20]和SD-ISMOTE+SVM[21]進(jìn)行實(shí)驗(yàn)比較。實(shí)驗(yàn)選用F-measure指作為評(píng)價(jià)標(biāo)準(zhǔn)。實(shí)驗(yàn)結(jié)果如表3和圖7所示。

表3 3種分類方法的F-measure值對(duì)比 %

圖7 3種分類方法的實(shí)驗(yàn)結(jié)果

表3顯示了3個(gè)算法對(duì)6個(gè)數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)的實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出的分類模型比SD-ISMOTE+SVM和標(biāo)準(zhǔn)SVM在F-measure值上取得了明顯提升。F-measure值比標(biāo)準(zhǔn)SVM平均高出18.1%,比SD-ISMOTE+SVM平均高出4.35%,說明本文提出的分類模型在對(duì)不平衡數(shù)據(jù)集進(jìn)行分類時(shí)具有明顯優(yōu)勢(shì)。

在圖7中,標(biāo)準(zhǔn)SVM算法的折線始終在圖像的最下方,尤其是在car和abalone兩個(gè)數(shù)據(jù)點(diǎn)上,其F-measure值達(dá)到了最低。產(chǎn)生的原因是,標(biāo)準(zhǔn)SVM算法沒有對(duì)訓(xùn)練樣本做任何處理,尤其是當(dāng)數(shù)據(jù)集的正負(fù)類樣本數(shù)量差距懸殊,分類平面嚴(yán)重向另一側(cè)傾斜時(shí),如果直接采用SVM算法對(duì)測(cè)試樣本進(jìn)行分類,分類的精確度會(huì)大大降低。而本文的分類模型和SD-ISMOTE+SVM都針對(duì)不平衡的訓(xùn)練樣本集進(jìn)行過采樣處理,都獲得了較好的分類效果。但是本文的分類模型的分類精確度更高一些,原因在于在分類算法的改進(jìn)上,將正負(fù)懲罰系數(shù)、熵值法和多核學(xué)習(xí)引入到支持向量機(jī)中,進(jìn)一步提高了分類模型的分類性能。

4 結(jié)束語

本文構(gòu)建一種面向不平衡數(shù)據(jù)集的分類模型。在樣本集過采樣優(yōu)化方面,針對(duì)L-SMOTE算法對(duì)錯(cuò)分樣本進(jìn)行循環(huán)采樣時(shí)不斷生成噪聲點(diǎn)的問題,通過對(duì)決策邊界樣本進(jìn)行循環(huán)過采樣的方法生成新的樣本集,并將第一次過采樣時(shí)生成的決策邊界范圍外的少類樣本添加到新生成的樣本集中,提升了樣本的重要度。在算法優(yōu)化方面,針對(duì)傳統(tǒng)的ε-SVM算法在對(duì)不平衡數(shù)據(jù)集分類時(shí)超平面偏移的問題,把正負(fù)懲罰系數(shù)引入到支持向量機(jī)模型中,并且采用了更具有客觀性的熵值法選取懲罰系數(shù)。同時(shí)構(gòu)造了混合核ε-SVM,加強(qiáng)了支持向量機(jī)的泛化能力和學(xué)習(xí)能力,分類精確度明顯提高。下一步將改進(jìn)粒子群算法,選出最優(yōu)參數(shù),并減少算法運(yùn)行消耗的時(shí)間。

[1] GARCA S,LUENGO J,HERRERA F.Data preprocessing in data mining[M].Berlin,Germany:Springer,2016.

[2] 沈夏炯,王龍,韓道軍.人工蜂群優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)在入侵檢測(cè)中的應(yīng)用[J].計(jì)算機(jī)工程,2016,42(2):190-194.

[3] YU Qiao,JIANG Shujuan,ZHANG Yanmei.The performance stability of defect prediction models with class imbalance:an empirical study[J].IEICE Transactions on Information & Systems,2017,100(2):265-272.

[4] ZHANG Chunkai,WANG Guoquan,ZHOU Ying,et al.A new approach for imbalanced data classification based on minimize loss learning[C]//Proceedings of the 2nd International Conference on Data Science in Cyberspace.Washington D.C.,USA:IEEE Press,2017:82-87.

[5] NAPIERALA K,STEFANOWSKI J.Types of minority class examples and their influence on learning classifiers from imbalanced Data[J].Journal of Intelligent Information Systems,2016,46(3):563-597.

[6] HERRERA F.Cost-sensitive linguistic fuzzy rule based classification systems under the MapReduce framework for imbalanced Big Data[J].Fuzzy Sets & Systems,2015,258(3):5-38.

[7] CHAWLA N V,BOWYER K W,HALL L O,et al.SMOTE:synthetic minority over-sampling technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.

[8] HAN Hui,WANG Wenyuan,MAO Binghuan.Borderline-SMOTE:a new over-sampling method in imbalanced data sets learning[C]//Proceedings of International Conference on intelligent Computing.Berlin,Germany:Springer,2005:878-887.

[9] 衣柏衡,朱建軍,李杰.基于改進(jìn)SMOTE的小額貸款公司客戶信用風(fēng)險(xiǎn)非均衡SVM分類[J].中國(guó)管理科學(xué),2016,24(3):24-30.

[10] 楊俊燕,張優(yōu)云,朱永生.ε不敏感損失函數(shù)支持向量機(jī)分類性能研究[J].西安交通大學(xué)學(xué)報(bào),2007,41(11):1315-1320.

[11] 趙淑娟.基于非對(duì)稱加權(quán)和核方法的不平衡數(shù)據(jù)集[D].南京:南京郵電大學(xué),2013.

[12] ALZATE C,SUYKENS J.Kernel component analysis using an epsilon-insensitive robust loss function[J].IEEE Transactions on Neural Networks,2008,19(9):1583-1598.

[13] WATANABE K.Vector quantization based on ε-insensitive mixture models[J].Neurocomputing,2015,165(3):32-37.

[14] 唐奇,王紅瑞,許新宜,等.基于混合核函數(shù)SVM水文時(shí)序模型及其應(yīng)用[J].系統(tǒng)工程理論與實(shí)踐,2014,34(2):521-529.

[15] 顏根廷,馬廣富,肖余之.一種混合核函數(shù)支持向量機(jī)算法[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2007,39(11):1704-1706.

[16] 劉東啟,陳志堅(jiān),徐銀,等.面向不平衡數(shù)據(jù)分類的復(fù)合SVM算法研究[EB/OL].[2017-11-06].http://kns.cnki.net/kcms/detail/51.1196.TP.20170401.1738.050.html.

[17] 朱喜安,魏國(guó)棟.熵值法中無量綱化方法優(yōu)良標(biāo)準(zhǔn)的探討[J].統(tǒng)計(jì)與決策,2015(2):12-15.

[18] FRANK A,ASUNCION A.UCI machine learning repository[EB/OL].[2017-11-06].http://archive.ics.uci.edu/ml.

[19] 劉文貞,陳紅巖,李孝祿,等.基于自適應(yīng)變異粒子群算法的混合核ε-SVM在混合氣體定量分析中的應(yīng)用[J].傳感技術(shù)學(xué)報(bào),2016,29(9):1464-1470.

[20] 常甜甜.支持向量機(jī)學(xué)習(xí)算法若干問題的研究[D].西安:西安電子科技大學(xué),2010.

[21] 古平,楊煬.面向不均衡數(shù)據(jù)集中少數(shù)類細(xì)分的過采樣算法[J].計(jì)算機(jī)工程,2017,43(2):241-247.