王維嘉 孫亞運(yùn) 孫洪亮 范 強(qiáng)
(國(guó)網(wǎng)電力科學(xué)研究院南瑞集團(tuán)有限公司 南京 210012)
各業(yè)務(wù)系統(tǒng)建設(shè)和實(shí)施數(shù)據(jù)管理過(guò)程中,不同存儲(chǔ)方式產(chǎn)生的業(yè)務(wù)數(shù)據(jù)采用不同的數(shù)據(jù)管理系統(tǒng),從簡(jiǎn)單的文件數(shù)據(jù)庫(kù)到復(fù)雜的網(wǎng)絡(luò)數(shù)據(jù)庫(kù),它們構(gòu)成了企業(yè)的異構(gòu)數(shù)據(jù)源[1]。異構(gòu)數(shù)據(jù)庫(kù)系統(tǒng)將相關(guān)的多個(gè)數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行集合,可以實(shí)現(xiàn)數(shù)據(jù)的共享和透明訪問(wèn)。然而,多源異構(gòu)數(shù)據(jù)在分類過(guò)程中不可避免地受到數(shù)據(jù)自身不平衡性的影響[2]。不平衡的多源異構(gòu)數(shù)據(jù)分類是數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)研究的重點(diǎn),傳統(tǒng)的貪婪搜索監(jiān)督學(xué)習(xí)算法[3]通常在不考慮平衡比的情況下進(jìn)行多源異構(gòu)數(shù)據(jù)分類。文獻(xiàn)[4]設(shè)計(jì)的分類模型沒有考慮多源異構(gòu)數(shù)據(jù)的不平衡問(wèn)題,并且經(jīng)過(guò)訓(xùn)練的模型由于大量的訓(xùn)練數(shù)據(jù)而過(guò)度擬合,由于缺乏足夠的訓(xùn)練(欠匹配),識(shí)別少數(shù)類測(cè)試樣本的識(shí)別能力極為有限。
本文在多源異構(gòu)不平衡數(shù)據(jù)集分類中常用的少數(shù)類樣本合成過(guò)抽樣技術(shù)(SMOTE)的基礎(chǔ)上,提出了自適應(yīng)多目標(biāo)群交叉優(yōu)化(AMSCO),針對(duì)多數(shù)實(shí)例的優(yōu)化采用群實(shí)例選擇(SIS),少數(shù)實(shí)例的優(yōu)化采用優(yōu)化合成少數(shù)過(guò)采樣技術(shù)(OSOMTE)。最終提高分類模型的可信度并保持較高的準(zhǔn)確性
最常用的采樣方法是少數(shù)類樣本合成過(guò)抽樣技術(shù)(SMOTE)[5],它通常可以獲得有效的性能,其原理是通過(guò)觀察和分析少數(shù)類樣本空間結(jié)構(gòu)的特點(diǎn),使算法在數(shù)據(jù)集中生成額外的少數(shù)類數(shù)據(jù)。假設(shè)過(guò)采樣率為N(式(1)合成N次新的少數(shù)類樣本),每個(gè)少數(shù)類樣本xi∈Sminority。算法使用另一個(gè)參數(shù)k檢驗(yàn)少數(shù)類樣本中xi的k個(gè)鄰域,然后利用式(1)從k個(gè)鄰域中隨機(jī)選擇xt來(lái)生成合成數(shù)據(jù) xnew,N。

其中,rand[0,1]產(chǎn)生一個(gè)介于0和1之間的隨機(jī)數(shù)。通過(guò)N和k的影響,得到了合適數(shù)量的特征少數(shù)類樣本。解決訓(xùn)練階段的分類不平衡問(wèn)題包含基于集成的技術(shù)[6]和對(duì)成本敏感的學(xué)習(xí)方法[7]。集成學(xué)習(xí)的基本思想是經(jīng)過(guò)幾輪迭代,由一系列弱分類器對(duì)一個(gè)強(qiáng)分類器進(jìn)行投票和集成。常用的集成學(xué)習(xí)方法有套袋算法(Bagging)、提升算法(Boost)和隨機(jī)森林(Random Forest)。過(guò)采用(SMOTEBoost)[8]方法結(jié)合了自適應(yīng)提升(Adaboosting)和SMOTE,并且提供了高性能。成本敏感學(xué)習(xí)[9]通過(guò)成本矩陣為混淆矩陣的每個(gè)部分分配不同的權(quán)重。通常對(duì)少數(shù)類進(jìn)行錯(cuò)誤分類的成本最大,因此為了得到成本最小的結(jié)果,分類器會(huì)偏向于對(duì)少數(shù)類。
本文所提出的AMSCO主要使用兩個(gè)獨(dú)立運(yùn)行的群優(yōu)化過(guò)程,分別解決了數(shù)據(jù)實(shí)例過(guò)多和數(shù)據(jù)實(shí)例不足的問(wèn)題。AMSCO的總體思想是對(duì)原始數(shù)據(jù)集進(jìn)行分解,并僅使用兩個(gè)群優(yōu)化過(guò)程選擇合格實(shí)例對(duì)其進(jìn)行重新模擬。首先將原始數(shù)據(jù)集劃分為兩組:一組包含純粹屬于多數(shù)類的實(shí)例,另一組包含純粹屬于少數(shù)類的實(shí)例。通過(guò)群搜索過(guò)程,將實(shí)例隨機(jī)編碼為表示候選解的搜索粒子,粒子從隨機(jī)位置迭代移動(dòng)到全局最優(yōu)位置。從群進(jìn)程中選擇的實(shí)例進(jìn)行啟發(fā)式增強(qiáng),最后只留下一些最合適的實(shí)例。
在每次迭代結(jié)束時(shí),最合適的粒子表示的合格實(shí)例收集到緩沖區(qū)中,準(zhǔn)備通過(guò)交叉操作將它們打包成新的數(shù)據(jù)集。打包后的新數(shù)據(jù)集將作為當(dāng)前數(shù)據(jù)集,并在新迭代中進(jìn)行優(yōu)化。通過(guò)這種方式,當(dāng)前的數(shù)據(jù)集不斷改進(jìn)其質(zhì)量,在迭代之后提供了越來(lái)越高的適合度迭代。最后,在整個(gè)預(yù)處理操作結(jié)束時(shí),將最精細(xì)的數(shù)據(jù)集輸出為最優(yōu)數(shù)據(jù)集,從而解決了不平衡問(wèn)題,最終的數(shù)據(jù)集可以誘導(dǎo)出性能最好的分類器。中間數(shù)據(jù)集應(yīng)該是目前為止每一輪優(yōu)化中最好的,它由四個(gè)可能的數(shù)據(jù)集組合而成。
四種可能的數(shù)據(jù)集是優(yōu)化的多數(shù)數(shù)據(jù)集、優(yōu)化的少數(shù)數(shù)據(jù)集和當(dāng)前數(shù)據(jù)集的三種組合,這四種數(shù)據(jù)集是要交叉并打包成新一代當(dāng)前數(shù)據(jù)集的候選數(shù)據(jù)集。從圖2中,它們混合并列舉如下:1)新數(shù)據(jù)集1=新的多數(shù)類數(shù)據(jù)(在多數(shù)實(shí)例上經(jīng)過(guò)SIS優(yōu)化后)+當(dāng)前少數(shù)類數(shù)據(jù);2)新數(shù)據(jù)集2=新的多數(shù)類數(shù)據(jù)(在多數(shù)實(shí)例上經(jīng)過(guò)SIS優(yōu)化后)+新的少數(shù)類數(shù)據(jù)(在少數(shù)實(shí)例上經(jīng)過(guò)OSMOTE優(yōu)化后);3)新數(shù)據(jù)集3=新的少數(shù)類數(shù)據(jù)(經(jīng)過(guò)少數(shù)類實(shí)例OSMOTE優(yōu)化后)+當(dāng)前少數(shù)類數(shù)據(jù);4)新數(shù)據(jù)集4=當(dāng)前多數(shù)類數(shù)據(jù)+當(dāng)前少數(shù)類數(shù)據(jù)。
本文所提出的再平衡模型的核心是基于群智能優(yōu)化算法[10]的OSMOTE和SIS算法,該算法迭代地將隨機(jī)選取的解演化為全局最優(yōu)解。具體來(lái)說(shuō),粒子群優(yōu)化(PSO)算法[11]用于OSMOTE和SIS中,其搜索代理模仿鳥類的飛行模式。假設(shè)在D維搜索空間中由 n 個(gè)粒子分組的 X=(X1,X2,…,Xn),該空間中的第i粒子表示為具有D維的向量Xi=(xi1,xi2,…,xiD)T,并且第 i粒子在搜索空間中的位置表示潛在的解。作為目標(biāo)函數(shù),程序可以計(jì)算每個(gè)粒子的位置Xi的相應(yīng)適合度,其中第i粒子的速度是Vi=(Vi1,Vi2,…,ViD)T,每個(gè)代理的極值是Pi=(Pi1,Pi2,…,PiD)T,并 且 種 群 的 極 值 是Pg=(Pg1,Pg2,…,PgD)T。每個(gè)代理和種群的極值將更新其位置和速度。式(2)和式(3)的數(shù)學(xué)過(guò)程如下:

其中,ω 為慣性權(quán)重,d=1,2,…,D ;i=1,2,…,n;k為當(dāng)前迭代時(shí)間;c1和c2為速度因子的非負(fù)常數(shù),r1和r2為0~1之間的隨機(jī)值,Vid為粒子速度。
合作進(jìn)化是從生態(tài)學(xué)中的種群協(xié)調(diào)理論中汲取思想的。它模擬了自然界中不同種群之間的相互影響和相互制約,以增強(qiáng)每個(gè)種群和全局搜索的性能。在多種群協(xié)作算法中,粒子通過(guò)群體間的信息交互隨機(jī)分為M 個(gè)子群Si(1≤i≤M)。有三種評(píng)價(jià)規(guī)則:

適應(yīng)度定義為精度和Kappa或Kappa統(tǒng)計(jì)[12]的乘積。選擇Kappa來(lái)估計(jì)分類模型的可信度。當(dāng)分類器遇到不平衡數(shù)據(jù)集時(shí),它具有高精度的標(biāo)志,但Kappa值很低(零或負(fù)值)。Kappa作為指標(biāo)能夠較好地反映測(cè)試數(shù)據(jù)的一致性和分類模型的可靠性,從而考察性能是否屬于安全區(qū)域[13]。在數(shù)學(xué)模型中,Kappa結(jié)果以步長(zhǎng)為0.2的間隔分割在范圍為[-1,1]之間的6種不同程度。當(dāng)Kappa值超過(guò)0.4時(shí),模型具有一定的可信度[14],并且隨著Kappa統(tǒng)計(jì)量的提高,模型的可信度也會(huì)提高。為了表示分類模型的優(yōu)度,本文定義了可靠準(zhǔn)確度(RA)的復(fù)合性能準(zhǔn)則。因此,適應(yīng)度函數(shù)是由給定數(shù)據(jù)集生成決策樹的性能評(píng)估。其他的分類算法可以選擇性地代替決策樹。適應(yīng)度RA取決于精度和Kappa,具體定義為

其中,TP、TN、FP、FN、C+和C-分別為真陽(yáng)性、真陰性、假陽(yáng)性、假陰性、陽(yáng)性多數(shù)類實(shí)例和陰性少數(shù)類實(shí)例的計(jì)數(shù)。Po是協(xié)議的百分比,Pc是達(dá)成協(xié)議的機(jī)會(huì)。
OSMOTE是由合成的少數(shù)實(shí)例過(guò)采樣技術(shù)(OSMOTE)[15]擴(kuò)展得到,通過(guò)對(duì)少數(shù)實(shí)例進(jìn)行過(guò)采樣來(lái)重新平衡數(shù)據(jù)集。它的基本思想是通過(guò)沿著連接數(shù)據(jù)空間中任意或所有k個(gè)少數(shù)類最近鄰的線段插入合成樣本,將額外的少數(shù)類數(shù)據(jù)構(gòu)建到數(shù)據(jù)集中。在SMOTE中需要兩個(gè)參數(shù),并且需要手動(dòng)設(shè)置:1)N的過(guò)采樣率,其主要控制合成N倍新的少數(shù)類樣本,例如N=2意味著少數(shù)類數(shù)據(jù)將會(huì)增加一倍。2)k對(duì)每個(gè)少數(shù)數(shù)據(jù)的k個(gè)最近鄰進(jìn)行檢測(cè),生成合成數(shù)據(jù)。
本文的OSMOTE方法中,利用PSO優(yōu)化算法對(duì)這兩個(gè)參數(shù)進(jìn)行優(yōu)化:1)N表示過(guò)采樣后數(shù)據(jù)集的目標(biāo)量;2)k表示用于復(fù)制少數(shù)數(shù)據(jù)向量的參考鄰域的范圍。PSO群的每個(gè)粒子 p都編碼為一個(gè)候選解,并對(duì)應(yīng)N和k的范圍內(nèi)有一對(duì)值p=<v,κ> ,其 中,v∈[1,…,∞]和 κ∈[1,…,(C+,C-)]。適應(yīng)度函數(shù)是由N=v和k=κ的過(guò)采樣后在數(shù)據(jù)集上建立的結(jié)果決策樹。RA性能視為適應(yīng)度用于評(píng)估優(yōu)度。選擇合適的 p使得RA等于適應(yīng)度的估值。
OSMOTE的目標(biāo)是提高精度和Kappa,這兩個(gè)值在搜索過(guò)程中動(dòng)態(tài)波動(dòng)。因此,它是一個(gè)動(dòng)態(tài)多目標(biāo)算法。在不考慮Pareto等復(fù)雜情況的情況下,這種對(duì)偶目標(biāo)算法實(shí)際上只是試圖保持一定的高精度水平,同時(shí)實(shí)現(xiàn)可信度最大化的Kappa。圖1給出了優(yōu)化過(guò)程中精度和Kappa波動(dòng)的示意圖。

圖1 在OSMOTE期間的精度和Kappa波動(dòng)值
由圖1所示,精度和Kappa的趨勢(shì)相似,但起伏幅度不同,總體呈上升趨勢(shì)。可以看到,精度和Kappa在第310個(gè)迭代周期中都達(dá)到了最大值,約為1。由于這兩個(gè)目標(biāo)并不相互對(duì)立,本文采用非劣集策略[16]進(jìn)行優(yōu)化,并針對(duì)具體的再平衡任務(wù)進(jìn)行了定制。本文收集了這個(gè)多目標(biāo)問(wèn)題的所有可能的解決方案。非劣集中的這些解決方案滿足三個(gè)更新標(biāo)準(zhǔn)來(lái)調(diào)節(jié)OSMOTE的粒子演化、優(yōu)化和收斂。
1)新粒子的精度和Kappa必須優(yōu)于現(xiàn)有粒子;
2)新粒子的精度或Kappa必須優(yōu)于現(xiàn)有粒子,且定義的公差大于F1、ROC、BER等其他測(cè)量值的絕對(duì)差值;
3)新粒子的當(dāng)前Kappa閾值必須大于舊粒子的Kappa值。
如果一個(gè)新粒子滿足上述三個(gè)條件中的任何一個(gè),它將取代當(dāng)前的粒子進(jìn)入下一代。否則,這個(gè)粒子將沿著它的軌跡移動(dòng)到鄰近的位置。該算法通過(guò)約束條件的更新逐步提高Kappa。在開始時(shí),Kappa的初始閾值kt設(shè)置為0.4,這是Kappa的第二個(gè)底部置信水平。在每次迭代的最后階段,當(dāng)前非劣集的平均Kappa值將與最新閾值進(jìn)行比較,如果平均值增加,閾值將進(jìn)一步增加,反之亦然。隨著Kappa閾值的提高,非劣區(qū)將逐步減少。搜索空間中非劣區(qū)域的說(shuō)明如圖2所示。

圖2 搜索空間中非劣區(qū)域說(shuō)明
陰影區(qū)域是PSO優(yōu)化算法的粒子運(yùn)動(dòng)搜索空間,粒子群優(yōu)化算法在其中搜索精度和Kappa的最大值。當(dāng)非劣區(qū)域(搜索空間)被變量Kappa閾值封閉時(shí),搜索時(shí)間顯著減少。SMOTE的最終目標(biāo)是找到可靠精度(RA)的最大值,這取決于Kappa和精度。對(duì)當(dāng)前數(shù)據(jù)集進(jìn)行搜索的約束是基于如下條件:100 ≤ N ≤ r×Size(majority data,C+)和2 ≤k ≤ r×Size(majority data,C-),其中r是原始數(shù)據(jù)中多數(shù)類和少數(shù)類的比例。算法1給出了OSMOTE的偽代碼。
算法1 SMOTE的優(yōu)化(OSMOTE)
指定一個(gè)群智能算法A和一個(gè)分類器C,初始化A算法和其他相關(guān)參數(shù)
定義Kappa的下限值:kt
經(jīng)過(guò)調(diào)研,由于教師薪酬、院校辦學(xué)經(jīng)費(fèi)等原因,吉林省高職院校旅游管理專業(yè)的核心課程教學(xué)任務(wù)基本上都是由本校教師承擔(dān),即使外聘教師,通常也對(duì)其學(xué)歷及職稱有要求,這就極大限制了旅游企業(yè)在一線實(shí)踐技能高超的人員走進(jìn)大學(xué)課堂。在師資引進(jìn)時(shí),各院校對(duì)應(yīng)聘者學(xué)歷要求是首要考慮的因素,以旅游管理專業(yè)博士研究生為主、碩士研究生為輔。從教育規(guī)律來(lái)看,碩士、博士階段是以培養(yǎng)科研型人才為主,因此,進(jìn)入高職院校從事教學(xué)活動(dòng)的教師通常具有極高的科研能力,但是大多沒有旅游企業(yè)實(shí)踐經(jīng)歷,其實(shí)踐技能相對(duì)匱乏,這就與高職院校培養(yǎng)高技能應(yīng)用型人才產(chǎn)生了矛盾。
定義K和N的范圍
1:加載數(shù)據(jù)集;
2:初始化粒子的位置和速度,通過(guò)SMOTE和C得到當(dāng)前的Kappa和精度作為初始的種群適應(yīng)度;
3:對(duì)于i從1迭代到最大迭代次數(shù);
4:Radom從非劣解中選擇全局最優(yōu)解;
5:更新粒子、速度和位置,作為更新條件,新的局部最優(yōu)替換原來(lái)的局部最優(yōu);
6:如果粒子滿足條件,則改變位置,否則隨機(jī)選擇位置;
7:得到的新舊非劣解集的組合,按更新條件篩選最終結(jié)果集;
8:如果沒有大于kt的Kappa值,則更新Kappa閾值,減少kt;如果解集中kappa的平均值大于kt加步長(zhǎng),則增加kt;
9:輸出:得到最終的全局最佳非劣解。
除了OSMOTE可以合成正確數(shù)量的少數(shù)數(shù)據(jù)外,群實(shí)例選擇(SIS)還可以將大多數(shù)實(shí)例減少到適當(dāng)?shù)臄?shù)量。這些優(yōu)化的輸出在其多數(shù)和少數(shù)類方面進(jìn)行了重新平衡,這些優(yōu)化的輸出將用作交叉中重組輸出數(shù)據(jù)的潛在候選項(xiàng)。
SIS方法是欠采樣方法[17]的進(jìn)化型,它可以有效地選擇有用的大多數(shù)樣本。由于多數(shù)類和少數(shù)類數(shù)據(jù)的不同組合與預(yù)測(cè)類之間的關(guān)系是非線性的。因此,使用分類器來(lái)實(shí)現(xiàn)大多數(shù)實(shí)例和少數(shù)實(shí)例的最佳組合。
考慮到實(shí)例的絕對(duì)數(shù)量,在SIS中,每個(gè)PSO粒子將候選解決方案編碼為兩個(gè)部分:1)從當(dāng)前數(shù)據(jù)集(如果是第一個(gè)周期,則是原始數(shù)據(jù)集)的大多數(shù)實(shí)例中隨機(jī)選擇的實(shí)例集合;2)從當(dāng)前(或原始)數(shù)據(jù)集中少數(shù)實(shí)例組的全部,與遺傳算法[18]中的染色體一樣,粒子的集合也會(huì)發(fā)生變化,從而形成一個(gè)由基礎(chǔ)學(xué)習(xí)器最大性能表示的全局最優(yōu)解。
PSO粒子的大小為size(p)=Random_selection(Datamaj)+Datamin。群粒子的大小受最小和最大限制,分別為Min≥r×Size(Datamaj)和Max<r×Size(Datamaj),其中r為當(dāng)前數(shù)據(jù)集的少數(shù)數(shù)據(jù)與多數(shù)數(shù)據(jù)的比值。圖3給出了群實(shí)例選擇方法的工作過(guò)程。

圖3 群實(shí)例選擇流程圖
在SIS中,從多數(shù)類數(shù)據(jù)中隨機(jī)選擇的每個(gè)組將與所有少數(shù)類數(shù)據(jù)結(jié)合創(chuàng)建一個(gè)新的候選數(shù)據(jù)集,該數(shù)據(jù)集將用于構(gòu)建用于性能測(cè)試的決策樹。當(dāng)SIS運(yùn)行時(shí),通過(guò)比較每個(gè)粒子一段時(shí)間內(nèi)的適應(yīng)度來(lái)選擇大多數(shù)類樣本的最佳組合。與其他欠采樣方法相比,SIS在計(jì)算速度上存在一定的開銷。然而,SIS通常可以在最后實(shí)現(xiàn)更好的解決方案(全局最優(yōu))。算法2給出了SIS的偽代碼。
算法2群實(shí)例選擇(SIS)
指定群智能算法A和分類器C
1:加載數(shù)據(jù)表;
2:初始化A算法和其他相關(guān)參數(shù);
3:數(shù)據(jù)集通過(guò)分類器C得到初始化粒子位置和速度,得到當(dāng)前可靠的準(zhǔn)確度作為初始總體擬合度;
4:從1迭代到最大迭代次數(shù);
5:選擇全局最優(yōu)解,如果當(dāng)前最優(yōu)解小于新的最優(yōu)解,則進(jìn)行替換操作,否則,繼續(xù)迭代;
6:隨機(jī)選擇最優(yōu)解,如果滿足最終迭代條件,則結(jié)束迭代;
7:輸出:獲取實(shí)例的最佳組合以構(gòu)建具有其性能的新數(shù)據(jù)集。
本文的實(shí)驗(yàn)采用了八種平衡方法對(duì)所提出的方法與傳統(tǒng)方法的性能進(jìn)行了比較。首先比較了基本分類算法,決策樹在沒有任何預(yù)處理情況下的再平衡,三種方法在算法層面上常用到分類器的偏置,另外四種是采樣方法,其中包括傳統(tǒng)的過(guò)采樣方法與三種群再平衡算法。
1)決策樹(DT):在不平衡數(shù)據(jù)集分類中往往表現(xiàn)出良好的性能。文獻(xiàn)[19]對(duì)C4.5進(jìn)行了不平衡數(shù)據(jù)集的研究,有效地提高了不平衡數(shù)據(jù)集采樣技術(shù)的性能。
2)套袋算法(Bagging):Bagging+DT。
3)AdaBoost.M1(AdaBM1):AdaBM1+DT。Ada-Boost.M1表示經(jīng)典的AdaBoost的離散形式。
4)成本敏感(CTS):CTS+DT。代價(jià)矩陣與混淆矩陣、TP和TN的代價(jià)元素分別匹配的值為零。FN為誤分類的少數(shù)類樣本,其成本為10。FP為大多數(shù)分類錯(cuò)誤的樣本,其代價(jià)為FN的一半。
5)合成少數(shù)過(guò)采樣技術(shù)(SMOTE):SMOTE+DT。使用默認(rèn)值手動(dòng)選擇這兩個(gè)參數(shù)。其10次運(yùn)算的平均值作為最終性能。
6)群實(shí)例選擇算法:SIS+DT。
7)SMOTE優(yōu)化算法(OSMOTE):OSMOTE+DT。
8)SIS-OSMOTE:SIS-OSMOTE+DT。這兩個(gè)優(yōu)化過(guò)程是按順序放置。當(dāng)SIS的Kappa大于0.3或達(dá)到最大迭代時(shí),OSMOTE將從SIS加載新的數(shù)據(jù)集。在這種情況下,SIS和OSMOTE可以獨(dú)立運(yùn)行,且不需要交叉優(yōu)化數(shù)據(jù)集。
9)AMSCO:自適應(yīng)多目標(biāo)群交叉優(yōu)化。
為了公平比較,將 Bagging、AdaBM1、SIS、OSMOTE、SIS-OSMOTE和AMSCO的最大迭代標(biāo)準(zhǔn)化為100。Bagging基礎(chǔ)分類器的數(shù)量、SIS、OSMOTE、SIS-OSMOTE和AMSCO的種群數(shù)設(shè)為20。分為10層交叉驗(yàn)證法進(jìn)行驗(yàn)證和測(cè)試。從文獻(xiàn)[20]的100個(gè)二進(jìn)制類不平衡數(shù)據(jù)集中選擇30個(gè)不平衡數(shù)據(jù)集用于基準(zhǔn)測(cè)試。這些數(shù)據(jù)集的Kappa統(tǒng)計(jì)值很低。表1給出了這些數(shù)據(jù)集的特征,Maj和Min分別表示多數(shù)類和少數(shù)類,Imb.r表示不平衡比率(多數(shù)/少數(shù)),且失衡比率從1.87到129.44不等。仿真軟件采用Matlab 2014b編寫,仿真計(jì)算平臺(tái)采用CPU:E5-1650 V2@3.50 GHz,RAM:32GB。

表1 實(shí)驗(yàn)數(shù)據(jù)集的特點(diǎn)
為了便于比較,將30個(gè)基準(zhǔn)數(shù)據(jù)集的平均性能值繪制成直方圖,與所有重新平衡算法(群集算法和傳統(tǒng)算法)進(jìn)行對(duì)比。研究結(jié)果一致表明,AMSCO的表現(xiàn)優(yōu)于其他方法。圖4給出了總體性能比較圖。

圖4 再平衡方法在Kappa、準(zhǔn)確度和可靠準(zhǔn)確度比較
從結(jié)果中可以看出,在不進(jìn)行任何再平衡的情況下對(duì)原始數(shù)據(jù)集進(jìn)行分類的決策樹,其精度和Kappa都表現(xiàn)最低。在四種典型的方法中,SMOTE的性能相對(duì)較好,AdaBM1優(yōu)于Bagging。對(duì)成本敏感的學(xué)習(xí)比Bagging更有效。本文使用群的個(gè)體類優(yōu)化方法比傳統(tǒng)的方法好得多,證明了群優(yōu)化的有效性,除了SIS比SMOTE較差。少數(shù)數(shù)據(jù)的OSMOTE比SIS更有效。與傳統(tǒng)方法相比,AMSCO的Kappa值在30例中有26例保持在0.9以上,在30例中有3例表現(xiàn)良好。與其他方法相比,AMSCO也相對(duì)穩(wěn)定。精度和Kappa的平均值最高,AMSCO兩種性能指標(biāo)的標(biāo)準(zhǔn)差最低。
本文提出了AMSCO算法來(lái)處理并行采樣兩個(gè)類時(shí)的類不平衡數(shù)據(jù)集。AMSCO的目標(biāo)是在合理的時(shí)間內(nèi)重新平衡數(shù)據(jù)集,以此提高分類模型的可信度并保持較高的準(zhǔn)確性。該算法采用兩種群優(yōu)化算法,逐步找出特定分類器的最佳性能:1)將SMOTE擴(kuò)展為OSMOTE用于將少數(shù)數(shù)據(jù)擴(kuò)充到適當(dāng)?shù)臄?shù)量;2)利用SIS選擇有用的實(shí)例來(lái)過(guò)濾大部分?jǐn)?shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,AMSCO在不同類別的再平衡方法中表現(xiàn)出明顯的優(yōu)勢(shì)。