周玉 岳學震 孫紅玉



摘 要:數據集類別不平衡問題是分類領域的重要問題之一,每個數據集的不平衡指數都與其自身有著緊密的聯系,是數據集的重要標志。面對不平衡數據集分類設計問題,提出了一種改進AdaBoost算法(enhanced AdaBoost,EAdaBoost)。該算法將不平衡指數和不平衡數據集中較為重要的少數類分類正確率考慮到算法的迭代過程中,改進了基分類器的權重更新策略,進而提高對不平衡數據集的分類性能。基于EAdaBoost的不平衡數據集分類設計方法可以根據樣本的不平衡指數,確定基分類器的權重參數,進而提高分類器性能。利用該方法,結合多個經典分類器,在人工數據集和標準數據集上進行實驗分析,并對比相關方法,結果表明,基于EAdaBoost的不平衡數據集分類設計方法能夠有效提高不平衡數據集的分類性能。
關鍵詞:不平衡分類;改進AdaBoost;不平衡指數;權重
中圖分類號:TP183?? 文獻標志碼:A?? 文章編號:1001-3695(2023)12-007-3566-06
doi:10.19734/j.issn.10013695.2023.04.0163
Classification design method of unbalanced data sets considering unbalanced index
Abstract:The imbalance of data sets category is one of the important problems in the classification field.The unbalanced index of each data set is closely related to itself,it is a key indicator of data sets.To deal with the classification design of unbalanced data sets,this paper proposed an enhanced AdaBoost(EAdaBoost) algorithm.In the process of iteration,the algorithm took into account unbalanced index,and the classification accuracy of the minority classed that was more important in unbalanced data sets improving the weight updating strategy of the base classifier,and thus promoting the classification performance of unbalanced data sets.The classification design method of unbalanced data sets based on EAdaBoost could determine the weight parameters of the base classifier according to the sample unbalanced index,so as to improve the performance of the classifier.With this method that was combined with multiple classical classifiers,this paper carried out experimental analysis in terms of artificial data sets and standard data sets,and compared with relevant methods.The results show that the classification design method of unbalanced data sets based on EAdaBoost can effectively improve the classification performance of unbalanced data sets.
Key words:unbalanced classification;enhanced AdaBoost;unbalanced index;weight
0 引言
一個數據集被稱為不平衡數據集,必須滿足兩個條件:各類別數量不平衡和相同樣本量的信息量不平衡,或誤分類成本不均衡。將此類數據集用于訓練得到模型后,對新的樣本進行類別評估的問題稱為不平衡數據分類問題[1]。對于數據集中樣本數量較多的多數類樣本一般也稱為負類,反之少數類樣本稱為正類。不同于普通的數據集分類問題,當數據的不平衡比例過大時,使用較為常見且高效的分類器極有可能將所有的樣本數據識別為多數類[2]。假設某數據集的多數類與少數類樣本比例大于9,將該數據集進行分類后得到的全局正確率可能會達到90%或更高。但該準確率大概率是由大多數的多數類樣本識別正確所得,若該情況下少數類樣本均識別錯誤,全局準確率也不一定會低于90%,此時分類器針對該數據集的分類結果并不具有參考意義。最具特點的例子是支持向量機,如圖1所示。
對不平衡數據集分類后,得到的超平面會側向少數類數據,導致部分少數類樣本被誤判為多數類。目前,數據集不平衡分類問題廣泛存在于醫(yī)學[3,4]、經濟[5~7]和工業(yè)[8,9]等領域。二維不平衡數據集分類問題大致可描述如下:
數據集S=(xi,yi),…,(xn,yn),yi={-1,1},用S+表示數據集中的少數類樣本(正類),S-表示多數類樣本(負類),S+的元素數目小于S-的元素數目,b=S-/S+,代表數據集不平衡的程度,稱為數據集的不平衡指數。不平衡數據集的分類問題,主要體現在數據集自身樣本類別不均衡和傳統(tǒng)分類方法局限性兩方面。
在數據層面,不平衡分類的問題往往表現在少數類樣本少且信息有限上,分類器很難在訓練過程中充分學習到少數類的特性,使得少數類難以被識別。另外,不平衡數據集的多數類與少數類樣本邊界較為模糊,更導致了不平衡數據集的分類困難[10]。文獻[11]提出了一種簡單但有效的基于離群點檢測的過采樣技術(ODBOT)來處理多類不平衡問題,通過在少數類中進行聚類來檢測離群樣本,然后根據這些離群樣本生成合成樣本,降低了不同類別區(qū)域之間重疊的風險,構建了效果更優(yōu)的分類模型。合成少數類過采樣技術SMOTE[12]被廣泛應用于不平衡數據集的分類問題中,其采用最近鄰的方法預先設定采樣倍率,隨機選擇少數類的近鄰樣本進行插值,產生新的少數類數據并添加到數據集中,對隨機過采樣容易導致樣本過擬合的問題起到了一定的改善作用,但這也導致SMOTE會過度泛化少數類,反而造成對多數類樣本的誤分類,影響模型的整體均衡性[13]。文獻[14]提出的利用局部隨機仿射陰影采樣方法,克服了SMOTE的這一局限性。Maldonado等人[15]認為SMOTE在定義鄰域以創(chuàng)建新的少數樣本時存在歐氏距離的使用可能不適用于高維環(huán)境的問題,提出了一種新的SMOTElike方法,利用加權Minkowski距離為少數類的每個樣本定義鄰域。這種方法優(yōu)先考慮那些與分類任務更相關的特征,所以相較于SMOTE可以得到更好的鄰域。多個不平衡數據集上的實驗表明了SMOTElike與傳統(tǒng)的SMOTE方法和其他SMOTE變體相比,取得了最好的性能,在不增加算法復雜度的情況下,充分處理了類重疊等問題。文獻[16]將CGAN與SMOTEENN相結合,利用由SMOTEENN生成的樣本集訓練后的CGAN重新生成更為優(yōu)質的少數類樣本,克服了采樣后樣本數據分布與原數據不同造成的分類性能較差的問題。
在分類器層面,大多數傳統(tǒng)分類器使用最小經驗風險或結構風險作為學習目標,以減少算法識別錯誤的概率或增加類別間隔。文獻[17]提出了一種成本敏感的不平衡類層次分類方法(CSHCIC),將一個大的層次分類任務按層次劃分為幾個小的子分類任務,更精確地使用不同子分類樣本的數量來建立成本敏感因子,并使用邏輯回歸計算每個節(jié)點的概率,使用靈活性因子和樣本數量來更新成本敏感因子,構建了一個成本敏感因子來平衡多數類和少數類之間的關系。實驗結果表明,成本敏感的層次分類方法在處理不平衡數據集分類問題上取得了優(yōu)異的性能。文獻[18]提出的基于GVM(general vector machine)和BALO(binary ant lion optimizer)算法的代價敏感特征選擇通用向量機(CFGVM)來解決不平衡分類問題,為不同類別的樣本提供不同的成本權重,且BALO 算法能夠確定成本權重并提取更重要的特征,提高了分類性能。文獻[19]提出的基于AdaBoost的AdaImC算法用于解決不平衡數據分類問題,利用統(tǒng)計分析確定成本參數值,并提出一種證明AdaImC算法的統(tǒng)計方法,驗證代價參數之間的內在聯系。文獻[20]提出一種基于密度的欠采樣算法(DBU),并將其與AdaBoost相結合,開發(fā)出了一種同時處理噪聲和類不平衡問題的欠采樣策略(DBUBoost)。文獻[21]針對以高爐鐵水含硅量為代表的高爐內熱狀態(tài)預測的不平衡二元分類問題提出了一種基于AdaBoost的加權支持向量機,集成預測器,并將預測的結果作為指導操作人員及時判斷高爐熱狀態(tài)的依據。
針對不平衡數據集分類困難的問題,本文從分類器層面出發(fā),提出了一種基于改進AdaBoost的不平衡數據分類設計方法:a)將數據集不平衡指數b添加到算法迭代過程中,使其在對不同的數據集分類時能夠更好地完成自適應調整過程;b)對基分類器權重的計算公式進行調整,使其在迭代過程中不僅僅只考慮分類器的錯誤率,還將較為重要的少數類樣本分類正確率納入調整過程中,使最終得到的強分類器能夠針對不平衡的問題有更好的分類效果。
1 改進的AdaBoost算法
AdaBoost的主要思想是在迭代過程中對同一個訓練集訓練多個不同的基分類器,并將基分類器組合形成一個更強的最終分類器。算法訓練過程中,樣本分類的正確與否以及上一輪迭代過程中的全局準確率會影響并參與更新樣本權值。帶有更新后權值的新訓練樣本集會送到下一層的基分類器中,最終將每輪迭代訓練所得基分類器集成,構成強決策分類器。諸多研究人員基于此對AdaBoost作出了改進,在數據集的分類與聚類[22] 等問題中展現出優(yōu)越的性能,并在實際社會問題中加以應用,例如用電檢測等[23]。
1.1 經典AdaBoost算法
算法1 AdaBoost算法
弱分類器ht(x)表示從x到{-1,1}的映射。當h*t(x)表示從x到R的任何映射時,都可以使用ht(x)=sign(h*t(x))將h*t(x)傳輸到基分類器。當h*t(x)為零時,將xi隨機設為正類或負類。αt是基分類器的權重。算法1步驟c)中的αt1是基于最小化指數損失函數方法選擇的,這意味著弱分類器越準確,它在構建最終強分類器時的權值就越大。步驟d)表示樣本的權重Dt(i),如果樣本(xi,yi)被ht(x)錯誤分類,則在ht+1(x)中的Dt+1(i)>Dt(i)。另一方面,如果樣本ht(x)對樣本(xi,yi)進行了正確分類,則ht+1(x)中的Dt+1(i)
針對不平衡數據集分類問題,S+類別的數據樣本是本文的重點所在。但AdaBoost算法只根據全局錯誤率εt來選擇αt1,且對S+和S-中的所有樣本都使用相同的Dt(i),導致少數類樣本無法被重視,分類結果偏向少數類。近年來,針對類不平衡問題,相關學者提出了幾種改進的AdaBoost算法,通常包括調整Dt(i)或αt1兩種思路。AdaCost[24]和基于代價敏感[25]學習的AdaBoost通過給少數類增加一個更高的錯誤分類成本來調整Dt(i),使少數類樣本得到更多的關注。
本文通過調整αt1提出了一種基于AdaBoost的 EAdaBoost(enhance AdaBoost)算法來解決類不平衡問題。改進的算法考慮了不平衡指數b,并用其來確定基分類器權重更新公式的重要參數,確保算法在執(zhí)行過程中,針對每一個不同的數據集都能依據具體的情況進行自調整。同時,本文考慮了分類器對少數類樣本的分類正確率,保證EAdaBoost算法在數據集處于任何不平衡比例下都能得到更好的分類效果。
1.2 改進的AdaBoost算法
1.2.1 EAdaBoost算法
算法2 EAdaBoost算法
否則,若m<5重復此步驟,若m≥5則重新篩選訓練集與測試集并重新執(zhí)行該算法;
c)確定參數k的取值:
其中:0.505≤γ<1,取值說明在下文中給出。
d)確定弱分類器的權重:
f)若t=T,停止迭代。反之t=t+1,并返回步驟b)。
算法2對不平衡數據集分類流程如圖2所示。
在算法2中,αt2包含了兩個重要的參數εt和γt,這意味著αt2不僅考慮了全局錯誤率,還考慮了分類器對S+的分類能力。在算法2的步驟b)中,b起著重要的作用,本文構建了在γt>0.5的情況下對全局錯誤率εt的限制,若達不到要求則將重復執(zhí)行,該限制不但包括數據集的不平衡指數,也包括少數類分類準確率γt,這能夠保證算法在執(zhí)行過程中,針對每一個不同的數據集都能依據具體的情況進行自調整。為了避免隨機選取訓練集和測試集導致持續(xù)無法滿足條件的極端情況,本文限制一個條件m,表示在該分類器下重復無法滿足條件的次數,若大于5,則將重新選取訓練集與測試集,保證算法的順利執(zhí)行。當b逐漸增大時,該限制條件也逐步變弱,在極端不平衡數據問題中也是比較容易滿足的。同時算法2也包含了使算法具有自適應功能的參數k,其確定方法在下文中給出。
1.2.2 參數k值的確定
αt2除了包含αt1之外,還增加了含有參數k的一個調整模塊。前半部分根據全局錯誤率來確定基分類器的權重大小,后半部分根據分類器對少數類樣本的分類正確率對第t個基分類器作出適當的權重調整。這里給出參數k的推導過程。令
y1=k ln{γt/(1-γt)}(5)
限制0.5<γt<1(令基分類器對少數類的分類準確率大于隨機猜測),可以得到y(tǒng)1的函數圖像如圖3(a)所示,同時令αt2對γt求導得到y(tǒng)2,其不含參數k的函數圖像如圖3(b)所示。
不難發(fā)現,在0.5<γt<1內,αt2是關于γt的增函數,隨著基分類器對少數類樣本的分類正確率增大,該分類器將適當增加一部分權重,在最終形成的強分類器中占有更高的比重,并為獲得更好的分類性能提供條件。
其中:k作為一個正參數,決定了在αt2中調整部分效果的大小。一個較大的k值可以使調整效果更加明顯,但如果不加考慮地增加k值,可能會導致后半部分的調整能力蓋過前半部分的主要權值計算模塊,這就導致分類器較為極端,反而使分類能力大大降低。k越大,就會使αt2的第一項比重減少。所以,在提高不平衡數據集少數類樣本分類效果與保證分類器整體性能穩(wěn)定之間,確定一個適當的k值是很重要的。
其中:|·|表示集合中的元素個數;n為樣本總量;i=1,…,n。
對于t=1,…,T-1,當添加新的基分類器時,全局訓練誤差的上邊界應該減小以接收更準確的最終分類器,這意味著需要Zt<1[27]。在EAdaBoost中,Zt為[28]:
Zt=(1-εt)e-αt2+εteαt2(8)
通過解不等式Zt<1,得
根據算法2:
0<εt<0.5{(1-γt)/(b+1)}<0.5(10)
因此可改寫為
其中:少數類樣本的正確識別率γt∈(0.5,1),且保證k的取值恒大于0,b由給定的數據集確定。算法2依據每個數據集不同的b值計算并確定各個數據集獨有的參數k值,實現自適應。k取值時,應滿足上述推導的各個限制條件,b為定值,為保證算式有意義,0.5不可取,因此本文計算過程中在γt=0.505到γt=0.999間取值計算,直至滿足所有限制條件。
2 實驗與結果分析
為了說明基于改進AdaBoost算法在不平衡數據集分類性能的優(yōu)勢,這里采用了常用的三個分類器,即支持向量機、決策樹和BP神經網絡,并將三種不同分類方法作為基分類器進行實驗對比。表1為實驗中采用的所有算法。
2.1 不平衡數據集分類評價指標
評價指標在評估分類器的性能方面起著至關重要的作用。在給出評價指標之前,需要定義二分類的混淆矩陣[29]。混淆矩陣包含了實際分類和預測分類的基本信息,其中TP(ture positive)為識別正確的少數類;FP(false positive)為識別錯誤的少數類;FN(false negatives)為錯誤識別的多數類;TN(ture negatives)為正確識別的多數類。混淆矩陣如表2所示。
在混淆矩陣的基礎上給出了準確率(accuracy)這一基本評價指標:
特異性(specificity)和F1也是評估不平衡數據集分類問題的常用指標,定義為
可見,F1值的確定與召回率(recall)和查準率(precision)有直接聯系,當召回率和查準率的值都大時,F1值才會保證隨之增大。ROC曲線橫軸為FPR,縱軸為TPR,是評價不平衡數據集分類器性能較為常用的指標之一。但同一視圖中的多條ROC曲線可能存在交叉重疊。針對該問題,研究人員開始使用曲線下面積(area under the curve,AUC)來量化分類器的性能。AUC值越高,性能越好。
本文選擇了五個指標對算法的性能進行評估,即召回率(recall)、特異性(specificity)、F1、AUC與準確率(accuracy)。
2.2 人工數據集
人工數據集使用隨機的方法生成1 050個二維數據樣本,其中多數類與少數類的比例為1 000:50,可得人工數據集的不平衡比例為b=20。(xim,yi),i=1,…,1 050,m=1,2,yi∈{-1,1}。i=1,…,1 000時,yi=-1,xi1∈[0,1 000],xi2∈[0,1 000],樣本記為多數類;i=1 001,…,1 050時,yi=1,xi1∈[300,600],xi2∈[950,1 100],樣本記為少數類。根據式(11)及實驗測試,該數據集參數k取值為0.000 2。人工數據集的數據分布如圖4所示。
2.2.1 支持向量機作為基分類器
表3為人工數據集(b=20)以SVM為基分類器的實驗結果。可以看出,本文方法在不失去全局分類能力的情況下,明顯地提高了正類樣本的分類能力。圖5為實驗所得的ROC曲線圖,縱軸為TPR,橫軸為FPR,曲線與坐標軸圍成面積所得即為AUC面積。曲線越往左上側靠近,表明該算法對少數類的識別率越高,面積越大,整體性能越好。
2.2.2 決策樹作為基分類器
表4為人工數據集(b=20)以決策樹為基分類器的實驗結果。雖然本文方法雖然對少數類樣本的識別率相較基于AdaBoost的分類器沒有明顯的提高,但從整體的五個指標來看,改進后的算法性能仍舊有提升。從圖6可知,改進后的算法保證了少數類樣本的分類正確率,同時取得了更高的AUC值。
2.2.3 BP神經網絡作為基分類器
表5為人工數據集(b=20)以BP神經網絡為基分類器的實驗結果,基于EAdaBoost的不平衡數據集分類設計方法對少數類樣本的識別率有明顯的提高,且F1和AUC兩個指標都取得了三種算法中的最大值。從圖7可知,改進后算法的整體性能得到了提升。
2.3 標準數據集
本文共選取了九個標準數據集,分別來源于KEEL和UCI數據庫,如表6所示,除Glass_2與Newthyroid1來自KEEL數據庫外,其余七個數據集均來源于UCI數據庫。實驗中每個數據集被隨機劃分為訓練部分和測試部分。其中訓練部分與測試部分的比例為3:1,同時數據集的劃分過程中,分別對多數類和少數類進行隨機篩選,保證了算法迭代過程中訓練集和測試集的不平衡比例均與原數據集一致。
2.3.1 支持向量機作為基分類器
以支持向量機作為基分類器時,實驗結果如表7所示。改進后的算法實現了非常顯著的性能提升,隨著數據集不平衡比例增大,改進算法對于各項評價指標的提升也更為明顯,在F1和AUC兩個評價指標上尤為突出。
2.3.2 決策樹作為基分類器
以決策樹作為基分類器時,實驗結果如表8所示。所有數據集的實驗結果在五個評價指標中都至少有四個是優(yōu)于改進之前的,基于EAdaBoost的不平衡數據集分類設計方法在保證全局正確率的情況下,提升了算法對于少數類樣本的識別能力。
2.3.3 BP神經網絡作為基分類器
以BP神經網絡作為基分類器時,實驗結果如表9所示。改進之后的算法全局正確率和F1度量值都得到了提升,數據集的不平衡比例增大,少數類樣本的識別率也依舊有著不同程度的增加,結合前文標準數據集和人工數據集的實驗結果,基于EAdaBoost的不平衡數據集分類設計方法在不平衡數據集分類問題上有著良好的表現,且在不同不平衡程度的情況下都能在分類時有穩(wěn)定的性能提升。
2.4 分析與討論
以下從三個方面對基于EAdaBoost的不平衡數據集分類設計方法進行分析和討論:
a)基于EAdaBoost的不平衡數據集分類設計方法根據每個數據集不同不平衡指數,確定基分類器權重更新公式的參數k,使得算法在面對不同數據集時都能隨時自調整,同時將少數類樣本的分類正確率考慮進算法之中,使得分類效果更好的基分類器占有更大權重,提升分類性能,具有較強的自適應性。
b)本文共選擇了三個分類器進行對比實驗,結果證明在任意一個分類器上,基于EAdaBoost的不平衡數據集分類設計方法
性能都能得到提升,取得了較好的實驗結果。機器學習中的數據龐大,各類數據的特差異較大,EAdaBoost算法在實驗中的不同基分類器下都有提升效果,展現了其普適性,能夠廣泛應用于各種類型的分類器。
c)從大量的實驗數據可知,基于EAdaBoost的不平衡數據集分類設計方法可在提高少數類樣本的識別率的同時保持一定的全局分類正確率。除此之外,其余各項常用的不平衡數據集分類評價指標均有著不同程度的提升,從實驗中的五個指標可以看出,EAdaBoost算法有著良好的綜合性能。
3 結束語
類別不平衡問題是許多領域的一個關鍵問題,給分類造成了相當大的困難。為了解決不平衡類問題的挑戰(zhàn),本文提出了改進的AdaBoost算法。該方法對基分類器的加權投票進行調整,將每個數據集不同的不平衡指數b考慮到基分類器的權重更新公式中,保證了算法對不同數據集有相應的自調節(jié)能力。同時改進后的基分類器權重更新公式包括了少數類樣本的分類準確率,以提高不平衡數據集少數類樣本的關注度,使少數類的識別率得到提高的同時保證了整體分類性能的提升,取得了較佳的實驗結果。另外,當數據集不平衡指數較大時,也能有非常好的改進效果。此方法可以用于許多領域,如醫(yī)療診斷、金融欺詐檢測、網絡安全(如網絡攻擊)、罕見事件預測(如自然災害、事故)等,在這些領域往往由于罕見疾病發(fā)生率低、欺詐行為少、網絡攻擊少、自然災害罕見等,導致數據不平衡,如此便可以嘗試將本文方法用于上述領域,以得到更好的效果。
從實驗結果中不難發(fā)現,針對不同的數據集,算法性能有一定的提升,但不同情況下得到的性能指標值仍有較大差距,這與數據集自身的特性(如數據的空間分布形式、數據維度等)也相關聯。因此,將數據集的自身特性有針對性地考慮到分類過程中是今后研究的方向所在。
參考文獻:
[1]周玉,孫紅玉,房倩,等.不平衡數據集分類方法研究綜述[J].計算機應用研究, 2022, 39(6): 16151621.(Zhou Yu,Sun Hongyu,Fang Qian,et al.Review of imbalanced data classification methods[J].Application Research of Computers,2022,39(6):16151621.)
[2]Stefanowsk I J.Dealing with data difficulty factors while learning from imbalanced data[M].Berlin:Springer,2016:333-363.
[3]Liang Jinglun,Ye Guoliang,Guo Jianwen,et al.Reducing falsepositives in lung nodules detection using balanced datasets[J].Frontiers in Public Health,2021,9:671070.
[4]Jahmunah V,Ng E,San T R,et al.Automated detection of coronary artery disease,myocardial infarction and congestive heart failure using GaborCNN model with ECG signals[J].Computers in Biology and Medicine,2021,134:104457.
[5]Zelenkov Y,Volodarskiy N.Bankruptcy prediction on the base of the unbalanced data using multiobjective selection of classifiers[J].Expert Systems with Applications,2021,185:115559.
[6]Du Xudong,Li Wei,Ruan S M,et al.CUSheterogeneous ensemblebased financial distress prediction for imbalanced dataset with ensemble feature selection[J].Applied Soft Computing,2020,97:106758.
[7]Sanz J A,Bernardo D,Herrera F,et al.A compact evolutionary intervalvalued fuzzy rule based classification system for the modeling and prediction of realworld financial applications with imbalanced data[J].Chemical Geology,2015,90(4):973990.
[8]Li Xingqiu,Jiang Hongkai,Liu Shaowei,et al.A unified framework incorporating predictive generative denoising autoencoder and deep coral network for rolling bearing fault diagnosis with unbalanced data[J].Measurement,2021,178:109345.
[9]Ashiquzzaman A,Lee H,Um T W,et al.Deep learningguided production quality estimation for virtual environmentbased applications[J].Tehnicˇki vjesnik,2020,27(6):18071814.
[10]王曜,鄭列.一種新的基于聚類的試探性SMOTE算法[J].重慶理工大學學報:自然科學,2022,36(4):187195.(Wang Yao,Zheng Lie.New tentative SMOTE algorithm based on clustering[J].Journal of Chongqing University of Technology:Natural Science,2022,36(4):187195.)
[11]Ibrahim M H.ODBOT:outlier detection based oversampling technique for imbalanced datasets learning[J].Neural Computing and Applications,2021,33(9):1578115806.
[12]Chawla N V,Bowyer K W,Hall L O,et al.SMOTE:synthetic minority oversampling technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.
[13]周晶雨,王士同.對不平衡數據的多源在線遷移學習算法[J].計算機科學與探索,2023,17(3):687700.(Zhou Jingyu,Wang Shitong.Multisource online transfer learning algorithm for imbalanced data[J].Journal of Frontiers of Computer Science and Technology,2023,17(3):687700.)
[14]Saptarshi B,Narek D,Markus W,et al.LoRAS:an oversampling approach for imbalanced datasets[J].Machine Learning,2021,110:279301.
[15]Maldonado S,Vairetti C,Fernandez A,et al.FWSMOTE:a featureweighted oversampling approach for imbalanced classification[J].Pattern Recognition,2022,124:108511.
[16]劉寧,朱波,陰艷超,等.一種混合CGAN與SMOTEENN的不平衡數據處理方法[J].控制與決策,2023,38(9):26143621.(Liu Ning,Zhu Bo,Yin Yanchao,et al.An imbalabced data processing method based on hybrid CGAN and SMOTEENN[J].Control and Decision,2023,38(9):26142621.)
[17]Zheng Weijie,Zhao Hong.Costsensitive hierarchical classification for imbalance classes[J].Applied Intelligence,2020,50:23282338.
[18]Feng Fang,Li Kuanching,Jun Shen,et al.Using costsensitive learning and feature selection algorithms to improve the performance of imbalanced classification[J].IEEE Access,2020,8:6997969996.
[19]Bei Honghan,Wang Yajie,Ren Zhaonuo, et al.A statistical approach to costsensitive AdaBoost for imbalanced data classification[J].Mathematical Problems in Engineering,2021,2021:120.
[20]Hou Yun,Li Li,Li Bailin,et al.An antinoise ensemble algorithm for imbalance classification[J].Intelligent Data Analysis,2019,23(6):12051217.
[21]Luo Shihua,Dai Zian,Chen Tianxin,et al.A weighted SVM ensemble predictor based on AdaBoost for blast furnace ironmaking process[J].Applied Intelligence,2020,50:112.
[22]Deng Xiaoheng,Xu Yuebin,Chen Lingchi,et al.Dynamic clustering method for imbalanced learning based on AdaBoost[J].The Journal of Supercomputing,2020,76(12):123.
[23]Qu Zhijian,Liu Huaxin,Wang Zixiao,et al.A combined genetic optimization with AdaBoost ensemble model for anomaly detection in buildings electricity consumption[J].Energy & Buildings,2021,248:111193.
[24]Cao Peng,Li Bo.A threedimensional method for detection of pulmonary nodules by AdaCost[C]//Proc of IEEE International Conference on Intelligent Computing and Intelligent Systems.2011:427431.
[25]閆明松,周志華.代價敏感分類算法的實驗比較[J].模式識別與人工智能,2005,18(5):628635.(Yan Mingsong,Zhou Zhihua.An empirical comparative study of costsensitive classification algorithms[J].Pattern Recognition and Artificial Intelligence,2005,18(5):628-635.)
[26]Schapire R E,Singer Y.Improved boosting algorithms using confidencerated predictions[J].Machine Learning,1999,37(3):297-336.
[27]Li Chuang,Ding Xiaoqing,Wu Youshou.Revised AdaBoost algorithmAD AdaBoost[J].Chinese Journal of Computers,2007,30(1):103109.
[28]Peter H.Machine learning in action[M].[S.l.]:Manning Publications Co.,2012.
[29]楊杏麗.分類學習算法的性能度量指標綜述[J].計算機科學,2021,48(8):209219.(Yang Xingli.Survey for performance measure index of classification learning algorithm[J].Computer Science,2021,48(8):209219.