



摘要:針對類不平衡的分類問題,提出了一種新型的數據均衡方法。傳統Borderline SMOTE(Borderline Synthetic Minority Oversampling Technique) 方法通過增強邊界少數樣本的表示能力以平衡樣本空間。但當邊緣區域噪聲較多時,該方法往往無法有效明晰決策邊界;即便加入欠采樣,也難以準確控制樣本剔除數量。針對該問題,該研究創新性地在 Borderline SMOTE方法中引入基于邊界的欠采樣機制。該機制分析鄰近樣本的類別分布來識別邊界區域,對少數類邊界樣本進行 SMOTE 過采樣后,再對邊緣區域的多數類樣本實施精準欠采樣。實驗表明,該策略有效提升了分類器的決策邊界清晰度,并增強了模型在噪聲環境下的魯棒性。
關鍵詞:數據均衡;機器學習;類不平衡問題
中圖分類號:TP391" "文獻標識碼:A
文章編號:1009-3044(2025)16-0005-05
開放科學(資源服務) 標識碼(OSID)
0 引言
數據不均衡問題一直是機器學習分類任務中的主要挑戰之一,尤其是在醫療、金融和工業等領域。在醫學影像分析中,這種偏差可能會導致病灶漏檢,直接影響臨床診斷效果[1];在金融風控領域的欺詐檢測場景中,分類器可能因過度關注正常交易樣本而忽視少數類欺詐樣本,導致欺詐行為漏報,給金融機構帶來重大經濟損失[2];在工業質檢的產品缺陷識別任務中,分類器可能因多數類的正常樣本的主導地位而降低對少數類缺陷樣本的識別準確率,造成次品流入市場,影響產品質量[3]。
數據不均衡問題的特點是多數類(負類) 的樣本數量往往超過少數類(正類) ,導致多數類在整個數據集空間上占有更重要的地位。當分類器應用于不平衡數據時,通常會偏向多數類樣本。這是因為傳統的分類器優化目標是最小化總體誤差,為了達到這一目標,分類器往往會忽略少數類的準確性,從而導致少數類的預測效果較差[4]。
常見的數據均衡策略主要有兩類。第一類是基于數據層面的重采樣方法,通過調整樣本分布來緩解類別不平衡問題,具體包括:過采樣技術、欠采樣技術以及混合采樣。這類方法的優勢在于算法通用性強、實現成本低,但可能會引入噪聲樣本或損失有效信息。第二類是基于算法層面的代價敏感學習。通過構建代價敏感矩陣,考慮不同類樣本被錯誤分類的相對代價,通過最小化誤分類成本達到算法優化的目的,賦予不同類別樣本差異化的誤分類懲罰權重。雖然理論上能更精準地平衡分類偏好,但在實際應用中常面臨代價矩陣難以量化、超參數敏感等問題,導致其應用范圍受限[5]。
因此,本研究主要采用數據采樣方法,通過改進均衡策略在支持向量機(Support Vector Machine,SVM) 分類中的應用來驗證方法有效性。
1 數據和方法
1.1 數據描述
本研究使用的 5 組公共數據集是從 Kaggle、ADNI 和 UCI 數據庫中選擇的,這些數據的類別不平衡比(Imbalance Ratio,IR) 為 1.87~14.3,涵蓋低、中、高三種范圍的不平衡情況[6]。表 1為 5 組數據集的具體信息,包括樣本個數、特征個數和 IR 值。
1.2 數據均衡技術介紹
1.2.1 隨機過采樣和欠采樣
隨機過采樣是通過隨機復制少數類樣本來平衡數據空間中各類樣本的數量。該方法簡單易實現,但存在明顯缺陷:首先,數據集中出現的重復樣本會增加模型計算的復雜程度;其次,過度復制可能導致模型過擬合,降低泛化能力。Fernández等[7]在 UCI 數據集上進行測試,實驗表明,隨機過采樣雖然能夠提升少數類的召回率,但準確率卻顯著下降。
隨機欠采樣通過隨機刪除多數類樣本來平衡樣本分布。該方法雖然能緩解類不平衡問題,但會損失有價值的信息,導致模型出現計算偏差。Krawczyk等[8]的研究表明,在高維數據集中,隨機欠采樣可能會破壞數據的原始分布特征,影響分類性能。
1.2.2 過采樣改進方法
為了克服過采樣的不足,研究者提出了多種改進方法。
1) SMOTE 方法。通過引入“邊界”信息以避免在密集區域過度采樣。該方法在少數類樣本間進行線性插值生成新樣本,避免了簡單復制帶來的過擬合問題。然而,SMOTE 在處理高維數據時容易產生噪聲樣本,導致分類性能下降[9]。
2) Borderline SMOTE 方法。通過引入分類器來動態調整生成區域。該方法聚焦于邊界樣本的生成,通過識別“危險”樣本區域進行針對性過采樣。但該方法對噪聲敏感,Zhang等[10]在 UCI 數據集上的實驗表明,Borderline SMOTE 在噪聲較多的數據集中效果較差。
3) ADASYN 方法。結合降噪或正則化技術,優化生成樣本的質量。該方法根據樣本分布密度自適應生成新樣本,在少數類樣本稀疏區域生成更多樣本。He等[11]通過在多個不平衡數據集上進行實驗,發現 ADASYN 在處理稀疏區域樣本時表現優異,但對噪聲樣本的魯棒性較差。
這些改進方法主要通過優化少數類樣本在局部或全局范圍內的生成來提升過采樣效果。但這些方法存在一個共性問題:無法有效避免噪聲樣本的生成,尤其是 Borderline SMOTE 方法。在高維數據中,邊界識別困難導致生成的新樣本可能偏離真實分布。同時,Borderline SMOTE 生成的樣本往往過度集中于邊界區域,這會進一步加劇決策邊界的模糊性,影響分類器的性能。因此,如何從全局視角優化邊界區域的樣本分布,以提升決策邊界的清晰度,成為一個亟待解決的關鍵問題。
1.2.3 欠采樣改進方法
針對欠采樣中的信息丟失問題,研究者們提出了基于集成學習機制的改進方法EasyEnsemble。該方法通過隨機劃分多數類樣本并與少數類樣本組合,生成多個平衡的子集,每個子集單獨訓練一個基分類器,最終通過集成學習整合所有基分類器的預測結果。由于每個子集都包含不同的多數類樣本組合,EasyEnsemble在減少多數類樣本的同時,保留了其多樣性,從而緩解了欠采樣導致的信息丟失問題。
此外,研究者還提出了數據清洗技術,即通過某種規則清洗重疊數據,從而達到欠采樣的目的。以下為兩種典型方法。
1) Tomek Links方法。Tomek Links是指一對互為最近鄰且類別不同的樣本。這類樣本對通常位于類別邊界區域或包含噪聲樣本。優先保留Tomek Links中邊界清晰的樣本,從而提升分類器的性能。
2) ENN(Edited nearest neighbours) 方法。ENN方法通過刪除多數類樣本中那些在其[k]個近鄰中一半以上樣本與其標簽不同的樣本,達到去除噪聲和欠采樣的目的。
盡管數據清洗技術能夠有效減少噪聲和重疊樣本,但其最大的局限性在于難以控制欠采樣的數量。由于多數類樣本的近鄰大多屬于同一類別,能夠剔除的樣本數量有限,導致欠采樣效果不夠顯著。
1.2.4 混合采樣
混合采樣是一種綜合過采樣和欠采樣的組合方法,旨在結合各自的優勢,避免單一方法可能帶來的缺陷。常見的混合采樣組合包括SMOTE+Tomek Links與SMOTE+ENN。SMOTE+Tomek Links在生成少數類樣本后,利用Tomek Links移除類邊界附近的噪聲樣本,適用于邊界不清晰的數據集。SMOTE+ENN則在生成樣本后,使用ENN刪除分類錯誤的樣本,適用于噪聲較多或類別重疊較為嚴重的數據集。
1.3 模型的構建與實驗設計
1.3.1 模型構建
為解決分類問題中數據不均衡的問題,本研究提出了一種基于邊界的混合采樣方法(Borderline SMOTE and Borderline Undersampling,BSMOTE_BU) 。該方法在Borderline SMOTE的基礎上加入了一種基于邊界的欠采樣技術,旨在增強邊界處少數樣本的表達能力,同時減少樣本重疊的可能性。
該方法首先進行SMOTE過采樣:將少數類樣本劃分為三類區域,分別為Safe區域(最近鄰中多數類樣本數占比低于50%) 、Danger區域(最近鄰中多數類樣本超過一半) 和Noise區域(最近鄰中全為多數類樣本) 。針對Danger區域的少數類樣本,從其近鄰中隨機選擇一個少數類樣本進行線性插值,從而生成新樣本,實現過采樣操作。接著進行邊界欠采樣:對每個多數類樣本計算最近鄰,同理,根據少數類樣本在最近鄰中的比例劃分多數類樣本的三類區域。僅對屬于Danger區域的多數類樣本進行欠采樣。通過移除邊界附近的多數類樣本,減少多數類樣本對分類邊界的干擾,從而緩解樣本重疊問題。
BSMOTE_BU算法的混合采樣過程可用步驟1~6表示:
步驟1:設原始數據集為[D],其中:少數類樣本子集為[Dmin={x1,x2,...,xNmin}],樣本數量為[Nmin];多數類樣本子集為[Dmaj={y1,y2,...,yNmaj}],樣本數量為[Nmaj]。對于任意一個樣本點計算其[k]個鄰居,則少數類樣本[xi∈Dmin]和多數類樣本[yj∈Dmaj]的[k]個鄰居分別為[N(xi)]、[N(yj)]:
[N(xi)=argminxs∈D{d(xi,xs)},s=1,2,...,k]" " " "(1)
[N(yj)=argminyt∈D{d(yj,yt)},t=1,2,...,k]" " (2)
式中:[d(p,q)]表示計算[p]點和[q]點間的歐氏距離。
步驟2:識別屬于Danger區域的少數類樣本。每個少數類樣本其[k]個鄰居[N(xi)]中多數類樣本的比例為[R(xi)],邊界少數類樣本集合為[Dangermin]:
[R(xi)=|{yj∈N(xi)|yj∈Dmaj}|k]" " " " " (3)
[Dangermin={xi∈Dmin|R(xi)gt;0.5}]" " " " " " (4)
步驟3:生成少數類樣本。對屬于Danger區域的每個少數類樣本點[xi],從其[k]個鄰居中隨機選擇一個少數類樣本[xs],生成新樣本[xnew]:
[xnew=xi+λ?(xj-xi),xi∈Dangermin,λ∈[0,1]]" "(5)
步驟4:識別屬于Danger區域的多數類樣本。每個多數類樣本其[k]個鄰居[N(yj)]中少數類樣本的比例為[R(yj)],邊界多數類樣本集合為[Dangermaj]:
[R(yj)=|{xi∈N(yj)|xi∈Dmin}|k]" " " " " (6)
[Dangermaj={yj∈Dmaj|R(yj)gt;0.5}]" " " " " "(7)
步驟5:移除邊界多數類樣本,多數類樣本的新集合為[Dnewmaj]:
[Dnewmaj=Dmaj-Dangermaj]" " " " " "(8)
步驟6:合并新的分類數據集[Dnew]:
[Dnew=(Dmin+xnew)+Dnewmaj]" " " " " (9)
1.3.2 模型訓練與驗證
本研究使用Borderline SMOTE、ADASYN、EasyEnsemble、Tomek Links、SMOTE+Tomek Links、SMOTE+ENN以及BSMOTE_BU等7種方法對5組數據集分別進行采樣操作,然后再使用支持向量機作為分類器,驗證模型在不同方法下得到的均衡數據集上的表現。
為確保模型的穩定性及避免過擬合風險,采取十折交叉驗證方法進行模型訓練。具體來說,將數據集[D]隨機劃分為10個大小相等的子集,記為[D1,D2,...,D10],進行10次迭代。每次迭代使用其中9個子集作為訓練集,剩下一個子集作為測試集,并記錄測試集上的模型性能(評價指標得分) 。完成迭代后,將所有測試集上的評估指標取均值,作為模型的最終性能指標。
在使用SVM進行分類任務時,徑向基函數(Radial Basis Function,RBF) 是一種常用的核函數。一般而言,對于復雜的分類問題,線性核可能無法有效分離數據,而RBF核能夠通過非線性映射找到更好的分類邊界。對于不平衡數據,RBF核也可以通過調整超參數、調整類別權重等方式,有效改善少數類的分類性能。因此,本研究使用RBF核作為SVM分類器的核函數。
1.3.3 模型性能評估
1) 曲線下面積(Area under curve,AUC) :用于衡量分類器在不同閾值下對正負樣本的區分能力。AUC的取值范圍為[[0,1]]:當[AUC=0.5]時,分類器的性能等同于隨機猜測;當[AUC=1]時,分類器能夠完美區分正負樣本;當[0.5lt;AUClt;1]時,AUC值越接近1,分類器的性能越好。數學表達式如下:
[AUC=01TPR(FPR)d(FPR)] (10)
式中:[TPR=TPTP+FN],[FPR=FPFP+TN];TPR為真正例率,FPR為假正例率,TP為真正例,FP為假正例,TN為真負例,FN為假負例。
2) 幾何平均(Geometric mean,G-Means) :是真正例率(TPR) 和真負例率(TNR) 的集合平均值,用于衡量分類器在正負樣本上的綜合性能。G-Means的取值范圍為[[0,1]]:當[G-Means=0]時,分類器完全無法正確區分正樣本或負樣本;當[G-Means=1]時,分類器能夠完美區分所有正樣本和負樣本;當[0lt;G-Meanslt;1]時,G-Means值越接近1,分類器在正負樣本上的性能越平衡。數學表達式如下:
[G-Means=TPR×TNR] (11)
式中:[TNR=TNTN+FP]。
2 實驗結果與分析
2.1 模型性能
本研究使用SVM模型對5組原始(Original) 和均衡后的數據集進行分類,結果顯示BSMOTE_BU方法在各數據集上均表現出顯著優勢,如圖1與表2所示。具體而言,BSMOTE_BU方法在PIMA、Wine Quality、Credit Card、ADNI和Yeast數據集上的AUC值分別為0.918、0.811、0.891、0.986和0.968,均高于其他對比方法。
此外,BSMOTE_BU的G-Means值在各個數據集中均為最高,分別達到了0.842(PIMA) 、0.735(Wine Quality) 、0.700(Credit Card) 、0.967(ADNI) 和0.893(Yeast) ,進一步證明了該方法在多數類和少數類樣本上的平衡分類能力。
如圖2所示,各均衡方法下,5組數據集相對于未實施均衡方法(Original) 前的性能提升效果。結果表明,使用均衡方法后,每個數據集的分類效果都有所提升。特別是Credit Card數據集,均衡前AUC小于0,G-Means為0,分類器無法對不同類別進行識別;而均衡后,除了Tomek Link方法外,其余方法的識別效果均大幅度提升,AUC提升范圍達到18.0%~41.9%,G-Means最高可達70.0%。此外,在所有的均衡方法中,BSMOTE_BU方法性能提升最高,其次是EasyEnsemble方法。Borderline SMOTE、SMOTE+Tomek Links、SMOTE+ENN和ADASYN四種方法的性能提升相對接近,而Tomek Links方法表現最差。
將5類數據集按照IR值分別劃分為低、中、高不平衡數據集,對比BSMOTE_BU方法和次優EasyEnsemble方法在不同IR下對分類性能的提升效果:
1) 低不平衡率數據集(PIMA和Wine Quality) 。BSMOTE_BU方法在兩個數據集上的AUC分別為0.918和0.811,G-Means分別為0.842和0.735。與直接使用原始數據集進行分類相比,AUC增加了9.9%和4.3%,G-Means提高了19.1%和73.5%。在EasyEnsemble方法中,兩個數據集的AUC和G-Means分別提升了3.7%~4.3%和3.7%~9.3%。
2) 中不平衡率數據集(Credit Card和ADNI) 。在Credit Card數據集中,BSMOTE_BU方法的AUC和G-Means相較于不適用均衡方法前分別提升了41.9%和70%。同時,BSMOTE_BU方法的G-Means結果與EasyEnsemble方法持平,但AUC結果高出8.8%。BSMOTE_BU方法在ADNI數據集上的AUC比原始數據高9%,比EasyEnsemble方法高2%;G-Means分別提升了47.6%和4.2%。
3) 高不平衡率數據集(Yeast) 。BSMOTE_BU在Yeast數據集上的AUC值為0.968,G-Means為0.893,比原始數據集分別提升18.8%和89.3%,比EasyEnsemble方法提升2%和2.5%。
總的來說,BSMOTE_BU通過邊界混合采樣策略,在各類不平衡率數據集上均能顯著提升分類性能,且與次優方法EasyEnsemble相比,其穩定性和泛化能力均更優。
2.2 實驗結果的討論
在本研究中,通過比較7種不同的數據均衡方法,可以觀察到這些方法對模型的分類性能產生了不同程度的影響。總體上,施加均衡方法后的SVM對少數類樣本的識別能力均有提升。特別地,BSMOTE_BU方法在所有測試數據集中均表現最佳,不僅在整體判別性能(AUC) 上高于其他方法,而且G-Means評分也顯示了其在提升少數類樣本召回率上的優勢,為類不平衡問題提供了更優的解決方案。然而,該方法仍然存在一定的局限性。
1) 樣本量限制。本研究所測試的數據集樣本量普遍偏小,特別是在高度不平衡([IRgt;9]) 的數據集中,少數類樣本數量有限。由于新生成的樣本是通過現有的少數類樣本插值得到,較少的點難以準確反映整體數據的分布,這可能導致模型在未見過的數據上泛化能力不佳。此外,由于少數類樣本數量少,每個樣本點在數據集中會占據更大的權重,單個樣本的異常值或噪聲會對模型產生顯著影響。在這種情況下,即使是輕微的采樣誤差也可能導致模型性能顯著波動。
2) 多分類問題適應性。BSMOTE_BU方法主要關注增強多數類和少數類樣本之間的區別,這在二分類問題中被證實非常有效。然而,在多分類問題中需要處理多個類之間的相互關系,僅僅強化一個類與其他類的邊界是不夠的。多分類問題中,每個類都可能同時是其他多個類的“少數類”。并且在多分類環境中,類的邊界可能不如二分類清晰。因此,增加新的邊界樣本可能會加劇類間的重疊,特別是那些本來就難以區分的類別。
3) 參數敏感性。BSMOTE_BU方法依賴于KNN算法來劃定[k]近鄰區域,其核心參數是鄰居數[k]的選擇。由于鄰居數值的敏感性,過小的[k]值會導致模型對噪聲數據過于敏感,把噪聲錯誤地當做邊界樣本進行處理;而過大的[k]值則可能使模型無法精確地識別真正的樣本邊界,從而忽略了關鍵的少數類樣本。在實際應用中,鄰居數[k]值的確定往往需要依賴具體的數據集和實驗經驗,缺乏普適性。
4) 噪聲影響。雖然BSMOTE_BU方法通過邊界混合采樣策略減少了少數類和多數類之間的重疊,但其性能提升并非沒有代價。該方法過度依賴于邊界定義。如果邊界區域的噪聲較多,新生成的少數類樣本很可能包含錯誤信息,從而導致模型過擬合。此外,基于KNN的欠采樣策略也可能引入干擾,進一步影響模型的泛化能力。
3 結論
3.1 研究總結
本研究開發了一種基于邊界的混合采樣方法BSMOTE_BU,經過多個數據集的實驗驗證,并與現有數據均衡方法以及未使用任何采樣技術的分類結果進行對比,發現BSMOTE_BU在提升分類器性能方面表現最為突出。實驗證明,BSMOTE_BU顯著提高了分類器對少數類樣本的識別能力,同時有效降低了誤分類率,并增強了模型的穩定性。相較于其他方法,BSMOTE_BU在AUC和G-Means指標上均取得了最優結果,證明了其在處理類別不平衡問題中的優越性和必要性。
盡管BSMOTE_BU方法仍然存在一定局限性,但其通過結合邊界過采樣和欠采樣的策略,顯著提升了分類器在各類不平衡數據集上的性能。未來研究可以進一步優化分類策略和開發自適應參數選擇方法,以增強方法的普適性和實用性。總體而言,BSMOTE_BU為處理類別不平衡問題提供了一種更為有效的工具,具有廣泛的應用前景。
3.2 未來工作展望
為了進一步提升模型的可靠性和實用性,未來的研究可以從以下幾個方面進行擴展。
1) 增強樣本多樣性。為了應對小樣本數據集帶來的挑戰,可以采取多種樣本合成技術,不僅僅局限于線性插值。例如,可以結合少數類樣本的非線性變換,引入生成對抗網絡(GAN) 或變分自編碼器(VAE) 等生成模型,捕捉并模擬潛在的數據分布,合成更具代表性的少數類樣本。
2) 改進多分類策略。對于多分類問題,可以開發一種層次化的采樣策略,該策略針對每個類別分別進行邊界分析和樣本合成。因此,可以引入基于類別敏感度的權重調整,根據每個類別的實際需要動態調整過采樣和欠采樣的比例,從而平衡各個類別之間的影響,減少多類間的重疊。
3) 自適應參數選擇。為了減少KNN中[k]值選擇的隨意性以及避免依賴經驗,可以開發自適應算法確定最優的鄰居數[k]值。可以通過交叉驗證和網格搜索的方式,自動調整鄰居數[k]值和其他超參數,結合模型的性能指標來評估不同參數組合下的模型表現,選擇最優參數。
4) 降低過擬合風險。為了減少過擬合和對噪聲的敏感性,可以在采樣前后引入噪聲過濾和異常值檢測步驟。使用統計測試或基于密度的方法識別并剔除噪聲和異常值,保證僅對“干凈”的數據進行采樣處理。此外,可以采用正則化技術來減少模型對特定樣本的依賴,增強模型的泛化能力。
5) 集成學習和模型融合。不同采樣方法可能在不同類型的數據集上表現各異,可以考慮采用集成學習方法融合多種采樣策略的優勢。例如,可以將BSMOTE_BU與其他非邊界依賴的采樣方法結合,通過投票或加權的方式綜合不同模型的預測結果,從而提升整體的分類性能。
參考文獻:
[1] RAWAT S S,MISHRA A K.Review of methods for handling class imbalance in classification problems[M]//Data Engineering and Applications.Singapore:Springer Nature Singapore,2024:3-14.
[2] GUPTA P,VARSHNEY A,KHAN M R,et al.Unbalanced credit card fraud detection data:a machine learning-oriented comparative study of balancing techniques[J].Procedia Computer Science,2023(218):2575-2584.
[3] REN Z J,LIN T T,FENG K,et al.A systematic review on imbalanced learning methods in intelligent fault diagnosis[J].IEEE Transactions on Instrumentation and Measurement,2023,72:3508535.
[4] HE H,GARCIA E A.Learning from imbalanced data[J]. IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.
[5] KRAWCZYK B,WO?NIAK M,SCHAEFER G.Cost-sensitive decision tree ensembles for effective imbalanced classification[J].Applied Soft Computing,2014(14):554-562.
[6] GARCíA S,HERRERA F.Evolutionary undersampling for classification with imbalanced datasets:proposals and taxonomy[J].Evolutionary Computation,2009,17(3):275-306.
[7] FERNáNDEZ A,GARCíA S,GALAR M,et al.Learning from Imbalanced Data Sets[M].Cham:Springer International Publishing,2018.
[8] KRAWCZYK B.Learning from imbalanced data:open challenges and future directions[J].Progress in Artificial Intelligence,2016,5(4):221-232.
[9] DOUZAS G,BACAIO F,FONSECA J.Improving SMOTE with Data Augmentation and a Diversified Ensemble[J].Expert Systems with Applications,2021(168):1-11.
[10] ZHANG Y,LI X,ZHANG Y.An Improved Borderline-SMOTE Algorithm for Imbalanced Data Classification[J].IEEE Access,2020(8):123123-123132.
[11] HE H B,BAI Y,GARCIA E A,et al.ADASYN:Adaptive synthetic sampling approach for imbalanced learning[C]//2008 IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence).IEEE,2008:1322-1328.
【通聯編輯:唐一東】