羅少甫
(重慶航天職業技術學院 智能信息學院,重慶 400021)
不平衡數據集的類別呈偏態分布[1]。在不平衡數據集中,會存在一個樣本數量較少的類,學者們通常把這個類稱為少數類。同時,學者們把具有較多樣本數量的類稱為多數類。由于不平衡數據集的偏態分布,因此從不平衡數據集上學習一個有效的分類器(即不平衡分類)是一個挑戰[2]。在不平衡分類中,盡管分類模型能取得較高的分類正確率,但是他們難以正確地分類少數類。相比于多數類,少數類更具有實際意義。
欠抽樣方法和過抽樣方法能夠改進不平衡分類[3—8]。欠抽樣方法會去除多數類中的冗余樣本,直到樣本的類別分布平衡。過抽樣方法生成少數類的合成樣本去擴充少數類。SMOTE(Synthetic Minority Over-sampling Technique)[9]是最流行的過抽樣方法。它用少數類樣本的k近鄰[10]插值結果去生成合成樣本;然后,用生成的合成樣本去擴充少數類。到目前為止,SMOTE 具有巨大的實際應用價值和許多改進算法。例如,Boderline-SMOTE[11]、ADASYN[12]、RSMOTE[13]、Adaptive-SMOTE[14]等。
研究發現,大多數過抽樣方法容易生成噪聲[9,11—15]。這是因為他們用噪聲或(和)不安全的邊界樣本去生成合成樣本。最近,基于噪聲過濾的過抽樣方法能解決噪聲生成問題。SMOTE-TL[16]、SMOTE-ENN[16]和SMOTE-IPF[17]是基于噪聲過濾的過抽樣方法。SMOTE-TL 用托梅克鏈接(Tome Link,TL)去移除合成樣本和原始數據中的噪聲。SMOTE-ENN 用k 近鄰分類器去識別和過濾噪聲。SMOTE-IPF 用一個迭代的隨機森林分類器來去除合成樣本和原始數據中的噪聲。盡管大量的實驗[15—17]證明了基于噪聲過濾的過抽樣方法的有效性,但是他們仍然有以下不足:(1)在大多數基于噪聲過濾的過抽樣方法(如SMOTE-TL、SMOTE-ENN 和SMOTE-IPF)中,噪聲偵察技術依賴于參數,這導致算法表現不穩定和應用困難。……