李鑫
(首都經濟貿易大學,北京 100026)
作為數據挖掘領域的研究熱點之一,分類問題的研究已發展得非常成熟,諸多的分類算法被提出,如:決策樹、支持向量機、邏輯回歸等。這些算法在傳統的分類問題中通常都具有良好的表現效果。在實際應用中,數據不平衡現象出現的頻率越來越高,很多情況下少數類樣本具有更高的研究價值。比如在癌細胞檢測、信用卡欺詐檢測、網絡入侵檢測等領域都存在著數據不平衡問題,如果錯分少數類將帶來嚴重的后果。而傳統的分類方法很少顧及少數類的分類精度。因此,針對不平衡數據研究如何提高少數類樣本的分類精度具有重要的意義。目前,針對不平衡數據分類問題的研究主要分為數據層面和算法層面兩大方向。數據層面是通過對數據集進行重抽樣來構建平衡數據集,主要有欠采樣和過采樣兩大類。算法層面主要是通過改變少數類樣本的權重來提高分類器對少數類樣本預測的精度。本文基于數據層面的欠采樣方法開展研究,提出了一種新穎的平衡數據集獲取方法以提高分類器對少數類的預測精度。
最簡單的欠采樣方法是隨機欠采樣(RUS),它是在多數類數據集中隨機地刪除一部分樣本。編輯最近鄰規則(ENN)考慮了樣本重要性,在少數類的鄰近樣本中刪除一部分多數類;壓縮最近鄰規則(CNN)在ENN 的基礎上對決策邊界上的樣本點給予了更多地關注。后來又有學者提出TomekLinks算法,利用Tomek 對來識別數據集中對分類造成干擾的噪聲點。……