(廣東財經大學 廣東 廣州 510320)
隨著大數據時代的到來,現實生活中充斥著各種各樣結構化與非結構化的數據,如何有效的處理各種不同類型的數據顯得極為關鍵。數據分類作為數據挖掘體系中極為重要的一部分,雖然傳統的分類算法對于各類別分布較為均勻的數據能表現出較好的分類性能,但對于類別分布極不均勻的數據,其中傳統分類算法以總體精度作為優化目標,很容易造成大量的少數類樣本被錯誤分類的現象。例如在金融信用違約用戶監測的過程中,樣本中未違約用戶的數量遠遠高于違約用戶,傳統分類算法極易傾向于將所有樣本均判定為多數類,由此模型可以得到較高的總體分類精度。對于異常檢測等問題,無法將少數類樣本準確識別出來,模型具有再高的總體分類精度都沒有實際應用價值。這類數據廣泛的存在于現實應用領域,包括癌癥監測、金融欺詐監測、網絡入侵監測等。在癌癥監測問題上,如果將癌癥病人錯誤分類,錯過了醫治的最佳時間,將會付出更大的代價。因此不平衡數據分類的研究具有很強的社會意義,可以廣泛應用于社會中的各個領域并產生價值。
目前應用比較成熟的分類算法有決策樹、K近鄰、樸素貝葉斯分類器、SVM、神經網絡以及集成學習等,傳統算法都是基于兩個前提假設:1.樣本數據內各個類的分布情況大致均勻。2.各個類別被錯誤分類的代價基本相同。對于分類模型的性能評價指標以總體分類準確率作為核心指標,由此會對不平衡數據會產生較高的少數類樣本錯分率。國內外學者對于不平衡數據分類總要從數據預處理、代價敏感參數、單類別學習與集成學習四個方面展開。本文通過構建不平衡數據框架的分類器來處理UCI中近5個不平衡數據集,通過與傳統分類算法進行比較驗證有效性。
最近鄰降噪濾波不平衡數據處理框架包括對于多數類樣本進行欠采樣與對于少數類樣本進行降噪濾波處理,然后將處理后的數據進行分類并通過交叉驗證計算分類的性能。傳統的欠采樣往往會全部使用少數類樣本來進行模型的訓練,但少數類樣本中存在一些噪聲會降低分類器的性能。通過構建KNN降噪濾波過濾器來剔除噪聲以提高分類器的整體性能。
(一)少數類樣本降噪濾波處理。對于不平衡數據最基本的處理就是將多數類樣本通過欠采樣,由此使數據中各類樣本的分布基本均勻。但往往忽視了少數類樣本中存在的噪聲,有效確認少數類樣本中的噪聲并剔除將提高對于不平衡數據的分類性能。基本思路為判斷某個少數類樣本附近的K個近鄰樣本中少數類樣本的占比將此少數類樣本劃分為有效少數類樣本、相對有效少數類樣本、噪聲少數類樣本三類。其中有效少數類樣本的K個近鄰全是少數類樣本而噪聲少數類樣本的K個近鄰全是多數類樣本。
算法步驟:輸入不平衡樣本數據,少數類樣本記為Sm,多數類樣本記為SM,其中選擇的近鄰數記為K。對于i=1∶|Sm|,計算少數類Sm中各個樣本的K個近鄰以及其中含有多數類樣本的個數。將其中K個近鄰全是多數類的樣本進行標記,然后剔除。輸出通過降噪濾波過后的樣本數據。
經典的欠采樣方法包括Undersampling、RUSBoost、UnderBagging、EasyEnsemble等。但欠采樣存在一個缺點是隨機欠采樣過程中容易將有價值的樣本點給遺漏,使得樣本失真,無法最大程度還原樣本原始特征。
Undersampling通過隨機從多數類中隨機抽取樣本從而減少多數類中的樣本數量來實現樣本內各類數據均衡。EasyEnsemble通過不斷從多數類中抽取樣本,使得每個模型的多數類和少數類樣本數量基本均衡,然后將多個模型集成起來。RUSBoost通過Adaboost作為基礎分類器對樣本進行集成學習進行樣本欠采樣。UnderBagging通過bagging的方式有放回地采樣進行,來實現樣本的欠采樣。

為了證明降噪濾波器的有效性,選擇了5組UCI標準數據集進行測試,通過十折交叉驗證計算出AUC值。AUC指標是Roc曲線下面所包含的面積,AUC指標越大表示分類的性能越好,通常AUC等于1為完美分類器,AUC位于0.5至1之間優于隨機分類器,AUC位于0至0.5之間差于隨機分類器。

數據集UBUB-KFRUSBRUSB-KFUBUB-KFEEEE-KFPrima0.7570.7830.7450.760.7230.7330.8120.813Haberman0.6190.6450.660.660.6010.6250.6640.689Cmc0.6630.690.680.7010.6330.6510.70.735Yeast0.9540.9640.950.9630.9200.9270.9620.978Zernike0.8710.8740.870.8340.8360.8510.9010.989
從各個數據集的AUC值可以發現,KF最近鄰降噪濾波器的效果顯著,提高的傳統分類算法的性能,其中結合了EasyEnsemble的的分類器性能在各個數據中都表現優異。對于不平衡數據,多數類通過EasyEnsemble方法欠采樣并且對于少數類樣本通過最近鄰降噪濾波器來消除噪聲可以顯著提高分類器的性能。