孟東霞,謝林燕
(1.河北省高校智慧金融應用技術研究中心;2.河北金融學院金融科技學院,河北保定 071051;3.國家計算機網絡應急技術處理協調中心河北分中心,石家莊 050021)
不平衡數據集的各類別樣本數量具有較大差異,在疾病診斷、網絡入侵檢測、欺詐檢測、信用風險評估等應用領域中廣泛存在,其中,樣本數量較多的類別被稱為多數類,樣本數量較少的類別被稱為少數類。當使用支持向量機、決策樹、神經網絡等傳統的分類模型對其進行直接分類時,少數類樣本由于數量較少,容易被誤分為多數類樣本,分類準確率無法得到保證,在實際應用中會造成嚴重的損失。以信用評估問題為例,信用差的客戶遠遠少于信用好的客戶,兩類樣本數量不平衡,當少數類中信用差的客戶被誤判為信用好的客戶時,向其發放貸款可能面臨巨大的資金損失。因此,提高不平衡數據集中少數類樣本的分類準確率成為有價值的研究熱點。
已有研究取得了較豐富的成果[1—13],對于多數類可能存在類內不平衡、樣本分布密度不均勻的情況,本文設計了一種利用k 近鄰中心偏移因子對多數類欠采樣的不平衡數據處理方法,該方法計算并比較樣本及近鄰的中心偏移因子,刪除局部密度較大的冗余樣本,使得平衡數據集中保留的多數類樣本與原有數據的分布保持一致。
文獻[14]提出了k 近鄰中心偏移因子(Center Offset Factor,COF)作為檢測異常點的魯棒性判定標準,能穩定且準確地識別出異樣樣本。……