李長生,劉宗成,劉 碩
(蘭州石化職業技術學院 信息處理與控制工程學院,甘肅 蘭州 730060)
分類算法是機器學習和模式識別中的重要研究內容之一,諸如貝葉斯網絡算法、神經網絡算法、決策樹C4.5算法、SVM(支持向量機)算法、Random forest算法、Bagging算法、KNN算法等。其中,由于K最近鄰算法[1](k-Nearest Neighbor,KNN)思想簡單、容易實現、重新訓練數據的較低代價、以及較高的分類準確率,使其在自動分類領域應用較廣[2]。
KNN算法簡單易懂,是一種理論上非常成熟的分類算法,但是KNN分類算法在遇到數據集規模較大或者維數較多的時候,會陷入維度災難的情況,造成KNN模型的計算開銷增大、分類效率降低。針對這一問題,許多專家學者提出在KNN算法運行之前預處理數據集,期望緩解這一問題,例如張著英等[3]將數據集用粗糙集進行預先處理,得到簡約屬性之后的數據集,然后用KNN處理以提高分類效率。張孝飛等[4]通過降低待分類對象與K個最近鄰對象的相似性度量的計算量來提高分類效率。余鷹等[5]利用變精度粗糙集處理數據集,計算新樣本集的歸屬區域,降低分類的代價,提高分類的效率。而在對數據集進行屬性簡約時,如何對原始特征集進行判斷,得到最優的評估子集,在不降低分類精確度的前提下,利用這些評估子集更快的得到分類結果,這也是目前研究的一個熱點,像陳珠英等[6]應用線性回歸在2型糖尿病患者中剖析丙酮的影響因素,經由相關系數判別各個因變量對丙酮濃度的影響強弱。
此外,KNN分類算法通常采用歐式距離來計算訓練集與待測樣本集之間的關系,但不同特征量對分類結果準確性影響是不同的。……