摘 要:現實生活中普遍存在冗余屬性數據集,傳統的支持向量機(SVM)集成分類方法需要耗費更多的時間進行運算,而且分類性能不夠理想。針對傳統支持向量機集成算法的不足,本文提出了一種基于主成分分析的SVM集成算法,該算法首先使用主成分分析進行主成分提取,去除冗余屬性。然后在精簡后的數據集上進行SVM集成學習。在部分UCI標準數據集上的實驗說明本文算法可以有效地提高分類算法的性能。
關鍵詞:支持向量機;集成分類;主成分分析;冗余屬性
中圖分類號:TP391 文獻標識碼:A 文章編號:1674-7712 (2014) 12-0000-02
模式識別[1]是建立在對識別特征進行有效提取的前提上,然而通常很難清楚地知道導致模式類別差異的決定性的屬性特征,所以一般需要采集盡可能多的特征屬性來進行分類。這就導致了數據集合中往往含有很多冗余屬性。例如,對于一個128×128的圖片,通常我們將圖片拉伸成為一個16384維的向量。冗余屬性數據集在現實世界中發生的非常普遍,所以對屬性進行約簡就成為了一個必要的數據預處理步驟。約簡操作既提高了數據的代表性,減少了噪聲的干擾,有是的訓練數據得到了極大地減少,降低了分類算法的計算復雜度。
傳統的支持向量機[2]集成學習算法一方面需要花費較多的時間來進行訓練,另一方面由于冗余屬性的存在影響了傳統的支持向量機集成學習的檢測性能。針對這種不足,本文提出了一種主成分分析[3]支持向量機集成算法。本文組織如下:本文第2節對主成分分析算法和SVM集成算法[4,5]進行了闡述。第3節提出了一種主成分分析的SVM集成學習算法。第4節給出了所提算法在UCI標準數據集上的應用。第5節總結全文。
一、主成分分析算法介紹
主成分分析是一種經典的冗余屬性去除算法,可有效地去除原始屬性中的冗余信息,使得處理后的屬性集合不存在相關性。
從表1可以看出,相對于標準支持向量機集成算法,本文提出的基于主成分分析的支持向量機集成算法具有更高的分類精度和效率。這主要是基于主成分分析的支持向量機集成算法去除掉了訓練集中的冗余屬性,能夠更好的避免分類器陷入過擬合,因此分類精度有所提高;而且由于利用主成分分析對原始訓練集進行了壓縮,因此分類效率變高。
四、結束語
冗余屬性數據集上的分類是一類較難處理的模式分類問題,具有很高的研究價值。傳統的支持向量機集成分類方法對于冗余屬性數據集的學習效果不夠理想。為進一步提高冗余屬性數據集上支持向量機集成算法的分類性能,本文提出了一種主成分分析的支持向量機集成學習算法。該方法通過主成分分析有效地去除了數據集中的冗余屬性,提高了支持向量機集成算法的運算速度和分類精度。在部分UCI標準數據集上的仿真實驗有效地驗證了本文算法具有較高的分類性能和較快的運行速度。
參考文獻:
[1]Duda R O,Hart P E,Stork D G.Pattern classification,Wiley,second edition edition,2001.
[2]鄧乃揚,田英杰.數據挖掘中的新方法:支持向量機[M].北京:科學出版社,2004.
[3]Han J W,Kamber M.Data Mining Concepts and Techniques[M].范明,譯.北京:機械工業出版社,2001:257-259.
[4]王正群,陳世福,陳兆乾.并行學習神經網絡集成方法[J].計算機學報,2005(03):402-407.
[5]Valiant L G.A theory of the learnable[J].Communications of the ACM,1984(11):1134-1142.
[6]Hsu CW,Lin CJ.A comparison on methods for multi-class support vector machines.IEEE Transactions on Neural Networks,2001(02):415-425.
[7]Kohavi R.A study of cross-validation and bootstrap for accuracy estimation and model selection.In:Wermter S,Riloff E,Scheler G,eds.Proc.14th Joint Int.Conf.Artificial Intelligence.San Mateo,CA:Morgan Kaufmann,1995:1137-1145.
[作者簡介]朱孟杰,濟寧醫學院,碩士,助理實驗師,研究方向:數據挖掘。