摘要:提出一種新型的基于光滑Ramp損失函數(shù)的健壯支持向量機(jī),能夠有效抑制孤立點(diǎn)對(duì)泛化性能的影響,并采用CCCP將它的非凸優(yōu)化目標(biāo)函數(shù)轉(zhuǎn)換成連續(xù)、二次可微的凸優(yōu)化。在此基礎(chǔ)上,給出訓(xùn)練健壯支持向量機(jī)的一種Newton型算法并且分析了算法的收斂性質(zhì)。實(shí)驗(yàn)結(jié)果表明,提出的健壯支持向量機(jī)對(duì)孤立點(diǎn)不敏感,在各種數(shù)據(jù)集上均獲得了比傳統(tǒng)的SVMlight算法和Newton-Primal算法更優(yōu)的泛化能力。
關(guān)鍵詞:支持向量機(jī); 光滑Ramp損失函數(shù); 原始空間; 凹凸過程
中圖分類號(hào):TP18文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2008)06-1676-03
支持向量機(jī)是現(xiàn)代機(jī)器學(xué)習(xí)理論的最新研究進(jìn)展之一,具有泛化能力強(qiáng)、維數(shù)不敏感等特點(diǎn),已經(jīng)在模式識(shí)別和回歸分析等領(lǐng)域表現(xiàn)出優(yōu)異的性能[1]。迄今為止,理論界已經(jīng)針對(duì)SVMs的對(duì)偶優(yōu)化和原始優(yōu)化問題提出了多種有效的求解方法,如SVMlight算法[2]和Newton-Primal算法[3]等。然而,軟間隔SVMs對(duì)訓(xùn)練樣本中的孤立點(diǎn)非常敏感,本質(zhì)原因是采用L1損失函數(shù)時(shí)孤立點(diǎn)所產(chǎn)生的間隔損失最大,從而在確定SVMs的決策超平面位置時(shí)所起到的作用也最大。因此,SVMs的泛化性能必然受到它們的影響而降低。近年來,更為健壯的Ramp損失函數(shù)受到了廣泛的研究[4,5]。該函數(shù)明確限制孤立點(diǎn)所能造成的最大損失,直接抑制它們對(duì)決策超平面的影響。但是,Ramp損失函數(shù)同時(shí)也導(dǎo)致了優(yōu)化目標(biāo)的非凸性,使得大多數(shù)傳統(tǒng)的凸優(yōu)化方法不能直接用于求解SVMs[6]。
1健壯支持向量機(jī)
實(shí)際上,上述UCI數(shù)據(jù)集中由于普遍存在類別重疊,因而固有地包含一些誤分類樣本(圖1中的z≤1的樣本),任何分類算法都不能將它們完全正確地分類。鑒于許多誤分類樣本存在于圖1中的B3區(qū)域,它們對(duì)決策超平面具有同孤立點(diǎn)類似的負(fù)面影響。這樣,由于Hinge損失對(duì)孤立點(diǎn)敏感,使得Newton-Primal和SVMlight算法的泛化誤差率較高。相反,本文提出的健壯支持向量機(jī)方法采用了不敏感的光滑Ramp損失函數(shù),能夠抑制孤立點(diǎn)對(duì)決策超平面的影響,因而獲得了更低的泛化誤差率。
4結(jié)束語
本文提出一種光滑Ramp損失函數(shù),并將其應(yīng)用到SVMs的原始優(yōu)化問題,得到了新型的對(duì)孤立點(diǎn)樣本的不敏感的健壯支持向量機(jī);通過CCCP過程[7]克服新優(yōu)化目標(biāo)的非凸性,獲得它的連續(xù)、二次可微的凸優(yōu)化形式;給出一種Newton型算法對(duì)其進(jìn)行求解并且分析了算法的收斂性質(zhì)。基于多個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,提出的健壯支持向量機(jī)方法對(duì)孤立點(diǎn)樣本不敏感并且獲得了更優(yōu)的泛化性能。
參考文獻(xiàn):
[1] VAPNIK V N. 統(tǒng)計(jì)學(xué)習(xí)理論的本質(zhì)[M]. 張學(xué)工,譯.北京:清華大學(xué)出版社,2000.
[2]JOACHIMS T. Making large-scale SVM learning practical[C]//SCHOLKOPF B,BURGES C,SMOLA A.Advances in Kernel Methods:Support Vector Learning. Cambridge: MIT Press,1999:169-184.
[3]CHAPELLE A. Training a support vector machine in the primal,TR-147[R].[S.l.]:Max Planck Institute, 2006.
[4]KRAUSE N, SINGER Y. Leveraging the margin more carefully[C]//Proc of the 21st International Conference on Machine Lear-ning. New York: ACM Press, 2004.
[5]MASON L, BARTLETT P L, BAXTER J. Improved generalization through explicit optimization of margins[J]. Machine Learning, 2000,38(3):243-255.
[6]XU L, CRAMMER K, SCHUURMANS D. Robust support vector machine training via convex outlier ablation[C]//Proc of the 21st National Conference on Artificial Intelligence. Boston:[s.n.],2006.
[7]YUILLE A L, RANGARAJAN A. The concave-convex procedure (CCCP)[J].Neural Computation,2003,15(4):915-936.
[8]KIMELDORF G S, WAHBA A. A correspondence between Bayesian estimation on stochastic processes and smoothing by splines[J]. Annals of Mathematical Statistics,1970,41(5):495-502.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文