吳 青, 王彥彥, 薛 飛
(1.西安郵電大學 自動化學院,陜西 西安 710061;2.西安郵電大學 通信與信息工程學院,陜西 西安 710061)
?
光滑分段孿生支持向量機*
吳青1, 王彥彥2, 薛飛2
(1.西安郵電大學 自動化學院,陜西 西安 710061;2.西安郵電大學 通信與信息工程學院,陜西 西安 710061)
為了解決Sigmoid的積分函數對正號函數的逼近精度低的問題,引入一種具有更強逼近正號函數能力的光滑函數即分段函數,提出了光滑分段孿生支持向量機,并用快速Newton-Armijo算法對其求解。在NDC和UCI數據集上的實驗結果表明:光滑分段孿生支持向量機能夠有效地處理大規模和高維度數據,且分類精度和分類速度與光滑孿生支持向量機相比得到了改進。
光滑孿生支持向量機; 光滑分段函數; Newton-Armijo算法
孿生支持向量機(twin suppor vector machine,TWSVM)[1]是2007年在廣義特征近似支持向量機(GEPSVM)[2]思想基礎上提出來的。如果只考慮二類問題,TWSVM目的是要尋找兩個非平行超平面。這兩個超平面能夠很好地把兩類樣本分開,其中一類樣本要盡可能在本類超平面的周圍,同時要盡可能遠離他類的超平面。標準支持向量機(SVM[3])解決一個較大二凸次規劃問題(QPPs),其約束條件是為了讓兩類樣本盡可能分布在超平面的兩側。而TWSVM解決兩個較小的QPPs,每一個QPPs在形式上與標準SVM相似,但相對應的約束條件卻是為了保證他類樣本盡可能遠離本類超平面。TWSVM現已被應用到說話人識別[4]、醫學檢測[5,6]等領域。但是由于TWSVM的目標函數中存在不光滑項,只能在對偶空間上求解兩個小QPPs。這種求解方法對于樣本數目較大的問題將受到時間和內存的制約。2008年,Kumar M A等人引入正號函數并利用Sigmoid的積分函數作為光滑函數逼近正號函數,提出了光滑TWSVM(STWSVM)[7,8]。但是由Sigmoid的積分函數對正號函數的逼近精度低導致了分類精度不太理想。
本文引入分段函數[9]對TWSVM中的不光滑項逼近,提出了光滑分段孿生支持向量機模型(SPTWSVM)。理論上證明了SPTWSVM具有嚴凸性、二階光滑和全局收斂的性能。最后使用快速牛頓Armijo[10,11]算法優化其模型。
本文采用的分段光滑函數φ(x,k)來逼近正號函數x+,φ(x,k)的形式為
(1)
式中光滑參數k>0。
性質1已知光滑分段函數函數φ(x,k)和正號函數x+,則有


用光滑分段函數來逼近正號函數得到光滑分段孿生支持向量機的模型為


(2)


(3)
式中矩陣A和矩陣B分別為+1類和-1類樣本。φ1(w(1),b(1),k)和φ2(w(2),b(2),k)是分段函數。
定理1對任意的w(1)∈Rn,w(2)∈Rn,b(1)∈Rn,b(2)∈R,k>0,ψ1(w(1),b(1),k)和ψ2(w(2),n(2),k)是連續可微且嚴格凸的。
證明:由性質1可知ψ1(w(1),b(1),k)是連續且可微的。由于‖·‖2是嚴格凸函數。所以定理1得證。


為了驗證SPTWSVM能夠有效地處理大規模高維的數據,表1和表2分別從線性和非線性兩種情況在NDC數據集[12]上進行實驗。本文設定SPTWSVM ,STWSVM的線性情況下的懲罰參數c1=c2=1,非線性情況下懲罰參數c1=c2=100,高斯核函數的參數δ=0.25。由表1和表2可以看出:當訓練樣本達到100 000時,TWSVM算法由于運行時間過長已經失效了。然而SPTWSVM可以在較短的時間內得到較高的分類正確率。
表中的‘k’表示1 000個樣本。‘-’表示時間過長,結果無效。為了進一步證明SPTWSVM的分類性能。又將TWSVM,STWSVM,SPTWSVM在UCI數據庫上進行實驗。表3和表4分別是線性情況和非線性情況下的實驗結果,其中,線性情況下的懲罰參數c1=c2=1,非線性情況下懲罰參數c1=c2=100,高斯核函數的參數δ=0.25。表3和表4的結果表明,SPTWSVM可以在較短的時間內達到較高的分類精度。

表1 線性算法對NDC數據集的測試結果

表2 非線性算法對NDC數據集的測試結果

表3 線性算法對UCI數據集的實驗結果

表4 非線性算法對UCI數據集的實驗結果
本文引入分段函數逼近孿生光滑支持向量機模型中的不可微項,提出了光滑分段孿生支持向量機,并用快速Newton-Armijo算法求解SPTWSVM模型。SPTWSVM與STWSVM相比,在分類精度和時間上都有所提高。但是兩者都沒有考慮到噪聲和野點對其分類超平面的影響,仍然有錯分的情況存在。所以,接下來的工作就是在把光滑技術應用到TWSVM的同時考慮模糊技術是不是也可以應用到其中。
[1]Jayadeva Khemchandni R,Chandra S.Twin support vector machines for pattern classification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(5):905-910.
[2]Mangasarian O L.Wild E W.Multi-surface proximal support vector machine classification via generalized eigenvalues[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2006,28(1):69-74.
[3]Vapnik V.The nature of statistical learning theory[M].New York:Springer,2000.
[4]Cong Hanhan,Yang Chengfu,Pu Xiaorong.Efficient speaker recognition based on multi-class twin support vector machines and GMMs[C]∥IEEE Conference on Robotics,Automation and Mechatronics,2008:348-352.
[5]Zhang Xinsheng,Gao Xiaobo,Wang Ying.Twin support tensor machine for MCS detection[J].Journal of Electronics,2009,26(3):318-325.
[6]Zhang Xinsheng,Gao Xiaobo.MCS detection approach using bagging and boosting based twin support vectoe machine[C]∥Proc of the 2009 IEEE Int’l Conf on System,Man,and Cybernetics,Piscataway:IEEE,2009:5000-5005.
[7]Lee Y J,Mangasarian O L.SSVM:A smooth support vector machine for classification[J].Computationl Optimization and Application,2001,22(1):5-21.
[8]Kumar M A,Gopal M.Application of smoothing technique on twin support vector machines[J].Pattern Recognition Letters,2008,29(13):1842-1848.
[9]Wu Qing.Piecewise-smooth support vector machine for classification [J].Mathematical Problems in Engineering,2013(3):2-9.
[10] 李廣明,劉群鋒.光滑支持向量機兩種求解算法的比較[J].計算機應用,2009,29(6):1612-1614.
[11] 吳青,趙雄.一類新樣條光滑支持向量機[J].西安郵電大學,2013,18(6):68-74.
[12] Huang Hanpang,Liu Yihung.Fuzzy support vector machines for pattern recognition and data mining[J].Int’Journal of Fuzzy Systems,2002,4(3):826-835.
Smooth piecewise twin support vector machine*
WU Qing1, WANG Yan-yan2, XUE Fei2
(1.School of Automation,Xi’an University of Posts and Telecommunications,Xi’an 710061,China; 2.School of Communication and Information Engineering,Xi’an University of Posts and Telecommunications,Xi’an 710061, China)
To solve the problem of low approximation precision of integral function of sigmoid function,a piecewise function is introduced,which has stronger ability of smooth function of smooth piecewise function to approximate plus function. Smooth piecewise twin support vector machine(SVM)is proposed.Meanwhile,the fast Newton-Armijo algorithm is used to solved the smooth piecewise twin SVM.Experimental results on NDC and UCI datasets show that smooth piecewise twin SVM can effectively deal with large-scale and high-dimensional data,and classification precision and classification speed of smooth piecewise twin SVM are improved than smooth twin SVM.
smooth twin support vector machine(STWSVM); smooth piecewise function; Newton-Armijo algorithm
10.13873/J.1000—9787(2016)09—0130—03
2015—11—24
國家自然科學基金資助項目(61100165);陜西省自然科學基金資助項目(2014JM8313);陜西省教育廳科學研究計劃資助項目(2013JK1023)
TP 18
A
1000—9787(2016)09—0130—03
吳青(1975-),女,山東臨沂人,博士,副教授,從事機器學習研究。