潘興廣 牛志忠 張明貴
關鍵詞:Scikit-learn;支持向量;回歸分析
中圖分類號:TP18 ? ? 文獻標識碼:A 文章編號:2096-4706(2019)06-0009-03
Keywords:Scikit-learn;support vector;regression analysis
0 ?引 ?言
支持向量回歸(Support Vector Regression,SVR)是AT&T BELL實驗室的Vapanik提出的基于結構風險最小化原理的統計學習理論。它的基本思想是讓維數(泛化誤差)的上限最小化,從而使經驗風險最小化,最終使訓練數據的誤差最小化[1]。支持向量回歸是一種新的機器學習方法,它是基于統計學習理論和優化理論發展起來的,它利用結構風險最小化原則,把問題表述為一個二次凸規劃及其對偶問題來簡化問題,并且這個凸規劃問題的解是全局最優解。通過構造損失函數和選取適當的正則參數來處理回歸問題,利用核函數把非線性問題轉化為在高維特征空間求解線性問題。
支持向量回歸(SVR)是一種廣泛使用的回歸技術。與SVC類似,SVR也使用核函數將數據映射到高維空間,它將數據映射到更高維空間[2,3]。SVR引入核函數后,使其具有處理非線性問題的能力。但使用核函數帶來了時間復雜度高的問題,雖然Joachims和Plattet等提出了有效的訓練方法,但在大規模數據集上使用核函數做回歸仍是個懸而未決的問題。
目前已經有很多研究領域證明了SVR具有十分可觀的應用前景,但是基于SVR的回歸預測結果仍然有很大的提升空間,還可以對SVR進行改進,使算法的性能有較大的提升。國外對SVR算法的改進已經做了很多工作,提出了一新改時算法。但國內對于SVR的研究還是局限于應用創新,缺乏理論創新。因此,SVR在國內外還有很大的研究空間,以后的工作中應加快理論方面的研究。
1 ?支持向量回歸技術
三個模型在Boston數據集的擬合性能如表3所示,可以發現,在SVR中使用不同的核函數,它們在Boston、breast cancer和iris三個數據集上的擬合性能是不一樣的。RBF核的SVR擬合性能最好,多項式核的SVR的性能次之,線性核的性能較差。
因此,在實際應用中,應該考慮選擇RBF核的SVR,把數據映射到高維的特征空間,然后再做回歸分析,這樣可以得到較好的擬合效果。
5 ?結 ?論
支持向量回歸機(Support Vector Regression,SVR)是一種非常有效的回歸學習方法,具有很好的數據擬合性能,可以針對不同的應用場景,選擇不同的核函數,可以得到較理想的擬合效果。隨著數據挖掘和數據分析技術的發展,SVR在未來一定有很好的應用前景。
參考文獻:
[1] 吳煒編.基于學習的圖像增強技術 [M].西安:西安電子科技大學出版社,2013.
[2] 王方成.混合型參數的支持向量回歸機建模及優化研究 [D].河南:鄭州大學,2018.
[3] (美)Nello Cristianini,John Shawe-Taylor.支持向量機導論(第1版) [M].北京:電子工業出版社,2004.
[4] http://archive.ics.uci.edu/ml/index.php,UCI data set.
作者簡介:潘興廣(1979.11-),男,苗族,貴州黃平人,實
驗師,碩士,研究方向:機器學習、數據挖掘;牛志忠(1897.11-),
男,漢族,江蘇淮安人,助教,碩士,研究方向:模式識別、人工智
能;張明貴(1986.11-),男,穿青人,貴州織金人,講師,碩士,研究方向:圖像處理,數據挖掘。