胡瀚
摘要: 購物網站在線評論系統收集了大量的顧客評價。支持向量機(SVM)是一種有效的文本分類方法,可以用于跟蹤和管理顧客意見,但是SVM存在訓練收斂速度慢,分類精度難以提高等缺點。文章提出利用異質核函數性的不同特性,解決支持向量機(SVM)數據泛化學習能力弱的問題,提高SVM的分類精度,通過對顧客購物評論進行分類,解決購物網站海量顧客評論分析的問題,幫助企業及時進行顧客反饋,提升服務水平。
關鍵詞: 網絡購物評論; 文本分類; SVM; 多核學習
中圖分類號:F406.2文獻標識碼:A 文章編號:1006-8228(2012)04-43-03
A classification method of online reviews based on MKL-SVM
Hu Han
(Dujiangyan north street elementary school experiment foreign language school, Dujiangyan, Sichuan 610054, China)
Abstract: An online shopping website accumulates a large number of customer reviews for goods and enterprise services. Support Vector Machine (SVM) is an efficient classification method and can be used to track and manage customer reviews. But SVM has some weaknesses, for example, its slow speed of training convergence and uneasy raise of classification accuracy. The author presents the use of heterogeneous nuclear function of different characteristics, which may resolve SVMs problem of weak generalization ability to learn and improve SVM classification accuracy. Through classification of online customer reviews, shopping sites may resolve the issues of critical analysis of mass data, and effectively help enterprises to improve service levels.
Key words: customer review; text classification; SVM; multiple kernel learning
0 引言
購物網站都建立有顧客評論系統,收集顧客對于商品及網站服務的體驗感受。由于購物評論表達形式繁雜、內容隨意、句型多樣,給企業有效跟蹤和管理用戶評論意見,帶來了很大的難度。
文本分類(text categorization)應用分類函數或分類模型,把文本映射到多個類別中的某一類,使檢索或查詢的速度更快,準確率更高。文本分類在自然語言處理與理解、信息組織與管理、內容信息過濾等領域有著廣泛的應用。主要分類方法有:貝葉斯、決策樹、支持向量機(Support Vector Machines, SVM)、神經網絡、遺傳算法等。其中SVM通過分隔面模式擺脫了樣本分布、冗余特征以及過度擬合等因素的影響,具有很好的泛化學習能力[1]。但是SVM存在訓練收斂速度慢,分類精度難以提高等缺點。
核函數是SVM解決非線性問題的方法,受限于單個核函數性能,使得SVM泛化學習能力有限,分類精度難以提升。多核學習(Multiple Kernel Learning,MKL)利用對同質(homogeneous)或異質(heterogeneous)核函數優化整合,提高了SVM的學習能力和泛化性能。在處理大量異質數據時,MKL具有很好的靈活性,且分類結果更清晰,便于解決現實應用問題[2],但MKL涉及較多的相關參數的優化。對MKL研究目前主要集中在圖像識別領域[3,4]。本文通過校準算法確定MKL異質核函數的優化權系數和核參數,建立基于多核學習的支持向量機(Multiple Kernel Learning SVM, MKL-SVM)文本分類模型,提升SVM在評論分類中的應用效果。
1 MKL-SVM方法描述
1.1 SVM核函數
SVM是基于統計學理論中的結構風險最小化原理,具有高泛化性能的通用學習機。設分割面,樣本集線性可分時,SVM通過一個分割超平面,把訓練樣本點分類,使兩類訓練點到分割面的最小距離之和分類間隔(margin)最大[5]。分類間隔margin=2/||ω||,使間隔最大等價于使||ω||2最小。最優分類面的求解可以轉化為優化問題:
s.t.
利用Lagrange優化可將上述問題轉為其對偶問題:求解下列函數:
max:
s.t.和。
最優分類函數是
。
上述式中a:為Lagrange非負乘子
將低維的輸入空間數據通過非線性映射函數映射到高維屬性空間,輸入空間線性不可分問題在屬性空間將轉化為線性可分問題。這種非線性映射函數稱之為核函數[6]。設x在χ對應一個映射到高緯空間,φ(x)為核映射函數,K核函數為,,SVM尋找的超平面胃。此時目標函數變為:
而
考慮最大分割和訓練誤差,優化公式為:
s.t.
1.2 多核學習
設函數集合M由多個核函數K1…Km組成,核函數對應的映射函數是φ1…φM。MKL[7]公式:
s.t.
其中ωk表示φk在整個學習機中的權重。
其中0
1.3 MKL-SVM及優化參數計算
MKL-SVM核函數的選擇取決于對數據處理的要求。具有全局性的核函數和局部性的核函數的分類性能互補,可以使用不同核函數組成多核核函數[8],但是如果MKL異質核函數種類過多,會使SVM訓練過于復雜。因此,本研究選用M=2,核函數選擇了:Gaussian徑向基核函數RBF (Radial Basis Function)。局部核函數具有較好的學習能力,而泛化推廣能力較弱。多項式核函數(Polynomial Function, PF)是一個全局性核函數,具有較好的泛化推廣能力,而學習能力則要弱些。Sigmoid核函數在神經網絡的應用中,具有良好的全局分類性能。對有下面2種實現形式:
MKL-SVM計算中核參數σ、d、β0、β需要尋找合適的值使得SVM測試錯誤率最小。權系數λ對MKL-SVM起著關鍵作用也需要進行尋優。核參數和權系數的確定是MKL-SVM非常重要的環節。本文利用核函數之間的關系等價于核矩陣之間的關系,結合交叉驗證技術LOO和核校準(kernelalignment)[9],建立如下優化求解步驟:
①,表示兩個核矩陣之間的內積。
核校準度量k1與k2在樣本集S上的差異。核校準是一個標量值,體現了不同核函數之間的差異關系。
② 對k1,k2使用LOO方法,求出核參數,使達到最大的核參數。
③ 定義函數
④ 構造一個權參數λ和乘子αi的拉格朗日方程,構造二次規劃子問題:
⑤ 重復步驟④直到誤差最小,算法收斂到最優的λ值。
2 實例分析
2.1 評估標準和分類維度
表1購物評論分類維度
[[評論對象&編號&維度&解釋&售前服務&A1&購買咨詢&是否提供在線問答解決顧客疑問&A2&信息提供全面性&網站商品信息是否滿足顧客需求&商品&B1&定價&價格浮動給顧客帶來的影響&B2&商品特征&對商品使用感受&網站服務&C1&支付方式&網站方便、種類多、安全&C2&內部配貨、調貨&企業內部訂單處理速度&C3&信息溝通&及時傳遞商品處理信息給顧客&物流服務&D1&及時性&物流時間是否合理&D2&態度&快遞服務、送貨上門態度&D3&質量&外包裝磨損、安全&售后服務&E1&換、退貨&問題商品的處理&]]
對于需要分類的n個狀態,我們以ce表示對第i個狀態分類出的正確信息個數,te表示沒有分類出的正確信息個數,fe為錯誤信息個數。以精確度P(Precision)表示系統正確分類信息占所有分類信息的比例,;召回率R(Recall)表示系統分類出的正確信息占所有可能正確信息的比例,。評論模型性能需要同時考慮P和R,為此引入,其中β是P和R的相對權重,決定對P側重還是對R側重,通常設定為1。F值越大,說明分類性能越好。
圍繞購物網站服務流程,本研究結合顧客購物評論中的常見主題,總結出了評論的分類維度(表1)。
2.2 方法評估與應用
本文從卓越亞馬遜、當當網等購物網站,下載了不同商品的3000條購物評論。隨機抽取2000條作為訓練集,其余作為測試集,對比幾種方法F值。從圖1可以看出,單核SVM中Gaussian RBF優于Polynomial;而MKL-GP和MKL-GS分類性能都優于單核SVM。其中MKL-GP效果好于MKL-SG,這是由于Sigmoid函數在某些特定條件下,才滿足核函數對稱、半正定的要求,因此影響了其分類的性能。
圖1不同方法分類F值
表2數據集實驗結果
[[樣本量&Polynomial
SVM (F值)&Gaussian RBF
SVM(F值)&MKL-GS
SVM(F值)&MKL-GP
SVM(F值)&300&0.6573&0.6639&0.5081&0.6047&600&0.6894&0.7429&0.7026&0.7493&1000&0.7047&0.7579&0.8081&0.8169&2000&0.7715&0.8040&0.8559&0.8621&3000&0.7745&0.8037&0.8551&0.8676&]]
本文使用不同的樣本量對兩種算法進行對比,其中F值使用均值。從表2可以看出,在樣本量不夠大時,MKL-GS受Sigmoid函數特性影響性能較差;隨著樣本數量的增加,MKL優勢逐漸明顯,表現出優于單核SVM的分類性能;樣本量到2000之后,SVM分類性能的提升就不明顯,有待更進一步優化。
3 結束語
網絡購物評論分析需要多種技術的結合。MKL-SVM方法通過集成學習發揮異質核函數不同特性,實現了購物評論分類性能的提升。本文所做的工作僅僅是購物評論分析的第一步,還需要結合文本挖掘、情感分析、營銷分析等方法,才能幫助企業掌握消費者的感受,給予更多智能化的決策建議。網絡上存在各類評論、新聞、博客、微博,對這些文本的分類分析,只要通過優選核函數以及相關參數,可以參照MKL-SVM方法獲取更好的分類性能。
參考文獻:
[1] 蘇金樹,張博鋒,徐昕.基于機器學習的文本分類技術研究進展[J].軟件學報,2006.17(9):1848~1859
[2] F. R. Bach, G. R. G. Lanckriet, M. I. Jordan. Multiple kernel learning, conic duality, and the SMO algorithm[C]. Process 21st International Conference Machine Learn, 2004:6~14
[3] S. Sonnenburg, G. Ratsch, C. Schafer. Large scale multiple kernel learning [J]. Machine Learning Research, 2006.7(12):1531~1565
[4] Koji Tsuda, Gunnar R?tsch, et al. learning to predict the leave one out error of kernel based classifiers [J].Process International Conference Artificial Neural Networks.2001.21(3):331~338
[5] Smits, G.F., Jordaan, E.M. Improved SVM regression using mixtures of kernels Neural Networks[C]. Proceedings of the 2002 International Joint Conference,2002.5:2785~2790
[6] A. Rakotomamonjy, F. Bach, S. Canu, Y. Grandvalet, More efficiency in multiple-kernel learning[C]. Proc. 24th Int. Conf. Mach. Learn., Corvallis.2007.6:775~782
[7] Mingqing Hu, Yiqiang Chen, James Tin-Yau Kwok. Building Sparse Multiple-Kernel SVM Classifiers [J].IEEE TRANSACTIONS ON NEURAL NETWORKS. 2009.20(5):1~12
[8] 劉向東,駱斌,陳兆乾.支持向量機最優模型選擇的研究[J].計算機研究與發展,2005.42(4):576~581
[9] N. Cristianini, J. Shawe-Taylor, J. Kandola. On kernel target alignment [C].Neural Information Processing Systems Cambridge, 2002:367~373