魏廣順, 吳開超
?
基于詞向量模型的情感分析①
魏廣順1,2, 吳開超2
1(中國科學院大學, 北京100049)2(中國科學院計算機網絡信息中心, 北京100190)
隨著移動互聯網的發展, 以商品評論等帶有主觀性的短文本信息急劇增加. 海量的文本信息使得人工管理越來越困難. 本文以商品評論為研究對象進行情感分析. 針對商品評論為短文本的特點, 本文在詞向量的基礎上提出了詞向量疊加方法和加權詞向量方法進行文本特征的提取, 從而更深層次的提取短文本特征. 在進行評論情感分析模型性能的比較中, 說明了本文所提方法的有效性. 基于情感分析技術可以解決人工難以勝任的海量商品評論的分類, 方便用戶快速獲取有效信息.
情感分析; 加權詞向量; 商品評論; 短文本
隨著互聯網的快速發展, 推動了像淘寶、亞馬遜、京東等電子商務網站的發展. 這些購物網站特別強調用戶的參與, 為用戶發表自己對商品的評價提供了在線評論機制. 這些評論不僅為廠家和商家提供了傳統交易中難以獲取的反饋信息, 而且影響著后續消費者的購買行為. 但是隨著商品評價信息數量的快速增長, 使得人工判斷這些雜亂無章的評論信息的主觀情感傾向性越來越困難. 因此, 構建一個自動的商品評論文本的情感傾向性分類系統為消費者和商家提供在線評論的傾向性分析是很有必要的.
情感分析也稱為觀點挖掘、意見挖掘等, 是指通過分析文本中的統計和語義等信息, 挖掘出文本中所蘊含的情感傾向, 如消極、積極、中立等. 情感分析作為自然語言處理中的一個重要分支, 在越來越多的領域被應用, 如: 輿論監督、市場反饋、品牌營銷、信息檢索等. 按照處理文本的粒度可以將情感分析分為詞語級、短語級、句子級、篇章級和多篇章級等[1]. 通過情感分析可以為用戶決策提供依據. 情感分析方法主要分為基于語義的方法和基于機器學習的方法[2]. 本文主要研究商品評論的情感分析, 屬于基于篇章級的研究. 通過情感分析方法構建情感分類系統, 可以實時的對用戶評論進行分類, 為解決網上雜亂無章的文本信息提供了一種有效的方法.
商品評論作為一種用戶反饋信息通常較短, 屬于短文本. 短文本是指文本長度較短, 一般不超過100個字符[3]. 商品評論與其他文本信息(如新聞等)相比有其獨有的特點: 表達不規范; 網絡用語較多; 內容較短等. 商品評論作為一種消費者對購買物品的評價, 帶有明顯的主觀性情感傾向. 如“物流快, 服質優, 商品人性化定造, 設計美觀大方, 尺碼合適, 非常滿意!”, 這條商品評論帶有用戶對所購買商品的的主觀情感傾向. 這就為情感分析研究提供了可能性.
本文主要結構如下: 第一部分介紹情感分析領域的相關工作; 第二部分主要介紹基于詞向量模型的文本特征提取方法; 第三部分實驗結果對比分析; 最后對本文工作進行總結.
情感分析方法主要分為兩種: 基于語義的方法和基于機器學習的方法. 基于語義的方法主要是通過情感詞典, 計算文本的情感值來進行確定文本的情感傾向[4]; 基于機器學習的方法主要是通過提取文本中的特征, 利用機器學習中的分類算法通過一定規模的樣本訓練來構建模型, 從而預測新文本的情感傾向[5,6].
基于語義的方法可以充分利用人工構建的情感詞典, 這些情感詞典中的詞往往是那些能夠明確反應人的情感傾向的詞. 但是情感詞典不可能包括所有的情感詞, 而且網絡用語多樣化使得情感詞典的構建難度增加. 基于機器學習的方法是通過機器學習算法學習給定訓練集的特征來構建模型. 一般在文本分類中常見的機器學習算法包括決策樹、KNN、Logistic回歸、支撐向量機(SVM)等. 在實際研究和實驗中支撐向量機(SVM)被證明在情感分析中相對于其他方法具有更優的效果[7].
基于機器學的情感分析方法是一種統計學習方法, 需要對文本進行向量化, 從而更好的利用機器學習算法. 傳統的向量空間模型(VSM)[8]是將文本看作一組詞組成的序列, 通過有效的特征詞選取方法如文檔頻率、信息增益(IG)、卡方統計等, 選取適當數量(N)的特征詞. 這些特征詞組成一個維歐式空間, 每一篇文檔被以向量[1,2,···,]映射到這個維空間中. 其中表示文檔中第個特征詞在空間的第維坐標的權重值. 一般用TF-IDF作為權重. 一些傳統的情感分析研究都是基于VSM模型進行的研究[9]. 向量空間模型一般維數在幾千維甚至上萬維, 對于商品評論這種短文本會形成特征的稀疏性問題, 即在文本向量化后會出現特別多權值為0的維度.
為了解決商品評論在向量空間模型中特征稀疏性問題, 本文提出了基于詞向量模型[10]的特征提取方法. Bengio等提出了一種神經網絡語言模型NNLM(Neural Network Language Model)用于預測在給定上下文的情況下生成當前詞的概率[11]. 這個模型同時也成為了詞向量模型的基礎.
傳統的文本特征提取方法是基于向量空間模型的, 即將文本看作無序的詞組成的序列. 這種向量空間模型存在數據稀疏、丟失詞序信息的缺點. 為了解決向量空間模型的缺點, 出現了將詞法和句法等一些復雜的文本特征加入到文本特征提取中的方法. 隨著越來越多的特征加入, 使得基于機器學習的文本分析方法的性能得到極大的提升. 本文以詞向量為基礎, 將文本的特征表達引入到詞向量空間. 并在詞向量空間中對文本進行了多種方式的特征提取方法.
2.1Word2vec詞向量模型
Word2vec是2013年由Google開源的一款將詞表示為實數向量的高質量工具, 是Mikolov等所提出的詞向量模型的一種實現. Word2vec是一種無監督學習工具, 它以未進行人工標記的語料作為訓練集, 通過神經網絡將詞映射到一個K維歐式空間. 詞向量在K維歐式空間上的特征同時反應了詞之間的特征.
由于Word2vec學習的是語料中文本的語義關系, 這就要求用作訓練的語料要充分大, 從而保證詞向量的質量. 本文利用Word2Vec工具對2千萬條商品評論進行訓練, 最終得到一個500MB的詞向量模型. 詞向量在K維空間上的相似度, 同時反映了詞在文本中的相似度關系. 可以通過計算詞之間的相似度來說明此詞向量模型的有效性.

表1 “服務態度”最相似的5個詞及其相似度
由上表可以看出, 通過2千萬條商品評論訓練得到的詞向量模型可以充分保證其詞向量的質量.
2.2 詞向量疊加文本向量化方法
詞向量模型可以將每個詞表示為一個維的向量. 商品評論可以看作詞序列化的表示, 一種簡單的將商品評論向量化的方法是將詞向量進行拼接. 即將一個有個不同詞的商品評論表示為一個×維的向量. 這種方式的缺點是當取值很大時, 會得到一個維度特別高的向量, 造成維度災難; 每一條商品評論所含詞的個數也不相同, 這會造成商品評論向量化之后維度的不一致.
為了解決詞向量拼接方法的缺點, 本文首先提出將商品評論中詞的詞向量疊加來得到商品評論的向量化表示. 詞向量疊加后會得到一個維數與詞向量同維度的商品評論的實數化向量. 如評論“好吃, 便宜, 收銀員態度很好, 總體來說是很好”, 分詞后為[好吃, 便宜, 收銀員, 態度, 很好, 總體, 來說, 是, 很好]. 每個詞可以表示為一個維的向量, 將“好吃”、“便宜”等這些詞的詞向量進行疊加, 得到一個維的向量進行文本的向量化表達. 為了驗證詞向量疊加本文特征提取的有效性, 本文將其與傳統的空間向量模型的文本情感分析效果進行了比較.
2.3 加權詞向量文本向量化方法
TF-IDF是在信息檢索中的一個概念, 同時也被認為是信息檢索領域最重要的發明[12]. 在搜索、分類等領域都有著廣泛應用. TF即Term Frequency, 表示一個詞在一篇文檔中出現的頻率. IDF即Inverse Document Frequency, 表示的是在文本集中多少篇文檔包含該詞, 是詞的文檔頻率. TF-IDF值為TF與IDF的乘積. 其既充分考慮了詞在文檔中的出現頻率, 又充分考慮了詞在整個文檔集中的出現頻率, 是一種對詞在文本中的重要性比較綜合的度量.
每個詞在每條商品評論中的都有其重要性, 簡單的將詞向量相加將每個詞在商品評論中的重要性視為相同, 丟失了詞語重要性信息. 如評論“好吃, 便宜, 收銀員態度很好, 總體來說是很好”, 分詞后為[好吃, 便宜, 收銀員, 態度, 很好, 總體, 來說, 是, 很好]. “很好”無論是在語義上還是在其權重上都對情感分析應該起到最重要的作用, 當采用簡單的詞向量相加時, 這種明顯的特征詞就會被視為與其他詞一樣來進行處理.
本文選取TF-IDF作為詞在商品評論中的權重, 既充分考慮了詞在當前商品評論中的重要性, 又充分考慮了該詞在整個商品評論文檔集中的重要性, 在對評論文本向量化的過程中保留了其重要性信息.

圖1 商品評論加權詞向量流程圖
為了充分利用商品評論中對情感分析起到更大作用詞的信息, 本文進一步提出了一種加權詞向量的方法. 此方法充分利用詞在商品評論中的權重信息, 在將商品評論向量化的過程中, 將詞在文檔集中的TF-IDF值作為權重參與到向量化的過程中. 圖1給出了將一條商品評論進行加權詞向量表示的求法的流程圖. [word,word,···,word]表示一條商品評論分詞后的結果.W=[w,w,···,w]表示word在當前詞向量模型中的向量化表示.weight表示word在當前文檔集中的TF-IDF值.
2.4 情感分析模型
支撐向量機[13]的基本思想是將輸入空間中的輸入轉換到特征空間, 然后在特征空間中進行學習. 支撐向量機通過求解一個凸二次規劃問題, 即:

在特征空間中找到一個最優分類超平面: w·x+b=0.
使得分類間隔最大化, 將樣本分到不同的類別中.
SVM算法解決的是二值分類問題, 當需要進行多值分類的研究時要通過構建多個二值分類的SVM模型以投票的方式進行解決.
在文本分類中, 有大量的分類算法, 如KNN、Logistic回歸、決策樹等. 但在大量的實驗和研究中表明SVM在文本分類中較其他分類算法有更好的效果, 并且大量的文本分類研究都是以SVM為基礎[14-16]. 本文以SVM算法構建文本分類器, 從而比較本文所提評論文本特征提取方法較傳統空間向量模型的有效性. 圖2為基于詞向量模型的文本特征提取方法與線性支撐向量機算法構建分類器的流程圖.
2.3 心理護理 該患者由于術后反復出現惡心嘔吐癥狀,療程長。患者思想壓力大,情緒波動。作為醫護人員要特別做好心理護理進行多方位的心理疏導減輕患者的心理壓力。
算法偽代碼:
[1] 讀取人工標注的商品評論
[2] 文本預處理, 分詞、去除停用詞等
[3] 商品評論初始化向量=[]
[5] forwordin [word,word,···,word]
[6] ifword在詞向量模型中
[7] 取出word的詞向量W
[8] 計算word在文檔集中的tf_idf值weight
[9]=+weight*W

圖2 詞向量模型評論情感分析流程圖
上節中介紹了兩種文本特征提取方法:詞向量疊加方法、加權詞向量方法. 為了驗證本文所提特征方法在情感分析上的有效性, 本文分別將兩種特征提取方法與線性支撐向量機算法相結合, 構建情感分類系統, 并于傳統的空間向量模型進行兩個方面的比較:
計算量的分析和分類效果的比較.
3.1 計算量比較
本文使用20000條人工標注的商品評論作為實驗數據. 評論的平均長度為96個字. 在試驗中, 傳統向量模型使用8000維特征詞作為特征, 詞向量模型維數為300維. 當對樣本進行向量化后, 傳統空間向量模型得到文件的大小約為600MB, 而以詞向量為基礎的文本向量化方法得到的文件大小約為25MB. 顯然, 詞向量模型在數據文本數據向量化后可以有效的減少數據的維數, 從而在小數據量的情況下加快分類器的訓練速度. 模型訓練時間, 以詞向量為基礎的文本向量化方法模型訓練時間約為17秒, 而傳統空間向量模型的模型訓練時間約為510秒. 雖然在用大量無監督語料訓練詞向量時會耗費大量時間, 但是詞向量的訓練是一次性的工作, 在模型訓練和后期對新數據進行預測時一次性加載訓練好的詞向量模型即可. 因此本文比較分類器訓練時間時不考慮詞向量的訓練時間.
3.2分類效果比較
3.2.1模型評估參數
在模型評估中采用Precision、Recall和F1-Measure作為模型的評價指標. 以下為各評價指標的說明.

表2 混淆矩陣
TP表示在樣本中為正向, 被預測為正向的樣本數;
FP表示在樣本中為負向, 被預測為正向的樣本數;
FN表示在樣本中為正向, 被預測為負向的樣本數;
TN表示在樣本中為負向, 被預測為負向的樣本數.
兩種類別的召回率分別為:

兩種類別的準確率分別為:

兩種類別的F值分別為:

3.2.2分類結果
本文使用20000條人工標注的商品評論作為實驗數據. 其中1萬條好評, 1萬條差評, 分別從好評和差評商品評論中取出8000條評論作為訓練集, 2000條評論作為測試集, 進行模型訓練和模型評估. 模型評價指標采用Precision、Recall和F1-Measure. 表3為各模型的評估結果.

表3 實驗結果
實驗結果表明, 本文提出的以詞向量為基礎的文本向量化方法無論是在模型訓練速度還是在分類效果都有更優的效果, 充分證明了本文所提方法的有效性. 商品評論是一種帶有明顯主觀情感傾向的文本, 傳統的向量空間模型在特征表示中丟失了大量統計和語義信息, 并且存在著特征稀疏性和高維度的缺點. 本文所提出的以詞向量為基礎進行文本向量化的方法, 通過詞向量模型可以將向量控制在一個較小的維度并有效的解決了傳統向量空間模型中的稀疏性問題; 通過權重可以保留詞語在文本中的重要性信息.
1 趙妍妍,秦兵等.文本情感分析.軟件學報,2010,21(8):1834– 1848.
2 張紫瓊,等.互聯網商品評論情感分析研究綜述.管理科學學報,2010.
3 徐易.基于短文本的分類算法研究[碩士學位論文].上海:上海交通大學,2010.
4 林斌.基于語義技術的中文信息情感分析研究[碩士學位論文].哈爾濱:哈爾濱工業大學,2006.
5 崔志剛.基于電商網站商品評論數據的用戶情感分析[碩士學位論文].北京:北京交通大學,2014.
6 宋靜靜.中文短文本情感傾向性分析研究[碩士學位論文].重慶:重慶理工大學,2013.
7 張學工,等.關于統計學習理論與支撐向量機.自動化學報, 2000.
8 Salton G, Wong A, Yang CS. On the specification of term values in automatic indexing. Journal of Documentation, 1973.
9 王素格.基于Web的評論文本情感分類問題研究[博士學位論文].上海:上海大學,2008.
10 Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality. NIPS, 2013.
11 Turian J, Ratinov L, Bengio Y. Word representations: A simple and general method for semi-supervised learning. Meeting of the Association for Computational Linguistics. 2010.
12 吳軍.數學之美.第2版.北京:人民郵電出版社,2014.
13 李航.統計學習方法.北京:清華大學出版社,2012.
14 葉志剛.SVM在文本分類中的應用[碩士學位論文].哈爾濱:哈爾濱工程大學,2006.
15 伍岳.基于SVM的文本分類應用研究[碩士學位論文].成都:電子科技大學,2014.
16 張國梁,肖超峰.基于SVM新聞文本分類的研究.電子技術, 2011.
Sentiment Analysis Based on Word Vector Model
WEI Guang-Shun1,2, WU Kai-Chao2
1(University of Chinese Academy of Sciences, Beijing 100049, China)2(Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, China)
With the development of Internet, text information, such as product review, increases rapidly. The mass text information makes it more difficult to make artificial management. Considering that product reviews are short text, this paper comes up with the method of word vector superposition and weighted word vector. In the result of sentiment analysis, the method is proved effective. Emotional analysis technology can solve the difficulty of artificial classification in the mass of product review, and help users to get information quickly.
emotion analysis; weighted word vector; product review; short text
2016-06-21;
2016-08-18
[10.15888/j.cnki.csa.005655]