王 波,劉玉嬌
(四川大學計算機學院,成都 610065)
?
基于深度特征的句子級文本情感分類
王波,劉玉嬌
(四川大學計算機學院,成都610065)
摘要:
研究詞深度特征池化法的句子級情感分類特征表示,在進行詞向量學習時,首先利用中科院分詞器對語料進行分詞,通過word2vec中的CBOW模型計算語料中詞的深度特征詞向量;在情感分類過程中,首先對詞深度特征采用均值、最值等池化方法獲得整句話的特征,并以此作為神經網絡模型的輸入,通過一個線性層、Sigmoid激活層以及線性分類標注層,來判決得到該句的情感傾向。通過在當當書評語料上進行實驗,結果表明均值與最值池化拼接的特征方法取得較好的分類效果,能夠更好地表征句子級情感特征。
關鍵詞:
文本情感;極性判別;深度特征;Sigmoid
四川省科技支撐計劃項目(No.2012GZ0091)、四川大學青年基金項目(No.2012SCU11033)
隨著網絡技術的快速發展,網絡營銷已成為一種極為重要的銷售模式,如果能夠獲取用戶對所銷售產品的態度,將對優化產品性能、提升產品服務具有極其重要的作用。網上交易平臺的在線評論功能為了解用戶態度提供了可能,但事實上通過人工模式了解評論文本中客戶態度費時費力,不能滿足海量評論數據處理的需要,研究如何利用機器學習的方法自動挖掘客戶態度十分必要。
目前挖掘用戶態度信息主要通過情感分類[1-3]算法實現,主流的文本分類方法多為基于詞典或基于語料兩類。
基于詞典的分類方法是利用專有情感詞典或中文意義詞典(如HowNet)中詞語的語義相似度或層次結構來判別詞語的情感極性,得到詞語情感極性后通過多種聯合判決方法得到句子的極性[4-5]。朱艷輝等[6]利用基礎情感詞詞典、連詞詞典及詞語距離,提出了一種基于多重詞典的中文文本情感特征抽取算法,證明了其方法優于HM,SO-PMI和詞語語義距離等經典的特征抽取算法。劉玉嬌等[7]則提出了基于情感字典與連詞結合的中文文本情感分類,其做法是首先利用基礎情感詞典以及基準詞對所研究領域的評論文本進行分析,以此獲得特定領域具有感情傾向的特征詞語,而后利用基準詞及獲得的特征詞對評論進行分析,對有感情詞的句子,采用計算感情值來判別其感情傾向及感情程度,對無感情詞的句子,采用連詞的方法來進行感情的判別,并通過實驗證明了該方法能夠對不同領域的評論得到較好的感情分類效果。
基于語料庫的方法主要是利用句子中詞語之間的統計特征來判別詞語的情感極性[8-11]。Turney[12-13]采用點互信息PMI-IR以及LSA兩種方法識別特征感情詞。在PMI-IR方法中,采用了搜索引擎“NEAR”方法來獲得共現率作為兩個詞語關聯程度的依據,證明了PMIIR方法優于LSA方法。徐健鋒[14]等人在使用信息增益對高維文本做特征降維的基礎上,將優化的語義理解和機器學習相結合,設計了一種新的基于混合語義理解的機器學習中文情感分類算法框架,并通過多組對比實驗驗證了其在不同領域文本領域中高且穩定的分類精度。
本文提出了以中文文本的詞深度特征池化方式來獲取句子級情感特征表示,并以此作為情感分類的神經網絡模型的輸入,通過該模型最終得到句子的情感傾向。
中文分詞是指將一個漢字序列切分成單獨的詞語的過程,即將連續的字序列按照一定的規范重新組合成詞序列。
本文主要采用中科院的ICTCLAS2016分詞器對語料進行分詞,并在分詞過程中過濾掉停用詞。
對詞的表示最早的方法為獨熱(one-hot)表示,該方法把每個詞表示為一個長向量。此向量的維度是詞表大小,其中絕大多數元素為0,只有一個維度的值為1,該維度即代表了當前詞,這種獨熱表示方式如果采用稀疏方式存儲,將會非常簡潔,但也存在維度大,以及“詞匯鴻溝”現象,即所有詞之間都是孤立的,僅從這兩個向量中看不出兩個詞是否有關聯。
而目前最熱、應用范圍最廣的詞特征表示主要基于深度算法學習得到,詞特征向量很好地體現了詞在統計語料中的語義分布特征,可以通過計算向量之間的距離來體現詞語之間的相似性。
對詞深度特征獲取本文采用CBOW模型訓練詞向量[15],特征維度選擇通常為50和100,本文在進行詞向量訓練時,取維度為50。
在CBOW模型中,訓練目標是給定一個詞的上下文[16],預測該詞出現的概率,結構圖如圖1所示。

圖1 CBOW模型結構
其中w(t)為當前詞語(向量),w(t-2),w(t-1),w (t+1),w(t+2)為當前詞語的上下文,SUM為上下文的累加和。
CBOW的優化目標是:給定詞序列w1,w2,…,wT,最大化下式(1),

其中T為整個序列的長度,2c為窗口長度。對于上式中的參數主要采用層級Softmax(Hierarchical Softmax)方法進行求解。則整體的模型結構如圖2所示。

圖2 CBOW+ Hierarchical Softmax結構
輸入層:包含Context(w)中2c個詞向量v(Context (w)1),v(Context(w)2),v(Context(w)2c)∈Rm,這里m表示詞向量長度Context(w)表示當前詞w的上下文。
投影層(隱藏層):將輸入層的2c個向量作求和累加,即:

輸出層:輸出層對應一棵二叉樹,它以語料中的詞作為葉子結點,以詞在語料中出現的頻次作為權值構造出來的Huffman樹。在這棵Huffman樹中,葉子結點共N(=|D|,對應詞典D中的詞個數)個,非葉子結點N-1個(即圖中標成黃色的結點)。其中上下文向量Xw連接到每一個非葉子節點上作為判決因子。
在一段上下文中詞w出現的概率可以表示為如下公式(2),其中lw為根節點到詞w的節點個數,dwj表示節點j為其父節點左或右子節點(0或者1表示)。

其中,

或者表示為:

對于由所有句子組成的語料庫C有式(3)。

取對數似然函數則為式(4)所示:
其中,公式(13)中包含了兩個參數,分別為X、θ,對于參數的求解則采用梯度下降法,即令:


則,對應參數的更新公式如下式(7),(8)所示。

3.1深度特征池化
本文采用均值池化方法獲取句子的深度特征深度學習模型的輸入。映射圖層如圖3所示。

圖3 詞向量映射
嵌入層即為第三節中獲取的深度特征,層級f中的向量為池化結果,f'為均值池化、最大化池化、最小值池化的鏈接結果,以此作為極性判別模型的輸入特征。
3.2句子級情感分類
根據文獻[17]的啟發,本文對句子的極性判斷模型采用圖4所示的網絡框架進行分類。
網絡輸入為池化后的句子特征,輸出為句子的情感極性標注圖,其中h(π|S)表示句子S中的情感標注值,π為積極或消極。

圖4 分類模型
(1)分類標注分值
假設分類網絡中的參數為γ,則該分類網絡的輸出可以利用函數的形式表示為:

對于輸入的句子S,分類網絡將對其可能的每一個極性進行分值計算,得到的輸入向量可表示為:


其中,權值矩陣W2∈RH1×150,W2∈R2×H1,以及偏置向量b2∈RH1,b2∈R2均為需要訓練的參數,H1表示第一層隱藏層的隱單元個數(可調參數),激活函數g選用sigmoid函數:

(2)分類推斷
給定一個句子S,通過特征網絡及分類標注網絡后可以得到一個分類標注分值矩陣hγ(S),整個句子的得分可以定義為:

其中c表示兩類極性:即積極或消極。句子S的情感類別c*計算如下:

(2)分類模型訓練
模型訓練主要利用訓練數據確定標注網絡中的參數γ=(W2,b2,W3,b3),而參數的訓練通常采用最大似然估計法進行參數的估計,即最大化式(16):

其中S表示句子的特征,π表示該句子所對應的分類序列,該句子通過網絡后分類為π序列的概率如下:

公式(14)的最大化可利用隨機梯度下降算法進行求解,該方法是一個反復迭代的過程,每輪迭代都會從訓練數據中隨機選取一個樣本(S,π),并對修正參數。

其中,α為學習步長,是可調參數,梯度可通過BP算法計算。
從公式(15)可以看出,計算復雜度隨著句子的長度成指數級增長,計算量較大,所以本文采用與文[17]相同的訓練方法進行網絡訓練,即類感知機算法[18],具體訓練方法詳見文獻[17]。
4.1實驗語料
本文語料主要來源于數據堂中的當當書評語料,具體數據如表1所示。

表1 語料數據
本文將該語料劃分為訓練集和測試集,劃分語料為訓練數據以和測試數據的比例為4:1。
4.2對比方法
法1:詞向量(CBOW)最大化池化;
法2:詞向量(CBOW)最小化池化;
法3:詞向量(CBOW)均值池化;
法4:均值、最值池化連接。
4.3評價標準
對每一類極性,均采用準確率(P)、召回率(R)以及F值作為評價標準。定義如下:

其中Ci∈{消極、積極}。
4.4情感分類實驗
(1)識別效果比較
四類方法結果對比效果如圖5所示。

圖5 消極評論分類對比圖

圖6 積極評論分類對比圖
從圖5、圖6可以明顯看出,池化連接組合方式(法4)優于其他算法。由此可以證明在產品評論語料中連接組合池化方法比其他池化法效果更好,能夠更好表示句子級情感特征。
(2)參數對結果的影響分析
本節主要對分類網絡中的可調參數(迭代次數)進行考察。本文算法在當當書評測試語料上的F1值隨著迭代次數變化曲線如圖7、圖8所示。
圖7、圖8給出了各算法在消極評論分類以及積極評論分類上F1值隨著迭代的變化曲線圖,從圖中可以看出,迭代次數達到200次時,F1值變化較小,說明此時訓練較為充分,可以看出再迭代次數的增加,性能的變化不大。

圖7 消極分類F1隨迭代次數變化圖

圖8 積極分類F1隨迭代次數變化圖
本文首先獲取詞深度特征,然后采用均值與最值池化鏈接的特征方法獲得句子的深度特征,并將整個句子的深度作為一個整體向量輸入到情感判別模型中,最終獲得該句子分別屬于兩種極性的分數,根據分數的大小獲得了最終的情感傾向。與均值與最值池化方法相比,本文利用鏈接池化方式獲取句子的整體特征,提高了獲取長依賴特征的信息量,在當當書評數據上的實驗結果表明,該方法能夠有效提升感情分類效果。
參考文獻:
[1]Yang A M,Zhou Y M,Lin J H. A Method of Chinese Texts Sentiment Classification Based on Bayesian Algorithm[C]. Applied Mechanics and Materials. Trans Tech Publications,2012,263: 2185-2190.
[2]Xianghua F,Guo L,Yanyan G,et al. Multi-Aspect Sentiment Analysis for Chinese Online Social Reviews Based on Topic Modeling and HowNet Lexicon[J]. Knowledge-Based Systems,2013,37: 186-195.
[3]Wang H,Yin P,Yao J,et al. Text Feature Selection for Sentiment Classification of Chinese Online Reviews[J]. Journal of Experimental & Theoretical Artificial Intelligence,2013,25(4): 425-439.
[4]王勇,呂學強,姬連春,等.基于極性詞典的中文微博客情感分類[J].計算機應用與軟件,2014,31(1): 34-37.
[5]孫建旺,呂學強,張雷瀚.基于詞典與機器學習的中文微博情感分析研究[J].計算機應用與軟件,2014,7: 177-181.
[6]朱艷輝,栗春亮.一種基于多重詞典的中文文本情感特征抽取方法[J].湖南工業大學學報,2011,25(2):42.
[7]劉玉嬌,琚生根,伍少梅,等.基于情感字典與連詞結合的中文文本情感分類[J].四川大學學報(自然科學版),2015,1: 012.
[8]Zhang D,Xu H,Su Z,et al. Chinese Comments Sentiment Classification Based on Word2vec and SVM Perf[J]. Expert Systems with Applications,2015,42(4):1857-1863.
[9]Huang Z,Zhao Z,Liu Q,et al. An Unsupervised Method for Short-Text Sentiment Analysis Based on Analysis of Massive Data[M]. Intelligent Computation in Big Data Era. Springer Berlin Heidelberg,2015:169-176.
[10]Yuan Z,Purver M. Predicting Emotion Labels for Chinese Microblog Texts[M]. Advances in Social Media Analysis. Springer International Publishing,2015:129-149.
[11]Zhao Y,Niu K,He Z,et al. Text Sentiment Analysis Algorithm Optimization and Platform Development in Social Network[C]. Computational Intelligence and Design(ISCID),2013 Sixth International Symposium on. IEEE,2013,1:410-413.
[12]Turney Peter.Thumbs Up or Thumbs Down Semantic Orientation Applied to Unsupervised Classification of Reviews[C]. Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics.USA:Association for Computational Linguistics.2002:417.
[13]PETER D. Turney,MICHAEL L. Littman. Unsupervised Learning of Semantic Orientation from a Hun Dred-Billion-Word Corpus[R]. Tech. Rep. EGB-1094,National Research Council Canada:2002.
[14]徐健鋒,許園,許元辰,等.基于語義理解和機器學習的混合的中文文本情感分類算法框架[J].計算機科學,2015,42(6): 61-66.
[15]Google等. Word2Vec[CP/DK]. https://code.google.com/p/word2vec/,2013
[16]Mikolov T,Chen K,Corrado G,et al. Efficient Estimation of Word Representations in Vector Space[J]. arXiv Preprint arXiv:1301. 3781,2013.
[17]Zheng X,Chen H,Xu T. Deep Learning for Chinese Word Segmentation and POS Tagging[C]. EMNLP,2013: 647-657.
[18]Ng H T,Low J K. Chinese Part-of-Speech Tagging: One-at-a-Time or All-at-Once? Word-Based or Character-Based?[C]. EMNLP. 2004: 277-284.
王波(1986-),男,碩士研究生,知識工程
Classification of Texts Sentiment Based on Deep Feature for Sentence Level
WANG Bo,LIU Yu-jiao
(College of Computer Science,Sichuan University,Chengdu 610065)
Abstract:Studies the pooling method of sentence level sentiment classification characteristic, to learn the word vector, uses ICTCLAS2016 to segments the sentences of corpus, and the depth feature vectors are calculated by CBOW model in word2vec. In the classification of texts sentiment, gets the sentence feature by pooling the word depth features in a variety of ways, which is the input of neural network model. And then, those features will input a linear layer, sigmoid active layer and a classification linear layer to get the sentence emotional tendencies. The results of Book Review Corpus in Dangdang shows that the combination of the meaning and extreme value pooling method can achieve better classification results, which have a better express to characterize the sentence level emotional features.
Keywords:Text Sentiment; Polarity Judgment; Depth Features; Sigmoid
收稿日期:2016-03-10修稿日期:2016-03-20
作者簡介:
文章編號:1007-1423(2016)09-0003-06
DOI:10.3969/j.issn.1007-1423.2016.09.001
基金項目: