宋佳穎 黃旭 付國宏
?
基于詞語情感隸屬度特征的情感極性分類
宋佳穎 黃旭 付國宏?
黑龍江大學計算機科學技術學院, 哈爾濱150080; ?通信作者, E-mail: ghfu@hotmail.com
在模糊集合論框架下探索基于詞語情感隸屬度的情感極性分類特征表示方法。以TF-IDF為權重分別構建情感特征詞語的正向、負向極性隸屬度, 并以隸屬度對數比作為分類特征值構建基于支持向量機的情感極性分類系統。在產品評論、NLPCC2014情感分類評測數據和IMDB英文影評等數據上的實驗結果表明, 基于情感隸屬度特征的系統優于基于布爾、頻度和詞向量等特征表示的系統, 驗證了所提出的基于情感隸屬度特征表示的有效性。
情感極性分類; 模糊集合論; 隸屬度; 支持向量機
隨著Web 2.0的興起和社會媒體的迅速發展, 情感分析(亦稱意見挖掘)已成為自然語言處理研究的一個熱點, 并在近年得到快速發展, 各種情感分析系統層出不窮。由于機器學習方法性能的不斷提升, 使得情感分類能夠得到效果較好的基線系統, 機器學習框架能夠從選取的特征中學習不同類別的指向信息, 其參數、特征集和權重的確定對分類性能起決定性作用。因此, 本文將特征的選擇和表示作為重點探索的內容。隨著基于神經網絡的語言模型的發展, 基于詞袋(bag-of-words)的模型逐漸受到排斥, 神經網絡模型不再只是對詞語的羅列而更多地考察了詞序關系, 在大規模的無監督訓練下往往能得到更多的語義信息, 因此在抽取、語音識別、翻譯、校對等工作中發揮了優勢。同時, 很多情感分析工作已將詞語、段落的向量表示作為特征權重應用于分類框架[1–4], 但通過對比發現, 這類方法在情感分類問題的解決上依然有很大的改進空間。雖然N-grams語言模型考慮了詞語的窗口內上下文, 但很少有數據能夠滿足多窗口的上下文短語概率計算, N-grams存在數據稀疏和高維度的限制, 對于詞語間的語義距離的衡量依然模糊。與N-grams相對的遞歸神經網絡(recurrent neural networks, RNNs)語言模型[2], 其內部結構能夠更好地進行平滑預測, 從而放寬了上下文的窗口限制, 在很多應用中優于傳統的N-grams。因此, 我們利用RNNs作為本文的一組基線方法。然而, 在新方法不斷涌現的今天, 詞袋模型仍然存在優勢, 某些語料數據在傳統的樸素貝葉斯(Na?ve Bayes, NB)、支持向量機(Support Vector Machine, SVM)分類框架下, 結合優化的特征、權重集, 依然能夠獲得更好的分類結果[5]。
本文從優化特征及權重的角度出發, 在已經取得很好效果的NB-SVM基礎上, 進一步探索更佳的SVM應用方法。我們針對產品評論語料, 應用遞歸神經網絡語言模型[2](recurrent neural network based language model, RNNLM), 通過貝葉斯法則判定正負極性, 應用Paragraph Embedding生成的句子向量作為特征, 通過SVM分類器判定極性[3]。應用NB-SVM[5]結合N-grams特征判定極性作為本文的基線方法。受到情感表達外沿模糊性的啟發, 我們嘗試用模糊集合理論挖掘詞語的正負情感間的細微差別, 結合模糊推理的詞匯模糊集合的情感隸屬度確定方法, 將正負情感極性隸屬度有效融合作為特征表示方法, 提出基于詞語情感隸屬度特征的分類框架, 并完成與上述各種分類方法的比對, 實驗結果說明了本文提出的分類方法對于情感極性分類的有效性。
1 相關研究
情感分析問題通常分為兩大解決線路, 分別是基于詞典的情感分類方法[6–7]和基于語料庫的情感分類方法[5,8–9]。由于通用詞典對于各類型、領域的文本覆蓋度不足, 基于詞典的方法的效用逐漸弱化, 而基于對語料庫中信息進行統計的機器學習方法越來越受到重視。Yang等[9]將句子級情感分類看做序列標注問題, 將有情感標簽的句子作為輸入, 通過條件隨機場和后序正規化(posterior regul-arization)來學習參數, 利用上下文短句的語境和評價對象, 對不含有情感詞語的短句進行情感傾向預測, 對各類特征進行整合, 包括詞典模板、轉折連接、意見共指等。隨著情感分析研究的不斷深入以及基于語言模型的新型語義表示方法[2,10]的出現, 各種基于神經網絡模型的向量表示方法[10–13]也應用到情感分析領域。由于這些基于神經網絡的語言模型能夠在無監督的條件下挖掘一定的語義信息, 這些向量表示的獲取也成為當前的研究熱點。Le等[3]通過詞語的向量表達預測上下文的詞向量, 將句子向量看做一個特殊的主題詞向量, 應用隨機梯度下降訓練詞語語義向量表示, 用這些詞向量進一步推斷句子向量, 將得到的向量表示作為支持向量機分類器的特征完成句子情感分類。Bespalov等[13]通過淺層語義分析得到詞的向量表示, 進一步將文本表示為N-grams特征向量對應的線性權重向量用于情感分析。Tang等[14]在大規模微博語料庫中, 以微博表情符號作為弱情感標簽, 通過3種神經網絡模型有監督的訓練, 得到面向情感語義的詞向量表示, 將詞向量表示作為特征放入SVM分類器中, 得到不錯的效果。Wang等[5]分別對樸素貝葉斯和SVM這兩種常用的分類模型的適用情況進行分析, 提出應用樸素貝葉斯對數頻次比作為SVM特征權重的分類模型, 通過實驗證明這種簡單的模型對于情感分類任務十分有效。本文在Wang等[5]工作的基礎上, 以相關理論為依據, 進一步對特征權重優化, 以得到更佳的分類性能。
2 情感分類方法
2.1 情感詞語模糊集合
正向詞語模糊集合: 設論域為所有詞語的集合, 則論域上的正向情感詞語模糊集合POS 是到[0,1]的一個映射POS:→[0, 1]。對于∈,POS稱為正向詞語模糊集合POS的隸屬度函數,POS()稱為屬于詞語模糊集合POS的隸屬度。
負向詞語模糊集合: 設論域為所有詞語的集合, 則論域上的負向情感詞語模糊集合NEG是到[0, 1]的一個映射NEG:→[0, 1]。對于∈,NEG稱為負向詞語模糊集合NEG的隸屬度函數,NEG()稱為屬于詞語模糊集合NEG的隸屬度。
由上述定義可知, 這些隸屬度函數的確定是模糊集合理論能否有效投入應用的關鍵。
2.2 情感分類的TF-IDF
2.2.1 情感詞語頻率TF
定義(i)∈|V|是訓練樣例的特征的頻數, 即(i)代表特征V在樣例中出現的次數。對于所有的訓練樣例, 可以定義正負兩類特征頻數向量如:
其中是為了數據平滑設置的參數。
根據上面得到特征頻數向量, 對TFPOS和TFNEG分別除以其自身向量的頻數總和進行歸一化處理, 進一步計算其對數比, 如式(3)所示:
2.2.2 情感詞語的逆文檔頻率IDF
NB-SVM是將文檔詞頻信息的歸一化對數比作為特征權重, 其形式如式(3)所示。受到基于模糊推理的詞語隸屬度構建方法[15]的啟發, 我們通過分析認為, 在歸一化頻數的基礎上, 融合特征對應各個類別的逆文檔頻率(IDF)信息, 能夠使特征具有更好的類別指向性, 從而削弱在各類極性的情感句中大量出現的無關特征對分類性能的影響, 可以作為詞語的模糊情感極性隸屬度的一種表示方法。因此, 為詞語計算對應的正負兩類的IDFPOS和IDFNEG, 如式(4)和(5)所示:
其中, Countpos表示含有特征且極性為正向的樣例的數量, 反之為負向, 計算時同樣使用加1平滑。pos和neg分別表示訓練數據中正向極性樣例和負向極性樣例的數量。
2.3 詞語情感隸屬度
常見的隸屬度函數確定方法包括模糊統計法、例證法、專家經驗法等。為了避免在選擇時受到主觀因素的過多影響, 本文采用模糊統計法計算每個詞語的正、負情感隸屬度。模糊統計法是通過次重復獨立統計實驗來確定某個特征詞對正、負情感詞語模糊集合的隸屬度, 其形式上與概率統計法比較類似, 但二者分別屬于不同的數學模型。
我們以TF-IDF表示法為原型, 通過對頻數向量的歸一化, 平衡詞頻對極性類別的影響。歸一化向量對應的與相同極性的IDF的積做為每個特征對于正負情感極性的最終隸屬度, 正負情感隸屬度計算如式(6)和(7)所示:
2.4 詞語情感隸屬度特征表示
2.3節定義了基于TF-IDF的詞語情感隸屬度 函數, 能夠給每個特征確定它隸屬于兩個情感極性模糊集合的程度。為了量化正負情感隸屬度大小對特征的情感指向的作用, 我們將兩類隸屬度函數值進行融合, 把正負情感隸屬度的對數比作為特征權重值, 特征的權重計算方法如式(8)所示:
2.5 支持向量機SVM
支持向量機的基本原理是通過對有類標記的訓練數據構造相應的模型, 繼而應用模型通過測試數據中的屬性特征來預測其對應的類標記。訓練數據形式是成對的樣例和標簽(x,y),=1,…, 其中x∈R,∈{-1,+1}。為了解決某些樣本點線性不可分, 引入松弛變量≥0, 改變約束條件為y(·x+b)≥1-, 目標函數由原來的變為
其中,> 0是懲罰系數, 它決定了對于誤分類的懲罰的大小, 一般根據實際問題確定。由于Linear①是應對大規模訓練任務的快捷有效的SVM分類器, 且Linear能夠支持L2-regularized邏輯回歸(LR)和L2-loss, L1-loss線性支持向量機, 因此選擇Linear作為本文的SVM工具, 可選訓練參數為0, 即應用L2正規化邏輯回歸, 對應的式(9)中。
3 實驗結果與分析
為了對上述方法進行全面的驗證, 分別對汽車領域產品評論、NLPCC 2014評測②的數據和英文影評IMDB①數據進行情感極性分類。下面給出相應的實驗設置、結果及其分析。
3.1 實驗設置
如表1所示, 我們給出三類實驗數據的統計信息, 語料分別是從汽車之家②爬取的汽車領域的多品牌網絡用戶評價、NLPCC2014評測中的情感分類任務數據(多領域產品評論)和IMDB (大規模英文公開影評)。其中IMDB數據共有影評10萬句, 使用方法與Le等[3]相同, 包含有標注的25000條訓練語句、25000條測試語句, 其余5萬句是無標注的語句, 僅在無監督地訓練詞向量時使用, 標注的語句分為正向極性、負向極性兩類標簽。實驗的評測指標為準確率(accuracy, Acc)、精確率(Precision,)、召回率(Recall,)和-測度()。

表1 語料統計信息
為了進一步驗證基于情感隸屬度的特征表示的有效性, 本文還考慮用以下4種方法作為實驗的基線方法。
1)RNNLM + Na?veBayes: Mikolov等[2]提出的基于遞歸神經網絡的語言模型(RNNLM), 在語音識別實驗的結果中驗證了RNNLM明顯優于N-gram 語言模型。此處RNNLM基于簡單的Elman神經網絡[16], 它是一個包含輸入層、隱藏狀態層和輸出層的神經網絡, 能夠允許應用更大窗口的上下文來完成對序列中其他詞的預測, 在訓練時能做到更好的數據平滑。但在實際訓練中, 上下文的窗口大小還會受梯度下降效率的限制。本文利用RNN語言模型, 借助貝葉斯法則計算每個測試樣例屬于正負極性類別的概率, 從而完成分類。本文RNNLM相關實驗應用RNNLM Toolkit③完成, 具體訓練參數設定為–hidden(50), –direct–order(3), –direct(200), –class(100), –debug(2), –bptt(4), –bptt–block(10)。
2)Paragraph Vector + SVM: Le等[3]提出的無監督的對句子、段落或文本預測得到定長的向量表示, 可以作為特征用于有監督的分類框架。具體地, 將句子向量看做一個特殊的主題詞向量, 應用隨機梯度下降訓練詞語語義向量表示, 再用這些詞向量進一步推斷句子向量表示, 將得到的向量表示作為支持向量機分類器的特征完成句子情感分類。其中, 句子向量合成的相關實驗借助word2vec④完成。在訓練句子向量階段, 我們選擇的語言模型為Skip-Gram, 向量維度設定了不同的大小(100, 200 和300), 訓練的窗口大小設定為10, 同時使用HS和NEG方法, 其他參數為默認值。
3)Bool + SVM: 最傳統的布爾權重支持向量機應用, 同樣作為本文的基線系統實驗, 分別考察不同特征集結合布爾權重的分類效果。
4)NB-SVM: 由Wang等[5]提出的線性分類器, 是由歸一化特征頻數的對數比作為特征權重的、基于支持向量機的分類框架。
為了全面對比特征與特征權重的結合對分類效果的影響, 選擇在相關研究中常用且有效的類別指向信息[3,5]作為本文的特征集: 1)基于N-grams的特征集, 包含一元語法詞組(uni-gram)、二元語法詞組(bigram)和三元語法詞組(trigram); 2)基于詞性信息的特征集, 包括名詞、動詞、形容詞、代詞、數詞、量詞等實詞。由于否定副詞和一些程度副詞也是對情感表達有指向作用的詞匯, 本文將副詞特征也加入實詞特征中。
3.2 實驗結果與分析
3.2.1 汽車評論語料情感極性分類結果
針對汽車產品評論設置的實驗及其結果如表2所示, 在Paragraph Vector相關實驗中, 鑒于對生成的語義向量表示準確性的考慮, 在無監督的向量訓練階段, 我們在訓練語料中加入26729句爬取得到的網絡汽車評論作為背景語料, 幫助得到更為有效的embedding向量表示。在生成句子向量表示時, 分別考察了不同維度大小對結果的影響, 表2

表2 汽車評論情感極性分類結果
說明: 粗體數字表示該指標下的最好結果。下同。
第一列括號內的數字表示生成的向量的維數。本文提出的將詞語情感隸屬度對數比作為特征權重的方法, 在實驗結果中以Fuzzy + SVM作為標記。
從表2可以看出, 在特征選擇方面, 通常三元語法特征優于二元語法特征, 二元語法特征優于一元語法特征, 但在SVM結合布爾權重和應用NB-SVM時卻不符合我們的理論推斷。分析其原因為語料規模較小, 數據稀疏造成結果的不穩定性; 另外, 簡單的布爾權重使得大部分三元特征的權重為1, 無法很好地衡量這些多詞組特征的情感指向比重。在句子向量(Paragraph vector)和情感隸屬度對數比特征的SVM (Fuzzy + SVM)實驗結果中, 特征不同時呈現的分類性能都符合常規的理論推斷, 在一定程度說明三元語法特征較二元、一元特征具有更好的限定性, 能夠更準確地獲取句中的詞序關系。同時, 從準確率方面來看, 雖然實詞特征較一元的詞語特征更為有效, 但依然不如二元、三元短語特征, 說明高階的短語特征使組合的詞語具有更準確的限定性, 更全面涵蓋句子情感信息。在分類效果方面, 可以看出原有方法中的NB-SVM具有較好的分類性能, 隨著特征的優化, 能夠得到更佳的結果, 同時其結果優于基于RNN語言模型和句子向量合成的方法, 說明雖然語義向量信息的獲取能夠促進抽取、相似度衡量等工作的發展, 但如何從語義信息中有針對性的挖掘情感信息, 仍有待研究。本文提出的fuzzy+SVM在同等特征集作用時, 取得優于NB-SVM的分類效果, 進一步說明在確定特征權重時, 在特征頻數歸一化的基礎上, 融合IDF信息后, 去除了在正負極性中都大量出現的特征對隸屬度的影響, 使得到的特征情感隸屬度能更全面描述各個特征對于類別的指向作用。
3.2.2 NLPCC2014評測數據情感極性分類結果
為了進一步驗證方法的性能, 使用NLPCC評測的公開數據進行實驗, 本輪實驗主要考察性能較好且比較接近的三類基于支持向量機的方法。由于數據規模的限制會在很大程度上影響無監督訓練的過程, 本輪實驗沒有采用訓練句子向量作為特征, 表3列出同樣使用NLPCC數據的Wang等[17]的結果用于比對。

表3 NLPCC2014評測數據集上的情感分類結果
從表3可以看出: 1)同類方法不同特征相對比, 呈現出三元語法特征優于二元語法特征, 而二元語法特征也好于一元語法特征的現象, 這完全符合高階語法模型能夠更準確地限定上下文的特點, 同時反映出語料規模較小(如汽車評論)時, 對理論的驗證可能存在偏差, 容易對研究方法的走向形成錯誤指引; 2)在NLPCC數據集上的實驗結果表明, 基于情感隸屬度對數比特征的系統在所有評測指標中均取得最好性能。表3中, Wang等[17]采用的是通過深度學習得到的詞語向量特征表示結合邏輯回歸分類器的方法。NLPCC2014評測數據集上的對比實驗結果表明了本文提出的基于隸屬度的特征表示方法的有效性。
3.2.3 IMDB情感極性分類結果
除中文產品評論和NLPCC2014評測數據集以外, 我們還選擇了常用于情感分類任務的英文語料IMDB數據, 并且應用各類方法的最好參數進行情感分類, 包含代表性最強的trigram特征以及語義表示效果最好的300維向量特征。在完成句子向量特征的實驗Paragraph Vector時, 我們在無監督訓練階段沒有借助其他數據, 而是使用完整的IMDB數據(共100000句)訓練得到對應的句子向量。實驗結果如表4所示。

表4 IMDB數據集上的情感分類結果
從表4可以看出, 在IMDB數據集上的實驗結果中, 本文方法得到的綜合準確率和值都表現出最大優勢, 精確率和召回率均處于較好位置, 說明本文確定的情感隸屬度是對詞語極性和強度的有效度量。Wang等[5]針對IMDB數據得到91.22%的準確率, 相比之下, 本文提出的基于詞語情感隸屬度的特征值表示方法更具有實際意義。由于本文方法完全是基于語料庫的統計方法, 不對語言種類、領域做任何限定, 上述結果中的英文數據實驗就形成了本文方法有效性的完整印證。
4 結論與展望
根據情感極性分類研究現狀, 在現有方法的基礎上, 本文以TF-IDF為原型, 融合模糊推理的隸屬度確定方法, 進一步為詞語設定了情感極性隸屬度, 從而得到基于詞語情感隸屬度的特征值表示方法。分別對汽車領域評論、NLPCC評測數據和IMDB數據集進行實驗, 結果顯示, 通過優化特征和權重, 在傳統的機器學習分類框架下依然能夠取得很好的分類性能。
雖然本文實驗取得了預期結果, 證明了融合的情感隸屬度特征值對于情感分類問題的有效性, 但沒能在整體框架下實現全面創新, 僅取得小幅度的提高。后續工作應該全面深化對問題的研究, 擴大數據規模, 并挖掘更有效的有指向性的特征。
[1]Socher R, Pennington J, Huang E H, et al. Semi-supervised recursive autoencoders for predicting sentiment distributions // Proceedings of EMNLP’11. East Stroudsburg, 2011: 151–161
[2]Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model // Proceedings of INTERSPEECH’10. Chiba, 2010: 1045–1048
[3]Le Q V, Mikolov T. Distributed representations of sentences and documents. Procedings of the 31st International Conference on Machine Learning. Beijing, 2014: 1188–1196
[4]Zhang Dongwen, Xu Hua, Su Zengcai, et al. Chinese comments sentiment classification based on word2vec and SVM perf. Expert Systems with Applications, 2015, 42(4): 1857–1863
[5]Wang S, Manning C D. Baselines and bigrams: simple, good sentiment and topic classification // Proceedings of ACL’12. Jeju Island, 2012: 90–94
[6]Ding Xiaowen, Liu Bing, Yu P S. A holistic lexicon-based approach to opinion mining // Proceedings of WSDM’08. New York, 2008: 231–240
[7]Taboada M, Brooke J, Tofiloski M, et al. Lexicon-based methods for sentiment analysis. Computational Linguistics, 2011, 37(2): 267–307
[8]Wang Hongning, Lu Yue, Zhai Chengxiang. Latent aspect rating analysis on review text data: a rating regression approach // Proceedings of SIGKDD’10. New York, 2010: 783–792
[9]Yang Bishan, Cardie C. Context-aware learning for sentence-level sentiment analysis with posterior regularization // Proceedings of ACL’14. Baltimore, 2014: 325–335
[10]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[R/OL]. (2013-09-07)[2015-03-21]. http://arxiv. org/abs/1301.3781
[11]Socher R, Perelygin A, Wu J Y, et al. Recursive deep models for semantic compositionality over a senti-ment treebank // Proceedings of EMNLP’13. Seattle, 2013: 1631–1642
[12]Bengio Y, Courville A, Vincent P. Representation learning: a review and new perspectives. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1798–1828
[13]Bespalov D, Bai B, Qi Y, et al. Sentiment classification based on supervised latent N-gram analysis // Proceedings of CIKM’11. Glasgow, 2011: 375–382
[14]Tang Duyu, Wei Furu, Yang Nan, et al. Learning sentiment-specific word embedding for twitter sentiment classification // Proceedings of ACL’14. Baltimore, 2014: 1555–1565
[15]Aida-zade K, Rustamov S, Mustafayev E, et al. Human-computer dialogue understanding hybrid system // Proceedings of the 2012 International Symposium on Innovations in Intelligent Systems and Applications (INISTA). Trabzon, 2012: 1–5
[16]Elman J L. Distributed representations, simple recurrent networks, and grammatical structure. Machine Learning, 1991, 7(2/3): 195–225
[17]Wang Yuan, Li Zhaohui, Liu Jie, et al. Word vector modeling for sentiment analysis of product reviews // CCIS (NLPCC’14). Shenzhen, 2014, 496: 168–180
Exploiting Lexical Sentiment Membership-Based Features to Polarity Classification
SONG Jiaying, HUANG Xu, FU Guohong?
School of Computer Science and Technology, Heilongjiang University, Harbin 150080; ?Corresponding author, E-mail: ghfu@hotmail.com
A lexical sentiment membership based feature representation was presented for Chinese polarity classification under the framework of fuzzy set theory. TF-IDF weighted words are used to construct the corresponding positive and negative polarity membership for each feature word, and the log-ratio of each membership is computed. A support vector machines based polarity classifier is built with the membership log-ratios as its features. Furthermore, the classifier is evaluated over different datasets, including a corpus of reviews on automobile products, the NLPCC2014 data for sentiment classification evaluation and the IMDB film comments. The experimental results show that the proposed sentiment membership feature representation outperforms the state of the art feature representations such as the Boolean features, the frequent-based features and the word embeddings based features.
sentiment polarity classification; fuzzy sets; membership; supported vector machines
10.13209/j.0479-8023.2016.004
TP391
2015-06-06;
2015-08-18; 網絡出版日期: 2015-09-29
國家自然科學基金(61170148)和黑龍江省人力資源和社會保障廳留學人員科技活動項目資助
①http://www.csie.ntu.edu.tw/~cjlin/liblinear
②http://tcci.ccf.org.cn/conference/2014/pages/page04_eva.html
① http://ai.stanford.edu/~amaas/data/sentiment/
② http://www.autohome.com.cn/
③ http://www.fit.vutbr.cz/~imikolov/rnnlm/
④ https://code.google.com/p/word2vec/