在線評論情感分析研究綜述

2018-03-10 20:29:13謝法舉劉臣唐莉

軟件導刊 2018年2期

謝法舉+劉臣+唐莉

摘要：從在線評論情感極性以及情感強度兩方面考慮，與此同時，對在線評論情感極性從粒度即細粒度和粗粒度兩方面進行情感分類。對在線評論情感進行分析，有利于消費者的購買決策，也有利于商家制定營銷戰略。討論了情感分析的現有不足以及面臨的挑戰。

關鍵詞：情感分析；情感強度；細粒度；粗粒度；情感極性

DOIDOI：10.11907/rjdk.173102

中圖分類號：TP3-05

文獻標識碼：A 文章編號文章編號：1672-7800（2018）002-0001-04

1 在線文本情感分析概述

文本情感分析又稱觀點挖掘，它是依據計算機等先進技術對有關新聞資料、社會媒體評論的主觀性、觀點、情緒以及極性的提取、分析、處理、歸納，對文本的情感傾向性作出預知判斷的一種技術。例如：這款手機外觀很漂亮。該句子表達的是積極性觀點。在句子中，“外觀”作為特征詞，對應的情感詞為“漂亮”，那么“外觀”和“漂亮”是一對特征觀點對，從觀點詞中可以看出該句子的情感屬于積極情感。文本情感分析包括文本情感極性分析和文本情感極性強度分析。情感極性分析主要目的是為了識別主觀文本情感，文本情感強度分析主要是為了識別句子所表達情感的強烈程度。

1.1 文本情感分析系統的基本框架

圖1描述了文本情感分析的基本框架：①從網絡上抓取相關評論；②對相關評論進行預處理；③對處理后的評論進行特征抽取；④特征處理以及特征觀點對識別；⑤進行情感判斷。

1.2 文本情感分析的主要研究方法

常用的文本情感分析方法見表1。人的情感總是復雜多變的，在學術界對于情感分類目前還沒有統一的標準。雖然前人的劃分沒有統一標準，但是前人的工作還是給出了許多指導性幫助。

Hatzivassiloglou等[1]從語料庫華爾街日報中挖掘大量形容詞性的評價詞語。Tong等[2]通過人工抽取與影評相關的詞匯（great acting、uneven editing）進行情感極性（positive或negative）標記后建立專門的情感詞典。Katrina等[3]使用了由Andrew提出的最基本的情感本體（該本體定義了38個情感類別），在此基礎上構造出更復雜的情感組合。Riloff等[4]通過人工選取種子評價詞語與規則模塊，使用迭代的方法對名詞性評價詞語進行提取。LIU B等[5]開發了一種將對產品各部分用戶意見可視化顯示出來的系統，使產品之間比較時，各部分優劣一目了然，極大方便用戶選購。薛麗敏等[6]提出中文文本情感傾向性五元模型，即情感傾向性觀點持有者、傾向性來源、傾向性指定、傾向性立場以及傾向性種類5個方面描述情感傾向性的概念。在一定條件下提高情感傾向性判斷的精度。文本情感極性分析可以從文本粒度分析即細粒度和粗粒度兩方面進行。

2 細粒度情感分析

2.1 提取相關屬性

一個產品具備多個不同的屬性，屬性是指產品某方面的一些功能或者性質，分為顯性屬性和隱性屬性。顯性屬性是指在產品評論中能夠直接獲取與產品相關的功能或者性能。隱性屬性是指需要根據上下文判別，其特征不直接出現在文本中。

提取產品屬性可以分為兩種方法：人工定義方法與自動提取方法（見表2）。人工定義產品屬性，需要產品領域的專家參與，因此可移植性較差。自動提取的方法結構簡單便于實現，因此具備良好的可移植性，自動提取產品屬性不需要進行大量的標注語料庫作為訓練集，因此有較好適應性，可用于其它產品。

關于手機的屬性與評價短語詞語抽取結果，在試驗中筆者發現用戶關注的屬性主要集中在“質量”、“屏幕”、“價格”、“性價比”、“電池”等幾個主要特征層面。表3為關于手機的屬性與評價短語。

2.2 情感詞提取

情感詞是指一句話中帶有情感傾向的詞語，對于情感詞提取也有兩種方法：人工定義方法與自動提取方法（見表4）。

3 粗粒度情感分析

3.1 基于自然語言處理（NLP）方法

基于自然語言處理（NLP）的方法，通常采用空間向量表示文本，然后采用機器學習方法識別或者判斷情感類別。這種方法大致流程為：①首先對于文檔進行預處理；②選擇相應的特征；③對特征進行降維處理；④計算相應特征的權重；⑤采用分類器處理；⑥最終得到相應的情感輸出。

3.1.1 相應文檔處理

根據標點符號對評論語料進行分句，摒棄一些使用不規范甚至根本不使用的標點符號。對相應文檔進行分詞處理，常用的中文分詞工具有jieba分詞（我/r來到/v北京/ns 清華大學/nt）；中科院的ictclas4j分詞（中國科學院/n 計算/n 技術/n 研究所/n 在/c 多年/m 研究/n 基礎/a 上/f ，/w 耗時/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 漢語/n 詞法/n 分析/v 系統/a）等，利用POS標簽，然后根據訓練樣本集生成特征序列，根據特征選項對訓練樣本集和測試樣本集中的文檔進行賦值生成相應的向量。基于中科院ictclas4j分詞之后，根據每個詞的詞性構建關于特征詞和觀點詞的共生矩陣。

3.1.2 特征選擇

特征選擇對于情感判別有著非常重要的作用，因為依靠特征的選擇在一定程度上就可以體現出文檔的真實信息，能夠準確地用來識別文檔的好壞。比如“華為手機外觀很漂亮”，對此選擇“外觀”作為特征，而與“外觀”對應的情感詞就是“漂亮”。該特征是顯性特征，因為特征直接出現在該評論中。對于特征的選擇一般選取名詞或者名詞短語，而對于情感詞的選擇一般選擇形容詞、副詞能表達出情感的詞。Zhen Hai[10]提出共生矩陣來提取特征，基于最小支持度和最小自信度識別隱性特征。圖4為Zhen Hai對隱性特征提取方式的構建示意圖。endprint

3.1.3 特征降維處理

特征項降維常用的方法有：互信息法（Mutual Information，MI）、文檔頻率法（Document Frequency，DF）、統計量法（Chi-square Statistic，CHI）、信息增益法（Information Gain，IG）、期望交叉熵法（Expected Cross Entropy，ECE）等。不同的降維方法對分類效果會產生不同的影響。

唐慧豐等[16]采用了特征項降維的前4種方法，依據不同的特征數量和不同規模的訓練集進行實驗。實驗結果表明信息增益法較好，原因是其既考慮了類別信息又考慮了低頻詞的影響。

總之，這些方法的大致思想基本一致：針對某一特征計算出一種度量值，根據度量值設定相應的閾值，剔除那些小于該閾值的特征值，未被剔除的部分就被看作有效特征。

3.1.4 相關權重計算

特征權重的計算方法通常包括：詞頻逆文檔頻（TF-IDF）、布爾權重、倒排文檔頻度（IDF）、絕對詞頻（TF）等常用方法。孫挺[17]采用詞頻逆文檔頻（TF-IDF），綜合考慮特征頻率、文檔頻率、特征類別3方面因素，最終有效改善了分類性能。繆建明[18]采用改善的TF*IDF*CIV方法，考慮語義概念信息量CIV，最后正確率以及準確率都有很大提高。

對于布爾權重，主要應用布爾函數：

式（1）中，tfj（e）表示第j個特征詞在文檔e中出現的次數。如果特征詞出現在文檔中，那么W為1；如果特征詞在文檔中不出現，那么W為0。

倒排文檔頻率（IDF）含義為：如果包含某個特征詞的文本數越少，那么該特征詞代表某類文檔的能力越強。相應，權重就越大。其計算公式如下：

式（2）中，L為常數，通常根據實驗來確定。N為總文本數，nj為出現特征詞的文本數。

3.1.5 分類器選擇

對于文本分類常用的分類器有支持向量機（Support Vector Machines，SVM），樸素貝葉斯（Nave Bayes，NB）、最大熵（Maximum Entropy，ME）等多種方法。

3.1.6 最終情感輸出

Socher Richard[19]提出基于自然語言的句子情感輸出，從（--，-，0，+，++）分為5個等級，在解析樹的每個節點上，在句子中捕獲否定詞和它的作用域。圖5為基于自然語言處理一句話的句子情感輸出結果，可以看出句子中每個詞的情感。

3.2 基于語義方法

該方法主要是依據詞語的感情色彩判斷文本的情感。例如詞語或者詞組的褒貶性。點互信息（PMI）就是常用的一種方式，Church等[20]認為兩個詞之間的點互信息為：

Turney等[21] 提出基于情感詞組的SO-PMI方法，這里的情感傾向如下：（ω）=PMI（ω，positive）-PMI（ω，negative），這樣就確定了每個詞組的情感傾向。

4 文本情感極性強度分析

4.1 文本情感極性強度分析目的

文本情感極性強度分析主要是判斷主觀文本情感極性強度，一般分為5大類：強烈貶義、一般貶義、客觀對待、一般褒揚、強烈褒揚，即使是對于同一事物所表達的預期強烈程度也有所不同，例如：“中國人喜愛文學”和“中國人熱愛文學”表達出來的情感也是有所不同的，熱愛的情感程度超過喜愛的情感程度。表5為關于句子星評示例以及情感強度。

4.2 情感強度計算

情感強度級別S={s1，s2，…，sn}，情感強度集合Ai，Ai由m個相互獨立的情感詞oj構成，Ai（oj）為情感詞oj出現在情感強度級別si中的可能性，則：

如圖6兩款手機的平均情感強度，不僅能夠直接幫助消費者快速作出購買決策，還能夠幫助商家有效了解市場的競爭對手，及時調整市場布局。

5 目前文本情感分析存在的問題

近些年來，越來越多的研究機構或學者將情感分析應用于現實生活中，開發出許多實用的意見挖掘系統，卻也存在一些問題：①缺少相應的實驗語料，整個工作流程還不成熟，而且語料庫的規模有限制；②目前文本情感分析的主要工作還局限于利用觀點詞等信息判別情感極性，很少去考慮語境環境；③文本識別太隨意化、口語化、網絡化等。比如“華為手機太zan了！”，這里“zan”是情感傾向的關鍵，因此這會給情感判別增加較大難度；④在識別情感詞的同時很少有人考慮情感詞附近的程度副詞，這會減弱情感強度；⑤有些褒義詞當貶義詞使用、諷刺以及正話反說，如“你這人太有才了”等，看著是褒義色彩，表面卻是貶義。

參考文獻：

[1] HATZIVASSILOGLOU，VASILEIOS，KATHLEEN MCKEOWN. Predicting the semantic orientation of adjectives[C]. In 35th ACL/8th EACL，1997：174-181.

[2] TONG， R. An operational system for detecting and tracking opinions in on-line discussion[C]. SIGIR 2001 Workshop on Operational Text Classification，2001.

[3] KATRINA TRIEZENBERG. The ontology of emotion [D]. USA：Purdue University，2005.

[4] RILOFFE，WIEEB J.Learning extraction patterns for subjective expression[J].Proceedings of Emnlp，2003（3）：105-112.endprint

[5] LIU B，HUM，CHENG J.Opinion observer： analyzing and comparing opinions on the Web [C].Proceedings of the 14th International Conference on World Wide Web：2005：342-351.

[6] 薛麗敏，李殿偉，肖斌.中文文本情感傾向性五元模型研究[J].通信技術，2011，44（7）：130-132.

[7] LI ZHUANG， FENG JING， ZHU XIAO-YAN. Movie review mining and summarization[C]. NY， USA： Proceedings of the 15th ACM International Conference on Information and Knowledge Management，2006.

[8] 姚天昉，聶青陽，李建超.一個用于漢語汽車評論的意見挖掘系統[C].北京：中國中文信息學會二十五周年學術會議，2006.

[9] SU Q， XIANG K， WANG H， et al. Using pointwise mutual information to identify implicit features in customer reviews[M]. Berlin Heidelberg ： Springer-Verlag，2006.

[10] HAIZHEN， KUIYUCHANG， JUNG-JAEKIM. Implicit feature identication via co-occurrence association rule mining[C]. In Computational Linguistics and Intelligent Text Processing 12th International Conference， CICLing，Tokyo，2011.

[11] POPESCU A M， ETZIONI O. Extracting product features and opinions from reviews [C].PA，USA：Human Language Technology Conference and Conference on Empirical Methods in Natural Language Processing， East Stroudsburg，2005.

[12] XU J，ZHENG X，DING W.Personalized recommendation based on reviews and ratings alleviating the spasity problem of collaborative filtering[C].2012 IEEE Ninth International Conference on E-Business Engineering （ICEBE），2012：9-16.

[13] HU M Q， LIU B. Mining opinion features in customer reviews[C].AAAI'04 Proceedings of the 19th National Conference on Artifical Intelligence，2004：755-760.

[14] LIU DEXI， NIE JIANYUN， ZHANG JING， et al. Extracting sentimental lexicons from Chinese microblog： a classification method using N-Gram features[J].Journal of Chinese Information Processing，2016，30（4）：193-205.

[15] CHEN ZY， LIU B. Mining topics in documents： standing on the shoulders of big data[C]. New York： the 20th Intl Conf on Knowledge Discovery and Data Mining，2014.

[16] 唐慧豐，譚松波，程學旗.基于監督學習的中文情感分類技術比較研究[J].中文信息學報，2007，21（6）：55-94.

[17] 孫挺，耿國華，周明全.一種有效的特征權重計算方法[J].鄭州大學學報，2008，40（4）：18-21.

[18] 繆建明，張全.基于概念信息量的特征權重計算方法研究[J].中國科學院聲學研究所青年學術交流會，2012：256-260.

[19] SOCHER， RICHARD， PERELYGIN，et al. Recursive deep models for semantic compositionality over a sentiment Treebank[C]. In Conference on Empirical Methods in Natural Language Processing，2013：1631-1642.

[20] P D TURNEY. 2001. Mining the web for synonyms： PMI-IR versus LSA on TOEFL[C].Freiburg： the Twelfth European Conference on Machine Learning，2001.

[21] CHURCH， K W， HANKS， P. Word association norms， mutual information and lexicography[C]. Proceedings of the 26th Annual Conference of the Association for Computational Linguistics，1989：76-83.endprint

軟件導刊2018年2期

軟件導刊的其它文章: 基于Hammerstein的非線性信道辨識算法綜述; 游戲引擎研究與分析; 新建構主義在ASP.NET MVC Web程序設計課程中的應用; 一種自適應超分辨率圖像重建方法研究; 基于圖像處理的高精度耳蝸三維重建系統; 基于圖像熵的全局和局部混合方法的關鍵幀提取