陳耀東,彭蝶飛
(1.長沙師范學院 信息與工程系,湖南 長沙 410100; 2.長沙師范學院 科研與學科建設處,湖南 長沙 410100)
情感分析(sentiment analysis,又稱極性分類)主要對主觀性文本所表達的情感進行褒貶分類的問題進行研究。從應用場景的角度看,情感分析任務可分為無主題的分析方法和主題指定的分類方法。前者主要針對主題不明確的微博等篇章級文本進行情感極性分析[1],一般同時涉及主題的挖掘過程,偏重于統計模型的研究。后者是給定某個或者若干關聯主題考慮句一級或者詞一級文本的細粒度情感分類[2],偏重于計算語言學的方法。主題指定的情感分析方法主要依靠情感詞集[3-4]、詞性以及句子結構抽取N-Gram[5]、句法關系[6]等語法特征獲得特征-主題的關系,再通過統計模型分類情感。語義角色標注(semantic role labeling,SRL)是一種區別于傳統深層分析的淺層語義分析技術,旨在分析句子的語義框架(即謂詞框架)。由于避免對句子的深層結構分析,角色標注的準確率遠高于句子成份的識別。目前中文的語義角色標注庫是PropBank[7]。文獻[8]是對利用SRL進行情感分析進行研究,采用角色從在線新聞文本中提取觀點(情感詞)、觀點持有者以及評價對象,文獻[9]通過SRL抽取評論主題。但這些方法都只是利用角色關系提取主題,未考慮判斷情感特征與主題的相關性。另外,文獻[2]等面向金融領域通過SRL獲取主題-特征項,而文中面向的游客評論存在大量句內多主題情況,基于游客評論庫的角色標注特點與分布統計設計出更有效的分類方法。
主題是情感分析的基礎,面向微博等的情感分析通常是考慮篇章的整體情感傾向,主題本身不明確或者是在情感分析的同時通過學習算法自動獲取。這一方式不適于景區游客評論等一些需要明確主題或者主題預設的應用領域,特別是當前大數據驅動之下,國內的傳統旅游向智慧旅游轉變,通過識別、挖掘游客對于景區、景點等特點主題的情感傾向,能夠及時發現景區管理的現行問題,有效改進管理質量。通過觀察游客評論發現,評論語句通常涉及多個主題且交織在一起,大量的噪聲特征可能導致分類器對某特定主題的情感誤判,如例句A所示:
例句A:盡管這些簡陋的餐館衛生條件不大好,我還是被景區的美景打動了。
例句A是對某個景區的評論,情感分析時應首先明確美景是所描述的主題,餐館和衛生條件均與文本主題無關,進一步可判定前兩個特征詞“簡陋”、“不大好”為噪聲(描述的對象不是主題),“打動”為真正有效的情感特征(描述主題美景)。由于噪聲特征多于真正有效的情感特征,在傳統篇章級情感分析方法下例句A將被錯分為貶義。由此可見,只能采用細粒度的情感分析方法確定特征與主題的相關性,才能保證對游客評論情感判別的正確分類。
文中從主題與情感特征的相關性展開研究,在明確主題條件下討論對應情感特征是否是有效的判定標準,并提出了有效性的度量方法。在此基礎上,以在線情感文本的元數據信息(metadata)為指示詞,設計了一種有“針對性”的候選主題抽取算法以及一種有效情感特征的識別與抽取方法。圖1展示了工作流程,分兩個階段,第一階抽取段候選主題項,依據評論網站的元數據信息獲取評論文本的候選主題集;第二階段識別有效情感特征,通過候選主題項找到主題句并對其進行語義角色標注,根據角色的語義指向判斷候選情感特征是否為主題相關的有效特征。

圖1 研究流程
對主題元數據進行研究發現,許多評論網站、論壇等通常會以格式化或半格式化的方式給出評論對象的介紹和相關說明,比如景區網站以統一格式列出景點、餐飲,影評網站展示每部影片的片名、演員、導演、劇情等。這些信息有些正是評論的對象,有些則與評論對象密切相關(如具有所屬關系、上下位關系等),將這些具有一定結構化程度的信息統稱為主題元數據(topic metadata)。主題元數據是經過加工的主題屬性或其組成部分的名詞性成分,在評論中有“針對性”地抽取與元數據相關的成分作為候選主題特征項。
當前主要考慮具有兩種關系的成分:修飾關系和并列關系。
(1)修飾關系(modification/adjunction)。考慮句法樹中的定中類短語,若指示詞處于修飾詞,那么將所修飾的中心名詞作為特征項候選。文中主要考慮句法樹中的名詞短語以及嵌套名詞短語形式。如例句B的名詞短語“潯龍河的親子營”,若潯龍河為指示詞,且修飾親子營,則親子營為候選主題項。再如例句C中的名詞短語“櫻花園的便捷擺渡車”,盡管櫻花園作為指示詞不直接修飾擺渡車,仍將它所修飾的名詞短語的中心詞擺渡車作為主題項候選。
例句B:[Arg0潯龍河的親子營] [ArgM-Adv太] [Predicate好玩]了。
例句C:[Arg0大家] [ArgM-Adv都很][Predicate認同][Arg1櫻花園的便捷擺渡車]。
例句D:[Arg0這里的交通和路況]令人[predicate不大滿意]。
(2)并列關系(coordination)。考慮句法樹中的名詞性的并列短語,若其中的一個名詞成分是已知的主題項候選,則另一個名詞成分也是候選。如例句D中,若交通是已獲取的特征項,則路況也是候選主題項。
實際過程中采用bootstrap方式,即首先以景區評論庫的metadata詞為候選詞,通過上述修飾關系規則與并列關系規則獲取候選特征項,得到特征項集合后以此作為候選項再次遍歷評論庫,直至沒有新特征項被發掘。bootstrap方式最后選取前K個高頻特征項(實驗過程經驗性地選擇K為200)作為最終的主題特征項集。
對于每個評論文本,經過主題項抽取步驟后,將包含主題項的句子作為主題句,通過HowNet情感詞典抽取主題句的所有情感詞,再通過情感特征識別算法形成有效特征集。
2.2.1 有效情感特征
定義1 有效情感特征(effective sentiment words):文本有效情感特征是指符合下面條件的預選情感詞:該情感詞處于主題句內;該情感詞的語義指向是給定主題。
為描述方便,將文獻[10-11]所識別的文本特征稱為基本情感特征(也即詞袋特征),文獻[12-13]的特征表示稱為主題情感特征。表1展示了有效情感特征與它們的異同。

表1 三種文本情感特征表示類型
有效情感特征實際上是主題情感特征的子集。有效情感特征的語義相關是建立在情感詞與主題間的語義關聯,這種相關主要通過語義指向(semantic orientation)來判定。語義指向[14-15]是一個漢語語言學問題,主要是指句法結構中句法成分之間所具有的帶方向或目標的語義聯系。由于普通語言學對語言現象的研究是描寫性的,缺乏定量分析,因而文中借助語義角色來判斷情感詞的語義指向,即情感詞的語義指向由所屬的語義角色決定。
2.2.2 情感特征識別
利用語義角色標注器給每個主題句進行角色標注。對每個主題情感特征,計算該特征對應角色的語義指向,并判別該主題情感特征是否為有效情感特征。對景區評論庫中情感詞的語義角色分布情況進行統計(情感詞共出現約36 000次)與研究,發現情感詞在角色中的分布很不均衡:
(1)作為謂詞出現的情形占有約45%,包括實義動詞(如喜歡、暈倒)、形容詞性謂詞(不錯、好吃、不堪)、名詞性謂詞(眼緣、好感,違和感)的情形,以及無謂詞類句子;
(2)作為受事Arg1的情形占約30%;
(3)作為修飾類狀語ArgM-ADV的情形占約9%。
然后進一步統計了情感詞的語義指向,研究出現情感詞的角色(簡稱為情感角色)的語義指向分布。統計基于一個事實:在一個謂詞框架中,若某個角色含有主題特征項,則它是框架中情感角色的語義指向。基于以上統計分析,構建有效情感特征識別算法,如算法1所示。

算法1對名詞性情感角色(Arg0~Arg4)和非名詞性角色(謂詞和非核心角色)分別進行處理。名詞性角色簡單地指定其自身作為語義指向(步驟4.1),而對于非名詞角色,按角色優先規則進行分析(步驟3和4.2)。步驟5和6對有效情感特征進行識別,即當情感角色的語義指向(targetRole)存在且中心詞為主題特征項,則認為該情感角色所含的情感詞是有效情感特征,否則判別為非有效情感特征。
(1)數據收集與處理。實驗面向游客評論的情感分析問題。選取了湖南省兩個代表性景區—長沙縣潯龍河生態小鎮和南岳衡山,通過攜程、窮游、窮驢、驢媽媽等活躍網站以及本地旅游論壇社區,利用爬蟲軟件抓取了18 500余條評論信息,同時使用HTML分析器獲取每個評論文本對應的元數據。對原始數據進行了預處理,包括去重(去除重復評論)、除噪(廣告、無任何主題的評論)、剪枝(去除長度小于10個字的評論),最終得到10 523個有效評論文本。
(2)模型特征。文中主要研究的是實現情感特征的有效抽取,因此實驗的關鍵是評估不同的特征選取方法對最終情感分類效果的影響。為此,將評論文本采用詞袋方法(bag-of-words)描述,形式化定義如下:假設{w1,w2,…,wm}是一個預選情感詞集,每個評論文本表示為v=(f1,f2,…,fm),其中fi∈{0,1},fi=1當且僅當wi在指定文本中出現,反之亦然。利用表1的三種特征表示,即wi在文本中出現;wi在文本主題句中有出現;wi是文本中出現的有效情感詞,分別記為:基本特征詞表示(basic sentiment words,BSW)、主題特征詞表示(topic-relative sentiment words,RSW)、有效特征詞表示(effective sentiment words,ESW)。選取SVM(支持向量機)作為訓練和分類模型(具體使用SVMLight開源軟件),SVM具有學習性能強、泛化性高、受樣本規模影響較小等優點。
從已標注的評論庫中隨機抽取不同數量的標注評論文本作為訓練集,以另1 000篇文本作測試集,結果如表2所示(數據為F1值)。可以看到當標注文本小于500時,BSW的性能總優于RSW和ESW。通過分析認為,當標注樣本較小時,ESW和RSW所獲取的特征向量相對比較稀疏。當訓練文本大于500時,RSW和ESW的性能顯著提高,并超過了BSW。這說明了與主題相關的情感特征較好地反映了文本的真實情感。值得注意的是,ESW的效果在表中總低于RSW。對錯分的文本進行深入觀察,發現絕大多數情況是:一方面所含的句子較少(超過一半的文本僅含1到3個句子),導致在訓練時未能獲取足夠的角色特征;另一方面這些文本具有明顯的口語化色彩,這些不合語法規范的句子致使句法分析器和角色標注器的分析準確率嚴重下降。

表2 有效情感特征評估結果(平均2句/文本)
為排除上述兩個文本內在缺陷對評測造成的干擾,收集比較長的評論文本進行實驗(每篇含6個以上的句子),結果見表3。

表3 有效情感特征評估結果(平均8句/文本)
這時,ESW的性能明顯超過了RSW和BSW,即使是在標注集較小的環境下。這說明有效情感特征的選擇對文本情感的分析具有重要影響。這一結論也可以從BSW的性能變化得到。比較表3和表2的第一列,當文本長度增加時BSW的性能反而有下降趨勢。這可以解釋為文本長度的增加帶來了與主題無關的特征增多,由于BSW不區別情感特征與主題的相關性,因而造成分析的錯誤。
構建了一個基于語義角色的情感分析器,將角色標注任務提供的語義信息應用于情感分析,實驗部分面向在線游客評論庫。實驗結果表明,對于較長的文本,通過基本角色的情感分析器所抽取的特征能有效地提高分類性能,但在短文本中,由于句法分析和語義分析處理口語化的非完整句子的能力較差,從而導致整體效果不如經典方法。因此得出結論:情感分析對語言的深層分析,尤其是語義分析的要求非常高;提高文本語義分析能力,建立合適的語義模型是解決這一問題值得研究的途徑。