楊云
基于句法結構的評價對象抽取方法研究
楊云
文本情感分析是自然語言處理領域的重要研究問題。本文主要對文本情感分析的底層任務——情感信息抽取中的評價對象抽取進行研究,為情感分析的上層任務提供服務。對預處理后的結果進行特征提取,再將特征提取的結果與相應模板輸入CRF(Conditional Random Field)模型進行訓練與識別。在特征提取上,通過深入分析句法結構,在已有特征的基礎上加入了三種特征。在模板上,在多種窗口大小的模板上進行了對比實驗,選取性能好的模板。實驗結果驗證了此方法的有效性、系統(tǒng)性能均優(yōu)于基線實驗且能為準確地抽取評價對象。
句法結構;情感分析;評價對象;CRF模型
文本情感分析亦稱意見挖掘,主要是對具有感情色彩的主觀性文本進行分析、處理、歸納的過程,是一個重要且有應用價值的研究課題[1]。文本情感分析主要有三項遞進的研究任務:情感信息抽取、情感信息分類和情感信息的檢索與歸納。情感信息抽取中的評價對象抽取是抽取出評論中所討論的主題,為情感分析任務提供幫助。
現有的評價對象抽取方法分為基于規(guī)則/模板和基于統(tǒng)計的方法。基于規(guī)則/模板有:H u和L i u[2]最先提出評價對象抽取的問題,使用關聯規(guī)則挖掘算法來抽取評價對象,認為出現頻率較高的名詞是評價對象。Popescu[3]等人通過定義抽取規(guī)則和規(guī)則模板來抽取潛在產品特征,并判斷評價短語的極性。Zhuang[4]等人通過定義電影特征、相關特征的評價詞語和特征—評價短語對來挖掘電影評論中的顯性特征和部分符合定義規(guī)則的隱性特征。Scaffidi[5]等人通過抽取特征術語和排序產品特征來快速定位用戶所需的產品,從而完成產品特征—評價對象的抽取。趙妍妍[6]等人通過統(tǒng)計句中出現頻繁的句法路徑,并對句法路徑進行進一步泛化,使用基于句法路徑精確匹配和基于編輯距離的方法來識別情感評價單元。基于統(tǒng)計的方法主要有:Jakob和Gurevych[7]將評價對象抽取任務建模成序列標記任務,使用C R F模型[8]來標記評價對象。L i u[9]等人使用基于詞的翻譯模型(Word-based Translation Model)的評價對象抽取方法,能夠捕獲大跨度的評價關系。L i u[10]等人在W T M方法的基礎上進行了改進,提出了基于部分監(jiān)督詞對齊模型(PartiallySupervised Word Alignment Model, PSWAM)的評價對象抽取方法,選取置信度高的為最終的評價對象。Liu[11]等人在不同規(guī)模、語言和領域的數據集上驗證了基于語義和基于詞對齊模型的評價對象抽取方法的性能,實驗證明系統(tǒng)性能與語言和領域無關,而與語料的規(guī)模有關。
已有的評價對象抽取方法存在不足之處。基于規(guī)則/模板的方法通用性不強,有的規(guī)則是根據傳統(tǒng)算法、語料的特點和領域相關的詞語而制定,把這些規(guī)則移植到其他領域不會得到很好的效果;模板的限定范圍有限,不能準確識別特殊的評價對象。而基于統(tǒng)計的方法往往忽略了句子間的內部結構信息,如句中的依存關系等信息,識別的效果有限。因此,本文將基于規(guī)則/模板的方法與基于統(tǒng)計模型的方法相結合,深入考慮句法結構信息和詞與詞之間的依存關系,使用基于句法結構的評價對象抽取研究方法,對分詞、詞性標注和句法分析后的結果進行特征提取,并借助C R F模型來標記評價對象,實驗證明能很好地識別評價對象且優(yōu)于基線實驗方法。
本文提出了基于句法結構的評價對象抽取方法,圖1給出了系統(tǒng)框圖。
在預處理階段對原始語料進行分詞、詞性標注和句法分析,使用S ta n f o rd的自然語言處理工具;在特征提取階段,充分考慮句法結構信息,在已有特征的基礎上加入了三種特征;在特征模板的定義上,定義了兩種模板,用于驗證不同大小的窗口對實驗系統(tǒng)性能的影響;最后借助C R F模型來標記評價對象。

圖1 基于句法結構的評價對象抽取方法框圖
(一)特征描述
在選取已有特征[7]的基礎上,通過深入分析句法分析后的句法結構,加入三種特征。具體的特征描述如表1所示。

表1 特征描述
其中,編號1—編號5為已有特征,編號6—編號8為本文加入特征。情感詞是情感詞對挖掘的重要識別指標,考慮加入情感詞特征以提高實驗性能;依存關系標簽如“n su b j”等,通常連接著評價對象與評價短語,即連接著情感詞對;依存關系詞清晰地展現了與當前詞有依存關系的詞。
將分詞后的句子:“Canon 的分辨率還是很清晰的,外觀也特別時尚。”輸入到StanfordParser 中,得到依存關系,assmod (分辨率-3,Canon-1) 、assm (Canon-1, 的-2) 、nsubj (清晰的-6, 分辨率-3)、advmod(清晰的-6, 還是-4)、advmod(清晰的-6, 很-5)、nsubj(時尚-11, 外觀-8)、advmod(時尚-11, 也-9)、amod(時尚-11, 特別-10)、dep(清晰的-6, 時尚-11)。其中,依存關系標簽nsub 連接著情感詞對,nsubj (清晰的-6, 分辨率-3)和nsubj(時尚-11, 外觀-8)。
(二)模板定義
模板反映了每句評論句中詞間的上下文信息。模板選取的好壞,對于實驗的特征選取起著關鍵作用。模板用于控制詞之間的窗口大小,窗口過小,所包含信息過少,特征利用不全面,導致系統(tǒng)性能降低;窗口過大,引入了過多的信息,降低了運行效率,實驗效果也未必提高。
本文模板定義選用的窗口大小定義的通式為:(w-n,w-(n-1),…,w0,…,w n-1,w n)。為選取性能最佳的模板,探討當窗口大小為t m p1=(-1,0,1)與t m p2=(-2,-1,0,1,2)模板的系統(tǒng)性能。
(三)C R F模塊設計
在C R F模塊中,使用了十折交叉驗證的方法,把特征提取的結果分成十份,隨機選取九份作為訓練數據,一份作為測試數據;再將九份訓練數據與相應地模板輸入到C R F++中生成模型,再用生成的模型來訓練一份測試數據并識別出評價對象。
(一)實驗數據
本文模板定義選用的窗口大小定義的通式為:(w-n,w-(n-1),…,w0,…,wn-1,wn)。為選取性能最佳的模板,探討當窗口大小為tmp1 = (-1,0,1)與tmp2 = (-2,-1,0,1,2)模板的系統(tǒng)性能。

表2 數據集規(guī)模統(tǒng)計
句子平均長度=單詞總數/句子總數;評價對象平均長度=評價對象總數/主觀句總數。
(二)實驗設置
本文選用已有的特征[8]作為基線實驗,并在多個模板上進行了對比與分析。已有特征包括表1中的詞特征、詞性特征、最短依存路徑特征、最短詞距離特征和是否是主觀句特征。并在不同窗口大小的模板上進行了對比實驗。
本文選用信息檢索領域常用的評價指標:準確率P、召回率R和F值。
為測試系統(tǒng)性能的準確性,選用十折交叉驗證的方式,理論上折數越大測試的系統(tǒng)性能越準確,當折數達到十折,已足以讓系統(tǒng)性能取得最優(yōu)。具體地,將特征提取后的結果分為十份,隨機選取九份作為訓練數據并與相應的模板一起輸入到C R F模塊中訓練成模型,用模型來標識一份測試數據,以上過程重復十次,取十次結果的平均值作為最終的評價結果。
(三)實驗結果與分析
本部分選取相同的模板,在三個不同的數據集上進行了實驗,以驗證特征與特征組合對系統(tǒng)性能的影響。表3是已有特征的詞特征、詞性特征及它們的特征組合的實驗結果。

表3 基礎特征實驗結果
編號1是詞特征,編號2是詞性特征,編號3是詞特征與詞性特征的組合,稱為基本特征。單獨使用編號1(詞特征)的效果要好于單獨使用編號2(詞性特征)的效果,二者的特征組合編號3 (基本特征)要優(yōu)于編號1與編號2。詞與詞性是組成句子的最基本特征,因而詞與詞性的組合特征更為有效。
編號4到編號9是在基本特征的基礎上,依次加入了最短依存路徑特征、最短詞距離特征、是否是主觀句特征、情感詞特征依存關系特征與依存關系詞特征;編號4到編號9的系統(tǒng)性能均優(yōu)于編號3基本特征的組合,且加入最短依存路徑特征(d L n)的效果最明顯,驗證了深入分析句中的依存關系—句法結構信息的必要性。
編號10是已有特征的組合;編號11是在已有特征的基礎上加入了情感詞特征;編號12與編號13是在編號11特征組合的基礎上依存加入了依存關系特征與依存關系詞特征;編號14是所有特征的組合。
編號10中已有特征的組合的性能要優(yōu)于編號1—編號9;編號11加入情感詞特征的系統(tǒng)性能要優(yōu)于已有特征,原因是情感詞是識別評價對象的重要指標,且最短依存路徑特征1與最短詞距離特征2間接依賴于情感詞特征;編號12與編號13在編號11的基礎上依次加入了依存關系特征與依存關系詞特征,依存關系標簽是識別情感詞對的重要指標,實驗性能要優(yōu)于編號11;編號14所有的特征組合取得了最佳的系統(tǒng)性能,驗證了在已有特征的基礎上加入本文加入的特征是有效的,能夠在合適的窗口大小下識別評價對象。“電影”領域原因是“電影”語料的規(guī)模較大,且電影評論更為規(guī)范,因此識別的評價對象更為準確。
本文提出了一種基于句法結構的評價對象抽取方法,通過深入分析句子的句法結構信息,在已有特征的基礎上加入了情感詞特征、依存關系特征與依存關系詞特征,并在兩個不同的模板上驗證了不同的窗口大小對實驗性能的影響。經實驗驗證了本文方法的有效性。

表4 基礎特征與單個特征組合實驗結果

表5 特征組合實驗結果
在未來的工作中,將繼續(xù)探索更為有效的特征以提高評價對象識別的精度,為情感分析的上層任務服務。評論中有些評價對象為代詞,考慮到評論句中代詞的影響,嘗試代詞“指代消解”方法加入到本文方法,以提高系統(tǒng)性能,識別出更為準確的評價對象。
[1]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學報,2010(21).
[2]Hu M,Liu B.Mining and Summarizing Cus -tomer Reviews [C].Proc.of the tenth ACMSIGKDD international conference on Knowledgediscovery and data mining.New York:ACM,2004.168-177.
[3]Popescu A,Nguyen B,Etzioni O.OPINE:Extracting Product Features and Opinions fromReviews [C].Proc.of HLT/EMNLP on InteractiveDemonstrations.USA:Association for ComputationalLinguistics,2005.32-33.
[4]Zhuang L,Jing F,Zhu X.Movie Review Miningand Summarization [C].Proc.of the 15th ACMinternational conference on Information andknowledge management (CIKM).USA:ACM,2006.43-50.
[5]Scaffidi C,Bierhoff K,Chang E,et al.RedOpal:Product feature Scoring from Reviews[C].Proc.of the 8th ACM conference on Electroniccommerce(EC).USA:ACM,2007.182–191.
[6]趙妍妍,秦兵,車萬翔,等.基于句法路徑的情感評價單元識別[J].軟件學報,2011,22(5).
[7]Jakob N,Gurevych I.Extracting Opinion Targetsin a Single and Cross-Domain Setting with Conditional Random Fields [C].Proc.of the 2010Conference on Empirical Methods in Natural LanguageProcessing (EMNLP).USA:Association forComputational Linguistics,2010.1035-1045.
[8]Lafferty J,McCallum A,Pereira F.ConditionalRandom Fields: Probabilistic Models for Segmentingand Labeling Sequence Data[C]. In Proceedingsof ICML. 2001: 282-289.
[9]Liu K,Xu L H,Zhao J.Opinion target extractionusing word-based translation model[C].Proc.ofthe 2012 Joint Conference on Empirical Methodsin Natural Language Processing and ComputationalNatural Language Learning (EMNLP).Associationfor Computational Linguistics.2012.1346-1356.
[10]Liu K,Xu L H,Zhao J.Opinion target extractionusing partially supervised word alignmentmodel [C].Proc.of the Twenty-Third InternationalJoint Conference on Artificial Intelligence.2013.
[11]Liu K,Xu L H,Zhao J.Syntactic Patterns versusWord Alignment:Extracting Opinion Targets fromOnline Reviews[C].Proc.of ACL.2013.
責任編輯:郭一鶴
T P391
A
1671-6531(2017)06-0067-05
楊云/長春教育學院信息技術教育部助教,碩士(吉林長春130061)。