王巍 趙鐵軍 徐冰 鄭德權
摘 要:評價文本的比較句識別是比較句情感分析的一項基礎任務,具有重要的研究價值。提出中文比較句自動識別的方法,首先對包含至少一個關鍵詞的候選比較句進行抽取,從而形成候選比較句集合,而后通過對候選比較句集合采用多特征融合的分類方法進行分類。實驗結果表明比較句識別的性能達到87.26%的F1值。
關鍵詞:評價文本;情感分析;比較句識別;多特征融合
中圖分類號: TP391 文獻標識碼: A 文章編號:2095-2163(2015)04-
Automatic Identify Chinese Comparative Sentences
WANG Wei, ZHAO Tiejun, XU Bing, ZHENG Dequan
(Machine Intelligence and Translation Laboratory, Harbin Institute of Technology, Harbin 150001, china)
Abstract: Comparative sentence identification in evaluative text is an essential task in comparative sentiment analysis, which has important research value. This paper proposes a comparative sentence identification method in Chinese. First, extract comparative candidates which contain at least a keyword to form a set of comparative candidates. Then identify comparative sentences from the set of candidates based on feature fusion. The experiment result shows the F1-score is 87.26%.
Key words: Evaluative Text; Sentiment Analysis; Comparative Sentence Identification; Feature Fusion
0 引 言
比較是一種重要的觀點表達方式和具有一定價值的認知方式。人們可以通過比較來認識未知事物,通過比較判斷多種相似事物的高下優(yōu)劣,以及通過比較獲取各種決策的依據(jù),比較影響著日常生活。在Web2.0時代,隨著網(wǎng)絡社會化媒體的快速發(fā)展,越來越多的用戶已經(jīng)從單純的網(wǎng)絡信息的閱讀者轉(zhuǎn)變?yōu)榫W(wǎng)絡信息的創(chuàng)造者和參與者。這些用戶在博客、微博、論壇、討論組等社會媒體中發(fā)表評論和比較觀點,創(chuàng)造了大量的主觀性文本,對這些主觀性文本、尤其是其中的比較文本進行挖掘,可以更快速地獲取有價值的信息,更真實地了解社情民意,具有重要的現(xiàn)實和研究意義。
比較句識別的處理對象是用戶的評論文本,其任務就是從評論文本中識別出具有比較含義的句子,可以將該任務看作比較句和非比較句的二元分類任務。一些典型的比較句通常含有指示比較的關鍵詞,如“比”,“相似”,“不同”等,這些詞能夠表達實體之間的比較關系,在比較句識別中起著重要的作用。然而,含有這些指示詞的句子未必都是比較句,如“A的性能比較好”,類似地,不含指示詞的句子也可能是比較句,如“手機A有GPS功能,而手機B沒有該功能”。因此,提出有效的方法實現(xiàn)比較與非比較信息的分類,是比較句情感分析的一項重要任務。
本文嘗試使用有監(jiān)督方法對比較與非比較信息進行分類。具體地,討論了如何根據(jù)比較的類別提取候選比較句,以及如何利用句子內(nèi)部的詞語和模式特征進行分類。基于候選比較句的識別結果,對比較與非比較句進行分類,從而識別出比較句。實驗表明,比較信息分類能夠達到87.26%的F1值,基于支持向量機的方法可以有效識別出比較信息,同時基于比較句候選識別的方法可以有效平衡分類數(shù)據(jù)。
1 相關工作
與比較觀點相關的工作主要集中于語言學和計算語言學兩個領域。在語言學領域,一些研究者對中文比較句的指示詞、句法形式、語義含義和分類體系等方面進行了研究。SHANG Ping[1]對現(xiàn)代漢語中比較句的各種分類體系進行了總結,認為比較句的研究需要堅持語義與句法形式的充分結合,同時采用簡單明了的分類體系劃分方法。CHEN[2]等人研究了比較句中語法項目的選取與排序,同時對常用的20種漢語比較句句式進行了總結,并對每一種句式的使用頻率及該句式的語法項目選擇及排列情況進行了統(tǒng)計。CHE Jing[3]對現(xiàn)代漢語比較句的句式范圍進行了界定,并探討了比較句的結構類型、語義類型和句法標志詞等。這些研究從語言學的角度對比較句的語義和句法形式進行了考察,為比較句的計算機自動識別工作奠定了基礎。
在計算語言學領域,比較句的自動識別方法主要有兩種:機器學習和模式匹配方法。一些研究者采用了機器學習的方法并獲得了較好的性能,比較句自動識別的課題首先由Jindal和Liu[4]提出,通過采用有監(jiān)督學習的方法對每一個英文句子進行分類,在模型的訓練過程中引入了類別序列規(guī)則特征,相應的實驗則獲得了79%的準確率和81%的召回率。Huang[5]等人在Jindal工作的基礎上,使用3種有監(jiān)督學習方法來識別中文比較句。Park[6]等人研究了科學文章中的比較句識別問題,通過使用3種分類器(樸素貝葉斯、支持向量機和貝葉斯網(wǎng)絡)來識別比較句,而且在模型的訓練過程中引入了詞法、依存句法等35種特征。Yang[7]等人針對韓語比較句的識別問題進行研究,通過在候選比較句集合上使用有監(jiān)督學習方法來識別比較句。LI Jianjun[8]基于統(tǒng)計特征和序列特征,采用支持向量機和樸素貝葉斯模型來識別中文比較句。模式匹配是一種無監(jiān)督的學習方法,該方法依賴于所使用的模式庫。SONG Rui[9]等手工構建了中文比較模式庫并利用該模式庫識別中文比較句??傮w而言,機器學習方法的性能好于模式匹配方法。
2 中文比較句的識別
2.1 基于關鍵詞查找獲取比較句候選
大多數(shù)比較句含有指示比較的關鍵詞,如“相似”、“不如”等,為了得到這些關鍵詞,本文將比較句劃分為5種類型,如表1所示。
研究中,很容易為前四類句子找到顯式的比較詞,基本方法是基于同義詞擴展。首先,利用語言學文獻構建一個初始的關鍵詞集合 ,然而,初始關鍵詞集合無法覆蓋所有的比較表達,因此基于同義詞的擴展,即將初始的關鍵詞集合 擴展為候選關鍵詞集合:
(1)
而后,從候選比較句集合中刪除那些頻率值低于指定閾值的詞語。對于第5類句子(隱式比較句),顯然無法為其找到任何的顯式比較詞,如
例1: “X手機有藍牙,而Y手機沒有?!?/p>
這類句子通常由兩個表達對比的短句組成,基于此,本文提出可為其構建了詞-詞性序列,這些序列用來充當比較詞的作用,如“
(2)
研究中的比較詞典共包含102個關鍵詞,30個序列。比較詞典構建完成后,則使用該詞典提取比較句候選,具體地,如果一個句子包含一個或多個比較詞或序列,則該句子作為候選比較句。
2.2 基于多特征融合的候選比較句分類
為了從候選比較句集合中過濾掉非比較句,在此采用了多特征融合的方法,使用支持向量機算法融合多種特征,進行二元分類。
2.2.1術語特征集合
一些詞語頻繁出現(xiàn)在一個類別中,但很少出現(xiàn)在另一個類別中,這些詞語對句子有一定的區(qū)分作用。因此,可以采用信息增益的方法來提取這些詞語(特征)。信息增益(IG)法依據(jù)某特征項 為整個分類系統(tǒng)提供的信息量的多少來衡量其重要程度。某個特征項 的信息增益是指有該特征或沒有該特征時,為整個分類系統(tǒng)所提供的信息量的差別。令 代表目標空間中類別的集合,一個特征項 相對于一個分類系統(tǒng) 的信息增益量定義如下:
(3)
其中, 代表特征項 出現(xiàn),而 代表特征項 不出現(xiàn)。公式(3)中第一項是初始分類系統(tǒng)的熵值,第二項是當給定一個特征項時,系統(tǒng)條件熵的預期值。兩項的差即為某個特征項帶給分類系統(tǒng)的信息增益量。 表示 類句子在語料中出現(xiàn)的概率, 表示語料中包含特征項 的句子的概率, 表示句子包含特征項 時屬于 類的條件概率, 表示語料中不包含特征項 的句子的概率, 表示句子不包含特征項 時屬于 類的條件概率。
對于訓練數(shù)據(jù)中的每一個詞語,則需計算其信息增益值,并且選擇那些增益值高于指定閾值的術語。
2.2.2關鍵詞特征集合
同2.2.1節(jié)。
2.2.3 序列模式特征集合
比較句的語言模式不同于非比較句,這些模式可以用作機器學習的特征。為了挖掘比較句的序列模式,首先基于訓練數(shù)據(jù)構建了序列數(shù)據(jù)庫,該數(shù)據(jù)庫構建的過程如下:
(1) 將訓練數(shù)據(jù)中的每個句子分解為若干子句,標記每一個子句為比較或非比較。
(2) 對于每一個包含關鍵詞(一個或多個關鍵詞)的子句,以其中每個關鍵詞為中心生成一個序列,具體地,以關鍵詞為中心,將關鍵詞半徑為5的范圍內(nèi)的詞和詞性標記作為一個序列。對于關鍵詞本身,使用實際詞作為一項。
(3) 每一個序列被分類為或者比較或者非比較,根據(jù)生成該序列的子句的類別。
序列數(shù)據(jù)庫準備好以后,即使用具有多個最小支持度的PrefixSpan[10](Prefix-projected Sequential pattern mining)算法挖掘頻繁序列。設置多個最小支持度是因為一些關鍵詞在比較句中頻繁出現(xiàn),而另一些關鍵詞卻很少出現(xiàn),具體地,將在某一詞頻范圍內(nèi)的關鍵詞設置成相同的最小支持度。算法的結果需要滿足最小置信度閾值(在本文的實驗中,最小置信度閾值設置為0.7,取得了最好的效果)。
例 2:“寶馬/NR 的/DEG 發(fā)動機/NN 最/AD 棒/JJ !/ PU”
例2有關鍵詞“最”,一個以“最”為中心的序列如下:
<{NR} {DEG} {NN} {最} {JJ}>
3實驗結果與分析
3.1 實驗數(shù)據(jù)
實驗采用2012年第四屆中文傾向性分析評測[12](COAE: Chinese Opinion Analysis Evaluation)提供的評測數(shù)據(jù)2 作為訓練集和測試集。其中選用的語料來自兩個產(chǎn)品領域,汽車和電子產(chǎn)品,共計9 600個句子,其中包含1 624個比較句,7 976個非比較句。這些句子大多數(shù)是含有比較關鍵詞的典型比較句,也包含少量的隱式比較句。語料的詳細統(tǒng)計數(shù)據(jù)如表2所示。
3.2 實驗結果與分析
3.2.1 比較句候選識別的實驗結果
利用2.1節(jié)構建的比較詞詞典搜索語料庫,找到所有包含關鍵詞的句子,將這些句子加入候選比較句集合中。經(jīng)統(tǒng)計,采用關鍵詞匹配方法識別比較句的準確率是41.68%,召回率是97.29%。如此高的召回率和接近50%的準確率使得該方法適合作為候選比較句的識別方法。
使用關鍵詞查找識別比較句候選獲得了非常高的召回率,這一方面說明了大多數(shù)比較句中含有關鍵詞,另一方面說明本文所構建的關鍵詞詞典能夠覆蓋大部分的比較表達;而該方法獲得了較低的準確率,這表明不僅大多數(shù)比較句含有關鍵詞,而且大量的非比較句也含有關鍵詞。
3.2.2 比較句候選分類的實驗結果
在比較句候選分類的實驗中采用了10折交叉驗證(10-fold cross-validation)的實驗方法,取10次結果的平均值作為算法精度的估計。實驗使用了由臺灣大學開發(fā)的LIBSVM工具包,選用的SVM核函數(shù)是RBF核函數(shù)。模型訓練后得到的最優(yōu)參數(shù)是gamma = 0.007 813 and C = 32。
研究設計的比較句候選分類實驗如下:
為了確定哪些特征能夠為分類系統(tǒng)提供更多的信息,為此比較了單一特征和幾種特征組合的分類性能,這些分類特征包括術語(TM),比較關鍵詞(CK),序列模式(PS)等,最終所有特征的組合表現(xiàn)出了最好的性能。表3顯示了比較句候選分類的實驗結果。結果顯示召回率顯著低于準確率,對于單一特征,比較關鍵詞和序列模式獲得了更好的分類性能;對于組合特征,關鍵詞加術語特征的性能稍好于序列模式特征的性能,當使用所有詞語和序列模式作特征時,系統(tǒng)獲得了最佳的性能,F(xiàn)1值為87.26%。
4結束語
本文提出了中文文本的比較句識別方法,該方法由兩個步驟組成,(1) 基于關鍵詞查找方法識別候選比較句;(2)對候選比較句使用支持向量機模型進行分類。在分類的過程中引入了關鍵詞、術語、序列模式等特征,實驗結果表明本文的比較句識別方法是有效的。
參考文獻:
[1] SHANG Ping. A Review on the system of comparative sentence. Applied Linguistics[J], 2006, (S2): 77-80.
[2] CHEN Jun, ZHOU Xiaobing. The selection and arrangement of grammatical items concerning comparative sentences[J]. Language Teaching and Research, 2005, (2): 22-33.
[3] CHE Jing. A brief analysis of comparative sentences in modern Chinese[J]. Journal of Hubei Normal University, 2005, 25(3): 60-63.
[4] JINDAL N, LIU Bing. Identifying comparative sentences in text documents[C]∥Proceedings of SIGIR06, Seattle, WA, USA: ACM, 2006: 244-251.
[5] HUANG Xiaojiang, WAN Xiaojun, YANG Jianwu, et al. Learning to identify comparative sentences in Chinese Text[C]∥Proceedings of PRICAI08, Hanoi, Vietnam: Springer, 2008: 187-198.
[6] PARK D, BLAKE C. Identifying comparative claim sentences in full-text scientific articles[C]∥Proceedings of ACL12, Jeju Island, Korea: Association for Computational Linguistics, 2012: 1-9.
[7] YANG S, KO Y. Finding relevant features for Korean comparative sentence extraction[J]. Pattern Recogn. Lett.,—PRL, 2011, 32(2): 293-296.
[8] LI Jianjun. Research on the Identification of Comparative Sentences and Relations and Its Application [D]. Chongqing:Chongqing University, 2011.
[9] SONG Rui, LIN Hongfei, CHANG Fuyang. Chinese comparative sentences identification and comparative relations extraction[J]. Journal of Chinese Information Processing, 2009, 23(2): 102-107.
[10] LIU Bing. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data[M]. Second Edition. Berline:Springer, 2011.
[11] LIU Kang, Wang Suge, Liao Xiangwen, et al. Overview of Chinese opinion analysis evaluation 2012[C]∥Proceedings of the 4st Chinese Opinion Analysis Evaluation, NanChang, China: The Professional Committee of Information Retrieval, 2012: 1-32.