嚴 倩, 陳 敬, 王禮敏, 李壽山
(蘇州大學 自然語言處理實驗室 江蘇 蘇州 215006)
基于聯合學習的跨語言事件識別方法
嚴 倩, 陳 敬, 王禮敏, 李壽山
(蘇州大學 自然語言處理實驗室 江蘇 蘇州 215006)
事件識別,包括事件觸發詞識別和分類,是事件抽取任務中的基礎問題.為了利用較為豐富和完善的英文事件語料庫來幫助完成中文事件抽取任務,提出了一種基于聯合學習的跨語言事件識別方法,即利用源語言的標注語料對目標語言的測試語料進行事件識別.利用機器翻譯及詞對齊技術來保持源語言和目標語言的語言一致性和標注信息一致性.挑選合適的特征組合,使用最大熵分類模型分別實現觸發詞的識別和分類.通過整數線性規劃的聯合學習模型將二者結合在一起,加之局部約束和全局約束條件,對結果進行優化處理.實驗結果表明,使用源語言的語料及其翻譯語料疊加的雙語語料時,所用方法可以取得較好的效果.
事件識別; 跨語言; 聯合學習; 整數線性規劃
隨著互聯網的迅猛發展,越來越多的電子文本信息呈現在人們面前.如何從海量信息中準確迅速地提取出人們所需求的信息就顯得極為重要[1].信息抽取就是在這樣的背景下產生并迅速發展的.
事件抽取是信息抽取的一個重要研究方向,旨在自動識別特定類型的事件,并抽取相關的信息.事件抽取任務可分為兩步:事件的識別,當前事件所包含的論元及其角色的識別.其中,事件的識別是事件抽取的基礎和核心任務.事件由觸發詞和描述事件結構的元素構成,其中觸發詞是直接觸發事件發生的詞.因此,對事件的識別可以等價為觸發詞及其類別的識別.ACE 2005將事件劃分為8個類型,33個子類型.如以下例句:
例1 我的高中同學前一個月結婚了.
例2 科什圖尼察搭乘聯合國直升機在當地時間星期天下午抵達薩拉熱窩機場.
例3 其實我也全都是為了她著想.
例句1和例句2都包含了事件.如例句1中,“結婚”作為觸發詞,觸發了事件類型Life/Marry.例句2中,“抵達”觸發了事件Movement/Transport.而例句3中不存在觸發詞,故也不存在事件.
近年來,隨著對事件抽取研究的不斷深入,基于監督學習的事件抽取方法越來越占據主流.基于監督學習的方法是利用大量的已標注樣本作為訓練集,通過機器學習的方法訓練得到模型,再根據該模型對未標注樣本進行預測.但是標注大量的樣本開銷昂貴,需要大量的人力、物力.同時,由于事件類別的多樣化,導致事件抽取的語料相對稀疏.這些現象在各種語言背景下的事件抽取任務中都存在,但是由于中文本身的表達特點,使得中文事件抽取語料的稀疏問題和難標注問題尤為突出.考慮到英文事件抽取任務起步較早,研究成果豐富,系統性能相對優異,語料規模較大,標注體系較為完善,本文提出了一種基于聯合學習的跨語言事件識別方法,即利用英文的事件標注語料庫實現中文事件的識別.在具體實現過程中,主要存在兩個問題需要解決:消除語言間的界限,充分利用英文事件語料的信息;有效降低噪聲對實驗性能的影響.本文將使用機器翻譯及詞對齊技術來使語料統一,將觸發詞識別和類別識別兩個子任務結合,建立整數線性規劃的聯合學習模型.
英文事件抽取研究的核心和主流方法是基于統計和機器學習的方法.文獻[2]首先在事件抽取的研究中引入最大熵分類器,使用詞特征、命名實體等簡單特征取得了較好的成果.文獻[3]把事件類型識別看成觸發詞的識別,提出了基于觸發詞的事件抽取方法,在通過二元分類識別觸發詞的基礎上,使用多元分類器判斷其所屬的事件類別及子類別,并通過ACE2005的英文語料驗證了所用方法的有效性.為了更好地利用全局信息,文獻[4]提出并構建了跨文檔事件抽取系統,在當前句信息的基礎上考慮了相關文本的背景知識.文獻[5]進一步利用文檔級的信息提高了事件抽取系統的性能.文獻[6]考慮到實體類型的一致性,實現了跨實體事件抽取.文獻[7]提出了基于結構化感知機的聯合學習模型,同時學習并抽取事件觸發詞和論元,獲得了更優異的效果.
目前,中文事件抽取研究重點主要在特征的發現和選擇以及觸發詞的擴展上等.文獻[8]使用一種局部特征選擇方法來確保觸發詞的識別和分類性能.文獻[9]在事件抽取系統中融入了詞匯、句法和語義等特征來提升效果.文獻[10]使用語義詞典同義詞詞林來擴展中文觸發詞以提高觸發詞識別性能.文獻[11]利用組合語義學和篇章一致性信息來推斷觸發詞,后在此基礎上又提出了一個結合事件觸發詞識別和事件類型判別的聯合模型[12],并在ACE2005的中文語料上測試并得到了更為優異的性能.
與單獨的英文或者中文事件抽取不同的是,本文期望通過已標注的英文事件語料構建中文事件識別系統,獲得理想的效果.近年來,跨語言或者雙語的研究方法在很多領域都得到了應用[13-14],而在事件抽取領域,只有極少數的相關研究.文獻[15]從大量的雙語平行語料中抽取了跨語言的謂詞集,然后利用這些謂詞集分別幫助提升中英文事件抽取的召回率.文獻[16]使用特征疊加的方法將雙語信息融合,同時實現了中英文事件觸發詞的分類.本文將在文獻[16]的雙語事件抽取系統和文獻[12]聯合學習模型的基礎上,結合局部特征和全局信息,使用整數線性規劃的聯合學習模型,構建一種基于聯合學習的跨語言事件識別系統.
2.1 概述
根據事件的定義,事件的識別可以等價為觸發詞的識別和分類.本文將觸發詞的識別和分類分別建模為二元分類和多元分類問題.首先通過機器翻譯及詞對齊技術,獲得可用語料,然后選擇合適的特征,分別訓練最大熵二元分類器(ME_I)和最大熵多元分類器(ME_D)[17],依次實現觸發詞的識別和分類.通過建立整數線性規劃(ILP)模型,對觸發詞的識別和分類結果進行局部和全局最優化,得到最終結果.本文提出的基于聯合學習的跨語言事件識別系統的框架結構如圖1所示.

圖1 基于聯合學習的跨語言事件識別系統框架Fig.1 Framework of cross lingual event recognitionusing joint modeling
2.2 機器翻譯及詞對齊
語言一致性即使得訓練語料和測試語料的語言一致,本文借助機器翻譯系統Google Translate(www.google.com)將源語言語料翻譯成另一語言,得到3組可用語料:源英文語料+中文語料的翻譯語料,英文語料的翻譯語料+源中文語料,源英文語料及其翻譯語料+源中文語料及其翻譯語料.
而標注信息一致性要求在語料的翻譯過程中,其標注信息如觸發詞、實體等要保持等價.詞對齊是機器翻譯中的一項基礎任務,旨在從雙語文本中自動識別詞一級的翻譯或對應關系,即確定源語言文本中哪個(些)詞和目標語言文本中哪個(些)詞有對應關系.本文使用已有的詞對齊技術,借助雙語平行語料庫LDC2002E18等[18-19],實現了事件語料和其翻譯語料的詞對齊.圖2為對前述例句1進行的機器翻譯和詞對齊處理的過程.
在機器翻譯和詞對齊處理完畢之后,就可以較準確的在翻譯語料中定位到標注信息.如圖2的例子中,源句是以“結婚”為觸發詞的“Life/Marry”事件,從對齊信息“8-4 8-5”中可以得到譯句中對應的觸發詞信息為“got married”.

圖2 機器翻譯和詞對齊處理示例
Fig.2 An example of machine translation and word alignment
2.3 特征概述
對語料處理完畢之后,本文使用機器學習算法分別實現觸發詞的識別和分類兩個子任務,為了保障分類器的性能,選擇有效合理的特征是至關重要的.
選定一組包含基準特征、實體特征、句法特征和其他特征的特征組合,如表1所示.除了BV特征是只針對可用語料中的中文部分,其他的特征同時適應于中英文.BV特征是根據文獻[11]針對中文特有的組合語義特性而提出的用于識別觸發詞的規則定義而成,其中的觸發詞基礎詞包括單字動詞觸發詞,多字觸發詞中作為動詞的單字成分等.如果語料是單一的語言,那么特征是對應語言的特征,如果語料是源語言及其翻譯語言疊加的雙語語料,那么特征組合也須是雙語特征的疊加.

表1 特征描述
2.4 聯合學習模型
文獻[12]為了解決中文事件抽取任務中低質量的事件標記語料庫和假事件觸發詞對于真事件觸發詞的高比例兩個問題,提出了一個結合事件觸發詞識別和事件類型判別的聯合模型,使用整數線性規劃模型驗證了該方法的有效性.本文參考文獻[12]的方法,使用整數線性規劃模型將觸發詞的識別和分類兩個子任務結合,盡量降低文本翻譯等導致的噪音對實驗性能的影響.


(1)

(2)

(3)

(4)
(5)
(6)
然后,基于整數線性規劃聯合學習模型的事件識別就可以用目標函數來表示,

(7)
其中:D為某一文本中的所有候選詞詞集;Mi為該文本中所有第i個候選詞的集合.
除此之外,為了保證結果的一致性,本文使用了文獻[12]提出的約束條件中的3個簡單約束,它們同時適用于中英文事件抽取的約束條件,其中包括兩個局部約束和一個全局約束:
1) 局部約束1.如果當前詞觸發了第k類事件(1≤k≤33),那么該詞是真觸發詞,即
xi,j≥yi,j,k,?i∈D,j∈Mi, 1≤k≤33.
(8)
2) 局部約束2.如果當前詞是真觸發詞,那么它必觸發某一類事件,即

(9)
3) 全局約束.如果當前詞是真觸發詞,那么同一文本中的該詞都是真觸發詞,且它們對應的事件類型一致,即
xi,j=xi,l, ?i∈D,j,l∈Mi.
(10)
3.1 語料設置
本文的實驗訓練語料來自ACE2005的英文事件語料,測試語料來自ACE2005的中文事件語料,其中與本文相關的一些語料統計信息如表2所示.
3.2 實驗設置
本文采用最大熵分類模型作為分類算法,使用2.3小節中所述的特征組合,聯合學習模型使用整數線性規劃模型,用2.4小節的3個約束條件.本文根據語料的表達語言為依據,設計并實現了3組基于聯合學習的跨語言事件識別的對比實驗.
1) 訓練語料為英文語料的翻譯語料,測試語料為源中文語料(ET_C).
2) 訓練語料為源英文語料,測試語料為中文語料的翻譯語料(E_CT).
3) 訓練語料為源英文語料疊加其翻譯語料的雙語語料,測試語料為源中文語料疊加其翻譯語料的雙語語料(E+ET_C+CT).評價指標采用P(precision)、R(recall)和F1(f1-measure).
3.3 實驗結果與分析
針對每一組可用語料,本文首先實現了基于最大熵分類模型的跨語言事件識別,然后在此基礎上實現了基于聯合學習的跨語言事件識別.
3.3.1 基于最大熵分類模型的跨語言事件識別結果 表3分別給出了基于最大熵分類模型的跨語言事件識別系統在3組可用語料上的結果.由表3中的數據可知,在進行觸發詞的識別和分類時,使用英文翻譯語料測試源中文語料比使用源英文語料測試中文翻譯語料的效果要好的多,前者的精確率和召回率均高于后者.這可能是因為在中文翻譯成英文的過程中準確度和匹配度會降低,會損失更多有用的信息.而在源語言語料和翻譯語料疊加以后,會在一定程度上減輕這種損失,進一步平衡并提升系統的性能.使用雙語語料時候的F1值比ET_C在觸發詞的識別和分類上分別提升了約1.6%和3.3%,比E_CT分別提升了約8.8%和7.1%.

表2 語料信息統計
3.3.2 基于聯合學習的跨語言事件識別結果
表4給出了基于聯合學習的跨語言事件識別結果.與基于最大熵的跨語言事件識別結果類似,ET_C的結果好于E_CT,而E+ET_C+CT的雙語疊加后的效果好于其余二者,F1值在觸發詞的識別和分類上比ET_C分別提升了約3%和8.8%,比E_CT分別提升了約3%和10.1%.由此可見,源語言和翻譯語言疊加之后,可以有效地降低翻譯所損失的信息,進一步平衡或提升事件識別系統的性能.
綜合表3和4的結果,語料的雙語疊加比單獨使用源語言或者翻譯語言的效果要好,而使用基于聯合學習的方法比僅使用最大熵分類模型可以取得更好的觸發詞分類效果.

表3 基于最大熵分類模型的跨語言事件識別結果

表4 基于聯合學習的跨語言事件識別結果
為了能充分利用英文事件語料庫的信息幫助實現中文事件抽取,本文提出了一種基于聯合學習的跨語言事件識別方法.首先使用機器翻譯及詞對齊技術,將語料統一,然后選擇合適的特征,使用最大熵分類模型分別實現觸發詞的識別與分類任務,最后利用整數線性規劃的聯合學習模型將二者統一,結合局部約束和全局約束對結果進行優化.實驗證明,當將源語言語料和翻譯語料進行疊加之后,可以獲得更優異的觸發詞識別和分類效果,而聯合學習模型也使得觸發詞的分類性能得到了進一步的優化提升.
[1] 李保利,陳玉忠,俞士汶.信息抽取研究綜述[J]. 計算機工程與應用,2003,39(10):1-4.
[2] CHIEU H L, NG H T. A maximum entropy approach to information extraction from semi-structured and free text[C]//Proceeding Eighteenth National Conference on Artificial Intelligence. Alberta:Edmonton, 2002:786-791.
[3] AHN D. The stages of event extraction[C]//Arte’06 Proceedings of the Workshop on Annotating & Reasoning About Time & Events. Sydney,2006:1-8.
[4] JI H, GRISHMAN R. Refining event extraction through unsupervised cross-document inference[C]//Meeting of the Association for Computational Linguistics. Ohio,2008:254-262.
[5] LIAO S, GRISHMAN R. Using document level cross-event inference to improve event extraction[C]//Proceedings of the Meeting of the Association for Computational Linguistics.Uppsala, 2010:789-797.
[6] HONG Y, ZHANG J, MA B, et al. Using cross-entity inference to improve event extraction[C]//Meeting of the Association for Computational Linguistics: Human Language Technologies.Portland, 2011:1127-1136.
[7] LI Q, JI H, HUANG L. Joint event extraction via structured prediction with global features[C]//Proceedings of the Meeting of the Association for Computational Linguistics. Bulgaria:Sofia,2013:73-82.
[8] TAN H, ZHAO T, ZHENG J. Identification of Chinese event and their argument roles[C]//IEEE, International Conference on Computer and Information Technology Workshops. Sydney,2008:14-19.
[9] CHEN Z, JI H. Language specific issue and feature exploration in Chinese event extraction[C]//Human Language Technologies: Conference of the North American Chapter of the Association of Computational Linguistics.Boulder, 2009:209-212.
[10]QIN B,ZHAO Y Y,DING X, et al. Event type recognition based on trigger expansion[J]. Tsinghua science and technology, 2010, 15(3):251-258.
[11]LI P, ZHOU G, ZHU Q, et al. Employing compositional semantics and discourse consistency in Chinese event extraction[C]//Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island,2012:1006-1016.
[12]LI P, ZHU Q, DIAO H, et al. Joint modeling of trigger identification and event type determination in Chinese event extraction[C]// Proceedings of COLING 2012. Mumbai,2012:1635-1652.
[13]WAN X. Using bilingual knowledge and ensemble techniques for unsupervised Chinese sentiment analysis[C]//Conference on Empirical Methods in Natural Language Processing, EMNLP 2008. Hawaii: Honolulu, 2008:553-561.
[14]LI S, WANG R, LIU H, et al. Active learning for cross-lingual sentiment classification[M]. Berlin:Springer Berlin Heidelberg, 2013.
[15]JI H. Cross-lingual predicate cluster acquisition to improve bilingual event extraction by inductive learning[C]//UMSLLS '09 Proceedings of the Workshop on Unsupervised and Minimally Supervised Learning of Lexical Semantics. Boulder,2009:27-35.
[16]ZHU Z, LI S, ZHOU G, et al. Bilingual event extraction: a case study on trigger type determination[C]// ACL 2014, Proceedings of Meeting ofthe Association for Computational Linguistics. Baltimore Maryland, 2014:842-847.
[17]權聰敏,趙釗,文富安. 基于Lucene的智能答疑系統的研究與實現[J].鄭州大學學報(理學版),2007,39(2):46-49.
[18]OCH F J, NEY H. Improved statistical alignment models.[C]//Proceedings of Meeting of the Association for Computational Linguistics. Hong Kong, 2000:440-447.
[19]LI J, RESNIK P, DAUMé III H. Modeling syntactic and semantic structures in hierarchical phrase-based translation[C]//HLT-NAACL. Atlanta,2013: 540-549.
(責任編輯:方惠敏)
Cross Lingual Event Recognition Using Joint Modeling
YAN Qian, CHEN Jing, WANG Limin, LI Shoushan
(NaturalLanguageProcessingLab,SoochowUniversity,Suzhou215006,China)
Event recognition is a basic task of event extraction, which include trigger identification and trigger classification. English event corpus is better and more abundant to help Chinese event extraction.A cross lingual event recognition method was proposed to use joint modeling. Specifically, machine translation and word alignment technologies were applied to contain the consistency of corpus language and annotation information. Then a Maxent model was trained to get trigger identification and trigger classification results with appropriate features.Lastly, trigger identification and trigger classification were fused to optimize the results through integer liner programming, with local constraints and global constraints. The results of experiments showed that the proposed method was effective, especially using the bilingual corpus which contained the origin corpus and its translation corpus simultaneously.
event recognition; cross lingual; joint modeling; integer liner programming
2016-10-26
國家自然科學基金重點項目(61331011);國家自然科學基金項目(61375073,61273320).
嚴倩(1993—),女,江蘇鹽城人,碩士研究生,主要從事自然語言處理研究,E-mail: 20154227038@stu.suda.edu.cn.
TP301.6
A
1671-6841(2017)02-0060-06
10.13705/j.issn.1671-6841.2016282