楊萍 侯宏旭 蔣玉鵬 申志鵬 杜健
?
基于雙語對齊的漢語–新蒙古文命名實體翻譯
楊萍1,2侯宏旭1,?蔣玉鵬1申志鵬1杜健1
1.內蒙古大學計算機學院, 呼和浩特010021; 2.臨汾職業技術學院計算機系, 臨汾041000; ?通信作者, E-mail: cshhx@imu.edu.cn
漢語–新蒙古文命名實體翻譯在跨漢語–新蒙古文信息處理中具有重要意義, 而直接使用機器翻譯的方法不能達到滿意的結果。針對上述問題, 提出一種從漢語–新蒙古文平行語料中自動抽取漢語–新蒙古文命名實體翻譯對的方法。該方法只需對漢語端進行命名實體標注; 然后基于雙語HMM詞對齊結果, 利用滑動窗口的方法抽取所有候選命名實體翻譯對; 最后基于融合5種特征的最大熵模型, 對所有候選翻譯單位進行過濾, 選取與漢語端命名實體相對應的置信度最高的新蒙古文命名實體翻譯單位。實驗結果表明, 該方法優于基于HMM的方法, 在對齊模型只是部分準確的情況下, 也獲得較高準確率的漢語–新蒙古文命名實體翻 譯對。
命名實體; 識別; 翻譯; 雙語對齊
命名實體在人類語言中傳遞著非常重要的信息[1]。命名實體可以指出文檔里“何人(何組織)……何時……何地……”等主要內容, 因此識別命名實體是準確理解文檔的基礎。命名實體的識別在網絡信息抽取、網絡內容管理和知識工程等領域都具有非常重要的地位[2]。命名實體翻譯對機器翻譯、跨語言信息檢索等多語言信息處理領域意義重大, 因此有很多學者致力于命名實體識別和翻譯的研究。最早的命名實體翻譯研究開始于英語與阿拉伯語之間, Al-Onaizan等[3]使用音譯模型以及詞典查找的方法進行英語與阿拉伯語之間的命名實體翻譯。隨后越來越多的命名實體翻譯研究在不同的語種之間開展。Knight等[4]和Tsuji[5]進行了日語和英語命名實體翻譯的研究。韓語和英語的命名實體翻譯主要有Lee等[6]的工作。近年來, 漢語和英語命名實體之間的翻譯也受到越來越多的關注。Huang等[7]提出基于多特征代價最小的自動抽取漢語–英語命名實體翻譯對的方法。Wan等[8]和Feng等[9]也分別提出不同的漢語–英語命名實體翻譯方法。
近年來, 我國與蒙古國的經濟、政治、文化交流日益深入, 對新蒙古文信息處理技術的發展起到極大的促進作用, 同時也提出更高的要求。在傳統蒙古文的命名實體識別方面, 那順烏日圖等[10]采用基于規則的方法進行人名的自動識別, 召回率達到89%, 準確率為86%。通拉嘎[11]采用最大熵的數學模型, 實現蒙古語人名自動識別系統, 封閉測試的值為89.61%。這些研究只針對傳統蒙古文的人名識別, 未涉及傳統蒙古文地名及機構名的識別。在新蒙古文的命名實體識別和翻譯方面, 尚無相關論述。
采用音譯或意譯命名實體直接翻譯的方法進行漢語–新蒙古文命名實體的翻譯缺乏對命名實體自身組成結構以及上下文信息的考慮, 必然會影響翻譯結果。如果使用命名實體對齊的方法, 則需要對命名實體的識別和命名實體間的對齊都能很好地處理。目前, 需要懂得新蒙古文的人員在語料上進行命名實體的標注, 工作量大, 周期長。新蒙古文語料相對于英語、漢語等其他語言規模尚小, 必然會影響新蒙古文命名實體識別的效果。在命名實體識別中的部分識別、識別錯誤等問題在對齊過程中不能很好地糾正。
針對上述問題, 本文提出一種從只在漢語端標注了命名實體的漢語–新蒙古文平行語料中抽取漢語–新蒙古文命名實體翻譯對的方法。我們先用HMM詞對齊模型對雙語語料進行對齊, 然后基于對齊模型, 利用相關短語抽取技術[12], 抽取出與漢語端相對應的新蒙古文端的候選命名實體翻譯單位。用融合5種特征的最大熵模型對所有候選命名實體翻譯單位進行過濾, 得到與漢語端命名實體最匹配的新蒙古文端命名實體翻譯單位。實驗結果表明, 我們的實驗結果優于HMM模型, 在語料庫上得到的命名實體翻譯對的正確率為86.51%, 召回率為87.32%,值為86.91%。
1 詞對齊模型
IBM信源信道翻譯模型[13]包括語言模型和翻譯模型。其中, 翻譯模型可建模為
是一個表示源語言和目標語言句子中詞與詞對齊情況的隱含變量,=12…a, 其中a表示源語言句子里第個詞對應的目標語言句子中詞的位置。在一對句子的所有對齊方式中, 其訓練對齊模型中最大可能的對齊方式通常稱為最大近似對齊。
在IBM對齊模型中,
在HMM對齊模型下, 用Viterbe算法實現最大近似對齊, 即對齊a滿足
(a|a-1,)表示源語言句子當前詞對齊位置a對前一個詞對齊位置a-1的依賴關系,表示源語言的句長(s|t)表示詞的翻譯概率。
與IBM詞對齊模型相比, HMM 對齊模型考慮了當前詞對齊位置a對前一個詞對齊位置a-1的依賴關系, HMM模型比IBM模型更有利于對平行語料庫中的局部化現象進行有效的建模。因此, 我們在HMM詞對齊結果上來抽取候選漢語–新蒙古文命名實體翻譯對。
2 基于對齊模型的候選漢語–新蒙古文命名實體翻譯對的抽取
本文命名實體翻譯對的抽取經過3個步驟: 1) 漢語端命名實體的識別; 2)基于詞對齊模型, 生成與漢語端命名實體對應的新蒙古文端候選的翻譯單位; 3)對新蒙古文端的候選翻譯單位進行置信度估計, 從中選出置信度最高的漢語–新蒙古文命名實體翻譯對。
本文使用CRF模型進行漢語端命名實體識別。因為漢語命名實體識別不屬于本文重點討論的內容, 不再贅述。下面重點介紹漢語–新蒙古文候選命名實體翻譯等價對的生成和候選翻譯等價對的置信度估計。
2.1 候選漢語–新蒙古文翻譯對的生成
平行句對中, 源語言句子S與目標語言句子T中詞與詞之間的對應情況可以用詞對齊圖表示。在圖1中, 叉線所在的單元表示由最大近似對齊得到的詞對齊結果。在一個平行句對中, 可以用一個四元組假設H(c,c,m,m)來表示一個翻譯等價對。其中,c和c分別表示漢語命名實體的起始位置和結束位置;m和m分別表示與漢語端對應的新蒙古文端候選翻譯單位的起始位置和結束位置。例如, 在圖1中(2, 3, 2, 4)就可以表示一個翻譯等價對, 即漢語端由詞(2,3)組成的命名實體與新蒙古文端由詞(2,3,4)組成的候選翻譯單位對應。本文的翻譯等價對抽取任務就是找出合適的漢語與新蒙古文之間的翻譯對。
采用滑動窗口的方法, 從對齊圖中找出與漢語端對應的新蒙古文端的所有候選命名實體翻譯單位。如圖1所示, 如果(2,3)是漢語端的一個命名實體, 那么圖中粗線框選的所有對齊點所對應的新蒙古文端的詞就構成一個候選翻譯單位。即2, (2,3)和(2,3,4)就是與(2,3)對應的所有候選翻譯單位。利用這樣的方法可以產生較大數量的候選翻譯等價單位, 即使在對齊模型只是部分準確的情況下, 依然可能抽取到正確的命名實體翻譯對。
2.2 候選漢語–新蒙古文命名實體翻譯對的置信度估計
考慮到最大熵模型可以很好地融合不同的特征, 我們在此框架下對所有候選翻譯對進行置信度估計。對于漢語端命名實體nec和與之對應的所有候選新蒙古文端命名實體nem, 假設有個特征方程H(nec, nem),=1, 2, …, 對于每個特征函數, 都有一個對應的模型參數,=1, 2, …。漢語端與新蒙古文端命名實體對齊的概率可以定義為式(5)[14]:
選擇出與漢語端命名實體對應的最有可能的新蒙古文端命名實體翻譯單位, 如式(6)[14]所示:
結合命名實體翻譯的特點, 我們采用5個特征: 對齊一致性得分、翻譯得分、語言模型得分、共現得分、邊界得分。下面分別詳細介紹。
2.2.1 對齊一致性得分
任意一個漢語端的命名實體與它所對應的新蒙古文端的任何一個候選翻譯單位, 都在詞對齊圖中劃分了一個范圍。我們以這個劃分是否與最大近似對齊中的對齊點一致來對候選翻譯對進行對齊一致性置信度估計。對齊點A(,)與H(c,c,m,m)定義的劃分一致是指這個對齊點所對應的源語言端詞的位置與目標語言端詞的位置均在H所劃分的范圍內。對齊點A(,)與H(c,c,m,m)定義的劃分被認為不一致, 當且僅當滿足
每個H(c,c,m,m)都包括一個與該劃分一致的對齊點的集合和不一致的對齊點的集合。例如在圖1中, H(2, 3, 2, 4)就包括與其一致的對齊點{(2,2), (3,3), (3,4)}和與其不一致的對齊點集合{(1,4), (4,4), (2,6)}。用式(9)計算任意一個H(c,c,m,m)的對齊一致性得分:
其中, num(cons)和num(incons)分別表示與四元假設H(c,c,m,m)劃分范圍一致的對齊點的個數和不一致的對齊點的個數。在漢語-新蒙古文命名實體候選翻譯對的四元假設的劃分中, 如果一致的對齊點越多, 不一致的對齊點越少, 則該翻譯對的對其一致性得分就越高。
2.2.2 翻譯得分
組成漢語命名實體中的詞與組成新蒙古文命名實體的詞之間的翻譯概率, 對于考察漢語端命名實體與新蒙古文端命名實體的相近程度具有非常重要的作用。假設漢語端命名實體由個詞組成nec={1,2, …c}, 新蒙古文端候選命名實體翻譯單位由個新蒙古文詞組成nem={1,2, …m}, 則這個候選雙語命名實體對的翻譯得分可以由c與m之間的翻譯概率計算得到:
式(10)給出候選雙語命名實體對中的詞互譯的概率。可以看出, 該特征傾向于給含有詞數更多的命名實體翻譯單位以更高的分數。
2.2.3 語言模型得分
為了使與漢語端命名實體對應的新蒙古文端的翻譯單位最大程度地符合新蒙古文的語法, 在新蒙古文語料庫上進行語言模型的訓練LM(mn), 對候選新蒙古文端命名實體翻譯單位進行語言模型打分, 如式(11)所示:
對應于漢語端同一個命名實體, 在新蒙古文端包含詞數較多的命名實體翻譯單位傾向于獲得更高的翻譯得分, 這樣容易在新蒙古文命名實體翻譯單位中引入一些多余的詞。加入對語言模型得分的估計后, 候選命名實體翻譯單位中多余詞的存在會使該翻譯單位獲得很低的語言模型得分, 避免了翻譯得分帶來的偏差。例如, 在未加入語言模型得分之前, 我們獲得“孔子學院–К?нзийнИнститутулсын”的對應關系, 包含多余的詞“улсын”。但加入語言模型得分后, 我們得到準確的命名實體翻譯對“孔子學院–К?нзийнИнститут”。
2.2.4 共現得分
漢語端命名實體與候選新蒙古文端的命名實體翻譯單位在雙語語料庫中常常是同時出現的, 那么它們為翻譯等價對的可能性就非常大。從整個語料庫中得到的知識可以作為對句對間局部對齊信息特征的一個有效補充。用式(12)計算源漢語端命名實體與候選新蒙古文端命名實體的共現得分:
其中, num(nec, nem)是nec和nem共同出現的次數, num(*, nec)是nec出現的次數。
2.2.5 邊界得分
新蒙古文命名實體詞的開頭字母是大寫字母, 這是新蒙古文命名實體的一個重要特征。這一特征對于新蒙古文命名實體邊界的確定具有重要的作用。但在實際語料庫中存在著部分不規范的現象, 部分首字母應大寫的命名實體詞并未大寫。為了盡量減少上述錯誤對計算邊界得分的影響, 我們不直接考察組成命名實體的首詞或尾詞是否為首字母大寫。邊界得分是在該翻譯單位中首字母大寫的詞的個數占所有詞的個數的比例:
其中, num(CapWords)指在新蒙古文命名實體翻譯單位中, 首字母是大寫的詞的個數, num(words)代表在該翻譯單位中包括的所有詞的個數。
2.2.6 基于最大熵模型的漢–新蒙命名實體候選翻譯對的過濾
前面定義了5個特征函數。對于在漢語端標注出的每個命名實體, 需要計算與之對應的每個候選新蒙古文端命名實體翻譯單位的特征分數, 從而得到與漢語端命名實體對應的最佳的新蒙古文端翻譯單位。根據式(5), 使用MEM建模工具YASMET①進行最大熵模型的訓練。由于沒有漢語–新蒙古文命名實體翻譯對的標準訓練集, 采用bootstr-apping[15]方法指導訓練過程。首先在包括所有的候選漢語–新蒙古文命名實體翻譯對的訓練集上對模型進行訓練, 然后根據訓練得到的對各個候選翻譯對的概率估計, 對初始訓練集進行精簡, 得到剪裁后的訓練集, 并且對候選翻譯對進行排序。反復進行上述步驟, 直至模型收斂或得到的實體翻譯對變化不明顯為止。
3 實驗結果及分析
3.1 實驗設置
為了驗證本文提出的漢語–新蒙古文命名實體翻譯方法的有效性, 我們使用實驗室整理得到的12400句對的漢語–新蒙古文平行語料, 從中選取出300個漢–新蒙古文平行句對作為標準測試集(每個句對中至少包括一個命名實體翻譯對), 并用人工標注出這300個句對中所有的漢語和新蒙古文命名實體, 作為命名實體翻譯對的標準答案。
使用基于CRF模型的漢語命名實體識別方法, 在剩余的12100平行句對的漢語端進行漢語命名實體識別, 并進行漢語–新蒙古文命名實體翻譯對抽取的訓練。訓練集和測試集中各個實體類別的數目如表1所示。

表1 訓練集和測試集實體數目
3.2 評價標準
假設*是漢語端標注出的所有的命名實體的集合,是用本文的方法在*基礎上抽取得到的漢語–新蒙古文命名實體翻譯對的集合,是雙語語料中基于*的所有的正確的命名實體翻譯對。我們用準確率()、召回率()、值作為評價標準。
3.3 實驗方法與結果
首先用實驗室完成的基于CRF模型的漢語命名實體識別方法, 對雙語語料的漢語端進行命名實體的標注。采用GIZA++工具包[16]訓練得到從漢語–新蒙古文、新蒙古文–漢語單向最大近似對齊結果, 并使用GROW-DIAG-FINAL算法[17]對兩個方向的對齊文件進行合并, 得到漢語與新蒙古文雙向最大近似詞對齊結果。然后用SRILM①訓練一個新蒙古文端的3-gram語言模型。為了考察詞切分對基本對齊以及命名實體翻譯對抽取的影響, 我們進行了兩組實驗: 第一組對漢語端進行分詞, 訓練漢語–新蒙古文雙向詞對齊, 在此基礎上, 用本文提出的方法進行雙語命名實體翻譯對的抽取; 第二組實驗不對漢語端分詞, 只切分為單個的字。實驗得到的漢語–新蒙古文命名實體翻譯對如表2所示, 實驗結果如表3所示。

表2 漢語–新蒙古文命名實體翻譯對示例

表3 實驗結果
表2中, HMM是直接在HMM對齊模型上抽取得到的漢語–新蒙古文命名實體翻譯對的實驗結果, 作為基線系統。HMM+MEM指在HMM對齊模型上抽取漢語–新蒙古文候選命名實體翻譯對, 再對候選翻譯對融合5種特征的最大熵模型進行置信度估計, 選取置信度最高的命名實體翻譯對。從實驗結果可以看到, 無論是HMM還是本文方法, 不對漢語端進行分詞, 抽取出的命名實體翻譯對的值都高于分詞后的結果。最主要的原因是減少了分詞錯誤對句對間詞對齊以及命名實體翻譯對抽取的錯誤傳遞。
實驗表明, 本文選擇用來刻畫漢語–新蒙古文命名實體翻譯對的特征, 對于命名實體翻譯對的抽取是非常有幫助的。對齊一致性得分為命名實體翻譯對的抽取提供了句對間的上下文信息; 翻譯得分指明了漢語端命名實體與候選新蒙古文端翻譯單位的相近程度; 語言模型得分使抽取到的新蒙古文端命名實體單位盡量符合新蒙古文語法; 共現得分為命名實體翻譯對的抽取提供了整個訓練語料庫中漢語詞與新蒙古文詞之間的共現知識; 邊界得分則充分考慮了新蒙古文命名實體詞首字母大寫的特性。
4 結束語
命名實體翻譯中, 對稱對齊的方法需要在源語言端與目標語言端都進行命名實體識別, 且在一端識別錯誤, 即使另一端識別正確的情況下, 該錯誤也無法在對齊過程中糾正。目前, 可用于新蒙古文命名實體識別的標注語料規模尚小, 直接影響新蒙古文命名實體的識別效果。針對上述問題, 本文給出一種只需在漢語端進行命名實體標注, 從漢–新蒙古文平行語料中抽取漢–新蒙古文命名實體翻譯對的方法, 在HMM詞對齊模型上抽取候選漢–新蒙古文翻譯單位, 然后用基于最大熵模型對候選翻譯對進行過濾, 最終得到質量較高的實體翻譯對。實驗表明, 與基于HMM的方法相比, 本文方法的實驗結果有了很大提高。本文抽取出的一些實體翻譯對還有不正確的地方, 在下一步工作中, 可以考慮新蒙古文命名實體自身的語言特征, 并可以加入一些規則, 使得實驗效果更好。
[1]Bikel D M, Miller S, Schwartz R, et al. Nymble: a high-performance learning name-finder // Proceedings of the Fifth Conference on Applied Natural Language Processing. Stroudsburg, PA: Association for Computa-tional Linguistics, 1997: 194–201
[2]趙軍. 命名實體識別, 排歧和跨語言關聯. 中文信息學報, 2009, 23(2): 3–17
[3]Al-Onaizan Y, Knight K. Translating named entities using monolingual and bilingual resources // Proce-edings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Asso-ciation for Computational Linguistics, 2002: 400–408
[4]Knight K, Graehl J. Machine transliteration. Compu-tational Linguistics, 1998, 24(4): 599–612
[5]Tsuji K. Automatic extraction of translational Japanese-KATAKANA and English word pairs from bilingual corpora. International Journal of Computer Processing of Oriental Languages, 2002, 15(3): 261–279
[6]Lee J S, Choi K S. A statistical method to generate various foreign word transliterations in multilingual information retrieval system // Proceedings of the 2nd International Workshop on Information Retrieval with Asian Languages (IRAL’97). New York, 1997: 123–128
[7]Huang F, Vogel S, Waibel A. Automatic extraction of named entity translingual equivalence based on multi-feature cost minimization // Proceedings of the ACL 2003 Workshop on Multilingual and Mixed-Language Named Entity Recognition—Volume 15. Stroudsburg, PA: Association for Computational Linguistics, 2003: 9–16
[8]Wan S, Verspoor C M. Automatic English-Chinese name transliteration for development of multilingual resources // Proceedings of the 17th International Conference on Computational Linguistics—Volume 2. Stroudsburg, PA: Association for Computational Linguistics, 1998: 1352–1356
[9]Feng D, Lü Y, Zhou M. A new approach for English-Chinese named entity alignment // Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP).Stroudsburg, PA, 2004: 372–379
[10]那順烏日圖, 雪艷, 淑琴, 等. 蒙古文人名自動識別研究// 語言計算與基于內容的文本處理: 全國第七屆計算語言學聯合學術會議論文集. 北京: 清華大學出版社, 2003: 97-102
[11]通拉嘎. 基于蒙古文語料庫的人名自動識別[D]. 北京: 中央民族大學, 2013
[12]Venugopal A, Vogel S, Waibel A. Effective phrase translation extraction from alignment models // Proceed-ings of the 41st Annual Meeting on Association for Computational Linguistics—Volume 1. Stroudsburg, PA: Association for Computational Linguistics, 2003: 319–326
[13]Brown P F, Pietra V J D, Pietra S A D, et al. The mathematics of statistical machine translation: para-meter estimation. Computational Linguistics, 1993, 19(2): 263–311
[14]Och F J, Ney H. Discriminative training and maximum entropy models for statistical machine translation // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Strouds-burg, PA: Association for Computational Linguistics, 2002: 295–302
[15]Abney S. Bootstrapping // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg, PA: Association for Compu-tational Linguistics,2002: 360–367
[16]Och F J, Ney H. A systematic comparison of various statistical alignment models. Computational Linguis-tics, 2003, 29(1): 19–51
[17]Koehn P, Hoang H, Birch A, et al. Moses: open source toolkit for statistical machine translation // Proceed-ings of the 45th Annual Meeting of the ACL on Interactive Poster and Demonstration Sessions. Stroudsburg, PA: Association for Computational Linguistics, 2007: 177–180
Chinese-Slavic Mongolian Named Entity Translation Based on Word Alignment
YANG Ping1,2, HOU Hongxu1,?, JIANG Yupeng1, SHEN Zhipeng1, DU Jian1
1. College of Computer Science, Inner Mongolia University, Hohhot 010021; 2. Department of Computing, Linfen Vocational and Technical College, Linfen 041000; ?Corresponding author, E-mail: cshhx@imu.edu.cn
Chinese to Slavic Mongolian Named Entity Translation in cross Chinese and Slavic Mongolian information processing has a very important significance. However, using the machine translation method directly cannot achieve satisfactory result. In order to solve the above problem, a novel approach was proposed to extract Chinese-Slavic Mongolian Named Entity pairs automatically. Only the Chinese named entities need to be identified, then extracting all of the candidate named entity pairs using sliding window method based on HMM word alignment result. Finally filtering all of the candidate named entity translation units based on Max Entropy Model integrated with five features, and choose the most probable aligned Slavic Mongolian NEsto the Chinese NEs.Experimental results show that this approach outperforms HMM model, achieves high quality of Chinese-Slavic Mongolian named entity pairs with relatively high precision, even though sometimes the word alignment result is partially correct.
named entity; recognition; translation; bilingual word alignment
10.13209/j.0479-8023.2016.006
TP391
2015-06-07;
2015-08-18; 網絡出版日期: 2015-09-29
國家自然科學基金(61362028)資助
① http://www.fjoch.com/YASMET.html
① http://www.speech.sri.com/projects/srilm/