摘要:為了提高翻譯系統的翻譯準確率,在短語基礎上結合模板的方法自動抽取模板結構;解碼時,首先進行模板匹配,套用模板結構進行翻譯,然后再按照Beam Search搜索算法進行后續翻譯。因此,該方法可以有效地解決單一的統計翻譯中語序錯誤。以漢蒙翻譯為例,實驗結果顯示此方法可以有效地提高翻譯效果,翻譯效率比基于短語的統計翻譯方法提高10%。
關鍵詞:基于短語的統計機器翻譯;模板抽取;短語模型;語言模型;翻譯模型
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2008)32-1247-03
A Research on Statistical and Template for Double Tiers Chinese Mongolian Machine Translation
ZHANG Guan-hong, GAO Ling-ling
(Key Lab of Network and Intelligent Information Processiong, Heifei University, Hefei 230601, China)
Abstract: To improve the accuracy of the translation of the Chinese- National language Machine Translation System, this paper proposes the methods that combine the Phrase-Based Statistical Machine Translation and template based machine translation, using different methods automatically extracted template structure; Decoding, the first for template matching, use the template structure of the translation, and then according to Beam Search search algorithm to a follow-up translation. Thus, the method can be effectively resolved Word Order errors in a single statistical translation. Take A Chinese-Mongolian translation as an example, the experimental results show that this method can effectively improve translation effects. The translation efficiency increased by 10% than phrase-based statistical machine translation methods .
Key words: phrase-based statistical machine translation; template extraction; phrase model; language model; translation model
1 引言
目前機器翻譯正朝著多元化,多引擎的方向發展。基于統計的機器翻譯的主流仍然是基于短語的統計機器翻譯,許多學者是在對短語模型(Och et al., 1999; Marcu and Wong, 2002; Yamada and Knight, 2002; Tillmann and Xia, 2003)進行改進來提高翻譯的效率。目前在處理漢語到民族語言的翻譯中,由于民族語言語料庫相對較少,用單一的統計機器翻譯方法效果不理想。機器翻譯的模板是機器翻譯系統中一種重要的知識表示形式,由于它具有表達簡潔,形式直觀、概括性強等優點,近年來受到廣泛的關注。本文是在基于短語的統計機器翻譯的基礎上加入領域模板和反映句法信息的模板,很好的彌補了小語料庫導致的局限性。
2 基于短語的統計機器翻譯概述
2.1 翻譯模型
翻譯模型是一種基于雙語短語的方法,其中包括雙語短語(BP),它是由互為翻譯的單語短語(MP)對組成。基于短語的翻譯的基本思想是,把源語言的句子劃分成幾個短語的形式,然后將這些源語言短語翻譯成目標語言的形式。短語翻譯模型的訓練以雙語對齊的語料庫為輸入,訓練出短語翻譯表。短語翻譯模型主要有以下四個模塊[2,9]。
Och和Ney[3]提出了一種精煉從GIZA++中得到的對齊的啟發式方法。該方法首先利用GIZA++進行源到目標和目標到源語言的雙向詞語對齊。首先從雙向詞語對齊的交集開始,采用啟發式的方法向雙向詞語對齊的并集進行擴充。Koehn[4]對他們的啟發式方法進行了詳細的實現,在Koehn的實現中,首先從雙向對齊的結果的交集開始,在雙向對齊的并集中增加對齊點,這些對齊點包括交集對齊點的鄰居點和它們之外遺失的對齊點。
2.1.2 詞語評分
根據詞語對齊的結果,計算出兩個詞語之間翻譯的最大概率。這里采用的是最大似然法。
2.1.3 短語抽取
抽取方法就是提取對齊矩陣中的所有以對齊點為頂點的矩形,條件是與矩形所在行范圍內的源詞對齊的目標詞也都在這個矩形的列范圍內,反之亦然。
2.1.4 短語評分
計算抽取出的短語對的翻譯概率,包括五個部分:源和目標雙向的短語翻譯概率和短語詞典概率和短語懲罰概率。
短語翻譯模型訓練的流程如圖1所示。
3 模板的定義和抽取方法
3.1 模板的定義
在計算翻譯模型概率與語言模型概率時不可避免的會遇到數據稀疏問題,為此當構成短語對的雙方同時出現表示命名實體或數字的詞時,用規定的代表這一類詞的變量來代替,這樣就使原來的短語具有了泛化能力,也從一定程度上解決了數據稀疏問題,我們把含有變量的短語稱為短語模板,這樣不含變量的短語只是短語模板中的特例[6]。
一條完整的模板T是一個二元組(Tsrc,Ttar),其中Tsrc稱為源語模板,Ttar稱為譯語模板,且Tsrc和Ttar包括固定不變的部分和可變部分。固定不變的部分為常量,可變的部分為變量。例如:把*打開,*(*表示一個或多個詞) 既為可變部分[7]。
3.2 非連續模板的抽取
在非連續短語方法中,首先需要區分基本短語和擴展短語的概念。基本短語即普通的連續詞串,不包含作為占位符的非終結符;擴展短語即包含占位符的非連續短語[4,13]。
非連續模板的抽取方法在Och的短語抽取方法的基礎上進行抽取,抽取算法如下:
輸入:對齊矩陣A,源語言句子為sI,目標語言句子為tJ
輸出:非連續的短語模板對
for i1 from 1 to I
{//循環每一個目標語言句子詞串,不超過最大短語長度;
for i2 from 1 to I{
TP = {j|?i : i1≤i≤i2∧A(i,j)};
if (quasi-consecutive (TP) ) TP是連續的{
j1 = min(TP) j2 = max(TP)
SP := {i |?j : j1≤j≤ 2∧A(i,j)}; if(SP?{i1, i1+1,..., i2}){
BP = BP∪{(si2i1 , tj2j1)};}
抽取的模板實例如圖2所示,其中*表示未知量,可以是單詞或短語。
4 解碼實現步驟及系統實現框架
4.1 翻譯解碼算法
首先搜索模板,進行模板匹配,如果匹配成功則套用模板結構進行翻譯,對模板中的變量使用改進的Beam Search的方法進行搜索,對一個給定的句子首先確定可能的翻譯候選項,每個翻譯的中間狀態稱為一個假設,初始狀態即為初始假設為沒有詞被翻譯。從初始假設開始,逐步對待翻譯的句子中可能的翻譯候選項進行擴展;已經翻譯的部分根據已經翻譯的詞的長度分別放置在相應的棧(Beam)中;翻譯過程的擴展過程即從一個棧向另一個棧的調轉過程;覆蓋整個句子的最后一個棧中,概率最高的棧元素作為翻譯結果輸出[10]。
4.2 系統實現框架
系統的實現框圖如圖3所示。
由以下四個步驟組成:
1) 語料庫準備階段,需要規范的源語言和目標語言語料庫;語料庫必須為句子對應的形式。首先對規范的漢蒙雙語語料庫利用GIZA++訓練工具進行,得到源語言到目標語言和目標語言到源語言的兩個詞語對齊的文件。
2) 語料庫處理階段,對規范的語料庫按照前文介紹的方法進行模板的抽取,短語翻譯模型的訓練和目標語言模型的訓練。模板的抽取按照上述算法包括非連續模板抽取,農業詞匯模板抽取,和謂語驅動的模板抽取。短語翻譯模型的訓包括詞語對其,詞語評分,短語抽取和短語評分。目標語言的訓練主要是訓練成Arpa格式的語言模型,包括詞的一元信息、二元信息、三元信息。
3) 根據輸入所需翻譯的句子,語言模型的訓練結果,翻譯模型的訓練結果和抽取的模板作為解碼器的輸入,按照上面的解碼算法進行解碼。得到目標語言的翻譯結果。
4) 對翻譯的結果進行后處理,選擇N-best中的最佳值,得到最佳的翻譯結果。
5 實驗結果
根據上述原理,以漢蒙以漢蒙語料庫為基礎進行試驗,翻譯效果有很大的提高。部分句子翻譯結果如圖4所示。
可以看到在基于短語的統計機器翻譯的基礎上加入模板可以很好的解決漢語和民族語言中由于句法不同導致的翻譯錯誤。比如漢語中謂語動詞在賓語的前面而在蒙語中謂語動詞在賓語的后面。
6 結束語
本文提出了一種在基于短語的統計機器翻譯中加入模板的方法。兩種方法結合,既可以解決統計翻譯中需要大規模語料庫的問題,又可以解決模板方法中的由于模板的規模小而導致翻譯效果不理想的問題。實驗結果表明,兩種方法的結合,有下面幾點的改進:1)消除了單一的統計機器翻譯中的語序的混亂問題;2)回避基于模板中海量模板的抽取以及搜索所需要的時間以及空間問題;3) 很好的解決漢語和民族語言(主要是漢蒙/維/彝//藏)由于句法結構造成的語序混亂問題;4) 很好的解決的農業專用語詞匯的翻譯問題。最后的翻譯效率大大高于單獨使用其中一種方法。
另外,在兩種方法的結合解碼過程中,我們主要還是利用了Beam Search的方法,在其中加了模板的搜索這個模塊。以后的研究過程中,要更好的把模板的搜索和短語的搜索相結合,對翻譯模型訓練的結果要進一步的進行后處理,來最大限度的提高漢語和民族語言之間的翻譯效率。
參考文獻
[1] 劉群. 統計機器翻譯綜述[J].中文信息學報, 1023-0067(2006)01-00101-11
[2] F. Och, C. Tillmann, and H. Ney, Improved alignment models for statistical machine translation, in Proc. of EMNLP/WVLC, 1999.
[3] A. Stolcke, SRILM - an extensible language modeling toolkit, in Proc. Intl. Conf. Spoken Language Processing,September 2002.
[4] 張大鯤,張瑋,馮元勇,等.基于非連續的統計翻譯模型研究[J].中文信息學報,2007,01-00101-08
[5] 陳晴,姚天順.基于謂詞驅動模板的漢日機器翻譯方法[J].中文信息學報.
[6] 林賢明,李堂秋,史曉東.基于模板的機器翻譯系統中模板庫的自動構建技術[J],計算機應用,2004,24(9):
[7] 楊振東,龐薇,魏瑋,等.基于短語模板對齊的統計機器翻譯系統[J],中文信息學報,
[8] Guvenir H A, Cicekli I. Learning Translation Templates From Examples[J]. In: Information Systems,1998,23(6):353-363.
[9] Koehn P, Och F J, Marcu D. Statistical Phrase-Based Translation[A],In: Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics [C].Edmonton,Alberta,Canada,2003.
[10] Koehn P. A Beam Search Decoder for Phrase-Based Statistical Machine Translation Models[A].In: Proceedings of the Sixth Conference of the Association for Machine Translation in the Americas [c],2004.
[11] Zens R, H. Ney, T. Watanabe, and E. Sumita, Reordering constraints for phrase-based statistical machine translation, in Proceedings of Coling 2004. Geneva, Switzerland: COLING,Aug 23–Aug 27 2004, pp. 205–211.
[12] R. Zens and H. Ney, A comparative study on reordering constraints in statistical machine translation, in Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics.