盧世祥 雷曉江 楊勁鋒
摘 要 統計機器翻譯中,語言模型的性能受限于訓練數據的數量和質量。為提高其性能,通常采用數據篩選的方法篩選合適的訓練數據。本文對基于雙語數據篩選的方法進行了全面綜述和分析,并對各類方法進行了比較和總結。
【關鍵詞】統計機器翻譯 雙語數據篩選 語言模型自適應
在統計機器翻譯中,語言模型的性能受限于訓練數據的數量和質量,并不是僅靠增加訓練數據的規模就可以提高語言模型的性能,也要訓練數據和當前翻譯任務相匹配。因此,很多學者選擇從大規模訓練數據中篩選和當前翻譯任務相似的訓練數據的角度來提高語言模型的性能。這樣可以提供更精確的模型概率,也更和當前翻譯任務相匹配,進而提高翻譯性能。
前人的基于數據篩選的語言模型自適應方法大都依賴于一次解碼的翻譯結果,他們根據一次解碼的翻譯結果從目標語言端語言模型的訓練數據中篩選和當前翻譯任務相似的訓練數據。這些方法全部受限于翻譯結果的質量,越好的初始翻譯結果會帶來越精確的篩選到的數據。但是翻譯結果遠不夠精確,里面有很多噪聲數據。帶有噪聲的翻譯結果會誤導數據篩選過程,進而將噪聲帶入篩選到的訓練數據中,最終導致“噪聲繁衍”的問題,降低自適應后的語言模型的性能。
另外,傳統的數據篩選方法都是基于詞袋模型的,可以看作是上下文內容無關的。這些方法在整個數據篩選過程中將詞語孤立看待,以詞為單位,沒有考慮上下文內容信息,會降低篩選到的數據的質量。
為了解決以上方法的不足,很多學者從跨語言數據篩選和引入上下文內容的角度提出了雙語數據篩選方法,基本上可以分為基于翻譯模型的雙語數據篩選和基于主題模型的雙語數據篩選兩類方法。在本論文中我們將對這兩類方法進行全面綜述和分析,最后給出相關的比較,總結和展望。
1 基于雙語數據篩選的翻譯模型自適應方法
1.1 基于詞翻譯的雙語數據篩選(CLWTM)
1.2 基于短語翻譯的雙語數據篩選(CLPTM)
首先,每一個句子T被分割成K個非空的短語序列t1,…,tk的集合U;其次,非空的短語系列t1,…,tk被依次轉化(翻譯)成一系列的非空的短語系列q1,…,qk;最后,將得到的短語轉化(翻譯)序列q1,…,qk的集合V 進行調序組合生成句子S。
在以上假設下,基于短語翻譯的雙語數據篩選可以表示為:
其中,M表示K個短語調序后的結果;B(T,S)定義為U,V和M構成的三元組集合,表示將T轉換成S的過程。
對于給定的部分對齊關系,我們關注的是由U,V和M構成的三元組與部分對齊關系是一致的,記為B(T,S, )。一旦詞語對齊關系確定了,調序部分就可以忽略。利用最大化求和可以得到:
不同于基于詞的翻譯模型,基于短語的模型在數據篩選過程以短語為單位,融入了上下文信息,理論上可以獲得更好的性能,但是直接運用基于短語翻譯的相似值計算進行數據篩選效果不好。為提高性能,通常采用線性排序的方法,將不同的模型作為特征,融合到統一的框架中。例如,短語翻譯特征,詞匯化特征,詞翻譯特征等。
1.3 基于聯合雙語主題模型的雙語數據篩選(JBLTM)
在數據篩選任務中,對于一個相似的雙語句對我們假設有完全相同的主題分布,以主題分布為目標去做雙語數據的相似值計算。對于任何一個主題z,從一個帶有參數β的狄利克雷先驗分布中選取一對不同的詞分布(φ, φ)。其中,φ和φ分別是S和T的具體主題詞分布。對于每個S以及跟它配對的T,可以從一個帶有參數α的狄利克雷先驗分布中提取相應的主題分布β。句子S中的每個詞可以通過先根據β選擇一個主題z來生成,然后再從φ中抽取出一個詞。
在以上條件下,一個跨語言主題相似句對的基于語義的對數可能性以及詞-主題分布可以計算如下:
接下來,通過最大化雙語數據的聯合對數可能性,并采用標準EM算法去估算參數(θ,φS,φT)。E步驟:針對每個隱變量z,計算句子S中的每個詞s和配對句子T中的每個詞t的后驗概率;M步驟:通過E步驟計算得到的后驗概率來更新參數。
1.4 基于成對雙語主題模型的雙語數據篩選(CBLTM)
在數據篩選任務中,對于一個相似的雙語句對不一定要有完全相同的主題分布,更加合理的應該是相似的主題分布。因為相似句對在長度不同的時候,主題分布不可能完全相同變得尤其明顯。我們希望JBLTM趨向于在長句時的主題向量的生成更好,使得句對中兩個句子的對數可能性更高,而短句的最好的主題分布權重相對更小,進而在JBLTM基礎上我們提出了CBLTM。
2 比較與總結
以上四種雙語數據篩選方法可以基本分為兩類:基于翻譯模型的雙語數據篩選和基于主題模型的雙語數據篩選:
2.1 基于翻譯模型的雙語數據篩選方法
相對于傳統的利用單語數據篩選的方法,雙語數據篩選可以解決“噪聲繁衍”的問題。另外,相對于傳統的基于詞袋模型的方法和基于詞翻譯的雙語數據篩選方法,基于短語翻譯的雙語數據篩選方法能夠從詞匯的層面考慮“局部”上下文內容,在數據篩選過程中以短語為處理單位,提高數據篩選精度。
2.2 基于主題模型的雙語數據篩選方法
該類方法可以從詞的主題分布的層面考慮“全局”上下文內容。假設語義相關的詞經常出現在相似的上下文中,而這些語義相關的詞通常可以看作是一個“主題”。該類方法將雙語數據篩選過程看作是在語言上獨立地跨語言語義表示,并且假設相似的雙語數據句對含有相同或是相似的主題分布,也就是相同或相似的全局上下文信息。基于聯合雙語主題模型的雙語數據篩選方法對跨語言相似的句對賦予相似的主題分布并且在建模過程中對于不同長度的句對處理是相同的,所以更加適合于基于雙語數據篩選的語言模型自適應任務,并且有更好的性能。
相關實驗結果表明,相對于傳統方法,以上兩類方法可以進一步提升數據篩選的性能,在語言模型困惑度和翻譯性能方面都有明顯提高,最終提高統計機器翻譯中語言模型自適應的性能。endprint
從系統融合角度來說,基于翻譯模型的雙語數據篩選方法和基于主題模型的雙語數據篩選方法對于雙語數據篩選過程是相互補充的,可以通過線性排序函數對這兩類方法進行融合,進一步提高數據篩選的性能。融合后的模型既能從詞匯的層面考慮上下文信息,又能從語義的層面考慮上下文信息,因此融合后的模型比單一模型具有更好的上下文描述能力。
雖然以上數據篩選方法性能都相對很好,但是在實際系統運用中模型過于復雜,需在系統實現上做進一步的優化,精簡模型。如做相應的關鍵詞信息處理,利用TextRank算法提取相應的關鍵詞并對訓練數據做處理,在此基礎上訓練模型。另外,要在根本上提高語言模型自適應的性能,還需在模型和大數據方面做相應的深入研究,一是要做到數據融合和模型整合的統一,二是要做到海量規模的訓練數據。
參考文獻
[1] Matthias Eck, Stephan Vogel and Alex Waibel. Language model adaptation for statistical machine translation based on information retrieval. Proceedings of LREC 2004, pages 327-330.
[2] Bing Zhao, Matthias Eck, and Stephan Vogel. Language model adaptation for statistical machine translation via structured query models. Proceedings of COLING 2004, pages 411-417.
[3] Sameer Maskey and Abhinav Sethy. Resampling auxiliary data for language model adaptation in machine translation for speech. Proceedings of ICASSP 2010, pages 4817-4820.
[4] Almut Silja Hildebrand, Matthias Eck, Stephan Vogel, and Alex Waibel. Adaptation of the translation model for statistical machine translation based information retrieval. Proceedings of EAMT 2005, pages 133-142.
[5] Sankaranarayanan Ananthakrishnan, Rohit Prasad, and Prem Natarajan. On-line language model biasing for dtatistical machine translation. Proceedings of ACL 2011, pages 445-449.
[6] Amittai Axelrod, Xiaodong He, and Jianfeng Gao. Domain adaptation via pseudo in-domain data selection. Proceedings of EMNLP 2011, pages 355-362.
[7] Shixiang Lu, Wei Wei, Xiaoyin Fu, and Bo Xu. Translation model based cross-lingual language model adaptation: from word models to phrase models. Proceedings of EMNLP-CoNLL 2012, pages 512-522.
[8] Shixiang Lu, Xiaoyin Fu, Wei Wei, Xingyuan Peng, and Bo Xu. Joint and coupled bilingual topic model based sentence representations for language model adaptation. Proceedings of IJCAI 2013, pages 2141-2147.
作者單位
廣東電網公司電力科學研究院 廣東省廣州市 510080endprint
從系統融合角度來說,基于翻譯模型的雙語數據篩選方法和基于主題模型的雙語數據篩選方法對于雙語數據篩選過程是相互補充的,可以通過線性排序函數對這兩類方法進行融合,進一步提高數據篩選的性能。融合后的模型既能從詞匯的層面考慮上下文信息,又能從語義的層面考慮上下文信息,因此融合后的模型比單一模型具有更好的上下文描述能力。
雖然以上數據篩選方法性能都相對很好,但是在實際系統運用中模型過于復雜,需在系統實現上做進一步的優化,精簡模型。如做相應的關鍵詞信息處理,利用TextRank算法提取相應的關鍵詞并對訓練數據做處理,在此基礎上訓練模型。另外,要在根本上提高語言模型自適應的性能,還需在模型和大數據方面做相應的深入研究,一是要做到數據融合和模型整合的統一,二是要做到海量規模的訓練數據。
參考文獻
[1] Matthias Eck, Stephan Vogel and Alex Waibel. Language model adaptation for statistical machine translation based on information retrieval. Proceedings of LREC 2004, pages 327-330.
[2] Bing Zhao, Matthias Eck, and Stephan Vogel. Language model adaptation for statistical machine translation via structured query models. Proceedings of COLING 2004, pages 411-417.
[3] Sameer Maskey and Abhinav Sethy. Resampling auxiliary data for language model adaptation in machine translation for speech. Proceedings of ICASSP 2010, pages 4817-4820.
[4] Almut Silja Hildebrand, Matthias Eck, Stephan Vogel, and Alex Waibel. Adaptation of the translation model for statistical machine translation based information retrieval. Proceedings of EAMT 2005, pages 133-142.
[5] Sankaranarayanan Ananthakrishnan, Rohit Prasad, and Prem Natarajan. On-line language model biasing for dtatistical machine translation. Proceedings of ACL 2011, pages 445-449.
[6] Amittai Axelrod, Xiaodong He, and Jianfeng Gao. Domain adaptation via pseudo in-domain data selection. Proceedings of EMNLP 2011, pages 355-362.
[7] Shixiang Lu, Wei Wei, Xiaoyin Fu, and Bo Xu. Translation model based cross-lingual language model adaptation: from word models to phrase models. Proceedings of EMNLP-CoNLL 2012, pages 512-522.
[8] Shixiang Lu, Xiaoyin Fu, Wei Wei, Xingyuan Peng, and Bo Xu. Joint and coupled bilingual topic model based sentence representations for language model adaptation. Proceedings of IJCAI 2013, pages 2141-2147.
作者單位
廣東電網公司電力科學研究院 廣東省廣州市 510080endprint
從系統融合角度來說,基于翻譯模型的雙語數據篩選方法和基于主題模型的雙語數據篩選方法對于雙語數據篩選過程是相互補充的,可以通過線性排序函數對這兩類方法進行融合,進一步提高數據篩選的性能。融合后的模型既能從詞匯的層面考慮上下文信息,又能從語義的層面考慮上下文信息,因此融合后的模型比單一模型具有更好的上下文描述能力。
雖然以上數據篩選方法性能都相對很好,但是在實際系統運用中模型過于復雜,需在系統實現上做進一步的優化,精簡模型。如做相應的關鍵詞信息處理,利用TextRank算法提取相應的關鍵詞并對訓練數據做處理,在此基礎上訓練模型。另外,要在根本上提高語言模型自適應的性能,還需在模型和大數據方面做相應的深入研究,一是要做到數據融合和模型整合的統一,二是要做到海量規模的訓練數據。
參考文獻
[1] Matthias Eck, Stephan Vogel and Alex Waibel. Language model adaptation for statistical machine translation based on information retrieval. Proceedings of LREC 2004, pages 327-330.
[2] Bing Zhao, Matthias Eck, and Stephan Vogel. Language model adaptation for statistical machine translation via structured query models. Proceedings of COLING 2004, pages 411-417.
[3] Sameer Maskey and Abhinav Sethy. Resampling auxiliary data for language model adaptation in machine translation for speech. Proceedings of ICASSP 2010, pages 4817-4820.
[4] Almut Silja Hildebrand, Matthias Eck, Stephan Vogel, and Alex Waibel. Adaptation of the translation model for statistical machine translation based information retrieval. Proceedings of EAMT 2005, pages 133-142.
[5] Sankaranarayanan Ananthakrishnan, Rohit Prasad, and Prem Natarajan. On-line language model biasing for dtatistical machine translation. Proceedings of ACL 2011, pages 445-449.
[6] Amittai Axelrod, Xiaodong He, and Jianfeng Gao. Domain adaptation via pseudo in-domain data selection. Proceedings of EMNLP 2011, pages 355-362.
[7] Shixiang Lu, Wei Wei, Xiaoyin Fu, and Bo Xu. Translation model based cross-lingual language model adaptation: from word models to phrase models. Proceedings of EMNLP-CoNLL 2012, pages 512-522.
[8] Shixiang Lu, Xiaoyin Fu, Wei Wei, Xingyuan Peng, and Bo Xu. Joint and coupled bilingual topic model based sentence representations for language model adaptation. Proceedings of IJCAI 2013, pages 2141-2147.
作者單位
廣東電網公司電力科學研究院 廣東省廣州市 510080endprint