統(tǒng)計(jì)機(jī)器翻譯中實(shí)例短語(yǔ)對(duì)研究

2016-10-12 08:29:34李強(qiáng)李沐張冬冬朱靖波

北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 2016年1期

李強(qiáng) 李沐張冬冬朱靖波

李強(qiáng)1,?李沐2張冬冬2朱靖波1

1.東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室, 沈陽(yáng) 110819; 2.微軟亞洲研究院, 北京 100080; ?E-mail: liqiangneu@gmail.com

針對(duì)由于數(shù)據(jù)的稀疏性和雙語(yǔ)數(shù)據(jù)規(guī)模的局限性造成的大量高質(zhì)量短語(yǔ)對(duì)沒(méi)有生成的問(wèn)題, 在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中, 通過(guò)對(duì)傳統(tǒng)短語(yǔ)抽取算法抽取的短語(yǔ)對(duì)進(jìn)行分解、替換、生成等操作, 生成傳統(tǒng)方法無(wú)法抽取的實(shí)例短語(yǔ)對(duì)。在漢英新聞和漢英口語(yǔ)翻譯任務(wù)上, 與基線系統(tǒng)相比, 該方法在多個(gè)測(cè)試集上明顯提高了翻譯系統(tǒng)的翻譯質(zhì)量, 在部分測(cè)試集上BLEU值可提高1%左右。

統(tǒng)計(jì)機(jī)器翻譯; 基于短語(yǔ); 基于實(shí)例; 短語(yǔ)對(duì)

基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型具有原理簡(jiǎn)單、性能優(yōu)異、魯棒性高等諸多特點(diǎn), 受到研究與應(yīng)用人員的廣泛青睞, 在當(dāng)今真實(shí)的翻譯任務(wù)中得到廣泛應(yīng)用[1-2]。短語(yǔ)翻譯系統(tǒng)使用短語(yǔ)對(duì)作為翻譯的基本單元, 傳統(tǒng)的啟發(fā)式短語(yǔ)對(duì)抽取算法抽取所有與詞對(duì)齊保持一致的短語(yǔ)對(duì)[3]。基于統(tǒng)計(jì)的機(jī)器翻譯方法建立在大規(guī)模雙語(yǔ)及單語(yǔ)語(yǔ)料的基礎(chǔ)上。然而, 在當(dāng)今真實(shí)的翻譯任務(wù)中, 許多翻譯任務(wù)(如口語(yǔ)翻譯任務(wù))并沒(méi)有充足的雙語(yǔ)語(yǔ)料用于抽取高質(zhì)量的短語(yǔ)對(duì)。由于數(shù)據(jù)的稀疏性、雙語(yǔ)數(shù)據(jù)規(guī)模的局限性以及詞對(duì)齊的錯(cuò)誤和與詞對(duì)齊保持一致規(guī)則的約束, 大量有用的、高質(zhì)量的短語(yǔ)對(duì)沒(méi)有生成, 導(dǎo)致待翻譯源語(yǔ)言句子中很多短語(yǔ)片段沒(méi)有直接對(duì)應(yīng)的翻譯結(jié)果, 只能在翻譯解碼的過(guò)程中, 通過(guò)組裝顆粒度較小的短語(yǔ)對(duì)進(jìn)行譯文的生成。因此, 通過(guò)有效的方法生成傳統(tǒng)短語(yǔ)對(duì)抽取算法無(wú)法生成的、高質(zhì)量的短語(yǔ)對(duì), 擴(kuò)充現(xiàn)有短語(yǔ)對(duì)規(guī)模, 在翻譯過(guò)程中, 通過(guò)使用新生成的短語(yǔ)對(duì)來(lái)提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量, 是本文研究的主要內(nèi)容。本文生成短語(yǔ)對(duì)的方法借鑒基于實(shí)例翻譯模型的原理, 因此定義本文方法生成的短語(yǔ)對(duì)為實(shí)例短語(yǔ)對(duì)[4]。

在圖1中, 存在“經(jīng)過(guò)幾天緊張的布置”這一源語(yǔ)言待翻譯句子。在短語(yǔ)表中, 二元短語(yǔ)“幾天緊張”沒(méi)有對(duì)應(yīng)的翻譯結(jié)果, 在翻譯的過(guò)程中, 只能通過(guò)“幾天”和“緊張”兩個(gè)短語(yǔ)對(duì)應(yīng)的翻譯結(jié)果進(jìn)行拼裝, 完成這一短語(yǔ)片段的翻譯。由于解碼的復(fù)雜性, 這一過(guò)程大大增加了翻譯錯(cuò)誤發(fā)生的可能性。如果在翻譯之前, 能夠通過(guò)有效方法生成〈幾天緊張, a few days of intensive〉這一短語(yǔ)對(duì), 那么翻譯圖1中句子將變得非常簡(jiǎn)單。

在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中, 在雙語(yǔ)語(yǔ)料規(guī)模受限的情況下, 本文通過(guò)對(duì)傳統(tǒng)方法生成的短語(yǔ)對(duì)進(jìn)行分解、替換、生成操作, 最終生成高質(zhì)量的實(shí)例短語(yǔ)對(duì), 以擴(kuò)充現(xiàn)有短語(yǔ)對(duì)的規(guī)模。在漢英新聞和口語(yǔ)翻譯任務(wù)上, 與基線系統(tǒng)相比, 本文方法在多個(gè)測(cè)試集上明顯提高了翻譯系統(tǒng)的翻譯質(zhì)量, 在部分測(cè)試集上BLEU值可提高1%左右。

1 相關(guān)工作

日本的長(zhǎng)尾真(Makoto Nagao)于1981年提出基于實(shí)例的翻譯系統(tǒng), 并于1984年發(fā)表相關(guān)學(xué)術(shù)論文[4]。基于實(shí)例的基本思想是在已經(jīng)收集的雙語(yǔ)實(shí)例庫(kù)中找出與待翻譯部分最相似的翻譯實(shí)例(通常是句子), 再對(duì)實(shí)例的譯文通過(guò)串替換、串刪除以及串增加等一系列變形操作, 實(shí)現(xiàn)翻譯。基于實(shí)例的方法僅僅計(jì)算待翻譯句子與實(shí)例庫(kù)中句子的相似度, 并沒(méi)有考慮替換詞匯之間的相似程度。本文方法可以有效地解決這一問(wèn)題。Chiang[5]提出的基于層次短語(yǔ)的翻譯模型有效地緩解了基于短語(yǔ)的翻譯模型中無(wú)法處理的長(zhǎng)距離依賴和調(diào)序問(wèn)題, 提升了統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯性能。但是Chiang的方法中使用的層次短語(yǔ)泛化能力過(guò)強(qiáng), 對(duì)非終結(jié)符翻譯替換操作沒(méi)有約束。本文使用詞向量的方法, 通過(guò)計(jì)算短語(yǔ)之間的余弦值判斷相似度, 在相似度大于一定閾值的條件下, 執(zhí)行替換操作, 從而提高生成短語(yǔ)對(duì)的質(zhì)量。

2元實(shí)例短語(yǔ)對(duì)

首先, 通過(guò)對(duì)傳統(tǒng)算法生成的短語(yǔ)對(duì)在測(cè)試集上的生成率進(jìn)行分析, 說(shuō)明本文工作的必要性。在表1中,元短語(yǔ)對(duì)在測(cè)試集中的生成率定義為: 測(cè)試集中所有句子包含的元短語(yǔ)的個(gè)數(shù)為, 在個(gè)短語(yǔ)中通過(guò)傳統(tǒng)短語(yǔ)抽取算法可生成的元短語(yǔ)對(duì)個(gè)數(shù)為, 那么生成率為/。在這里, 將源語(yǔ)言長(zhǎng)度為的短語(yǔ)對(duì)稱之為元短語(yǔ)對(duì)。在本文實(shí)驗(yàn)的數(shù)據(jù)中, 漢英新聞和漢英口語(yǔ)任務(wù)上, 二元短語(yǔ)對(duì)的生成率分別為67.28%和44.51%, 三元短語(yǔ)對(duì)的生成率分別為27.30%和19.24%。可以看出, 通過(guò)提高短語(yǔ)對(duì)的生成率, 繼而增加高質(zhì)量短語(yǔ)對(duì)的數(shù)量, 是提高翻譯系統(tǒng)翻譯質(zhì)量的一個(gè)有效途徑。

表1 漢英新聞和漢英口語(yǔ)翻譯系統(tǒng)中二元和三元短語(yǔ)對(duì)在測(cè)試集上的生成率

2.1 實(shí)例短語(yǔ)對(duì)

如前所述, 在翻譯圖1中句子時(shí), 如果存在〈幾天緊張, a few days of intensive〉這一短語(yǔ)對(duì), 翻譯過(guò)程將變得簡(jiǎn)單, 翻譯結(jié)果將更加可靠。在啟發(fā)式短語(yǔ)對(duì)抽取的過(guò)程中,〈幾天, a few days〉和〈年緊張, years of intensive〉已經(jīng)生成。通過(guò)對(duì)現(xiàn)有的兩個(gè)短語(yǔ)對(duì)進(jìn)行分解、替換、生成等操作, 可生成“幾天緊張”對(duì)應(yīng)的翻譯結(jié)果。由于該方法從基于實(shí)例的方法得到啟發(fā), 所以本文將通過(guò)分解、替換、生成三步構(gòu)造的短語(yǔ)對(duì)稱為實(shí)例短語(yǔ)對(duì)[4]。圖2為實(shí)例短語(yǔ)對(duì)生成過(guò)程的圖解, 具體步驟說(shuō)明如下。

1)分解: 根據(jù)與詞對(duì)齊保持一致的定義, 對(duì)已有的短語(yǔ)對(duì)進(jìn)行分解, 短語(yǔ)對(duì)〈年緊張, years of intensive〉可分解為兩個(gè)與詞對(duì)齊保持一致的短語(yǔ)對(duì)〈年, years〉和〈緊張, of intensive〉。

2)替換: 短語(yǔ)對(duì)〈幾天, a few days〉的源語(yǔ)言部分“幾天”和分解的短語(yǔ)對(duì)的源語(yǔ)言部分“年”相似度較高, 為0.4880; 短語(yǔ)對(duì)中目標(biāo)語(yǔ)言“a few days”和“years”的相似度同樣較高, 為0.6764。在源語(yǔ)言與目標(biāo)語(yǔ)言相似度同時(shí)較高的情況下, 執(zhí)行替換操作, 生成新短語(yǔ)對(duì)〈幾天緊張, a few days of intensive〉及詞對(duì)齊。在這里, 被替換與執(zhí)行替換操作的短語(yǔ)對(duì)都為一元短語(yǔ)對(duì)。

3)生成: 新生成的短語(yǔ)需要加入到現(xiàn)有的短語(yǔ)翻譯表中, 所以需要進(jìn)行概率估計(jì)。概率估計(jì)主要包括雙向的翻譯概率和雙向的詞匯化加權(quán)。

執(zhí)行以上3個(gè)步驟后, 實(shí)例短語(yǔ)對(duì)生成完畢。在這里, 存在的挑戰(zhàn)如下: 1)短語(yǔ)對(duì)的分解需要根據(jù)什么規(guī)范; 2)替換時(shí), 相似度如何計(jì)算, 閾值如何設(shè)定; 3)生成時(shí), 如何進(jìn)行概率估計(jì)。下文將對(duì)這3個(gè)問(wèn)題進(jìn)行逐條分析和討論, 從而提出有效的解決方案。

2.2 短語(yǔ)分解

短語(yǔ)分解過(guò)程中, 分解后的短語(yǔ)對(duì)需要滿足與詞對(duì)齊保持一致的定義[3]。短語(yǔ)對(duì)與詞對(duì)齊保持一致的定義如下: 短語(yǔ)對(duì)與詞對(duì)齊保持一致, 當(dāng)且僅當(dāng)中的所有單詞在詞對(duì)齊中所對(duì)應(yīng)的單詞在范圍之內(nèi)時(shí), 則中所有單詞在詞對(duì)齊中所對(duì)應(yīng)的單詞在范圍之內(nèi); 同時(shí), 在與中, 至少有一個(gè)單詞對(duì)在詞對(duì)齊中。

2.3 相似度計(jì)算

本文使用Mikolov等[6-8]提出的連續(xù)Skip-gram模型(Continuous Skip-gram Model)訓(xùn)練詞向量(word vector, distributed representations), 通過(guò)計(jì)算詞向量之間的余弦值, 判斷相似程度。Skip-gram模型根據(jù)當(dāng)前詞匯預(yù)測(cè)周?chē)~匯的詞向量(圖4)。

假設(shè)要計(jì)算相似度的兩個(gè)詞向量分別為(1,1,1)與(2,2,2), 則余弦值計(jì)算公式為

在目標(biāo)語(yǔ)言端, 計(jì)算相似度的有可能是短語(yǔ)。在本文中, 短語(yǔ)的詞向量為短語(yǔ)中所有詞匯詞向量的算數(shù)平均值。經(jīng)驗(yàn)性地, 在替換時(shí)相似度閾值設(shè)置的范圍是[0.3, 0.5]。

2.4 概率估計(jì)

在短語(yǔ)翻譯表訓(xùn)練的過(guò)程中, 需要對(duì)短語(yǔ)對(duì)計(jì)算雙向的短語(yǔ)翻譯概率和以及雙向的詞匯化加權(quán)和[1]。在實(shí)例短語(yǔ)對(duì)生成的過(guò)程中, 由于生成了詞對(duì)齊, 所以雙向的詞匯化加權(quán)可以直接按照標(biāo)準(zhǔn)方法進(jìn)行計(jì)算。但是在實(shí)例短語(yǔ)對(duì)生成的過(guò)程中, 由于丟失了原始數(shù)據(jù)的統(tǒng)計(jì)信息, 所以雙向的短語(yǔ)翻譯概率無(wú)法直接進(jìn)行估計(jì)。本文參考在解碼過(guò)程中使用的對(duì)數(shù)-線性模型對(duì)模型分?jǐn)?shù)計(jì)算的方式, 對(duì)生成的短語(yǔ)對(duì)的翻譯概率重新進(jìn)行估計(jì)[9]。雙向的短語(yǔ)翻譯概率和計(jì)算公式如下:

。

通過(guò)圖2中的實(shí)例, 對(duì)上述計(jì)算短語(yǔ)翻譯概率中的符號(hào)進(jìn)行解釋。在圖2中,和分別對(duì)應(yīng)于待生成的短語(yǔ)對(duì)〈幾天緊張, a few days of intensive〉的源語(yǔ)言和目標(biāo)語(yǔ)言;和對(duì)應(yīng)于原始的短語(yǔ)對(duì)〈年緊張, years of intensive〉;和對(duì)應(yīng)于被替換的短語(yǔ)對(duì)〈年, years〉;和對(duì)應(yīng)于替換短語(yǔ)對(duì)〈幾天, a few days〉。

2.5 解碼

本文提出的方法可通過(guò)在解碼時(shí)使用的對(duì)數(shù)-線性模型中加入新的特征的方式, 嵌入現(xiàn)有的解碼器中。新加入的特征包括實(shí)例短語(yǔ)對(duì)的指示性特征sig、源語(yǔ)言相似性特征src以及目標(biāo)語(yǔ)言相似性特征tgt。src為源語(yǔ)言被替換短語(yǔ)與替換短語(yǔ)之間的相似度,tgt為目標(biāo)語(yǔ)言被替換短語(yǔ)與替換短語(yǔ)之間的相似度。指示性特征sig如下式所示:

在解碼時(shí), 將這3個(gè)特征嵌入到對(duì)數(shù)-線性模型中, 如下式所示:

在這里, 前個(gè)特征來(lái)自于基線系統(tǒng)。其中,sig,src和tgt為本文提出的新的特征,sig,src和tgt為對(duì)應(yīng)的特征權(quán)重。

3 評(píng)價(jià)

本文使用NiuTrans開(kāi)源統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型構(gòu)建實(shí)驗(yàn)平臺(tái), 在漢英新聞和漢英口語(yǔ)翻譯任務(wù)上驗(yàn)證方法的有效性[10]。

3.1 實(shí)驗(yàn)設(shè)置

在漢英新聞和漢英口語(yǔ)翻譯任務(wù)的實(shí)驗(yàn)中, 實(shí)驗(yàn)數(shù)據(jù)信息見(jiàn)表2和3。使用GIZA++工具對(duì)雙語(yǔ)訓(xùn)練數(shù)據(jù)進(jìn)行雙向詞對(duì)齊, 使用grow-diag-final-and啟發(fā)式算法[11]對(duì)雙向詞對(duì)齊結(jié)果進(jìn)行對(duì)稱化處理。使用最小錯(cuò)誤率訓(xùn)練(MERT)方法[12]在開(kāi)發(fā)集上對(duì)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的模型參數(shù)進(jìn)行優(yōu)化。通過(guò)大小寫(xiě)不敏感的IBM版本的BLEU[13]對(duì)翻譯性能進(jìn)行評(píng)價(jià)。在新聞系統(tǒng)上, 替換的源語(yǔ)言和目標(biāo)語(yǔ)言的相似度閾值為0.4, 在口語(yǔ)系統(tǒng)上, 閾值為0.3。本文分別使用GIGAWORD中Xinhua語(yǔ)料的中文部分和英文部分訓(xùn)練中文和英文的詞向量。

表2 漢英新聞任務(wù)使用數(shù)據(jù)

表3 漢英口語(yǔ)翻譯任務(wù)使用數(shù)據(jù)

3.2 實(shí)驗(yàn)結(jié)果

在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)翻譯過(guò)程中, 解碼器更傾向于使用三元及三元以下短語(yǔ)對(duì), 這是因?yàn)樵诮獯a的過(guò)程中, 三元以上短語(yǔ)對(duì)在規(guī)則裝載的過(guò)程中命中率較低, 不容易被使用[1]。表4為不同翻譯任務(wù)中, 不同元數(shù)短語(yǔ)對(duì)的使用分布情況。從表4可以看出, 一元短語(yǔ)對(duì)的使用比例最高, 在兩個(gè)翻譯任務(wù)中的使用比例在60%~70%之間; 二元短語(yǔ)對(duì)的使用比例在20%~30%之間; 三元短語(yǔ)對(duì)的使用比例最低, 為10%左右。

表5和6分別為漢英新聞和漢英口語(yǔ)翻譯任務(wù)中, 基線系統(tǒng)與本文方法系統(tǒng)在開(kāi)發(fā)集與測(cè)試集上的BLEU值。基于表4的分析結(jié)果, 所有實(shí)驗(yàn)都只加入二元實(shí)例短語(yǔ)對(duì)。

表5 漢英新聞翻譯任務(wù)中, 開(kāi)發(fā)集和測(cè)試集上的翻譯性能

說(shuō)明: “+指示特征”為使用sig的實(shí)驗(yàn)結(jié)果, “+相似特征”為使用src和tgt的實(shí)驗(yàn)結(jié)果, “+指示&相似特征”為使用sig,src和tgt的實(shí)驗(yàn)結(jié)果。括號(hào)內(nèi)數(shù)字表示BLEU值提高的幅度。

注: *表示在<0.05的情況下, 本文方法顯著優(yōu)于基線系統(tǒng)的實(shí)驗(yàn)結(jié)果。

表6 漢英口語(yǔ)翻譯任務(wù)中, 開(kāi)發(fā)集和測(cè)試集上的翻譯性能

注: *表示在<0.05的情況下, 本文方法顯著優(yōu)于基線系統(tǒng)的實(shí)驗(yàn)結(jié)果。

表5中, 加入3種不同特征的實(shí)驗(yàn)結(jié)果與基線系統(tǒng)相比, BLEU值都有大幅度提高。“+指示特征”在NIST 08和NIST 12上BLEU值分別提高0.88%和0.83%。表6為小規(guī)模口語(yǔ)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果, 從該組實(shí)驗(yàn)結(jié)果來(lái)看, 在語(yǔ)料規(guī)模受限、詞匯覆蓋度不高的情況下, 本文方法可以大幅度提高翻譯系統(tǒng)的翻譯性能, 如“+指示特征”在IWSLT 05測(cè)試集上BLEU值提高1.07%。

表7為在漢英兩種翻譯任務(wù)“+指示特征”實(shí)驗(yàn)中, 在測(cè)試集上使用不同長(zhǎng)度短語(yǔ)對(duì)的統(tǒng)計(jì)情況。可以看出, 在解碼器使用的所有短語(yǔ)對(duì)中, 本文方法生成的二元實(shí)例短語(yǔ)對(duì)占5%和7%, 達(dá)到一個(gè)理想的比例, 說(shuō)明本文提出的方法可生成高質(zhì)量的短語(yǔ)翻譯對(duì)。

表7 漢英翻譯任務(wù)中“+指示特征”實(shí)驗(yàn)解碼時(shí)不同元數(shù)短語(yǔ)對(duì)使用分布情況

使用率定義如下: 待翻譯句子數(shù)為, 使用本文生成的二元實(shí)例短語(yǔ)對(duì)翻譯的句子數(shù)為, 則使用率為/。在漢英新聞和口語(yǔ)實(shí)驗(yàn)中, 使用率分別為50%和25%。因?yàn)樵诳谡Z(yǔ)數(shù)據(jù)中, 待翻譯句子普遍較短, 所以口語(yǔ)使用率較低。IWSLT 04測(cè)試集的源語(yǔ)言每句平均含有的詞匯數(shù)為6.55, 同時(shí), 由于該數(shù)據(jù)中絕大多數(shù)為常用詞匯, 也導(dǎo)致使用率值較低。

通過(guò)比較基線系統(tǒng)與本文方法的1-best翻譯結(jié)果來(lái)說(shuō)明本文方法的有效性, 如圖5所示。待翻譯的句子片段為“經(jīng)過(guò)幾天緊張的布置”, 基線系統(tǒng)的翻譯結(jié)果為“the arrangements after a few days”。在這個(gè)翻譯結(jié)果中, 由于選擇短語(yǔ)的不準(zhǔn)確, 源語(yǔ)言中“緊張”沒(méi)有被翻譯出來(lái)。在本文提出的方法中, 由于生成實(shí)例短語(yǔ)〈幾天緊張, a few days of intensive〉, 因此在翻譯的過(guò)程中, 僅僅需要順序組合, 便可生成優(yōu)質(zhì)的翻譯結(jié)果“after a few days of intensive arrangements”。

4 總結(jié)與展望

本文在雙語(yǔ)語(yǔ)料規(guī)模受限的條件下, 通過(guò)對(duì)傳統(tǒng)方法生成的短語(yǔ)對(duì)進(jìn)行分解、替換、生成操作, 最終生成高質(zhì)量的實(shí)例短語(yǔ)對(duì), 達(dá)到擴(kuò)充現(xiàn)有短語(yǔ)對(duì)的規(guī)模、提高基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)翻譯質(zhì)量的目的。在漢英新聞和口語(yǔ)翻譯任務(wù)上, 與基線系統(tǒng)相比, 本文方法在多個(gè)測(cè)試集上明顯提高了翻譯系統(tǒng)的翻譯質(zhì)量, 在部分測(cè)試集上BLEU值可提高1%左右。

未來(lái), 本文提出的方法將被應(yīng)用到Chiang[5]提出的基于層次短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型中, 對(duì)層次短語(yǔ)規(guī)則過(guò)強(qiáng)的泛化能力進(jìn)行約束, 以達(dá)到準(zhǔn)確匹配的目的, 繼而提高翻譯系統(tǒng)的翻譯質(zhì)量。

[1]Koehn P, Och F J, Marcu D. Statistical phrase-based translation // Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Edmonton: Association for Computational Linguistics, 2003: 48?54

[2]Och F J, Ney H. The alignment template approach to statistical machine translation. Computational Linguis-tics, 2004, 30(4): 417?449

[3]Och F J, Tillmann C, Ney H. Improved alignment models for statistical machine translation // Procee-dings of the 1999 Conference on Empirical Methods in Natural Language Processing. Maryland: Associa-tion for Computational Linguistics, 1999: 20?28

[4]Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle // Elithorn A, Banerji R. Artificial and human intelli-gence. Amsterdam: NATO Publications, 1984: 173?180

[5]Chiang D. Hierarchical phrase-based translation. Computational Linguistics, 2007, 33(2): 201?228

[6]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space // International Conference on Learning Representations Workshop. Scottsdale: arXiv preprint arXiv, 2013: 1?12

[7]Mikolov T, Sutskever l, Chen K, et al. Distributed representations of words and phrases and their compositionality // Proceedings of NIPS. Lake Tahoe: arXiv preprint arXiv, 2013: 3111?3119

[8]Mikolov T, Yih W, Zweig G. Linguistic regularities in continuous space word representations // Proceedings of NAACL HLT. Atlanta: Association for Computa-tional Linguistics, 2013: 746?751

[9]Och F J, Ney H. Discriminative training and maximum entropy models for statistical machine translation // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Phila-delphia: Association for Computational Linguistics, 2002: 295?302

[10]Xiao T, Zhu J, Zhang H, et al. NiuTrans: an open source toolkit for phrase-based and syntax-based machine translation // Proceedings of the ACL 2012 System Demonstrations. Jeju: Association for Com-putational Linguistics, 2012: 19?24

[11]Och F J, Ney H. Improved statistical alignment models // Proceedings of the 38th Annual Meeting on Association for Computation Linguistics. Hong Kong: Association for Computational Linguistics, 2000: 440?447

[12]Och F J. Minimum error rate training in statistical machine translation // Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Sapporo: Association for Computational Linguistics, 2003: 160?167

[13]Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation // Proceedings of the 40th Annual Meeting on Asso-ciation for Computational Linguistics. Philadelphia: Association for Computational Linguistics, 2002: 311?318

Research on Example-Based Phrase Pairs in Statistical Machine Translation

LI Qiang1,?, LI Mu2, ZHANG Dongdong2, ZHU Jingbo1

1. NLP Lab, Northeastern University, Shenyang 110819; 2. Microsoft Research Asia, Beijing 100080; ? E-mail: liqiangneu@gmail.com

Due to the sparsity of data and the limitation of bilingual data size, many high-quality phrase pairs can’t be generated. The example-based phrase pairs proposed by theauthors are generated through decomposing, substituting and generating the typical phrase pairs, and the typical phrase pairs are generated by the typical phrase extraction method in phrase-based statistical machine translation. On the Chinese-to-English Newswire and Oral translation tasks, the experimental resultsdemonstratesignificant improvements achieved by the proposed methods. Moreover, a gain of about 1% BLEU score increase is yielded on some test sets.

statistical machine translation; phrase-based; example-based; phrase pair

10.13209/j.0479-8023.2016.007

TP391

2015-05-28;

2015-08-13; 網(wǎng)絡(luò)出版日期: 2015-09-29

國(guó)家自然科學(xué)基金(61272376, 61300097)、東北大學(xué)基本科研業(yè)務(wù)費(fèi)研究生科研創(chuàng)新項(xiàng)目(N140406003)和國(guó)家留學(xué)基金資助