999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統(tǒng)計(jì)機(jī)器翻譯中實(shí)例短語(yǔ)對(duì)研究

2016-10-12 08:29:34李強(qiáng)李沐張冬冬朱靖波
關(guān)鍵詞:特征實(shí)驗(yàn)方法

李強(qiáng) 李沐 張冬冬 朱靖波

?

統(tǒng)計(jì)機(jī)器翻譯中實(shí)例短語(yǔ)對(duì)研究

李強(qiáng)1,?李沐2張冬冬2朱靖波1

1.東北大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室, 沈陽(yáng) 110819; 2.微軟亞洲研究院, 北京 100080; ?E-mail: liqiangneu@gmail.com

針對(duì)由于數(shù)據(jù)的稀疏性和雙語(yǔ)數(shù)據(jù)規(guī)模的局限性造成的大量高質(zhì)量短語(yǔ)對(duì)沒(méi)有生成的問(wèn)題, 在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中, 通過(guò)對(duì)傳統(tǒng)短語(yǔ)抽取算法抽取的短語(yǔ)對(duì)進(jìn)行分解、替換、生成等操作, 生成傳統(tǒng)方法無(wú)法抽取的實(shí)例短語(yǔ)對(duì)。在漢英新聞和漢英口語(yǔ)翻譯任務(wù)上, 與基線系統(tǒng)相比, 該方法在多個(gè)測(cè)試集上明顯提高了翻譯系統(tǒng)的翻譯質(zhì)量, 在部分測(cè)試集上BLEU值可提高1%左右。

統(tǒng)計(jì)機(jī)器翻譯; 基于短語(yǔ); 基于實(shí)例; 短語(yǔ)對(duì)

基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型具有原理簡(jiǎn)單、性能優(yōu)異、魯棒性高等諸多特點(diǎn), 受到研究與應(yīng)用人員的廣泛青睞, 在當(dāng)今真實(shí)的翻譯任務(wù)中得到廣泛應(yīng)用[1-2]。短語(yǔ)翻譯系統(tǒng)使用短語(yǔ)對(duì)作為翻譯的基本單元, 傳統(tǒng)的啟發(fā)式短語(yǔ)對(duì)抽取算法抽取所有與詞對(duì)齊保持一致的短語(yǔ)對(duì)[3]。基于統(tǒng)計(jì)的機(jī)器翻譯方法建立在大規(guī)模雙語(yǔ)及單語(yǔ)語(yǔ)料的基礎(chǔ)上。然而, 在當(dāng)今真實(shí)的翻譯任務(wù)中, 許多翻譯任務(wù)(如口語(yǔ)翻譯任務(wù))并沒(méi)有充足的雙語(yǔ)語(yǔ)料用于抽取高質(zhì)量的短語(yǔ)對(duì)。由于數(shù)據(jù)的稀疏性、雙語(yǔ)數(shù)據(jù)規(guī)模的局限性以及詞對(duì)齊的錯(cuò)誤和與詞對(duì)齊保持一致規(guī)則的約束, 大量有用的、高質(zhì)量的短語(yǔ)對(duì)沒(méi)有生成, 導(dǎo)致待翻譯源語(yǔ)言句子中很多短語(yǔ)片段沒(méi)有直接對(duì)應(yīng)的翻譯結(jié)果, 只能在翻譯解碼的過(guò)程中, 通過(guò)組裝顆粒度較小的短語(yǔ)對(duì)進(jìn)行譯文的生成。因此, 通過(guò)有效的方法生成傳統(tǒng)短語(yǔ)對(duì)抽取算法無(wú)法生成的、高質(zhì)量的短語(yǔ)對(duì), 擴(kuò)充現(xiàn)有短語(yǔ)對(duì)規(guī)模, 在翻譯過(guò)程中, 通過(guò)使用新生成的短語(yǔ)對(duì)來(lái)提高統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量, 是本文研究的主要內(nèi)容。本文生成短語(yǔ)對(duì)的方法借鑒基于實(shí)例翻譯模型的原理, 因此定義本文方法生成的短語(yǔ)對(duì)為實(shí)例短語(yǔ)對(duì)[4]。

在圖1中, 存在“經(jīng)過(guò)幾天緊張的布置”這一源語(yǔ)言待翻譯句子。在短語(yǔ)表中, 二元短語(yǔ)“幾天緊張”沒(méi)有對(duì)應(yīng)的翻譯結(jié)果, 在翻譯的過(guò)程中, 只能通過(guò)“幾天”和“緊張”兩個(gè)短語(yǔ)對(duì)應(yīng)的翻譯結(jié)果進(jìn)行拼裝, 完成這一短語(yǔ)片段的翻譯。由于解碼的復(fù)雜性, 這一過(guò)程大大增加了翻譯錯(cuò)誤發(fā)生的可能性。如果在翻譯之前, 能夠通過(guò)有效方法生成〈幾天緊張, a few days of intensive〉這一短語(yǔ)對(duì), 那么翻譯圖1中句子將變得非常簡(jiǎn)單。

在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中, 在雙語(yǔ)語(yǔ)料規(guī)模受限的情況下, 本文通過(guò)對(duì)傳統(tǒng)方法生成的短語(yǔ)對(duì)進(jìn)行分解、替換、生成操作, 最終生成高質(zhì)量的實(shí)例短語(yǔ)對(duì), 以擴(kuò)充現(xiàn)有短語(yǔ)對(duì)的規(guī)模。在漢英新聞和口語(yǔ)翻譯任務(wù)上, 與基線系統(tǒng)相比, 本文方法在多個(gè)測(cè)試集上明顯提高了翻譯系統(tǒng)的翻譯質(zhì)量, 在部分測(cè)試集上BLEU值可提高1%左右。

1 相關(guān)工作

日本的長(zhǎng)尾真(Makoto Nagao)于1981年提出基于實(shí)例的翻譯系統(tǒng), 并于1984年發(fā)表相關(guān)學(xué)術(shù)論文[4]。基于實(shí)例的基本思想是在已經(jīng)收集的雙語(yǔ)實(shí)例庫(kù)中找出與待翻譯部分最相似的翻譯實(shí)例(通常是句子), 再對(duì)實(shí)例的譯文通過(guò)串替換、串刪除以及串增加等一系列變形操作, 實(shí)現(xiàn)翻譯。基于實(shí)例的方法僅僅計(jì)算待翻譯句子與實(shí)例庫(kù)中句子的相似度, 并沒(méi)有考慮替換詞匯之間的相似程度。本文方法可以有效地解決這一問(wèn)題。Chiang[5]提出的基于層次短語(yǔ)的翻譯模型有效地緩解了基于短語(yǔ)的翻譯模型中無(wú)法處理的長(zhǎng)距離依賴和調(diào)序問(wèn)題, 提升了統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的翻譯性能。但是Chiang的方法中使用的層次短語(yǔ)泛化能力過(guò)強(qiáng), 對(duì)非終結(jié)符翻譯替換操作沒(méi)有約束。本文使用詞向量的方法, 通過(guò)計(jì)算短語(yǔ)之間的余弦值判斷相似度, 在相似度大于一定閾值的條件下, 執(zhí)行替換操作, 從而提高生成短語(yǔ)對(duì)的質(zhì)量。

2元實(shí)例短語(yǔ)對(duì)

首先, 通過(guò)對(duì)傳統(tǒng)算法生成的短語(yǔ)對(duì)在測(cè)試集上的生成率進(jìn)行分析, 說(shuō)明本文工作的必要性。在表1中,元短語(yǔ)對(duì)在測(cè)試集中的生成率定義為: 測(cè)試集中所有句子包含的元短語(yǔ)的個(gè)數(shù)為, 在個(gè)短語(yǔ)中通過(guò)傳統(tǒng)短語(yǔ)抽取算法可生成的元短語(yǔ)對(duì)個(gè)數(shù)為, 那么生成率為/。在這里, 將源語(yǔ)言長(zhǎng)度為的短語(yǔ)對(duì)稱之為元短語(yǔ)對(duì)。在本文實(shí)驗(yàn)的數(shù)據(jù)中, 漢英新聞和漢英口語(yǔ)任務(wù)上, 二元短語(yǔ)對(duì)的生成率分別為67.28%和44.51%, 三元短語(yǔ)對(duì)的生成率分別為27.30%和19.24%。可以看出, 通過(guò)提高短語(yǔ)對(duì)的生成率, 繼而增加高質(zhì)量短語(yǔ)對(duì)的數(shù)量, 是提高翻譯系統(tǒng)翻譯質(zhì)量的一個(gè)有效途徑。

表1 漢英新聞和漢英口語(yǔ)翻譯系統(tǒng)中二元和三元短語(yǔ)對(duì)在測(cè)試集上的生成率

2.1 實(shí)例短語(yǔ)對(duì)

如前所述, 在翻譯圖1中句子時(shí), 如果存在〈幾天緊張, a few days of intensive〉這一短語(yǔ)對(duì), 翻譯過(guò)程將變得簡(jiǎn)單, 翻譯結(jié)果將更加可靠。在啟發(fā)式短語(yǔ)對(duì)抽取的過(guò)程中,〈幾天, a few days〉和〈年緊張, years of intensive〉已經(jīng)生成。通過(guò)對(duì)現(xiàn)有的兩個(gè)短語(yǔ)對(duì)進(jìn)行分解、替換、生成等操作, 可生成“幾天緊張”對(duì)應(yīng)的翻譯結(jié)果。由于該方法從基于實(shí)例的方法得到啟發(fā), 所以本文將通過(guò)分解、替換、生成三步構(gòu)造的短語(yǔ)對(duì)稱為實(shí)例短語(yǔ)對(duì)[4]。圖2為實(shí)例短語(yǔ)對(duì)生成過(guò)程的圖解, 具體步驟說(shuō)明如下。

1)分解: 根據(jù)與詞對(duì)齊保持一致的定義, 對(duì)已有的短語(yǔ)對(duì)進(jìn)行分解, 短語(yǔ)對(duì)〈年緊張, years of intensive〉可分解為兩個(gè)與詞對(duì)齊保持一致的短語(yǔ)對(duì)〈年, years〉和〈緊張, of intensive〉。

2)替換: 短語(yǔ)對(duì)〈幾天, a few days〉的源語(yǔ)言部分“幾天”和分解的短語(yǔ)對(duì)的源語(yǔ)言部分“年”相似度較高, 為0.4880; 短語(yǔ)對(duì)中目標(biāo)語(yǔ)言“a few days”和“years”的相似度同樣較高, 為0.6764。在源語(yǔ)言與目標(biāo)語(yǔ)言相似度同時(shí)較高的情況下, 執(zhí)行替換操作, 生成新短語(yǔ)對(duì)〈幾天緊張, a few days of intensive〉及詞對(duì)齊。在這里, 被替換與執(zhí)行替換操作的短語(yǔ)對(duì)都為一元短語(yǔ)對(duì)。

3)生成: 新生成的短語(yǔ)需要加入到現(xiàn)有的短語(yǔ)翻譯表中, 所以需要進(jìn)行概率估計(jì)。概率估計(jì)主要包括雙向的翻譯概率和雙向的詞匯化加權(quán)。

執(zhí)行以上3個(gè)步驟后, 實(shí)例短語(yǔ)對(duì)生成完畢。在這里, 存在的挑戰(zhàn)如下: 1)短語(yǔ)對(duì)的分解需要根據(jù)什么規(guī)范; 2)替換時(shí), 相似度如何計(jì)算, 閾值如何設(shè)定; 3)生成時(shí), 如何進(jìn)行概率估計(jì)。下文將對(duì)這3個(gè)問(wèn)題進(jìn)行逐條分析和討論, 從而提出有效的解決方案。

2.2 短語(yǔ)分解

短語(yǔ)分解過(guò)程中, 分解后的短語(yǔ)對(duì)需要滿足與詞對(duì)齊保持一致的定義[3]。短語(yǔ)對(duì)與詞對(duì)齊保持一致的定義如下: 短語(yǔ)對(duì)與詞對(duì)齊保持一致, 當(dāng)且僅當(dāng)中的所有單詞在詞對(duì)齊中所對(duì)應(yīng)的單詞在范圍之內(nèi)時(shí), 則中所有單詞在詞對(duì)齊中所對(duì)應(yīng)的單詞在范圍之內(nèi); 同時(shí), 在與中, 至少有一個(gè)單詞對(duì)在詞對(duì)齊中。

2.3 相似度計(jì)算

本文使用Mikolov等[6-8]提出的連續(xù)Skip-gram模型(Continuous Skip-gram Model)訓(xùn)練詞向量(word vector, distributed representations), 通過(guò)計(jì)算詞向量之間的余弦值, 判斷相似程度。Skip-gram模型根據(jù)當(dāng)前詞匯預(yù)測(cè)周?chē)~匯的詞向量(圖4)。

假設(shè)要計(jì)算相似度的兩個(gè)詞向量分別為(1,1,1)與(2,2,2), 則余弦值計(jì)算公式為

在目標(biāo)語(yǔ)言端, 計(jì)算相似度的有可能是短語(yǔ)。在本文中, 短語(yǔ)的詞向量為短語(yǔ)中所有詞匯詞向量的算數(shù)平均值。經(jīng)驗(yàn)性地, 在替換時(shí)相似度閾值設(shè)置的范圍是[0.3, 0.5]。

2.4 概率估計(jì)

在短語(yǔ)翻譯表訓(xùn)練的過(guò)程中, 需要對(duì)短語(yǔ)對(duì)計(jì)算雙向的短語(yǔ)翻譯概率和以及雙向的詞匯化加權(quán)和[1]。在實(shí)例短語(yǔ)對(duì)生成的過(guò)程中, 由于生成了詞對(duì)齊, 所以雙向的詞匯化加權(quán)可以直接按照標(biāo)準(zhǔn)方法進(jìn)行計(jì)算。但是在實(shí)例短語(yǔ)對(duì)生成的過(guò)程中, 由于丟失了原始數(shù)據(jù)的統(tǒng)計(jì)信息, 所以雙向的短語(yǔ)翻譯概率無(wú)法直接進(jìn)行估計(jì)。本文參考在解碼過(guò)程中使用的對(duì)數(shù)-線性模型對(duì)模型分?jǐn)?shù)計(jì)算的方式, 對(duì)生成的短語(yǔ)對(duì)的翻譯概率重新進(jìn)行估計(jì)[9]。雙向的短語(yǔ)翻譯概率和計(jì)算公式如下:

通過(guò)圖2中的實(shí)例, 對(duì)上述計(jì)算短語(yǔ)翻譯概率中的符號(hào)進(jìn)行解釋。在圖2中,和分別對(duì)應(yīng)于待生成的短語(yǔ)對(duì)〈幾天緊張, a few days of intensive〉的源語(yǔ)言和目標(biāo)語(yǔ)言;和對(duì)應(yīng)于原始的短語(yǔ)對(duì)〈年緊張, years of intensive〉;和對(duì)應(yīng)于被替換的短語(yǔ)對(duì)〈年, years〉;和對(duì)應(yīng)于替換短語(yǔ)對(duì)〈幾天, a few days〉。

2.5 解碼

本文提出的方法可通過(guò)在解碼時(shí)使用的對(duì)數(shù)-線性模型中加入新的特征的方式, 嵌入現(xiàn)有的解碼器中。新加入的特征包括實(shí)例短語(yǔ)對(duì)的指示性特征sig、源語(yǔ)言相似性特征src以及目標(biāo)語(yǔ)言相似性特征tgt。src為源語(yǔ)言被替換短語(yǔ)與替換短語(yǔ)之間的相似度,tgt為目標(biāo)語(yǔ)言被替換短語(yǔ)與替換短語(yǔ)之間的相似度。指示性特征sig如下式所示:

在解碼時(shí), 將這3個(gè)特征嵌入到對(duì)數(shù)-線性模型中, 如下式所示:

在這里, 前個(gè)特征來(lái)自于基線系統(tǒng)。其中,sig,src和tgt為本文提出的新的特征,sig,src和tgt為對(duì)應(yīng)的特征權(quán)重。

3 評(píng)價(jià)

本文使用NiuTrans開(kāi)源統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)中基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型構(gòu)建實(shí)驗(yàn)平臺(tái), 在漢英新聞和漢英口語(yǔ)翻譯任務(wù)上驗(yàn)證方法的有效性[10]。

3.1 實(shí)驗(yàn)設(shè)置

在漢英新聞和漢英口語(yǔ)翻譯任務(wù)的實(shí)驗(yàn)中, 實(shí)驗(yàn)數(shù)據(jù)信息見(jiàn)表2和3。使用GIZA++工具對(duì)雙語(yǔ)訓(xùn)練數(shù)據(jù)進(jìn)行雙向詞對(duì)齊, 使用grow-diag-final-and啟發(fā)式算法[11]對(duì)雙向詞對(duì)齊結(jié)果進(jìn)行對(duì)稱化處理。使用最小錯(cuò)誤率訓(xùn)練(MERT)方法[12]在開(kāi)發(fā)集上對(duì)統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)的模型參數(shù)進(jìn)行優(yōu)化。通過(guò)大小寫(xiě)不敏感的IBM版本的BLEU[13]對(duì)翻譯性能進(jìn)行評(píng)價(jià)。在新聞系統(tǒng)上, 替換的源語(yǔ)言和目標(biāo)語(yǔ)言的相似度閾值為0.4, 在口語(yǔ)系統(tǒng)上, 閾值為0.3。本文分別使用GIGAWORD中Xinhua語(yǔ)料的中文部分和英文部分訓(xùn)練中文和英文的詞向量。

表2 漢英新聞任務(wù)使用數(shù)據(jù)

表3 漢英口語(yǔ)翻譯任務(wù)使用數(shù)據(jù)

3.2 實(shí)驗(yàn)結(jié)果

在基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)翻譯過(guò)程中, 解碼器更傾向于使用三元及三元以下短語(yǔ)對(duì), 這是因?yàn)樵诮獯a的過(guò)程中, 三元以上短語(yǔ)對(duì)在規(guī)則裝載的過(guò)程中命中率較低, 不容易被使用[1]。表4為不同翻譯任務(wù)中, 不同元數(shù)短語(yǔ)對(duì)的使用分布情況。從表4可以看出, 一元短語(yǔ)對(duì)的使用比例最高, 在兩個(gè)翻譯任務(wù)中的使用比例在60%~70%之間; 二元短語(yǔ)對(duì)的使用比例在20%~30%之間; 三元短語(yǔ)對(duì)的使用比例最低, 為10%左右。

表5和6分別為漢英新聞和漢英口語(yǔ)翻譯任務(wù)中, 基線系統(tǒng)與本文方法系統(tǒng)在開(kāi)發(fā)集與測(cè)試集上的BLEU值。基于表4的分析結(jié)果, 所有實(shí)驗(yàn)都只加入二元實(shí)例短語(yǔ)對(duì)。

表5 漢英新聞翻譯任務(wù)中, 開(kāi)發(fā)集和測(cè)試集上的翻譯性能

說(shuō)明: “+指示特征”為使用sig的實(shí)驗(yàn)結(jié)果, “+相似特征”為使用src和tgt的實(shí)驗(yàn)結(jié)果, “+指示&相似特征”為使用sig,src和tgt的實(shí)驗(yàn)結(jié)果。括號(hào)內(nèi)數(shù)字表示BLEU值提高的幅度。

注: *表示在<0.05的情況下, 本文方法顯著優(yōu)于基線系統(tǒng)的實(shí)驗(yàn)結(jié)果。

表6 漢英口語(yǔ)翻譯任務(wù)中, 開(kāi)發(fā)集和測(cè)試集上的翻譯性能

說(shuō)明: “+指示特征”為使用sig的實(shí)驗(yàn)結(jié)果, “+相似特征”為使用src和tgt的實(shí)驗(yàn)結(jié)果, “+指示&相似特征”為使用sig,src和tgt的實(shí)驗(yàn)結(jié)果。括號(hào)內(nèi)數(shù)字表示BLEU值提高的幅度。

注: *表示在<0.05的情況下, 本文方法顯著優(yōu)于基線系統(tǒng)的實(shí)驗(yàn)結(jié)果。

表5中, 加入3種不同特征的實(shí)驗(yàn)結(jié)果與基線系統(tǒng)相比, BLEU值都有大幅度提高。“+指示特征”在NIST 08和NIST 12上BLEU值分別提高0.88%和0.83%。表6為小規(guī)模口語(yǔ)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果, 從該組實(shí)驗(yàn)結(jié)果來(lái)看, 在語(yǔ)料規(guī)模受限、詞匯覆蓋度不高的情況下, 本文方法可以大幅度提高翻譯系統(tǒng)的翻譯性能, 如“+指示特征”在IWSLT 05測(cè)試集上BLEU值提高1.07%。

表7為在漢英兩種翻譯任務(wù)“+指示特征”實(shí)驗(yàn)中, 在測(cè)試集上使用不同長(zhǎng)度短語(yǔ)對(duì)的統(tǒng)計(jì)情況。可以看出, 在解碼器使用的所有短語(yǔ)對(duì)中, 本文方法生成的二元實(shí)例短語(yǔ)對(duì)占5%和7%, 達(dá)到一個(gè)理想的比例, 說(shuō)明本文提出的方法可生成高質(zhì)量的短語(yǔ)翻譯對(duì)。

表7 漢英翻譯任務(wù)中“+指示特征”實(shí)驗(yàn)解碼時(shí)不同元數(shù)短語(yǔ)對(duì)使用分布情況

使用率定義如下: 待翻譯句子數(shù)為, 使用本文生成的二元實(shí)例短語(yǔ)對(duì)翻譯的句子數(shù)為, 則使用率為/。在漢英新聞和口語(yǔ)實(shí)驗(yàn)中, 使用率分別為50%和25%。因?yàn)樵诳谡Z(yǔ)數(shù)據(jù)中, 待翻譯句子普遍較短, 所以口語(yǔ)使用率較低。IWSLT 04測(cè)試集的源語(yǔ)言每句平均含有的詞匯數(shù)為6.55, 同時(shí), 由于該數(shù)據(jù)中絕大多數(shù)為常用詞匯, 也導(dǎo)致使用率值較低。

通過(guò)比較基線系統(tǒng)與本文方法的1-best翻譯結(jié)果來(lái)說(shuō)明本文方法的有效性, 如圖5所示。待翻譯的句子片段為“經(jīng)過(guò)幾天緊張的布置”, 基線系統(tǒng)的翻譯結(jié)果為“the arrangements after a few days”。在這個(gè)翻譯結(jié)果中, 由于選擇短語(yǔ)的不準(zhǔn)確, 源語(yǔ)言中“緊張”沒(méi)有被翻譯出來(lái)。在本文提出的方法中, 由于生成實(shí)例短語(yǔ)〈幾天緊張, a few days of intensive〉, 因此在翻譯的過(guò)程中, 僅僅需要順序組合, 便可生成優(yōu)質(zhì)的翻譯結(jié)果“after a few days of intensive arrangements”。

4 總結(jié)與展望

本文在雙語(yǔ)語(yǔ)料規(guī)模受限的條件下, 通過(guò)對(duì)傳統(tǒng)方法生成的短語(yǔ)對(duì)進(jìn)行分解、替換、生成操作, 最終生成高質(zhì)量的實(shí)例短語(yǔ)對(duì), 達(dá)到擴(kuò)充現(xiàn)有短語(yǔ)對(duì)的規(guī)模、提高基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)翻譯質(zhì)量的目的。在漢英新聞和口語(yǔ)翻譯任務(wù)上, 與基線系統(tǒng)相比, 本文方法在多個(gè)測(cè)試集上明顯提高了翻譯系統(tǒng)的翻譯質(zhì)量, 在部分測(cè)試集上BLEU值可提高1%左右。

未來(lái), 本文提出的方法將被應(yīng)用到Chiang[5]提出的基于層次短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯模型中, 對(duì)層次短語(yǔ)規(guī)則過(guò)強(qiáng)的泛化能力進(jìn)行約束, 以達(dá)到準(zhǔn)確匹配的目的, 繼而提高翻譯系統(tǒng)的翻譯質(zhì)量。

[1]Koehn P, Och F J, Marcu D. Statistical phrase-based translation // Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Edmonton: Association for Computational Linguistics, 2003: 48?54

[2]Och F J, Ney H. The alignment template approach to statistical machine translation. Computational Linguis-tics, 2004, 30(4): 417?449

[3]Och F J, Tillmann C, Ney H. Improved alignment models for statistical machine translation // Procee-dings of the 1999 Conference on Empirical Methods in Natural Language Processing. Maryland: Associa-tion for Computational Linguistics, 1999: 20?28

[4]Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle // Elithorn A, Banerji R. Artificial and human intelli-gence. Amsterdam: NATO Publications, 1984: 173?180

[5]Chiang D. Hierarchical phrase-based translation. Computational Linguistics, 2007, 33(2): 201?228

[6]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space // International Conference on Learning Representations Workshop. Scottsdale: arXiv preprint arXiv, 2013: 1?12

[7]Mikolov T, Sutskever l, Chen K, et al. Distributed representations of words and phrases and their compositionality // Proceedings of NIPS. Lake Tahoe: arXiv preprint arXiv, 2013: 3111?3119

[8]Mikolov T, Yih W, Zweig G. Linguistic regularities in continuous space word representations // Proceedings of NAACL HLT. Atlanta: Association for Computa-tional Linguistics, 2013: 746?751

[9]Och F J, Ney H. Discriminative training and maximum entropy models for statistical machine translation // Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Phila-delphia: Association for Computational Linguistics, 2002: 295?302

[10]Xiao T, Zhu J, Zhang H, et al. NiuTrans: an open source toolkit for phrase-based and syntax-based machine translation // Proceedings of the ACL 2012 System Demonstrations. Jeju: Association for Com-putational Linguistics, 2012: 19?24

[11]Och F J, Ney H. Improved statistical alignment models // Proceedings of the 38th Annual Meeting on Association for Computation Linguistics. Hong Kong: Association for Computational Linguistics, 2000: 440?447

[12]Och F J. Minimum error rate training in statistical machine translation // Proceedings of the 41st Annual Meeting on Association for Computational Linguistics-Volume 1. Sapporo: Association for Computational Linguistics, 2003: 160?167

[13]Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translation // Proceedings of the 40th Annual Meeting on Asso-ciation for Computational Linguistics. Philadelphia: Association for Computational Linguistics, 2002: 311?318

Research on Example-Based Phrase Pairs in Statistical Machine Translation

LI Qiang1,?, LI Mu2, ZHANG Dongdong2, ZHU Jingbo1

1. NLP Lab, Northeastern University, Shenyang 110819; 2. Microsoft Research Asia, Beijing 100080; ? E-mail: liqiangneu@gmail.com

Due to the sparsity of data and the limitation of bilingual data size, many high-quality phrase pairs can’t be generated. The example-based phrase pairs proposed by theauthors are generated through decomposing, substituting and generating the typical phrase pairs, and the typical phrase pairs are generated by the typical phrase extraction method in phrase-based statistical machine translation. On the Chinese-to-English Newswire and Oral translation tasks, the experimental resultsdemonstratesignificant improvements achieved by the proposed methods. Moreover, a gain of about 1% BLEU score increase is yielded on some test sets.

statistical machine translation; phrase-based; example-based; phrase pair

10.13209/j.0479-8023.2016.007

TP391

2015-05-28;

2015-08-13; 網(wǎng)絡(luò)出版日期: 2015-09-29

國(guó)家自然科學(xué)基金(61272376, 61300097)、東北大學(xué)基本科研業(yè)務(wù)費(fèi)研究生科研創(chuàng)新項(xiàng)目(N140406003)和國(guó)家留學(xué)基金資助

猜你喜歡
特征實(shí)驗(yàn)方法
記一次有趣的實(shí)驗(yàn)
如何表達(dá)“特征”
做個(gè)怪怪長(zhǎng)實(shí)驗(yàn)
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
實(shí)踐十號(hào)上的19項(xiàng)實(shí)驗(yàn)
太空探索(2016年5期)2016-07-12 15:17:55
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
主站蜘蛛池模板: 在线a网站| 四虎永久免费地址| 精品视频一区在线观看| 人妻免费无码不卡视频| 国产91精品调教在线播放| 青青草一区| 亚洲日本韩在线观看| 欧美日韩亚洲国产| 99久久精品国产精品亚洲| 日韩美一区二区| 国产区免费精品视频| 五月婷婷中文字幕| 2021天堂在线亚洲精品专区| 国产精品自在在线午夜| 久久综合成人| 亚欧成人无码AV在线播放| 女人18一级毛片免费观看| 亚洲乱码视频| 免费高清毛片| 亚洲av无码专区久久蜜芽| 免费a在线观看播放| 免费久久一级欧美特大黄| 日本久久久久久免费网络| 国产一区自拍视频| 国产麻豆va精品视频| 国产在线拍偷自揄观看视频网站| 中美日韩在线网免费毛片视频| 亚洲午夜福利精品无码| 99免费视频观看| 国产精品福利导航| 国产一区亚洲一区| 在线va视频| 91精品国产麻豆国产自产在线| 日本精品影院| 亚洲人成影院午夜网站| 成人午夜精品一级毛片| 日韩精品久久久久久久电影蜜臀| 内射人妻无码色AV天堂| 欧美日韩国产成人高清视频| 就去吻亚洲精品国产欧美| 欧美中文字幕一区二区三区| 亚欧乱色视频网站大全| 无套av在线| 婷婷亚洲天堂| 国产精品自拍合集| 国产在线啪| 精品少妇人妻av无码久久| 2021国产精品自拍| 午夜小视频在线| 老司机久久99久久精品播放| 91精品免费久久久| 成人国产一区二区三区| 日韩精品久久无码中文字幕色欲| 98精品全国免费观看视频| 四虎在线观看视频高清无码| 久操线在视频在线观看| 国产日韩欧美中文| 美女国产在线| 最新国产你懂的在线网址| 国产精品毛片一区视频播| 91在线日韩在线播放| 亚洲国产日韩欧美在线| 免费精品一区二区h| 国产粉嫩粉嫩的18在线播放91| 亚洲福利一区二区三区| 中文成人无码国产亚洲| 91精品啪在线观看国产60岁| jizz国产视频| 97色伦色在线综合视频| 国产亚洲美日韩AV中文字幕无码成人| 伊人激情综合网| 国产精品短篇二区| 国产一区二区三区在线观看视频| 国产麻豆另类AV| 国产综合欧美| 亚洲日韩Av中文字幕无码| www.av男人.com| 国产成人精品免费av| 欧美精品v| 亚洲无码精彩视频在线观看| 久久精品免费国产大片| 99视频在线免费|