999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

對數(shù)線性翻譯模型的判別式訓(xùn)練綜述

2013-04-29 00:44:03劉樂茂趙鐵軍

劉樂茂 趙鐵軍

摘要:目前幾乎所有的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)都采用對數(shù)線性模型建模. 判別式訓(xùn)練是基于對數(shù)線性翻譯系統(tǒng)的一個(gè)重要組成部分,其任務(wù)就是優(yōu)化對數(shù)線性模型的參數(shù)。到現(xiàn)在為止,有很多判別式訓(xùn)練方法可以用來訓(xùn)練翻譯模型權(quán)重。從似然函數(shù)、錯誤率函數(shù)和可擴(kuò)展方法三個(gè)方面,系統(tǒng)地闡述并分析了這些訓(xùn)練方法,旨在讓更多的研究者更好地了解判別式訓(xùn)練方法的發(fā)展現(xiàn)狀、為判別式訓(xùn)練的進(jìn)一步發(fā)展起到推動作用。同時(shí),還就判別式訓(xùn)練提出了兩個(gè)值得進(jìn)一步探討的問題。

關(guān)鍵詞:統(tǒng)計(jì)機(jī)器翻譯; 對數(shù)線性模型; 判別式訓(xùn)練

中圖分類號:TP391.2 文獻(xiàn)標(biāo)識碼:A文章編號:2095-2163(2013)06-0014-04

0引言

統(tǒng)計(jì)方法[1]已經(jīng)成為機(jī)器翻譯建模的主流方法,特別在Och和Ney[2]提出了基于對數(shù)線性模型的統(tǒng)計(jì)機(jī)器翻譯模型之后。目前,幾乎所有的統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)都處于對數(shù)線性模型框架的支持和限定之下。與產(chǎn)生式的翻譯模型[1]相比,對數(shù)線性翻譯模型不需要考慮翻譯的生成過程,可直接采用判別式的統(tǒng)計(jì)模型建模;其最大優(yōu)點(diǎn)在于,能夠允許加入任意的翻譯特征。因而,可將翻譯的問題轉(zhuǎn)化為特征工程的問題,這就為翻譯系統(tǒng)的研究和設(shè)計(jì)帶來很大的便利。

假設(shè)f是一個(gè)源語言句子,e為其一個(gè)可能的翻譯。形式上,基于對數(shù)線性(最大熵)的翻譯模型[2],可以表述如下:

P(e|f:W)=exp(∑iWi·hi(f,e))∑e′exp(∑iWi·hi(f,e′))(1)

其中,e′是f所有可能的一個(gè)翻譯;h1是雙語對(f,e)的特征,其取值為實(shí)數(shù);W=是一個(gè)d維的向量,表示模型的參數(shù),其中每個(gè)分量Wi都是一個(gè)實(shí)數(shù),表示特征hi的權(quán)重;∑e′exp(∑iWi·hi(f,e′))表示歸一化因子。那么,給定一個(gè)參數(shù)W,對于每個(gè)源語言f, 尋找其最優(yōu)翻譯(f;W)的過程可以看成如下的一個(gè)優(yōu)化問題:

(f;W)=argmaxeP(e|f:W)=argmaxe∑iWi·hi(f,e)(2)

上式也稱為最大后驗(yàn)解碼原則。那么如何事先確定這個(gè)參數(shù)W呢?其準(zhǔn)則又是什么呢?這就是判別式訓(xùn)練的問題。具體來說,判別式訓(xùn)練的任務(wù)是,給定一個(gè)開發(fā)集,優(yōu)化得到一個(gè)合理的參數(shù)W,使得這個(gè)參數(shù)在測試時(shí)性能良好。

機(jī)器翻譯任務(wù)本身固有的一些特點(diǎn),比如翻譯模型中的隱含變量和結(jié)構(gòu)化的搜索空間等等,導(dǎo)致翻譯模型的參數(shù)估計(jì)存在很多困難。不過,經(jīng)過數(shù)十年的發(fā)展歷程,大批研究者相繼提出了許多訓(xùn)練方法,這些方法極大地推動了統(tǒng)計(jì)機(jī)器翻譯的進(jìn)展。但是,據(jù)研究所知,目前還沒有工作就這些方法進(jìn)行系統(tǒng)地闡述與介紹。本文中,將系統(tǒng)地回顧這些方法,同時(shí)就這些方法的優(yōu)缺點(diǎn)進(jìn)行分析與討論,旨在使更多的研究者能夠深入了解判別式訓(xùn)練方法的發(fā)展現(xiàn)狀、為判別式訓(xùn)練的進(jìn)一步發(fā)展起到基礎(chǔ)性地引領(lǐng)作用。

1基于似然函數(shù)的訓(xùn)練方法

首先,為行文約定一些記號:設(shè)(f,e)為一個(gè)雙語對,其中f為源語言,e是其一個(gè)翻譯。給定開發(fā)集{fs,cs,rs}Ss=1,其中fs是開發(fā)集中的源語言句子,cs是fs的一個(gè)候選翻譯集合,rs是fs的參考譯文集,其中每個(gè)元素記為rks,k=1,…,Ls,Ls為rs中元素的個(gè)數(shù)。

既然是估計(jì)概率模型的參數(shù),就必然不能缺少極大似然估計(jì),因?yàn)檫@是概率模型參數(shù)估計(jì)的典型方法。事實(shí)上,在文獻(xiàn)[2]提出最大熵翻譯模型的框架時(shí),其中采用的參數(shù)學(xué)習(xí)方法就是極大似然估計(jì)法。自然地,{fs,cs,rs}Ss=1上的對數(shù)似然函數(shù)的定義如下式:

∑Ss=11Ls∑Lsk=1logP(rks|fs;W)(3)

然而,由于某些rks是不可達(dá)的,這樣,無法計(jì)算其所對應(yīng)的似然函數(shù)。Och 和Ney[2]采用如下的方法來近似上述似然函數(shù),即從fs可達(dá)的那些翻譯中,比如對fs進(jìn)行k-best解碼得到的譯文集cs都是可達(dá)的,從中選取若干個(gè)與參考譯文集最相似的譯文(依據(jù)句子級別的BLEU,定義相似度),作為偽參考譯文,這些偽參考譯文集記為eks,為方便起見,假設(shè)參考譯文集亦含有Ls個(gè)元素。那么基于偽參考譯文集的似然函數(shù)為:

∑Ss=11Ls∑Lsk=1logP(eks|fs;W)(4)

最小化公式(4)的一個(gè)難點(diǎn)是候選翻譯的指數(shù)級空間,而精確地計(jì)算公式(1)中的歸一化因子也很困難,因此,需要借助于合理的近似策略。 Och 和Ney[2]采用的方法是使解碼器輸出k-best候選翻譯集cs,并在cs上近似地計(jì)算歸一化因子。其后就是典型的優(yōu)化問題,通用優(yōu)化方法都可以實(shí)現(xiàn)公式(4)的優(yōu)化,比如梯度法,共軛梯度、擬牛頓法(LBFGS)等等,Och 和Ney[2]采用了GIS算法。

需要注意的是,由于似然函數(shù)是嚴(yán)格凸函數(shù),最大似然估計(jì)方法可以為公式 (4)找到全局最優(yōu)解。盡管如此,這種方法在實(shí)際的翻譯任務(wù)中效果并不好,目前幾乎已經(jīng)不再采用。然而,這種利用k-best候選翻譯來代替整個(gè)翻譯候選空間的思想,對后續(xù)的參數(shù)學(xué)習(xí)算法起著十分重要的作用。更具體地說,其后許多著名的參數(shù)學(xué)習(xí)算法都嵌入在這種框架之內(nèi),所不同的只是,這些算法采用的優(yōu)化目標(biāo)各不相同而已。

2基于錯誤率的訓(xùn)練方法

極大似然估計(jì)的一個(gè)缺點(diǎn)是,沒有直接利用翻譯的評價(jià)度量比如BLEU[3],來作為優(yōu)化的目標(biāo)函數(shù),導(dǎo)致了優(yōu)化目標(biāo)同翻譯評價(jià)度量之間的關(guān)系不太緊密、一致。

為此,Och 在2003年提出了最小錯誤率訓(xùn)練(簡記,MERT)的方法[4],其想法是,直接利用翻譯評價(jià)度量作為優(yōu)化的目標(biāo)函數(shù),以期能夠得到最優(yōu)的參數(shù),使得在開發(fā)集上該參數(shù)得到的翻譯結(jié)果的BLEU 值最高。MERT是機(jī)器翻譯參數(shù)估計(jì)方法中最通用、最成功和最受歡迎的算法。在每屆翻譯評測中,幾乎所有的翻譯系統(tǒng)都采用MERT進(jìn)行參數(shù)估計(jì)。形式上,MERT試圖解決如下的優(yōu)化問題:

minWE{rs,(fs;W)}Ss=1(5)

其中,(fs;W)表示在翻譯候選集cs中,根據(jù)權(quán)重W,按照最大解碼原則公式(2)而得到的一個(gè)翻譯。在式(5)中,E是一個(gè)篇章級的翻譯評價(jià)度量,表示翻譯文檔 {(fs;W)}Ss=1在參考譯文{rs}Ss=1下的評價(jià)得分,比如篇章級的BLEU;其他的記號如前所述。公式(5)的目標(biāo)函數(shù)稱為錯誤率函數(shù)。由于公式(5)中的錯誤率函數(shù)不可導(dǎo),甚至不連續(xù),因而,一般的梯度方法并不適用,有效地求解公式(5)存在困難。

本質(zhì)上說,MERT是一種特殊的Powell算法,可啟發(fā)式地選擇坐標(biāo)向量作為搜索方向。該算法的思路是,每次都選用所有坐標(biāo)向量作為搜索方向,然后沿著每個(gè)搜索方向進(jìn)行線搜索(line search)得到一個(gè)點(diǎn);比較所有坐標(biāo)方向上的線搜索得到的點(diǎn)的目標(biāo)函數(shù)值,選擇目標(biāo)函數(shù)值最小的點(diǎn)作為下次迭代的起點(diǎn);上述兩個(gè)步驟反復(fù)下去,直至算法收斂。MERT的最大貢獻(xiàn)在于,能夠在多項(xiàng)式的時(shí)間內(nèi)執(zhí)行精確的線搜索(exact line search),也即是,在給定的方向上能夠找到該方向使目標(biāo)函數(shù)值最小的點(diǎn)。MERT的精確線搜索可以解釋如下。假設(shè)開發(fā)集中僅僅含有一個(gè)句子,并假設(shè)當(dāng)前的搜索方向是第j個(gè)坐標(biāo)方向,公式(5)關(guān)于參數(shù)Wj是分段線性函數(shù),而且函數(shù)至多有Ls個(gè)線性的片段。這樣,遍歷這個(gè)分段線性函數(shù)就可以找到最小值點(diǎn)Wmaxj。對于開發(fā)集含有多個(gè)句子的情況,只需要組合多個(gè)分段線性函數(shù),算法的思想也與其類似。值得注意的是,雖然MERT在線搜索時(shí),可以找到全局最優(yōu)的點(diǎn),但是整個(gè)算法不能保證必定收斂到全局最小點(diǎn)。相似地,Zhao等[5]提出了另外一種非梯度的方法-單純型法最小化公式(5)。

由于公式(5)中的目標(biāo)函數(shù)是非凸的,導(dǎo)致上述方法不可避免地陷入到局部最優(yōu)的境地。原始的MERT算法沒有考慮局部最優(yōu)的問題,這樣,如何避免性能不好的局部最優(yōu)點(diǎn)就自然成為一個(gè)重要的研究課題。Moore和Quirk[6]在MERT中引入了隨機(jī)初始點(diǎn)的策略以避開性能不好的局部最優(yōu)點(diǎn)。具體來說,就是在MERT迭代過程中,定義了兩種隨機(jī)方法,這兩種方法不同之處在于產(chǎn)生隨機(jī)初始點(diǎn)的方式不同。第一種方法是隨機(jī)初始化,是按照均勻分布產(chǎn)生多個(gè)初始點(diǎn),對每個(gè)初始點(diǎn)都運(yùn)行一遍MERT,就可以得到多個(gè)局部最優(yōu)點(diǎn),再比較這幾個(gè)局部點(diǎn)對應(yīng)的BLEU值,選擇BLEU值最高的那個(gè)局部最優(yōu)點(diǎn)。第二種方法是隨機(jī)行走,是在上次選擇的局部點(diǎn)的基礎(chǔ)上,引入標(biāo)準(zhǔn)的高斯噪聲,抽樣出一個(gè)處于局部點(diǎn)周圍的初始點(diǎn),并運(yùn)行MERT得到另外一個(gè)局部最優(yōu)點(diǎn),再比較新舊兩個(gè)局部對應(yīng)的BLEU值,以決定是否接受新的局部最優(yōu)點(diǎn)。Galley和Quirk[7]則利用組合優(yōu)化的方法,尋找到公式(5)的全局最優(yōu)解。其主要思想同MERT中的精確線搜索相似,不同于MERT中精確線搜索的地方就在于求解一個(gè)一維的分段線性函數(shù),并計(jì)算一個(gè)多維的分段線性函數(shù)。換句話說,該方法不是按照某一個(gè)坐標(biāo)向量計(jì)算公式(5),而是對所有的方向計(jì)算公式(5),同時(shí)將多變量的優(yōu)化公式(5)轉(zhuǎn)化成一個(gè)線性規(guī)劃問題。詳細(xì)做法是,將各獨(dú)立句子的k-best翻譯列表中的每個(gè)候選翻譯的特征向量都對應(yīng)于一個(gè)多維歐式空間中的點(diǎn),再利用線性規(guī)劃的方法計(jì)算k-best翻譯列表對應(yīng)的集合的最小凸包,并根據(jù)所得到最小凸包就可以求得公式(5)的解;其次,將每個(gè)句子的最小凸包進(jìn)行組合,就可以得到公式(5)中對應(yīng)的分段線性的目標(biāo)函數(shù)(關(guān)于參數(shù)W),遍歷這個(gè)分段線性函數(shù)可以找到最優(yōu)的解。這個(gè)方法的最大貢獻(xiàn)是,方法表明了公式(5)可以找到全局最優(yōu)解,但是,其算法復(fù)雜度卻是指數(shù)級的,因此,不宜推廣到規(guī)模很大的開發(fā)集上。

如前所述,公式(5)中的錯誤率函數(shù)是分段線性的,具有許多局部最小值的區(qū)域。由于錯誤率函數(shù)的形狀錯綜復(fù)雜,高峰和低谷的分布異常不均勻。這樣導(dǎo)致的結(jié)果是,對于不同的開發(fā)集,所對應(yīng)的錯誤率函數(shù)的最小值區(qū)域并不具有一致性。因此,即使是找到了公式(5)的(局部)最小值點(diǎn),公式(5)的最小值點(diǎn)附近區(qū)域的其他點(diǎn)的錯誤率函數(shù)值也有可能會達(dá)到很高。如此,該最小值點(diǎn)的推廣能力未必是最好的。為了避免這種情況的發(fā)生,許多研究者為MERT提出了正則的方法,以避免找到推廣能力不好的(局部)最優(yōu)點(diǎn)。Smith和eisner[8]采用光滑的函數(shù)來逼近錯誤率函數(shù),以減少錯誤率函數(shù)的“尖銳點(diǎn)”現(xiàn)象。通過使用一個(gè)期望風(fēng)險(xiǎn)函數(shù)來取代公式(5)中的目標(biāo)函數(shù):

minWExpectation(W;l)=minW∑Ss=1∑e∈csl(e)P(e|fs;W)(6)

其中,l(e)表示與參考譯文相比e具有的損失值, 和公式(5)中E的意義一樣,不同的只是,這是定義在句子級別而已。公式(6)也即MBR的最小風(fēng)險(xiǎn)準(zhǔn)則。值得注意的是,公式(6)是連續(xù)可微的,是公式(5)的“光滑逼近”。同Smith和Eisner采用光滑逼近的技術(shù)實(shí)現(xiàn)正則不同,Cer等[9]采用了離散正則的方法。其主要思想是,在評價(jià)某一個(gè)權(quán)重向量時(shí),不僅考慮這個(gè)向量所在的線性區(qū)域(因?yàn)楣剑?)中的目標(biāo)函數(shù)是分片線性的)對應(yīng)的BLEU值,而且考慮這個(gè)區(qū)域附近的k個(gè)其他線性區(qū)域的BLEU得分情況。對于每個(gè)線性區(qū)域的目標(biāo)BLEU值,則提出了兩種組合方法。一種是max, 定義了每個(gè)線性區(qū)的BLEU值為該區(qū)域的k個(gè)附近區(qū)域的BLEU值最高值。另一種方法是average, 則將這個(gè)線性區(qū)域的BLEU值定義為k個(gè)附近區(qū)域BLEU值的平均值。

3可擴(kuò)展的訓(xùn)練方法

參數(shù)估計(jì)方法的可擴(kuò)展性是一個(gè)重要的研究問題,也是近幾年的一個(gè)研究熱點(diǎn)。其中的原因是,對數(shù)線性模型的一大優(yōu)點(diǎn)就是可以很靈活地增加特征,而且,現(xiàn)有的研究表明[10],增加大量的特征有利于提高翻譯的性能。為此,MERT就面臨著一個(gè)重要的問題,其可擴(kuò)展性不好。需要強(qiáng)調(diào)的是,這里的可擴(kuò)展性是指,在翻譯模型的特征不斷增加時(shí),MERT的性能會下降;而并不是指MERT在算法效率上的可擴(kuò)展問題。比如,Chiang等[10]的實(shí)驗(yàn)表明,MERT在翻譯模型的維數(shù)小于30時(shí),性能很好;維數(shù)大于50時(shí),性能將變得不好。其中一個(gè)可能的原因是,公式(5)的錯誤率函數(shù)是非凸的,隨著維數(shù)的增加,陷入局部最優(yōu)的可能性也就越大。為此,許多研究者在這方面提出了具有可擴(kuò)展性的參數(shù)估計(jì)方法。Liang等[11]基于感知器的在線學(xué)習(xí)算法,提出了一種可以優(yōu)化大量特征的翻譯模型。算法的主要思路是:對于源語言fs的參考譯文rs和候選譯文e′s,那么權(quán)重就應(yīng)該滿足:P(rs|fs;W)>P(e′s|fs;W), 即,W·h(rs,fs)>W·h(e′s fs)。在此,可以使用感知器更新公式:

W←W+h(rs, fs)-h(e′s, fs)(7)

由于參考譯文rs可能會不可達(dá),文中提出3種權(quán)重更新策略:激進(jìn)的更新,局部的更新和混合更新方法。激進(jìn)的更新僅對于參考譯文能可達(dá)句子,按照公式(7)更新權(quán)重;而對于那些參考譯本不可達(dá)的句子,直接不予考慮更新。局部更新的對象是對所有的句子都進(jìn)行更新,其做法是使解碼器輸出k-best候選翻譯,將k-best翻譯中BLEU 分最高的翻譯代替公式(7)中的rs,其他的翻譯代替e′s,按照公式(7)更新k-1次。組合的更新方法結(jié)合前兩種更新方式:如果參考譯文可達(dá),執(zhí)行魯莽的更新;否則,執(zhí)行局部更新。相似地,Tillmann和Zhang[12]采用隨機(jī)梯度的在線更新算法學(xué)習(xí)大規(guī)模特征的翻譯模型權(quán)重。

Watanabe等[13]以及Chiang等[10]提出了基于大邊緣融合松弛(MIRA)算法[14]的翻譯模型參數(shù)估計(jì)方法。同Liang及Tillmann和Zhang的方法一樣,這也是一個(gè)在線的學(xué)習(xí)。設(shè)當(dāng)前迭代的權(quán)重為Wt;解碼器為更新權(quán)重由開發(fā)集中挑選的句子集{ftk}Bk=1,其中,B為批量大小(Batch size)。那么,更新后的權(quán)重Wt+1為如下二次優(yōu)化問題的解:

其中,λ為大于0的正則系數(shù),O tk(Θtk)為性能較好(不好)的翻譯集,r tk為ftk的參考譯文集,l(ek,e′k,rtk)為根據(jù)rtk評價(jià)ek和e′k的句子級BLEU之差。如何挑選O tk(Θtk)對翻譯的性能具有一定的影響,Watanabe等[13]以及Chiang等[10]從k-best 翻譯列表或者超圖中選擇句子級BLEU最高(最低)的前幾個(gè)候選翻譯構(gòu)成O tk(Θtk)。公式(8)對應(yīng)的二次優(yōu)化問題可以使用SMO[15]進(jìn)行求解。MIRA算法的一個(gè)缺點(diǎn)是,需要設(shè)定很多參數(shù),比如λ和O tk(Θtk)選擇所必需的一些參數(shù)。不同于上述對MIRA采取在線的更新算法,Cherry和Foster[16]提出了一個(gè)批處理的MIRA訓(xùn)練算法。該算法與MERT一樣,對開發(fā)集中的所有句子,執(zhí)行一次二次優(yōu)化。另外,Hopkins和May[17]將翻譯模型的參數(shù)學(xué)習(xí)問題看做是排序問題,然后將其轉(zhuǎn)化成了普通的分類問題,并采用開源的分類器實(shí)現(xiàn)算法。算法實(shí)現(xiàn)簡單,而且實(shí)驗(yàn)表明也十分有效,同時(shí),還具有很好的可擴(kuò)展性。受該算法啟發(fā),Watanabe[18]提出了一個(gè)基于排序的在線學(xué)習(xí)算法。相似地,文獻(xiàn)Bazrafshan等[19]將翻譯模型的參數(shù)學(xué)習(xí)問題轉(zhuǎn)化成了一個(gè)線性回歸問題。同基于排序的二值分類問題相比,這一方法不但獲得了更好的翻譯性能,而且還具有更好的收斂速度。

4結(jié)束語

判別式訓(xùn)練是基于對數(shù)線性的統(tǒng)計(jì)機(jī)器翻譯中最重要的一個(gè)組成部分。本文在充分調(diào)研和深入分析的基礎(chǔ)上,對現(xiàn)有的所有主流的訓(xùn)練方法進(jìn)行了綜述。本文主要從似然函數(shù)、錯誤率函數(shù)和可擴(kuò)展的方法三個(gè)方面,闡述并分析了各個(gè)訓(xùn)練方法的優(yōu)缺點(diǎn)。判別式訓(xùn)練方法的研究至今只有數(shù)十年,而且統(tǒng)計(jì)機(jī)器翻譯本身具有諸多的復(fù)雜性制約,目前還有許多問題有待于更深一步的研究和探討。基于目前關(guān)于判別式訓(xùn)練的研究經(jīng)驗(yàn),本文在最后提出一些未來值得進(jìn)一步挖掘的研究問題,希望對這方面的研究者在未來的研究中有所啟發(fā),進(jìn)而為判別式訓(xùn)練的進(jìn)一步發(fā)展乃至統(tǒng)計(jì)機(jī)器翻譯的發(fā)展起到推動作用。

首先,對于結(jié)構(gòu)化學(xué)習(xí)問題,在精確的解碼框架下,其判別式訓(xùn)練有著良好的理論基礎(chǔ)[20]。然而在機(jī)器翻譯中,翻譯模型通常會包含全局的特征比如語言模型,動態(tài)規(guī)劃的技術(shù)則無法采用,因此精確解碼是不可能的,往往采用基于柱狀搜索的非精確解碼方法。非精確解碼導(dǎo)致的后果是,算法的收斂性很難得到保證,實(shí)際上,現(xiàn)有的判別式訓(xùn)練算法是否能夠收斂?需要經(jīng)過多少次解碼迭代才能收斂?這都沒有獲得理論上的保證。黃亮等[21]指出,當(dāng)非精確解碼滿足一定的條件時(shí),收斂性就能夠得到保證。因此,可否將現(xiàn)有的解碼方式進(jìn)行適當(dāng)?shù)男薷模詽M足黃亮等提出的關(guān)于非精確解碼的條件?或者可否重新探索滿足新的收斂條件和新的解碼方式。

其次,對于判別式訓(xùn)練而言,其最終目標(biāo)是,對于優(yōu)化得到的權(quán)重而言,翻譯度量最好翻譯對應(yīng)的模型得分,要大于其他候選翻譯的模型得分。由于翻譯評價(jià)度量不能定義在翻譯單元上,而翻譯的解碼卻需要按照翻譯單元進(jìn)行擴(kuò)展,這就使得訓(xùn)練時(shí)幾乎不能找到質(zhì)量最好的翻譯。因而,在實(shí)踐中,機(jī)器翻譯在訓(xùn)練的過程中,僅僅考慮翻譯模型得分最好的k-best候選翻譯,而后又在k-best翻譯候選中考慮質(zhì)量最好的翻譯。由于k-best僅僅是指數(shù)級別翻譯空間中一個(gè)粗糙的近似,這種近似會影響到判別式訓(xùn)練的效果。那么如何在解碼搜索中同時(shí)兼顧考慮翻譯評價(jià)度量就是一個(gè)重要的問題。

參考文獻(xiàn):

[1]BROWN P F, PIETRA V J D, PIETRA S A D, et al. The mathematics of statistical machine translation: parameter estimation. comput. Linguist. 1993,19:263–311.

[2]OCH F J, NEY H. Discriminative training and maximum entropy models for statistical machine translation[C]//Proc. of ACL. PA, USA, 2002:295–302.

[3]PAPINENI K, ROUKOS S, WARD T, et al. Bleu: a method for automatic evaluation of machine translation[C]//Proc. of ACL. Philadelphia, Pennsylvania, USA, 2002:311–318.

[4]OCH F J. Minimum error rate training in statistical machine translation[C]//Proc. of ACL. Sapporo, Japan, 2003:160–167.

[5]ZHAO B, CHEN S. A simplex armijo downhill algorithm for optimizing statistical machine translation decoding parameters[C]//Proc. of NAACL. Stroudsburg, PA, USA, 2009:21–24.

[6]MOORE R C, QUIRK C. Random restarts in minimum error rate training for statistical machine translation[C]//Proc. of COLing. Stroudsburg, PA, USA, 2008:585–592.

[7]GALLEY M, QUIRK C. Optimal search for minimum error rate training[C]//Proc. of EMNLP. Edinburgh, Scotland, UK., 2011:38–49.

[8]SMITH D A, EISNER J. Minimum risk annealing for training log-linear models[C]//Proc. of COLING-ACL. Sydney, Australia, 2006:787–794.

[9]CER D, JURAFSKY D, MANNING C D. Regularization and search for minimum error rate training[C]//Proc. of the Third Workshop on SMT, 2008.

[10]CHIANG D, MARTON Y, RESNIK P. Online large-margin training of syntactic and structural translation features[C]//Proc. of EMNLP,2008.

[11]LIANG P, BOUCHARD-C^OT^E A, KLEIN D, et al. An end-to-end discriminative approach to machine translation[C]// Proc. of ACL. Sydney,Australia, 2006:761–768.

[12]TILLMANN C, ZHANG T. A discriminative global training algorithm for statistical Mt[C]//Proc. of ACL. Stroudsburg, PA, USA, 2006:721–728.

[13]WATANABE T, SUZUKI J, TSUKADA H, et al. Online large-margin training for statistical machine translation[C]//Proc. of EMNLP-CoNLL. Prague, Czech Republic, 2007:764–773.

[14]CRAMMER K, SINGER Y. Ultraconservative online algorithms for multiclass problems[J]. Mach. Learn. Res, 2003, 3:951–991.

[15]PLATT J. Fast training of Support vector machines using sequential minimal optimization. SCHOELKOPF B, BURGES C, SMOLA A, (Editors) Advances in Kernel Methods - Support Vector Learning, MIT Press, 1998.

[16]CHERRY C, FOSTER G. Batch tuning strategies for Statistical Machine Translation[C]//Proc. of NAACL. Montrieal, Canada, 2012: 427–436.

[17]HOPKINS M, MAY J. Tuning as ranking[C]//Proc. of EMNLP. Edinburgh, Scotland, UK., 2011:1352–1362.

[18]WATANABE T. Optimized online rank learning for machine translation[C]//Proc. of NAACL. Montrieal, Canada, 2012:253–262.

[19]BAZRAFSHAN M, CHUNG T, GILDEA D. Tuning as linear regression[C]//Proc. of NAACL. Montreal, Canada, 2012:543–547.

[20]COLLINS M. Discriminative training methods for Hidden Markov Models: theory and experiments with Perceptron Algorithms[C]//Proc. of EMNLP, 2002.

[21]HUANG L, FAYONG S, GUO Y. Structured perceptron with inexact search[C]//Proc. of NAACL. Montrieal, Canada, 2012:142–151.

[14]AKAGI T, SUGENO M. Fuzzy identification of systems and its application to modeling and control[J]. IEEE Transactions on Systems, Man, and, Cybernetics, 1985,15(1): 116-132.

[15]黃福員. 金融風(fēng)險(xiǎn)預(yù)警的MPSO-FNN模型構(gòu)建與應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用,2009,45(14):210-212.

[16]ALTMAN E I, MARCO G, VARETTO F. Corporate distress diagnosis: comparisons using linear discriminant Ana analysis and neural networks[J]. Journal of Banking and Finance, 1994, 18: 505-529.

[17]李志輝, 李萌. 我國商業(yè)銀行信用風(fēng)險(xiǎn)識別模型及其實(shí)證研究[J]. 經(jīng)濟(jì)科學(xué), 2005(5): 61-71.

[18]財(cái)政部統(tǒng)計(jì)評價(jià)司. 企業(yè)績效評價(jià)問答[M]. 北京:經(jīng)濟(jì)科學(xué)出版社, 1999.

[19]章彰. 解讀巴塞爾新資本協(xié)議[M]. 北京: 中國經(jīng)濟(jì)出版社, 2005.

主站蜘蛛池模板: 99er精品视频| 日本精品αv中文字幕| 一本无码在线观看| 亚洲人成在线精品| 国产一级毛片高清完整视频版| 国产亚洲精品精品精品| 在线永久免费观看的毛片| 五月天丁香婷婷综合久久| 国产第一福利影院| 亚洲精品男人天堂| 亚洲欧美自拍视频| 亚洲嫩模喷白浆| 中日韩欧亚无码视频| 男人天堂亚洲天堂| 国产一级在线观看www色| 日韩资源站| 狼友av永久网站免费观看| 日韩区欧美区| 亚洲码一区二区三区| 丁香六月激情综合| 九九久久精品国产av片囯产区| 538精品在线观看| 日本道综合一本久久久88| 日韩精品一区二区三区大桥未久| 国产另类乱子伦精品免费女| 亚洲日韩在线满18点击进入| 99草精品视频| 欧美中文字幕一区| 香蕉伊思人视频| 日本成人精品视频| 久久精品欧美一区二区| 国产凹凸视频在线观看| 18禁色诱爆乳网站| 国产无码网站在线观看| 日本亚洲欧美在线| 欧美成一级| 亚洲人成色在线观看| 欧美精品另类| 97国产在线播放| 农村乱人伦一区二区| 91麻豆精品视频| 国产欧美日韩一区二区视频在线| 任我操在线视频| 精品三级在线| 日韩在线网址| 中文字幕久久亚洲一区| 五月婷婷欧美| 青青国产视频| 狼友视频国产精品首页| 免费一极毛片| 久久久久人妻一区精品| 国产伦片中文免费观看| 久久精品视频一| 国产精品.com| 无码一区18禁| 国产精品一区二区在线播放| 在线国产欧美| 麻豆精品在线| 欧美日韩免费在线视频| 国产好痛疼轻点好爽的视频| 亚洲中文字幕国产av| 亚洲网综合| 亚洲高清无码精品| 丰满人妻中出白浆| 白浆免费视频国产精品视频| 成人在线视频一区| 亚洲区欧美区| 亚洲大尺度在线| 久久九九热视频| 亚洲无限乱码一二三四区| 国产精品太粉嫩高中在线观看 | 黄色网页在线播放| 毛片基地视频| 欧美午夜在线播放| 欧美精品黑人粗大| 亚洲中字无码AV电影在线观看| 国产波多野结衣中文在线播放 | 欧美人与动牲交a欧美精品| 日本影院一区| 92午夜福利影院一区二区三区| 国产精品性| 亚洲人成影院午夜网站|