999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

統(tǒng)計機器翻譯中翻譯模型的約簡概述

2011-01-01 00:00:00郎君
智能計算機與應(yīng)用 2011年3期

摘要: 統(tǒng)計機器翻譯從誕生至今獲得了長足的發(fā)展,目前已經(jīng)成為機器翻譯的主流。但是作為基礎(chǔ)模塊之一的翻譯模型卻隨訓(xùn)練語料的增大而呈現(xiàn)飛速增大的趨勢。為了使統(tǒng)計機器翻譯更加實用,翻譯模型的約簡一直是研究熱點之一。概述了統(tǒng)計機器翻譯中翻譯模型約簡的研究現(xiàn)狀,相關(guān)方法主要圍繞解碼過程統(tǒng)計分析、訓(xùn)練語料中的統(tǒng)計分析、翻譯模型中的短語對自身特點分析等三個類別。結(jié)合相關(guān)分析,最后也探討了這個方向的未來發(fā)展趨勢。

關(guān)鍵詞:

中圖分類號: TP391.2 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-2163(2011)01-0013-04

0概述

機器翻譯(Machine Translation)是自然語言處理(N-atural Language Processing)的重要分支之一,其目的是借助計算機將文字或者語音從一種自然語言翻譯成另外一種自然語言,例如將中文翻譯成英文。早期的機器翻譯借助基于語法規(guī)則的轉(zhuǎn)換語法,在翻譯詞典的基礎(chǔ)上實現(xiàn)源語言到目標(biāo)語言的翻譯。這種方法可以在特定領(lǐng)域取得很好的效果,例如天氣預(yù)報。因為這些領(lǐng)域的翻譯比較規(guī)律,容易總結(jié)出相關(guān)的翻譯模式。然而針對較為復(fù)雜的領(lǐng)域,例如新聞或者旅游等,總結(jié)出的翻譯模式就很難保證覆蓋度和準(zhǔn)確度了。

從上世紀(jì)末開始,隨著計算機計算能力和存儲能力的不斷提升,機器翻譯方法中統(tǒng)計方法開始異軍突起。目前非限定領(lǐng)域機器翻譯中,統(tǒng)計方法是性能較佳的一種方法。統(tǒng)計機器翻譯的基本思想是通過對大量的平行語料進(jìn)行統(tǒng)計分析,構(gòu)建統(tǒng)計翻譯模型,進(jìn)而使用此模型結(jié)合語言模型來進(jìn)行翻譯(機器翻譯中將翻譯過程可以看成解碼過程)。從發(fā)展階段來看,統(tǒng)計機器翻譯最早以基于詞的方法為主,現(xiàn)在已經(jīng)完全過渡到基于短語的翻譯方法。統(tǒng)計機器翻譯的研究方面,目前開始出現(xiàn)大量的融合句法信息的方法,以實現(xiàn)進(jìn)一步提高翻譯的精確性。但相對于基于短語的方法,基于句法的方法產(chǎn)生的翻譯模型會龐大很多,相應(yīng)的翻譯速度也會慢很多。目前實用的統(tǒng)計機器翻譯系統(tǒng)都主要集中在基于短語的方法上,現(xiàn)在的一些商用機器翻譯系統(tǒng)也是基于短語的方法,例如Google的翻譯系統(tǒng)。

統(tǒng)計機器翻譯的首要任務(wù)是為語言的產(chǎn)生構(gòu)造某種合理的統(tǒng)計模型,并在此統(tǒng)計模型基礎(chǔ)上,定義要估計的模型參數(shù),并設(shè)計參數(shù)估計算法。早期的基于詞的統(tǒng)計機器翻譯采用的是噪聲信道模型,并運用最大似然準(zhǔn)則進(jìn)行無監(jiān)督訓(xùn)練,而近年來常用的基于短語的統(tǒng)計機器翻譯則采用區(qū)分性訓(xùn)練方法,一般來說需要參考語料進(jìn)行有監(jiān)督訓(xùn)練。

統(tǒng)計機器翻譯系統(tǒng)的翻譯效果與用于訓(xùn)練翻譯模型的雙語平行語料的規(guī)模有關(guān)。普遍的共識是平行語料的規(guī)模越大,翻譯的結(jié)果就會越準(zhǔn)確。事實上,Google的翻譯系統(tǒng)就是基于超大規(guī)模的雙語平行語料訓(xùn)練出來的。但是,語料增大隨之而來的問題就是得到的翻譯模型的規(guī)模也會越大。在同樣計算能力的條件下,翻譯模型越大,翻譯速度就會越慢。為了解決這個問題,很多科研人員開始考慮如何約簡翻譯模型的規(guī)模,例如從手機等移動設(shè)備的角度來盡可能約簡。

以Moses為代表的基于短語的統(tǒng)計機器翻譯系統(tǒng)在雙語平行語料上訓(xùn)練得到的翻譯模型的格式如下:

Source Phrase ||| Target Phrase ||| Related Features

其中Source Phrase是源語言短語,Target Phrase是目標(biāo)語言短語,Related Features是用于實際句子翻譯過程中的短語對的相關(guān)特征。如下所示為實際的一個翻譯模型所對應(yīng)的一條短語對(Bi-phrase):

很 多 議員 ||| many councillors ||| 0.04 2.15638e-08 1 0.000542039 2.718

本文所述的統(tǒng)計機器翻譯模型的約簡就是對這些翻譯的短語對進(jìn)行相應(yīng)的度量,并最終進(jìn)行適當(dāng)?shù)奶蕹:罄m(xù)部分還介紹了經(jīng)典的統(tǒng)計機器翻譯的處理流程以及模型約簡的三個類別的方法。

1經(jīng)典的統(tǒng)計機器翻譯處理流程

統(tǒng)計機器翻譯發(fā)展至今,相關(guān)軟件的開源開發(fā)在其中發(fā)揮了重要的促進(jìn)作用。下面以Moses為例,簡述經(jīng)典的統(tǒng)計機器翻譯的學(xué)習(xí)和翻譯的基本流程。

統(tǒng)計機器翻譯一般都從雙語平行語料開始進(jìn)行處理。先在句子對齊的語料庫上調(diào)用Giza++詞對齊程序進(jìn)行迭代處理,在得到的詞對齊結(jié)果上按照一些啟發(fā)式規(guī)則抽取得到相應(yīng)的短語對齊結(jié)果,例如上面提到的“Source Phrase ||| Target Phrase”。隨后對這些抽取得到的短語對按照相應(yīng)的統(tǒng)計方法得到與相關(guān)的短語對所對應(yīng)的特征值,例如前面的“Related Features”及相關(guān)的那些數(shù)值。至此就得到了統(tǒng)計機器翻譯的翻譯模型。也就是說,大量的短語對及相關(guān)特征構(gòu)成了翻譯模型。

接下來,實際的機器翻譯解碼器會在這個翻譯模型以及另外訓(xùn)練得到的語言模型的基礎(chǔ)上,通過一些調(diào)試數(shù)據(jù)對一些特征相關(guān)的參數(shù)進(jìn)行調(diào)優(yōu)。得到最優(yōu)參數(shù)后,就可以在解碼器的基礎(chǔ)上對任意輸入的源語言句子進(jìn)行翻譯。實際評測機器翻譯性能的方法是將一些有多個參考答案的句子經(jīng)翻譯后,把翻譯結(jié)果和多個標(biāo)準(zhǔn)答案比對,得到最終的得分。最常用的得分標(biāo)準(zhǔn)叫做BLEU值。BLEU值越高的系統(tǒng)被認(rèn)為翻譯質(zhì)量最好。

例如,在一個100萬句對平行語料上經(jīng)過詞對齊、短語抽取處理得到的短語表的大小為68 968 597;在一個20萬句對平行語料上得到的短語表大小為26 787 367。

2翻譯模型約簡方法的三種類型

統(tǒng)計機器翻譯研究的經(jīng)驗表明,用于訓(xùn)練翻譯模型的雙語平行語料規(guī)模越大,最終機器翻譯結(jié)果的質(zhì)量就會越好。但是隨著語料的增多,翻譯模型的大小也會變得非常巨大。為了縮小翻譯模型的大小,很多研究人員嘗試了各種方法來對翻譯模型中的短語對進(jìn)行評估并刪除質(zhì)量較差的短語對。這其中,多數(shù)方法在翻譯模型減小的同時,會降低最終解碼器的翻譯質(zhì)量,即BLEU值;但也有一些方法能在翻譯模型減小很多的情況下,最終的BLEU值卻沒有一點顯著的損耗,甚至有方法能夠使得BLEU值得到提高。最理想的模型約簡方法就是在翻譯模型大幅度減小的同時,最終的BLEU值也得到一定的提高。這種現(xiàn)狀說明,翻譯模型中有不少短語對對于最終的機器翻譯起到了反作用。

下面分四種類型來介紹這些翻譯模型的約簡方法。

2.1根據(jù)解碼器解碼過程中短語對的出現(xiàn)情況進(jìn)行約簡

實際的解碼器在進(jìn)行句子翻譯時會窮舉輸入句子可能的各種切分結(jié)果,根據(jù)這些切分結(jié)果形成的Source Phrase在翻譯模型中查詢得到所有對應(yīng)的Target Phrase,這些Target Phrase又會在不斷深入的搜索中進(jìn)行相應(yīng)的排序,最終會被選中出現(xiàn)在翻譯結(jié)果中的Target Phrase所對應(yīng)的短語對被認(rèn)為是重要的。實際上一個源語言句子的翻譯結(jié)果會有很多個,通常解碼器會根據(jù)需求輸出最靠前的翻譯結(jié)果,這些翻譯結(jié)果被認(rèn)為是系統(tǒng)輸出的最終結(jié)果。

Eck等[1]將一個在調(diào)試集上調(diào)好參數(shù)的解碼器用來翻譯一組大量的源語言句子,針對每個翻譯模型中的短語對統(tǒng)計如下兩個數(shù)值:

(1)c(phrase pair)=短語對在語料翻譯過程中被考慮(出現(xiàn)在翻譯候選中)的次數(shù);

(2)u(phrase pair)=短語對出現(xiàn)在最終翻譯結(jié)果(被選中)中的次數(shù)。

對于每個短語對,最終的得分為:

score(phrase pair)=[log(c(phrase pair)+1)]?觹

[u(phrase pair)+1] (1)

最后將每個短語對,根據(jù)score從高到低進(jìn)行排序,對于排序結(jié)果取出前N個短語對作為翻譯模型約簡的結(jié)果。

Eck等[2]在上述工作的基礎(chǔ)上進(jìn)一步考慮到了短語對在翻譯結(jié)果的N-best中的情況。如圖1所示,針對某個源語言句子的翻譯結(jié)果的N-best中,i-best包含ki個短語對。解碼器會根據(jù)這個N-best順序選擇最優(yōu)的翻譯結(jié)果1-best。但是根據(jù)源語言句子的多個參考翻譯結(jié)果,采用某種評價方法(metric),例如BLEU,實際上最好的結(jié)果是i-best。

Eck等[2]的工作是根據(jù)i-best相對于1-best的距離關(guān)系來對各個i-best中的短語對打分,兩種打分公式如式(2),式(3)所示,然后根據(jù)這個打分進(jìn)行短語對排序并選擇排序靠前的結(jié)果作為約簡結(jié)果。

Eck等的這兩種方法都能夠進(jìn)行有效的約簡,但是得到的約簡翻譯模型對應(yīng)的翻譯質(zhì)量都有所降低,文獻(xiàn)[2]的約簡結(jié)果的翻譯質(zhì)量優(yōu)于文獻(xiàn)[1]。

2.2根據(jù)雙語平行語料中短語對的出現(xiàn)情況進(jìn)行約簡

翻譯對來自于雙語平行語料,但翻譯對的抽取卻采用了一些啟發(fā)式的方法。這些方法并沒有考慮翻譯對在雙語平行語料中整體出現(xiàn)的情況。為此,針對翻譯對在雙語平行語料中的出現(xiàn)情況,研究人員分別提出了p-value, noise-value, C-value等方法。

首先,定義翻譯對的源語言短語Source Phrase為s,目標(biāo)語言短語Target Phrase為t;C(s,t)為平行語料中源語言句子至少包含s的一次出現(xiàn),同時目標(biāo)語言句子至少包含t的一次出現(xiàn)的雙語句對的句子個數(shù);C(s)為平行語料中源語言部分至少包含s的一次出現(xiàn)的句子的個數(shù);C(t)為平行語料中源語言部分至少包含t的一次出現(xiàn)的句子的個數(shù);假設(shè)平行語料包含N個雙語句對。根據(jù)這些統(tǒng)計量,得到s和t的聯(lián)立表如表1所示。

根據(jù)表1中的數(shù)據(jù),Fisher精確檢驗采用如式(4),式(5)的超幾何分布函數(shù)phg來計算精確的p-value統(tǒng)計量。

Johnson等[3]采用的就是式(5)的p-value來對翻譯模型中所有的短語對進(jìn)行打分,隨后按從高到低的順序來擇優(yōu)選取短語對作為約簡的結(jié)果。事實上,這種方法在將短語表約簡到原始大小的大約10%時,還能使得最終的翻譯質(zhì)量得到提升。這是一種目前為止最好的翻譯模型約簡方法。

隨后,Tomeh等[4]在上述p-value方法的基礎(chǔ)上,根據(jù)Moore[5]指出的p-value方法的缺點以及noise-value方法的優(yōu)點,采用noise-value來進(jìn)行翻譯模型的約簡。Moore[5]指出,針對出現(xiàn)頻率較低的一些事件,p-value數(shù)值較高并不一定意味著s和t之間具有獨立性。Tomeh等[4]采用的noise-value的定義如下:

事實上,Tomeh et al.[4]的實驗結(jié)果顯示,雖然noise-value也能在將翻譯模型約簡到28%左右還能保證翻譯質(zhì)量不降低,但是Johnson et al.[3]的方法明顯還是要好一些。

上面兩種方法都是在統(tǒng)計短語對的源語言短語和目標(biāo)短語分別在平行語料中的出現(xiàn)情況。He等[6]借用術(shù)語抽取領(lǐng)域的C-value來衡量短語對的質(zhì)量。一個短語對p的C-value主要考察四個因素:(L, F, S, N),其中:

(1)L(p)是短語對中源語言短語的長度;

(2)F(p)是源語言短語在語料中的出現(xiàn)頻率;

(3)S(p)是源語言短語在語料中作為子串出現(xiàn)在其他更長短語中的頻率;

(4)N(p)是語料中包含源語言短語的短語的個數(shù)。

具體的計算算法是:

C-value在術(shù)語抽取領(lǐng)域被廣泛使用,He等[6]指出這種方法在翻譯模型約簡到22%時還能保證翻譯質(zhì)量的BLEU值不降低,并且將這個數(shù)值作為解碼器的附加特征進(jìn)行參數(shù)調(diào)優(yōu)后在22%的約簡前提下,BLEU值還能有一定的提高。

2.3根據(jù)短語對的內(nèi)部詞對齊情況來進(jìn)行約簡

上面的兩類方法都是在考察短語對在平行語料中的情況,這里的第三類方法重點考察短語對內(nèi)部的對齊情況。因為短語對是在平行語料詞對齊結(jié)果的基礎(chǔ)上抽取得到的。

Sánchez-Mart?覦nez等[7]考慮了短語對中的詞類情況。文中將詞語分成開放詞類(Open Words)和封閉詞類(Closed Words)。根據(jù)兩條原則來剔除短語對:

(1)如果短語對的源語言短語或者目標(biāo)語言短語包含開放詞類,但是至少有一個開放詞沒有在另一端對齊到開放詞類上;

(2)在上一條原則的基礎(chǔ)上,如果短語對的任何一端的第一個或者最后一個詞語對空。

注:對空現(xiàn)象是在進(jìn)行對齊短語抽取時可能產(chǎn)生的現(xiàn)象,例如“我們 一起 吃飯 ||| let's have dinner together but”中的but。

針對相關(guān)的語言,Sánchez-Mart?覦nez等[7]定義了封閉詞類包含哪些類別以及具體的詞語,沒有包含其中的詞語都是開放詞類。圖2分別定義了英語、法語、西班牙語的封閉詞類。

這種啟發(fā)式的方法得到的翻譯模型約簡會導(dǎo)致翻譯結(jié)果的BLEU值降低1-2個點。

基于此,He等[8]將短語對的內(nèi)部對齊情況分成兩大類:不能再分拆的最小對齊,和由最小對齊構(gòu)成的組合對齊。例如圖3左圖表示最小對齊,右圖表示組合對齊。

在組合對齊里,又分為單調(diào)組合(如圖4左圖)和非單調(diào)組合(如圖4右圖)。

He等[8]的方法是將翻譯對里單調(diào)組合的短語全部剔除,因為這種單調(diào)組合的短語在實際解碼過程中可能通過最小對齊的短語對順序地拼接而成。仿真實驗結(jié)果顯示,在翻譯模型被約簡為原始大小的30%左右時,相應(yīng)的BLEU值還能有一點提高。從約簡計算的代價來看,也是值得推廣的。

3結(jié)束語

統(tǒng)計機器翻譯的研究越來越熱,剛剛結(jié)束的自然語言處理頂級會議ACL2011中機器翻譯達(dá)到了史無前例的7個分會場[9]。隨著機器翻譯的深入研究,相信會產(chǎn)生更多的關(guān)于翻譯模型約簡的研究成果。在本文綜述的四類方法中,筆者認(rèn)為最好的方法是基于Fisher精確檢驗理論的Johnson等[3]的p-value的方法,因為在模型約簡到原始大小的10%左右規(guī)模的同時,還能得到測試語料上BLEU值的提高。當(dāng)然,這種Fisher精確檢驗的方法存在的一個問題是對翻譯模型完成一次約簡需要一定的時間,而這是因為Fisher精確檢驗方法的計算復(fù)雜度相對較高。如果為了進(jìn)行快速的翻譯模型約簡,可嘗試He等[8]的剔除單調(diào)組合對齊的短語對的方法。

筆者針對翻譯模型約簡進(jìn)行過一些嘗試。在統(tǒng)計學(xué)中,Fisher精確檢驗比傳統(tǒng)的卡方檢驗效果要好,但還存在一種理論上比Fisher檢驗更好的方法——Barnard檢驗[10]。Barnard檢驗是在[0,1]區(qū)間內(nèi)尋找一個最優(yōu)的度量值來作為檢驗的結(jié)果,雖然理論上更優(yōu),但是計算量驚人。如果Barnard檢驗的計算復(fù)雜度能夠降低的話,應(yīng)該是一種非常值得探索的方法。

參考文獻(xiàn):

[1] ECK M,VOGEL S,WAIBEL A. Translation model pruning via usage statistics for statistical machine translation[C]// Human La- nguage Technologies 2007: The Conference of the North Ameri- can Chapter of the Association for Computational Linguistics; C- ompanion Volume, Short Papers, New York Rochester:Associa- tion for Computational Linguistics,2007:21-24.

[2] ECK M,VOGEL S,WAIBEL A. Estimating phrase pair relevan- ce for translation model pruning[C]// Proceedings of the MT Su- mmit XI,2007.

[3] JOHNSON H,MARTIN J,FOSTER G,et al. Improving transla- tion quality by discarding most of the phrasetable[C]// Proceed- ings of the 2007 Joint Conference on Empirical Methods in Na- tural Language Processing and Computational Natural Language Learning (EMNLPCoNLL), Prague, Czech Republic: Association for Computational Linguistics,2007:967-975.

[4] TOMEH N,CANCEDDA N,DYMETMAN M. Complexity-basedphrastable filtering for statistical machine translation[C]// Proce- edings of the MT Summit XII,2009.

[5] MOORE R C. On log-likelihood-ratios and the significance of rare events[C]// Lin Dekang, Wu Dekai. Proceedings of EMNLP2004, Spain, Barcelona: Association for Computational Linguis- tics,2004:333-340.

[6] HE Zhongjun,MENG Yao,LV Yajuan,et al. Reducing smt rule table with monolingual key phrase[C]// Proceedings of the ACLI- JCNLP 2009 Conference Short Papers,Singapore,Suntec:Associ- ation for Computational Linguistics,2009:121-124.

[7] Sánchez-Martnez F,Way A. Marker-based filtering of bilingual phrase pairs for smt[C]// Proceedings of the 13th Annual Meeting of the European Association for Machine Translation (EAMT-09), Citeseer,2009:144-151.

[8] HE Zhongjun,MENG Yao,YU Hao. Discarding monotone comp- osed rule for hierarchical phrase-based statistical machine tran- slation[C]// Proceedings of the 3rd International Universal Comm- unication Symposium, ACM,2009:25-29.

[9] http://www.acl2011.org/program.utf8.shtml.

[10] http://en.wikipedia.org/wiki/barnard%27s_exact_test.

主站蜘蛛池模板: 成人国产精品网站在线看| 777午夜精品电影免费看| 欧美.成人.综合在线| 无码免费的亚洲视频| 麻豆精品视频在线原创| 中文字幕无码制服中字| 伊人中文网| 最新国产午夜精品视频成人| 国产99热| 99re热精品视频国产免费| 国产精品lululu在线观看| 东京热高清无码精品| 激情综合网址| 亚洲国产天堂久久综合| 成人精品午夜福利在线播放| 超碰aⅴ人人做人人爽欧美| 三上悠亚在线精品二区| 一级香蕉人体视频| 国产欧美视频综合二区| 小13箩利洗澡无码视频免费网站| 黄色网页在线观看| 国产精品久久久久无码网站| 亚洲国产一区在线观看| 久久a级片| 欧美成人精品在线| 97se亚洲| 欧美影院久久| 免费三A级毛片视频| 国产爽歪歪免费视频在线观看| 71pao成人国产永久免费视频| 久久国产乱子| 日本高清成本人视频一区| 亚洲成人黄色网址| 亚洲不卡网| 亚洲成人一区二区| 91黄视频在线观看| av天堂最新版在线| 国产aaaaa一级毛片| 欧美不卡视频一区发布| 狠狠色狠狠色综合久久第一次| 伊人丁香五月天久久综合| 国产99在线| 日韩av电影一区二区三区四区 | 91综合色区亚洲熟妇p| 亚洲人成网站18禁动漫无码| 无遮挡一级毛片呦女视频| 精品视频一区二区观看| 免费人成黄页在线观看国产| 日韩精品资源| 亚洲AⅤ综合在线欧美一区| 国产精品嫩草影院av| 日韩精品一区二区深田咏美| 国产欧美日本在线观看| 国内99精品激情视频精品| 亚洲av色吊丝无码| 亚洲欧美日韩另类在线一| 国产精品自在在线午夜区app| 日韩免费视频播播| 91亚洲精选| 亚洲欧美自拍一区| 国产精品福利社| www.亚洲天堂| 亚洲男人的天堂网| 欧美 亚洲 日韩 国产| 波多野结衣二区| 91精品免费高清在线| 99精品久久精品| 一区二区偷拍美女撒尿视频| 国产白浆一区二区三区视频在线| 国产欧美日韩精品第二区| 男人天堂亚洲天堂| 亚洲色中色| 一本久道久久综合多人| 成人一级黄色毛片| 亚洲人成网站在线播放2019| 波多野一区| 青青操视频在线| a级毛片在线免费| 久久这里只精品国产99热8| 波多野结衣爽到高潮漏水大喷| 久久黄色免费电影| 精品福利视频网|