999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多策略機(jī)器翻譯研究綜述

2015-04-21 09:43:42李業(yè)剛黃河燕史樹敏
中文信息學(xué)報 2015年2期
關(guān)鍵詞:語義融合策略

李業(yè)剛,黃河燕,史樹敏,馮 沖,蘇 超

(1. 北京理工大學(xué) 計算機(jī)學(xué)院 北京市海量語言信息處理與云計算應(yīng)用工程技術(shù)研究中心,北京 100081;2. 山東理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255049)

?

多策略機(jī)器翻譯研究綜述

李業(yè)剛1,2,黃河燕1,史樹敏1,馮 沖1,蘇 超1

(1. 北京理工大學(xué) 計算機(jī)學(xué)院 北京市海量語言信息處理與云計算應(yīng)用工程技術(shù)研究中心,北京 100081;2. 山東理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,山東 淄博 255049)

該文全面綜述和分析了多策略機(jī)器翻譯的研究。根據(jù)所采用策略方式的差異,我們將多策略機(jī)器翻譯分為系統(tǒng)級策略融合和模塊級策略融合。在分別介紹了不同的翻譯方法后,著重介紹了系統(tǒng)級策略融合和模塊級策略融合各自具有代表性的研究工作。最后,對多策略機(jī)器翻譯的研究進(jìn)行了展望。

機(jī)器翻譯;多策略機(jī)器翻譯;融合機(jī)器翻譯;混合機(jī)器翻譯;多引擎機(jī)器翻譯

1 引言

機(jī)器翻譯(Machine Translation, MT)是利用計算機(jī)實現(xiàn)從一種自然語言到另一種自然語言的自動翻譯技術(shù)。機(jī)器翻譯方法目前公認(rèn)可以分為基于規(guī)則的機(jī)器翻譯(Rule-Based MT, RBMT)和基于語料庫的數(shù)據(jù)驅(qū)動的機(jī)器翻譯(Corpus-Based MT, CBMT)。RBMT由詞典、規(guī)則庫以及各類知識庫構(gòu)成知識源;CBMT以語料應(yīng)用為核心,進(jìn)一步分為統(tǒng)計機(jī)器翻譯(Statistics MT, SMT)、基于實例的機(jī)器翻譯(Example-Based MT, EBMT)和翻譯記憶 (Translation Memory, TM)。RBMT主要從語言現(xiàn)象著手,側(cè)重描述語言構(gòu)成規(guī)律,對語言規(guī)律有良好的概括以及描述能力。SMT主要從數(shù)學(xué)角度,側(cè)重統(tǒng)計建模,因而具備良好的數(shù)學(xué)模型、魯棒性以及自學(xué)習(xí)能力。EBMT是從機(jī)器學(xué)習(xí)的角度,側(cè)重待翻譯實例的抽象程度,EBMT和TM對有較高相似度句子的翻譯頗有價值。

上述單一的機(jī)器翻譯方法,很難說哪一種在翻譯效果上具有壓倒性的絕對優(yōu)勢,它們都存在一些自身難以克服的弊端。同時,它們互不排斥,各自著眼于不同角度,側(cè)重翻譯問題的不同側(cè)面。多層次的語言成分構(gòu)成、嚴(yán)謹(jǐn)?shù)慕y(tǒng)計數(shù)學(xué)模型以及豐富的翻譯實例,三者是可以共融共生的。在這樣的背景下,博采眾長,融合多種翻譯方法的多策略機(jī)器翻譯思想應(yīng)運(yùn)而生,并成為當(dāng)前機(jī)器翻譯研究的熱點(diǎn)之一。

多策略機(jī)器翻譯(Multi-Strategy MT,MSMT)的任務(wù)是揚(yáng)長避短,協(xié)調(diào)不同翻譯策略,融合多種翻譯方法,從而進(jìn)一步提升翻譯性能。MSMT中的策略,可以是某一種翻譯方法,也可以是一種翻譯方法中的某個模塊。MSMT目前研究呈現(xiàn)出多樣化的趨勢,可能是兩個或者更多的翻譯方法的系統(tǒng)級融合,也可能是屬于不同翻譯方法模塊的模塊級融合,或者是兩者的結(jié)合。

我們在前賢們的研究基礎(chǔ)上,詳盡地介紹了各種不同的翻譯策略及其融合方式。文中首先簡單介紹了四種翻譯方法的基本原理及其優(yōu)缺點(diǎn)和主要研究熱點(diǎn);然后按照融合方式的不同,分別介紹了系統(tǒng)級的策略融合以及模塊級的策略融合;接著介紹了一個典型的MSMT系統(tǒng);最后對全文進(jìn)行了總結(jié)并對MSMT的發(fā)展進(jìn)行了展望。

2 RBMT

2.1 RBMT概述 RBMT用人工撰寫的規(guī)則來描述語言規(guī)律,首先對待翻譯的源語言句子進(jìn)行分析或理解,對其意義進(jìn)行表示,然后在某一平面進(jìn)行語言的轉(zhuǎn)換,最終結(jié)合目標(biāo)語言結(jié)構(gòu)規(guī)則生成與源語言等價的目標(biāo)語言句子。在RBMT中,為了控制規(guī)則沖突,保證良好的規(guī)則可擴(kuò)展性,規(guī)則往往具有層次性和模塊性。因此,RBMT規(guī)則系統(tǒng)的組織不僅僅要解決方法論問題,還要從軟件工程以及知識工程的層面統(tǒng)籌設(shè)計。不同RBMT系統(tǒng)的技術(shù)差別主要體現(xiàn)在轉(zhuǎn)換平面上,如詞法、句法語義以及語用層面等。

2.2 RBMT的研究

RBMT目前的研究主要集中在基于語義層面的轉(zhuǎn)換,以及多語言翻譯特別是少數(shù)民族語言翻譯。

文獻(xiàn)[1]提出了基于語義單元理論的機(jī)器翻譯方法原理,把自然語言間的翻譯看作同一語義在兩種自然語言上的不同表示之間的轉(zhuǎn)換,首先,在源語言端進(jìn)行語義分析,得到句義表達(dá)式,然后代入目標(biāo)語言語義單元表示,生成目標(biāo)語言句子。文獻(xiàn)[2]研究了量詞選擇,英語介詞的語義消歧以及漢英時態(tài)轉(zhuǎn)換。文獻(xiàn)[3]闡述了一個良構(gòu)的自然語言句子生成系統(tǒng)。

機(jī)器翻譯中的本體是對知識的形式化,是語義表達(dá)的依托和語義推理的依據(jù),是獨(dú)立于特定語言的概念庫,它可以為詞典、語義表示提供語義概念,把語義概念組織為概念層次網(wǎng)絡(luò),形成語義空間[4]。計算機(jī)可以通過搜索從語義空間中獲取有關(guān)概念的信息,進(jìn)行語義計算及推理,從而提高M(jìn)T系統(tǒng)的語義處理能力,解決在限定翻譯領(lǐng)域的一些實際問題。文獻(xiàn)[5]對機(jī)器翻譯專業(yè)領(lǐng)域分類系統(tǒng)、專業(yè)詞典向?qū)I(yè)領(lǐng)域分類系統(tǒng)的映射以及國際標(biāo)準(zhǔn)分類ICS標(biāo)準(zhǔn)向?qū)I(yè)領(lǐng)域分類系統(tǒng)的映射等問題進(jìn)行了研究。基于已經(jīng)構(gòu)建的領(lǐng)域本體MPO,文獻(xiàn)[6]提出一種本體知識規(guī)則與統(tǒng)計方法相結(jié)合的領(lǐng)域命名實體識別方法,通過本體化的實例,獲取構(gòu)成實體的詞性規(guī)則模板,進(jìn)而結(jié)合機(jī)器學(xué)習(xí),識別限定領(lǐng)域命名實體。文獻(xiàn)[7-8]提出一種基于詞典中注釋信息的詞匯領(lǐng)域標(biāo)注方法,利用通用詞典中詞匯的注釋信息給詞語標(biāo)注領(lǐng)域,擴(kuò)充了現(xiàn)有領(lǐng)域詞典的規(guī)模。

文獻(xiàn)[9]提出層次語義類型樹(Semantic Category Tree,SCT)模型,并應(yīng)用在漢英機(jī)器翻譯中,實現(xiàn)漢英SCT層面轉(zhuǎn)換,它們?yōu)楦拍顚哟尉W(wǎng)絡(luò)(Hierarchical Network Concepts,HNC)概念體系的3 000多個概念基元建立了概念基元知識庫,包括概念基元符號、概念基元延伸節(jié)點(diǎn)的表示以及概念關(guān)聯(lián)表示式等,用概念延伸結(jié)構(gòu)表示代替了本體的上下位表示方法,不同的延伸結(jié)構(gòu)代表了不同的語義擴(kuò)展,同時,概念之間的關(guān)系用概念關(guān)聯(lián)表示式描述,并利用概念和詞語的綁定來增強(qiáng)詞語的聚集性。

另外,在少數(shù)民族語言方面,文獻(xiàn)[10]描述了統(tǒng)一標(biāo)準(zhǔn)、接口的多民族語言本體知識庫的創(chuàng)建思路。文獻(xiàn)[11]建立了蒙古語的語義知識庫。文獻(xiàn)[12]闡述了維語的框架語義描述體系。

2.3 RBMT的優(yōu)勢及存在的問題

RBMT歷經(jīng)幾十年的不斷發(fā)展,不斷融入人工智能的最新成果,日趨完善。RBMT直觀地表達(dá)語言學(xué)知識,良好地概括和描述語言規(guī)律,詳盡的規(guī)則能夠準(zhǔn)確、直觀地描述語言的語法、語義構(gòu)成,多層次的規(guī)則便于進(jìn)行深層理解和復(fù)雜結(jié)構(gòu)處理,對不同句子實施不同平面轉(zhuǎn)換,有效解決長距離依賴問題。真正為用戶所使用的專業(yè)機(jī)器翻譯產(chǎn)品大多都是基于規(guī)則的系統(tǒng)。

因為規(guī)則庫是眾多的語言學(xué)家手工構(gòu)建的,所以一致性很難保障,當(dāng)規(guī)則庫達(dá)到一定規(guī)模后,進(jìn)一步擴(kuò)充規(guī)則非常困難。由于語言現(xiàn)象龐雜,現(xiàn)有的理論方法和語言規(guī)則都無法有效地表達(dá)所有語言現(xiàn)象,趨于無限的語言現(xiàn)象和枚舉的規(guī)則系統(tǒng)之間的矛盾是RBMT的局限性,這也最終影響了 RBMT 在開放領(lǐng)域中的適應(yīng)性。

3 SMT

3.1 SMT概述 SMT把翻譯看作概率問題,認(rèn)為任意一個目標(biāo)語言句子都在一定概率上是任意一個源語言句子的譯文,SMT的目標(biāo)就是找到概率最大的那個目標(biāo)語言句子。SMT的首要任務(wù)是模型問題,就是為機(jī)器翻譯建立合適的概率模型,確定源語言句子到目標(biāo)語言句子的翻譯概率的計算方法,并在此基礎(chǔ)上,定義要估計的參數(shù),設(shè)計估計的算法。SMT奠基性的工作是文獻(xiàn)[13]提出的信源信道模型,對后繼的SMT研究產(chǎn)生了深遠(yuǎn)的影響,噪聲信道模型如式(1)所示。

e*=argmaxP(e|f)

(1)

信道模型包括三個基本組件:翻譯模型P(f|e)、語言模型P(e)以及解碼。翻譯模型計算目標(biāo)語言句子和源語言句子的翻譯概率;語言模型對生成的目標(biāo)語言句子進(jìn)行評估,保證其流暢性;解碼是在已知模型以及相關(guān)參數(shù)的基礎(chǔ)上,對于任何一個源語言句子,查找翻譯概率最大的目標(biāo)語言句子。

語言模型[14](language model, LM)是SMT系統(tǒng)中的重要模塊,它被用來衡量翻譯系統(tǒng)輸出句子的流暢程度,給定一個詞匯序列ω1,ω2,…,ωn,n元語言模型的計算如式2所示。

(2)

它有一個重要假設(shè),即當(dāng)前詞匯ωi出現(xiàn)的概率僅與前n-1個詞匯ωi-n+1,…,ωi-1相關(guān),而與其他詞匯無關(guān)。

文獻(xiàn)[15-16]將對數(shù)—線性模型(log-linear)引入SMT,提出了基于短語的統(tǒng)計機(jī)器翻譯(Phrase-BasedMT,PBSMT),該模型對P(e|f)進(jìn)行建模,能夠整合各種不同的特征(feature),并允許自動調(diào)節(jié)特征的權(quán)重,將連續(xù)的多詞作為短語,整體翻譯,擴(kuò)大了翻譯的粒度,容易處理局部上下文依賴關(guān)系,能夠較好地翻譯習(xí)語和常用搭配。這項工作對SMT的發(fā)展影響重大,幾乎現(xiàn)在的SMT全部是采用對數(shù)線性模型框架。其數(shù)學(xué)表達(dá)形式如式(3)所示。

(3)

3.2SMT的研究

目前,SMT的研究[17-19]集中在將句法知識引入到翻譯框架中,利用句法知識來限制翻譯路徑,約束目標(biāo)詞和短語的活動范圍。典型的研究有吳德凱[20]和Chiang[21]的基于形式化句法的翻譯模型以及南加州大學(xué)信息科學(xué)研究所提出的樹-串翻譯模型[22]。相比傳統(tǒng)的基于短語的翻譯模型,層次短語翻譯模型能夠處理非連續(xù)短語,并具有一定的泛化能力,且不受句法分析的制約。基于語言學(xué)語法的統(tǒng)計機(jī)器翻譯則包含了豐富的語言學(xué)知識。

盡管基于句法的SMT具有一定的長距離調(diào)序的能力,但是純粹的基于句法的SMT受限于雙語句法結(jié)構(gòu)的不一致性、生成規(guī)則中的終結(jié)符過分泛化以及生成規(guī)則的規(guī)模過于龐大等因素,翻譯質(zhì)量并沒有顯著提高。如何在SMT中更有效地融入句法知識,既保證對句法知識的容錯能力,又能夠解釋不同語言之間的差異,還需要進(jìn)一步的深入研究。

另外,目前研究主要是嘗試在句法層面融入語言學(xué)知識。如何選擇一種可計算、表達(dá)能力強(qiáng)的表示形式,如何選擇一種有較強(qiáng)的數(shù)據(jù)學(xué)習(xí)能力的合適模型,把更深層次的語言學(xué)知識,比如語義知識和篇章上下文知識,有效融入SMT框架,也需要進(jìn)一步的研究。

隨著各種資源越來越豐富以及算法的日趨復(fù)雜,SMT的計算量也越來越大。Google之所以在機(jī)器翻譯領(lǐng)域占據(jù)領(lǐng)先地位,也是源于其能力強(qiáng)大的分布式計算。因此,結(jié)合分布式計算與機(jī)器翻譯,將機(jī)器翻譯相關(guān)計算進(jìn)行并行化處理也將是SMT的研究熱點(diǎn)。

3.3SMT優(yōu)勢及目前存在的問題

SMT由于具有良好的數(shù)學(xué)模型、自學(xué)習(xí)能力和魯棒性等優(yōu)點(diǎn),從而備受研究者的鐘愛,迅速被開放領(lǐng)域的互聯(lián)網(wǎng)機(jī)器翻譯所采納,成為目前非限定領(lǐng)域機(jī)器翻譯中表現(xiàn)最佳的一種翻譯方法。

SMT依賴于大規(guī)模的雙語語料,依靠統(tǒng)計進(jìn)行歧義的消解以及譯文的選擇。翻譯模型以及語言模型的參數(shù)估計的準(zhǔn)確性都直接依賴于語料的規(guī)模,翻譯效果最終取決于概率模型和語料庫的覆蓋能力。因此,對于語料匱乏的語言之間的翻譯,比如我國的少數(shù)民族語言,能力有限。SMT還面臨數(shù)據(jù)稀疏問題。即便是在超大規(guī)模的語料庫中,也會存在相當(dāng)一部分的低頻詞,低頻詞的統(tǒng)計信息往往不夠準(zhǔn)確,這些不準(zhǔn)確的統(tǒng)計最終會影響SMT的翻譯性能。

單純依賴統(tǒng)計量的SMT難于反映語言真實的內(nèi)部規(guī)律,簡單的統(tǒng)計量也很難解釋差異較大語言之間的復(fù)雜結(jié)構(gòu)對應(yīng)關(guān)系,這就造成翻譯結(jié)果雖然“詞詞相對”,卻不具備可讀性,晦澀難懂。

4 EBMT

4.1EBMT概述EBMT是以翻譯實例為出發(fā)點(diǎn)基于類比原理的機(jī)器翻譯方法。EBMT把源語言句子分解為片段,通過類比找到這些片段對應(yīng)的目標(biāo)語言的片段,經(jīng)過對目標(biāo)語言片段的適當(dāng)重組,形成句子翻譯結(jié)果。EBMT主要的知識源是雙語對照的實例庫和義類詞典等,其核心問題是通過最大限度的統(tǒng)計,得出雙語對照的實例庫。不同的EBMT系統(tǒng)之間的主要區(qū)別在于相異的雙語語料庫結(jié)構(gòu)以及翻譯模板以及翻譯模型的生成技術(shù)不同。

4.2EBMT的研究

句子之間的相似可以表現(xiàn)在語義、結(jié)構(gòu)、目標(biāo)特征和個體特征等不同方面。根據(jù)類比推理,最優(yōu)匹配最好要同時滿足前述的約束。然而,語言的無窮性將會導(dǎo)致模板庫趨于無窮大。為了增強(qiáng)模版的覆蓋能力,在構(gòu)造模板時,可以對實例進(jìn)行適當(dāng)?shù)姆夯?Generation),把句中一些不影響整體結(jié)構(gòu)和總體表達(dá)的可替換的成分抽象化,從而降低輸入的維數(shù),提高句子的匹配率。基于模板的機(jī)器翻譯方法(Template-basedMT/Pattern-basedMT,TBMT/PBMT)是EBMT翻譯方法的擴(kuò)展,是EBMT中的一種典型翻譯方法。

實例的泛化程度可高可低,既可以是將雙語實例中的特殊語言成分(比如命名實體等)用類標(biāo)表示[23];也可以是將句子中相同部分表示為變量,泛化后的句子模板是比規(guī)則更具體比實例更抽象介于規(guī)則和實例之間的知識粒度,模板的粒度將直接影響到匹配的效果。利用語法或者語義概念層次結(jié)構(gòu)的源語言句子的相似度的計算以及限制翻譯模板的變量是翻譯模板研究的趨勢之一[24-26]。

4.3EBMT優(yōu)勢及存在的問題

EBMT系統(tǒng)能夠利用翻譯實例中隱含的結(jié)構(gòu)信息對譯文中的詞進(jìn)行約束,一般不對源語言進(jìn)行深層次分析,對于實例庫中的已有句子,可以直接高質(zhì)量翻譯,對實例庫中存在與實例比較相似的句子,可以通過類比推理,并對翻譯結(jié)果進(jìn)行少量的修改后,近似翻譯。EBMT還可以同時給出翻譯結(jié)果的置信度,這也是EBMT在系統(tǒng)融合中備受歡迎的一個重要原因。

EBMT需要對語言的互譯片段建立映射,即短語甚至詞匯一級的雙語對齊。短語對齊往往存在歧義,這將影響譯文的質(zhì)量。不進(jìn)行語言深分析的EBMT系統(tǒng),缺乏句子的深層結(jié)構(gòu)信息,翻譯碎片組合比較困難,生成的譯文信息往往有所匱乏。而基于深層次分析技術(shù)的EBMT系統(tǒng),因為各種語言分析器訓(xùn)練語料的不平衡,在不同應(yīng)用領(lǐng)域上的性能差別非常大。

EBMT把訓(xùn)練過程放在了解碼階段,翻譯實時性會受到較大的影響,其受限于大規(guī)模實例語料庫中相似實例的檢索速度。

對于可檢索到相似實例的源句子,EBMT能夠生成高質(zhì)量的譯文。因此,實例的覆蓋率是EBMT系統(tǒng)的重要因素,但受限于語料庫規(guī)模,EBMT很難達(dá)到較高的匹配率,往往只有在限定領(lǐng)域和專業(yè)領(lǐng)域,翻譯效果才能達(dá)到使用要求。因此,單純采用RBMT的系統(tǒng)較少,一般都把它作為多翻譯引擎中的一個。

5 TM

TM是利用已有的源語言資源和對應(yīng)的目標(biāo)語言資源,建立起一個或多個翻譯記憶庫。在翻譯過程中,TM系統(tǒng)自動搜索翻譯記憶庫中相同或相似的翻譯資源(如句子、篇章),作為參考譯文呈現(xiàn)給用戶。用戶可以選擇接受參考譯文,也可以在譯文基礎(chǔ)上進(jìn)行修改,得到最終的譯文。用戶修改過的譯文和對應(yīng)的源文會自動存入記憶庫,供下次使用。TM系統(tǒng)的性能與翻譯資料的重復(fù)性有很大的關(guān)系,重復(fù)性內(nèi)容越多,翻譯效果就越好。

TM所面對的用戶通常是領(lǐng)域的“專家”,這與EBMT不同,EBMT翻譯的結(jié)果由系統(tǒng)決定,用戶只需要懂目標(biāo)語言即可。從這點(diǎn)來說,TM不是純粹的機(jī)器翻譯方法而是屬于輔助機(jī)器翻譯。但是TM與EBMT存在許多相似的地方,例如,對已有翻譯實例的重用,翻譯實例的存儲,相似翻譯實例的檢索等。所以,實際研究中,研究者們經(jīng)常忽略它們的不同,把TM也看作一種機(jī)器翻譯方法。

6 系統(tǒng)級策略融合

針對單一的機(jī)器翻譯方法本身及發(fā)展中存在的問題[27-28],系統(tǒng)級策略融合(也稱作融合機(jī)器翻譯(SystemCombinationforMT)、混合機(jī)器翻譯(HybridMT)或者多引擎機(jī)器翻譯(Multi-EngineMT)),致力于在后處理或是翻譯過程中,揚(yáng)長避短,融合多個機(jī)器翻譯引擎的有用信息,得到更好地譯文。按照融合的階段可分為后處理級系統(tǒng)融合和模型間系統(tǒng)融合。國內(nèi)機(jī)器翻譯評測會議(CWMT)率先從2008年開展系統(tǒng)融合單獨(dú)評測,國際機(jī)器翻譯評測NIST也從2009年開始將系統(tǒng)融合作為單獨(dú)的項目進(jìn)行評測,這也從另一方面說明系統(tǒng)融合技術(shù)的重要性。

6.1 后處理系統(tǒng)融合

在后處理系統(tǒng)融合中,融合可以在句子、短語或者詞粒度上獨(dú)立進(jìn)行[29],也可以結(jié)合起來進(jìn)行。句子粒度的系統(tǒng)融合可以是并列式系統(tǒng)融合,也可以是遞進(jìn)式系統(tǒng)融合。并列式系統(tǒng)融合平等的對待所有的融合系統(tǒng),針對同一個源語言句子,使用單機(jī)器翻譯引擎所使用的特征之外的特征,從合并后多個系統(tǒng)的翻譯結(jié)果的N-best列表中找出翻譯質(zhì)量最高的結(jié)果,實際上是一種句子重排序,目前的研究主要集中在對融合策略的探索。基于最小貝葉斯風(fēng)險(MinimumBayes-RiskDecoding,MBR)[30]的系統(tǒng)融合方法是從多個系統(tǒng)的翻譯結(jié)果的N-best列表中選擇期望損失最小的,如式(4)所示。

(4)

在這里Eh代表由多個機(jī)器翻譯系統(tǒng)結(jié)果組成的N-best列表;ref表示參考譯文。L(e′,ref)表示損失函數(shù),它的值越小,對應(yīng)翻譯結(jié)果e′的質(zhì)量越高;P(ref|f)代表翻譯后驗概率,系統(tǒng)融合的輸入來源較多,不同系統(tǒng)給出的后驗概率不具備可比性,RBMT系統(tǒng)則無法給出后驗概率,因此在使用中往往設(shè)置的后驗概率是相同的。

通用線性模型[31](generalizedlinearmodel)把翻譯假設(shè)所對應(yīng)的翻譯的置信度取對數(shù),與高階語言模型(例如,5階)得分以及長度懲罰線性加權(quán),作為評分準(zhǔn)則,如式(5)所示。

(5)

其中,p(ei)為翻譯假設(shè)ei對應(yīng)的翻譯置信度,ν和μ分別為五元語言模型和長度懲罰|ei|對應(yīng)的特征權(quán)重,這些權(quán)重可以在開發(fā)集上進(jìn)行優(yōu)化得到。

文獻(xiàn)[32]提出了一種基于機(jī)器學(xué)習(xí)的翻譯推薦策略,對于MT系統(tǒng)的輸出和TM系統(tǒng)的參考翻譯,通過分類器挑選出更適合后編輯的譯文,呈現(xiàn)給用戶,進(jìn)行人工后編輯,該方法把判斷哪一個輸出結(jié)果適合后編輯問題看作是一個分類,使用翻譯編輯率(TranslationEditRate,簡稱TER)[33]來自動評價后編輯的工作量。后編輯所需工作量最小的結(jié)果,并不一定是SMT或TM的Top-1結(jié)果。因此為了更好地利用兩個系統(tǒng)的N-best結(jié)果,文獻(xiàn)[34]提出了一個基于重排序的翻譯推薦方法: 對于SMT和TM的N-best結(jié)果,利用支持向量機(jī)(SupportVectorMachine,SVM)進(jìn)行重新打分排序,并將新產(chǎn)生的Top-n結(jié)果,人工進(jìn)行后編輯。采用的改進(jìn)的優(yōu)化函數(shù)如式(6)所示。

(6)

其中,Φ(sn,di)表示給定源語言句子sn對應(yīng)翻譯輸出di的特征向量。諸如此類的基于機(jī)器學(xué)習(xí)的策略融合研究還有文獻(xiàn)[35-36]。

文獻(xiàn)[37-38]在多Agent的日漢機(jī)器翻譯系統(tǒng)中,采用TM、EBMT、RBMT多種機(jī)器翻譯方法相結(jié)合的遞進(jìn)式融合,機(jī)器翻譯的流程分為三個遞進(jìn)式模塊,從基礎(chǔ)的TM翻譯,到需要源語言句法信息的EBMT,再到最復(fù)雜、需要源語言句法、語義分析的基于配價和斷段分析的RBMT,當(dāng)前一個翻譯模塊的譯文評分達(dá)到設(shè)立的閾值時,該模塊的譯文輸出作為最終翻譯結(jié)果,否則進(jìn)入下一個模塊進(jìn)行更深層的處理。系統(tǒng)取得了較好的翻譯效果,其中,在開放測試中,譯文可讀性達(dá)到了79% 。

目前國內(nèi)外后處理系統(tǒng)融合研究熱點(diǎn)集中在詞粒度的系統(tǒng)融合[29],借鑒語音識別中混淆網(wǎng)絡(luò)解碼[39]的思想,將多個翻譯系統(tǒng)輸出的翻譯假設(shè),利用詞對齊方法構(gòu)建混淆網(wǎng)絡(luò)(或稱為詞轉(zhuǎn)換網(wǎng)絡(luò)),對混淆網(wǎng)絡(luò)中每一個位置的候選詞進(jìn)行置信度估計,最后進(jìn)行混淆網(wǎng)絡(luò)解碼。這種融合方法在詞的層次重組了輸出譯文,因此能夠充分利用各個翻譯假設(shè)的詞匯粒度的知識,取長補(bǔ)短。混淆網(wǎng)絡(luò)解碼同時也破壞了原來的翻譯假設(shè)的詞序的一致性以及短語連貫性,因此,也會發(fā)生融合后的譯文不符合語法的情況。

6.2 模型間系統(tǒng)融合

模型間的融合是利用機(jī)器學(xué)習(xí)算法,在更深層次融合兩個具有互補(bǔ)性的翻譯模型,從而提高翻譯性能。

TM或者EBMT引入到SMT,相當(dāng)于在SMT中間接利用了全局信息,將會改善SMT系統(tǒng)輸出,推動SMT在專業(yè)翻譯領(lǐng)域的應(yīng)用。文獻(xiàn)[40]提出,首先使用EBMT,查找最相似的實例,然后利用句法和詞對齊信息,抽取匹配部分的翻譯,并利用XML標(biāo)記法固定匹配部分的翻譯,使用SMT系統(tǒng)翻譯剩余部分。文獻(xiàn)[41]則把XML標(biāo)記法引入到TM和SMT的融合。實驗結(jié)果表明,僅當(dāng)模糊匹配系數(shù)高于0.7時,XML標(biāo)記法才能改善SMT系統(tǒng)翻譯性能,否則會導(dǎo)致翻譯性能降低。但是,模糊匹配系數(shù)低,并不意味著TM中所有的片段都沒有價值;模糊匹配系數(shù)高,也不意味著TM中所有的片段都有價值,因此,文獻(xiàn)[42]提出了決策式XML標(biāo)記法,使用分類器,代替模糊匹配系數(shù),決定是否使用XML標(biāo)記法, 對于需要進(jìn)行XML標(biāo)記的句子,XML標(biāo)記法保留了匹配短語,剩余部分則SMT進(jìn)行翻譯,對于不需要XML標(biāo)記的句子通過SMT進(jìn)行翻譯。

上述方法僅在翻譯的輸出上進(jìn)行淺層融合,并沒有改變SMT模型和解碼器,因此性能提升的幅度不大。因此,文獻(xiàn)[43]提出了一種在解碼層面進(jìn)行TM和SMT的深層次的融合框架,并引入了模糊匹配區(qū)間索引、源語言短語鏈接狀態(tài)和目標(biāo)語言短語匹配狀態(tài)三種特征集,驗證了三種由簡到繁的整合式融合模型。當(dāng)模糊匹配系數(shù)大于0.4時,BLEU值和TER值都顯著優(yōu)于單獨(dú)的SMT和TM系統(tǒng),BLEU比SMT基線系統(tǒng)提高了3.48個百分點(diǎn),TER值提高了2.62個百分點(diǎn)。

SMT和EBMT采用相同的詞對齊雙語語料庫,因而可以結(jié)合兩者的優(yōu)點(diǎn),利用EBMT獲得實例中蘊(yùn)含的豐富信息以及相應(yīng)的翻譯結(jié)構(gòu),利用SMT的各類模型特征定量評價譯文的好壞。文獻(xiàn)[44-46]提出了混合數(shù)據(jù)驅(qū)動機(jī)器翻譯模型框架,在法-英翻譯任務(wù)中的性能優(yōu)于單一的EBMT和PBSMT。文獻(xiàn)[47]在EBMT系統(tǒng)中,加入了類似于PBSMT翻譯模型的特征,并綜合考慮了上下文特征,進(jìn)一步提升了翻譯性能,BLEU值比基線系統(tǒng)提高接近4個百分點(diǎn)。

同是SMT系統(tǒng),PBSMT沒有考慮句法信息,基于句法的SMT的規(guī)則覆蓋規(guī)模不如PBSMT好,解碼中短語的匹配不夠靈活,即便同是基于句法的SMT,不同文法的表現(xiàn)力也不同,使用不同文法的SMT也可以進(jìn)行融合,取長補(bǔ)短。文獻(xiàn)[48-50]在機(jī)器翻譯的解碼框架下融合層次短語文法和括號轉(zhuǎn)錄文法,考慮了在解碼過程生成的侯選翻譯相互之間的影響。文獻(xiàn)[51]則是在超圖的框架下,通過n-gram后驗概率特征來對PBSMT和基于層次短語的SMT兩個翻譯模型進(jìn)行重新搜索,得到翻譯結(jié)果;文獻(xiàn)[52]在超圖框架下,通過兩個模型的n-gram 后驗概率特征進(jìn)行線性插值,得到翻譯結(jié)果,采用了兩階段的最小錯誤率訓(xùn)練,由于不對生成翻譯結(jié)果進(jìn)行重新訓(xùn)練和解碼,因而翻譯效率比較高,同時翻譯性能也優(yōu)于單個系統(tǒng)。文獻(xiàn)[53]把PBSMT的詞匯化調(diào)序特征和距離懲罰調(diào)序特征加入到基于句法樹的SMT的解碼過程,改善了翻譯性能。

7 模塊級策略融合

模塊級策略融合是以一種翻譯策略為主,在系統(tǒng)中融合屬于不同翻譯策略的模塊。例如,基于規(guī)則的分析器、基于統(tǒng)計的詞對齊模塊、語言模型、后編輯模塊等都在不同的翻譯系統(tǒng)中得到廣泛的應(yīng)用。相比于全方位的系統(tǒng)級策略融合,模塊級策略融合更側(cè)重于融合的靈活性。

文獻(xiàn)[54]在基于實例的機(jī)器翻譯框架下,使用基于規(guī)則的分析器對源語言進(jìn)行分析;使用基于統(tǒng)計的詞對齊模塊,建立源語言與目標(biāo)語言間的對應(yīng)關(guān)系;統(tǒng)計語言模型被用來對目標(biāo)語建模;基于規(guī)則的后處理模塊被用來做最終的目標(biāo)語言生成處理。

文獻(xiàn)[55]在半結(jié)構(gòu)化的EBMT系統(tǒng)中,引入基于統(tǒng)計搭配模型的譯文選擇方法,估計候選譯文中詞匯之間的搭配關(guān)系,利用編輯距離選擇匹配翻譯實例,使用源語言統(tǒng)計搭配模型計算詞匯間的匹配度,并估計句子中詞匯的編輯風(fēng)險,在英漢翻譯中,BLEU 得分比基線EBMT系統(tǒng)提高了4.73~6.48個百分點(diǎn)。

后編輯(post-editing,PE)是對機(jī)器翻譯系統(tǒng)輸出的譯文進(jìn)行加工和修正。近年來,統(tǒng)計后編輯(Statistical post-editing,SPE)得到了長足的發(fā)展[56],它可以用來改善RBMT的翻譯性能和領(lǐng)域適應(yīng)性[57-60]。其中,文獻(xiàn)[58]使用基于短語的SPE對基于規(guī)則的SYSTRAN翻譯系統(tǒng)進(jìn)行后編輯,實驗證明,即便是在少量訓(xùn)練語料(大于1M)上訓(xùn)練的SPE,也可以顯著提高基于規(guī)則的機(jī)器翻譯系統(tǒng)SYSTRAN的性能,隨著訓(xùn)練語料增加,翻譯性能得到持續(xù)提升,當(dāng)訓(xùn)練語料增加到100M級別時趨于收斂。

結(jié)論和展望

隨著各種機(jī)器翻譯方法如火如荼的發(fā)展,多策略的機(jī)器翻譯研究也取得了長足的進(jìn)步和豐碩的成果。其中,在第七屆全國機(jī)器翻譯研討會機(jī)器翻譯評測[27]中,輔以統(tǒng)計后編輯的RBMT系統(tǒng)的BLEU值(0.238 7)在漢英新聞評測中名列榜首;SMT和RBMT后處理融合系統(tǒng)的BLEU值(0.408 3)在英漢科技領(lǐng)域名列第一,這很大程度上促進(jìn)了機(jī)器翻譯的整體發(fā)展。

盡管如此,現(xiàn)有的多策略翻譯仍然達(dá)不到令人滿意的程度,很多研究尚停留在理論水平,為了進(jìn)一步推動MSMT的發(fā)展,筆者認(rèn)為以下幾個方面的研究仍然是值得期待的。

(1) 翻譯模型的差異性、翻譯模型參數(shù)以及 N-best 數(shù)量都會影響系統(tǒng)融合的效果。目前,一般選擇既有差異性又能夠互補(bǔ),翻譯質(zhì)量相差不太大的翻譯模型參與融合,通過在開發(fā)集上的組合策略嘗試,最終選取最有效的融合方式。相似翻譯模型以及質(zhì)量稍差的翻譯模型參與融合是不是完全沒有可取之處,以及有沒有更好的組合策略代替現(xiàn)有的枚舉嘗試方式可以進(jìn)一步研究。

(2) 融合機(jī)器翻譯目的是獲取比單個系統(tǒng)更優(yōu)的翻譯結(jié)果,但是目前系統(tǒng)策略融合魯棒性不充分,存在數(shù)據(jù)集依賴問題,甚至?xí)霈F(xiàn)低于最優(yōu)的單個系統(tǒng)的翻譯性能的情況。保守的策略融合雖然具有較強(qiáng)的魯棒性,能保證目標(biāo)翻譯的質(zhì)量,但提高的幅度則比較小。

(3) 不同的后處理融合方法、模型間融合方法以及在更多模塊的融入策略各有優(yōu)勢,如何有效地組合,產(chǎn)生有效率和性能兼顧的翻譯系統(tǒng)值得期待。

(4) 目前的策略融合的粒度局限于句法層面,如何融入語義等更深層次知識來指導(dǎo)融合,有效地改善翻譯質(zhì)量也值得嘗試。

(5) 在盡可能提高融合后機(jī)器翻譯的性能的同時,也要兼顧融合機(jī)器翻譯的效率。多個引擎并行融合,需要翻譯時間是倍增的。提高翻譯效率,快速融合也是MSMT系統(tǒng)的一個趨勢。

(6) 機(jī)器翻譯評測本身就是一個人工智能問題,無論基于編輯距離還是N元匹配的自動評測都有各自的局限性,用單一的測評方法評價不同的翻譯引擎,往往有失公允。MSMT恰恰融合了多種翻譯引擎,因此,制定合適的評價方法,綜合考慮句法、語義等層面的信息,公正的評價MSMT,以評測促發(fā)展也是至關(guān)重要的。

[1] Gao Q S, Hu Y, Li L, et al. Semantic language and multi-language MT approach based on SL[J]. Journal of Computer Science and Technology, 2003, 18(6): 848-852.

[2] 關(guān)曉薇. 基于語義語言的機(jī)器翻譯系統(tǒng)中若干關(guān)鍵問題研究[D]. 大連理工大學(xué)博士學(xué)位論文, 2009.

[3] 胡玥, 高小宇, 李莉, 等. 自然語言合理句子的生成系統(tǒng)[J]. 計算機(jī)學(xué)報, 2010,33(3):535-544.

[4] 俞士汶, 穗志方, 朱學(xué)鋒. 綜合型語言知識庫及其前景[J]. 中文信息學(xué)報, 2011, 25(6): 12-20.

[5] 黃河燕,張克亮,張孝飛. 基于本體的專業(yè)機(jī)器翻譯術(shù)語詞典研究[J].中文信息學(xué)報,2007,21(1): 17-22.

[6] 史樹敏,馮沖,黃河燕, 等. 基于本體的漢語領(lǐng)域命名實體識別[J]. 情報學(xué)報, 2009, 6: 857.

[7] 朱朝勇. 基于本體的知識庫分類研究[D]. 中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文, 2013.

[8] 朱朝勇,黃河燕,史樹敏. 基于詞匯注釋的層次化領(lǐng)域標(biāo)注[J]. 中國通信, 2012, 9(3): 19-27.

[9] 朱小健,晉耀紅. 層次語義類型樹模型及其在漢英機(jī)器翻譯中的應(yīng)用[J].中國通信,2012,9(12):80-92.

[10] 趙小兵,邱莉榕,趙鐵軍.多民族語言本體知識庫構(gòu)建技術(shù)[J].中文信息學(xué)報,2011,(04):71-74.

[11] 那順烏日圖.蒙古語語言知識庫的建立與應(yīng)用[J].中文信息學(xué)報,2011,(06):162-165.

[12] 阿里甫·庫爾班,吾買爾江·庫爾班,尼加提·阿不都肉蘇力.維吾爾語框架語義知識庫的概念設(shè)計[J].中文信息學(xué)報,2010,(04):114-118.

[13] P. Brown, S. Della Pietra, V. Della Pietra, et al. The Mathematics of Machine Translation: Parameter Estimation. Computational Linguistics. 1993,19(2):263-311

[14] Bahl L R, Jelinek F, Mercer R L. A maximum likelihood approach to continuous speech recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1983 (2): 179-190.

[15] Och F J, Ney H. A comparison of alignment models for statistical machine translation[C]//Proceedings of the 18th conference on Computational linguistics-Volume 2. Association for Computational Linguistics, 2000: 1086-1090.

[16] Och F J, Ney H. Discriminative training and maximum entropy models for statistical machine translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002: 295-302.

[17] Xiao T, Zhu J. Unsupervised Sub-tree Alignment for Tree-to-Tree Translation[J]. Journal of Artificial Intelligence Research, 2013, 48: 733-782.

[18] 劉群.基于句法的統(tǒng)計機(jī)器翻譯模型與方法[J].中文信息學(xué)報,2011,(06):63-71.

[19] 熊德意,劉群,林守勛.基于句法的統(tǒng)計機(jī)器翻譯綜述[J].中文信息學(xué)報,2008,(02):28-39.

[20] Dekai Wu. Stochastic Inversion Transduction Grammars and Bilingual Parsing of Parallel Corpora[J]. Computational Linguistics, 1997, 23:377-404.

[21] Chiang, D. Hierarchical Phrase-Based Translation[J]. Computational Linguistics,2007,33(2): 201-228.

[22] Yamada K, Knight K. A syntax-based statistical translation model[C]//Proceedings of the 39th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2001: 523-530.

[23] Brown R D. The CMU-EBMT machine translation system[J]. Machine translation, 2011, 25(2): 179-195.

[24] 郝曉燕,劉偉,李茹,劉開瑛.漢語框架語義知識庫及軟件描述體系[J].中文信息學(xué)報,2007,(05):96-100,138

[25] 李茹, 王智強(qiáng), 李雙紅, 等. 基于框架語義分析的漢語句子相似度計算[J]. 計算機(jī)研究與發(fā)展, 2013, 50(8): 1728-1736.

[26] H.Jiexu Cao Yu and Guan Xiaowei. A Set of Machine Learning Methods for Inducing Translation Templates with Grammar- semantic Type Constraints[J], Information and Control Express LetterS.2011,15(3):701-706

[27] 趙紅梅, 呂雅娟, 賁國生, 等. 第七屆全國機(jī)器翻譯研討會機(jī)器翻譯評測總結(jié)[J]. 中文信息學(xué)報, 2012, 26(1): 22-30.

[28] 杜金華, 張萌, 宗成慶, 等. 中國機(jī)器翻譯研究的機(jī)遇與挑戰(zhàn)--第八屆全國機(jī)器翻譯研討會總結(jié)與展望[J]. 中文信息學(xué)報, 2013, 27(4): 1-8.

[29] 李茂西,宗成慶.機(jī)器翻譯系統(tǒng)融合技術(shù)綜述[J].中文信息學(xué)報,2010(4):74-84.

[30] Kumar S, Byrne W J. Minimum Bayes-Risk Decoding for Statistical Machine Translation[C]//Proceedings of the HLT-NAACL. 2004: 169-176.

[31] Rosti A V I, Ayan N F, Xiang B, et al. Combining Outputs from Multiple Machine Translation Systems[C]//Proceedings of the HLT-NAACL. 2007: 228-235.

[32] He Y, Ma Y, van Genabith J, et al. Bridging SMT and TM with translation recommendation[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 622-630.

[33] Snover M, Dorr B, Schwartz R, et al. A study of translation edit rate with targeted human annotation[C]//Proceedings of association for machine translation in the Americas. 2006: 223-231.

[34] He Y, Ma Y, Way A, et al. Integrating N-best SMT Outputs into a TM System[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010: 374-382.

[35] Federmann C. Multi-Engine Machine Translation as a Lifelong Machine Learning Problem[C]//Proceedings of the 2013 AAAI Spring Symposium Series. 2013.

[36] Federmann C. A machine-learning framework for hybrid machine translation[C]//Proceedings of the KI 2012: Advances in Artificial Intelligence. Springer Berlin Heidelberg, 2012: 37-48.

[37] 張捷, 陳群秀. 日漢機(jī)器翻譯系統(tǒng)中的多Agent研究[J]. 中文信息學(xué)報, 2003, 17(1): 7-12.

[38] 杜偉, 陳群秀. 多策略漢日機(jī)器翻譯系統(tǒng)中的核心技術(shù)研究[J]. 中文信息學(xué)報, 2008, 22(5): 60-66.

[39] SIM K, BYRNE W, GALES M, et al. Consensus network decoding for statistical machine translation system [C]//Proceedings of the IEEE International Conference on Acoustics,Speech, and Signal Processing, 2007: 105-108.

[40] Smith J, Clark S. EBMT for SMT: a new EBMT-SMT hybrid[C]//Proceedings of the 3rd International Workshop on Example-Based Machine Translation. 2009: 3-10.

[41] Koehn P, Senellart J. Convergence of translation memory and statistical machine translation[C]//Proceedings of AMTA Workshop on MT Research and the Translation Industry. 2010: 21-31.

[42] Ma Y, He Y, Way A, et al. Consistent Translation using Discriminative Learning-A Translation Memory-inspired Approach[C]//Proceedings of the ACL. 2011: 1239-1248.

[43] Kun Wang, Chengqing Zong and Keh-Yih Su. Integrating Translation Memory into Phrase-Based Machine Translation during Decoding. To appear in Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (ACL), Sofia, Bulgaria, August 4-9, 2013.

[44] Groves D, Way A. Hybrid example-based SMT: the best of both worlds?[C]//Proceedings of the ACL Workshop on Building and Using Parallel Texts. Association for Computational Linguistics, 2005: 183-190.

[45] Groves D, Way A. Hybrid data-driven models of machine translation[J]. Machine Translation, 2005, 19(3-4): 301-323.

[46] Groves D. Hybrid data-driven models of machine translation[D]. Dublin City University, 2007.

[47] Liu Z, Wang H, Wu H. Example-based machine translation based on tree-string correspondence and statistical generation[J]. Machine translation, 2006, 20(1): 25-41.

[48] Jiang H, Yang M, Zhao T, et al. A statistical machine translation model based on a synthetic synchronous grammar[C]//Proceedings of the ACL-IJCNLP 2009 Conference Short Papers. Association for Computational Linguistics, 2009: 125-128.

[49] Duan N, Li M, Zhang D, et al. Mixture model-based minimum bayes risk decoding using multiple machine translation systems[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 313-321.

[50] Xiao T, Zhu J, Zhu M, et al. Boosting-based system combination for machine translation[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 739-748.

[51] DeNero J, Kumar S, Chelba C, et al. Model combination for machine translation[C]//Proceedings of the Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 975-983.

[52] Duan N, Li M, Zhang D, et al. Mixture model-based minimum bayes risk decoding using multiple machine translation systems[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 313-321.

[53] Nguyen T L, Vogel S, Tower T, et al. Integrating Phrase-based Reordering Features into a Chart-based Decoder for Machine Translation[C]//Proceedings of ACL. 2013.

[54] 王海峰,吳華,劉占一.互聯(lián)網(wǎng)機(jī)器翻譯[J].中文信息學(xué)報,2011,(06):72-80.

[55] 劉占一,李生,劉挺,等. 利用統(tǒng)計搭配模型改進(jìn)基于實例的機(jī)器翻譯[J].軟件學(xué)報, 2012,23(6):1472-1485.

[56] Rosa R, Marecek D, Tamchyna A. Deepfix: Statistical Post-editing of Statistical Machine Translation Using Deep Syntactic Analysis[J]. ACL 2013, 2013: 172.

[57] Dugast L, Senellart J, Koehn P. Statistical post-editing on SYSTRAN’s rule-based translation system[C]//Proceedings of the Second Workshop on Statistical Machine Translation. Association for Computational Linguistics, 2007: 220-223.

[58] Michel Simard, Cyril Goutte, and Pierre Isabelle. 2007.Statistical phrase-based post-editing[C]//Proceedings of NAACL HLT 2007, pages 508-515. Rochester, NY.

[59] Michel Simard, Pierre Isabelle, and Cyrill Goutte.2007. Domain adaptation of MT systems through automatic post-editing[C]//Proceedings of the MT Summit XI, pages 225-261, Copenhagen, Denmark.

[60] Béchara H, Rubino R, He Y, et al. An Evaluation of Statistical Post-Editing Systems Applied to RBMT and SMT Systems[C]//Proceedings of the COLING. 2012: 215-230.

A Survey of Multi-Strategy Machine Translation

LI Yegang1,2, HUANG Heyan1, SHI Shumin1, FENG Chong1, SU Chao1

(1. Beijing Engineering Applications Research Center of High Volume Language Information Processing and Cloud Computing, School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China;2. Department of Computer Science and Technology, Shandong University of Technology, Zibo Shandong 255049, China)

This paper presents an overview of multi-strategy machine translation (MT). According to different level of combination the approaches to multi-strategy MT are classified into system-level combination and module-level combination. The representative method for each combination type are discussed in this paper, and the future development prospects of multi-strategy MT are also discussed.

machine translation; multi-strategy MT;system combination for MT; hybrid-MT; multi-engine MT

李業(yè)剛(1975—),博士研究生,副教授,主要研究領(lǐng)域為自然語言處理,機(jī)器翻譯。E?mail:lyg8256@bit.edu.cn;lyg8256@qq.com黃河燕(1963—),博士,教授,主要研究領(lǐng)域為自然語言處理與機(jī)器翻譯。E?mail:hhy63@bit.edu.cn史樹敏(1978—),博士,講師,主要研究領(lǐng)域為自然語言處理,本體方法論及應(yīng)用。E?mail:bjssm@bit.edu.cn

1003-0077(2015)02-0001-09

2014-05-19 定稿日期: 2014-07-16

國家重點(diǎn)基礎(chǔ)研究發(fā)展計劃(973)(2013CB329303);國家自然科學(xué)基金(61132009);國家自然科學(xué)基金(61202244)

TP391

A

猜你喜歡
語義融合策略
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
《融合》
例談未知角三角函數(shù)值的求解策略
語言與語義
我說你做講策略
高中數(shù)學(xué)復(fù)習(xí)的具體策略
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 亚洲国产精品无码AV| 伊人久久综在合线亚洲91| 99精品视频播放| 亚洲精品制服丝袜二区| 91精品伊人久久大香线蕉| 国产日韩精品欧美一区灰| 99尹人香蕉国产免费天天拍| 国产成人一区| 国产一二三区在线| 国产免费a级片| 中国一级特黄大片在线观看| 国产91视频观看| 免费99精品国产自在现线| 亚洲视频色图| 国产www网站| a天堂视频| 欧美中文字幕在线播放| 欧美怡红院视频一区二区三区| 久久国产精品国产自线拍| 四虎亚洲精品| 中文字幕精品一区二区三区视频| 久久香蕉国产线看精品| 亚洲一级毛片| 亚洲人成影视在线观看| 在线毛片免费| 久久国产拍爱| 99热这里只有精品免费国产| 特黄日韩免费一区二区三区| 九九久久精品国产av片囯产区| 久久这里只精品国产99热8| 久久精品中文字幕免费| 亚洲欧美在线看片AI| 婷婷久久综合九色综合88| 欧美日一级片| 四虎精品黑人视频| 午夜无码一区二区三区在线app| 国产一区二区三区精品久久呦| 狠狠色狠狠综合久久| 亚洲午夜综合网| 欧美日韩北条麻妃一区二区| 久久久久人妻精品一区三寸蜜桃| 激情综合五月网| 久久精品66| 亚洲日本精品一区二区| 日本欧美成人免费| 中文无码精品a∨在线观看| 国产性猛交XXXX免费看| 日韩精品成人网页视频在线| 亚洲区第一页| 国产a网站| 99在线免费播放| 伊人五月丁香综合AⅤ| 国产成人av大片在线播放| 亚洲一本大道在线| 国产成人精彩在线视频50| a色毛片免费视频| 亚洲国产欧美国产综合久久| 国产综合在线观看视频| 亚洲伊人久久精品影院| 亚洲天堂网视频| 午夜激情婷婷| 91精品aⅴ无码中文字字幕蜜桃| 国产成人精品一区二区| 国产精品视频观看裸模| 免费不卡在线观看av| 国产视频入口| 国产性生大片免费观看性欧美| 亚洲精品视频网| 热99精品视频| 99久久无色码中文字幕| 亚洲无线一二三四区男男| 亚洲日韩Av中文字幕无码| 在线一级毛片| 色婷婷在线播放| 国产97视频在线| 亚洲自拍另类| 亚洲精品大秀视频| 国产全黄a一级毛片| 日韩av无码精品专区| 久久人人妻人人爽人人卡片av| 91色综合综合热五月激情| a在线观看免费|