摘要:提出了自動(dòng)化專業(yè)文獻(xiàn)多引擎機(jī)器翻譯系統(tǒng)的建立模型,該模型主要包括四個(gè)微引擎:基于實(shí)例微引擎系統(tǒng)、基于模板微引擎系統(tǒng)、基于規(guī)則微引擎系統(tǒng)、基于統(tǒng)計(jì)微引擎系統(tǒng),并結(jié)合自動(dòng)化專業(yè)文獻(xiàn)雙語平行語料庫,模擬了專業(yè)文摘在系統(tǒng)中的翻譯流程,說明了每個(gè)微引擎對待翻譯語料的處理方式和處理后的結(jié)果。
關(guān)鍵詞:機(jī)器翻譯;自動(dòng)化;多引擎
中圖分類號:TP18文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2008)25-1525-02
The Study of Multi-engine Machine Translate in Automatic
YANG Yu, LIN Jin guo, WU Zhen xin
(NanJing University of Technology, Nanjing 210009, China)
Abstract: When we build a Parallel Corpora about automatic' literature, we analyse the characteristic of automatic' literature. We design a multi-engine MT system about automatic' literature base on the characteristic. We design a model about the system, introduce the structure and function of any model, discuss the handle course of multi-engine MT system, and how to do with it in every module. We also introduce the method of the templet' producement in templet translate engine, and the NN technology to the self-training and the extension of the system.
Key words: parallel corpora; automatic; multi-engine
1 引言
在機(jī)器翻譯方法的發(fā)展中,從早期的直接翻譯法,到后來的基于轉(zhuǎn)換的方法及基于中間語言的方法,直至基于統(tǒng)計(jì)的方法和基于實(shí)例的方法,機(jī)器翻譯方法在不斷發(fā)展。但是一個(gè)明顯現(xiàn)象是,僅靠一種機(jī)器翻譯方法難以使機(jī)器翻譯系統(tǒng)達(dá)到所期望的水平。二十世紀(jì)九十年代以來,綜合多種機(jī)器翻譯方法的基于混合策略的機(jī)器翻譯實(shí)現(xiàn)策略得到了很多機(jī)器翻譯研究者的贊同。研究如何使所集成的機(jī)器翻譯方法更好地發(fā)揮作用,并使系統(tǒng)整體性能得到提高,就成為了一個(gè)值得研究及嘗試的研究課題。
2 多引擎機(jī)器翻譯系統(tǒng)建立原則
策略的制訂對于任何一個(gè)機(jī)器翻譯系統(tǒng)的研發(fā)都具有全局性的意義。因此,我們設(shè)計(jì)的漢英機(jī)器翻譯系統(tǒng)在策略選擇上遵循如下的原則:
2.1 先理解,后翻譯
對于理解有各種各樣的標(biāo)準(zhǔn),如著名的圖靈標(biāo)準(zhǔn),以生成句法樹為目標(biāo)的句法分析標(biāo)準(zhǔn),以及各種各樣的植根于Chomsky語法的句法語義分析標(biāo)準(zhǔn)。
2.2 先“信”后“達(dá)”不唯“雅”
機(jī)器翻譯60多年的曲折發(fā)展歷史使人們逐漸認(rèn)識到冀望用機(jī)器完全取代人來消除人類的語言交流障礙原來是一個(gè)浪漫的、不切實(shí)際的幻想。對翻譯目標(biāo)和翻譯方法要有一個(gè)清醒的定位,那就是:“信”為基礎(chǔ),“達(dá)”為追求;“異化”為主,“同化”為輔。考慮到現(xiàn)階段以及可預(yù)見的將來機(jī)器翻譯理論和技術(shù)的發(fā)展水平,“雅”屬于有所不為的方面。但這樣說并不意味著“雅”的實(shí)現(xiàn)是一個(gè)“無法完成的任務(wù)”,在現(xiàn)存的各翻譯策略中EBMT策略的應(yīng)用有助于部分實(shí)現(xiàn)“雅”的翻譯目標(biāo)。
2.3 多種策略,綜合運(yùn)用
采用混合策略的機(jī)器翻譯方法,也源于對語言本質(zhì)的認(rèn)識。語言是人類思維的反映。通過語言的研究,可以幫助人類認(rèn)識智能的本質(zhì)。喬姆斯基認(rèn)為人的語言能力具有遺傳性的觀點(diǎn)反映了語言知識具有規(guī)律性的一面,這方面可以通過語言規(guī)則加以描述。同時(shí)也應(yīng)該看到,語言也有不規(guī)則的一面,語言的使用比較靈活,許多語言現(xiàn)象的分析需要大量的個(gè)性知識才可能描述清楚,這時(shí)采用基于實(shí)例的方法就顯出了優(yōu)越性。同時(shí),語言使用中還存在很多介于規(guī)則和不規(guī)則現(xiàn)象之間的語言現(xiàn)象,這時(shí)采用基于翻譯模板的方法來描述比較合適。
2.4 翻譯記憶,自主學(xué)習(xí)
近十幾年來,隨著人們對機(jī)器翻譯的重新認(rèn)識和重新定位,人機(jī)交互的思想深入人心,以塔多思(TRADOS)和雅信CAT為代表的具有自學(xué)能力的機(jī)助翻譯系統(tǒng)異軍突起,受到業(yè)界的廣泛關(guān)注。無論是MAHT系統(tǒng)還是HAMT系統(tǒng),其核心都是翻譯存儲(chǔ)或翻譯記憶(Translation Memory)技術(shù)的運(yùn)用。TM技術(shù)以雙語(或多語)對齊語料庫為基礎(chǔ),通過人機(jī)交互實(shí)現(xiàn)翻譯實(shí)例的記憶積累,再通過類比匹配的方法建立基于記憶的目標(biāo)譯文。TM技術(shù)的運(yùn)用,可以使機(jī)器翻譯系統(tǒng)通過人機(jī)交互接受專家的幫助,修正錯(cuò)誤,不斷提高智能水平。
3 自動(dòng)化專業(yè)文獻(xiàn)多引擎策略機(jī)器翻譯系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
在實(shí)用型機(jī)器翻譯系統(tǒng)的研制中,研制的一個(gè)主要目標(biāo)是使系統(tǒng)輸出的翻譯結(jié)果質(zhì)量比較高,從而更好地滿足用戶的需求。因?yàn)閱我坏臋C(jī)器翻譯方法很難達(dá)到預(yù)期的效果,所以采用幾種機(jī)器翻譯方法有機(jī)地結(jié)合起來的混合策略成為了許多機(jī)器翻譯研究者的共識。在漢英雙向機(jī)器翻譯系統(tǒng)的研制中,我們采用了將基于統(tǒng)計(jì)方法、基于模板方法、基于實(shí)例方法以及基于規(guī)則方法相結(jié)合、將淺層分析方法和完全分析方法相結(jié)合的混合策略。
3.1 自動(dòng)化專業(yè)文獻(xiàn)混合策略機(jī)器翻譯系統(tǒng)結(jié)構(gòu)設(shè)計(jì)
將不同的機(jī)器翻譯方法集成在一起時(shí),需要設(shè)計(jì)合理的組織方式。本文提出的自動(dòng)化專業(yè)文獻(xiàn)漢英雙向機(jī)器翻譯系統(tǒng),采用了如圖1所示的處理流程。
為了克服單一機(jī)器翻譯處理策略的弊端,實(shí)現(xiàn)多種策略相互間優(yōu)缺點(diǎn)互補(bǔ)的翻譯機(jī)制,本文所設(shè)計(jì)的多引擎翻譯策略綜合運(yùn)用了基于規(guī)則、基于范例、基于模板、基于統(tǒng)計(jì)四種翻譯技術(shù)。模型中還有一個(gè)重要的組成部分即控制系統(tǒng),控制系統(tǒng)是根據(jù)語言經(jīng)過不同處理階段所得結(jié)果的特點(diǎn)有選擇的調(diào)用相應(yīng)的引擎進(jìn)行進(jìn)一步的處理,并且控制系統(tǒng)還負(fù)責(zé)在翻譯模式和系統(tǒng)擴(kuò)充模式中進(jìn)行切換。
雖然每個(gè)引擎的翻譯策略方法不同,但引擎的總體結(jié)構(gòu)希望保持一致,這樣既有利于系統(tǒng)一致性也有利于未來系統(tǒng)的改進(jìn)。至于微引擎的系統(tǒng)結(jié)構(gòu)和翻譯算法設(shè)計(jì)我們以劉群在《基于微引擎流水線的機(jī)器翻譯系統(tǒng)結(jié)構(gòu)》一文中提出的設(shè)計(jì)為基礎(chǔ),希望能對其進(jìn)行一定的改進(jìn),并在未來的應(yīng)用中加以實(shí)現(xiàn),這里就不論述了。
3.2 具體翻譯流程
在通過以上對自動(dòng)化專業(yè)文獻(xiàn)多引擎翻譯系統(tǒng)總體結(jié)構(gòu)的設(shè)計(jì)的基礎(chǔ)上,這里具體實(shí)踐一下自動(dòng)化專業(yè)文獻(xiàn)多引擎機(jī)器翻譯系統(tǒng)的翻譯流程,根據(jù)自動(dòng)化專業(yè)文獻(xiàn)漢英平行語料庫中語料的特點(diǎn)(句型上相對簡單固定、詞語的歧義多解問題也相對較少),我們制定了以模板微引擎、統(tǒng)計(jì)微引擎為主,而規(guī)則微引擎、實(shí)例微引擎為輔進(jìn)行語言間的轉(zhuǎn)換的翻譯策略模式。語句翻譯的總體流程如下:
首先,通過人機(jī)界面輸入待翻譯語句,對所輸入的原文進(jìn)行分析之前對其進(jìn)行初步的句型結(jié)構(gòu)的處理即進(jìn)入基于EBMT匹配分析階段,若匹配成功則直接參考譯文輸出翻譯結(jié)果。若無相應(yīng)匹配譯文則進(jìn)入下一層次——TBMT翻譯引擎。這里需要指出的是我們對未來實(shí)例庫的設(shè)想是盡可能的將待翻譯語句由長句變換成短句,對于本身的短句而言結(jié)合E-Chunk理論轉(zhuǎn)換成為更細(xì)小的句子進(jìn)而一步步進(jìn)行翻譯。
例如:隨著計(jì)算機(jī)時(shí)代的來臨,語料庫技術(shù)的應(yīng)用將會(huì)獲得更大的成功。
針對這個(gè)語句的翻譯,當(dāng)進(jìn)入到EBMT引擎后,我們將此句子以逗點(diǎn)為界線劃分為兩個(gè)部分。對每個(gè)部分再進(jìn)行匹配分析,如果前一個(gè)部分得到了較好的匹配而后一個(gè)部分沒有得到較好的匹配,則把有較好匹配的部分進(jìn)行翻譯,翻譯后的結(jié)果直接送入目標(biāo)語生成模塊“等待”。而將剩余部分傳送到下一個(gè)引擎進(jìn)行下一步的翻譯處理。
當(dāng)經(jīng)過第一個(gè)層次的翻譯后,沒有得到完整的譯文,則系統(tǒng)通過控制程序啟動(dòng)相應(yīng)的規(guī)則引擎對待翻譯語句進(jìn)行詞一級別的處理,主要是分詞、詞性標(biāo)注和對齊等處理(詞性的標(biāo)注我們將采用共性規(guī)則、個(gè)性規(guī)則及統(tǒng)計(jì)相結(jié)合的消兼方法來判定句中各詞的詞性)。接下來對源語進(jìn)行淺層句法分析,分析出基本名詞短語、動(dòng)詞短語、形容詞短語等短語語塊,判斷出語塊的邊界及類型,這里采用的是基于規(guī)則和統(tǒng)計(jì)相結(jié)合的方法。在淺層句法分析的基礎(chǔ)上,對原語進(jìn)行深層句法分析,若成功分析出一個(gè)合格的句法樹,則認(rèn)為分析成功,進(jìn)入深層轉(zhuǎn)換規(guī)則處理模塊;否則認(rèn)為深層分析失敗,進(jìn)入翻譯模板處理模塊。
深層分析失敗情況下對源語進(jìn)行語言模式分析轉(zhuǎn)換,得到所輸入待翻譯語句的語言特征集(包括句型、類型、語氣、時(shí)態(tài)等)。然后根據(jù)TBMT的類比模糊匹配策略對模式庫進(jìn)行模板檢索,建立起與輸入原文語言特征相似的實(shí)例集合。通過計(jì)算相似度來獲得最優(yōu)匹配的模板。在這里引入了相似度閾值的概念。如果當(dāng)前翻譯句子與語料庫中已有的句子相的相似程度達(dá)到或者高于我們預(yù)先設(shè)定的一個(gè)計(jì)算公式所得出的結(jié)果則認(rèn)為匹配較好,則按照模板進(jìn)行翻譯,給出相應(yīng)譯文。如果沒有達(dá)到設(shè)定閾值則將整理過的語句傳遞給再下一個(gè)翻譯層次啟動(dòng)統(tǒng)計(jì)引擎進(jìn)行翻譯。
最后,當(dāng)以上所有引擎翻譯結(jié)果都不甚理想得情況下我們對經(jīng)過各層次處理后的待翻譯語句運(yùn)用統(tǒng)計(jì)策略的翻譯方法進(jìn)行翻譯并輔之以規(guī)則的方法對所得譯文進(jìn)行整理得到目標(biāo)譯文。
4 結(jié)束語
從整體來看,自動(dòng)化專業(yè)文獻(xiàn)多引擎翻譯策略雖然具有眾多的優(yōu)勢,但是只是在詞語或短語層面進(jìn)行翻譯,各翻譯引擎在實(shí)際的運(yùn)作過程中的具體效用、引擎彼此之間隱含的問題(如兼容問題)、每個(gè)微引擎的進(jìn)一步優(yōu)化問題還有待在未來的實(shí)際運(yùn)行中進(jìn)一步驗(yàn)證,不過多引擎的理念現(xiàn)在已得到了認(rèn)可,也是一個(gè)可行方向,相信通過不斷的實(shí)踐會(huì)有更實(shí)用的系統(tǒng)出現(xiàn)。
參考文獻(xiàn):
[1] 劉群. 機(jī)器翻譯技術(shù)綜述及面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)[R]. 北京大學(xué),2002.
[2] 李沐,呂學(xué)強(qiáng),姚天順.一種基于E-Chunk的機(jī)器翻譯模型[J]. 軟件學(xué)報(bào),2002,13(4):669-675.
[3] Kevin Knight. A Statistical Machine Translation Tutorial Workbook[R]. unpublished,prepared in connection with the JHU summer workshop, August 1999. (available at http://www.clsp.jhu.edu/ws99/projects/mt/wkbk.rtf).
[4] 孫茂松,左正平,黃昌寧. 漢語自動(dòng)分詞詞典機(jī)制的研究實(shí)驗(yàn)[J]. 中文信息學(xué)報(bào),2000,14(1):31-36.
[5] 劉群. 基于微引擎流水線的機(jī)器翻譯系統(tǒng)結(jié)構(gòu)[J]. 計(jì)算機(jī)學(xué)報(bào),2004,27(5):1-12.