張霄軍, 劉 群
(1. 都柏林城市大學(xué) CNGL研究中心,都柏林 愛(ài)爾蘭;2. 陜西師范大學(xué) 外國(guó)語(yǔ)學(xué)院,陜西 西安 710062;3. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190)
?
第十四屆機(jī)器翻譯峰會(huì)(MT Summit XIV)綜述
張霄軍1,2, 劉 群1,3
(1. 都柏林城市大學(xué) CNGL研究中心,都柏林 愛(ài)爾蘭;2. 陜西師范大學(xué) 外國(guó)語(yǔ)學(xué)院,陜西 西安 710062;3. 中國(guó)科學(xué)院 計(jì)算技術(shù)研究所,北京 100190)
2013年9月2日至9月6日,第十四屆機(jī)器翻譯峰會(huì)(Machine Translation Summit XIV,以下簡(jiǎn)稱(chēng)“峰會(huì)”)在風(fēng)景優(yōu)美的法國(guó)南部海濱城市尼斯(Nice)舉行,會(huì)議議程為: 9月2日至9月3日為專(zhuān)題講座(Tutorial)和專(zhuān)題研討會(huì)(Workshop),9月4日至9月6日為主會(huì)議(Main Conference),詳見(jiàn)http://www.mtsummit2013.info/index.asp。峰會(huì)吸引來(lái)自世界各地的機(jī)器翻譯研究者、用戶和企業(yè)代表、科研項(xiàng)目負(fù)責(zé)人和參與者等會(huì)議代表300余人,筆者作為愛(ài)爾蘭科學(xué)基金(Science Funding of Ireland, SFI)項(xiàng)目CNGL(Centre for Next Generation Localisation)的代表參加了此次峰會(huì)。
峰會(huì)共舉辦了6場(chǎng)專(zhuān)題講座和4場(chǎng)專(zhuān)題研討會(huì),并行進(jìn)行,強(qiáng)度非常密集。
6場(chǎng)專(zhuān)題講座分別為:
(1) 開(kāi)源統(tǒng)計(jì)機(jī)器翻譯(Open Source Statistical Machine Translation)。開(kāi)源代碼共享是統(tǒng)計(jì)機(jī)器翻譯快速發(fā)展的基礎(chǔ),越來(lái)越多的機(jī)器翻譯研究者已經(jīng)樂(lè)于公開(kāi)自己的源代碼。在這場(chǎng)講座中Moses研發(fā)者Philipp Koehn和Hieu Hoang就這款被廣泛采用的統(tǒng)計(jì)機(jī)器翻譯的基礎(chǔ)性開(kāi)源工具進(jìn)行了詳細(xì)講解。
(2) 機(jī)器翻譯中的領(lǐng)域自適應(yīng)(Domain Adaptation in Machine Translation)。領(lǐng)域自適應(yīng)是機(jī)器翻譯系統(tǒng)研發(fā)的一個(gè)熱點(diǎn)。在這場(chǎng)講座中,來(lái)自德國(guó)漢堡大學(xué)的專(zhuān)家從Domain的定義出發(fā),詳細(xì)講解了如何實(shí)現(xiàn)機(jī)器翻譯系統(tǒng)的領(lǐng)域自適應(yīng)。
(3) 從科學(xué)研究到成功開(kāi)辦公司,一種商業(yè)模式的產(chǎn)生(From Research to Successful Start-up: a Business Model Generation)。在這場(chǎng)報(bào)告中,tauyou
(4) MateCat: 一種用于機(jī)器翻譯后編輯的開(kāi)源計(jì)算機(jī)輔助翻譯工具(MateCat: an Open Source CAT Tool for MT Post-Editing)。這場(chǎng)講座所介紹的MateCat是在歐盟項(xiàng)目支持下開(kāi)發(fā)的一款企業(yè)級(jí)的計(jì)算機(jī)輔助翻譯工具,它能夠提供一種基于網(wǎng)絡(luò)的專(zhuān)業(yè)翻譯環(huán)境,將翻譯記憶和Moses機(jī)器翻譯系統(tǒng)結(jié)合起來(lái),而且是以開(kāi)源的形式發(fā)布的。
(5) 通過(guò)標(biāo)準(zhǔn)實(shí)現(xiàn)本地化和翻譯流程中的互用性。Linport方法(Enabling Interoperability in Localization and Translation Workflows through Standards- The Linpot Approach),互用性也已成為本地化產(chǎn)業(yè)的行業(yè)準(zhǔn)則,良好的互用性可以確保本地化和翻譯供應(yīng)鏈中信息傳遞的完整性。TBX、TMX、ITS和 XLIFF等都是語(yǔ)言資源格式互用性的標(biāo)準(zhǔn),Linport就致力于這種語(yǔ)言資源無(wú)縫互用的標(biāo)準(zhǔn)創(chuàng)制。這場(chǎng)講座圍繞Linport的工作開(kāi)啟了本地化數(shù)據(jù)標(biāo)準(zhǔn)化之旅 。
(6) 一種基于Web Services快速構(gòu)建機(jī)器翻譯工作流程的架構(gòu)(An Architecture based on Web Services for the Rapid Development of Workflows for Machine Translation)。這場(chǎng)講座也是有關(guān)領(lǐng)域自適應(yīng)的,講者主要講解了他們正在從事的一項(xiàng)歐盟項(xiàng)目PANACEA,該項(xiàng)目致力于整合不同語(yǔ)言資源、技術(shù)和網(wǎng)絡(luò)服務(wù)快速構(gòu)建領(lǐng)域自適應(yīng)的機(jī)器翻譯系統(tǒng)。
4場(chǎng)專(zhuān)題研討會(huì)分別為:
(1) 第5屆專(zhuān)利翻譯研討會(huì)(The 5th Workshop on Patent Translation) : 從2005年第十屆機(jī)器翻譯峰會(huì)(泰國(guó))開(kāi)始,每屆機(jī)器翻譯峰會(huì)都有一次專(zhuān)利翻譯的專(zhuān)題研討會(huì),迄今已是第五次,顯示了機(jī)器翻譯在專(zhuān)利翻譯領(lǐng)域應(yīng)用的廣泛性,體現(xiàn)了機(jī)器翻譯技術(shù)在專(zhuān)業(yè)翻譯領(lǐng)域的優(yōu)勢(shì)。日本、韓國(guó)、中國(guó)、歐盟和美國(guó)是世界上專(zhuān)利翻譯需求最為突出的國(guó)家和地區(qū),加強(qiáng)各個(gè)國(guó)家專(zhuān)利翻譯領(lǐng)域的交流也是此次峰會(huì)的貢獻(xiàn)之一。
(2) 第二屆后編輯技術(shù)與實(shí)踐研討會(huì)(The 2nd Workshop on Post-Editing Technologies and Practice): 去年(2012年)美洲機(jī)器翻譯會(huì)議(AMTA2012)上舉辦了第一次后編輯技術(shù)與實(shí)踐專(zhuān)題研討會(huì),這次是第二次。與上次不同的是,本次研討會(huì)突出了后編輯的“技術(shù)”特征,特別關(guān)注翻譯過(guò)程中的人機(jī)交互方式(human-machine collaborations)。
(3) 以用戶為中心的機(jī)器翻譯及評(píng)價(jià)(User Centric Machine Translation & Evaluation): 從用戶的角度看機(jī)器翻譯是機(jī)器翻譯走向?qū)嵱玫谋亟?jīng)之路。歐洲機(jī)器翻譯發(fā)展既重視技術(shù)創(chuàng)新,又關(guān)注產(chǎn)品應(yīng)用,將二者緊密結(jié)合起來(lái)。因此,從用戶的視角去評(píng)價(jià)機(jī)器翻譯技術(shù)也是目前的研究方向之一。為此,歐盟立項(xiàng)資助科研項(xiàng)目QTLaunchPad,筆者也參與了該項(xiàng)目,以用戶為中心的機(jī)器翻譯及評(píng)價(jià)專(zhuān)題研討會(huì)也可以說(shuō)是QTLaunchPad項(xiàng)目的小峰會(huì)。
(4) 機(jī)器翻譯與翻譯技術(shù)中的多詞單元(Multi-word Units in Machine Translation and Translation Technology): 多詞單元(MWUs)是一個(gè)復(fù)雜的語(yǔ)言學(xué)現(xiàn)象,指的是一些固化或者半固化的詞匯序列,如命名實(shí)體、短語(yǔ)動(dòng)詞等。在機(jī)器翻譯中,多詞單元的自動(dòng)識(shí)別和翻譯問(wèn)題尚未完全解決。此次專(zhuān)題研討會(huì)將多詞單元問(wèn)題置于語(yǔ)言研究、翻譯研究和自然語(yǔ)言處理研究多元背景下,探討了該問(wèn)題的解決方案。
峰會(huì)主會(huì)議有兩位邀請(qǐng)發(fā)言(Invited Speaker)和4位用戶代表發(fā)言(User presentation),分會(huì)(Session)共有12場(chǎng)。期間還進(jìn)行了一場(chǎng)張貼海報(bào)分會(huì)(Research Poster Session)、一場(chǎng)項(xiàng)目展示(Project Village)、一場(chǎng)企業(yè)展覽(Exhibition Opportunity)和一場(chǎng)圓桌討論(Panel Discussion)。
邀請(qǐng)發(fā)言人之一為德國(guó)慕尼黑大學(xué)教授、著名機(jī)器翻譯專(zhuān)家Hinrich Schuetze,他做了題為“操作序列模型: 在單一自左至右模型中融入翻譯與調(diào)序操作(The operation sequence model: Integrating translation and reordering operations in a single left-to-right model)”的主旨報(bào)告,講解了操作序列模型(OSM)在機(jī)器翻譯中的應(yīng)用,該模型目前已經(jīng)在開(kāi)源的Moses系統(tǒng)中實(shí)現(xiàn),并且可以在原有的短語(yǔ)模型基礎(chǔ)上顯著而穩(wěn)定地提高系統(tǒng)的性能,受到了很多的關(guān)注;另一位邀請(qǐng)發(fā)言人做了題為“揭去機(jī)器翻譯的神秘面紗: 從真實(shí)世界中學(xué)習(xí)(Demystifying Machine Translation: Learning from the Real Word)”的主旨報(bào)告,以通俗的語(yǔ)言講解了外部世界知識(shí)對(duì)統(tǒng)計(jì)機(jī)器翻譯的重要影響。4位受邀做大會(huì)報(bào)告的用戶分別來(lái)自Adobe、LionBridge、IBM Germany和Microsoft Research四家跨國(guó)語(yǔ)言服務(wù)客戶或供應(yīng)商。
12場(chǎng)分會(huì)又劃分為兩類(lèi)(Track)——研發(fā)類(lèi)(R&D Track)和用戶類(lèi)(User Track)”,共收錄報(bào)告論文36篇。研發(fā)類(lèi)的八場(chǎng)分會(huì)分別圍繞“自適應(yīng)與翻譯類(lèi)型(Adaptation and Genre)”、“質(zhì)量評(píng)估與機(jī)器翻譯應(yīng)用(Quality Estimation and MT Application)”(兩場(chǎng)分會(huì))、“語(yǔ)義消歧、語(yǔ)義相關(guān)度與在線自適應(yīng)(WSDs, Semantic-relatedness and Online Adaptation)”、“后編輯與術(shù)語(yǔ)(Post-editing and Terminologies)”、“對(duì)齊與詞序(Alignment and Word order)”、“自調(diào)參與自動(dòng)歸納(Self-Tuning and Automatic Induction)”、“資源貧乏的機(jī)器翻譯及其應(yīng)用(Resource Poor MT and MT Applications)”等主題展開(kāi)。用戶類(lèi)的4場(chǎng)分會(huì)也就翻譯市場(chǎng)、翻譯工具使用、機(jī)器翻譯后編輯標(biāo)準(zhǔn)化、用戶評(píng)價(jià)、翻譯與大數(shù)據(jù)等與翻譯行業(yè)發(fā)展密切的話題進(jìn)行了討論。
張貼海報(bào)分會(huì)共收錄張貼海報(bào)論文13篇,峰會(huì)也給了海報(bào)論文作者們充足的時(shí)間(12:30-16:00,9月 3日)向參會(huì)代表介紹他們的研究成果。
項(xiàng)目展示和企業(yè)展覽精彩紛呈,共有24個(gè)項(xiàng)目組和8家公司展示他們的研究?jī)?nèi)容和產(chǎn)品開(kāi)發(fā)。峰會(huì)特意為參展的歐盟及政府項(xiàng)目組提供了一分鐘的口頭宣傳時(shí)間,劉群教授代表愛(ài)爾蘭科學(xué)基金項(xiàng)目CNGL上臺(tái)發(fā)言。
峰會(huì)行將閉幕之前還舉辦了一場(chǎng)別開(kāi)生面的圓桌討論,以“機(jī)器翻譯巴別塔(The MT Translation Tower Babel)”為主題,討論了機(jī)器翻譯中研究、教育、開(kāi)發(fā)、服務(wù)和使用之間的關(guān)系和障礙,機(jī)器翻譯發(fā)展的未來(lái)、機(jī)器翻譯在經(jīng)濟(jì)社會(huì)中的作用等話題,參加圓桌討論的代表們暢所欲言,臺(tái)下的聽(tīng)眾也能隨時(shí)提問(wèn),圓桌討論氣氛融洽。
峰會(huì)閉幕前頒發(fā)了最佳論文獎(jiǎng)(Best Paper Award)、歐洲機(jī)器翻譯協(xié)會(huì)終身成就獎(jiǎng)(EAMT Lifetime Achievement Award)和2013年國(guó)際機(jī)器翻譯協(xié)會(huì)榮譽(yù)獎(jiǎng)(IAMT Award of Honor 2013)。
本屆峰會(huì)最佳論文獎(jiǎng)?lì)C給了George Foster、Boxing Chen和Roland Kuhn合寫(xiě)的“統(tǒng)計(jì)機(jī)器翻譯線性融合自適應(yīng)的模擬判別訓(xùn)練(Simulating Discriminative Training for Linear Mixture Adaptation in Statistical Machine Translation)”。該文在線性融合模型上做了兩點(diǎn)改進(jìn),一是對(duì)短語(yǔ)表進(jìn)行了預(yù)處理以取得更優(yōu)的最大似然估計(jì)權(quán)重,二是在統(tǒng)計(jì)機(jī)器翻譯訓(xùn)練模型中選擇使用了恰當(dāng)?shù)木€性融合判別訓(xùn)練特征。這兩點(diǎn)改進(jìn)使得系統(tǒng)的BLEU值大為提高,能夠滿足領(lǐng)域自適應(yīng)的需要。
本屆峰會(huì)將2013年國(guó)際機(jī)器翻譯協(xié)會(huì)榮譽(yù)獎(jiǎng)授予RWTH的Hermann Ney教授。Ney教授回憶說(shuō),二十世紀(jì)90年代后期,全世界做統(tǒng)計(jì)機(jī)器翻譯的研究組只剩下包括他們和香港科技大學(xué)吳德凱在內(nèi)的少數(shù)幾個(gè)研究組,連IBM自己都不做了,而現(xiàn)在統(tǒng)計(jì)機(jī)器翻譯已經(jīng)成為機(jī)器翻譯的研究主流。
本屆峰會(huì)將歐洲機(jī)器翻譯協(xié)會(huì)終身成就獎(jiǎng)授予John Hutchins博士。John Hutchins本人并不做機(jī)器翻譯的開(kāi)發(fā)研究,但他是機(jī)器翻譯研究領(lǐng)域的忠實(shí)記錄者和評(píng)論家,數(shù)十年如一日記錄機(jī)器翻譯研究取得的成果并發(fā)表了大量評(píng)論文章著作,整理和維護(hù)了機(jī)器翻譯論文庫(kù)和資源工具清單,為這個(gè)領(lǐng)域做出了特別的貢獻(xiàn)。
峰會(huì)期間還召開(kāi)了各大洲機(jī)器翻譯協(xié)會(huì)會(huì)議(EAMT/AMMT/AAMT Separate Meetings)。
峰會(huì)最后由新上任的IAMT主席Alon Lavie宣布,AMTA2014在加拿大溫哥華舉行,MT Summit 2015在佛羅里達(dá)的邁阿密舉行。
由于此次會(huì)議在歐洲進(jìn)行,國(guó)內(nèi)與會(huì)代表不多。為了讓國(guó)內(nèi)學(xué)者及時(shí)了解和掌握峰會(huì)動(dòng)態(tài),在峰會(huì)現(xiàn)場(chǎng),筆者分別通過(guò)新浪微博(@劉群MT-to-Death)和 網(wǎng) 易 博客(http://blog.163.com/andy_zxj@126/)進(jìn)行了會(huì)議直播,此舉得到國(guó)內(nèi)廣大網(wǎng)友和機(jī)器翻譯研究者的熱烈歡迎。
筆者體會(huì),除了通常機(jī)器翻譯研究所關(guān)注的學(xué)術(shù)研究問(wèn)題,此次峰會(huì)也非常關(guān)注機(jī)器翻譯的實(shí)際應(yīng)用,其熱點(diǎn)可以用3個(gè)關(guān)鍵詞加以概括: (1)領(lǐng)域自適應(yīng);(2)交互式后編輯;(3)評(píng)測(cè)指標(biāo)。以下是筆者對(duì)這些關(guān)鍵詞的思考。
(1) 領(lǐng)域自適應(yīng)研究得到了極大重視。從專(zhuān)題講座開(kāi)始,“領(lǐng)域自適應(yīng)”就成了峰會(huì)的一個(gè)熱點(diǎn)詞匯。實(shí)際上這是兩個(gè)關(guān)鍵詞,一是“領(lǐng)域”,什么是領(lǐng)域?有哪些領(lǐng)域?二是“自適應(yīng)”,如何自適應(yīng)?怎樣評(píng)價(jià)自適應(yīng)的效果?這些問(wèn)題自始至終都是峰會(huì)代表們探討的核心問(wèn)題,也是日后機(jī)器翻譯研究要解決的問(wèn)題。
(2) 交互式后編輯方法研究方興未艾。ALPAC報(bào)告之后,后編輯一直是機(jī)器翻譯研究不可或缺的一項(xiàng)內(nèi)容,但長(zhǎng)期以來(lái),后編輯都被視為是翻譯人員(或?qū)I(yè)后編輯人員)的人工作業(yè)。本次峰會(huì)上著重討論了交互式后編輯方法,也有學(xué)者提出了通過(guò)錯(cuò)誤驅(qū)動(dòng)的方法實(shí)現(xiàn)自動(dòng)后編輯的方法。“實(shí)際上,交互式后編輯能夠?qū)C(jī)器翻譯和翻譯記憶有效地整合在一起。”實(shí)現(xiàn)智能的后編輯既是提高機(jī)器翻譯質(zhì)量的有效途徑,又是提高用戶翻譯效率的便利方式。
(3) 機(jī)器翻譯評(píng)測(cè)指標(biāo)呈多樣性態(tài)勢(shì)。長(zhǎng)期以來(lái)研究者們提到的“評(píng)測(cè)”都集中在機(jī)器翻譯的譯文質(zhì)量評(píng)測(cè)上,傳統(tǒng)的人工打分評(píng)測(cè)方法或是BLEU,METEOR等自動(dòng)評(píng)測(cè)指標(biāo)都是面向機(jī)器翻譯研究的,其目的都是為了改進(jìn)機(jī)器翻譯系統(tǒng)。然而,對(duì)于機(jī)器翻譯產(chǎn)品的用戶而言,什么是他們期待的評(píng)測(cè)指標(biāo)?上述評(píng)測(cè)數(shù)據(jù)對(duì)他們有沒(méi)有用?
還有一點(diǎn),MT Summit與ACL的明顯不同之處在于: MT Summit除了有學(xué)術(shù)界代表參會(huì)以外,還有大量機(jī)器翻譯用戶代表參加,并專(zhuān)門(mén)為用戶類(lèi)論文設(shè)立分會(huì)場(chǎng),鼓勵(lì)用戶一起討論在機(jī)器翻譯應(yīng)用中遇到的問(wèn)題和交流經(jīng)驗(yàn),在關(guān)注機(jī)器翻譯研究的同時(shí),更加注重機(jī)器翻譯的實(shí)際應(yīng)用,更加貼近機(jī)器翻譯用戶。此次峰會(huì)傳承了這樣的傳統(tǒng),并且到會(huì)的用戶類(lèi)代表人數(shù)首次超過(guò)了到會(huì)總?cè)藬?shù)的一半,科研工作者與企業(yè)客戶的互動(dòng)非常密切。
本文工作受愛(ài)爾蘭科學(xué)基金(資助編號(hào): No.12/CE/I2267)資助。愛(ài)爾蘭都柏林城市大學(xué)吳曉鋒博士、博士生李良友和張健審閱了本文初稿并提出修改意見(jiàn)。在此一并感謝。
[1] 米海濤,趙紅梅,劉群. 第十二屆機(jī)器翻譯峰會(huì)和NIST2009機(jī)器翻譯評(píng)測(cè)研討會(huì)簡(jiǎn)介[J]. 中文信息學(xué)報(bào),2009,23(6): 122-125.
[2] 張霄軍,賀鶯. 翻譯的技術(shù)轉(zhuǎn)向.中國(guó)翻譯,2014(6): 74-77.

張霄軍(1978—),博士,副教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)楝F(xiàn)代翻譯技術(shù)。E?mail:xzhang@computing.dcu.ie劉群(1966—),博士,研究員,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)闄C(jī)器翻譯。E?mail:qliu@computing.dcu.ie
1003-0077(2015)01-0203-04
2013-09-26 定稿日期: 2013-10-30