吳玲蘭
(中南林業科技大學,湖南長沙)
翻譯是一門藝術,更是一門科學。近些年來,翻譯技術和自然語言處理技術的快速發展,機器翻譯(Machine Translation)再次成為翻譯科學中的研究重點,在理論和實踐上都有所突破和發展,進而發展成一門技術。
Pushpak Bhattacharrya教授現為印度大學計算機科學和工程系主任,他的《機器翻譯》(Machine Translation)(Bhattacharyya,2015)由著名的Taylor&Francis Group出版社2015年出版。該書集作者十余年機器翻譯的教學與實踐經驗,全面歸納和探討MT原理、語言歧義消除、匹配模型數理以及評估模型等基礎理論,結合印地語、馬拉地語等機譯實例,闡釋基于短語、基于規則和基于實例的三種機器翻譯模型,并進一步提出了MT中面臨的可能挑戰和難題。該書有利于廣大學者和翻譯專業學生深入了解MT的基礎理論,以及機器翻譯面臨的難題,指明機器翻譯未來的研究方向。本文先介紹全書的主要內容,后作一簡評。
MT是靠數據驅動將一種自然語言生成另一種自然語言的計算機系統(張政,2006:11),數據能推翻假設,也能限制翻譯能力和效率,還能最大限度地闡釋翻譯概率。作者運用沃古瓦三角(Vauquois triangle/pyramid)理論,分析和闡述MT雙語翻譯的“分析—轉換—生成”過程,以及該過程所包括詞匯翻譯、翻譯匹配、詞匯繁衍管理以及短語匹配管理等技術理論。詞匯翻譯和翻譯匹配是循環過程,即在給定的平行語料中,任意詞匯都能被匹配和翻譯。當缺乏平行句對和詞匯翻譯時,計算機采用期望最大化理論(Expectation Maximun,EM)的迭代運算法降低平均熵,計算出翻譯概率。EM理論通過假設賦值、計算匹配概率、建立數學表達式和似然表達式、預測參數和隱藏參數的迭代等步驟,計算期望值在概率矩陣中的最佳概率值,結合翻譯模型中的利益參數,得出新的匹配概率,并更新期望值。雙語映射概率通過EM公式得到改善,滿足了機器翻譯的存儲容量和時間要求。
MT的本質問題是語言問題,需要依靠語言知識的運用來解決。語言結構和機器翻譯軟件間的工具性差異導致MT過程中的上升轉換(ascending transfer)和下降轉換(descending transfer)的不對稱。MT輸入過程的語言問題涉及形態學分析、詞性標記、名詞和動詞語塊的辨別、語義分析、篇章回指和語用學等。信息層面的形態句法比字形更豐富,組合層次比形態句法更豐富。詞匯匹配是機器翻譯研究的基礎,檢驗機器在詞匯層面的翻譯。詞匯匹配是指將映射出的詞匯在目標語中找到相對應的位置,包括一一位置保留匹配、一一無位置保留匹配、一對多、多對一以及零匹配等種類,任何匹配都必須有兩個翻譯句對(translation pair),一個句子引入映射,另一個句子篩選出多個映射中的一個,以確定匹配精準度。
匹配精準度受語言間差異的影響,尤其是語言歧義。作者通過對印度語和英語的實例分析,提出MT中的語言歧義包括句法歧義(順序歧義、附屬歧義、零主語歧義等等)和詞匯歧義(合并歧義、類別歧義、語境詞匯歧義等等)。句法結構上的歧義可通過翻譯法則處理,并存儲在計算機中(即基于規則的機器翻譯,RBMT)。詞匯語義上的歧義則通過機器學習處理(基于短語的機器翻譯,PBMT)。語言歧義的處理好壞直接影響翻譯質量,是MT質量評估的重要參照因素,MT的質量評估直接反映MT的實用價值。傳統的人工評估過于主觀且速度慢,機器自動評估系統應運而生,主要檢驗句子層面的忠實性和流暢性,以及附加在文本層面的統一性、連貫性、意向性、可接受性、信息性、情景性和互文性等因素。自動評估系統主要評估N-元輸出模式和參考譯文之間的匹配,其關鍵在于參考譯文和人工判斷的關聯性,參考譯文數目越多,自動評估的可信度越高,與人工翻譯的關聯性越強,機器翻譯的匹配模型則越好,譯文質量隨之提升。
影響翻譯匹配模型的因素主要有詞匯長度、詞匯匹配以及詞匯翻譯等,這些因素間的相互作用決定了匹配結果。最初的匹配模型是IBM模型,由語言模型P(e)和翻譯模型P(f|e)組成。IBM模型1中所有詞匯映射都是一對一,匹配具有高度相似性。模型2中的匹配分配不均勻,需要考慮詞匯位置、詞匯出現頻率、英語句子長度以及另一語言的句子長度等因素,用EM運算法則計算出句子間較準確的短語匹配概率。模型3主要研究翻譯模型的繁衍率,每個詞匯可能生成或匹配出多個詞匯,但當缺少句法結構和上下文信息時,詞匯匹配無法建構源語輸入和譯文輸出之間的結構差異,譯文則會失真(distortion)。在這三種模型中,模型1主要聚焦于翻譯概率的模型化,簡化了詞匯匹配的限制,加快了詞匯迭代速度,因而出現很多匹配錯誤。而IBM模型2用“絕對位置”的概率模型,與模型1相比,模型2的匹配更全面,但實際操作中很難實現匹配絕對化。IBM模式3中P(f|e)模型變得更復雜,仍無法解決譯文失真,短語匹配有望解決這一問題。IBM模型的翻譯方法極大地推動了翻譯技術的發展,翻譯質量也在不斷的提高。
MT模型的建構基于匹配等基礎理論之上。本書中作者著重探討了機器翻譯的三種基本模式:基于短語的機器翻譯(Phrase-Based Machine Translation,PBMT)、基于規則的機器翻譯(Rule-Based Machine Translation,RBMT)、基于實例的機器翻譯(Example-Based Machine Translation,EBMT),以及這三種模式與翻譯記憶(Translation Memory,TM)之間的關聯。
(1)基于短語的機器翻譯(PBMT)
機器翻譯存在意義表達、不同數據選擇、詞匯組合、詞匯調序、多義詞以及詞匯定位等跨語言差異,短語匹配的作用日益突顯。PBMT中短語匹配模型中的短語不一定是語言學意義上的短語,而是文本中任意相鄰的成分。平行語料是短語匹配的基礎,主要的匹配方法有雙向匹配法、對稱法和抽取法等。短語匹配圖表利用沃古瓦三角的分析——轉換——生成過程推導出匹配句子成分——理解翻譯單元——組合翻譯單元的短語匹配過程,短語匹配的質量通過附加的翻譯概率值和語言模型來衡量。作者沿用Koehn(2010)的數理知識計算短語匹配的概率值和語言模型參數,主要步驟有:理解基于短語的翻譯,派生翻譯模型,計算翻譯概率和失真概率,給予不同模型參數(如n-元概率)、短語翻譯概率和失真概率權值,輸入λ值調整參數等。機器調整參數后,對訓練好的模型進行解碼,完成翻譯任務。解碼是生成翻譯的重要步驟。如統計機器翻譯(SMT)的解碼器——摩西軟件,它可預處理軟件、訓練語言模型、調整參數、實驗數據解碼以及評價標準等內容,譯者可運用柱狀搜索和棧式解碼搜索到最有可能的翻譯結果。
(2)基于規則的機器翻譯(RBMT)
RBMT模式主要采納基于中間語和基于轉換的概念而建構?;谥虚g語的機器翻譯旨在呈現獨立于語言的普遍語義表征,要求在詞匯意義、語義角色、言語活動和語篇等方面完全無歧義。中間語由通用詞匯、語義關聯和語義屬性構成。由于顆粒度(granularity)不同,以及層次劃分的概念空間、多義詞的非組合性或搭配的固定性與其他語種自然詞位搭配的不確定性,導致通用詞的普遍存貯無法實現。因而詞性標識、整體認知和詞義消歧的分析直接上升到語義關聯和語義屬性的分析,以期探尋從英語到通用網絡語言(Universal Networking Language,以下簡稱UNL)的轉換系統和從UNL到印地語的生成系統,并探討兩個過程中的語義選擇、形態組合和句法規劃。作者用多語種的翻譯實例展示了該過程的不同層次,有利于廣大機器翻譯研究者更深入地改進RBMT模式。
基于轉換的RBMT中,相似語種間存在少量轉換規則,不相似語種間需要大量實用性的轉換規則,而轉換語法規則和同步語法之間有一定關聯,如馬拉地語機器翻譯成印地語的核心難題是詞綴和后綴組合的處理。基于轉換的規則源自人工分析,主要包括分析領域的關聯和附屬生成規則以及生成領域的形態綜合和句法規劃規則。
(3)基于實例的機器翻譯(EBMT)
PBMT模型和RBMT模型都有各自的優劣,主要是翻譯速度和質量都不夠理想。一種新的模式適時而生—EBMT模式,它主要利用規則進行對齊匹配(alignment match),重組匹配翻譯部分生成譯文,該翻譯模型具有易構性,譯文質量相對較高。因其本質是建立翻譯實例對之匹配,通過推理進行翻譯。EBMT從龐大的平行語料庫中搜索所有相似的實例進行匹配翻譯。實例搜索主要有相似度計算和搜索算法。相似度計算方法主要有編輯距離、詞袋算法、矢量相似性計算、術語頻率矢量以及基于詞匯和結構相似度的計算等。重組計算結果,使匹配翻譯部分地適應新的翻譯問題,但仍存在邊界摩擦問題(the boundary friction problem),可利用句法規則解決邊界摩擦(諸如妥協,虛詞,形態等)問題,重組自然語言的生成(Natural Langugae Generation,簡稱NLG)機制。在實例和推理的平行語料庫中,若缺乏占優勢的相似文本和充足的平行語料時,兩者會產生綜合效應。
EBMT和翻譯記憶(translation memory,TM)都是實例翻譯的存貯,但TM是一種人機交互式的翻譯過程,EBMT不是人機交互,而是分析——轉換——生成的全自動翻譯過程。此外,EBMT和SMT都是基于彼此的語料存貯,EBMT系統在分析階段利用統計匹配探尋合適的匹配項,匹配模板不僅僅是句子,可能是分析樹、語義圖標等,而SMT的自身語料數據也不夠,因此,混合機譯系統有望解決這些問題。
近些年來,機器翻譯取得了令人鼓舞的成果,翻譯已進入電子化時代??萍嫉慕驘o限。如果需要成就了創作,那么科技造就了轉機(陳善偉,2014∶332)??茖W技術為翻譯帶來新的研究范式,語言服務行業的市場需求實現了機器翻譯的應用價值。本書用模式化和經驗化的方法闡釋翻譯現象,內容充實,具有很強的理論指導性和實踐應用性。概括起來,本書的創新特色以及給機器翻譯研究者帶來的啟示體現在以下個方面。
第一,宏微觀結合,描寫充分。作者站在宏觀角度回顧早期的研究成果,系統地分析現有評估理論,明確評估參數和標準,提出自動評估體系的幾大標準,為機器翻譯質量評估研究提供了重要的理論依據。微觀層面上,作者借鑒著名的沃古瓦三角理論和圖表勾勒出詞匯以及短語匹配的全過程,提出主要的匹配方式以及需滿足的條件等。匹配是機器翻譯的基本原理,匹配產出的譯文質量是機器翻譯研究者關注的焦點。作者對相關概念的界定有利于國內學者進一步厘清機器翻譯的概念內涵以及與翻譯技術之間的關系,宏微觀相結合的研究方式有利于國內機器翻譯理論的建構。
第二,覆蓋面廣,內容新穎。不同語種間的語言結構差異是機器翻譯面臨的巨大挑戰,本書作者利用豐富的教學經驗,結合具體實例闡釋機器翻譯系統中的核心語言問題、基礎概念以及三種翻譯模型,并對每種翻譯模型做出評論,有利于理解機器翻譯的核心技術,也有利于解決機器翻譯面臨的一些難題。各種翻譯模型利弊的分析促進了機器翻譯障礙的突破,如詞綴給機器翻譯帶來的難題,足夠引起研究者們運用語言學和科學技術等知識理論探尋新的解決路徑。本書還從機器的存貯和時間要求等方面闡釋機器翻譯面臨的困境,拓展機器翻譯研究的新視野。雖然,目前機器翻譯研究處于發展階段,其翻譯質量還有待提高,研究者們可積極吸收和借鑒國內外機器翻譯的最新研究成果和研究思路,深入展開國內機器翻譯研究,如譯后編輯、技術寫作、人才培養等都是值得深入探討的課題。此外,每章末提供的閱讀資料能拓展機器翻譯研究者的思維和視野。
第三,跨科研究,實用性強。機器翻譯研究涉及語言學、自然語言工程、計算機技術、統計學、社會學等多個學科領域,旨在揭示機器、翻譯、技術、社會、語言之間的復雜交互關系,本書融合多個學科領域展開研究,有利于人們進一步認識機器翻譯的本質,理解機器翻譯的內涵和實用價值,更好地服務語言市場,實現產學研一體化。相對技術性章節而言,第二、三、四章提供了大量研究型問題和程序操作練習,如EM公式的推算、短語匹配概率值的計算和語言模型參數的推導等,切實達到理論指導實踐,凸顯本書的系統性和科學性。
第四,理論擴展,策略發展。宏微觀結合、跨學科的研究方法有助于國內機器翻譯研究超越單一的理論視角,形成獨特的多模態研究模式,擴展了機器翻譯的研究范疇。機器翻譯研究的系統建構和持續發展需要方法論和核心技術(及其模型)層面上的創新(如統計或神經機器翻譯模型),而創新的“物質基礎”是大數據語料庫的建構。然而,與世界一流的互聯網公司(如Google)相比,高校研究單位在“模型、大數據、計算能力”等方面都處于劣勢。機器翻譯研究視野將擴充到自然語言處理,由于自然語言研究始于機器翻譯,機器翻譯乃自然語言處理的核心成分之一,自然語言處理的發展歷程與機器翻譯基本一致(馮志偉,2011),兩者相輔相成。機器翻譯在自然語言處理中的具體發展策略應視情況而定,如“一帶一路”所涉及的語言幾乎都屬于所謂的“資源貧乏語言”(孫茂松周建設,2016)。研究者對這些語言知之甚少,通常僅能搜集小規模雙語語料庫,而且大多是黏著語,需要對其進行詞法分析,這種情況無法采用經典的神經機器翻譯模型。將來我們是否可以在在只有一個常用雙語詞典、小規模雙語語料庫、較大規模單語語料庫以及于無監督詞法分析(甚至不做詞法分析)的條件下,設計一個有效的神經機器翻譯模型(孫茂松周建設,2016)。這是機器翻譯研究者面臨的新課題,值得深入探討,也有利于為“一帶一路”沿線國家更好地提供語言服務,加速中國文化“走出去”,推進中國企業跨境出海的進程。
瑕不掩瑜,本書還存在值得我們思考的地方,本書雖然列舉了很多參考書目,但很少引用書目中的相關背景知識,如Gupta和Chatterjee(2003)、Sinha&Thakur(2005)以及Goyal&Sinha(2009)中語言歧義的例子。其次,本書對相關軟件的關注度不夠,如Lopez(2013)已基于研究生水平設計的有關MT體系的難題。總之,本書融學術性、知識性、實用性為一體,為機器翻譯教學和研究提供了系統性的思考和導向性的建議,對建構機器翻譯理論具有重要的參考價值和啟示意義。