陳吉榮
(遼寧師范大學 外國語學院,遼寧 沈陽116029)
隨著計算語言學的興起,語料庫在外語教學中的重要作用日益突顯。“以語料庫語言學理論為基礎的翻譯語料庫,匯集了譯成外語的各種真實的語料,并對語言現象用計算機進行統計、比較和分析。作為一種實用方法,翻譯語料庫不僅可以為探討翻譯文本的性質、譯者的個人風格、源語對文本類型的影響,以及其他一些翻譯學者和語言學家感興趣的問題提供了廣泛的研究空間。同時,作為一種具體而又詳細的資源,它還可以為研究者驗證理論上的翻譯性質是否有效,實踐中的翻譯方法是否可行”[1]。由于基于語料庫的翻譯教學形式具有學習直觀化、資料多元化、譯作精準化、效果顯著化等四大方面的特點和優勢,平行雙語語料庫在外語教學與研究中發揮著越來越大的作用。但是,由于不同的語言在拼寫形式、語法邏輯和詞匯搭配等方面存在著差異,語料對齊就成為外語教學和研究中的一個重要環節。
目前,國內外對語料對齊技術都有研究。近20年來,國內的語料對齊研究取得了很大的進步。已經發表的科研成果論文有51 篇。這些研究成果可以分成以下幾個方面:第一大類是對齊算法研究,如薛松的《漢英平行語料庫中名詞短語對齊算法的研究》,劉小虎等的《基于詞典和統計的語料庫詞匯級對齊算法》和熊偉等的《面向小詞典的高效英漢雙語語料對齊算法》。第二大類是語料庫建設研究,如高翔等的《句對齊有聲語料庫在英語語音教與學中的應用》,趙芳婷等的《納-漢雙語語料庫構建及雙語語料對齊》,張跟兄的《蒙漢雙語對齊語料庫》、劉非凡等的《大規模非限定領域漢英雙語語料庫建設及句子對齊研究》,徐德寬等的《論文摘要漢英對齊語料庫的建設及應用》,陳晴等的《基于雙語句對語料庫的詞對齊模型》。第三大類,是關于對齊方式的研究,如李秀英的《基于歷史典籍雙語平行語料庫的術語對齊研究》,劉冬明的《漢英雙語平行語料庫中對齊方法的研究》,肖健的《英中可比語料庫中多詞表達自動提取與對齊》。第四大類是多語種對齊研究,如畢雪華的《漢維雙語語料庫中句子對齊技術的研究》,艾山·毛力尼亞孜的《漢維哈柯雙語語料庫加工系統詞對齊技術的研究》,王成平的《信息處理用彝、漢、英三語平行語料庫的建設與語料對齊技術研究》,雪艷的《漢蒙詞語對齊及相關技術研究》。
國外的語料對齊技術研究在對齊單位上主要以句子以下的單位為主,例如Louise Deléger 的研究表明,可以通過平行文本語料庫的字對齊技術來翻譯醫用術語。通過語料庫的字對齊技術,獲得了平均值為[(74.8% +77.8% +76.3%)/3=76.3%]的語言準確的新術語翻譯,該研究驗證了使用文本語料對齊技術可以幫助譯者翻譯新的術語,這一發現也為其他不同的翻譯過程提供了理論框架,有利于外語教學和研究。此外,國外對基于長度基礎和文本基礎的對齊技術也很重視。Christopher C.Yang 等的研究表明,長度基礎和文本基礎是對齊平行文件的兩個主要方法。許多平行文本對齊技術試圖采用不同的文本單位作為翻譯單位,以此來衡量雙語詞法,自動翻譯驗證和自動活獲取翻譯知識,其中翻譯對齊技術在自動語料庫建構過程中起到了對齊文本的重要作用。通過基于長度基礎和文本基礎的自動題目對齊方式來建構平行語料庫又可以為語料對齊和語料庫構建提供新的思路。第三,在語料對齊技術中使用自構建語義圖示,如Qing Maa 等的研究表明,可以使用SOM 作為自構建設計或者圖示。研究者最初使用從中日兩國報紙上選取的、根據其語法關系所做的對應詞語作為自構建詞語,然后把這些詞語解碼為向量提交給SOM,并考慮其間相互的語義關聯,再使用詞語相似度來進行計算。自定義的單語語義圖示可以根據不同的標準來評估,例如準確度、F 值、回溯,還可以通過詞簇規律比較和多樣的統計分析來進行。這種基于語義基礎的字對齊技術對語料對齊研究也很有啟發。第四,使用P - NNT 與GMM 的句對齊技術。Mohamed Abdel Fattah 的研究表明,盡管平行語料庫在多語加工過程中已經成為一個重要的來源,句子對齊的平行語料對于機器翻譯來說意義重大。這種方法主要使用幾率性的神經性網絡和高斯混合模式,萃取文本對中的特征向量,例如長度、標點符號評分值和同源評分值。通過使用P-NNT 與GMM,使得語料對齊錯誤分別減少了27%和50%,并且,這些新的方法對任何語言對都適用。Victoria L.Fossum 等還研究了詞對齊過程中的整合與解析。
這些語料對齊的研究對外語教學中的語料庫建設、語料對齊技術與語料對齊方式等都有很多適用價值,值得借鑒。考慮到國內外語教學特別是翻譯教學的特點,句子層以下的語料對齊技術更有實用性。
黃俊紅等對2007年以前的國外語料庫對齊技術做了綜述性評價,指出目前四種主要的對齊技術,并分析了各自的優缺點。例如,句子級對齊技術是最為重要且較為成熟的自動對齊技術,但是在處理復雜句子的對齊以及不同語系的句子對齊時,準確率可能卻并不高。基于詞匯層的對齊方法雖然可以提高對齊的準確性,但卻費時。多詞組合單位對齊在不同語系語言對的對齊過程中可能出現問題,從句和段落的對齊也有其自身優缺點,從句的對齊更難且容易出錯[2]。針對中國外語課堂教學特別是翻譯教學的實際情況,多數學生沒有接受過長時間、有計劃的翻譯實踐與翻譯能力訓練,課時少、課堂內外翻譯實踐有限,學生在解決翻譯問題時的語言單位小于成熟的譯者或者訓練有素的譯員,前者往往以詞或者短語為翻譯單位,而后者常常以句子為翻譯單位。同時,中英兩種語言在類符和形符、切分單位、斷句以及術語分類方面有很大差異,句子層的對齊模式有時候會出現不準確的情況。考慮到這些實際因素,則句子層以下的對齊模式是可以借鑒的方法。
根據MACKEN 的定義,句子層以下的對齊方式是指:“在句子水平以下的翻譯對應的自動對齊,可能是詞,詞組或者詞塊”[3]。關于句子層以下的對齊技術,也有一些相關研究。Lars Ahrenberg 認為數據的選擇和突出樣本將會對詞語級別的對齊技術產生影響。Rada Mihalcea 等探討了詞對齊技術中的分享責任。Wu Hua 等認為詞對齊技術改善了翻譯質量并且節省了20% 的翻譯時間,Declan Groves 等研究了數據導向的翻譯和數據導向的分析在語料對齊中的作用。此外,Katharina Probst 等研究了使用類似評分系統來改善句子層以下的對齊方式的雙語詞典,Y.Choueka 等研究了一個比較全面的雙語詞匯對齊系統,這些研究為句子層以下的對齊技術研究提供了理據。
2007年,比利時的Lieve Macken 發表了研究論文Analysis of Translational Correspondence in View of Sub-sentential Alignment。2010年,他的理論更加成熟,完成了博士論文Sub - sentential Alignment of Translational Correspondences。綜合這兩個研究成果,Lieve Macken 句子層以下對齊模式其特點就非常明顯。
Macken 的句子層以下對齊模式既適用于計算機輔助翻譯教學也適用于一般情況下的人工翻譯。其主要特點是關注不同的文本類型,并且關注準確性。該模式使用了各種不同的文本類型的平行文本,目標使用者最終設定為人類譯員,目的是為其提供一個具有極高精確性的對齊劃分單位模式,并對對齊做出評價。
雖然在實際的驗證過程中,Macken 使用了英語與荷蘭語的語言對,但是他認為這種句子層以下的對齊模式是不受語言對限制的,可以在翻譯活動中通用。其中,手動引用的語料庫包括三個不同類型的關聯:直接對應的常規關聯,不同類型的專門翻譯轉換的模糊關聯,以及無對應的零關聯。不同文本類型的不同的寫作和翻譯文體呈現出不同數量的常規關聯、模糊關聯和零關聯。而句子層以下的對齊模式是由級聯模式構成的,包含兩個階段。在第一個階段,以詞匯對等和句法相似性為基礎將錨點詞塊進行關聯。在第二個階段,使用引導方式來萃取專門翻譯模式中的語言對。這種對齊模式是詞塊驅動的,只需要針對源語言和目標語言的極淺的語言加工工具,例如詞性標簽與詞塊。
為了產生詞匯對應,Macken 試驗了兩種不同類型的雙語詞典:手工的雙語詞典和概率的雙語詞典。在引導實驗過程中,Macken 使用精確的GIZA + +與字對齊相交。預設的系統改善了相交的GIZA+ +字對齊的回溯性,保持了精確性,并使得對齊結果在融合計算機輔助工具和雙語術語萃取工具方面更有用。而且,對齊不連續詞塊的系統能力使得該系統對包含分離的言語構建和短語動詞的語言更為有用。該模式可以指導雙語術語萃取,也可以將其與商業翻譯記憶系統進行比較。
Macken 句子層以下的對齊模式對于外語課堂教學的啟示主要體現在如下方面:
第一是增強了語料對齊技術的準確性,有利于提高課堂教學質量。在Macken 的對齊模式中,特別重視精確性和回溯性。精確性是指系統所產生的多少關聯是準確的。回溯性是指系統建立了多少關聯,也因此是衡量系統覆蓋率的指標。這兩個特點在對齊模式的四個評估矩陣中都有體現。
第二是為語料對齊提供了多種量化的評估途徑。主要包括四個方面:F 值,對齊錯誤率,加權F 值,詞塊水平的F 測試計算。在這些計算公式中,同時進行手動對齊與自動對齊的比較。例如,F 值的計算公式為:

A 代表系統自動對齊的數對,R 代表手動對齊的數對。

由上述公式可以看出,精確性和回溯性的計算是取手動對齊和自動對齊的交集,兩者的比較和差異可增強譯者對句子層以下翻譯對齊單位的認知,從而辨別翻譯錯誤并學習新的翻譯方式。類似的,在對齊錯誤率的計算中,Macken 也采用了上述計算思路,特別是他對準確對齊和可能對齊的區分更增加了對錯誤分析的準確性,同時也兼顧了翻譯過程中多樣化的表達。Macken 的加權F 值更加關注短語對齊,其賦值方式和算法思路與前兩項也類似。
第三,對于復雜多樣的翻譯對等來說,比較并為不同的對齊系統賦分并不容易,因為這些對齊不能簡單地以對錯來劃分。Macken 的對齊模式為各種多變的翻譯對等提供了解釋的途徑。
第四,學生可以通過此模式更為直觀地了解翻譯對等,對翻譯級階、翻譯單位等都有更為深入的認識。同時也有利于在課堂教學中選一個好工具,提高速度,同時降低建庫的成本。
[1]李丙奎.析翻譯語料庫與翻譯教學和翻譯人才培養[J].語文學刊,2011(12):27 -29.
[2]黃俊紅,范 云,黃 萍.雙語平行語料庫對齊技術述評[J].外語電化教學,2007(6):21 -25.
[3]Macken L.Sub - sentential Alignment of Translational Correspondences[D].Universiteit Antwerpen,2010.