原偉


摘要:論文采用了外語教學、語料庫建設及機器輔助翻譯的相關理論和方法,針對新聞領域烏漢平行語料庫的構建及其在烏茲別克語教學中應用的問題進行了研究。在研究過程中,分析了烏漢雙語語料對齊和語料庫翻譯實例的調用特點,整合自編烏漢雙向新聞詞典、烏語網絡新聞新聞及烏國防部新聞互譯文本的相關語料,建立包含詞、句級別的平行語料庫,面向常用機輔翻譯軟件建立了翻譯記憶庫和術語庫。通過本項目研究,在理論上揭示了烏漢平行語料庫構建的方法論基礎,闡明該語種語料庫語言教學工作的促進作用,建立可行的實施方案,在應用上將推動了中亞語種乃至非通用語種平行語料庫建設的發展。
關鍵詞:機器輔助翻譯;平行語料庫;烏茲別克語
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2019)30-0101-03
1研究現狀及意義
通常來說,平行語料庫是原文與譯文按照句子為對齊單元平行對應的雙語語料庫,可有效用于語言對比研究、翻譯研究、翻譯教學、翻譯技術開發、雙語詞典編纂等語言學以及自然語言處理研究領域。平行語料庫的構建研究開始于20世紀90年代,目前國內外已經建成了較大規模、多種類型、不同用途的雙語平行語料庫。在國內,國家語委、北京大學、中科院、哈爾濱工業大學、外語教學與研究出版社都分別建有面向不同應用方向、規模不同的英漢平行語料庫。除了英漢平行語料庫之外,北京外國語大學還組織構建了包含分庫構建了漢英、漢日語言對應的大型雙語平行語料庫嘲。語料庫只有在應用中才能體現其真正的價值。平行語料庫不僅可以用于語言教學、翻譯研究、詞典編撰等語言學研究領域,也是自然語言處理、知識工程和跨語言信息檢索的基礎性資源,其構建意義和應用價值十分重要。
機器輔助翻譯(Computer-assisted Translation,CAT)是機器翻譯研究領域的重要分支。一般來說,使用機輔翻譯技術能夠使譯員的翻譯效率提高兩到三倍。在機輔翻譯過程中,CAT軟件只是索引、調用和匹配平臺,術語庫和翻譯記憶庫才是真正的實質內容與核心。而平行語料庫是術語庫(TB)(詞級別對齊語脊斗)和翻譯記憶庫(TM)(句段級別對齊語料)構建的根本基礎。機器輔助翻譯技術在國外已經有較長的發展歷史,開發計算機輔助翻譯軟件的企業有很多,目前在業界比較著名的有塔多思(Trados)、DejaVu、TransStar、Wordfast、MemoQ、WordFisher、Ome-gaT等。在國內,通過對國外計算機輔助翻譯軟件開發的學習與借鑒,從事機器輔助翻譯的技術研究和產品開發近年來得到了長足的發展,目前較為有代表性的包括雅信翻譯平臺(cATs)、雪人CAT、文婕(WinMAT)、北京永邦博典(ITM)等。
雖然平行語料庫建設和計算機輔助翻譯研究蓬勃發展,但也存在很多現實問題:從技術層面來說,多數CAT軟件產品對于通用語種能夠較好地支持,而對于非通用語種普遍支持不夠,非通用語種翻譯記憶、術語管理和語料對齊等CAT核心技術都沒有很好的解決方案。從內容層面來說,在英語、日語、烏茲別克語等通用語種領域,大規模平行語料庫已經普遍建立,相關研究屢見不鮮;然而,對于非通用語領域,平行語料庫的建立還處于起步階段,無論從規模還是質量上還說同前者都存在巨大的差距,還有很多的基礎性工作有待完成。
構建烏茲別克語漢語平行語料庫的意義在于:首先,中國與中亞各國的交往不斷加深,層面不斷深入,由于長久以來對中亞非通用語種沒有予以應有的重視,相關語言翻譯保障手段,如工具書、電子詞典、翻譯軟件等長期處于稀缺狀態,烏茲別克語人才培養的質量和水平急需提升。使用雙語平行語料庫和機器輔助翻譯的相關技術,來有效促進烏茲別克語教學與人才培養的整體水平,滿足國內該語種人才緊缺的現實需求。其次,填補烏語新聞平行語料庫的空白,在應用上推動國內中亞語種乃至非通用語種平行語料庫建設的發展。最后,將平行語料庫與傳統語言研究手段有機結合,促進烏茲別克語基礎教學工作地發展,提升外語人才培訓水平。將語料庫運用于烏語機輔翻譯,探索相應的可行性方案,研制CAT軟件系統,望能拋磚引玉,為其他非通用語種相關研究提供思路。
2語料庫構建
2.1語料選擇
在建設語料庫之前,語料的代表性是首先需要考慮的問題。當前烏茲別克語相關的新聞語料主要來自互聯網,總體來說規模較小,烏漢雙語的新聞互譯文本更為稀缺,可以采集的數據十分有限并且質量參差不齊,在采集和處理語料時需要設定一定的標準。在這里,我們首先需要重點考慮語料來源的權威性、文本質量、語料類別平衡這三個問題。根據上述標準,烏茲別克語一漢語平行語料庫在選取新聞語料的基本原則為:第一,首選烏茲別克斯坦官方網絡媒體發布的新聞語料,其次是其他新聞網站、本地報刊等其他資源。第二,對所采錄語料進行文字統一、文本清理、錯誤篩查等質量評估,質量低劣文本不予收錄。第三,實行均衡采樣原則,將烏茲別克語新聞文本來源設定為兩大類,即新聞類f重要新聞事件、新聞活動報道、與新聞活動相關的政治活動等等)和新聞文獻類(學術著作、說明書、協定等等)。第四,單篇文本的規模設定為500詞至3000詞之間,過少或過多則不予收錄。第五,針對烏茲別克語一漢語互譯新聞語料數據稀疏或難以收集的問題,在選取優秀烏茲別克語新聞語料自行翻譯,再進行校對后收錄。上述五條原則的主旨是保證所選語料的代表性和質量,以確保后期基于該平行語料庫開展的機輔翻譯研究及應用取得較好效果。
2.2語料電子化
語料的來源主要為烏茲別克斯坦官方新聞網站,網絡文本主要涉及文字校對與格式整理,相對而言比較簡單。但是經初步查證發現,公開發布的烏茲別克斯坦新聞規模不大,而網絡上的高質量的烏茲別克語一漢語互譯資源更加稀缺。正因如此,在語料庫的實際建設過程中,語料庫中很大部分烏茲別克語新聞資料是通過翻譯后經過校對后進行收錄的,雖然花費了大量的人力工作,但確保了對齊語料的質量。
語料的另一個來源是烏茲別克語新聞報刊等印刷制品。為了節省印刷文字轉寫工作所花費的大量時間,本研究采用了印刷品高清掃描后,使用文字識別軟件進行識別,最后進行文字和格式校對的方法。當前的國內OCR識別軟件主要針對中文與英文,對于烏茲別克文的識別并不支持。課題組采用軟件Abbyy Finereader對掃描文本進行了識別,該軟件不僅對烏茲別克文有可以接受的識別效果,可以達到75%左右的正確率。在識別后,通過手工進行文本的校對和整理,糾正格式和識別錯誤。Abbyy Finereader軟件對烏茲別克語的識別正確率可以達到88%以上,大大提高了新聞報刊的文字轉寫效率。
2.3語料對齊
語料對齊是指將原文語料與譯文語料分別保存后,并使兩個文本中的語料按照句與句的關系逐條對齊,這是所有平行語料庫構建過程中最重要的步驟。目前,句與句對齊軟件較多依附于計算機輔助翻譯(cAT)軟件中,使用對齊工具可以將現有的原文與譯文進行對齊排列,生成雙語文件,及翻譯單元,創建翻譯記憶數據,將之導入到CAT軟件中調用,從而達到重復利用翻譯資源提高翻譯效率的目的。自動對齊模塊會根據句子結束標記把原文和譯文自動拆分為句段,并且把原文句段和譯文句段自動匹配對齊,但對齊結果存在錯誤,類似的對齊模塊較為典型的包括Trados的Winalign模塊,Dejavu的AlignmentWizard模塊,Memoq的對齊工具,以及近年來進步迅速的雪人CAT軟件中基于詞庫和句相似度計算的對齊工具。在對齊過后的平行語料庫構建中,構建人員需要檢查這些對齊是否正確,對錯誤對齊進行必要調整與修改。在修訂后,再將這些對齊好的平行句段導出到包含雙語信息的文本中,然后可以儲存在翻譯記憶庫用于計算機輔助翻譯。雖然對齊工具的選擇很多,但總體來看這類工具處理文本的準確率并不太高,后期人工介人調整是勢在必行的。除此之外,由于烏漢語言在表達、句式方面的差異,實際的翻譯過程中并非全部以句為單位,翻譯關系存在一對多或多對多的情況。
我們采用了Dejavu計算機輔助翻譯軟件的對齊工具Align-ment Wizard,其優勢在于支持多類型文本導入導出、自動對齊算法優良、最終構建的翻譯記憶庫可轉換成多種格式。在De-javu創建的對齊項目中,可以方便地合并(join)、分割(split)、刪除(delete)、上移(moveup)、下移(move down)句段,并可將選中詞、短語加入自建的術語庫(TB),使用非常方便,并支持多種類型文本的導入導出。詳見圖1。
對于烏茲別克斯坦新聞領域烏漢平行語料庫的對齊工作,我們首先由人工完成篇章與篇章對齊的工作,之后使用DejavuX2的AlignmentWizard工具初步實現了句與句的對齊,再通過人工校對排查,最終達到句子層級的對齊。在句對齊工程中,收集領域詞匯加入Dejavu術語庫。最后,通過人工反復進行檢驗,以確定全部文本已經達到句與句對齊的效果。在此之后,將對齊文本導入自建CAT翻譯記憶庫(TM)。從TM中可以導出Excel表對齊文本,最后形成單語文本對應的txt文件用于平行語料庫。
3語料庫的機器輔助翻譯應用
3.1短語(短語)級對齊語料
我們收集整理了大量與烏茲別克斯坦和新聞領域相關詞匯短語,共計29412條,約10.2萬字。收詞工作前期共收詞50000余條,后經過精心篩選和考量,精簡到30000余條,其中外漢部分約14000條,漢外部分約15000條,每詞條盡量收全,另外適當選收了部分常用詞語和詞組搭配,內容包括新聞領域的一般用語和部分非常用詞語。短語語料的特點有以下三點:第一,收詞較為合理,覆蓋面廣,不僅收錄了較為常用的新聞詞語,還涉及了包括科技、人文、醫學、金融等諸多領域的專業術語。第二,新詞多,收錄整理過程中確保了語言材料的科學性和新鮮性。構建語料庫時使用Excel編輯,之后轉為TXT對齊文本。
3.2CAT翻譯記憶庫及術語庫的構建
本項目翻譯記憶庫中的數據來源有兩個,第一是通過Alignment Wiz-ard工具整理篇章語料后錄入的對齊語料,第二是手工構建的Excel構建的對齊語料。使用Dejavu的文件導入功能,可將Excel文本中的對齊文件直接導人到自建的翻譯記憶庫中,供CAT項目使用。術語庫構建方法與之相似:第一,AlignmentWizard工具可將句對中的短語對、詞對導入TB;第二,借助Excel表文件導人術語。Dejavu翻譯記憶庫和術語庫可以通過格式轉換,普遍應用與各類CAT軟件中。
3.3篇章、句子級對齊語料
我們供收集和翻譯整理與烏茲別克斯坦和新聞領域相關烏漢文本共108對,216篇,約20萬字語料。語料庫的突出特點為:首先,語料庫專業性強。本語料庫僅涉及新聞領域語料,同時主要針對對象國烏茲別克斯坦,同時新聞按照類別平均采樣,突出了語料的代表性特征;(2)語料規模基本滿足研究需要。從絕對字(詞)數量上看,該庫的語料數量并不是很大,但是就專門類別語料庫而言,該庫的語料數量足以達到其設計的研究及用目標,可以較好地用于計算機輔助翻譯研究;(3)選材質量高、代表性強。新聞選材及分類標準設計細致且完善,保證所選語料的高質量、均衡性和代表性,為后期良好的研究及應用效果打好了基礎。語料庫句對齊示例見圖2。
4烏漢新聞平行語料庫的應用前景
第一,基于烏漢平行語料庫的機器翻譯研究。平行語料庫對機器翻譯準確率、處理性能和效率提升的影響是十分明顯的,基于語料庫的機器翻譯系統包括基于統計和基于實例的兩種類型,最重要的數據資源就是利用平行語料庫。對于非通用語言中亞烏茲別克語來說,平行語料庫資源十分寶貴。本文構建的烏漢平行語料庫可以直接作為訓練數據語料用于統計機器翻譯應用中。同時,平息語料庫由可以用于獲取機用翻譯詞典、翻譯模板的等翻譯知識,較好地提供用于機器翻譯的基礎資源。
第二,基于烏漢平行語料庫的跨語言信息檢索。隨著“一帶一路”倡議的廣泛推進,中國與中亞國家之間的多層次交流更加廣泛和頻繁,面向中亞的多語種信息檢索產生的語言障礙日益突出,只有通過跨語言信息檢索技術來突破障礙。烏漢新聞雙語平行語料庫的構建為我們提供了內容豐富合理的翻譯資源,在消除歧義方面烏漢平行語料庫比語言詞典、機器翻譯等技術更具優勢,與二者結合不僅提高翻譯質量,而且提升了速度和精度,對推動跨語言信息檢索將起到關鍵作用嘲。
第三,基于平行語料庫的語言及翻譯研究。烏漢平行語料庫具有鮮活的語料,在新聞翻譯教學中,這些教學素材的應用無疑有助于提升學習者對對象國新聞文化的了解,亦有助于增強學習者跨文化交際能力。因此,該庫的建設與應用對培養立足學科建設工作、面向中亞方向翻譯人才具有極大的推動作用。本語料庫的主要使用者為外語院校及外語培訓機構,可為烏語新聞處理和新聞外交人員提供翻譯語料支持,能為中烏新聞交流合作活動初步提供統一的新聞翻譯標準及文本交換格式,并且可以以此為基礎開發一系列新聞信息處理產品等。