陳華妮,王迪
(中國民用航空飛行學院,四川廣漢 618307)
在國家“一帶一路”的政策背景下,為響應中華文化“走出去”以及國家語言能力建設號召,國內各大高校相繼大力開展信息時代語言服務人才培養模式研究,探索新型語言服務人才培養的特色道路。同時,大數據和語言技術的飛速發展也給高校外語專業語言服務人才的培養理念和培養方式上的調整帶來了前所未有的機遇[1-3]。
語料庫語言學作為最具活力、 發展最為迅速的語言學領域之一,越來越多地被應用于語言學各分支的研究中。隨著翻譯技術的普及,越來越多的學者和譯者投入到語料庫的研究和實踐中。語料庫建設、研究和實踐也日益成為外語專業學科發展的重點方向之一。
語料庫研究是外國語言學及應用語言學專業學科人才需掌握的必不可少技能。與此同時,翻譯專業在學科建設上也對語料提出了明確要求。在2010年5月7日,國務院學位委員會下發《關于開展新增碩士專業學位授權點審核工作的通知》(學位〔2010〕20號),其附件1~15《翻譯碩士專業學位授權點基本條件》中“教學條件”中明確規定:“申請設立筆譯方向的,須擁有專用筆譯實驗室及供筆譯教學使用的翻譯軟件或資料庫”[4-6]。
近年來,在全球化的浪潮下,我國民航飛速發展,我國民航業國際交流也與日俱增,極大地刺激了民航翻譯的需求。平行翻譯語料庫可以對民航翻譯研究和實踐提供很好的翻譯實例和量化數據。該研究針對民航英漢平行雙語翻譯語料庫進行了總體設計,建成了小型民航英漢平行翻譯語料庫。該研究旨在通過加強民航英漢平行翻譯語料庫建設從而促進我國民航翻譯研究和實踐的進一步發展。
該研究的主要研究內容為民航英漢平行翻譯語料庫的建立和術語庫的建設。該研究建成了2 個小型民航英漢平行翻譯語料庫和1 個民航翻譯術語庫。該研究的意義主要有以下3 個方面。
為學院一線翻譯教師提供更多教學案例,擺脫以前基于經驗的教學模式,教授學生掌握預翻譯、項目術語準備、術語統一、語料信息檢索、協同翻譯等當下翻譯流程的關鍵環節,使學生所學與將來工作無縫對接,提高學生的競爭力[7-9]。
為MTI 以及BTI 學生提供一個檢索平臺,學生可隨時查找民航翻譯實例,便于定期回顧,查漏補缺,形成一套翻譯自主學習平臺。
在進行民航的翻譯實踐時,幫助譯者快速查找相關譯文表達,提高翻譯工作效率及準確率。
基于該語料庫建設可進一步開展各項研究,為學校在翻譯教學與研究方面提供更豐富的研究素材和工具。利用平行語料檢索技術,研究人員可以獲取豐富的雙語句對表達,通過對比,進一步發現語言特點[10-13]。
《民航英漢平行翻譯語料庫建立與研究》研究工作主要分為以下幾個階段。
第一階段:語料庫相關資料搜集。
通過互聯網以及數字圖書館,收集并整理與平行翻譯語料庫相關的文獻。通過互聯網以及數字圖書館,搜集各類民航英漢雙語語料數據。
第二階段:語料庫建設總體規劃。
在文獻研究的基礎上,完成民航英漢平行雙語語料庫建設的總體設計方案。
第三階段:英漢雙語語料加工。
獲取雙語語料數據后,完成語料加工工作,如語料提取、語料降噪等。民航英漢平行雙語語料庫建設時語料加工采用的部分技術方法包括以下幾點。
(1)語料提取:將搜集的PDF 雙語語料轉成可編輯的Word 文檔。主要方法如下:首先,將PDF 中的文字復制粘貼到Word 文檔中。其次,對于無法復制粘貼的文字采用多種方法進行處理,如使用Adobe Acrobat Pro DC 進行轉換;使用福昕高級PDF編輯器進行轉換; 使用ABBY Finereader 進行OCR識別轉換;使用在線網站進行轉換,如https://www.cleverpdf.com/等;使用Tmxmall 的工具箱進行轉換;使用手機OCR 識別APP,如搜狗輸入法文字識別、OCR掃描王等進行轉換;使用WPS 進行轉換等[14-18]。
(2)語料清洗:對Word 格式語料進行預處理。主要工作包括: 將Word 文檔中所有的軟回車替換成硬回車;處理Word 文檔中的句子斷句異常;自動編號(序號)換成文字編號;將文檔中的紅色代碼批量選中并刪除;批量替換刪除<>中的代碼;去除多余空格和“-”;處理表格識別混亂;識別混亂的圖文框和圖表;處理上下標無法識別;處理頁眉、頁腳、頁碼和目錄混亂;提取中英文文檔中的中文/英文[19]。
(3)語料分類:根據文本的類型將語料進行分類,以建成不同類型的民航英漢平行翻譯語料庫。
第四階段:英漢雙語語料對齊及術語庫建設。
使用在線對齊工具Tmxmall Aligner 進行語料對齊。使用Tmxmall Aligner 將長段落原文譯文自動拆分為多句,借助在線對齊工具實現一對多、多對多智能對齊并以tmx 格式導出[20-23]。
將導出的tmx 格式文件導入語帆術語寶,完成術語提取及術語庫建設。主要的建庫方法為:使用云帆術語寶提取術語提取詞頻為1 的術語,并逐一驗證,刪除重復部分,保留一詞多譯;提取詞頻為2 的術語,并逐一驗證,刪除重復部分,保留一詞多譯;以tbx 以及Excel 格式導出,按字母順序排序; 在YICAT 平臺創建術語庫,并將導出的tbx 格式文件導入新建的術語庫,完成術語庫創建[24-27]。
第五階段:英漢雙語對齊語料入庫。
將對齊的語料分類導入YICAT 平臺記憶庫,建成2 個民航英漢平行翻譯語料庫。用戶選擇檢索模式,在檢索框中輸入關鍵詞并選擇檢索范圍,即可進行檢索。
該研究的主要成果為:建成A330/A340 飛行機組操作手冊語平行翻譯語料庫和DA42 NG 飛機飛行手冊平行翻譯語料庫; 建成DA42 NG 飛機飛行手冊術語庫。該研究主要在以下兩個方面體現了創新性。
第一,國內外平行翻譯語料庫研究多涉及英語和歐洲語言,涉及漢語的英漢/漢英平行翻譯語料庫研究十分有限,這與漢語作為世界上大語種的地位極不相稱,與當前翻譯研究的需要也不相適應。該語料庫的建設是英漢/漢英平行翻譯語料庫建設的有利補充。
第二,現有的平行翻譯語料庫多以一般性文本題材為主,很少有針對某一文類的專門用途英語的平行語料庫。民航英漢平行翻譯語料庫屬于英漢專門用途英語平行語料庫,它的設計和建立是平行翻譯語料庫研究領域的一個有利補充。
首先,該平行翻譯語料庫收集真實的翻譯語言,民航翻譯人員能通過翻譯語料庫查找到更多的翻譯實例。因此,該語料庫能很好地促進民航翻譯實踐。
其次,該平行翻譯語料庫的建立提供了基于雙語對齊語料的檢索平臺,促進了民航翻譯研究和實踐。民航翻譯人員和研究人員可進行多方面檢索,有助于翻譯規范和翻譯理論的驗證。
最后,該平行翻譯語料庫的建立為機型手冊翻譯任務提供支持。2020年,該平行翻譯語料庫為DA42、SR20、M2 等民航機型手冊翻譯任務的順利完成提供了有力支持。
建設英漢平行雙語語料庫為語料庫研究和翻譯實踐服務已經成為新時代語言研究者必不可少的重要組成部分。通過語料庫管理語料,可在檢索語料時增強針對性,提高準確率和效率;在翻譯實踐時,參考利用已建成的語料庫,可以避免重復性勞動,提升翻譯效率。該研究通過民航英漢平行翻譯語料庫的建立,為基于語料庫的民航翻譯實踐和研究提供了借鑒和幫助。民航翻譯研究人員應進一步建設大型民航英漢平行翻譯語料庫,進一步提高檢索語料的針對性和準確率,促進民航翻譯質量的提升以及民航翻譯研究的發展。