胡曉榕



摘 要:隨著機器學習技術的發展,目前翻譯行業也逐漸引入該技術用來提升翻譯效果。文章以實現在線學習為目標,為了學習人員能夠在不斷糾正過程中進行學習,設計了一套端到端平臺,該平臺將機器翻譯服務器集成到專業翻譯人員最常用的用戶界面中,實現在機器不斷從人的選擇中學習并根據特定領域或用戶風格調整模型的同時,節省學習人員后期的編輯工作,提升了在線翻譯過程中的輔助效果。
關鍵詞:機器學習;翻譯行業;端到端平臺;翻譯模型
中圖分類號:TP393
文獻標志碼:A
文章編號:1007-757X(2020)11-0080-02
Abstract:With the development of machine learning technology, the translation industry has gradually introduced this technology to improve translation results. This article aims at online learning. In order that the learner can get progress in the process of continuous correction, an end-to-end platform is designed. This platform integrates the machine translation server into the user interface which is commonly used by professional translators. By continuously learning from human choices and adjusting models according to specific fields or user styles, it saves the editing work of the learners in the later stages and improves the auxiliary effect in the online translation process.
Key words:machine learning;translation industry;end-to-end platform;translation model
0?引言
在翻譯行業中,翻譯的效果至關重要,直接關系著業務人員的工作效率。如今,翻譯行業的高效性需求必須滿足快速的商業需求,為此,需要在較短的時間內為用戶提供準備高質量的翻譯結果。隨著機器學習技術的發展,文獻[1]中提出使用支持向量機(一種監督學習模型)獲得了安德森雜質模型的格林函數,用來實現自學習提升。
機器學習技術的快速發展,為翻譯行業提供了可高效、快捷翻譯結果的途徑,即“人性化”翻譯,稱為后期編輯(PE),該模式目前在翻譯行業中被證明是有效的[2],被稱為是機器翻譯(Machine Translation,MT),隨著MT功能的不斷完善,此工作流程已成為翻譯行業的重要內容。
PE過程本身就在不斷生成新的雙語數據,此數據通常用于創建特定于域的語料庫,可用于將系統從更廣泛的域改編為特定的域客戶端或樣式。在線學習(Online Learning,OL)范式指在PE過程中執行這種調整[3]:每次用戶驗證后期編輯的翻譯時,系統都會在考慮到此數據的情況下進行更新。因此,當產生下一個翻譯時,系統將考慮先前的版本,從而將產生更好的翻譯(或更切近于人類語言用于規范)。
OL范式已迅速引起研究人員和行業的關注,基于短語的統計MT系統從用戶后期編輯中逐步改編而成,最近,OL技術也被應用于神經機器翻譯(NMT)系統[4],本文介紹了內部OL框架的演示系統,在該系統中,將翻譯服務器與翻譯程序的用戶友好界面SDL Trados Studio集成在一起,從而提升了多語言交互翻譯過程中的效率。
1?系統設計
從用戶在PE流程中生成的后期編輯中提升翻譯效果,為此,通過即時更新系統,即,一旦發布者確認了句子,便會立即進行更新,在用戶確認編輯之后,立即使用源語句和后編輯作為培訓來更新NMT(Neural Machine Translation)系統的模型。 這種適應可以在梯度下降之后進行,梯度下降是神經網絡的常規訓練方法。
本文設計的OL框架體系結構由三個主要模塊組成:MT引擎、用戶界面和鏈接兩者的翻譯服務器。此外,還添加了一個日志記錄選項,以使用戶能夠跟蹤擊鍵、時間和鼠標移動等信息,該系統的體系架構,如圖1所示。
翻譯過程包括將機器翻譯傳遞到用戶界面,培訓過程使用用戶提供的反饋對MT引擎進行再培訓。這兩個過程都是通過客戶端-服務器通信執行的,接下來,詳細描述各個模塊的具體功能。
(1) 機器翻譯引擎
MT引擎的核心由生成翻譯的模型組成,可以在需要時進行重新訓練。每個翻譯項目都有其自己的模型,其模型是根據項目的需要設置的,所有模型都是基于神經網絡的,并使用OpenNMT-py進行了訓練[5]。
每個MT模型都有其自己的配置文件,其中包含個性化的翻譯和OL選項,例如標記化、子詞分段和學習率等。
(2) 翻譯服務器
翻譯服務器與MT模型進行通信,以生成翻譯并根據用戶的發布版本來修改系統。該服務器基于OpenNMT-py的REST服務器,并使用HTTP協議定義消息以服務于用戶的請求。翻譯服務器的代碼已公開且可用,在OpenNMT-py中創建了一個分支,該分支具有此服務器并與其所有不同模型兼容。
用戶界面和MT引擎之間的通信是通過GET和POST請求執行的。服務器等待翻譯請求,收到請求后,這些請求將以JSON格式發送到機器翻譯引擎,當用戶對機器翻譯片段進行更正時,將更正發送到翻譯引擎。
(3) 用戶界面
在翻譯行業中,翻譯人員最常用的用戶界面是SDL Trados Studio。系統用戶界面,如圖2所示。
用戶在如下情況自動獲得機器翻譯輸出:單擊界面中線段的目標部分,然后,用戶對片段進行后期編輯,并在糾正翻譯后對其進行確認。
SDL允許開發Trados Studio插件來增強和擴展該工具。此外,SDL擁有龐大的開發人員社區[5],可通過附加軟件和應用程序來更快的學習該框架。本文將自適應框架整合為Trados Studio插件,該插件將用戶界面、Trados Studio與翻譯服務器互聯。當用戶確認后期編輯時,已審核的細分將發送回MT引擎,以使用此新信息進行重新訓練。
(4) 日志記錄
為了衡量PE過程中OL的翻譯效率和有效性,系統集成了工具來記錄在后期編輯給定文件中涉及的時間、擊鍵和鼠標移動等動作。為此,Trados合并了Qualitivity[6]插件。該插件生成一個XML日志文件,其中包含每個段的所有按鍵時間信息,如圖3所示。
利用這些日志信息,可以衡量將MT與OL一起用于后期編輯文件所需的工作量。使用專業翻譯人員在模擬和真實環境中進行的初步實驗[6]報告稱,MT系統生成的翻譯質量有了顯著提高。
2?實驗分析
本章節分析了在用戶試用中獲得的結果,如表1所示。
表1顯示了與使用參考樣本進行更新的非NMT系統相比,NMT系統的翻譯質量的結果[7-9]。通過這種綜合設置獲得的結果支持通過在線學習進行智能化翻譯的有用性。
在所有情況下,NMT系統都比非NMT系統獲得更好的TER和BLEU(機器翻譯的評價指標)。我們從TER的角度獲得的結果表明后期編輯這些樣本所需的人力更少。
接下來進行人工后期編輯實驗,三名專業翻譯參與了實驗。對于NMT系統測試,所有后期編輯人員都使用相同的系統啟動任務,該系統使用每個人自己的后期編輯工具進行調整。因此,在在線學習過程結束時,每個后期編輯都獲得了相關的翻譯服務。對于靜態實驗,最初的NMT系統在整個過程中均保持不變,為了避免多次翻譯相同文本的影響,每個參與者在每種情況下后編輯了一個不同的測試集,如表2所示。
該實驗的測試結果如表3所示。
這些數字是不同后期編輯所獲得結果的平均值,對于集合T1,每個句子的后期編輯時間的大幅減少尤其重要(每個句子平均7.5秒)。在測試集T2中,NMT系統的后期編輯時間也比非NMT系統的稍短一些,為0.7秒。
3?總結
本文介紹了一個在線翻譯框架,該框架結合了通過在線學習對系統進行即時調整的功能。這種模式允許翻譯人員/后期編輯人員產生更多具有人類品質的文本,即提升翻譯效率,因為系統不斷從用戶的后期編輯中學習,從而避免了重復錯誤。本文已將MT服務器集成到SDL Trados Studio用戶界面中,實驗結果證明該系統在翻譯過程中有較高的效率。
參考文獻
[1]?Arsenault, Louis-Franois, Lopez-Bezanilla A, Von Lilienfeld O A, et al. Machine learning for many-body physics:The case of the Anderson impurity model[J]. Physical Review B, 2014, 90(15):136-155.
[2]?Cadwell, Patrick, Castilho, et al. Human factors in machine translation and post-editing among institutional translators[J]. Translation Spaces, 2016, 5(2):222-243.
[3]?Subakan Y C, Samragdis P. Diagonal RNNs in Symbolic Music Modeling[C]. 2017 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics(WASPAA), 2017:23-29.
[4]?Klein G, Kim Y, Deng Y, et al. OpenNMT:Open-Source Toolkit for Neural Machine Translation[C]. Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics-System Demonstrations,2017:67-72.
[5]?PosEdion: Post-Editing Assessment in Python. https://community.sdl.com2015.06.13/2019.11.28.
[6]?Voice or Machine? Translation? https://community.sdl.com/product-groups/translationproductivity/w/customer-experience/2251.qualitivity,2019,08.18/2019.12.12.
[7]?林寒.基于多語言交互的英語翻譯在線輔助系統設計[J].現代電子技術,2019,42(6):22-25.
[8]?夏吾吉,華卻才讓.基于有限狀態自動機阿拉伯數字與藏文數詞自動翻譯[J].計算機工程與科學,2018,40(3):550-554.
[9]?余倩.基于特征提取算法的交互式英漢翻譯系統設計[J].現代電子技術,2018,41(4):161-163.
(收稿日期:2020.03.12)