廖興濱,秦小林*,張思齊,錢楊舸
(1.中國科學院 成都計算機應用研究所,成都 610213;2.中國科學院大學 計算機科學與技術學院,北京 101408)
交互式機器翻譯(Interactive Machine Translation,IMT)也被稱為交互式機器預測或目標文本介導的交互式機器翻譯,是一種人工翻譯人員或者用戶與機器翻譯系統輸出互動的翻譯模式[1]。交互式機器翻譯的出現主要原因包括:1)當前最先進的SOTA(State Of The Art)的機器翻譯(Machine Transaction,MT)技術仍然無法實現任何兩種語言間的高質量翻譯,必須要對機器翻譯系統的輸出進行人工后期編輯(Post-Editing),而IMT 是一種可行的解決方案;2)交互式模式識別(Interactive Pattern Recognition,IPR)框架很容易和機器翻譯系統結合,機器翻譯系統可以預測給定源句子的翻譯,用戶可以接受該翻譯或進行修正以產生反饋;3)交互式機器翻譯可以在迭代交互過程中提出新的改進譯文,直到整個輸出被用戶接受,而在該過程中產生的反饋信號可以用于訓練。
在這種模式下,機器翻譯系統根據源句子和當前時刻已經產生的部分譯文給出建議,而用戶要么接受翻譯系統輸出的候選譯文,要么給出針對當前候選譯文的反饋。當用戶對給出的建議翻譯不滿意時,機器翻譯系統會根據用戶的反饋信號,重新更新模型以完成對新的候選翻譯的預測,并將更正后的版本呈現給用戶。這種方法與Post-Editing 機器翻譯輸出的常見做法形成對比,區別在于該方法在訓練過程中即引入人工影響,模型可以得到更多的反饋信號,從而可以獲得更好的性能,而在Post-Editing 方式中,用戶僅根據機器翻譯系統輸出的完整譯文進行修改,直到譯文能滿足特定的要求。
伴隨著機器翻譯的發展,IPR 框架可以和不同時期的機器翻譯模型相結合,從而產生不同的研究方法,正是出于這一點考慮,本文根據交互式機器翻譯形式的不同,從交互式統計機器翻譯(Interactive Statistical Machine Translation,ISMT)、交互式神經機器翻譯(Interactive Neural Machine Translation,INMT)和結合強化學習(Reinforcement Learning,RL)方法的交互式機器翻譯(Interactive Reinforcement Learning based Machine Translation,IRMT)這三方面對交互式機器翻譯的歷史發展過程及主要技術展開介紹,早期的相關綜述可以參考文獻[2]。
機器翻譯是在計算機程序的幫助下將一種自然語言(簡稱源語言)映射成另一種自然語言(簡稱目標語言)的過程。這一簡單直觀的想法經歷了機譯系統、統計機器翻譯和神經機器翻譯三個階段的發展,再結合強化學習技術,已日漸成熟。互聯網上有很多翻譯應用,可以應用于日常工作和學習,部分應用已經開始商用,但是目前機器翻譯的效果在很多特定場景下仍然難以令人滿意,因此機器翻譯研究還需要結合IPR,作進一步的探索。
給定一個源句子x,SMT 系統試圖找到一個目標語言句子,使得這個句子是源句子x的翻譯的后驗概率最大:
根據貝葉斯公式,可以將P(h|x)寫成如下形式:
其中:P(h)表示語言模型,重點是求翻譯概率P(x|h),IBM Model 1~IBM Model 5 以及基于短語的翻譯模型等都給出了相應的求解方法。
得益于深度學習的飛速發展,自然語言處理(Natural Language Processing,NLP)領域也進行了大量的學術研究,端到端(End-to-End)的神經翻譯模型(圖1)和基于編碼器解碼器(Encoder-Decoder)架構的模型(圖2)成為神經機器翻譯著重考慮的兩個模式。

圖1 端到端模型Fig.1 End-to-end model

圖2 Encoder-Decoder模型Fig.2 Encoder-Decoder model
這兩種主流的架構多采用擅長處理長序列數據的循環神經網絡(Recurrent Neural Network,RNN),如長短期記憶(Long Short-Term Memory,LSTM)網絡或者門控循環單元(Gate Recurrent Unit,GRU),而引入注意力機制[3]可以針對長序列句子以獲得更好的翻譯性能,解決機器翻譯的長距離依賴關系。Transformer[4]是一種只采用Attention 機制和線性層的 Encoder-Decoder 模型,文獻[5]中使用BERT(Bidirectional Encoder Representations from Transformers)[6]預訓練模型最后一層輸出的基于上下文的Embedding 信息,融入機器翻譯模型中,進一步提升了翻譯的性能。
將強化學習引入機器翻譯系統中,一方面強化學習可以作為一種優化方法,文獻[7]中指出,一些網絡的前向運算中包含隨機采樣操作,這種操作會造成梯度回傳中斷,因此需要用隨機采樣的方式估計梯度;另一方面強化學習可以為一系列序列到序列(Sequence to Sequence,Seq2Seq)任務和序列生成任務建模,優化一系列與任務相關的目標函數,如在機器翻譯任務中,文獻[8]中采用強化學習方法對NMT 模型進行訓練,文獻[9]中則是對翻譯模型進行優化。
交互式統計機器翻譯的核心思想是:先由機器翻譯系統翻譯出部分(或者完整的)目標語言翻譯,然后由人工手動標注或修改,這種行為可以獲得一些用戶反饋,用戶反饋進而又可以指導機器翻譯的提升。在傳統的統計機器翻譯系統中,對于一個源語言句子x和一個由翻譯系統預測的前綴q,統計機器翻譯的優化問題可以簡化為一個搜索問題,即尋找一個后綴s,使得這個后綴與前綴結合可以作為源語言句子的翻譯[10]:
因為前綴和后綴的結合就是目標語言句子,因此式(3)可以重寫成:
交互式統計機器翻譯基于當前翻譯,在系統產生候選翻譯后,與用戶進行交互,文獻[11]中提出并評估三種計算效率高的在線方法,用于更新IMT 系統。文獻[12]中研究了基于統計機器翻譯方法的新型人工翻譯輔助,開發了計算機輔助工具Caitra,為句子的候選翻譯提供建議,顯示單詞和短語的翻譯選項,同時允許對機器翻譯輸出進行后期編輯,在輔助工具的幫助下,明顯加快了翻譯人員的翻譯速度。文獻[13]中把在線學習范式應用于IMT 框架中,在系統和用戶交互的過程中會產生很多用戶反饋,這些用戶反饋可以用來擴展模型,而在非在線學習MT中則無法使用這種用戶反饋。
文獻[14]中分析了判別嶺回歸在交互式機器翻譯框架下學習SOTA 的機器翻譯系統的對數線性權值的適用性。文獻[15]中將用戶與IMT 系統交互過程中的鼠標點擊操作提取成中間譯文的詞對齊信息,可以實現對譯文的動態詞對齊標注,在詞對齊和參考譯文的約束下提高了IMT 的準確率。文獻[16]中則是從翻譯人員的角度采集用戶的反饋數據,并研究了翻譯系統對用戶反饋的依賴程度,然后進一步改進模型,以提高翻譯系統的性能。
為了減少用戶和系統交互的工作量,IMT 系統向用戶提供評價系統輸出的候選翻譯的置信度信息(Confidence Measures,CMs)。在文獻[17]中,CMs 用于IMT 系統以提高翻譯預測的準確性。在文獻[18-19]中提到,CMs 也可以用于減少用戶與IMT 系統交互的次數,從而減少了用戶的工作量,只有那些根據置信度評估為不正確的候選翻譯才由參與交互的用戶提供反饋。在計算置信度評分時,文獻[20]提出一種具有不依賴系統輸出的置信度計算方法,稱為詞后驗概率的向后最大估計,適用于所有類型的機器翻譯系統,優于傳統的置信度估計,計算方式為:
其中:fi是原始句子的第i個單詞,規定f0為空句子;e表示目標語言中的單詞。式(5)的目的在于最大化給定源語言句子后目標語言句子的后驗概率。
文獻[21]中利用句法層面的子樹信息來指導候選譯文的產生,能顯著減少人機交互次數。文獻[22]中一方面提出了基于短語表的多樣性排序算法,根據用戶對翻譯過程的認知,設計了便于用戶交互的界面,讓用戶從候選翻譯列表中選擇正確的翻譯選項,改善了用戶體驗,并減少了用戶的工作量;另一方面在解碼階段,利用雙語數據和前綴來指導解碼過程以提高翻譯性能。
文獻[23]中證明,用戶能通過微弱的反饋來糾正模型,提出了對潛在變量模型的推廣,給出了基于反饋的潛在感知器在線學習的遺憾界和推廣邊界,并證明了弱反饋學習仍會收斂。文獻[24]中描述了一種新的交互式機器翻譯方法,它能夠使用基于短語和層次翻譯模型,并在統一的統計框架中集成錯誤校正。
另外,為了保證用戶的交互體驗,實時用戶交互系統應當具有高效的搜索技術,如Word-graph 表示和維特比算法。為了獲得快速的響應,文獻[25]中使用單詞假設圖作為一種有效的搜索空間表示,對當前的翻譯前綴進行擴展。文獻[26]中允許翻譯人員提供除前綴外的多個正確片段(cf),這些片段作為解碼的正約束,同時為了適應這種新的交互模式,提出了相應的改進方法。
交互式統計機器翻譯方法在很大程度上促進了機器翻譯領域的發展,進一步提升了交互式機器翻譯方法的性能,而隨著深度學習和神經機器翻譯的發展,INMT便自然產生了。
神經機器翻譯模型的解碼過程是通過在每個時間步生成一個標記(Token),直到遇到句子結束符“〈EOS〉”標記為止,每個標記都以之前生成的標記作為歷史信息,進而指導下一個標記的生成。在這個過程中,交互式預測非常容易集成到標準的機器翻譯中:在下一個標記生成的上下文語境中,可以不使用翻譯模型給出的預測,而是使用專業譯者提供的前綴中的標記,或者使用用戶給出的反饋來指導模型的更新。
注意力機制作為一種解決信息過載的手段,提出不久就在包括自然語言處理、圖像處理領域的多項任務上得到了大量應用,并取得了非常好的性能提升。文獻[27]中提出了一種新的注意力機制,稱為“交互式注意力”,它通過讀寫操作來模擬翻譯過程中解碼器和源句表示之間的互動,作者對NMT 系統的Decoder 部分進行了改進:引入一個表示t時刻源句子的詞嵌入表示和t時刻Decoder 狀態的中間狀態,同時Decoder 在時刻t的狀態計算也有了改進,另外引入Attentive read 和Attentive write 操作,以便進行交互,Decoder可以根據這種機制自動區分哪些部分已翻譯以及哪些部分未翻譯。在NIST 漢英翻譯任務上的實驗表明,交互式注意力比早先提出的基于注意力的NMT baseline 和一些SOTA 的基于注意力的NMT 變體有明顯的性能提升。
因為當時的機器翻譯系統不能給出令人滿意的翻譯結果,而交互式翻譯系統訓練中需要人工參與,提升用戶的交互體驗和簡化交互協議是提高訓練效率的有效手段,因此文獻[28]中將神經機器翻譯任務整合到互動機器翻譯框架中以提升人機協作,對NMT 的Decoder 進行了簡化,使得提出新的交互協議變得更加簡單,以便為用戶提供更好的體驗,同時系統將獲得更高的生產力,在采用交互式預測機器翻譯后,可以顯著改善經典的基于短語的方法。文獻[29]中則是引入額外的翻譯人員的先驗知識對INMT 系統進行訓練,并且在解碼階段把用戶的糾正信息融入INMT 的Decoder,同時保持當前信息不變,重新解碼操作。
主動學習經常被用于降低數據標注的成本,并且主動學習需要人工交互來對難以劃分的樣本進行標注,因此主動學習非常容易與交互式框架結合。文獻[30]中研究了主動學習技術在交互式神經機器翻譯的無界數據流翻譯中的應用,即從大量的質量不等的源句子流中挑選出值得由交互式神經機器翻譯系統與用戶交互的句子,對模型進行更新。將主動學習技術納入該領域可以減少學習過程中所需要的用戶工作量,同時提高翻譯系統的質量。此外,采用主動學習的交互式神經機器翻譯系統的性能在很大程度上超過了傳統的SOTA 方法。
文獻[31]研究了在后期編輯或互動翻譯過程中NMT 系統的增量更新問題,并指出在在線學習框架下,不論是在訓練階段還是在預測階段,用戶在交互過程中會產生反饋信號,可以收集新的數據以進行訓練,通過在線學習技術,對INMT 模型的更新是即時進行的,這是在線學習的重要優勢。另外,該方法通過一個字符級交互式自適應系統減少獲得高質量翻譯所需的人力成本,這些自適應系統在資源匱乏的情況下也表現良好,INMT 系統可以迅速適應特定的領域。
文獻[32]中探討了在不同翻譯指標上交互式機器翻譯和后期編輯對翻譯系統產生效果的比較。對具有底層神經翻譯系統(NITP)的翻譯生產力的實證研究結果顯示,在一些研究任務中,超過一半的專業譯員選擇使用NITP,與后期編輯相比,翻譯速度更快。
通過改進系統與用戶交互的方式也可以顯著減少用戶的工作量。文獻[33]中,作者介紹了一個交互式機器翻譯界面,該界面通過即時提示和建議來協助用戶的翻譯,用戶僅需要通過鍵盤按鍵(如方向鍵上、下,Tab 鍵,Enter 鍵等)來提供反饋,必要時可以輸入系統提供的候選翻譯的首字母進行交互,這大幅減少了用戶的工作量,也使端到端的翻譯過程更快、更有效,并易于產生高質量的翻譯。圖3 是Microsoft開發的交互式神經機器翻譯系統的用戶交互界面。

圖3 Microsoft開發的INMT系統界面Fig.3 Interface of INMT system developed by Microsoft
CMs 是改進交互方式的一種實現方式,為了保證用戶與機器之間交互的良好體驗和效率,翻譯系統所用的CMs 必須在計算上足夠快,文獻[34]介紹了幾種用于交互式預測神經機器翻譯的快速CMs,這些估計器讓系統通過獲得質量較差的翻譯來實現減少輸入單詞數的目的,在獲得高質量翻譯的同時,需要糾正的單詞數量減少。
文獻[35]介紹的TranSmart 是一個實用的人機互動翻譯系統,它能夠在翻譯質量和效率之間進行權衡。TranSmart還可以通過使用歷史上的翻譯句子作為其記憶來避免類似的翻譯錯誤,該系統支持詞級自動補全、句級自動補全和翻譯記憶三個重要功能,而傳統的交互式翻譯系統只提供單詞級補全,使用更豐富的自動補全和記憶功能可以更有效地幫助用戶提高交互速度。
在交互式神經機器翻譯系統的發展過程中,得益于深度學習在強化學習領域的發展,交互式強化機器翻譯充分結合了IPR、深度學習和強化學習的優點,作為一類重要的方法,與交互式神經機器翻譯一起,促進了機器翻譯領域的發展。
機器翻譯任務是一個Seq2Seq 任務,而序列相關的任務可以建模成一個貫序決策問題:給出一個源句子,然后逐詞依次給出翻譯結果,而下一個待預測的詞往往對歷史信息(即上文已經翻譯出來的詞)產生依賴,因此可以把機器翻譯問題建模成馬爾可夫決策過程。文獻[36]中指出,機器翻譯任務是一個從人類反饋中進行強化學習的自然替代問題:用戶對候選翻譯提供快速、低質的評分,以指導系統進行改進。
文獻[8]中指出,傳統的端到端的神經機器翻譯根據歷史輸出來指導當前候選翻譯的生成,將問題簡化成最大化“正確”標記的對數似然,模型最終學到的分布很可能是一個錯誤的分布,在評估時,模型根據自己學到的知識預測可能的候選翻譯,這可能導致模型本身不正確且預測更不準確的現象,文獻[37-38]的研究表明,最大似然訓練可能是次優的。
強化學習近年來逐漸應用于交互式機器翻譯中,而且強化學習天然地易于集成到交互式機器翻譯過程中。強化學習和用戶交互的結合也出現在其他領域,如在圖像分割的模型訓練任務IteR-MRL[39]中,作者引入用戶交互來給分割模型較差的輸出,指出有問題的點,然后將用戶反饋用于更新模型參數。
文獻[8]中提出了一種范式以結合神經機器翻譯和強化學習,訓練模式如圖4 所示,作者使用Actor-Critic 算法來處理序列生成問題,給定一個Actor 網絡的策略,Critic 網絡用于根據歷史輸出的候選翻譯生成一個新的候選翻譯。這樣就得到了一個更接近測試階段的訓練模型,并可以直接優化特定任務的得分,如 BLEU(BiLingual Evaluation Understudy)[40]。Critic 網絡先通過監督學習方法進行預訓練,隨后在強化學習環境下作進一步訓練,經過預訓練的Critic 網絡知道什么樣的輸出是好的輸出,可以更好地指導Actor 的訓練。這種先經過預訓練再使用強化學習進一步訓練的方法隨后也在其他領域得到應用,文獻[9]也是隨后一些工作的基礎,為強化學習與IMT 的結合提供了靈感。Actor網絡的梯度為:

圖4 將INMT建模成強化學習問題Fig.4 Modeling INMT to RL problem
考慮到獲取翻譯質量的評分比獲取待翻譯文本的目標翻譯要更加容易,但由于評分者的評價標準各異、用戶對翻譯質量評價的任意性,往往導致翻譯系統難以獲取充足的反饋信號,文獻[41]研究了不同類型的用戶Bandit 反饋對使用強化學習進行訓練的NMT 系統的可靠性等因素的影響,并探究了獎勵反饋信號的質量對整個強化學習訓練任務的影響。作者發現,通過精心選擇反饋信號的形式,可以從非專業用戶那里獲得既快速又低成本的反饋信號,并且強化學習方法可以從少量可信度高的人類Bandit 反饋中進行學習,獲得了非常可觀的性能提升。文獻[36]中提出了一種結合了Bandit 結構化預測的強化學習算法,它可以在INMT 系統中模擬人類用戶對翻譯質量的反饋,考慮到人類反饋信號的偏差、高方差、顆粒化差異等特點,通過對人類的反饋行為進行建模,并將該反饋信號作為系統獎勵以訓練翻譯模型,進一步降低了訓練翻譯系統的成本。該算法結合了異步優勢動作評價(Advantage Actor-Critic,A2C)算法[42]和基于注意力的神經Encoder-Decoder 架構,與文獻[8]采用的方法類似,將NMT 系統建模成Actor 模型。
有些交互式機器翻譯系統要求用戶選擇、糾正或刪除候選翻譯片段,以提供足夠的反饋信號來進行模型訓練,文獻[43]中提出了一種交互式預測神經機器翻譯的方法,在一個模擬環境中進行了實驗,使用參考譯文模仿翻譯者,并通過在整個訓練過程僅使用代理對部分翻譯質量進行判斷、設置反饋請求閾值(當候選翻譯的熵達到該閾值后,觸發反饋請求)以及每次交互后模型參數在線更新來減少用戶的參與。模擬實驗表明,與僅對完整翻譯的反饋相比,對部分翻譯的獎勵信號明顯提高了翻譯性能,并且明顯減少了用戶代理的工作量。圖5 為NMT 系統與用戶的交互過程。

圖5 NMT系統與用戶的交互過程Fig.5 Interaction process between NMT system and user
文獻[44]中通過減少反饋請求的數量和頻繁的模型參數更新來減少用戶的參與,利用強化學習和模仿學習進行訓練,用戶在交互式NMT 訓練過程中,利用“保留”和“刪除”等形式的弱反饋(用于強化學習訓練),以及有限的以“替代”編輯形式的專家示范(用于模仿學習)形式反饋信息,NMT 系統通過限制集束搜索以得到可替代的翻譯。
文獻[45]中認為,不同類型的反饋對學習有不同的成本和影響,因此不同的監督信號的重要性也不同。在交互式神經機器翻譯的實驗中,自我調節器(Self-regulators)通過將各種不同的反饋信號混合到一起,包括糾正、錯誤標記和自我監督(對應了完全監督、弱監督和自監督學習),并將梯度形式統一化,根據不同的反饋類型計算對應的梯度,學習到了一個在成本和質量間進行折中的最佳策略,比從單一反饋類型學習的模型和基于不確定性的主動學習模型性價比更高,因為更多的反饋類型提高了模型的泛化能力。
文獻[46]中提出,機器翻譯等Seq2Seq 學習任務可以采用根據弱反饋進行訓練的強化學習,作者提出的算法對TED演講的英?德翻譯進行錯誤標注,可以實現精確的信用分配(Cridit Assignment),同時所需的人力明顯少于糾正或者后期編輯,并且NMT 模型的微調都通過從錯誤修正和標記中學習提升了模型性能,但是錯誤標記所需的人工注釋工作量則少了幾個數量級。
基于置信度的交互式機器翻譯可以有效地減少人工參與,在前人的工作中對CMs 進行了大量的研究,但仍只對翻譯質量進行優化。針對這些缺陷,文獻[47]中提出了一種新型的交互式機器翻譯方法,使用Transformer 構建NMT 模型并進行預訓練,通過使用改進的Actor-Critic 方法對NMT 系統進行訓練,模型學會了預測何時應向用戶請求反饋,同時對翻譯質量和用戶參與的成本進行了優化。該方法可以使用類似或更少的人工參與,在翻譯質量上優于置信度基線。但與標準的NMT 模型相比,該方法的訓練效率相對較低,因此改進訓練效率需要進一步研究。
利用離線強化學習(Offline RL)使用靜態的交互日志來學習一些幫助決策的策略是近年來新興的領域,大量日志數據非常適于離線訓練。用戶與NLP 系統互動的大量日志中可能會隱含很多有用信息,文獻[48]中將離線強化學習引入NLP 任務中,研究這些日志是否可以幫助改進NMT 系統的性能,結果發現NLP 任務在利用用戶交互日志進行系統改進方面有很大的潛力,同時強化學習范式非常容易和交互式學習相結合。作者探討了由于NLP 任務的性質和生產系統的限制出現的一系列的挑戰,對這些挑戰做了一個簡明的概述,并討論了可能的解決方案,為今后研究提供了思路。
結合強化學習的交互式神經機器翻譯方法從另一個角度來看待翻譯問題,利用了強化學習天然適合進行序貫決策問題從而尤其適合機器翻譯的優點,而交互式學習協議在模型訓練過程中引入了用戶反饋,降低了強化學習訓練的難度,大幅促進了交互式機器翻譯的發展。
相較于流行的端到端的機器翻譯系統,交互式機器翻譯的優點在于將Post-Editing 整合到翻譯模型訓練的過程中,可以結合部分的人工交互,達到較為滿意的效果。交互式學習方式同時支持在用戶使用翻譯工具的過程中,收集用戶反饋用于進一步提升模型的性能。交互式學習協議易于整合到機器翻譯模型中,并容易和多種先進的技術相結合,從而使機器翻譯模型達到非常好的性能,該領域具有廣闊的應用前景;難點在于如何進一步降低人工交互的工作量,設計出更接近人類行為的用戶代理,將用戶代理作為人類反饋信號的替代,使整個交互過程盡可能高效,以及如何更好地利用人類譯者的先驗知識,使交互式機器翻譯系統在真實世界中可以更好地利用反饋信號進行學習。