融合翻譯知識的機器翻譯質量估計算法研究

2021-01-12 00:33:21

數字通信世界 2021年4期

（太原理工大學國際合作處，山西太原 030024）

0 引言

在經濟全球化的大背景下，大量的國際交流合作帶來了機器翻譯的極大需求，這對于機器翻譯的質量也就有了更高的要求。顯然，如何提升機器翻譯的質量是一項重要的研究內容，這就需要對機器翻譯質量進行客觀合理的評價。而目前的機器翻譯評價指標存在著對譯文評分效果較差的情況，因此，有必要對機器翻譯質量估計算法進一步研究，以進行優化改進。

1 機器翻譯的基礎算法與模型構建

1.1 基本模型簡述

在以往的機器翻譯質量估計的研究中，研究重點主要是對語法相關特征進行提取，以及對語義問題的研究，較為常用的方法是，忽略句子中單詞的順序，將句子轉換為單詞的集合，使用各個單詞的向量平均值對該語句進行編碼，再對編碼后所得到的向量進行拼接，則得到輸入特征。這種方法由于忽略了語句中的單詞順序，因此幾乎無法提取到語句中深層次的含義[1]。由此，循環神經網絡編碼的方式應運而生，目前，較為常用的是GRU 編碼器和解碼器，以實現對語句序列的研究，同時，考慮到機器翻譯領域往往需要較大的常見語言對數據集，因此，通常還需要引入神經網絡機器翻譯模型，來對數據集中的平行語料加以有效利用。整體來看，算法的基本模型分為神經網絡機器翻譯模型和譯文質量估計模型，在輸入特征向量的基礎上，實現最終的質量輸出。

1.2 語料庫的構建和識別

構建語料庫的作用是，識別兩種語言下的短語詞性，并為這些短語賦予基礎功能，以提升自動識別的精確度和速度。在具體的語料庫構建中，通常涵蓋了30萬個中文單詞和28萬個英文單詞，這些單詞能夠構造出大量的語句和短語，基本涵蓋了日常交際、商務、科研等各方面的正常溝通和翻譯。

在語料庫的識別方面，通過詞性標記后，語句就會被劃分為若干個單詞，單詞組成短語后，通過詞性識別，就形成了句法樹，短語中各單詞之間的關系也就得到確定，以確保翻譯的效率和質量得到提高。目前，GLR 算法是詞性識別中較為常用的算法，其主要是根據動態識別表單和無條件轉移語句，實現對短語上下文的似然性的分辨，在GLR 算法中，如發現語法歧義，則會通過句法的幾何結構線性表進行解析，以進行符號識別。以往的GLR 算法在符號識別過程中精確度相對較低，為此，研究人員通過以短語中心點構造短語結構的方式，改進了GLR 算法，使得該算法的識別精度顯著提高[2]。

1.3 自動識別算法的校正

在翻譯自動識別算法中，由于漢語和外語之間存在較多的結構歧義，因此詞性識別的校正是一個必要的步驟。通常，通過解析線性表的方式進行短語動作和句法功能的識別，對于句法功能的識別則相對較為完善，能夠通過推進、歸納、接受、終止和出錯等指針，對翻譯錯誤進行識別，再利用語料庫中的標記內容對錯誤進行更正[3]。具體來看，歸納和推進指針的作用相類似，都是對終止符位置的重新替換，但歸納指針能夠重新制定句法功能識別。終止指針則會在可能產生結構歧義的節點產生，當終止指針出現后，算法會自動進行分析，確認中心點符號是否位于正確語句結構中，如發現異常則會直接調取出錯指針進行校正。

2 融合翻譯知識的機器翻譯算法訓練

2.1 所使用的模型

訓練中所采用的模型由兩部分組成，第一部分是兩個翻譯方向相反的神經網絡機器翻譯模型，第二部分則是QE 模型，其中，第一部分的主要作用是，實現源語言和目標語言之間的相互翻譯，為兩個結構完全相同的NMT 模型，兩個模型之間的向量參數也基本相同。編碼器則為GRU 編碼器，初始狀態為零向量，在計算過程中，先將單詞映射為對應的向量，然后進行輸入和計算，計算完成后輸出結果，并使用解碼器進行解碼，解碼器仍為GRU 解碼器[4]。

2.2 訓練過程

該算法的主要訓練過程如下：

（1）對所使用的模型中的所有參數，包括詞向量參數，全部隨機初始化。

（2）對兩個NMT 模型進行交替訓練。具體的交替訓練過程如下：首先，對第一個NMT 模型進行若干個迭代訓練，并將batch 壓入隊列當中，當迭代的batch 達到一定數量后，對第二個NMT 模型進行訓練，依次彈出第一個NMT 模型中所壓入的batch，以用于第二個NMT 模型的迭代訓練，輸出的loss 則為兩個NMT 模型的loss 值的平均數。除了交替訓練的方式外，也可使用聯合訓練的方式，即采用同一個batch對兩個NMT模型進行同時訓練，相對而言，聯合訓練的方式在保證效果的前提下，訓練方式更為簡單快捷，因此應用也相對較多。

（3）NMT 模型訓練完成后，在QE 訓練集上訓練，以得到最終模型。

3 譯文質量的估計模型及評價

相關研究表明，要提升譯文質量，其關鍵在于對其源語言和目標語言的語句，但受到QE 模型數據集規模的限制，無法直接通過QE 數據集進行源語言和目標語言之間的復雜對齊關系，因此，通常需要采用額外的數據包或工具加以進行。目前，較為常見的對齊方式是SMT 中的硬對齊方式，并采用特殊結構，對NMT 模型中的對齊模型進行改進。

該對齊模型主要分為用于最終預測的Word-level QE模型和提供對齊信息的NMT 模型，其中，預測模型主要用于輸入源語句和對應的機器翻譯譯文信息等，所輸入的目標語句向量則由目標端單詞詞向量、目標端單詞左邊和右邊單詞的詞向量以及目標端三個單詞所對應的POS 向量等。同時，該模型還存在著隱層，隱層又可分為若干個子層，分為以下幾個結構：兩個前向全連接層；雙向的GRU；一個BiGRU。

在模型的輸入階段，需要目標端每個單詞與源語言語句中的單詞均對齊，因此，需要使用特殊的NMT 模型提供對齊信息，該NMT 模型的原理是，對目標端語句的單詞提供所對應的注意力信息，來提高對齊的概率。在NMT 模型的編碼器部分，主要采用雙向循環神經網絡提供目標端單詞的上下文信息，解碼器部分同樣采用雙向循環神經網絡，以獲得更為準確的對齊信息。

具體的測評工作主要針對算法的短語識別精度、識別速度和更新能力三個方面進行。測評工作小組則由機器翻譯、翻譯人員和打分人員組成，并使用封閉測評和開發測評兩種工作方式。在評分過程中，識別速度和更新能力需要采用加權平均值法進行賦分。根據相關的測評結果，可以發現，不同算法模型的翻譯質量取決于Word-level QE 模型的效果，由此可見，采用Word-level QE 模型進行機器翻譯任務是行之有效的。與此同時，實驗中也發現，Word-level QE 模型無論是否進行了改進，其效果都同以往的直接編碼方式相比有了顯著提升。

4 結束語

在機器翻譯不斷發展的情況下，研究人員對于機器翻譯質量的估計算法也有了更為深入的研究，在以往的基礎上，將評價指標側重于句子級別的機器翻譯，提高了估計算法的評測準確度。當然，在目前的研究和實驗中，融合翻譯知識的特征仍然存在著一定的局限性，因此，在今后的研究中，應當進一步結合其他的有效特征，以不斷提高機器翻譯質量估計的準確性。