(太原理工大學國際合作處,山西 太原 030024)
在經濟全球化的大背景下,大量的國際交流合作帶來了機器翻譯的極大需求,這對于機器翻譯的質量也就有了更高的要求。顯然,如何提升機器翻譯的質量是一項重要的研究內容,這就需要對機器翻譯質量進行客觀合理的評價。而目前的機器翻譯評價指標存在著對譯文評分效果較差的情況,因此,有必要對機器翻譯質量估計算法進一步研究,以進行優化改進。
在以往的機器翻譯質量估計的研究中,研究重點主要是對語法相關特征進行提取,以及對語義問題的研究,較為常用的方法是,忽略句子中單詞的順序,將句子轉換為單詞的集合,使用各個單詞的向量平均值對該語句進行編碼,再對編碼后所得到的向量進行拼接,則得到輸入特征。這種方法由于忽略了語句中的單詞順序,因此幾乎無法提取到語句中深層次的含義[1]。由此,循環神經網絡編碼的方式應運而生,目前,較為常用的是GRU 編碼器和解碼器,以實現對語句序列的研究,同時,考慮到機器翻譯領域往往需要較大的常見語言對數據集,因此,通常還需要引入神經網絡機器翻譯模型,來對數據集中的平行語料加以有效利用。整體來看,算法的基本模型分為神經網絡機器翻譯模型和譯文質量估計模型,在輸入特征向量的基礎上,實現最終的質量輸出。
構建語料庫的作用是,識別兩種語言下的短語詞性,并為這些短語賦予基礎功能,以提升自動識別的精確度和速度。在具體的語料庫構建中,通常涵蓋了30萬個中文單詞和28萬個英文單詞,這些單詞能夠構造出大量的語句和短語,基本涵蓋了日常交際、商務、科研等各方面的正常溝通和翻譯。
在語料庫的識別方面,通過詞性標記后,語句就會被劃分為若干個單詞,單詞組成短語后,通過詞性識別,就形成了句法樹,短語中各單詞之間的關系也就得到確定,以確保翻譯的效率和質量得到提高。目前,GLR 算法是詞性識別中較為常用的算法,其主要是根據動態識別表單和無條件轉移語句,實現對短語上下文的似然性的分辨,在GLR 算法中,如發現語法歧義,則會通過句法的幾何結構線性表進行解析,以進行符號識別。以往的GLR 算法在符號識別過程中精確度相對較低,為此,研究人員通過以短語中心點構造短語結構的方式,改進了GLR 算法,使得該算法的識別精度顯著提高[2]。
在翻譯自動識別算法中,由于漢語和外語之間存在較多的結構歧義,因此詞性識別的校正是一個必要的步驟。通常,通過解析線性表的方式進行短語動作和句法功能的識別,對于句法功能的識別則相對較為完善,能夠通過推進、歸納、接受、終止和出錯等指針,對翻譯錯誤進行識別,再利用語料庫中的標記內容對錯誤進行更正[3]。具體來看,歸納和推進指針的作用相類似,都是對終止符位置的重新替換,但歸納指針能夠重新制定句法功能識別。終止指針則會在可能產生結構歧義的節點產生,當終止指針出現后,算法會自動進行分析,確認中心點符號是否位于正確語句結構中,如發現異常則會直接調取出錯指針進行校正。
訓練中所采用的模型由兩部分組成,第一部分是兩個翻譯方向相反的神經網絡機器翻譯模型,第二部分則是QE 模型,其中,第一部分的主要作用是,實現源語言和目標語言之間的相互翻譯,為兩個結構完全相同的NMT 模型,兩個模型之間的向量參數也基本相同。編碼器則為GRU 編碼器,初始狀態為零向量,在計算過程中,先將單詞映射為對應的向量,然后進行輸入和計算,計算完成后輸出結果,并使用解碼器進行解碼,解碼器仍為GRU 解碼器[4]。
該算法的主要訓練過程如下:
(1)對所使用的模型中的所有參數,包括詞向量參數,全部隨機初始化。
(2)對兩個NMT 模型進行交替訓練。具體的交替訓練過程如下:首先,對第一個NMT 模型進行若干個迭代訓練,并將batch 壓入隊列當中,當迭代的batch 達到一定數量后,對第二個NMT 模型進行訓練,依次彈出第一個NMT 模型中所壓入的batch,以用于第二個NMT 模型的迭代訓練,輸出的loss 則為兩個NMT 模型的loss 值的平均數。除了交替訓練的方式外,也可使用聯合訓練的方式,即采用同一個batch對兩個NMT模型進行同時訓練,相對而言,聯合訓練的方式在保證效果的前提下,訓練方式更為簡單快捷,因此應用也相對較多。
(3)NMT 模型訓練完成后,在QE 訓練集上訓練,以得到最終模型。
相關研究表明,要提升譯文質量,其關鍵在于對其源語言和目標語言的語句,但受到QE 模型數據集規模的限制,無法直接通過QE 數據集進行源語言和目標語言之間的復雜對齊關系,因此,通常需要采用額外的數據包或工具加以進行。目前,較為常見的對齊方式是SMT 中的硬對齊方式,并采用特殊結構,對NMT 模型中的對齊模型進行改進。
該對齊模型主要分為用于最終預測的Word-level QE模型和提供對齊信息的NMT 模型,其中,預測模型主要用于輸入源語句和對應的機器翻譯譯文信息等,所輸入的目標語句向量則由目標端單詞詞向量、目標端單詞左邊和右邊單詞的詞向量以及目標端三個單詞所對應的POS 向量等。同時,該模型還存在著隱層,隱層又可分為若干個子層,分為以下幾個結構:兩個前向全連接層;雙向的GRU;一個BiGRU。
在模型的輸入階段,需要目標端每個單詞與源語言語句中的單詞均對齊,因此,需要使用特殊的NMT 模型提供對齊信息,該NMT 模型的原理是,對目標端語句的單詞提供所對應的注意力信息,來提高對齊的概率。在NMT 模型的編碼器部分,主要采用雙向循環神經網絡提供目標端單詞的上下文信息,解碼器部分同樣采用雙向循環神經網絡,以獲得更為準確的對齊信息。
具體的測評工作主要針對算法的短語識別精度、識別速度和更新能力三個方面進行。測評工作小組則由機器翻譯、翻譯人員和打分人員組成,并使用封閉測評和開發測評兩種工作方式。在評分過程中,識別速度和更新能力需要采用加權平均值法進行賦分。根據相關的測評結果,可以發現,不同算法模型的翻譯質量取決于Word-level QE 模型的效果,由此可見,采用Word-level QE 模型進行機器翻譯任務是行之有效的。與此同時,實驗中也發現,Word-level QE 模型無論是否進行了改進,其效果都同以往的直接編碼方式相比有了顯著提升。
在機器翻譯不斷發展的情況下,研究人員對于機器翻譯質量的估計算法也有了更為深入的研究,在以往的基礎上,將評價指標側重于句子級別的機器翻譯,提高了估計算法的評測準確度。當然,在目前的研究和實驗中,融合翻譯知識的特征仍然存在著一定的局限性,因此,在今后的研究中,應當進一步結合其他的有效特征,以不斷提高機器翻譯質量估計的準確性。