基于深度學習算法的機器自動翻譯質量評估模型

2021-11-10 05:27:06胡仁青

電子設計工程 2021年21期

胡仁青

（西安交通工程學院公共課部，陜西西安710300）

目前，翻譯產品開發人員需要評估翻譯產品的機器自動翻譯質量，分析翻譯產品的使用效果；用戶需要了解哪個翻譯產品的機器自動翻譯質量優秀，以此決定自己需要使用哪個翻譯產品[1-2]。所以，評估機器自動翻譯質量具有十分顯著的意義。

目前，所有翻譯產品的評估都圍繞著某個固定標準來評價產品的某種屬性，評價機器自動翻譯質量的優劣不存在固定的評估標準，所以，高精度評估機器自動翻譯質量存在一定難度。目前，諸多學者對評估機器自動翻譯質量進行了一定研究，例如，吉奕衛[3]為解決機器翻譯處理漢語被動語態的問題，以谷歌翻譯和有道翻譯譯文為例，評估了漢語被動語態的機器翻譯譯文質量；孫逸群[4]為對翻譯軟件進行全面評估并比較其各項指標的具體差異，研究了基于問卷與數據分析的機器翻譯質量評價方法；賀文照等人[5]以谷歌機器翻譯為例對英語關系從句機譯漢語進行了評價。盡管以上學者對評估機器自動翻譯質量進行了一定研究，但仍可以發現，目前的部分評估機器自動翻譯質量方法存在精度較低的問題，為了有效解決這一問題，文中引入了BP 神經網絡算法這一深度學習算法。

深度學習算法中的BP 神經網絡算法能夠以學習訓練機器自動化翻譯譯文中雙語詞的形式，完成對機器翻譯譯文語言向量特征的高精度提取，且能夠實現機器自動翻譯譯文語義質量的高精度評價。為此，文中利用BP 神經網絡算法構建一種基于深度學習算法的機器自動翻譯質量評估模型，在特征提取、質量評估兩個步驟中均使用深度學習算法，實現機器自動翻譯后語言特征的高精度提取、譯文質量的高精度評估。

1 機器自動翻譯質量評估模型

1.1 自動翻譯語言信息提取

設置機器自動翻譯質量為超參數，并以兩種語言為例，使用基于深度學習的機器自動翻譯語言信息提取方法，將兩類語言信息相融。在基于深度學習的機器自動翻譯語言信息提取方法中，學習訓練階段由無監督學習階段與有監督學習階段構成。無監督學習階段主要通過降噪自動編碼機同時對雙語詞進行學習訓練，得到翻譯前后兩種自然語言的雙語語義特征。有監督學習階段把自然語言語料的標準信息導進雙語詞中，實現兩種自然語言的雙語語義特征微調，優化語言向量特征提取效果[6]。

1.1.1 無監督學習階段

無監督學習階段中的學習對象為需翻譯自然語言A 的訓練語料、自然語言翻譯結果B，自然語言翻譯結果B 屬于和自然語言A 存在差異的自然語言。無監督學習階段的學習示意圖如圖1所示。訓練機器自動翻譯樣例y的A 向量YE與B 向量YC，能夠獲取機器自動翻譯樣例y中雙語對齊的樣例對(YE,YC)，其表示雙語詞。使用降噪自動編碼機對雙語詞實施無監督學習，重構獲取樣例y中的A 向量、B 向量。針對樣例y中的B 向量而言，需要重構此樣例的自然語言A 向量、自然語言B 向量，獲取機器自動翻譯樣例中的語言向量特征[7-9]。

圖1 無監督學習階段的學習示意圖

為了優化無監督學習的可靠性，使用降噪自動編碼機對雙語詞實施無監督學習，在重構樣例y中的A 向量、B 向量之前，向樣例對(YE,YC)導入一定程度的噪聲。樣例對(YE,YC)導進噪聲后的向量為降噪自動編碼機作為兩種語言的編碼器，可通過sigmoid 激活函數編碼獲取自然語言A 與自然語言翻譯結果B 的隱式表達kE、kC，為：

其中，gθ與r分別是編碼函數和sigmoid 激活函數；A 與B 互相變換的翻譯矩陣參數分別為VE、VC，VE、VC是具有各自語言特征的雙語詞；因為kE、kC的維度不存在差異，所以自然語言A 與自然語言B 的編碼器共享一種偏移值β。

得到kE、kC后，使用降噪自動編碼機依次對兩類語言的隱式表達進行解碼[10-12]。針對自然語言A 的隱式表達kE而言，文中對自然語言A 與自然語言翻譯結果B 的兩種解碼器實施解碼：將kE依次解碼成自然語言A 的重構向量與自然語言翻譯結果B 的重構向量：

其中，gθ′是解碼函數；dE、dC為兩種自然語言的解碼器偏移量。

隱式表達kC的解碼步驟和隱式表達kE的解碼方法不存在顯著差異，解碼kC可獲取，解碼kE可獲取。

此類編碼、解碼的形式能夠讓一種語言的輸入向量重構至自己原始語言的向量，也能夠將其重構成其他語言的向量[13]。但是兩種自然語言間的信息并不相同，重構時具有重構誤差。針對設置的輸入樣例對(YE,YC)，文中將重構誤差設成交叉熵的模式，將下述5 類重構誤差的和設成無監督學習階段的損失函數：

1）YE重構成翻譯前的語言向量間誤差是p(YE)。

2）YC重構成原向量的誤差是p(YC)。

3）YE重構成翻譯前的語言向量YC的誤差是p(YE,YC)。

4）YC重構成翻譯前的語言向量YE的誤差是p(YC,YE)。

5）兩種自然語言向量對(YE,YC)重構成原始（翻譯前）向量對的誤差是損失函數O為：

在無監督階段中，設定無監督學習的解碼函數為gθ′={VE,VC,dE,dC}，使用梯度下降算法更新解碼函數gθ′，使損失函數O達到最小值，訓練得到VE、VC。

1.1.2 有監督學習階段

有監督學習階段可降低自然語言重構誤差。兩種自然語言向量對(YE,YC)在y中具有兩類語言的全部信息，所以文中將自然語言A、自然語言B 的向量對(YE,YC)使用翻譯變換矩陣(VE,VC)進行實時編碼，獲取隱式表達kβ，kβ中存在此樣例的雙語信息。

其中，β是編碼器的偏移值。

通過kβ運算樣例的正例、負例概率為：

其中，?表示權重；Q1、Q2依次是正例、負例概率。

通過有監督學習，能夠獲取嵌入翻譯信息的變換翻譯矩陣VE、VC，它們均有屬于語言特征的雙語詞，從而優化自然語言向量特征提取的效果。

1.2 基于深度學習的譯文質量評估模型

基于深度學習的譯文質量評估模型由1 個可視層、3 個隱藏層、1 個回歸層構成，可視層的輸入是1.1.1 節中獲取的VE、VC。隱藏層的節點數目都是100，3 個隱藏層依次描述為t1、t2、t3。回歸層即為輸出層，節點數是1。可視層與隱藏層的聯合概率分布是：

其中，Q(t1)、Q(t2)、Q(t3)分別是3 個隱藏層的語言變量分別滿足翻譯需求的概率。

基于深度學習的譯文質量評估模型的評估步驟是：

1）在深度學習網絡中，從上到下實施無監督訓練，將各層均設成一個限制玻爾茲曼機，使用貪婪學習法訓練各層權重，從下往上分層訓練。首層與其他層分別建模成高斯-二進制的限制玻爾茲曼機、二進制-二進制的限制玻爾茲曼機[14]。在限制玻爾茲曼機中，各個可視節點與隱藏節點間不具有連接性，其條件概率分布θ1與聯合概率分布θ2為：

式中，M()、logistic()分別是高斯密度函數與邏輯函數；可視層uj的偏置是fj；t1表示隱藏層節點數是1；j=1,2,3；ε表示標準差。

2）有監督的微調。輸出層按照所輸入的具有各自語言特征的有監督雙語詞VE、VC實行整體微調。

3）回歸。通過無監督訓練與有監督學習能夠獲取每層的權值與偏置，構建輸出譯文特征的回歸模型，使用該模型對機器自動翻譯指令實施評估[15]。模型為：

其中，Ω為機器自動翻譯質量評估結果。

2 仿真實驗

2.1 模型有效性分析

該模型的數據集為某新聞網站的語句，且以中國翻譯協會制定的《翻譯服務規范第1 部分：筆譯》（GB/T 19363. 1-2003）為評價指標標準[16]。使用提出模型對訓練某新聞網站的語句實施翻譯質量評估，該新聞語句詳情如圖2所示。

圖2 新聞語句詳情

如圖2所示，新聞語句經機器自動翻譯完畢后，使用提出模型進行譯文質量評估，評估過程中多種語言的訓練集及測試集的翻譯語句都是5 000 個。語句類型都為從屬復合句。各種譯文類型的翻譯詳情如圖3所示。

圖3 譯文翻譯詳情

測試提出模型對機器自動翻譯質量評估有效性時，測試指標設成評估結果與實際情況的差值。提出模型的評估結果如圖4所示。對比圖3與圖4可知，在提出模型評估下，機器自動翻譯正確語句的數量與實際數量間的差值都是1 個，原因是每種語言都具有各自獨特的語法結構，在此前提下，提出模型評估結果符合現實使用需求，可有效評估機器自動翻譯的質量。

圖4 提出模型評估結果

2.2 翻譯句型對提出模型評估性能的影響

設置機器自動翻譯的語句類型分別是陳述句、特殊用法句、疑問句、并列復合句，以測試提出模型評估機器自動翻譯的翻譯質量，結果如圖5、圖6所示。分析圖5、圖6可知，在不同語言與不同翻譯句型下，提出模型的評估結果和實際情況的差異較小，僅特殊用法句翻譯質量的評估結果存在差值，但差值較小，為1 個。陳述句、疑問句、并列復合句對提出模型的評估效果無影響，評估結果和實際情況一致。

圖5 陳述句與特殊用法句的翻譯質量

圖6 疑問句與并列復合句的翻譯質量

2.3 語句數量對提出模型評估性能的影響

雙語評估候補(Bilingual Evaluation Understudy，BLEU)分數：對于一個給定的句子，有實際翻譯質量信息A1，還有一個提出模型評估的結果A2，對于A2而言，判斷提出模型評估結果A2 中具有多少正確評估結果出現在A1 中，此比率即為BLEU 分數。BLEU分數可對測試集中的單個句子翻譯錯誤進行求和，判斷提出模型的評估性能，結果如圖7所示。分析圖7可知，語句數量對提出模型評估性能不存在顯著影響，語句數量由1 000 個增加至6 000 個時，提出模型的BLEU 分數由96 分增加至98 分，結果表明提出模型的使用性能較好。

圖7 語句數量對該文模型評估性能影響

為了進一步分析提出模型的有效性，將其與文獻[3]、文獻[4]方法進行對比，得到3 種模型的精度對比，如圖8所示。

圖8 不同語句數量下3種方法的精度對比

從圖8可以看出，無論語句數量為1 000、2 000、3 000、4 000、5 000 還是6 000 個，提出模型的機器自動翻譯質量評估精度遠高于另外兩種方法，精度最高可達97%，且更加穩定，具有一定的應用價值。

為了更好地分析提出模型的應用價值，再次對3種模型的質量評價效率進行對比，可得結果如圖9所示。

從圖9可以看出，無論語句數量為1 000、2 000、3 000、4 000、5 000 還是6 000 個，在保證質量評估精度的同時，提出模型的機器自動翻譯質量評估效率遠高于另外兩種方法，質量評價效率最高在95%以上，在一定程度上可以證明提出模型的可行性。

圖9 不同語句數量下3種方法的質量評價效率

3 結論

文中構建了基于深度學習算法的機器自動翻譯質量評估模型，并通過實驗測試了該模型，可知：

1）提出模型認為機器自動翻譯正確語句的數量與實際數量間的差值都是1 個，評估結果準確性較高。

2）在不同語言與不同翻譯句型下，提出模型的評估結果和實際情況差異較小，僅對特殊用法句翻譯質量的評估結果存在差值。

3）隨著語句數量的增多，提出模型的BLEU 分數小幅度增大，最高分為98 分。

綜上所述，提出模型適用于機器自動翻譯質量評估工作中。