李 霞 ,馬駿騰,肖莉嫻,王連喜
(1.廣東外語外貿大學 廣州市非通用語種智能處理重點實驗室,廣東 廣州 510006;2.廣東外語外貿大學 信息科學與技術學院,廣東 廣州 510006;3.廣東外語外貿大學 東方語言文化學院,廣東 廣州 510006)
機器翻譯(machine translation,MT)是將文本從一種語言自動轉換為另一種語言的技術,是自然語言處理的重要研究領域之一。近幾十年來,機器翻譯技術不斷發展,從傳統的統計機器翻譯方法[1-3]到基于端到端的神經機器翻譯方法[4-7],翻譯模型和翻譯效果都取得了顯著提升。
經典的神經機器翻譯模型主要基于編碼器-解碼器結構,是一種基于遞歸神經網絡的變體,常用的編碼器和解碼器網絡單元為LSTM(long short term memory,LSTM)[8]或GRU(gated recurrent unit,GRU)[9],該類模型的優點是能有效捕捉句子單詞的序列信息,較好地處理長序列時梯度消失問題,但它存在不能并行對句子進行編碼的缺點。為此,J.Gehring等[10]提出一種完全基于卷積神經網絡[11]的編碼器-解碼器結構,使得計算可以并行化,并通過疊加多層來表達較大窗口內的上下文信息,取得了較好的翻譯性能。2017年A.Vaswani等[7]提出了使用Transformer結構來構建神經機器翻譯模型,Transformer 拋 棄 了 傳 統的RNN(recurrent neural network)結構,提出和使用自注意力機制,使得它更關注句子本身,從而能夠抽取出更多的信息,進而取得了很好的性能,后續的工作中也陸續出現基于Transformer結構的不同改進工作[12-13]。
近年來,機器翻譯工作也聚焦于融合視覺、聽覺等信息的多模態機器翻譯[14-15],通過結合圖片中的語義信息來輔助文本的語義消歧,進而提升機器翻譯的準確率。……