999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

序列-序列模型注意力機制模塊基本原理探究

2020-01-13 07:48:14馬春鵬趙鐵軍
智能計算機與應用 2020年1期
關鍵詞:機制模型

馬春鵬, 趙鐵軍

(哈爾濱工業大學 計算機科學與技術學院, 哈爾濱 150001)

0 引 言

在基于序列-序列模型的神經網絡機器翻譯中,編碼器和解碼器的神經網絡結構有很多。常見的結構包括循環神經網絡[1-2]、卷積神經網絡[3]、自編碼神經網絡[4]等等。雖然模型的結構有所不同,但是注意力機制模塊在各個模型中都存在。

對于機器翻譯任務來說,注意力矩陣表示了目標語言句子和源語言句子之間的對應關系。因其與詞對齊之間的高度相關性,因此通常被當作是一種概率形式的詞對齊模型[5-6]?;谶@種思路,有一些研究表明,令詞對齊矩陣與真正的詞對齊盡量相似,能夠提升神經網絡機器翻譯的性能[7-9]。對于基于卷積神經網絡的機器翻譯系統來說,詞對齊矩陣的可視化輸出也表明了其與詞對齊之間的相似性(例如,文獻[3]的圖3)。

研究又發現,對于自編碼神經網絡(也被稱為Transformer),注意力矩陣與詞對齊之間差異很大。例如,在圖1中,基于自編碼神經網絡的模型的注意力矩陣并沒有捕捉到英語和漢語單詞之間的對應關系,而基于循環神經網絡的模型的注意力矩陣與正確的詞對齊具有很高的相關性。而且,對于自編碼神經網絡,這種與詞對齊的差異十分普遍。后文會給出關于這一事實的定量分析。

研究觀察到的這些現象與之前的關于神經網絡機器翻譯的研究是矛盾的。之前的研究普遍認為,神經網絡機器翻譯模型是通過注意力矩陣模塊學習詞對齊的。因此,為什么基于自編碼網絡的神經機器翻譯模型的注意力矩陣與詞對齊有很大的差異,是一個很值得研究的問題。后文將會對這個問題做出解答。實驗結果驗證了提出的論述,同時,通過向基于自回歸網絡的神經機器翻譯模型中加入若干新的模塊,即能使其正確地學習到詞對齊。

(a) 真正的詞對齊矩陣 (b) 基于循環神經網絡的模型 (c) Transformer

(a) True word alignment (b) RNN-based model (c) Transformer

圖1 3個注意力矩陣

Fig. 1 Three attention matrices

1 兩種神經網絡機器翻譯模型的重新表述

為了后文的敘述方便,文中使用同一的數學語言,將2種神經網絡機器翻譯模型(基于循環神經網絡的模型與基于自編碼神經網絡的模型)進行重新表述。對此擬做研究論述如下。

1.1 基于循環神經網絡的機器翻譯模型

基于循環神經網絡的模型在很長一段時間內都是神經網絡機器翻譯的主流模型,并且已經被部署到了大型的商用系統上[10-11]。通過引入注意力機制模塊,機器翻譯的性能超過了傳統的統計機器翻譯方法。

(1)

函數RNN可以是門循環單元或是長短時記憶網絡。下一層的輸入可寫作如下數學形式:

(2)

wt[j]=argmax(softmax(FFNN(Ot[j]))),

(3)

(4)

(5)

向量Cl[j]是Os各個列的加權平均,計算公式具體如下:

(6)

這個被稱作是基于循環神經網絡的注意力機制。這里只描述了一種被廣泛使用的基于循環神經網絡的注意力機制,即文獻[12]提出的點積注意力機制。

1.2 基于自編碼網絡的機器翻譯模型

與基于循環神經網絡的模型相比,基于自編碼網絡的機器翻譯模型最近在速度和精度上都已經超過了前者。這一模型同樣使用了序列-序列模型。與基于循環神經網絡的模型不同,編碼器按照如下的方式計算隱含層的向量,即:

(7)

(8)

下一層的輸入按照如下方式進行計算,即:

(9)

這里,研究考慮了網絡中的殘差連接[13]的情形。

(10)

(11)

(12)

上面的方程中的自注意力機制就是本論文研究的主題。

2 循環神經網絡注意力機制與自編碼網絡注意力機制的比較

文中猜測,對于基于自編碼網絡的機器翻譯系統,注意力矩陣與詞對齊并不相關。為了驗證這一猜測,研究通過實驗比較了2種神經網絡機器翻譯模型在詞對齊任務上的效果。

2.1 實驗配置與基線系統

文中使用LDC數據集來訓練英語-漢語的神經網絡機器翻譯模型。LDC語料庫由以下部分構成:LDC2002E18、LDC2003E07、LDC2003E14、LDC2004T07的Hansards部分、LDC2004T08以及LDC2005T06。合計約140萬平行句對。翻譯性能根據單詞粒度的BLEU得分[14]進行評價。選擇使用NIST MT 2002數據集進行評價。這個數據集含有878個平行句對。

由于在NIST MT 2002中,沒有人工標記的詞對齊信息,因此使用一個人工標注的詞對齊語料庫(THU語料庫,http://nlp.csai.tsinghua.edu.cn/~ly/systems/TsinghuaAligner/TsinghuaAligner.html)來評價詞對齊的學習質量。這個語料庫由英語-漢語平行句對組成,這些句對的詞對齊信息已經被人工標注完畢。每個詞對齊信息都關聯著一個標注人員的確信程度(“確信”或“不確信”)。研究將包含“不確信”的句對全部刪除。為了提升評價的可信性,只評價長句子(即,包含10個詞對齊以上的句子)。最終的THU語料庫包含854個平行句對。需要注意的是,雖然THU語料庫還提供了130萬的平行句對用于訓練一個詞對齊模型,但是只使用了THU語料庫的測試集部分。評價的度量是詞對齊錯誤率(AER)。在評價AER時,研究強制令解碼器輸出參考譯文的單詞,選擇詞對齊矩陣中的最大值作為對齊的源語言單詞,進行評價。

2種神經網絡機器翻譯模型都是基于OpenNMT(http://opennmt.net)[15]實現的。對于基于循環神經網絡的機器翻譯模型,編碼器和解碼器都有2個隱含層,隱含層的單元是長短時記憶網絡。對于自編碼網絡的神經機器翻譯模型,編碼器和解碼器的層數均為6。研究使用了多頭注意力機制,頭的數量為8。同時還使用了層歸一化策略[16]。關于模型的正則化,則使用了下面的方法:標簽平滑[17]和dropout[18]。在優化時,選擇使用了Adam優化算法[19]。

表1給出了基線系統的實驗結果。對于基于自編碼神經網絡的機器翻譯模型,由于采用了多頭注意力機制,詞對齊是通過最后一個頭進行計算的。雖然自編碼網絡的機器翻譯模型的翻譯質量要遠好于另一方,但是注意力矩陣給出的詞對齊的質量要遠差于另一方。

表1 基線系統的實驗結果

2.2 自注意力機制不同頭的效果

之前已經有研究表明,對于多頭自注意力機制來說,調節頭的數量[20]或者對各個頭取平均[21]會對模型的性能產生很大的影響。因此,研究考察了在學習詞對齊的任務上,調節自注意力機制的頭會產生怎樣的影響。

表2給出了自注意力機制的不同頭計算得到的詞對齊錯誤率。由表2可以看到,雖然詞對齊錯誤率各不相同,但是所有的頭都沒有很好地學習到詞對齊。所有的詞對齊錯誤率都要遠高于基于循環神經網絡的機器翻譯模型的注意力模塊計算得到的詞對齊錯誤率(18.9)。

表2 Transformer不同頭的AER

表3給出了調節自注意力機制頭的數量的結果,以及對各個頭取平均的結果。表3中,井號(#)表示頭的數量,“hlast”表示使用最后一個頭計算詞對齊錯誤率,“aver”表示使用所有頭的平均值來計算詞對齊錯誤率。

表3 調節自注意力機制頭數目的效果

Tab. 3 Effects of modifying the number of heads of self-attention mechanism

系統AERBLEU (MT02)BLEU (THU)#=1,hlast31.323.3528.30#=2,hlast27.923.8727.82#=4,hlast30.124.7628.03#=8,hlast28.225.5028.18#=16,hlast29.125.2428.55#=8, aver32.325.5028.18

可以看到,雖然機器翻譯的性能幾乎會隨著頭數量的增加而變好,但是詞對齊錯誤率幾乎不變。對所有頭取平均也不會讓詞對齊錯誤率有所降低。因此,對于基于自編碼網絡的神經機器翻譯模型來說,僅僅調節頭的數目是不夠的,并不能夠讓模型學習到很好的詞對齊。

2.3 訓練階段模型的演化

圖2給出了單詞粒度的BLEU得分與詞對齊錯誤率在訓練過程中的變化情況。BLEU得分是在NIST MT 02語料庫上測試得到的,詞對齊錯誤率是在THU語料庫上測試得到的。正如研究前期預想的那樣,2個模型的BLEU得分都會隨著訓練的進行而逐漸升高,并且基于自編碼網絡的機器翻譯模型會得到更好的翻譯效果。然而,自編碼網絡的神經機器翻譯模型的詞對齊錯誤率要比基于循環神經網絡的模型更高,并且會隨著訓練的進行而變得越來越高,也就是說詞對齊的效果會越來越差。這就為前文的猜想提供了一個證據,即,基于自編碼神經網絡的神經機器翻譯系統的注意力矩陣并不是詞對齊。

圖2 AER與單詞粒度BLEU得分的演化過程

2.4 有監督注意力機制方法的效果

遵循文獻[8]的做法,研究使用金標準的詞對齊來引導模型的訓練。對于基于自編碼網絡的神經機器翻譯系統,只對多頭自注意力機制的最后一個頭進行引導。具體地,首先將金標準的詞對齊轉化為0-1的矩陣,再使用一個服從正態分布N(0,0.5)的高斯濾波器對矩陣進行平滑。然后,在訓練時,將在損失函數中加入下面一項。具體如下:

(13)

其中,A*是平滑后的金標準詞對齊矩陣,A是神經網絡機器翻譯模型學習得到的注意力矩陣。

對于文中的實驗,LDC訓練語料庫的金標準詞對齊矩陣是使用GIZA++(http://www.fjoch.com/GIZA++.html)工具得到的。表4給出了有監督注意力機制方法的實驗結果。對于基于循環神經網絡的機器翻譯模型,使用有監督注意力機制的方法,詞對齊的錯誤率有所降低,機器翻譯的性能有所提升。然而,對于基于自編碼神經網絡的機器翻譯模型,使用有監督注意力機制的方法,雖然詞對齊的錯誤率得到了大幅度的降低,但是機器翻譯的性能受到了很大程度的損害。這就證明了本次研究中的假設:自編碼神經網絡的機器翻譯模型的注意力矩陣與詞對齊是有很大差異的,因此金標準的詞對齊會誤導訓練過程的進行。

表4 有監督注意力機制的實驗結果

3 自注意力機制與詞對齊不匹配的原因

通過上述實驗分析,一個很自然的問題就是:為什么自注意力機制與詞對齊不存在對應關系。這就是本節所關注的問題。

3.1 暴露范圍的不同

當計算編碼器的表示時,除了表面上使用的具體數學公式有所不同外,研究發現,其根本性的不同在于暴露范圍的不同。

(14)

(15)

這種計算方式被稱作后向編碼遮罩。編碼器的其它層也可以按照類似的方式進行計算。

表5給出了添加編碼遮罩的實驗結果。星號表示實驗結果具有統計顯著性。由表5可以看到,雖然詞對齊的錯誤率仍然要高于基于循環神經網絡的機器翻譯模型,但是通過添加編碼遮罩的方式,確實能夠讓基于自編碼網絡的機器翻譯模型學習到更好的詞對齊。此外,雖然編碼遮罩減少了編碼器所使用的信息,但是在THU語料庫上的翻譯效果并沒有受到太大的影響。對于NIST MT 02語料庫,BLEU得分在一定程度上甚至還有所上升,這一點就超出了設計預期。因此,分析后可知,暴露范圍的不同確實是造成自編碼網絡的神經機器翻譯模型無法成功學習到詞對齊的原因之一。

表5 加入編碼遮罩的效果

3.2 依賴關系的不同

(16)

表6給出了在編碼器或解碼器的最后一層上方添加循環神經網絡層的效果。研究選擇的循環神經網絡是雙向的長短時記憶單元網絡。表6中的井號(#)表示循環神經網絡的層數,星號表示實驗結果具有統計顯著性。

表6 添加雙向循環神經網絡的結果

從實驗結果中,可以看到,在編碼器或解碼器一側添加循環神經網絡并沒有顯著的差別。隨著循環神經網絡層數的增加,模型可以學習到更好的詞對齊。而且,在大多數情形下,機器翻譯的效果都有所提升。這個實驗就證明了,依賴關系的不同也是造成基于自編碼網絡的機器翻譯系統無法學習到優質詞對齊的原因之一。

4 結束語

研究發現Transformer的注意力機制矩陣并不對應于詞對齊。研究設計了多組實驗,通過實驗數據,定量地證明了這一點。同時,分析給出了這個現象的原因,并且提出了2種方法,使其能夠成功地學習到詞對齊。

猜你喜歡
機制模型
一半模型
構建“不敢腐、不能腐、不想腐”機制的思考
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
自制力是一種很好的篩選機制
文苑(2018年21期)2018-11-09 01:23:06
定向培養 還需完善安置機制
中國衛生(2016年9期)2016-11-12 13:28:08
3D打印中的模型分割與打包
破除舊機制要分步推進
中國衛生(2015年9期)2015-11-10 03:11:12
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
注重機制的相互配合
中國衛生(2014年3期)2014-11-12 13:18:12
主站蜘蛛池模板: 久久国产精品夜色| 色综合日本| 亚洲欧美不卡| 美女亚洲一区| 免费观看成人久久网免费观看| 男人天堂亚洲天堂| 高清精品美女在线播放| 亚洲国产看片基地久久1024| 亚洲综合经典在线一区二区| 亚洲av综合网| 亚洲swag精品自拍一区| 久久亚洲国产视频| 好紧好深好大乳无码中文字幕| 亚洲免费黄色网| …亚洲 欧洲 另类 春色| 538精品在线观看| 欧美va亚洲va香蕉在线| 亚洲免费播放| 午夜一区二区三区| 久久综合丝袜长腿丝袜| 欧美日韩免费观看| 国产成人啪视频一区二区三区| 国产在线自在拍91精品黑人| 亚洲最大综合网| 中文字幕资源站| 国产精品亚洲精品爽爽| 日本精品视频| 久久91精品牛牛| 亚洲AⅤ波多系列中文字幕| 亚洲无码A视频在线| 国产成熟女人性满足视频| 青青操国产| 午夜综合网| 999国产精品| 亚洲欧美另类日本| 国产精品对白刺激| 午夜人性色福利无码视频在线观看| 国产男女免费完整版视频| 波多野结衣无码中文字幕在线观看一区二区 | 毛片大全免费观看| 久久香蕉国产线看精品| 精久久久久无码区中文字幕| 国产永久免费视频m3u8| 亚洲欧洲一区二区三区| 真实国产精品vr专区| 91丝袜在线观看| 日本伊人色综合网| 红杏AV在线无码| 欧美日韩北条麻妃一区二区| 五月婷婷亚洲综合| 无码高潮喷水在线观看| 精品1区2区3区| 午夜性爽视频男人的天堂| 欧美福利在线| 久久免费视频播放| 国内精品自在自线视频香蕉| 免费激情网站| 国产精品自拍露脸视频| 日本精品视频| 国内精品小视频在线| 国产毛片不卡| 啊嗯不日本网站| 中文字幕免费视频| 在线观看国产黄色| 一级做a爰片久久毛片毛片| 99在线免费播放| 在线无码私拍| 国产女人18水真多毛片18精品 | 久久精品亚洲专区| 亚洲精品中文字幕午夜| 精品久久久久久中文字幕女 | 日韩欧美国产成人| 园内精品自拍视频在线播放| 成人夜夜嗨| 黄色网页在线观看| 波多野结衣一区二区三区88| 永久免费精品视频| 中字无码av在线电影| 精品国产免费第一区二区三区日韩| 国产精品99久久久久久董美香| 日韩少妇激情一区二区| 午夜激情福利视频|