999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多粒度的蒙漢神經(jīng)機(jī)器翻譯研究

2020-04-18 13:15:02蘇依拉牛向華范婷婷仁慶道爾吉
關(guān)鍵詞:模型

高 芬 蘇依拉 牛向華 趙 旭 范婷婷 仁慶道爾吉

(內(nèi)蒙古工業(yè)大學(xué)信息工程學(xué)院 內(nèi)蒙古 呼和浩特 010080)

0 引 言

神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯[1](Neural Machine Translation,NMT)是用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)機(jī)器翻譯的技術(shù)。NMT與語(yǔ)言無(wú)關(guān),它負(fù)責(zé)把一個(gè)輸入序列轉(zhuǎn)換成為一個(gè)輸出序列[2],輸入序列的基本粒度對(duì)翻譯結(jié)果有一定的影響[3]。

我國(guó)是一個(gè)由56個(gè)民族組成的國(guó)家,蒙古族是重要的組成成員之一。伴隨著“一帶一路”經(jīng)濟(jì)帶的發(fā)展,我國(guó)內(nèi)蒙古自治區(qū)經(jīng)濟(jì)逐漸繁榮,對(duì)外貿(mào)易日益頻繁,越來(lái)越多的企業(yè)與個(gè)人來(lái)到內(nèi)蒙古地區(qū)進(jìn)行貿(mào)易往來(lái)和旅游。因此蒙族與漢族的交流日益頻繁,蒙古語(yǔ)被使用的范圍越來(lái)越廣泛。蒙漢神經(jīng)機(jī)器翻譯的研究有利于蒙漢之間文化融合和信息共享,具有非常重要的理論和應(yīng)用研究?jī)r(jià)值。然而,由于人才和資源的缺乏,蒙漢機(jī)器翻譯的研究還處于相對(duì)比較落后的階段。

蒙古語(yǔ)有傳統(tǒng)的蒙古語(yǔ)和西里爾語(yǔ)蒙古語(yǔ)。本文研究的語(yǔ)料庫(kù)特指的是傳統(tǒng)的蒙古文本和中文文本。傳統(tǒng)的蒙古語(yǔ)屬于阿爾泰語(yǔ)系,漢語(yǔ)屬于漢藏語(yǔ)系,因此兩種語(yǔ)言在形式、特征和構(gòu)成上都有所不同。在蒙文-中文機(jī)器翻譯任務(wù)中,由于蒙漢平行語(yǔ)料缺乏,導(dǎo)致數(shù)據(jù)稀疏性問(wèn)題嚴(yán)重,嚴(yán)重影響了模型的翻譯效果。在神經(jīng)機(jī)器翻譯模型中,詞切分技術(shù)被廣泛應(yīng)用于西方語(yǔ)言的神經(jīng)機(jī)器翻譯中,并取得了良好的效果。因此,語(yǔ)料庫(kù)的切分是預(yù)處理過(guò)程中特別重要的一步。語(yǔ)料庫(kù)粒度的差異導(dǎo)致翻譯結(jié)果差異很大[4]。較大的輸入序列粒度可以保留更完整的局部信息和特征,但可能會(huì)導(dǎo)致數(shù)據(jù)稀疏問(wèn)題嚴(yán)重。使用較小輸入序列粒度可以緩解數(shù)據(jù)稀疏問(wèn)題,但是將丟失大量局部信息和特征。因此,為了在有限的數(shù)據(jù)和硬件資源條件下,提高蒙漢神經(jīng)機(jī)器翻譯系統(tǒng)的性能,考慮合適的切分粒度處理是非常重要的。

1 預(yù)處理

為了選擇合適的翻譯粒度,我們分別在源端蒙語(yǔ)和目標(biāo)端漢語(yǔ)上從詞-詞、詞-子詞、子詞-詞、子詞-子詞這四個(gè)切分方向進(jìn)行實(shí)驗(yàn)。

1.1 詞級(jí)粒度

蒙古文屬于阿爾泰語(yǔ)系[5],它在拼音的方法上與西歐和世界各地的主要拼音文字一樣。下面為蒙文句子:

可以看出,蒙古文句子各個(gè)詞之間由空格隔開(kāi),故蒙文本身就屬于詞級(jí)粒度。

不同于蒙古文句子,漢語(yǔ)句子中沒(méi)有詞的界限,因此在進(jìn)行訓(xùn)練時(shí),一般要將中文進(jìn)行分詞,漢語(yǔ)分詞是按照某種規(guī)則將連續(xù)的中文字符序列進(jìn)行分割。本文的漢語(yǔ)分詞是使用雙向LSTM+CRF來(lái)實(shí)現(xiàn)的。

CRF[6]即條件隨機(jī)場(chǎng),是判別式模型,計(jì)算公式表示為:

(1)

(2)

式中:Z(x)為規(guī)范化因子;tk、sl是特征函數(shù),值取1或者0,當(dāng)滿足特征條件時(shí)取值為1,否則為0,tk依賴于當(dāng)前位置和前一個(gè)位置,sl依賴于當(dāng)前位置;λk、μl是tk、sl對(duì)應(yīng)的權(quán)值。

雙向LSTM+CRF模型網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。

圖1 雙向LSTM+CRF模型網(wǎng)絡(luò)結(jié)構(gòu)圖

圖1中:Ii代表當(dāng)前單詞i以及當(dāng)前單詞左側(cè)上文的信息;ri代表當(dāng)前單詞i以及當(dāng)前單詞右側(cè)下文的信息;Ci代表連接ri和Ii產(chǎn)生的包含上下文信息的單詞i的向量。

雙向LSTM+CRF其實(shí)就是序列標(biāo)注,輸入一個(gè)句子時(shí),首先對(duì)句子進(jìn)行字符嵌入,將得到的結(jié)果輸入給雙向LSTM[7],雙向LSTM輸出當(dāng)前位置對(duì)各詞性的得分,然后加一個(gè)CRF就得到標(biāo)注結(jié)果[8]。CRF層約束了當(dāng)前位置對(duì)各詞性得分加上前一位置的詞性概率轉(zhuǎn)移。CRF層的好處是引入一些語(yǔ)法規(guī)則的先驗(yàn)信息。

(3)

式中:A代表轉(zhuǎn)移矩陣;P代表雙向LSTM網(wǎng)絡(luò)的判別得分。

訓(xùn)練過(guò)程的實(shí)質(zhì)其實(shí)是最大化條件概率P(y|X),P(y|X)是正確詞性序列的條件概率。

(4)

雙向LSTM+CRF分詞后的中文句子如下:

不規(guī)則 多邊形

中文句子經(jīng)過(guò)雙向LSTM+CRF分詞后,一個(gè)中文序列被切分成一個(gè)單獨(dú)的詞。

1.2 子詞級(jí)粒度

子詞粒度切分是利用 Sennrich等[9]開(kāi)發(fā)的subword-nmt開(kāi)源系統(tǒng)進(jìn)行BPE技術(shù)處理。

BPE的思想:將訓(xùn)練語(yǔ)料中的單詞拆分成為更常見(jiàn)的子詞,在文本長(zhǎng)度和詞表大小兩個(gè)方面取得較為平衡的狀態(tài),并且一些低頻單詞的翻譯可以通過(guò)翻譯其中的高頻子詞來(lái)實(shí)現(xiàn)。BPE處理后的分詞后的中文句子如下:

不@@ 規(guī)則 多@@ 邊@@ 形

中文進(jìn)行BPE處理后,由“不規(guī)則”變成了更常見(jiàn)的子詞“不”和“規(guī)則”,“多邊形”變成了更常見(jiàn)的子詞“多”、“邊”和“形”。

BPE處理后的蒙文句子如下:

將詞分割成合適粒度的子詞,能夠讓機(jī)器翻譯模型自動(dòng)學(xué)習(xí)到一些復(fù)雜種類詞的翻譯方式,例如復(fù)合詞、同根詞等。同時(shí),對(duì)蒙古文詞進(jìn)行細(xì)粒度切分,可以挖掘其中包含的隱藏信息,使得神經(jīng)機(jī)器翻譯模型從更小的層面來(lái)學(xué)習(xí)蒙古文到漢文的翻譯。

2 神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯模型

2.1 基于LSTM的蒙漢神經(jīng)機(jī)器翻譯模型

LSTM[11]是RNN的一種特殊形式,它有能力學(xué)習(xí)長(zhǎng)期依賴關(guān)系,LSTM可以默認(rèn)記住長(zhǎng)時(shí)間以前的信息。

門(mén)是一種讓信息選擇性通過(guò)的方式,它由一個(gè)Sigmoid神經(jīng)網(wǎng)絡(luò)層和一個(gè)逐點(diǎn)相乘操作組成。Sigmoid層輸出{0,1}之間的數(shù)字,表示每個(gè)組件有多少信息允許通過(guò)。0表示不允許信息通過(guò),1表示讓所有信息通過(guò)。

一個(gè)LSTM核心部件有3個(gè)這樣的門(mén),分別為遺忘門(mén)、更新門(mén)和輸出門(mén)。

(1) 遺忘門(mén):決定對(duì)于之前狀態(tài)Ct-1是留下還是去除,其通過(guò)輸入xt和上一層的隱藏狀態(tài)ht-1來(lái)決定是否需要保留之前的狀態(tài)。

ft=σ(Wf·[ht-1,xt]+bf)

(5)

it=σ(Wi·[ht-1,xt]+bi)

(6)

(7)

(8)

(3) 輸出門(mén):決定隱藏狀態(tài)ht的輸出值。

ot=σ(Wo[ht-1,xt]+bo)

(9)

ht=ot×tanh(Ct)

(10)

式(5)-式(10)中:x表示輸入向量;t表示時(shí)刻;h表示隱藏層節(jié)點(diǎn)向量;f表示遺忘門(mén)的輸出;σ為sigmod函數(shù);W為參數(shù)矩陣;b為偏置值;C表示狀態(tài)。LSTM的結(jié)構(gòu)如圖2所示。

圖2 LSTM結(jié)構(gòu)圖

2.2 基于Transformer的蒙漢神經(jīng)機(jī)器翻譯模型

Transformer[12]是端到端的Seq2Seq[13]結(jié)構(gòu),它已基本取得了目前神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯最好的效果,完全使用注意力機(jī)制。

注意力機(jī)制的本質(zhì)來(lái)自源于人類的視覺(jué)注意力機(jī)制。注意力機(jī)制函數(shù)可以被描述為一個(gè)查詢(Query)到一系列鍵-值對(duì)的映射[14]。注意力機(jī)制原理如圖3所示。

圖3 注意力機(jī)制原理圖

Attention(Query,Source)=

(11)

注意力函數(shù)計(jì)算分為三步:

(1) 將Query和每個(gè)Key進(jìn)行相似度計(jì)算得到權(quán)重;

(2) 使用Softmax函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化處理;

(3) 將權(quán)重和相應(yīng)的鍵值進(jìn)行加權(quán)求和得到最后的Attention。

Transformer包含Encoder和Decoder,如圖4所示。在蒙漢神經(jīng)機(jī)器翻譯中,Encoder負(fù)責(zé)理解蒙文,Decoder負(fù)責(zé)產(chǎn)出中文。編碼器的輸出作為解碼器的輸入。Transformer翻譯模型中,編碼器和解碼器都有多層。首先在編碼器到解碼器的地方使用了多頭自注意力[15]進(jìn)行連接,其實(shí)就和主流的機(jī)器翻譯模型中的注意力一樣,利用編碼器和解碼器注意力來(lái)進(jìn)行翻譯對(duì)齊。然后在編碼器和解碼器中都使用了多頭自注意力來(lái)學(xué)習(xí)文本的表示。

圖4 Transformer結(jié)構(gòu)簡(jiǎn)圖

編碼器結(jié)構(gòu)圖如圖5所示,在Transformer翻譯模型中,編碼器有6層,每一層包含2個(gè)子層。

圖5 編碼器

解碼器結(jié)構(gòu)圖如圖6所示,在Transformer翻譯模型中,解碼器也有6層,它和編碼器的不同之處在于解碼器多了一個(gè)Encoder-Decoder Attention,編碼器Attention用于計(jì)算輸入權(quán)值,解碼器 Attention用于計(jì)算輸出權(quán)值。

圖6 解碼器

自注意力表示當(dāng)前翻譯和已經(jīng)翻譯的前文之間的關(guān)系。在自注意力中,Key=Value=Query,Key、Value、Query分別是編碼器層的輸出(Key=Value)和解碼器中多頭注意力的輸入。例如在蒙漢翻譯中,輸入一句蒙語(yǔ),那么里面的每個(gè)詞都要和該句子中的所有詞進(jìn)行注意力計(jì)算。目的是學(xué)習(xí)句子內(nèi)部的詞依賴關(guān)系,捕獲句子的內(nèi)部結(jié)構(gòu)。

多頭注意力其實(shí)就是多個(gè)自注意力結(jié)構(gòu)的組合,每個(gè)頭學(xué)習(xí)到的注意力的側(cè)重點(diǎn)不同。多頭注意力的優(yōu)勢(shì)在于進(jìn)行了h次計(jì)算而不僅僅計(jì)算一次,這樣的好處是可以允許模型在不同的表示子空間里學(xué)習(xí)到相關(guān)的信息。

3 實(shí) 驗(yàn)

實(shí)驗(yàn)分別選用了哈佛大學(xué)開(kāi)源的機(jī)器翻譯庫(kù)OpenNMT和谷歌開(kāi)源的機(jī)器翻譯庫(kù)Tensor2Tensor訓(xùn)練標(biāo)準(zhǔn)神經(jīng)網(wǎng)絡(luò)模型,可以更加全面和客觀地驗(yàn)證實(shí)驗(yàn)的有效性和可靠性。OpenNMT是基于LSTM和注意力機(jī)制的機(jī)器翻譯模型。Tensor2Tensor是完全使用注意力機(jī)制來(lái)建模,即基于Transformer的翻譯模型。

在蒙漢翻譯系統(tǒng)中,為了在源端和目標(biāo)端選出合適的輸入序列粒度,本文基于LSTM和Transformer翻譯模型,分別在源和目標(biāo)端上從詞-詞、詞-子詞、子詞-詞、子詞-子詞這四個(gè)切分方向進(jìn)行實(shí)驗(yàn)。圖7為系統(tǒng)結(jié)構(gòu)圖。

圖7 系統(tǒng)結(jié)構(gòu)圖

3.1 實(shí)驗(yàn)設(shè)置

本文使用了CWMT去重校正過(guò)的116 002句對(duì)蒙漢平行語(yǔ)料為訓(xùn)練集,1 500句對(duì)蒙漢平行語(yǔ)料作為驗(yàn)證集,1 000句對(duì)蒙漢平行語(yǔ)料作為測(cè)試集。為了保證訓(xùn)練集和測(cè)試集的數(shù)據(jù)在同一個(gè)分布中,我們先將語(yǔ)料庫(kù)打亂混合在一起,然后再將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

實(shí)驗(yàn)環(huán)境為Ubuntu16.04 Linux系統(tǒng),Python 2.7.0,TensorFlow 1.6.0,PyTorch 0.4.3。使用GPU進(jìn)行訓(xùn)練,提高運(yùn)行速度。

基于LSTM的翻譯模型參數(shù)設(shè)置:編碼器和解碼器中 LSTM 神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)層數(shù)設(shè)置為 2 層,編碼器/解碼器上設(shè)置500個(gè)隱藏單元,選擇tanh()為激活函數(shù),Adam[16]為優(yōu)化算法,Dropout 設(shè)置為 0.3,迭代步數(shù)train_steps=100 000,學(xué)習(xí)率初始值learning_rate= 0.1,學(xué)習(xí)率衰減速率設(shè)置為 1,batch_size設(shè)置為64句。選擇 BLEU 值作為翻譯譯文質(zhì)量的評(píng)測(cè)指標(biāo)。

基于Transformer的翻譯模型參數(shù)設(shè)置:Transformer的神經(jīng)網(wǎng)絡(luò)層數(shù)Nx=6,多頭注意力為8,隱藏層大小設(shè)置為512,過(guò)濾器大小設(shè)置為2 048。選擇Adam優(yōu)化算法。學(xué)習(xí)率初始值learning_rate= 0.6,采用學(xué)習(xí)率衰減策略[12]。解碼過(guò)程采用集束搜索策略,beam width=4。迭代步數(shù)train_steps=100 000,batch_size設(shè)置為4 096詞,選擇BLEU值作為翻譯譯文質(zhì)量的評(píng)測(cè)指標(biāo)。

3.2 實(shí)驗(yàn)結(jié)果

表1統(tǒng)計(jì)了四組不同切分粒度下,在相同的訓(xùn)練語(yǔ)料中詞典規(guī)模的大小。可以看出,經(jīng)過(guò)BPE處理后,詞典大小明顯減少。子詞切分粒度縮小了詞典大小,進(jìn)而減少了計(jì)算量。

表1 不同粒度的詞典大小統(tǒng)計(jì)結(jié)果

從表2和表3可以看出,無(wú)論是基于LSTM翻譯模型還是基于Transformer翻譯模型,單獨(dú)對(duì)蒙文或者中文進(jìn)行子詞粒度的切分,對(duì)翻譯效果提升影響不大,但是同時(shí)對(duì)蒙文和中文進(jìn)行子詞粒度的處理,能顯著提高翻譯效果。在LSTM蒙漢神經(jīng)機(jī)器翻譯系統(tǒng)中,對(duì)中文和蒙文同時(shí)進(jìn)行子詞粒度處理比詞級(jí)粒度翻譯系統(tǒng)提高2.59個(gè)BLEU值。在Transformer蒙漢神經(jīng)機(jī)器翻譯模型中,對(duì)中文和蒙文同時(shí)進(jìn)行子詞粒度處理比詞級(jí)粒度翻譯模型提高了4.12個(gè)BLEU值。實(shí)驗(yàn)結(jié)果同時(shí)也表明,Transformer翻譯模型性能更優(yōu)于LSTM翻譯模型,BLUE值大約高3~5。

表2 不同粒度在LSTM翻譯模型的表現(xiàn)

表3 不同粒度在Transformer翻譯模型的表現(xiàn)

4 結(jié) 語(yǔ)

對(duì)語(yǔ)料進(jìn)行粒度切分,能夠減少低頻詞的數(shù)量,緩解數(shù)據(jù)稀疏,且對(duì)于平行語(yǔ)料稀缺的蒙漢神經(jīng)機(jī)器而言尤其重要。本文實(shí)驗(yàn)結(jié)果表明,對(duì)語(yǔ)料進(jìn)行一定粒度切分可以提升機(jī)器翻譯系統(tǒng)的翻譯質(zhì)量。

下一步擬將蒙古文字符引入蒙漢神經(jīng)機(jī)器翻譯中。蒙古文詞都是由基本的蒙古文字符組成,并且其組成具有一定的詞法規(guī)律[17],將蒙古文切分為蒙古文字符進(jìn)行機(jī)器翻譯粒度的輸入,機(jī)器翻譯模型就可以學(xué)習(xí)到這種詞法信息,大部分詞法信息與句法信息有所關(guān)聯(lián),因此有助于提高翻譯系統(tǒng)的翻譯效果。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产成+人+综合+亚洲欧美| 成人精品免费视频| 直接黄91麻豆网站| 欧美一区二区自偷自拍视频| 一级片一区| 亚洲国产天堂在线观看| 久久青草视频| 国产精品无码一二三视频| 中文字幕久久波多野结衣| 国产成人永久免费视频| 婷婷五月在线| 精品久久国产综合精麻豆| 亚洲人成网站在线播放2019| 欧美日本一区二区三区免费| 99热这里都是国产精品| 国产特级毛片aaaaaa| 国产激情无码一区二区APP | 青青热久免费精品视频6| 久久亚洲精少妇毛片午夜无码| 欧美日韩精品在线播放| 热久久国产| 黄色福利在线| 97视频在线精品国自产拍| 亚洲丝袜第一页| 免费a在线观看播放| 精品国产一区二区三区在线观看 | 日韩精品毛片| 国产69精品久久久久孕妇大杂乱| 国产精品免费久久久久影院无码| 亚洲—日韩aV在线| 国产毛片一区| 国产黄在线观看| 中日韩欧亚无码视频| 亚洲天堂成人在线观看| 国产福利免费视频| 精品国产美女福到在线不卡f| 久久6免费视频| 亚洲天堂网站在线| 波多野结衣在线se| 萌白酱国产一区二区| 久久精品国产电影| 97在线碰| 精品欧美一区二区三区久久久| 国产成人一二三| 婷婷综合色| 亚洲日韩Av中文字幕无码| 美女潮喷出白浆在线观看视频| 爽爽影院十八禁在线观看| 亚洲综合二区| 91在线播放国产| 欧美精品亚洲精品日韩专区va| 无码乱人伦一区二区亚洲一| 91色爱欧美精品www| 久久这里只有精品免费| 国产精品v欧美| 动漫精品啪啪一区二区三区| 久久久久免费看成人影片 | 欧美精品1区| 亚洲中文无码av永久伊人| 中文成人在线视频| 亚洲欧美另类色图| 熟妇丰满人妻| 国产精品第一区在线观看| 免费A级毛片无码无遮挡| 在线免费a视频| 久久77777| 色哟哟国产成人精品| 99re66精品视频在线观看| 手机永久AV在线播放| 国产黄视频网站| 亚洲色婷婷一区二区| 免费在线视频a| 四虎永久免费在线| 国产精品短篇二区| 在线五月婷婷| 免费一级大毛片a一观看不卡| 亚洲三级视频在线观看| 久久精品嫩草研究院| 99手机在线视频| 色屁屁一区二区三区视频国产| 成人午夜免费观看| 亚洲日本中文字幕乱码中文|