999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DNN與規(guī)則學(xué)習(xí)的機器翻譯算法研究

2021-02-22 11:34:28陶媛媛
計算機測量與控制 2021年1期
關(guān)鍵詞:單詞模型

陶媛媛,陶 丹

(1.西安交通大學(xué)城市學(xué)院,西安 710000; 2.西安市曲江第一中學(xué),西安 710000)

0 引言

隨著翻譯需求的增加,信息技術(shù)與語言學(xué)理論以及人工智能研究中自然語言理解模型的蓬勃發(fā)展,使得機器翻譯逐漸受到了各領(lǐng)域?qū)I(yè)技術(shù)人員矚目[1-3]。Liu等[1]報道并系統(tǒng)地探索使用針對統(tǒng)計機器翻譯(SMT)的深度(多層)神經(jīng)網(wǎng)絡(luò)(DNN)學(xué)習(xí)新功能的可能性。為了解決深度信念網(wǎng)絡(luò)中特征學(xué)習(xí)的輸入原始特征太簡單,每個短語對的4個短語特征有限的問題,作者將一些簡單但有效的短語特征作為新的DNN特征學(xué)習(xí)的輸入特征進行了調(diào)整和擴展,并且這些特征已顯示出SMT的顯著改進,例如短語對相似性等。此外,在傳統(tǒng)SMT和神經(jīng)機器翻譯(NMT)中,學(xué)習(xí)源語言的連續(xù)空間表示法已經(jīng)引起了廣泛的關(guān)注。目前已經(jīng)提出了各種模型,主要是基于神經(jīng)網(wǎng)絡(luò)的模型來表示源句子,主要用作編碼器-解碼器框架中的編碼器部分。在解碼過程中僅對源句子的“相關(guān)”部分進行編碼,Devlin等[4]提出的神經(jīng)網(wǎng)絡(luò)聯(lián)合模型(NNJM),該模型擴展了n元語法目標語言模型,通過額外增加源句的固定長度窗口,實現(xiàn)統(tǒng)計機器翻譯的最新性能。實驗結(jié)果表明,與比較模型算法相比,基于深度神經(jīng)網(wǎng)絡(luò)與規(guī)則學(xué)習(xí)的統(tǒng)計機器翻譯模型具有更好的效果,更快的收斂速度和更高的可靠性。深度神經(jīng)網(wǎng)絡(luò)作為一種新的機器學(xué)習(xí)方法,可以自動學(xué)習(xí)抽象特征表示并在輸入和輸出信號之間建立復(fù)雜的映射關(guān)[5-6]。

本文提出了一種新的卷積架構(gòu),以動態(tài)編碼源語言中的相關(guān)信息。該模型涵蓋了整個源句子,可以在目標語言的信息指導(dǎo)下有效地找到并適當?shù)乜偨Y(jié)相關(guān)部分。利用解碼過程中的引導(dǎo)信號,經(jīng)過特殊設(shè)計的卷積體系結(jié)構(gòu)可以查明與預(yù)測目標單詞相關(guān)的源語句部分,并將其與整個源語句的上下文融合在一起以形成統(tǒng)一的表示形式。將之與目標詞一起饋入深度神經(jīng)網(wǎng)絡(luò)(DNN)。聯(lián)合模型的兩個變體tagCNN和inCNN,并在解碼過程中使用了不同的指導(dǎo)信號。聯(lián)合模型集成到最新的依存關(guān)系的字符串翻譯系統(tǒng)中用以評估其有效性,為統(tǒng)計機器翻譯研究提供了新的切入點。

1 方法論

1.1 聯(lián)合語言模型

CNN編碼器的聯(lián)合模型在圖1中進行了說明,其中包括CNN編碼器,即tagCNN或inCNN,以表示源語句中的信息,以及基于NN的模型CNN編碼器的表示和目標句子中的歷史單詞作為輸入來預(yù)測下一個單詞。

在聯(lián)合語言模型中,en表示目標詞的概率,給定前k個目標詞{en-k,…,en-1}和CNN編碼器對源句子S的表示為:

圖1 基于CNN編碼器的聯(lián)合LM的示意圖

例如圖1的示例中,翻譯的中文句子如下。

中文: 智利 舉行 國會 與 總統(tǒng) 選舉;

Pinyin: ZhiLi JuXing GuoHui Yu ZongTong XuanJu。

轉(zhuǎn)換成英語,在評估目標語言順序“holds parliament and presidential”時,以“holds parliament and”作為進行詞(假設(shè)為4-gram LM),而“presidential”的從屬源詞1為“zongtong”(由單詞對齊方式確定),tagCNN產(chǎn)生φ1(S,{4})(“ Zongongong”的索引為4),而inCNN產(chǎn)生φ2(S,{h(holds parliament and)})。之后,DNN組件將“ holds parliament and”和φ1或者φ2作為輸入,以給出下一個單詞的條件概率,例如p(“presidential”|φ1|2,{holds,parliment,and})。

1.2 卷積模型

1.2.1 通用CNN編碼器

從卷積編碼器的通用架構(gòu)開始[7-8],然后繼續(xù)將tagCNN和inCNN作為兩個擴展。

通用CNN編碼器的基本架構(gòu)如圖2所示,其固定架構(gòu)由如下6層組成。

第0層:輸入層,采用嵌入矢量形式的單詞。工作中將句子的最大長度設(shè)置為40個單詞。 對于短于此的句子,常在句子開頭放置零填充。

第1層:第0層之后的卷積層,窗口大小為3。引導(dǎo)信號被注入到該層中作為“引導(dǎo)版本”。

第2層:第1層之后的本地門控層,僅對大小為2的非相鄰窗口中的特征圖進行加權(quán)求和。

第3層:在第2層之后的卷積層,開始執(zhí)行另一個卷積,窗口大小為 3。

第4層:在第3層上對功能圖執(zhí)行全局選通。

第5層:完全連接的權(quán)重,將第4層的輸出映射到該層作為最終表示。

如圖2所示,第1層中的卷積在單詞的滑動窗口(寬度k1)上運行,并且窗口的類似定義會延續(xù)到更高的層。形式上,對于源句子輸入x={x1,…,xN}第L層上的f型特征映射的卷積單位為式(1):

(1)

圖2 CNN編碼器示意圖

1.2.2 門控

相關(guān)文獻中CNN采用簡單的卷積池策略[9],其中“融合”決策是基于要素圖的值。在本質(zhì)上而言,是一種軟模板匹配,適用于諸如分類的任務(wù),但對于保持卷積的合成功能作用不顯著,然而,上述功能對于句子建模至關(guān)重要。本文使用單獨的門控單元從卷積中釋放得分函數(shù)的占空比,并使其更加注重于句子的合成。

采用兩種類型的門控:(1)對于第2層,在第1層卷積的特征圖上采用不重疊窗口的局部門控,以表示段;(2)對于第4層卷積,采用全局選通融合所有片段以實現(xiàn)全局表示。 并發(fā)現(xiàn),這種選通策略可以顯著改善tagCNN和inCNN的池化性能。

1)本地門控:在第1層上,對于每個門控窗口,首先在第0層上找到其原始輸入(卷積之前),然后將它們合并為門控網(wǎng)絡(luò)的輸入。 例如,對于兩個窗口:第0層上的單詞(3,4,5)和單詞(4,5,6),使用由嵌入單詞(3,4,5,6)組成的串聯(lián)矢量作為輸入本地門控網(wǎng)絡(luò)的輸入以確定兩個窗口(在第1層上)的卷積結(jié)果的權(quán)重,而加權(quán)和是第2層的輸出。

(2)

1.2.3 CNN編碼器訓(xùn)練

CNN編碼器訓(xùn)練過程與神經(jīng)網(wǎng)絡(luò)語言模型的訓(xùn)練過程相同,除了使用并行語料庫而不是單語語料庫外,力求最大程度地提高訓(xùn)練樣本的對數(shù)似然性,并為平行語料庫中的每個目標單詞提供一個樣本[10]。優(yōu)化是通過常規(guī)的反向傳播來實現(xiàn)的,該實現(xiàn)是使用小批量的隨機梯度下降實現(xiàn)的。

1.2.4 inCNN

2 聯(lián)合模型解碼

本文的聯(lián)合模型純粹是詞匯化的,因此可以作為功能集成到任何SMT解碼器中[11-12]。對于分層SMT解碼器,采用了Devlin等人提出的集成方法。正如從用于執(zhí)行分層解碼的n-gram語言模型繼承的那樣,應(yīng)將每個組成部分中最左邊和最右邊的n-1個單詞存儲在狀態(tài)空間中。通過擴展狀態(tài)空間,以包括這些邊詞中每個詞的關(guān)聯(lián)源詞的索引。對于對齊的目標詞,將其對齊的源詞作為其關(guān)聯(lián)的源詞。對于未對齊的單詞,同樣使用Devlin等人采用的從屬關(guān)系啟發(fā)式方法。在本文中,將聯(lián)合模型集成到最新的依賴項到字符串機器翻譯解碼器中,作為案例研究來測試提出的方法的有效性。本節(jié)簡要描述依賴項到字符串的轉(zhuǎn)換模型與MT系統(tǒng)。

本文使用一般的對數(shù)線性框架。令d為將源依賴關(guān)系樹轉(zhuǎn)換為目標字符串e的推導(dǎo)。d的概率定義為式(2):

(2)

其中:φi是在導(dǎo)數(shù)上定義的特征,λi是相應(yīng)的權(quán)重。其中解碼器包含以下功能。

1)基準功能:

HDR規(guī)則的翻譯概率P(t|s)和P(s|t);HDR規(guī)則的詞法翻譯概率PLEX(t|s)和PLEX(s|t);偽翻譯規(guī)則懲罰exp(-1);目標詞懲罰exp(|e|);n元語法模型PLM(e)。

2)提出功能:

n-gram tagCNN聯(lián)合語言模型PLEX(e);CNN聯(lián)合語言模型PLEX(e)中的n-gram。

3 實際應(yīng)用

3.1 數(shù)據(jù)獲取與預(yù)處理

1)數(shù)據(jù)獲取:本文的培訓(xùn)數(shù)據(jù)是從LDC數(shù)據(jù)中提取的[13]。僅保留源對部分長度不超過40個單詞的句子對,該句子對覆蓋了90%以上的句子。雙語訓(xùn)練數(shù)據(jù)由221 k句子對組成,其中包含500萬個中文單詞和680萬個英文單詞。經(jīng)過長度限制過濾后,開發(fā)集為NIST MT03(795個句子),測試集為MT04(1499個句子)和MT05(917個句子)。

2)預(yù)處理:使用GIZA ++在語料庫上使用“增長-確定-最終和”平衡策略[14],在兩個方向上獲得單詞對齊。并采用SRI語言建模工具包在英語Gigaword語料庫(3.06億個單詞)的新華語部分上訓(xùn)練了經(jīng)過改進的Kneser-Ney平滑處理的4-gram語言模型。隨后使用Stanford Parser將中文句子解析為映射依賴樹。

4)指標:本文使用不區(qū)分大小寫的4-gram NIST BLEU3作為評估指標,在提出的模型和兩個基準之間進行帶有標志檢驗的統(tǒng)計學(xué)顯著性檢驗。

3.2 設(shè)置模型比較

將tagCNN和inCNN聯(lián)合語言模型用作依賴項到字符串基線系統(tǒng)(Dep2Str)的附加解碼功能,并將它們與具有11個源上下文詞的神經(jīng)網(wǎng)絡(luò)聯(lián)合模型進行比較。除了全局設(shè)置外,還使用具有默認配置的開源工具包。由于本文提出的tagCNN和inCNN模型是從源到目標和從左到右的(在目標側(cè)),因此,僅采用源到目標和從左到右的NNJM類型進行比較。以下將這種類型的NNJM稱為BBN-JM。盡管Devlin等人中的BBN-JM最初是在基于分層短語的SMT和字符串到依賴關(guān)系SMT中進行測試的,但它可以很容易地集成到Dep2Str中。

3.3 實驗結(jié)果與分析

表1給出了不同模型的主要結(jié)果。在進行更詳細的比較之前,可獲得以下信息:

1)基線Dep2Str系統(tǒng)的BLEU比基于開源短語的系統(tǒng)Moses高0.5+。

2)與Dep2Str相比,BBN-JM的得分約為+0.92 BLEU。

從表1可以明顯看出,在相同設(shè)置下,tagCNN和inCNN在Dep2Str基線上的改善幅度為+1.28和+1.75 BLEU,在相同設(shè)置下,其BBN-JM分別優(yōu)于NIST MT04和MT05的平均值+0.36和+0.83 BLEU。這些表明tagCNN和inCNN可以在解碼中分別提供區(qū)分性信息。值得注意的是,inCNN似乎比單詞對齊(GIZA ++)建議的附屬單詞更具信息性。因此,推測這是由于以下兩個事實才成立的:

1)inCNN避免了在已經(jīng)學(xué)習(xí)的單詞對齊方式中錯誤和偽影響的傳播;

2)inCNN中的指導(dǎo)信號提供補充信息以評估翻譯。

此外,當將tagCNN和inCNN都用于解碼時,可以進一步在BBN-JM上的獲勝余量提高到+1.08 BLEU點。

通用CNN還能在BLEU上獲得類似于BBN-JM的增益,因為,通用CNN編碼整個句子,并且表示形式通常應(yīng)遠離聯(lián)合語言模型的最佳表示形式。因此,可能是由于CNN對該句子產(chǎn)生了相當有益的總結(jié),這彌補了其在分辨率和源詞相關(guān)部分上的某些損失。換言之,tagCNN和inCNN中的引導(dǎo)信號對于基于CNN的編碼器的功能至關(guān)重要,這可以從通用CNN,tagCNN和inCNN獲得的BLEU得分之間的差異中看出。對于有了來自已經(jīng)習(xí)得的單詞對齊的信號,tagCNN可以比其通用對應(yīng)詞獲得+0.25 BLEU,而對于inCNN,來自目標單詞的引導(dǎo)信號,其增益更顯著為+0.72 BLEU。

tagCNN可以進一步受益于在輸入中用源語言編碼的依賴關(guān)系結(jié)構(gòu)。依賴項首詞可用于進一步完善tagCNN模型。在tagCNN中,在輸入層中的單詞嵌入后附加一個標記位(0或1)作為它們是否隸屬源詞的標記。為了合并依賴頭信息,本文擴展了標記規(guī)則,為原始tagCNN的詞嵌入添加了另一個標記位(0或1),以指示它是否是附屬詞的依賴頭的一部分。例如,如果xi是相關(guān)源詞的嵌入,而xj是詞xi的依賴頭,則tagCNN的擴展輸入將包含,式(3):

xi(AFF,NON-HEAD)=[xiT,1,0]T

xj(NON-AFF,HEAD)= [xjT,0,1]T

(3)

若從屬源詞是句子的詞根,則由于詞根沒有依賴項頭,因此本文僅將0作為第二個標記位附加。從表2中可以看出,借助依賴項頭信息能夠在兩個測試集上將tagCNN平均提高+0.23 BLEU點。

表2 tagCNN模型的BLEU-4分數(shù)(%)

以inCNN模型的比較為例,研究了門控策略可在多大程度上改善最大池化的翻譯性能。 對于使用最大池的inCNN實施,本文用大小為2(簡稱2池)的最大池替換本地門(第2層),用k個最大池(“第4層”)替換全局門(“第4層”),其中k為{2; 4; 8},然后將k池輸出的平均值用作第5層的最終輸入。這樣可以確保第5層的輸入維與具有門控的架構(gòu)相同。從表3可以看出,門控策略可以比最大合并提高0.34,0.71 BLEU點的翻譯性能。此外還發(fā)現(xiàn)8池收益率性能要優(yōu)于2池。所以推測這是因為翻譯中有用的相關(guān)部分主要集中在源句子的幾個單詞上,可以通過較大的庫大小更好地提取這些單詞。

表3 使用門控策略和k個最大池實施的inCNN>模型的BLEU-4分數(shù)(%)

4 結(jié)束語

本文提出了卷積架構(gòu),以獲取整個源句的引導(dǎo)表示,該卷積架構(gòu)可用于增強n-gram目標語言模型。利用來自目標端的不同指導(dǎo)信號,并設(shè)計了tagCNN和inCNN,兩者都通過增強字符串對依賴關(guān)系的SMT進行了測試,其SMT比基線高+2.0 BLEU點。所提出的模型分別優(yōu)于NIST MT04和MT05的平均值+0.36,+0.83 BLEU,比傳統(tǒng)DNN機器翻譯平均提高了+1.08 BLEU點。該模型為統(tǒng)計機器翻譯方法研究提供了借鑒。

猜你喜歡
單詞模型
What’s This?
Exercise 1
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
主站蜘蛛池模板: 国产成人乱码一区二区三区在线| 高清欧美性猛交XXXX黑人猛交 | 日韩精品成人网页视频在线| AV片亚洲国产男人的天堂| 狂欢视频在线观看不卡| 国产精品视频白浆免费视频| 91精品视频在线播放| 一本色道久久88亚洲综合| 国产成人精品综合| 国产高清在线精品一区二区三区| 一本色道久久88综合日韩精品| 亚洲不卡av中文在线| 91区国产福利在线观看午夜| 国产一级毛片网站| 亚洲色无码专线精品观看| 国产屁屁影院| 久久精品中文字幕免费| 欧美精品v| 国产成人亚洲无吗淙合青草| 91网站国产| 欧美一道本| 欧洲高清无码在线| 久久久久国产精品免费免费不卡| 国产综合网站| 国产成人综合在线视频| 久久久国产精品无码专区| 国产尤物jk自慰制服喷水| 尤物精品视频一区二区三区 | 亚洲视频色图| 国产成人夜色91| 国产精品不卡永久免费| 久久国产成人精品国产成人亚洲| 天天操天天噜| 国产在线观看精品| 免费一级成人毛片| 亚洲精选高清无码| 免费一级毛片在线观看| 国产在线精品网址你懂的| 97国内精品久久久久不卡| 国产主播福利在线观看| 一本色道久久88综合日韩精品| 99热这里只有精品久久免费| 国产在线观看91精品亚瑟| 波多野结衣AV无码久久一区| 男女男免费视频网站国产| 波多野结衣AV无码久久一区| 精品超清无码视频在线观看| 精品无码国产一区二区三区AV| 台湾AV国片精品女同性| 欧美激情视频二区三区| 欧美激情视频一区二区三区免费| 色天堂无毒不卡| 免费在线不卡视频| 精品一区二区三区中文字幕| 亚洲人成日本在线观看| 国产成人精品亚洲日本对白优播| 欧美一区精品| 在线观看国产黄色| 国产农村1级毛片| 国产午夜精品一区二区三区软件| 国产精品一区二区不卡的视频| 国产毛片基地| 九色视频一区| 欧美日韩国产在线观看一区二区三区| 狠狠五月天中文字幕| 青青青国产精品国产精品美女| 久久久四虎成人永久免费网站| 欧美在线导航| 成人午夜网址| 91色在线观看| 亚洲毛片在线看| 中日韩欧亚无码视频| 少妇精品网站| 欧美一级在线看| 四虎影视国产精品| 色偷偷一区二区三区| 成人午夜精品一级毛片| 日韩精品毛片人妻AV不卡| 日本一区二区三区精品AⅤ| 欧美中日韩在线| 久草中文网| 一区二区欧美日韩高清免费|