999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡遷移學習的蒙漢機器翻譯方法

2020-01-14 06:03:36趙亞平蘇依拉牛向華仁慶道爾吉
計算機應用與軟件 2020年1期
關鍵詞:模型

趙亞平 蘇依拉 牛向華 仁慶道爾吉

(內蒙古工業大學信息工程學院 內蒙古 呼和浩特 010080)

0 引 言

機器翻譯(Machine Translation,MT)是自然語言處理領域中最早的研究分支之一,機器翻譯的基本原理是利用計算機自動把一種自然語言轉變成具有完全相同含義的另一種自然語言的過程[1]。神經機器翻譯(Neural Machine Translation,NMT)是近年來出現的機器翻譯方法[2-3],神經機器翻譯表現顯著,逐漸超過傳統的統計機器翻譯,成為目前最受歡迎的機器翻譯方法[4-5]。神經機器翻譯實現的基本原理是利用編碼器將源語言句子編碼成一個代表源語言句子語義信息的實數向量,然后在解碼階段解碼器將該向量解碼出對應的目標語言句子。在神經機器翻譯方法剛被提出來時,其表現性能并沒有超過統計機器翻譯[6]。隨著注意力機制的加入,神經機器翻譯模型能有效緩解長句子依賴問題[7]。目前神經機器翻譯在英漢、英德等多語言對上的機器翻譯性能超過了統計機器翻譯(Statistical Machine Translation,SMT)方法。

蒙古語是我國少數民族語種之一,蒙古語是蒙古族所持有的語種。為了保護和發展蒙古語,內蒙古自治區內政府重要文獻、新聞網站等都是采用漢、蒙兩種語言書寫的。機器翻譯是突破人類語言障礙的重要的科學手段。隨著經濟全球化不斷發展蒙古語被使用的地方越來越多,實現高質量的蒙漢機器翻譯對我國內蒙古地區信息化發展有重要現實意義。將下面蒙語翻譯成對應漢語句子:

對應正確的漢語句子:“解決這些問題需要幾周的時間。”但是,如果只是機械地將蒙古語句子從左到右逐個詞譯成漢語,得到的漢語句子是“這些問題解決幾周時間需要。”由此可知蒙古語和漢語在語法上存在很大的差異。目前包括蒙語、藏語和維吾爾語在內的小語種可用于實驗的平行語料庫存在嚴重不足問題,實現高水平的蒙漢機器翻譯譯文的難度很大。

蒙古語屬于黏著語,在蒙古語中語素有較強的結合性,理論上來說有限的詞干和詞綴有很多種結合的方法。在蒙古語的構詞法中通常是在詞干后連接相應的詞綴,產生時間、形態的變化,從而達到豐富語法的目的[8]。由于蒙古語詞匯豐富形態變化多,部分的蒙古語詞語在訓練語料中出現次數可能只有一次,這就容易造成蒙漢機器翻譯過程出現嚴重的未登錄詞現象,加上蒙古語本身語法的復雜性,使得想要獲得高性能的蒙漢機器翻譯模型相對較困難。本文實驗利用BPE技術[9]對蒙漢平行語料進行處理操作,用來緩解蒙漢機器翻譯中未登錄詞現象。對應的系統為subword-nmt,BPE技術在機器翻譯方法中得到較為廣泛的應用[4]。

不論是基于統計的機器翻譯模型還是神經機器翻譯模型,都需要大量的語料數據來驅動,翻譯的性能高度依賴平行語料的規模大小、質量和領域覆蓋面。然而,蒙漢平行語料資源的不足使得機器翻譯譯文質量不盡如人意。如何有效解決平行語料庫不足問題帶來的翻譯過程出現的未登錄詞或集外詞現象成為蒙漢機器翻譯的一個重要的研究課題。本文基于字節編碼技術和遷移學習策略就緩解蒙漢機器翻譯過程出現嚴重的未登錄詞問題以及提高蒙漢翻譯譯文質量進行了相關實驗。

1 相關技術

1.1 數據預處理

從語法形態上劃,分蒙古語屬于阿爾泰語系,采用主-賓-謂的語法結構。漢語屬于漢藏語系,采用主-謂-賓句式結構。所以,在進行蒙漢機器翻譯過程中需要處理長句子調序問題。如果對蒙漢平行語料不進行任何預處理操作直接進行機器翻譯,模型訓練會存在嚴重的未登錄詞現象,翻譯譯文質量不理想。

本次實驗的語料庫規模包括166 455句的蒙漢平行語料和120萬句的英漢平行語料。其中,蒙漢平行語料劃分如下:訓練集163 955句、開發集1 500句和測試集1 000句。中文的詞是包含語義信息的最小單元,但是中文的詞與詞間沒有天然的分隔符。本文的中文分詞和英文預處理工具分別采用斯坦福大學開源分詞工具stanford-segmenter和stanford-ner,其基本的分詞原理基于條件隨機場(Conditional Random Field,CRF)。

Sennrich等基于字節對編碼(byte pair encoding,BPE)技術,提出了子詞方法。該方法基本實現原理是:在平行語料庫中出現次數較高的詞匯相比低頻詞在翻譯譯文時作為完整詞匯的概率一般會較高,只對語料庫中低頻詞語進行分詞操作,從而達到提高低頻詞的子詞的共現次數[10]。本文利用subword-nmt系統對分詞后的蒙漢平行語料進行BPE預處理,下面就具體實例對BPE技術進行介紹。

蒙文語料:

BPE預處理后的蒙文語料:

1.2 遷移學習

神經機器翻譯模型相關參數數量十分龐大,文獻[11]中進行的神經機器翻譯實驗結果表明只有當雙語平行語料具有較大的規模后,神經機器翻譯性能才有可能超過傳統的統計機器翻譯譯文質量。遷移學習的核心思想是把訓練源任務獲取的知識存儲下來,應用于新的(不同,但相近任務)任務中[11-12]。遷移學習允許將大量有標記數據學習到的知識應用到標記數據較少的模型訓練中。遷移學習不再要求必須滿足如下在以往的機器學習中的基本前提條件[12]:

(1) 用來訓練模型的樣本和測試樣本必須是獨立同分布的;

(2) 訓練模型的樣本集必須是大規模的才能夠獲得合格的模型。

在遷移學習中,域(Domain)是由數據特征和特征分布組成,是學習的主體。源域(Source Domain)是已有知識的域。目標域(Target Domain)是將要學習的域。遷移學習的主要任務是研究如何把在源域中已學到的知識遷移到目標域中。遷移學習按照遷移方法不同可以分為基于實例的遷移(Instance Based TL)、基于特征的遷移(Feature Based TL)、基于模型的遷移(Parameter Based TL)以及基于關系的遷移(Relation Based TL)。本文是基于遷移學習策略的蒙漢神經機器翻譯,研究方法屬于遷移學習中基于模型的遷移學習方法又稱參數遷移。

圖1所示為遷移學習示意圖,在傳統機器學習模型,如果要為某個任務/域B來訓練模型,必須獲取任務/域B里標記過的足夠多的數據。如果沒有大量的標記數據就不能得到滿意的模型B,而遷移學習可以實現在少量的標記數據條件下得到滿意的模型B。遷移學習將訓練模型A獲取的知識存儲下來,應用于模型B的訓練中,以達到提高模型B性能的目的。

圖1 遷移學習示意圖

在遷移學習中,域是由數據特征和特征分布組成,是學習的主體。源域是已有知識的域。目標域是將要學習的域。遷移學習按照遷移方法不同可以分為基于實例的遷移、基于特征的遷移、基于模型的遷移以及基于關系的遷移。

本文根據Zoph等[11]基于遷移學習在機器翻譯中應用的思想,利用大規模的英漢平行語料訓練獲得英漢神經翻譯模型。在訓練蒙漢神經機器翻譯模型時,不再是隨機初始化翻譯模型網絡參數,而是采用英漢翻譯模型參數權重初始化蒙漢翻譯模型網絡參數,利用蒙漢平行語料進行翻譯模型訓練。本文采用相對簡單的遷移學習方法,即利用英漢神經翻譯模型所有參數權重對蒙漢神經機器翻譯模型進行參數初始化。本文是在Tensorflow深度學習框架中利用導入預訓練模型來實現的翻譯模型參數權重遷移的工作。由于Tensorflow中神經網絡模型圖和網絡相關參數分開存儲的,所以導入模型包括構造網絡圖和加載參數權重兩步來完成。

1.3 詞向量

利用蒙漢平行語料進行神經機器翻譯模型訓練時,需要將平行雙語語料中的詞語進行詞向量化表示,真正參與翻譯模型訓練的是代表蒙漢句子語義信息的向量組,而非蒙漢語料中的整個句子。所以,高質量、更強表達能力的雙語詞向量對最終的翻譯譯文質量有較大影響。Word2vec是一款開源的可以很高效地進行詞向量訓練的工具,Google公司在2013年時向機器翻譯研究者們開源了該系統。Mikolov等基于C&W[13]詞向量模型提出了兩種目前最常用的詞向量訓練模型即連續詞袋子模型(Continuous Bag Of Words,CBOW)和Skip-gram模型。本文利用Word2vec進行詞向量訓練時采用的詞向量模型為Skip-gram。

本文利用Word2vec工具對蒙、漢語料分別進行了蒙、漢詞向量的預訓練工作,得到對應的蒙、漢詞向量預訓練文件vectors.mn、vectors.zh;然后利用Python腳本文件,實現從詞向量文件中提取詞匯生成對應的詞表文件;最后利用命令——embed_prefix將預訓練的蒙、漢詞向量文件和對應的雙語詞表嵌入到蒙漢神經網絡模型中進行訓練。本文中預訓練詞向量的維度和神經機器翻譯模型訓練時詞向量的維度是一致。本文通過實驗驗證了將預訓練的詞向量嵌入到蒙漢神經機器翻譯模型中最終的翻譯譯文質量得到了一定提高。

2 神經機器翻譯系統

神經機器翻譯是一種使用神經網絡直接獲取自然語言之間的映射關系的機器翻譯方法,神經機器翻譯利用連接編碼器和解碼器的狀態向量來描述雙語語義的等價關系。2013年由英國牛津大學Kalchbrenner和Blunsom教授提出的一種用于機器翻譯的新型編碼-解碼結構模型標志著神經機器翻譯的時代的開始[14]。隨著端到端的編碼器-解碼器框架(Encoder-Decoder)提出以及將注意力機制引入到神經機器翻譯框架中,使得神經機器翻譯的表現得到顯著提升并且逐漸確定了神經機器翻譯框架主要的構成架構[15-17]。

2.1 神經機器翻譯模型描述

編碼器-解碼器模型是目前神經機器翻譯模型主要組成部分之一。以蒙漢神經機器翻譯為例,神經網絡中編碼器模型用于讀取源語言端的蒙古語句子,將蒙古語句子編碼成固定維數的實數向量,該向量代表了源語言語義信息;解碼器部分獲取代表源語言語義信息的實數向量,然后依次生成對應的漢語詞語序列,直到遇到句尾結束符標志著翻譯過程的結束。本文利用Thang Luong等設計的Tensorflow/nmt[18]開源神經機器翻譯框架進行蒙漢神經機器翻譯模型實驗,其中神經網絡類型采用長短時記憶(Long Short-Term Memory,LSTM)神經網絡,由于Tensorflow/nmt系統提供了多個類型的注意力機制方案,本文選擇的是scaled_luong。圖2所示為基于編碼器-解碼器構架的翻譯模型,其中a表示神經網絡初始化向量,x表示神經網絡的輸入序列,y表示神經網絡的輸出序列。

處理自然語言相關任務最常使用的神經網絡類型就是遞歸神經網絡(Recurrent neural networks,RNN),LSTM神經網絡就是RNN的一種特殊形式[17]。從圖2不難看出,神經機器翻譯在解碼階段不僅源語言端輸入的向量信息,而且前一時刻生成的目標詞匯也參與目標詞的預測工作。“The dog, which already ate …, was full.”這個英語句子充分體現了長句子存在嚴重的語義依賴現象,神經網絡是否可以長距離保持單詞“dog”和“ate”語義信息直接影響了后面序列“was full”的正確性。

圖3所示為長短時記憶神經網絡隱藏層單元結構,LSTM結構強大、靈活,因為LSTM神經網絡包括三個門單元,即更新門、遺忘門和輸出門,但是,進行LSTM神經網絡模型訓練時耗費的計算成本相比普通循環神經網絡會增加。

LSTM單元在每個時間步長將用一個候選值重寫記憶單元,其中,C表示門控單元的值,a表示LSTM單元輸出的激活值,Γ表示門控單元的輸出值,σ表示sigmoid函數,W表示參數矩陣,b表示偏置值。門控單元更新門、遺忘門和輸出門計算式如下:

更新門:

Γu=σ(Wu[a+bu])

(1)

遺忘門:

Γf=σ(Wf[a+bf])

(2)

輸出門:

Γo=σ(Wo[a+bo])

(3)

式中:t時刻門控單元激活輸出a以及輸出值C對應的計算公式為:

a=Γo×tanhC

(4)

C=Γu×C+Γf×C

(5)

圖3 長短時記憶神經網絡隱藏層單元結構示意圖

2.2 注意力機制模型描述

隨著用于機器翻譯的端到端編碼器-解碼器框架提出以及將注意力機制引入到神經機器翻譯框架中,神經機器翻譯譯文質量得到顯著提升并且逐漸成為目前最為常用的機器翻譯方法。

注意力機制為源語言端每個詞生成包含全局信息的向量表示[17],解碼時根據注意力向量計算當前目標端詞最相關的上下文信息。相比普通的編碼器將源語言句子壓縮成固定維度的向量表示,注意力機制模型(見圖4)有效地利用源語言端句子信息相關性,一定程度提高了神經機器翻譯譯文的質量。

圖4 基于注意力機制的神經機器翻譯模型

如圖4所示,注意力機制參與了所有目標語言詞匯的產生,在解碼階段注意力機制主要完成以下幾個操作:

(1) 利用當前目標端隱藏狀態與所有源狀態計算得到注意力權重。

(2) 根據注意力權重得到上下文向量。

(3) 利用上下文向量和當前目標端隱藏狀態得到注意力向量。

(4) 注意力向量作為輸入提供給下一個遞歸神經網絡的時間步長。

注意力對齊權重計算式表示為:

(6)

上下文對齊向量計算式表示為:

(7)

注意力對齊向量計算式表示為:

at=f(ct;ht)=tanh(Wc[ct;ht])

(8)

3 實 驗

3.1 實驗設置

本文進行蒙漢機器翻譯實驗所采用的硬件環境:操作系統是Ubuntu16.04;CPU是I5主頻2.5 GHz。本文利用Tensorflow/nmt開源的神經機器翻譯框架進行蒙漢神經機器翻譯模型訓練,經過多次實驗比對找到了蒙漢翻譯模型最優的相關參數,下面進行具體描述。對蒙漢平行訓練語料最長的句子設置為50個詞,雙語詞向量維度為512,解碼階段采用集束搜索策略,Beam width設置為10。如圖5為系統模型訓練的具體流程,英漢翻譯模型和蒙漢翻譯模型同為Tensorflow/nmt,首先利用大規模英漢語料訓練得到英漢翻譯模型,然后對蒙漢平行語料進行BPE技術預處理,其次將英漢翻譯模型參數遷移到蒙漢翻譯模型中,最后,將預訓練的詞向量嵌入翻譯模型,利用蒙漢語料進行蒙漢機器翻譯模型的訓練。本神經翻譯模型采用隨機梯度下降方法(Stochastic Gradient Descent,SGD)優化模型參數,訓練樣本batch size大小為128句,網絡丟棄率Dropout[20]設置為0.2。由于本實驗中蒙漢平行語料太少,容易造成翻譯譯文出現大量未登錄詞現象,為了提高譯文翻譯質量,蒙古語、漢語詞典大小設置為40 000。

圖5 系統模型流程圖

本文對蒙漢平行語料利用Sennrich等開發的subword-nmt開源系統進行BPE技術處理,利用C語言版本的Word2vec開源工具實現的詞向量的預訓練。本文采用的翻譯基線系統為Tensorflow/nmt神經機器翻譯開源系統,循環單元采用LSTM長短時記憶網絡。本文采用BLEU值作為翻譯譯文質量的評測指標,默認每個系統超參數的值是最優狀態的值。

3.2 實驗結果

表1 機器翻譯模型對比

本文分別進行了基于神經機器翻譯模型訓練、神經網絡+字節編碼翻譯模型訓練以及利用遷移學習策略訓練神經翻譯模型。在神經機器翻譯模型訓練中,對平行語料進行一次完整的訓練稱為一個訓練周期(Epoch),在具有大規模的雙語平行訓練語料情況下,通常經過20~30個訓練周期就能得到穩定的翻譯模型[21]。由于本次試驗中蒙漢平行語料規模太小,在第30個訓練周期下,并沒有得到相對穩定的結果。考慮到模型訓練中迭代周期太多可能出現過擬合現象,本文實驗訓練最多50個周期。圖6為本系統四種翻譯框架下BLEU值隨著訓練周期增加而變化的情況。

圖6 模型訓練周期與BLEU值關系圖

機器翻譯模型對比結果如表1所示,可以看出,對蒙漢平行語料進行BPE技術處理的神經機器翻譯系統(用“NMT+BPE”表示)相比未進行BPE技術處理翻譯系統(用“NMT”表示)譯文提高了1.3 BLEU值,應用BPE技術預處理和Word2vec預訓練詞向量的蒙漢神經機器翻譯系統(用“NMT+BPE+Word2vec”表示)相比BPE技術處理的神經機器翻譯系統BLEU值提高了0.6,應用BPE技術預處理和遷移學習的蒙漢神經機器翻譯系統(用“NMT+BPE+Trans”表示)相比BPE技術處理的神經機器翻譯系統BLEU值提高了1.6,采用BPE技術預處理加遷移學習的神經機器翻譯相比普通神經機器翻譯BLEU值提高了2.9。表2是本文進行三個翻譯系統測試集的翻譯譯文的示例對比,“UNK”表示未登錄詞。通過LSTM翻譯模型譯文和基于遷移學習的翻譯模型譯文對比發現,遷移學習的確對蒙漢神經翻譯譯文質量有一定的提高。

表2 機器翻譯譯文示例對比

續表2

從翻譯示例對比表中可以看到蒙漢神經翻譯譯文存在過度翻譯(部分短語被多次翻譯)的現象[22]以及對原文部分詞翻譯不準確等缺點。但是,從整體上看BPE與遷移學習翻譯結果較為流暢,對原文語義理解能力更強,譯文質量整體上優于普通神經機器翻譯方法。

4 結 語

由于蒙古語語言本身的復雜性以及蒙古語語料相對匱乏,蒙古語相關機器翻譯發展始終沒有大的突破。為了緩解蒙漢機器翻譯過程中出現的嚴重的數據稀疏問題,提高蒙漢機器翻譯質量,本文利用BPE技術對蒙漢平行語料進行數據預處理操作,同時一定程度上增大了蒙漢雙語詞典規模。通過實驗結果對比發現BPE技術對蒙漢機器翻譯過程中的數據稀疏問題有明顯緩解,有效減少了未登錄詞的發生。應用遷移學習策略的蒙漢神經機器翻譯系統BLEU值提升不是很明顯,分析其原因可能是遷移學習過程存在一定的語言相關性,本文的實驗結果和文獻[11]中的實驗結論也是相符合的。本文遷移學習的父模型(英漢機器翻譯模型子模型(蒙漢機器翻譯模型)中兩模型源語言,即英語與蒙古語語法上存在一定差異,理論上父模型中源語言端采用與蒙古語語法相近的日語等可能會實現更好的翻譯效果,但是目前大規模的日漢平行語料不易獲得。同時,蒙漢平行語料較少成為阻礙蒙漢機器翻譯一大障礙,所以,接下來我們力求收集得到大規模、高質量以及廣覆蓋率的蒙漢平行語料,同時將嘗試采用其他方法來提高蒙漢機器翻譯效果。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产在线视频欧美亚综合| 午夜视频在线观看免费网站 | 国产亚洲精品在天天在线麻豆| 思思热精品在线8| 一本大道视频精品人妻| 欧美另类一区| 欧美午夜性视频| 福利在线不卡| 欧美激情成人网| 亚洲综合国产一区二区三区| 亚洲国产欧美目韩成人综合| 老司机久久精品视频| 久久久波多野结衣av一区二区| 亚洲Av综合日韩精品久久久| 日本在线欧美在线| 六月婷婷综合| 亚洲精品男人天堂| 色网在线视频| 一级爆乳无码av| 亚洲欧美成aⅴ人在线观看| 国产欧美日韩一区二区视频在线| 国产成人凹凸视频在线| 亚洲日韩精品无码专区97| 久久夜夜视频| 久久a级片| 中文一级毛片| 人人澡人人爽欧美一区| a级毛片免费网站| 国产伦精品一区二区三区视频优播 | 国产成人精品在线| 91久久偷偷做嫩草影院免费看 | 热99精品视频| 欧美国产精品不卡在线观看| 伊人91视频| 亚洲第一成网站| 亚洲综合香蕉| 精品91自产拍在线| 人妻无码一区二区视频| 欧美国产在线精品17p| 国产香蕉在线| 在线免费观看AV| 波多野结衣无码AV在线| 99精品视频在线观看免费播放| 蜜臀AV在线播放| 日韩毛片在线播放| 亚洲国产精品一区二区第一页免 | 麻豆精选在线| 亚洲香蕉久久| 欧美国产中文| 免费AV在线播放观看18禁强制| 中文无码日韩精品| 欧美亚洲一区二区三区导航| 美女被操黄色视频网站| 国产精品亚欧美一区二区三区| 22sihu国产精品视频影视资讯| 毛片网站观看| 国产精品午夜福利麻豆| 欧美性久久久久| 国产无码网站在线观看| 毛片在线播放网址| 国产不卡一级毛片视频| 国产欧美成人不卡视频| 亚洲国产成人超福利久久精品| 国产高清在线观看| 无码免费视频| 亚洲男女在线| 久久精品丝袜高跟鞋| 精品自拍视频在线观看| 亚洲爱婷婷色69堂| 91原创视频在线| 国产精品午夜电影| 亚洲清纯自偷自拍另类专区| 国产精品jizz在线观看软件| www.亚洲色图.com| 国产精品丝袜在线| 国产欧美日韩精品综合在线| 欧洲极品无码一区二区三区| 久久情精品国产品免费| www.国产福利| 国禁国产you女视频网站| 伊人久久大香线蕉影院| 精品国产网|