999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RNN和CNN的蒙漢神經機器翻譯研究

2018-09-18 09:19:06包烏格德勒趙小兵
中文信息學報 2018年8期
關鍵詞:模型

包烏格德勒, 趙小兵

(1. 呼和浩特民族學院 計算機系,內蒙古 呼和浩特 010051;2. 中央民族大學 信息工程學院,北京 100081)

0 引言

隨著內蒙古自治區經濟社會的發展和國家“一帶一路”倡議的推進,內蒙古與其他地區的經濟與文化交流越來越密切,使蒙古語與漢語之間的翻譯需求越來越大,蒙漢機器翻譯技術的研究對緩解這種壓力有著巨大的現實意義,對維護我國少數民族地區的穩定和繁榮有非常重要的意義。

機器翻譯(machine translation,MT)是一門借助計算機將一種自然語言翻譯成另外一種自然語言的技術。機器翻譯是自然語言處理(NLP)中最難的課題之一,需要融合計算機科學、語言學、數學、心理學等多種學科。

1 蒙漢機器翻譯研究難點和現狀

1.1 蒙漢機器翻譯研究難點

蒙古語屬黏著語,詞的形態變化非常豐富。形態豐富語言的機器翻譯如果直接采用像英語或漢語一樣的方法,翻譯結果往往不盡如人意,這是由于形態豐富語言本身的詞法和句法等特點造成的。對于蒙漢機器翻譯來說,有如下幾個難點。

1.1.1 數據稀疏

1.1.2 長距離調序

統計機器翻譯(statistical machine translation,SMT)在進行翻譯時首先要在平行句對上進行詞對齊,詞對齊效果越好,句子的翻譯結果就越好。蒙古語的句法結構是“主賓謂”,漢語的句法結構是“主謂賓”,兩者語序差異很大,詞對齊效果并不理想。例如,漢語句子“我害怕從高樓樓頂朝下看”,對應的蒙古語句子是:

圖1 長距離調序

1.1.3 蒙古語的相關資源匱乏

無論是統計機器翻譯還是神經機器翻譯都需要大規模的雙語平行語料庫作為訓練語料,但是目前公開的蒙漢雙語平行語料只有26萬多句對,資源非常匱乏。同時相對于漢語信息處理技術,蒙古語的信息處理技術還不夠成熟,一些基本的問題,如蒙古語詞性標注、命名實體識別等問題還沒有很好地解決,句法分析和語義分析也只是剛剛起步。

1.2 蒙漢機器翻譯研究現狀

蒙古語的機器翻譯研究開始于20世紀80年代。蒙漢機器翻譯研究方面,娜步青[1]首先采用了統計機器翻譯方法,使用工具搭建了一個基于詞的機器翻譯系統,并使用詞切分技術提高了翻譯質量。銀花等人[2]將蒙古語的詞性信息引入到基于短語的統計機器翻譯系統中,取得了較好的翻譯效果。蘇傳捷[3]研究了基于層次短語的蒙漢統計機器翻譯方法,通過自動學習同步上下文無關文法實現蒙漢機器翻譯。玉霞[4]在蒙古語詞法分析的基礎上,將蒙古語詞干、詞綴、詞性等形態信息融入到了機器翻譯中,提高了翻譯質量。

蒙漢機器翻譯研究大致經歷了基于詞的SMT、基于短語的SMT、基于層次短語的SMT等階段,并通過蒙古語詞法分析技術,逐漸在系統中融合了蒙古語的詞干、詞綴、詞性等信息,并取得了較好的結果。

本文主要研究基于神經網絡的蒙漢機器翻譯方法,神經機器翻譯(neural machine translation,NMT)是近幾年開始興起的一種新的機器翻譯方法,其翻譯質量優于統計機器翻譯。

2 神經機器翻譯

神經機器翻譯的基本思想是通過深度神經網絡直接將源語言句子轉換為目標語言句子,是一種端到端(end to end)的翻譯方法。端到端的神經機器翻譯是一個全新的編碼器-解碼器(Encoder-Decoder)框架[5],編碼器將源語言句子用一個多維的實數向量表示,解碼器將該向量轉換為目標語言句子,該模型一般稱為序列到序列(sequence to sequence)模型。該模型可以處理自然語言處理的大多數任務,包括語言模型、序列標注、句法分析、機器翻譯等。序列到序列模型本身就是一個翻譯模型,可以把一個sequence翻譯成另一個sequence,通過一個深度神經網絡將一個輸入序列轉換為一個輸出序列,包括Encoder和Decoder兩個部分。

神經機器翻譯根據Encoder和Decoder的網絡結構可以分為基于循環神經網絡(recurrent neural network,RNN)的神經機器翻譯和基于CNN(convolutional neural network)的神經機器翻譯。

2.1 基于RNN的神經機器翻譯

在Cho等人[6]的工作中使用RNN實現了編碼器和解碼器,用于改進SMT系統。對于例1,基于RNN的編碼器—解碼器框架如圖2 所示。

編碼器—解碼器框架首先生成蒙古語句子中每一個詞的詞向量(word embedding),然后通過RNN從左到右生成整個句子的句子向量,/s為句尾標識,把這個生成源語言句子向量的RNN稱為編碼器。

生成源語言的句子向量后,在目標語言端也使用一個RNN將源語言句子向 量解碼后生成漢語句子“我 害怕 從 高樓 樓頂 朝 下 看”,解碼過程也是從左到右逐詞生成,直到生成句尾標識/s,解碼結束。把這個生成目標語言句子的RNN稱為解碼器。

圖2 基于RNN的編碼器-解碼器框架

但是,這種編碼器-解碼器框架有一個致命的缺陷,即無論源語言句子有多長,編碼器始終都生成一個固定維度的句子向量,這對較長的句子來說,很難捕獲長距離的依賴關系,即使采用長短時記憶網絡(long-short term memory, LSTM)作為編碼器,也不能很好地捕獲長距離依賴[6]。

為了解決編碼器的定長向量問題,出現了基于注意力(attention)的端到端神經網絡翻譯[7]。注意力機制的基本思想是,目標語言端的每個詞只與源語言端的部分詞相關,與大多數源語言端詞無關。該機制能夠解決編碼器RNN只能生成固定維度向量的缺陷,使用門控隱藏單元(gated hidden unit)作為編碼器隱層的基本單元,編碼器采用雙向循環網絡(bidirectional RNN,BiRNN),解碼器依然使用RNN。

基于注意力的編碼器—解碼器框架中,編碼器被替換為一個雙向循環神經網絡,源語言端一個詞的向量中不僅包含了其前面詞的信息,還包含了其后面詞的信息,能夠很好地捕獲上下文依賴關系。解碼器則實現了一種類似SMT的對齊機制,通過反向傳播算法求梯度和更新參數。對于例1,基于注意力機制的編碼器-解碼器框架如圖3所示。

圖3 基于注意力機制的編碼器-解碼器框架

2.2 基于CNN的神經機器翻譯

2017年上半年Facebook的FAIR團隊發布了基于卷積神經網絡的機器翻譯框架,并公開了FAIR 序列模型工具包(fairseq)源代碼和訓練過的翻譯模型,翻譯速度九倍于基于RNN的神經機器翻譯系統。與基于循環神經網絡相比,基于CNN的編碼器—解碼器框架不僅結構簡單,速度快,而且允許對整個源語言句子進行編碼[8],而不像循環神經網絡需要逐詞進行編碼。

這是一種完全基于卷積神經網絡的序列到序列的模型[9],與循環神經網絡相比,所有元素都可以在訓練時完全地并行計算,并且由于非線性元素的數量固定且與輸入序列的長度無關,所以優化更加簡單。在該模型中使用了門控線性單元(gated linear units,GLU)來緩解梯度傳播,并為每個解碼器層配備了單獨的注意力模塊,其結構如圖4所示。

圖4 基于CNN的編碼器-解碼器框架

該框架主要采用了以下幾個技術:

(1) 位置向量(position embedding)的使用

在編碼器的輸入信號中加入位置向量,并與詞向量求和生成網絡的輸入信號,使編碼器具備捕捉輸入序列中詞的位置信息的功能。

(2) 采用層疊的CNN結構

該結構中低層的CNN用于捕獲與當前詞較近的詞之間的依賴關系,高層的CNN用于捕獲與當前詞較遠的詞之間的依賴關系,所以這種層疊的CNN結構能夠捕獲較長的依賴關系。而且在序列建模時與RNN相比,時間復雜度也會變小,即O(n/k),其中k為卷積窗口大小。同時,由于RNN為了捕捉上下文信息,只能進行串行計算,而層疊的CNN對整個序列進行卷積,不依賴序列的上下文信息,可以進行并行計算,使模型訓練更快。

(3) 融合了殘差連接和線性映射的多層注意力機制

注意力機制中,將編碼器的輸出信號與解碼器的輸出信號點乘后進行歸一化操作,再乘以編碼器的輸入序列后作為權重加入到解碼器中,用于預測輸出序列。

(4) 使用門控線性單元(GLU)

解碼器每一層CNN的輸出都被一個GLU控制信息流的傳播力度。門控機制可以控制哪些詞或特征需要傳遞到下一層中,以便產生更好的翻譯結果。

(5) 通過精細的權重初始化使模型訓練和收斂速度更快

基于CNN的神經機器翻譯在多個公開的數據集上獲得了最好的成績,該框架的最大優點在于速度快、效率高,缺點是需要調整的參數太多。

2.3 基于子詞單元的神經機器翻譯

神經機器翻譯通常在源語言端和目標語言端采用固定規模的詞表,對于詞表外的未登錄詞,都用一個UNK符號進行代替。解決上述詞表受限問題,可以有多種處理方法,例如通過詞對齊結果來后處理UNK[10]、用相近詞替換UNK[11]、使用大詞典并在計算softmax時進行采樣[12]等。

經典的seq2seq模型都是在單詞級別上翻譯,需要為每個單詞建立獨立的向量,這對形態豐富語言來說會帶來嚴重的數據稀疏問題。為了解決該問題,出現了基于字符級別的神經機器翻譯系統[13-15], 可以大大降低源語言端和目標語言端詞典規模。

本文使用了一種基于子詞(subword)單元的方法來解決詞表受限問題,該方法由Sennrich等人[16]提出,其基本思想是: 一些單詞的翻譯,可以通過翻譯其中的子詞單元來實現。該方法使用一種字節對編碼(byte pair encoding,BPE)算法來獲得子詞單元,編碼和解碼都在子詞單元上進行。BPE算法的Python實現如圖5所示。

算法首先用該語言的字符表初始化subword表,并將每個單詞表示為一個字符序列,再加上一個特殊的單詞結束標記‘@.@’,這樣可以在翻譯之后恢復原始的單詞。然后對所有subword對進行迭代計數,并把高頻的subword對加入到subword表中,生成新的subword,直到subword表的大小達到預設的值。這樣高頻的subword對最終被合并成一個新的subword對,因此BPE算法不需要候選列表。

例如,以下的蒙古語單詞會被拆分為兩個subword:

由于算法只對單詞進行拆分,并不會對拆分后的subword進行詞形還原,所以拆分后的subword不一定符合蒙古語的語法規則。

3 實驗

3.1 語料準備和處理

實驗的訓練語料來自CWMT2017提供的蒙漢雙語平行語料庫,包含26萬多句對,由內蒙古大學、中國科學院合肥智能機械研究所、中國科學院計算技術研究所聯合提供。開發集和測試集都由內蒙古大學提供,開發集包含1 000個蒙古語句子,測試集包含678個蒙古語句子,開發集和測試集都包含4個參考譯文。

訓練漢語語言模型所使用的訓練語料來自于CWMT2017提供的包含1 100萬多個句子的漢語單語語料庫,該語料是廈門大學NLP實驗室提供的新華網新聞漢語單語語料(2017)。

語料準備好后,對漢語語料進行了分詞操作,使用的分詞工具是中科院分詞系統ICTCLAS(NLPIR)2016。對蒙古語語料,首先將語料中的數字、英文、符號、蒙古語非Unicode字符進行了轉換處理,再對語料進行了文本校對,對錯詞進行了修正。

本文對蒙古語語料分別建立了以下三種模型。

(1) 詞模型

對語料未進行專門的詞干、詞綴切分操作,只在分寫的構形附加成分前面加了空格,把分寫的構形附加成分當作一個詞來處理。

詞模型的語料如下所示:

(2) 切分模型

對語料進行了專門的詞干、詞綴切分操作,在連寫的構形附加成分(詞綴)前面也加了空格。但是為了減少句子長度,對單詞至多切分一次,切分后的單詞分為兩部分: 詞干和詞綴組合。

切分模型的語料如下所示:

(3) 子詞模型

在這里對蒙古語和漢語同時運用了BPE算法,將罕見詞拆分為多個子詞單元。

運用BPE算法時分別設置了合并次數為 32 000 和50 000,生成的蒙古語和漢語詞典和總詞表規模如表1所示。

表1 BPE算法生成的詞典和總詞表規模

3.2 SMT設置

為了將NMT與SMT進行比較,本文還用MOSES工具搭建了基于短語的蒙漢統計機器翻譯系統。其中目標語言的語言模型分別訓練了三元語言模型和五元語言模型,用IRSTLM工具訓練語言模型。

詞對齊工具使用了GIZA++-v2,分別從蒙古語到漢語和漢語到蒙古語兩個方向進行詞對齊訓練,獲得雙向詞對齊結果,采用grow-diag-final-and對雙向詞對齊結果進行優化。

3.3 RNN NMT設置

基于RNN的神經機器翻譯工具使用了RNNSearch,在GPU上進行運算。參數設置如下:

句子最大長度=175

詞向量維度=620

隱藏層規模=1 000

采用詞模型和切分模型時設置蒙古語與漢語的詞表規模為50 000,采用子詞模型時分別設置了如下詞表規模:

(1) 合并次數=50k,蒙古語詞表規模=50 000,漢語詞表規模=50 000,包含所有詞;

(2) 合并次數=50k,蒙古語詞表規模=20 000,漢語詞表規模=25 000

(3) 合并次數=32k,蒙古語詞表規模=50 000,漢語詞表規模=50 000,包含所有詞;

(4) 合并次數=32k,蒙古語詞表規模=25 000,漢語詞表規模=30 000

輸出譯文時beam的長度設置為10,并使用SMT的對齊結果對譯文中的未登錄詞進行了替換處理(UNK replace)。

3.4 CNN NMT設置

基于CNN的神經機器翻譯工具使用了fairseq工具,在GPU上進行運算。訓練參數采用默認值,句子最大長度設置為175。

3.5 評測結果

本文采用基于字符(character-based)的評價方式,使用CWMT2017提供的自動評測工具mteval_sbp進行自動評測,該評測工具提供了包括BLEU-SBP、BLEU、NIST 、GTM 、mWER 、mPER以及ICT等方法的打分程序,其中BLEU方法是機器翻譯自動評價的標準方法[17]。本文主要以BLEU5-SBP、BLEU5、NIST6作為評測指標。

表2給出了SMT的實驗結果。結果表明: 切分模型和子詞模型的多數評測值都低于詞模型;在以上三個評測指標中五元語言模型的評測結果好于三元語言模型的評測結果;切分模型的評測結果在三個模型中表現最差;子詞32k(五元)模型和詞模型的評測結果比較接近。

表2 SMT實驗結果

表3給出了RNN NMT的實驗結果。結果表明: 基于RNN的神經機器翻譯的BLEU5-SBP和BLEU5評測指標比SMT的實驗結果至少提高了0.01,這說明26萬句對的蒙漢平行語料規模已經滿足基于RNN的蒙漢神經機器翻譯所需要的最小規模語料要求。

表3 RNN NMT實驗結果

在詞模型中對譯文進行UNK替換后,評測指標提升并不明顯。經過對譯文、對齊詞典和語料進行分析后發現,這是由于測試集中的部分未登錄詞并沒有出現在訓練集中,而出現在訓練集中的多數未登錄詞在對齊詞典中的翻譯也不準確,所以對評測結果并沒有帶來多少提升。

在RNN NMT的實驗結果中,詞模型和切分模型的評測結果非常接近,說明當詞表規模為50 000時,對蒙古語進行切分對評測結果沒有太大影響;在子詞模型中,合并次數為32 000的評測結果優于合并次數為50 000的評測結果,采用較小規模詞表的評測結果優于采用大規模詞表的評測結果;在所有的實驗結果中,當BPE的合并次數為32 000、蒙古語和漢語的詞表規模為25 000和30 000時的評測結果最好,其中BLEU5-SBP評測指標比最好的SMT的評測指標提高了0.04。

表4給出了CNN NMT的實驗結果。結果表明,CNN NMT的翻譯結果比RNN NMT和SMT的結果差。在CNN NMT的實驗結果中,詞模型、切分模型和子詞32k模型的59層的實驗結果明顯好于43層的實驗結果;隨著網絡規模的增加,切分模型的實驗結果會好于詞模型的實驗結果;在同一種網絡規模中子詞模型的實驗結果好于另外兩個模型的實驗結果。

表4 CNN NMT實驗結果

在以上三種翻譯方法中RNN NMT的實驗結果最好,CNN NMT的實驗結果最差。在RNN NMT和CNN NMT中,子詞模型的實驗結果均好于切分模型和詞模型的實驗結果,說明采用子詞模型可以有效提高蒙漢NMT的翻譯質量。

4 結論與展望

本文探討了基于循環神經網絡和卷積神經網絡的蒙漢神經機器翻譯模型,并與傳統的基于短語的統計機器翻譯模型進行了比較分析。在實驗中分別采用了蒙古語的詞模型、切分模型、子詞模型作為翻譯系統的輸入信號,并在每個翻譯方法中做了對比分析。通過對比發現,子詞模型在CNN NMT和RNN NMT中都可以有效地提高翻譯質量。

實驗結果表明,基于循環神經網絡的蒙漢神經機器翻譯模型的翻譯性能已經超過了傳統的基于短語的蒙漢統計機器翻譯模型,可進一步通過集外詞詞典翻譯、用相近詞替換UNK等操作來提高實驗結果,還可以從擴大訓練語料規模、采取系統融合的方法來提高蒙漢神經機器翻譯的質量。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 免费午夜无码18禁无码影院| 伊人久综合| 国产高清在线观看| AV网站中文| 九色在线视频导航91| 男女性午夜福利网站| 91色在线观看| www.99在线观看| 国产精品30p| 人禽伦免费交视频网页播放| 一级爱做片免费观看久久| 天堂久久久久久中文字幕| 午夜高清国产拍精品| 免费Aⅴ片在线观看蜜芽Tⅴ| 欧美日韩国产一级| 91免费观看视频| 一区二区自拍| 伊人成人在线视频| 亚洲一区波多野结衣二区三区| 久久天天躁狠狠躁夜夜2020一| 伊人婷婷色香五月综合缴缴情| 精品亚洲国产成人AV| 国产簧片免费在线播放| 国产精品亚洲五月天高清| 黄片一区二区三区| 潮喷在线无码白浆| 午夜福利视频一区| 人妻无码一区二区视频| 国产91特黄特色A级毛片| 欧美笫一页| 国产亚洲精品资源在线26u| 亚洲成人动漫在线观看| 欧美97色| 亚洲精品少妇熟女| 中文字幕在线一区二区在线| 国产成人高清亚洲一区久久| a级毛片免费网站| 久久久久国产一区二区| 狠狠色香婷婷久久亚洲精品| 亚洲性影院| 日韩欧美在线观看| 婷婷丁香在线观看| 欧洲熟妇精品视频| 日本不卡在线视频| 国产无码性爱一区二区三区| 91区国产福利在线观看午夜| 国产精选小视频在线观看| 日韩午夜片| 久久精品日日躁夜夜躁欧美| 视频二区亚洲精品| 亚洲精品视频网| 亚洲精品天堂自在久久77| 日韩中文无码av超清| 国产一区二区三区精品久久呦| 精品一区二区三区自慰喷水| 999精品免费视频| 精品国产免费观看| 九色视频线上播放| 在线视频一区二区三区不卡| 国模私拍一区二区三区| 激情综合网址| 91国内外精品自在线播放| 国产亚洲视频免费播放| 蜜臀AV在线播放| 欧美高清三区| a级毛片免费网站| 久久伊人久久亚洲综合| 四虎亚洲精品| 国产精品视频系列专区| 亚洲综合久久成人AV| 国产亚洲美日韩AV中文字幕无码成人| 呦系列视频一区二区三区| 日本人又色又爽的视频| 欧美午夜理伦三级在线观看| 亚洲第一视频网| 国产成人a在线观看视频| 国产精品页| 亚洲国产综合精品一区| 欧美成人aⅴ| 一级福利视频| 在线一级毛片| 亚洲国产综合精品一区|