999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于神經網絡的維漢翻譯系統實現

2018-12-14 09:05:06張勝剛艾山·吾買爾吐爾根·依布拉音買合木提·買買提米爾夏提·力提甫
現代電子技術 2018年24期
關鍵詞:小語種

張勝剛 艾山·吾買爾 吐爾根·依布拉音 買合木提·買買提 米爾夏提·力提甫

關鍵詞: 小語種; 機器翻譯; theano; 神經網絡; 開源系統; 負載均衡

中圖分類號: TN711?34 ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼: A ? ? ? ? ? ? ? ? ? ? ? 文章編號: 1004?373X(2018)24?0157?05

Implementation of Uyghur?Chinese translation system based on neural network

ZHANG Shenggang1,2, Hasan Wumaier1,2, Tuergen Yibulayin1,2, Mahmut Maimaiti1,2, Mirxat Litip1

(1. School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China;

2. Xinjiang Laboratory of Multi?Language Information Technology, Urumqi 830046, China)

Abstract: The machine translation of minority languages is generally to achieve online service system on the basis of the open source system due to reasons such as development costs and user scale. At present, the source codes provided by neural machine translation are mostly written by the theano, but the machine translation written by the theano cannot meet users′ needs due to its slow translation speed. How to realize the stable Uyghur?Chinese neural network machine translation system based on the theano is taken as the research object. The multi?layer bi?directional network framework of the ALU neuron is used as the translation model. The django is used to realize the translation service interface. The nginx+uwsgi is selected to achieve load balancing, so as to improve the translation speed. The experimental results show that, the translation speed of the system constituted by 5 translation engines is 1.3~1.55 times higher than that of the system constituted by 10 translation engines. The research results in this paper have an important reference value for using the open source system to rapidly realize the translation system that can meet daily visits of less than 10 million times per day.

Keywords: minority language; machine translation; theano; neural network; open source system; load balancing

0 ?引 ?言

隨著“一帶一路”倡儀的提出,為了使得沿線的所有民族之間都可以無障礙自由的溝通,機器翻譯變得日益重要。機器翻譯(Machine Translation,MT)指的是利用機器實現自動從一種語言轉換為另一種相應的語言,在翻譯過程中可以分為源語言和目標語言。機器翻譯的歷史可以大致分為4個階段。在第一個階段中機器翻譯主要是基于情報學中的“加密/解密”方法,但這一方法并沒有獲得成功。在第二個階段中機器翻譯主要利用語言學家手工書寫翻譯規則,然而語言學家編寫的規則有限并且成本巨大,若某個句子不符合翻譯規則則該句就無法正常翻譯。第三階段的機器翻譯主要是基于概率統計的方法[1?3]。通俗來講,基于統計的機器翻譯的基本思想是利用概率統計方法找到大規模的平行語料的翻譯規律從而構建相應的機器翻譯模型。更具體來說就是將源語言的句子分割為詞單元或者短語單元等,然后將其輸入到翻譯模型中并選擇最好的目標語言句子進行輸出。第四階段也就是目前階段主要是基于神經網絡的機器翻譯(神經機器翻譯,NMT)[4?7]。通過多個不同的非線性處理單元,基于神經網絡的方法能夠自動對任意數據進行特征抽取和學習并擬合任意的非線性關系。目前基于神經網絡的機器翻譯一般采用encoder?decoder模型,encoder端主要將源語言句子編碼為一個稀疏稠密的實數向量,decoder端則根據編碼器端的結果生成目標語言句子。盡管基于神經網絡的機器翻譯方法目前已經成為主流方法,但是由于網絡的復雜性和模型的龐大等原因導致在實際工程應用時翻譯速度很慢。本文基于神經網絡的機器翻譯模型采用 nginx+uwsgi+django組合的方式實現了基于神經網絡的維漢機器翻譯的服務接口,并利用nginx實現對多個維漢機器翻譯引擎進行負載均衡,從而可以同時保證翻譯質量和翻譯速度。

1 ?相關工作

端到端神經機器翻譯的基本思想是通過神經網絡直接實現自然語言之間的自動翻譯。因此基于神經網絡的機器翻譯常采用編碼器?解碼器模型(encoder?decoder)來實現序列之間的自動轉換。編碼器端主要將輸入的源語言句子編碼為稠密稀疏的實數向量,而解碼器端則根據編碼器端編碼的結果生成目標語言句子。為了獲得好的翻譯結果,機器翻譯需要句子的全局上下文信息。循環神經網絡(Recurrent Neural Network,RNN)[5]通常作為基于神經網絡機器翻譯模型的編碼器和解碼器。RNN的當前時刻狀態不僅受到當前時刻輸入的影響,還受到之前時刻狀態影響,因此理論上可以捕獲句子的全局上下文信息。為了緩解RNN本身固有的梯度消失(Vanishing Gradient)和梯度爆炸(Gradient explosion)的問題,通常實際使用是RNN的兩個變體: 長短時記憶網絡(LSTM)和門控循環單元(GRU)。在RNN網絡中由于存在上下時刻間時序上的依賴從而無法并行計算,因此訓練的時間代價很高。卷積神經網絡(Convolutional Neural Network,CNN)能夠對一個窗口內的局部上下文信息進行特征抽取,而且不同窗口間的計算過程可以并行,從而能夠充分利用 GPU設備的并行計算能力。 因此有人提出了CNN?based 神經網絡機器翻譯模型(ConvSeq2Seq)[8]。為了增強CNN的建模能力,ConvSeq2Seq模型通過堆疊多層 CNN來增強感受野的范圍。然而原則上ConvSeq2Seq還是存在上下文信息缺失的問題,特別是當序列變得很長的時候。最近有人提出了完全通過Attention機制構建翻譯模型(Transformer)并且獲得了很大的成功[9]。

此前已有不少研究者和機構嘗試搭建維漢機器翻譯系統,新疆大學的Tilmach維漢機器翻譯系統[10]。該系統主要是基于傳統的基于短語的統計方法實現。中國民族語文翻譯局的在線維漢翻譯系統,該系統則主要是基于self?attention機制來構造整個系統,該模型既能保證并行訓練的速度優勢,又能快速地得到句子中任意兩個時刻的交互狀態。孔金英等使用帶注意力機制的編碼器解碼器模型搭建了維漢口語機器翻譯模型[11]。本文主要從工程角度入手探討如何同時保證基于神經網絡的維漢機器翻譯系統的翻譯速度和翻譯質量。

2 ?基于神經網絡的維漢機器翻譯系統

2.1 ?神經網絡機器翻譯模型

神經網絡機器翻譯模型以端到端的方式實現輸入序列到輸出序列的直接映射。假設給定的源語言為X={x1,x2,…,xn},目標語言為Y={y1,y2,…,ym},基于神經網絡建模翻譯概率如下:

[P(YX)=t=1mP(yty<t,X)] (1)

式中,y<t=y1,y2,…,yt-1。在基于神經網絡機器翻譯模型中使用LSTM,GRU或者其他非線性單元根據當前的輸入xt和前一時刻的隱藏狀態ht-1計算當前的隱藏狀態ht:

[ht=RNN(ht-1,xt)] (2)

為了能得到更加豐富的上下文信息,在編碼器端通常對源語言進行雙向編碼;然后對兩個方向的編碼結果進行整合作為最終的隱藏狀態,該過程為:

[h→t=RNN(h→t-1,xt)] (3)

[ht←=RNN(h←t-1,xt)] (4)

[ht=htht←→] (5)

在解碼器端生成目標語言過程如下:

[q=g(yt-1,ct,st)] (6)

[p(yty<t,X)=softmax(q)] (7)

式中:q是要預測目標端詞的張量;g(·)是一個非線性單元,如第一節提到的LSTM,GRU或者CNN等;st是解碼器端的隱藏狀態,其計算方法和編碼器端相同;ct是源端所有隱藏狀態的加權和,通過注意力機制計算得到。ct的計算方法如下:

[ct=attention(st-1,h)=i=1nat,ihi] (8)

[at,i=softmax(VTatanh(Wast-1+Uahj))] (9)

式中,Va,Wa,Ua均為神經網絡要訓練的參數。模型的整體結構如圖1所示。

2.2 ?維漢機器翻譯系統

為了更好地捕獲句子中的深層信息提高譯文質量,本文構建的維漢機器翻譯模型在上文所述的模型的基礎上將其變為深層神經網絡并且借鑒文獻[12]的思想,將網絡中的非線性單元從傳統的GRU修改為ALU,從而可以減小訓練的難度并進一步提高翻譯質量。當翻譯完成后系統對譯文進行了后處理以緩解由于神經機器翻譯中的集外詞問題導致的譯文質量下降[13]。

系統在實現上首先使用Django Web開源框架,在維漢機器翻譯引擎的基礎上實現維漢機器翻譯的網絡服務接口。然后使用開源Web服務器nginx不停地監聽來自用戶的請求并將用戶傳來的Web請求交給相應的接口進行處理并返回。為了能處理更多的用戶請求量,在兩者之間設置了uwsgi服務器用來接收來自nginx的服務請求。為了進一步提高翻譯速度和并發量,整個維漢翻譯系統由多個維漢機器翻譯引擎構成,并使用nginx進行負載均衡。本系統采用的負載均衡方法為輪詢方式,整個維漢機器翻譯系統結構圖如圖2所示。

3 ?實 ?驗

為了驗證基于神經網絡維漢機器翻譯系統性能,本文設置了多組實驗,從翻譯質量、翻譯速度和并發量三個方面來進行測試。

3.1 ?接口調用說明

本文系統的調用方式是基于Web的服務接口,具體關于調用的詳細信息如表1所示,輸入示例如表2所示,返回結果示例如表3所示。

猜你喜歡
小語種
小語種 大世界
“一帶一路”背景下小語種專業面臨的挑戰和對策
祖國(2017年3期)2017-03-16 11:06:39
小語種國際化人才培養模式初探
社會機構小語種培訓現狀及存在的問題
中國周邊區域研究文獻的需求與保障
中國周邊區域研究文獻的需求與保障
探析互聯網金融行業如何利用小語種實現“走出去”戰略
小語種就業現狀調查與分析
商情(2016年42期)2016-12-23 16:59:56
高職單招班小語種優質課堂教學探究
教師·下(2016年10期)2016-12-03 09:32:13
全球化背景下小語種語言的發展
考試周刊(2016年45期)2016-06-24 13:37:23
主站蜘蛛池模板: 国产丝袜91| 欧美国产在线看| 国产成人麻豆精品| 成人在线不卡| 久久黄色视频影| 亚洲日本一本dvd高清| 国产中文一区a级毛片视频 | 亚洲无码视频图片| 日本免费精品| 精品无码日韩国产不卡av| 亚洲成AV人手机在线观看网站| 亚洲欧美成人综合| 亚洲视频无码| 国产亚洲精品自在线| 福利姬国产精品一区在线| yy6080理论大片一级久久| 天天综合网站| a级毛片网| 91精品国产自产91精品资源| 中文字幕人成乱码熟女免费| 久久久久国产一级毛片高清板| 99精品欧美一区| 日本一区二区三区精品国产| 久久精品人人做人人爽97| 亚洲国产精品日韩av专区| 91午夜福利在线观看| 干中文字幕| 久久99这里精品8国产| 精品伊人久久久久7777人| 热久久综合这里只有精品电影| A级毛片无码久久精品免费| 97免费在线观看视频| 免费一级大毛片a一观看不卡| 国产免费久久精品99re丫丫一| 青青久久91| 91麻豆国产精品91久久久| 日韩亚洲高清一区二区| 精品亚洲国产成人AV| 久久黄色视频影| 中文字幕在线欧美| 777国产精品永久免费观看| 亚洲精品第五页| 日本免费新一区视频| 欧美中文字幕无线码视频| 成人亚洲天堂| 在线精品欧美日韩| 无码高清专区| 欧美日韩va| 91久久国产成人免费观看| 国产精品成人第一区| 2021国产在线视频| 免费毛片在线| 91麻豆精品视频| 国产女人爽到高潮的免费视频| 国产99视频精品免费视频7| 精品人妻AV区| 久久精品女人天堂aaa| 欧美精品啪啪| 日韩在线视频网| 欧美国产三级| 精品国产成人国产在线| 国产一级在线观看www色| 97在线公开视频| 亚洲国产一成久久精品国产成人综合| 亚洲欧洲自拍拍偷午夜色| 国禁国产you女视频网站| 午夜视频免费一区二区在线看| 欧美三级视频网站| 国产又大又粗又猛又爽的视频| 国产成人超碰无码| 91久久夜色精品国产网站| 无码高潮喷水专区久久| 99精品国产高清一区二区| 国产青青草视频| 2020精品极品国产色在线观看| 亚洲第一成年网| 免费全部高H视频无码无遮掩| 激情综合激情| 在线不卡免费视频| 日韩精品一区二区三区大桥未久 | 亚洲va精品中文字幕| 欧美日一级片|