999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于人工智能的深度神經網絡優化英語機器翻譯

2024-02-18 05:49:02宋純花
現代電子技術 2024年3期
關鍵詞:單詞

宋純花

(上海建橋學院,上海 201306)

0 引言

機器翻譯[1]是自然語言處理中早期和最迷人的領域之一,旨在開發能夠將一種人類語言翻譯成另一種語言的系統,消除語言障礙。文獻[2]提出了一種使用統計機器翻譯方法的雙向機器翻譯系統,該系統在調整后的BLEU 分數為37.10。文獻[3]提出了序列到序列的卷積英語機器翻譯模型,該模型的BLEU 分數為29.94。可見,研究人員大多將統計學、基于規則和基于知識的方法用于機器翻譯,而BLEU 得分被認為是訪問高質量的機器翻譯系統的唯一指標。本文使用基于神經網絡的深度學習[4-5]技術用于英語機器翻譯模型。與現有的方法相比,這種方法提供了一個良好的BLEU 分數,同時還使用了其他幾個指標來評估系統的質量。

1 神經機器翻譯(NMT)

神經機器翻譯[6]基本上由兩個神經網絡[5]組成:一個是編碼器[4],另一個是解碼器。

編碼器將源句子S作為一系列向量S=(x1,x2,…)進行編碼,也被稱為“思想”。在數學上可以表示為:

式中:W和U是權重;xt是當前輸入;ht-1是前一個隱藏狀態。

循環神經網絡[7-8]學習將變長的輸入序列編碼為固定向量,然后將向量解碼為變長序列。模型學習根據給定的序列p(y1,y2,…,|yT x1,x2,…,xT)進行預測。數學建模如下:

從編碼器的角度來看:

式中:ht是時間t的隱藏狀態和向量;c是隱藏狀態的綜合。

解碼器根據上下文詞預測下一個詞。從方程(2)中可以得到解碼器端的P(yi,yi-1,…,y1,x,c)表示為:

式中:yi-1是之前預測的目標;si-1是解碼器的前一個隱藏狀態;ci是詞的上下文,并且可以用以下數學式表示:

2 系統設計

標準英語文本翻譯包括以下不同階段:源語言[9]和目標語言的預處理、詞嵌入[9]、編碼、解碼,然后生成目標文本。工作流程如圖1 所示。

圖1 工作流程

1)預處理。語料預處理是開發任何神經機器翻譯系統中最重要的任務,并行語料的預處理對于神經或統計模型的開發至關重要。其具體步驟包括大小寫轉換、分詞和清理。

2)填充句子。預處理之后,在將文本作為輸入傳遞給循環神經網絡[10]或LSTM[11]時,某些句子自然會更長或更短,它們的長度不一致,故需要填充句子保證長度一致。

3)詞嵌入。本文使用GloVe(用于單詞表示的全局向量)有效地學習單詞向量,并結合LSA[12]等矩陣分解技術和基于局部上下文的學習,類似于word2vec[13]。

4)編碼器。編碼器負責生成代表源語言意義的思考向量或上下文向量。編碼過程中使用了一些符號表示:xt是時間步t的輸入;ht和ct是時間步t的LSTM 內部狀態;yt是時間步t產生的輸出。

以一個簡單句子“How are you,sir?”為例。這個序列可以被視為由4 個單詞組成的句子。在這里:x1是“How”,x2是“are”,x3是“you”,x4是“sir”。

該序列將在4 個時間步中被讀取,如圖2 所示。

圖2 由LSTM 編碼器讀取的句子

在t=1時,它記住了LSTM 單元讀取了“How”;在t=2時,它回憶起LSTM 讀取了“How are”;在t=4時,最終的狀態h4和c4記住了完整的序列“How are you,sir?”。

初始狀態h0和c0被初始化為零向量。編碼器接收上述形式的單詞序列xs=作為輸入,并計算出思考向量v={hc,vc},其中hc表示最終的外部隱藏狀態,在處理完最后一個輸入序列后獲得,vc是最終的細胞狀態。可以用數學表示為vc=cL和vh=hL。

5)上下文向量。上下文向量成為解碼器的起始狀態,LSTM 解碼器不以零作為初始狀態,而是將上下文向量作為初始狀態。

6)解碼器。編碼器-解碼器的架構如圖3 所示。

圖3 編碼器-解碼器的架構

解碼器狀態使用上下文向量v={vh,vc}作為初始化,其中h0=vh和c0=vc,h0和c0∈LSTMdec。上下文向量是連接編碼器和解碼器的重要紐帶,形成端到端學習的端到端計算鏈。

編碼器和解碼器之間唯一共享的是上下文向量v,因為它是解碼器關于源語言句子的唯一可用信息。通過以下方程計算出翻譯句子的第m個預測:

3 訓練算法

所提出的系統訓練算法如下:

1)對源語言和目標語言的句子對進行預處理,xs=x1,x2,…,xL和yt=y1,y2,…,yL,如預處理部分所述。

2)使用GloVe 嵌入矩陣進行詞嵌入。創建一個嵌入層對象,embedding_layer=Embedding(num_words,EMBEDDING_SIZE,weights=embedding_matrix)。

3)將源語句xs=x1,x2,…,xLs輸入編碼器,并通過注意力層在xs的條件下獲取上下文向量v。

4)將解碼器的初始狀態(h0,c0)設置為上下文向量v。

5)使用解碼器預測與輸入句子xs相對應的目標句子使用softmax 函數計算第m個預測:

式中是詞匯表中第m個位置的argmax 詞匯。

6)使用分類交叉熵計算預測詞和實際詞在第m個位置的損失。損失函數在時間t上對整個詞匯表進行計算:

式中:j表示詞匯表V中的單詞索引;(yt,j)表示時間t上單詞j的預測概率。

7)通過更新權重矩陣(W,U,V)和softmax[14]層來優化編碼器和解碼器,使其損失最小化,可以使用梯度下降或適當的優化算法進行優化。

4 注意力機制

從概念上講,注意力被視為一個單獨的層,它的責任是為解碼過程的第i個時間步產生ci。ci的計算過程如下所示:

式中eij是計算si時編碼器的第j個隱藏狀態和解碼器的上一個狀態的重要性或貢獻因子,其表達式如下:

5 實驗設計

5.1 超參數

1)batch_size:批處理大小應該選擇得非常謹慎,因為神經機器翻譯在運行時需要相當大的內存。

2)num_nodes:表示LSTM 中隱藏節點的數量。

3)embedding_size:向量的維度。

5.2 評估過程

1)BLEU 得分

BLEU 得分是通過計算機翻譯輸出與參考翻譯相對應的單詞數來計算的。BLEU 得分在0~1 或0~100 之間,0 表示沒有匹配,1 表示完全匹配,這對于所有測試句子來說是不可能的。BLEU 得分的計算公式如下:

精度通常偏好較短的句子。這在評估中引發了一個問題,即機器翻譯可能會為較長的參考句子生成較短的句子,但仍具有較高的精度。為了避免這種情況,引入了簡潔度懲罰,其中,Wn是修改后的n-gram 精度pn的權重。簡潔度懲罰(bp)的計算公式如下:

式中:c是候選句子的長度;r是參考句子的長度。

2)NIST

NIST 的計算公式如下:

式中:β是短句懲罰因子的權重表示所有參考翻譯中的平均詞數;Lsys表示候選句子中的平均詞數。

3)詞錯誤率

詞錯誤率是基于Levenshtein 距離的計算方法[15]。

4)Meteor

首先計算單字精確率(Unigram Precision),然后計算單字召回率(Unigram Recall),最后使用調和平均值將這兩個值結合起來。

對于較長的匹配部分,使用懲罰值(penalty):

最終得分計算如下:

5.3 結果

模型經過多次模擬以獲取多個評估指標的值,如表1 所示,平均BLEU 分數為45.83。

表1 多個評估指標的數值

表1 值的圖形表示如圖4 所示。從圖中可以明顯看出,當詞錯誤率增加時,BLEU 分數下降;而當詞錯誤率減少時,BLEU 分數增加。這是因為錯誤越多,詞錯誤率越高,BLEU 分數越低;當詞錯誤率較低時,表示翻譯質量較好,所以BLEU 分數較高。

圖4 圖表化各種指標

6 結論

神經機器翻譯是機器翻譯研究中的一種新范式。本文提出了一種基于LSTM 的深度學習編碼-解碼模型。研究中使用了Bahdanau 注意機制[16]。為了評估所提出系統的效率,本文使用了多個自動評估指標,如BLEU、F-measure、NIST、WER 等。經過大量模擬得出,所提出的系統平均BLEU 分數為45.83。

猜你喜歡
單詞
What’s This?
Exercise 2
Exercise 4
Exercise 6
Exercise 1
Exercise 3
Exercise 5
單詞連一連
看圖填單詞
看完這些單詞的翻譯,整個人都不好了
主站蜘蛛池模板: 国产成人综合久久| 亚洲码在线中文在线观看| 久草性视频| 国产噜噜在线视频观看| 欧美一区二区三区欧美日韩亚洲 | 美女免费黄网站| 国产综合欧美| 亚洲专区一区二区在线观看| 毛片三级在线观看| 中文字幕无码制服中字| 亚洲AV色香蕉一区二区| 国产亚洲男人的天堂在线观看| 在线综合亚洲欧美网站| 毛片基地视频| yy6080理论大片一级久久| 久久中文无码精品| 无码高清专区| 日韩小视频在线播放| 亚洲人成在线免费观看| 欧美一级高清免费a| 91精品国产自产91精品资源| 免费大黄网站在线观看| 久久亚洲AⅤ无码精品午夜麻豆| 亚洲第一国产综合| 丁香婷婷在线视频| 欧美色丁香| 国产精品片在线观看手机版 | 免费Aⅴ片在线观看蜜芽Tⅴ| 久久精品中文无码资源站| 欧美一级夜夜爽| 国产成年女人特黄特色毛片免 | 欧类av怡春院| 国产免费久久精品99re丫丫一| av在线5g无码天天| 国产在线观看成人91| 丁香六月激情综合| 国产无码性爱一区二区三区| 亚洲狠狠婷婷综合久久久久| 中文字幕 欧美日韩| 在线播放国产一区| 97精品久久久大香线焦| 国内精自视频品线一二区| 国内自拍久第一页| 国产精品人莉莉成在线播放| 国产在线拍偷自揄观看视频网站| 国产精品亚洲一区二区三区在线观看 | 国产亚洲精品无码专| 欧美成一级| 欧美日韩一区二区在线播放| 夜色爽爽影院18禁妓女影院| 日韩毛片在线播放| 91色老久久精品偷偷蜜臀| 久久夜色精品国产嚕嚕亚洲av| 国产午夜无码片在线观看网站| 精品天海翼一区二区| 色网站在线免费观看| 91精品啪在线观看国产60岁| 欧美视频二区| 亚洲国产精品不卡在线 | 精品一区二区三区四区五区| 亚洲人成影视在线观看| 成年看免费观看视频拍拍| 国产精品嫩草影院视频| 欧美高清日韩| 天天色综网| 欧美成人在线免费| 午夜性刺激在线观看免费| 男女精品视频| 国产第八页| 亚洲无限乱码| 18禁色诱爆乳网站| 亚洲中文字幕av无码区| www成人国产在线观看网站| 狠狠躁天天躁夜夜躁婷婷| 国产波多野结衣中文在线播放| 亚洲永久精品ww47国产| 精品视频一区在线观看| 亚洲国模精品一区| 青青草国产在线视频| 日本午夜在线视频| 日本在线欧美在线| 亚洲精品免费网站|