999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于RNN和Transformer模型的自然語(yǔ)言處理研究綜述

2021-02-14 08:23:38李華旭
信息記錄材料 2021年12期
關(guān)鍵詞:深度記憶模型

李華旭

(廣西民族大學(xué)電子信息學(xué)院 廣西 南寧 530000)

1 引言

人工智能[1](artificial intelligence)起源于20世紀(jì)50年代,是計(jì)算機(jī)科學(xué)研究的重點(diǎn)之一。目前,人工智能已經(jīng)成為計(jì)算機(jī)科學(xué)領(lǐng)域不可或缺的一部分,其在科技領(lǐng)域也受到廣泛重視,如機(jī)器人控制[2]、智能圖像處理、軌道衛(wèi)星定位等。

深度學(xué)習(xí)(deep learning)是人工智能的深層次理論。深度學(xué)習(xí)是通過(guò)訓(xùn)練數(shù)據(jù)參數(shù)來(lái)達(dá)到學(xué)習(xí)訓(xùn)練樣本的內(nèi)部規(guī)律以及樣本的表示層次。深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)由輸入層、隱藏層和輸出層所構(gòu)成。深度學(xué)習(xí)與普通的淺層次學(xué)習(xí)最大的不同就在于其神經(jīng)網(wǎng)絡(luò)的層數(shù)更深,通過(guò)對(duì)輸入特征進(jìn)行逐層地變換并向更深層次傳播,這樣就能夠?qū)⑻卣鲝脑臻g轉(zhuǎn)換到一個(gè)新的特征空間從而使數(shù)據(jù)分析更加容易,當(dāng)增加網(wǎng)絡(luò)層數(shù)后,網(wǎng)絡(luò)可以進(jìn)行更加復(fù)雜的特征模式的提取,所以當(dāng)模型更深時(shí)理論上可以取得更好的結(jié)果。

但更深的網(wǎng)絡(luò)層數(shù)并不一定會(huì)有更好的性能,當(dāng)網(wǎng)絡(luò)深度不斷增加時(shí),網(wǎng)絡(luò)的準(zhǔn)確度就會(huì)出現(xiàn)飽和,甚至出現(xiàn)下降,即過(guò)擬合,為解決這一問(wèn)題,何凱明提出了著名的深度殘差網(wǎng)絡(luò)[3](deep residual network,ResNet)。由于ResNet對(duì)減輕深層網(wǎng)絡(luò)退化有著重要作用,ResNet這一網(wǎng)絡(luò)結(jié)構(gòu)對(duì)后來(lái)的各種網(wǎng)絡(luò)模型的構(gòu)建都有著重要的影響。目前深度學(xué)習(xí)的主要研究方向有數(shù)字圖像處理(digital image processing)和自然語(yǔ)言處理(natural language processing,NLP)等,后文將對(duì)自然語(yǔ)言處理方向的技術(shù)進(jìn)行綜述并對(duì)NLP相關(guān)技術(shù)進(jìn)行說(shuō)明。

2 自然語(yǔ)言處理

2.1 自然語(yǔ)言處理定義

自然語(yǔ)言處理(NLP)是一門(mén)用來(lái)分析人類(lèi)語(yǔ)言以及對(duì)相關(guān)信息進(jìn)行處理的人工智能方向技術(shù)。通過(guò)對(duì)NLP的研究,我們能夠?qū)崿F(xiàn)人類(lèi)和計(jì)算機(jī)系統(tǒng)之間使用自然語(yǔ)言進(jìn)行交互,由于NLP本身需要運(yùn)用語(yǔ)言學(xué)、數(shù)學(xué)以及計(jì)算機(jī)科學(xué)等方面的技術(shù),所以NLP是一門(mén)綜合性的人工智能技術(shù)。NLP并不是簡(jiǎn)單去研究人所使用的自然語(yǔ)言,而是著重于人和計(jì)算機(jī)系統(tǒng)的交互,通過(guò)分析語(yǔ)義來(lái)給出相應(yīng)的結(jié)果。

自然語(yǔ)言處理的工作大致可劃分為下面幾個(gè)步驟:首先,接受人類(lèi)的自然語(yǔ)言;其次,通過(guò)信息提取,將自然語(yǔ)言轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù);最后,通過(guò)分析數(shù)據(jù)得出結(jié)果并輸出。自然語(yǔ)言處理應(yīng)用廣泛,其中包括人機(jī)對(duì)話交流、語(yǔ)言翻譯、情感分析、語(yǔ)音識(shí)別、搜索引擎、社交網(wǎng)站推送等。

自然語(yǔ)言處理(NLP)的研究主要是運(yùn)用計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)這兩門(mén)學(xué)科的有關(guān)技術(shù)和知識(shí)。通常的計(jì)算機(jī)程序是由相關(guān)的算法和其對(duì)應(yīng)數(shù)據(jù)結(jié)構(gòu)所組成,而自然語(yǔ)言處理則是由語(yǔ)義結(jié)構(gòu)與計(jì)算機(jī)模型所構(gòu)成。所以,NLP的主要任務(wù)也就和語(yǔ)言學(xué)所研究的內(nèi)容相似,主要就是分析單詞、詞性、語(yǔ)法、上下文的語(yǔ)義等,而為了實(shí)現(xiàn)語(yǔ)言的分析就必須要對(duì)神經(jīng)網(wǎng)絡(luò)模型和優(yōu)化算法進(jìn)行設(shè)計(jì)。

2.2 循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)始于20世紀(jì)80年代,于21世紀(jì)初發(fā)展成為深度學(xué)習(xí)的重要神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之一。RNN的輸入是一連串的序列型數(shù)據(jù),這些序列就像人的語(yǔ)言,是一整句話,甚至是一篇文章。對(duì)于人所表達(dá)的語(yǔ)句來(lái)說(shuō),要想理解一句話的意義就必須要結(jié)合語(yǔ)句中的上下文,對(duì)于理解文章的意思就更是如此,而且也更加的復(fù)雜。

通常的神經(jīng)網(wǎng)絡(luò)主要由輸入層、隱藏層和輸出層所構(gòu)成,其結(jié)構(gòu)見(jiàn)圖1。

圖1 簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)

在神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中,給定輸入并通過(guò)反向傳播和優(yōu)化算法(如梯度下降算法)對(duì)模型進(jìn)行調(diào)整,最終輸出結(jié)果。但這種簡(jiǎn)單的網(wǎng)絡(luò)只能簡(jiǎn)單處理每一個(gè)輸入的數(shù)據(jù),而并沒(méi)有在輸入的數(shù)據(jù)之間建立起它們相互的關(guān)系,即先后輸入的數(shù)據(jù)之間是完全獨(dú)立的。所以這種網(wǎng)絡(luò)結(jié)構(gòu)就不能滿足對(duì)自然語(yǔ)言處理的需求,為了解決這一問(wèn)題于是就出現(xiàn)了RNN模型。

與普通的神經(jīng)網(wǎng)絡(luò)相比,RNN最大的優(yōu)點(diǎn)便是能將每個(gè)單詞同它所處的語(yǔ)句中上下文部分都聯(lián)系起來(lái),這就不僅僅是對(duì)獨(dú)立的單詞做處理而是將其所處的語(yǔ)境也一起納入計(jì)算的步驟當(dāng)中,從而讓整個(gè)模型更好地去理解自然語(yǔ)言。RNN相比圖1中的全連接神經(jīng)網(wǎng)絡(luò),加入了循環(huán)核(Cell)來(lái)提取特征,結(jié)構(gòu)見(jiàn)圖2。

圖2 RNN循環(huán)核

循環(huán)核通過(guò)不同時(shí)刻對(duì)于參數(shù)W進(jìn)行共享,實(shí)現(xiàn)了對(duì)時(shí)間序列的特征提取。在圖2a中Xt與Yt分別對(duì)應(yīng)數(shù)據(jù)的輸入和輸出特征,Ct用于存儲(chǔ)不同時(shí)刻的狀態(tài)信息,U、V、W均為參數(shù)矩陣,其中:

注:Bc、By為偏置項(xiàng),Ct-1表示上一時(shí)刻Cell中存儲(chǔ)的狀態(tài)信息。

在神經(jīng)網(wǎng)絡(luò)的前向傳播過(guò)程當(dāng)中,Cell中存儲(chǔ)的狀態(tài)信息在不同的時(shí)刻都會(huì)根據(jù)上式進(jìn)行修改,而參數(shù)矩陣U、V、W是固定的,并不會(huì)隨時(shí)刻的變化而改變。在反向傳播的過(guò)程中,參數(shù)矩陣U、V、W會(huì)依據(jù)梯度下降算法產(chǎn)生更新。把循環(huán)核按照時(shí)間軸方向展開(kāi)就能得到圖2b所示的情形,能更加直觀地理解整個(gè)訓(xùn)練過(guò)程。同樣的,在不同時(shí)刻Cell中的信息依據(jù)公式計(jì)算而被刷新,U、V、W保持不變。通過(guò)訓(xùn)練對(duì)參數(shù)矩陣U、V、W進(jìn)行優(yōu)化,在訓(xùn)練結(jié)束之后選擇效果最好的一組U、V、W參數(shù)矩陣來(lái)執(zhí)行前向傳播,并輸出結(jié)果,即可得到最終的預(yù)測(cè)值。

2.3 長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)

傳統(tǒng)的RNN可以通過(guò)記憶體實(shí)現(xiàn)短期記憶,從而達(dá)到實(shí)現(xiàn)連續(xù)數(shù)據(jù)的預(yù)測(cè)效果。但是,在數(shù)據(jù)變得較長(zhǎng)的時(shí)候,會(huì)導(dǎo)致序列展開(kāi)時(shí)間過(guò)長(zhǎng)。而在反向傳播更新參數(shù)矩陣的過(guò)程中,由于梯度會(huì)根據(jù)時(shí)刻的變化來(lái)進(jìn)行連續(xù)相乘,這樣就會(huì)導(dǎo)致梯度的消失。

為了解決普通循環(huán)神經(jīng)網(wǎng)絡(luò)中存在的長(zhǎng)期依賴問(wèn)題所導(dǎo)致的梯度消失問(wèn)題,于是誕生了長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)[4](long short-term memory,LSTM)。LSTM的結(jié)構(gòu)見(jiàn)圖3。

圖3 LSTM結(jié)構(gòu)圖

LSTM引入了門(mén)限的概念,分為輸入門(mén)限(It)、遺忘門(mén)限(Ft)和輸出(Ot)門(mén)限,具體公式如下:

在公式(2)中,Vt為當(dāng)前的輸入特征,Yt-1為上個(gè)時(shí)刻的輸出,Wi、Wf、Wo是每個(gè)門(mén)限所對(duì)應(yīng)的參數(shù)矩陣,Bi、Bf、Bo則是相應(yīng)的偏置項(xiàng),這一點(diǎn)與圖2a中類(lèi)似。

這種神經(jīng)網(wǎng)絡(luò)最重要的部分便是提出了長(zhǎng)期記憶(Ct)與短期記憶(Yt),以及把兩者相結(jié)合所得出的新記憶(Xt)。Ct、Yt、Xt的計(jì)算公式如下:

注:Wx為參數(shù)矩陣,Bx為偏置項(xiàng)。

長(zhǎng)期記憶(Ct)由上個(gè)時(shí)刻的長(zhǎng)期記憶與新記憶乘以不同的門(mén)限,即取不同的比例然后相加所得,而短期記憶(Yt)則是從當(dāng)前輸出的長(zhǎng)記憶中經(jīng)過(guò)輸出門(mén)(Ot)過(guò)濾后所剩下的內(nèi)容,對(duì)于新記憶(Xt)則是由之前的短期記憶與當(dāng)前輸入的新特征(Vt)組合而成。

3 Transformer模型

3.1 Attention機(jī)制

注意力機(jī)制(Attention)最初是產(chǎn)生于對(duì)人類(lèi)視覺(jué)相關(guān)的研究,模仿人類(lèi)觀察事物時(shí)會(huì)有選擇地去關(guān)注事物的一分特征,而忽略事物的其他一些信息。傳統(tǒng)的sequence-to-sequence模型自身存在一些缺點(diǎn),例如,對(duì)較長(zhǎng)的輸入序列進(jìn)行壓縮時(shí)會(huì)導(dǎo)致其中一些關(guān)鍵信息的丟失,這種模型也沒(méi)辦法在輸入和輸出序列之間的對(duì)齊進(jìn)行建模,這也會(huì)導(dǎo)致輸出結(jié)果由于受輸入序列的某些部分的影響而與期望結(jié)果相差許多。

Attention機(jī)制就是查詢(query)到主鍵(key)和值(value)對(duì)的映射,見(jiàn)圖4。在這里首先計(jì)算Query和每個(gè)Key進(jìn)行點(diǎn)乘計(jì)算(MatMul),然后再使用Softmax函數(shù)進(jìn)行歸一化從而來(lái)得到Q與K之間的相關(guān)性即權(quán)重,最后再用所得權(quán)重與V進(jìn)行點(diǎn)乘得到最終值。

圖4 Attention結(jié)構(gòu)圖

3.2 Multi-head Self-attention機(jī)制

如圖5所示:對(duì)于普通的Attention而言,在尋找Q與K之間的相關(guān)性時(shí)總是單個(gè)地去對(duì)應(yīng),即Q、K只有一個(gè),而對(duì)于較為復(fù)雜語(yǔ)音或語(yǔ)言而言,通常不同字句之間有很多種不同的關(guān)系,所以這是單個(gè)Q、K之間的對(duì)應(yīng)關(guān)系就不太能過(guò)夠完整推導(dǎo)出語(yǔ)句的完整意義,所以就增加了Q、K、V的數(shù)量,即Multi-head Self-attention[5]。

圖5 Multi-head Self-attention結(jié)構(gòu)圖

圖5a為多頭注意力的結(jié)構(gòu)示意圖,圖5b為多頭注意力中按比縮放的點(diǎn)積注意力部分的內(nèi)部結(jié)構(gòu)。Transformer使用的多頭注意力機(jī)制有3個(gè)輸入:Q、K、V,其中按比縮放的點(diǎn)積注意力所對(duì)應(yīng)的公式如下:

由于當(dāng)深度(dK)比較大的時(shí)候會(huì)導(dǎo)致點(diǎn)積結(jié)果增大,就會(huì)讓Softmax函數(shù)向梯度較小的方向變化,從而產(chǎn)生梯度的消失,在公式(4)中,通過(guò)將點(diǎn)積注意力(QKT)除以深度(dK)的平方根,就解決了這一問(wèn)題。

對(duì)于Multi-head Self-attention而言,它與LSTM的計(jì)算方式完全不一樣,它在計(jì)算的時(shí)候總是將全部的信息同時(shí)進(jìn)行點(diǎn)乘,而LSTM則是按順序一次進(jìn)行運(yùn)算,這樣做雖然提高了并行計(jì)算的效率,但是卻缺少了有用的相關(guān)位置信息。

3.3 Positional Encoding

由于Transformer模型中的Multi-head Selfattention[6]機(jī)制沒(méi)有包含不同元素之間的位置信息,于是就給輸入數(shù)據(jù)加上了一種位置編碼,對(duì)應(yīng)公式如下:

在公式(5)中,pos代表每個(gè)詞在語(yǔ)句之中的位置,dmodel表示詞向量的維度,i為詞向量的位置。通過(guò)將位置信息除以10002i/dmodel,就能讓sin和cos的表示范圍從2π擴(kuò)展到1000π,最后在將其與源數(shù)據(jù)相加即可得到包含有位置編碼的數(shù)據(jù)。當(dāng)輸入的pos值為50,dmodel為100時(shí),編碼效果見(jiàn)圖6。

圖6 Positional Encoding

3.4 Transfomer小結(jié)

與之前的LSTM模型相比,Transformer模型完全采用Self-attention機(jī)制代替了LSTM所使用的RNN模型結(jié)構(gòu),并在自然語(yǔ)言翻譯方面取得了更好的效果。Transformer進(jìn)行并行計(jì)算,而不是和RNN那樣序列化地計(jì)算,提高了計(jì)算效率,Transformer能夠?qū)W習(xí)長(zhǎng)距離元素之間的關(guān)系依賴,并解決了傳統(tǒng)RNN在序列過(guò)長(zhǎng)時(shí)產(chǎn)生的梯度消失問(wèn)題,同時(shí)Selfattention機(jī)制也能更好地解釋模型。但Transformer也有一些缺點(diǎn),如計(jì)算量相對(duì)巨大,多頭機(jī)制中的無(wú)效信息有很多等。

4 結(jié)語(yǔ)

自然語(yǔ)言處理作為人工智能領(lǐng)域的一個(gè)重要方向,相關(guān)的技術(shù)已經(jīng)得到了越來(lái)越廣泛的應(yīng)用。從全連接神經(jīng)網(wǎng)絡(luò)到RNN再到Transformer,然后是基于Transformer框架的BERT[7-8],無(wú)疑讓自然語(yǔ)言處理的能力更近了一步。雖然Transformer模型計(jì)算量巨大,但隨著計(jì)算機(jī)計(jì)算能力的提高便能夠?qū)Ω育嫶蟮臄?shù)據(jù)加以處理。未來(lái)的自然語(yǔ)言處理研究仍要圍繞算法的優(yōu)化,運(yùn)用語(yǔ)言學(xué)以及其他學(xué)科的技術(shù)進(jìn)行更深層次的語(yǔ)義分析等方面進(jìn)行。相信,隨著越來(lái)越多新技術(shù)的出現(xiàn),自然語(yǔ)言處理的研究將取得更高的成就。

猜你喜歡
深度記憶模型
一半模型
深度理解一元一次方程
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
深度觀察
深度觀察
深度觀察
記憶中的他們
3D打印中的模型分割與打包
兒時(shí)的記憶(四)
主站蜘蛛池模板: 亚洲欧美另类日本| 国产偷国产偷在线高清| 欧美成人日韩| 亚洲成aⅴ人在线观看| 中文字幕伦视频| 91在线国内在线播放老师| 国产精品久久自在自2021| 午夜欧美在线| 国产在线视频自拍| 亚洲国产精品不卡在线| 久久久久久久久亚洲精品| 欧美日韩亚洲综合在线观看| 婷婷亚洲最大| 日本人又色又爽的视频| 日韩精品专区免费无码aⅴ| 尤物成AV人片在线观看| 黄色网站在线观看无码| 精品少妇人妻av无码久久| 少妇精品在线| 色视频国产| 亚洲激情99| 色婷婷综合激情视频免费看| 第一页亚洲| 国内精品手机在线观看视频| 久久亚洲美女精品国产精品| 91福利国产成人精品导航| 啦啦啦网站在线观看a毛片| 美女国产在线| 国产日韩精品一区在线不卡| 欧美一区二区福利视频| 最近最新中文字幕在线第一页| 美女一区二区在线观看| 91人妻在线视频| 日本高清有码人妻| 久久成人免费| 国产一级精品毛片基地| 精品国产福利在线| 成人一级免费视频| 在线无码私拍| 国产精品19p| 高清国产在线| 在线人成精品免费视频| 国产精品永久不卡免费视频| 亚洲日韩日本中文在线| 国产91导航| 久久久久久久久亚洲精品| 四虎永久在线| 91成人精品视频| 日本精品中文字幕在线不卡| 欧美国产日产一区二区| 久草中文网| 9丨情侣偷在线精品国产| 亚洲熟妇AV日韩熟妇在线| 国产在线视频欧美亚综合| 欧美日本在线| 国产精品理论片| 亚洲高清中文字幕| 亚洲人成成无码网WWW| 亚洲成A人V欧美综合| 色妞永久免费视频| 国产精品视频久| 一级黄色网站在线免费看| 亚洲愉拍一区二区精品| 丁香五月亚洲综合在线| 巨熟乳波霸若妻中文观看免费| 91视频区| aⅴ免费在线观看| 亚洲欧美色中文字幕| 欧美激情福利| 91九色视频网| 欧美一级专区免费大片| 国内精品小视频在线| 国产精品亚洲一区二区三区在线观看 | 综合亚洲网| h视频在线观看网站| 国产一区二区三区日韩精品 | 欧美 国产 人人视频| 福利视频一区| 国产精品永久不卡免费视频| 亚洲精品无码久久毛片波多野吉| 一级毛片在线播放| 欧洲熟妇精品视频|