999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于注意力機(jī)制和殘差連接的BiLSTM-CNN 文本分類

2019-07-25 08:03:16關(guān)立剛陳平華
現(xiàn)代計(jì)算機(jī) 2019年17期
關(guān)鍵詞:單詞分類特征

關(guān)立剛,陳平華

(廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣州510006)

0 引言

隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,每天產(chǎn)生的文本數(shù)據(jù)呈爆炸式增長[1]。由于文本數(shù)據(jù)的混亂,很難通過手工方式進(jìn)行組織和區(qū)分。文本分類是計(jì)算機(jī)應(yīng)用于根據(jù)特定的分類系統(tǒng)或標(biāo)準(zhǔn)自動(dòng)分類文本集[2-3]。在文本分類中,如何通過預(yù)處理獲取文本特征信息,一直是學(xué)界研究的熱點(diǎn)問題[4]。隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,相比較于傳統(tǒng)的文本分類算法如樸素貝葉斯、支持向量機(jī)(Support Vector Machine,SVM)等[5-8],深度學(xué)習(xí)在文本分類上的應(yīng)用所取得了更好的效果。

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種前饋神經(jīng)網(wǎng)絡(luò),最初受到貓眼視覺機(jī)制的啟發(fā)[9],它的神經(jīng)元可以響應(yīng)部分覆蓋范圍的周圍區(qū)域,并且在圖像識別和語音識別等任務(wù)中具有出色的性能[10]。與其他深度學(xué)習(xí)結(jié)構(gòu)相比,CNN 需要的參數(shù)少。Kalchbrenner 提出將CNN 應(yīng)用于自然語言處理并設(shè)計(jì)動(dòng)態(tài)神經(jīng)網(wǎng)絡(luò)(DNN)來處理不同長度的文本[11];Kim 將經(jīng)過預(yù)處理的詞向量作為輸入,利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)句子級別的分類任務(wù)[13]。

對于序列化數(shù)據(jù)的輸入,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能夠獲取文本的全局特征信息[14],類似于人擁有記憶能力。在RNN 中,對于輸入的序列數(shù)據(jù),讀取的當(dāng)前單詞輸出與之前的輸出有關(guān)聯(lián)。但是在傳統(tǒng)的RNN 中,會出現(xiàn)梯度消失和梯度爆炸等問題[15]。

為了解決梯度爆炸問題,可在訓(xùn)練過程中使用梯度裁剪(gradient clipping),即在訓(xùn)練過程中,如果反向傳播的梯度大于所給的定值,將梯度進(jìn)行同比縮放[15]。在解決梯度消失問題時(shí),提出了長短期記憶(LSTM)。作為RNN 的子類,LSTM 不僅繼承了RNN 模型的優(yōu)點(diǎn),而且解決了RNN 的梯度消失問題。而且,它具有更強(qiáng)的“記憶能力”,可以更好地獲得文本的全局特征信息[17]。以LSTM 為基礎(chǔ)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional LSTM,BiLSTM)不僅可從前往后讀取文本,同時(shí)也從后往前讀取,能進(jìn)一步獲取文本的全局特征,從而提高文本分類的準(zhǔn)確率[18]。

本文的主要貢獻(xiàn)如下:

(1)將CNN 與BiLSTM 進(jìn)行結(jié)合。在提取文本特征信息時(shí),既可以讓CNN 提取文本局部特征,又可以讓BiLSTM 提取文本全局特征。

(2)結(jié)合注意力(Attention)機(jī)制,可以進(jìn)一步獲取對文本分類結(jié)果產(chǎn)生影響的重點(diǎn)單詞的特征。

(3)引入殘差連接,從而克服神經(jīng)網(wǎng)絡(luò)模型層數(shù)過深時(shí),神經(jīng)網(wǎng)絡(luò)的退化問題。

1 LSTM網(wǎng)絡(luò)

LSTM 作為升級版的循環(huán)神經(jīng)網(wǎng)絡(luò),其基本神經(jīng)元由一個(gè)記憶單元(Constant Error Carrousel,CEC)和三種門(Gate)結(jié)構(gòu)組成,其中CEC 是LSTM 的重點(diǎn)。CEC是一種自連接單元,可保留持久的記憶信號,使LSTM能夠編碼遠(yuǎn)距離上下文歷史信息[19]。LSTM 模型中三種門分別是遺忘門(Forget Gate)、輸入門(Input Gate)和輸出門(Output Gate)。LSTM 依靠門信號對信息進(jìn)行添加和刪除,其中信號值1 表示“讓所有信息通過”、信號值0 表示“不讓任何信息通過”。圖1 是LSTM 神經(jīng)元的網(wǎng)絡(luò)結(jié)構(gòu)圖。

LSTM 中遺忘門表達(dá)式:

LSTM 中輸入門表達(dá)式:

LSTM 中CEC 更新表達(dá)式:

LSTM 中輸出門表達(dá)式:

表1 LSTM 符號說明

2 深層注意力殘差BiLSTM-CNN模型

2.1 BiLSTM模型

作為傳統(tǒng)的序列模型,LSTM 通常只在一個(gè)方向上讀取文本。圖3 表示從后往前讀取文本的后向LSTM模型。

圖1 LSTM模型

圖2 模型

圖3 模型

由于自然語言具有結(jié)構(gòu)依賴性,依靠實(shí)現(xiàn)文本分類將忽略單詞的語境含義[15],即文本單詞之間的關(guān)系是雙向的。以從前往后讀取文本的模型為例,對于讀取的當(dāng)前詞而言,不僅僅之前讀取的單詞為其提供信息,之后的單詞也為其提供信息。例如,我身體現(xiàn)在很難受,所以我打算__一天。只依據(jù)“難受”,可以推出我打算“請假”、“去醫(yī)院”、“休息”等。但如果加上后面的“一天”,就排除了“去醫(yī)院”,能選擇的范圍就變小了,類似“請假”、“休息”之類的被選擇概率就會更大。因此,結(jié)合兩種模型的雙向信息流模型,雙向LSTM(Bidirectional LSTM,BiLSTM),可以更好地表示文本特征[20]。BiLSTM 模型如圖4 所示。

圖4 BiLSTM模型

2.2 BiLSTM-CNN模型

雖然BiLSTM 模型可用于提取文本中文本的全局信息特征,但是無法獲得文本的局部信息特征。并且文本向量的特征不能進(jìn)一步高維特征表示。因此卷積神經(jīng)網(wǎng)絡(luò)和BiLSTM 模型進(jìn)行融合。利用卷積神經(jīng)網(wǎng)絡(luò)對BiLSTM 模型獲取的文本信息特征矩陣和文本的輸入信息矩陣進(jìn)行拼接得到新的特征矩陣,對其進(jìn)行卷積獲取文本信息特征的進(jìn)一步抽取。解決了BiLSTM 無法獲取文本的局部特征和單卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型無法得到單詞在上下文語義的問題。圖5是BiLSTM-CNN 模型的結(jié)構(gòu)圖。

圖5 CNN模塊

在圖5 中,xj(j=1,…,n)是文本中的第j 個(gè)單詞的輸入向量,其維度為K。和是第j 個(gè)單詞的輸入向量xj經(jīng)過BiLSTM 模型得到的特征向量,其維度分別是和。在圖5 中,將拼接后的向量作為該單詞的特征向量,其維度為,作為BiLSTM-CNN 模型的輸出。同時(shí)將其作為CNN 模塊的輸入向量,對其進(jìn)行一維卷積。CNN 模塊中的濾波器的數(shù)目為K。在圖5 中,使用K 個(gè)大小為的濾波器,padding 形式為same,得到了K 個(gè)特征向量。當(dāng)然,濾波器 的 大 小 可 以 為 其 他,例 如,等。

2.3 注意力殘差BiLSTM-CNN模型

為了實(shí)現(xiàn)文本的深度挖掘,我們可以通過多層神經(jīng)網(wǎng)絡(luò)的結(jié)果對BiLSTM-CNN 模型進(jìn)行分層并挖掘文本的深層特征[10]。但當(dāng)神經(jīng)網(wǎng)絡(luò)參數(shù)過多時(shí),會出現(xiàn)梯度消失和高層網(wǎng)絡(luò)參數(shù)更新停滯等問題,并且基于BiLSTM-CNN 模型的堆疊得到的神經(jīng)網(wǎng)絡(luò)無法獲取對文本分類結(jié)果產(chǎn)生影響的重點(diǎn)單詞的特征。因此本文針對BiLSTM-CNN 模型堆疊所產(chǎn)生的上述兩個(gè)問題提出了注意力殘差雙向LSTM(Deeply Attention Hierarchical BiLSTM-CNN ResNet,DAHBLCR)模型進(jìn)行改進(jìn)。在使用了LSTM 取代了傳統(tǒng)的RNN 之后,反向傳播中梯度消失的問題已不存在。但是,隨著網(wǎng)絡(luò)模型堆疊的層數(shù)過深,無法解決網(wǎng)絡(luò)的退化問題。引入殘差連接之后,可以解決網(wǎng)絡(luò)模型過深時(shí),每個(gè)層只有少量的隱藏單元對不同的輸入改變它們的激活值,而大部分隱藏單元對不同的輸入都是相同的反應(yīng)。可以幫助訓(xùn)練更深層次的神經(jīng)網(wǎng)絡(luò)。注意力機(jī)制會決定每個(gè)特征向量對分類結(jié)果的貢獻(xiàn)。例如,中國成功研發(fā)出一戰(zhàn)略合金,或?qū)⒋龠M(jìn)量產(chǎn)超音速導(dǎo)彈。“導(dǎo)彈”對于軍事新聞來說屬于重點(diǎn)單詞,而其他單詞為非重點(diǎn)單詞。

圖6 為DAHBLCR 模型結(jié)構(gòu)圖,在整個(gè)堆疊的深度神經(jīng)網(wǎng)絡(luò)模型中,每一層由BiLSTM-CNN、ResNet 和Attention 三個(gè)模塊組成。Attention 模塊如圖7 所示。

為了解決挖掘文本的深層特征信息,網(wǎng)絡(luò)層數(shù)而導(dǎo)致的梯度消失以及高層網(wǎng)絡(luò)中的特征很難有效的傳遞,而引入殘差網(wǎng)絡(luò)連接。如圖6 所示,在ResNeti模塊中輸入是xi-1和ci,輸出為

對于深度神經(jīng)網(wǎng)絡(luò)中第i 層中的BiLSTM-CNNi模塊來說,殘差網(wǎng)絡(luò)在模塊中的作用可以表示為:

圖6 Deeply Attention Hierarchical BiLSTM-CNN ResNet(DAHBLCR)模型

為了獲取對分類結(jié)果產(chǎn)生影響的重點(diǎn)單詞的特征,在深度神經(jīng)網(wǎng)絡(luò)第i 層中加入Attentioni模塊,如圖7 所示。在Attentioni模塊中,輸入是,輸出是。其中xi也是深度神經(jīng)網(wǎng)絡(luò)模型中第i+1 層的輸入。在Attentioni模塊中,注意力模型在模塊中的作用通過MLPi結(jié)構(gòu)表現(xiàn)出來。具體表示為:

式中,Wi為第i 層獲取的第j 個(gè)單詞的特征向量經(jīng)過一個(gè)神經(jīng)網(wǎng)絡(luò)獲取其隱層表示向量的狀態(tài)轉(zhuǎn)移參數(shù)矩陣,bi和對應(yīng)的偏置項(xiàng)。vi為隨機(jī)初始化的權(quán)值向量,用于對第j 個(gè)單詞的隱層表示向量進(jìn)行Softmax 標(biāo)準(zhǔn)化的參數(shù)向量。為第i 層獲中的第j 個(gè)單詞的權(quán)重。Wi,bi,vi的更新由模型訓(xùn)練時(shí)最小化損失函數(shù)反向傳播所獲得。

圖7 Attentioni 模塊

2.4 文本分類模型

在文本分類訓(xùn)練和測試中,本文將上面提出的DHABLCR 引入到文本分類模型中。如圖8 所示。

圖8 文本分類模型

對于訓(xùn)練中的文本矩陣w={w1,w2,w3,…,wn}由n的單詞組成,并且每個(gè)單詞是由分詞之后的詞向量經(jīng)過Word2Vec 獲得的128 維的詞向量。整個(gè)深度神經(jīng)網(wǎng)絡(luò)(DHABLCR)模型的層數(shù)為m,最終的輸出為,其中Max Pooling 層對輸入的序列xm中的第j 個(gè)單詞的輸入特征向量選擇最高值作為第j 個(gè)單詞的顯著特征,將上述n 個(gè)顯著特征拼接成一個(gè)n 維的向量,作為文本的顯著特征向量。最后,經(jīng)過一個(gè)Softmax 層進(jìn)行分類。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

為了驗(yàn)證模型的有效性與泛化能力,使用的數(shù)據(jù)集如下:

數(shù)據(jù)集1:20Newsgroups 數(shù)據(jù)集,該數(shù)據(jù)集的新聞主題個(gè)數(shù)為20 個(gè),新聞文檔的個(gè)數(shù)為20000 左右。

數(shù)據(jù)集2:復(fù)旦大學(xué)收集的開源數(shù)據(jù)集。其中類別數(shù)為20,本文從中選取了40000 條數(shù)據(jù)。

數(shù)據(jù)3:IDMB,一個(gè)大型的電影評論數(shù)據(jù)集,其中共有50000 條電影評論,每條評論含有積極和消極兩個(gè)情感標(biāo)簽。

并將上述3 份數(shù)據(jù)集,每份數(shù)據(jù)集劃分為訓(xùn)練集和測試集,大小比例為7:3。

3.2 實(shí)驗(yàn)參數(shù)

表2 模型的參數(shù)

3.3 分詞

對于本文實(shí)驗(yàn)中的中文數(shù)據(jù),采用的是Jieba 工具包對原始文本數(shù)據(jù)進(jìn)行分詞,英文數(shù)據(jù)直接使用空格進(jìn)行切分。

3.4 詞向量處理

將3.2 得到的分詞,經(jīng)過預(yù)訓(xùn)練好的Word2Vec 模型,將每個(gè)詞映射成200 維的詞向量。

3.5 實(shí)驗(yàn)環(huán)境和工具

實(shí)驗(yàn)環(huán)境:Ubuntu 16.04 操作系統(tǒng),CPU 為i7 6800K,顯卡為GTX 1080ti,內(nèi)存為16G Kingston 駭客神條DDR4 3000,以及SSD 硬盤為512G 浦科特M7VC SATA3 固態(tài)。

開發(fā)工具為:主要為TensorFlow,其他的為numpy、pandas、scipy、scikit-learn。

3.6 實(shí)驗(yàn)結(jié)果與分析

本文比較了文本分類與其他文獻(xiàn)方法的準(zhǔn)確性。

表3 20 Newsgroups 數(shù)據(jù)集

表4 復(fù)旦大學(xué)數(shù)據(jù)集

表5 IDMB 數(shù)據(jù)集

由表3-5 可知,基于上述所用的數(shù)據(jù)集,本文提出的模型不僅與基準(zhǔn)模型相比,如CNN、BiLSTM、CLSTM 和Attention Based LSTM,還與傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行對比,如SVM 和LDA。實(shí)驗(yàn)結(jié)果表明,本文提出的模型在與其他模型對比中提高了文本分類的準(zhǔn)確率,具有更優(yōu)越的性能。

4 結(jié)語

本文提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和BiLSTM 網(wǎng)絡(luò)的深度文本表示模型,并將其用于新聞分類任務(wù)中。該模型既能夠利用BiLSTM 雙向讀取文本的全局特征,又可以利用卷積神經(jīng)網(wǎng)絡(luò)獲取文本的局部特征。同時(shí)引入注意力機(jī)制使得能夠獲取文本中重點(diǎn)單詞的特征,同時(shí)引入殘差網(wǎng)絡(luò),使得本文提出的網(wǎng)絡(luò)模型在堆疊多層是不會出現(xiàn)梯度消失以及高層網(wǎng)絡(luò)中的參數(shù)更新停滯。實(shí)驗(yàn)結(jié)果證明了本文提出的模型在文本分類中遠(yuǎn)優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型、單CNN 模型和單BiLSTM 等基準(zhǔn)模型。

未來研究的重點(diǎn)是網(wǎng)絡(luò)模型層數(shù)與文本分類準(zhǔn)確度的關(guān)系,以及模型在小數(shù)據(jù)量的微博話題分類上的應(yīng)用。

猜你喜歡
單詞分類特征
分類算一算
單詞連一連
如何表達(dá)“特征”
不忠誠的四個(gè)特征
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
看圖填單詞
教你一招:數(shù)的分類
抓住特征巧觀察
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 国产成人综合网在线观看| 少妇精品网站| 国产激爽大片在线播放| 性网站在线观看| 手机永久AV在线播放| 99青青青精品视频在线| 久久精品国产精品国产一区| 国产区精品高清在线观看| 亚洲码一区二区三区| 精久久久久无码区中文字幕| 亚洲天堂高清| 中文无码日韩精品| 日本三级欧美三级| 日韩国产黄色网站| 亚欧美国产综合| 99久久这里只精品麻豆| 国产亚洲精品资源在线26u| 亚洲中文字幕在线一区播放| 91福利一区二区三区| 欧美一级专区免费大片| 亚洲国产在一区二区三区| 人妻21p大胆| 欧美成人一级| 人妻21p大胆| 国产在线精品香蕉麻豆| 久久综合九色综合97婷婷| 中文无码毛片又爽又刺激| 亚洲天堂区| 天天做天天爱天天爽综合区| 国产色婷婷视频在线观看| 欧美国产精品不卡在线观看| 久久精品视频亚洲| 成人伊人色一区二区三区| 国产永久在线视频| 国产成人a在线观看视频| 精品视频91| 69精品在线观看| 日本免费新一区视频| 激情国产精品一区| 国产午夜在线观看视频| 美女视频黄又黄又免费高清| 日韩二区三区| 久久这里只有精品免费| 亚洲国产午夜精华无码福利| 亚洲手机在线| 一级成人a做片免费| 国产成人综合亚洲欧美在| 国产亚洲成AⅤ人片在线观看| 中国黄色一级视频| 亚洲品质国产精品无码| 爱色欧美亚洲综合图区| 人人爽人人爽人人片| 亚洲伊人久久精品影院| 国产精品女同一区三区五区| 免费欧美一级| 色综合婷婷| 欧美在线网| 亚洲高清无在码在线无弹窗| 亚洲不卡av中文在线| 欧美成人免费| 国产欧美日韩综合在线第一| 波多野结衣一区二区三视频| 亚国产欧美在线人成| 91亚洲精选| 精品自拍视频在线观看| 久久永久免费人妻精品| 色一情一乱一伦一区二区三区小说| 国产一级精品毛片基地| 熟女视频91| AV片亚洲国产男人的天堂| 91亚洲影院| 无码专区在线观看| 久久久久久尹人网香蕉 | 日韩精品久久久久久久电影蜜臀| 日韩美一区二区| 日本不卡在线视频| 国产日本视频91| 国产在线98福利播放视频免费| 亚洲综合专区| 五月天天天色| 波多野结衣一区二区三区四区视频 | 免费全部高H视频无码无遮掩|