999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分層式CNN的長文本情感分類模型

2022-04-21 07:24:18徐逸舟陸黎明
計算機(jī)工程與設(shè)計 2022年4期
關(guān)鍵詞:分類文本情感

徐逸舟,林 曉,陸黎明

(上海師范大學(xué) 信息與機(jī)電工程學(xué)院,上海 200234)

0 引 言

電影評論的文本情感分類任務(wù)與文本分類[1]類似,本質(zhì)上是將文本歸類到某一預(yù)定義標(biāo)簽的特定類別。目前常用的方法可以分為3類:①基于詞典和語義分析等方法[2]。這類方法主要通過人工制定語義規(guī)則,通常需要針對特定領(lǐng)域來建立相應(yīng)情感詞典,有很大的局限性。②使用傳統(tǒng)機(jī)器學(xué)習(xí)的方法[3]。主要基于監(jiān)督學(xué)習(xí),利用樸素貝葉斯[4]、支持向量機(jī)[5]等算法。這些方法都可以被劃分為淺層學(xué)習(xí)方法[6]。它們計算量雖小,但泛化能力較差。③使用深度學(xué)習(xí)。這類方法主要基于卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)等神經(jīng)網(wǎng)絡(luò)。

為了實(shí)現(xiàn)對電影影評情感傾向的準(zhǔn)確分類,本文提出了一種基于分層式CNN的pos-ACNN-CNN長文本情感分類模型。常見的文本分類模型對于短文本已經(jīng)取得較好的結(jié)果,但對于長文本,由于句子較長較多,且情感語義貢獻(xiàn)度不同的原因,其分類的準(zhǔn)確度并沒有達(dá)到預(yù)期效果。本文提出的模型針對電影長評,兼顧上下文內(nèi)容,提取出對分類貢獻(xiàn)度大的特征,從而提高情感分類的準(zhǔn)確性。

1 相關(guān)工作

近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,許多原本應(yīng)用在計算機(jī)視覺領(lǐng)域的神經(jīng)網(wǎng)絡(luò)模型開始在自然語言處理領(lǐng)域中嶄露頭角,并取得了不錯的進(jìn)展。文本分類技術(shù)是自然語言處理中最常用的技術(shù)之一,同時也是一個多學(xué)科交叉的研究方向,涉及到語言學(xué)、統(tǒng)計學(xué)、數(shù)據(jù)挖掘等多個領(lǐng)域的理論和方法。

2014,原本應(yīng)用在計算機(jī)視覺領(lǐng)域的CNN模型被引入到文本分類任務(wù)中。Ko等[7]提出多層卷積神經(jīng)網(wǎng)絡(luò),并將其運(yùn)用在字符級別的識別和分類中。Vieira等[8]則在句子層使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類。Tang等[9]為了對句子之間的關(guān)聯(lián)關(guān)系進(jìn)行建模,提出層次化循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)模型。Zhou等[10]使用LSTM解決跨語言情感分析任務(wù),解決了循環(huán)神經(jīng)網(wǎng)絡(luò)存在的梯度爆炸和梯度消失的問題。

注意力機(jī)制可以根據(jù)上下文信息找到真正對語義起作用的詞語,對解決情感極性判別問題非常有效。Yin等[11]提出一種基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),并將該網(wǎng)絡(luò)模型運(yùn)用在句子對的建模任務(wù)中,驗證了注意力機(jī)制和CNN結(jié)合的可行性。Wang等[12]利用那個多層注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的方式進(jìn)行句子關(guān)系分類。總的來說,深度學(xué)習(xí)方法能夠?qū)μ卣餍畔⑦M(jìn)行自動提取,在自然語言處理的多個領(lǐng)域問題上,減少了傳統(tǒng)方法繁瑣復(fù)雜的特征工程步驟,具有很大的優(yōu)勢。

上述的算法模型在短文本的分類中總能取得較好的效果,當(dāng)訓(xùn)練集和測試集中評論的詞語不超過140字時,其分類效果顯著。但當(dāng)處理較長的文本時,準(zhǔn)確度將會明顯下降。這是因為長文本具有句子多、文本長的特點(diǎn),因此需要能夠更加精煉提取其關(guān)鍵信息,分析上下文情感關(guān)系,從而準(zhǔn)確判斷作者的情感極性。

2 基于分層式CNN的長文本情感分類模型

2.1 模型概述

針對電影評論的文本情感分類任務(wù),本文在卷積神經(jīng)網(wǎng)絡(luò)的模型基礎(chǔ)上,提出基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的分層式長文本情感分類模型pos-ACNN-CNN。模型由pos Embedding層、ACNN層和CNN層組成。其中,pos Embedding層是帶有位置信息的詞嵌入層,ACNN層是由基于注意力機(jī)制的CNN模型構(gòu)成,最后的CNN層則是由基于文本層的CNN模型構(gòu)成。pos-ACNN-CNN模型如圖1所示。

圖1 基于分層式CNN的pos-ACNN-CNN長文本情感分類模型

電影評論通常包含強(qiáng)烈的情感傾向,且在表達(dá)上多有前后因果關(guān)系,因此構(gòu)造句子對更能提取出關(guān)鍵性的信息。據(jù)此,將影評中前后兩個句子組成一個句子對,針對每個句子首先通過Word2vec獲得詞向量表示,根據(jù)詞語位置添加位置編碼信息。使用ACNN模型提取句子對之間的特征信息,再將所有句子對的特征信息輸入到CNN模型中,通過CNN模型提取整個文本的全局特征,最終得到輸出分類結(jié)果。

2.2 pos Embedding

詞向量的表示方法有多種,過去最常用的是詞袋模型。然而詞袋模型并沒有考慮句子中詞與詞之間的上下文關(guān)系,僅僅考慮詞本身的權(quán)重,而權(quán)重只與詞語在文本中出現(xiàn)的頻率有關(guān)。另一方面,詞袋模型會出現(xiàn)數(shù)據(jù)稀疏和特征向量維度過高等問題,不易計算且計算量大。

本文采用Word2vec[13]獲取文本詞向量表示。Word2vec是Google的開源工具,它改進(jìn)了神經(jīng)語言模型,結(jié)合了人工神經(jīng)網(wǎng)絡(luò)和概率模型。Word2vec包含了兩種訓(xùn)練模型,CBOW模型和Skip-gram。本文使用CBOW模型得到詞向量,作為模型的輸入。

本文以詞為單位,對于長度為n的句子,其句向量可表示為詞向量進(jìn)行拼接后的結(jié)果

E1∶n=E1⊕E2⊕…⊕En

(1)

其中,⊕為拼接操作符。

由于本文基于卷積神經(jīng)網(wǎng)絡(luò),保留句子序列信息的能力并不強(qiáng)。而序列信息代表著全局的結(jié)構(gòu),又尤為重要。因此為了充分利用句子本身的順序性,本文在每個單詞中增加了該單詞在句子中的相對位置編碼信息。有多種方法來構(gòu)建位置編碼信息函數(shù),此處本文采用正弦和余弦函數(shù)[14]。該方法可以適用測試集中句子長度長于訓(xùn)練集實(shí)例的情況

PE(pos,2i)=sin(pos/100002i/d)

(2)

PE(pos,2i+1)=cos(pos/100002i/d)

(3)

POS=PE(pos,2i)⊕PE(pos,2i+1)

(4)

POS表示該詞的位置編碼信息向量。其中pos是該詞在句子中的位置,d表示詞向量的維度,i表示詞向量中的第i個元素,⊕為拼接操作符。

編碼信息與詞嵌入向量矩陣的維度相同,可以直接疊加求和,再進(jìn)行后面的計算。所以在本文的模型中,ACNN模型的輸入層是詞嵌入向量與位置編碼向量之和。pos-Embedding層模型如圖2所示。

圖2 帶位置信息的pos-Embedding層

2.3 ACNN模型

在pos-Embedding層之后,提出基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)ACNN模型,如圖3所示。ACNN主要由輸入層、寬卷積層、基于注意力機(jī)制的池化層和合并層組成。輸入層接收的是pos-Embedding層的輸出,即句子對中每個詞語的詞向量特征矩陣;寬卷積利用其本身特點(diǎn)對輸入層的基本單位進(jìn)行卷積操作提取特征;在池化層添加注意力機(jī)制提取不同詞語之間的情感極性;最后通過合并層將兩個句子的特性信息進(jìn)行融合,得到該句子對的特征表示向量。

圖3 ACNN模型框架

2.3.1 寬卷積

假設(shè)有大小為k的卷積核和長度為n的句子。Li∈d是該句子中第i個詞的d維向量表示,L∈n×d代表輸入句子,向量m∈k×d表示卷積操作使用的卷積核。對于句子中的第j個位置,可以根據(jù)卷積核大小得到同樣大小的窗口向量矩陣。它由k個連續(xù)詞向量組成

wj=[Lj,Lj+1,…,Lj+k-1]

(5)

卷積核m對每個位置的窗口向量(k-gram)進(jìn)行卷積。一維卷積背后的思想是將卷積核m與句子L中的每個k-gram做矩陣的元素相乘運(yùn)算,得到特征映射cj為

cj=f(mTwj+b)

(6)

其中,b是偏置項,f(x)是一個非線性變換函數(shù),常用sigmoid、tanh、reLU等激活函數(shù)。本文使用reLU激活函數(shù)。

對于窄卷積,如圖4所示,也就是常提到的卷積,j的范圍從1到n-m。然而在進(jìn)行這樣的窄卷積時,使用卷積核對矩陣操作往往對處于邊緣的數(shù)據(jù)無法操作。此處本文使用zero-padding的方法,對于輸入值范圍外的當(dāng)j<1或者j>n-m都設(shè)為0。這樣可以將卷積核應(yīng)用在所有輸入尺寸的矩陣上。最終可以獲得一個更大的矩陣輸出。而這種填充0的方法被稱為寬卷積,如圖5所示。

圖4 窄卷積

圖5 寬卷積

假設(shè)輸入節(jié)點(diǎn)為L1到Ln,卷積核m的大小為k,經(jīng)過窄卷積操作后只剩下(n-k+1)個節(jié)點(diǎn),而處于邊緣的(k-1)/2個節(jié)點(diǎn)沒有相應(yīng)的卷積操作,因此會失去關(guān)于這兩個節(jié)點(diǎn)的相關(guān)信息;我們采用zero-padding法,首先在矩陣邊緣添加(k-1)/2個節(jié)點(diǎn),再進(jìn)行卷積運(yùn)算則得到(n+k-1)個節(jié)點(diǎn),甚至比原矩陣更大。

經(jīng)過寬卷積之后得到特征向量C為

C=(c1,c2,…,cn+k-1)

(7)

寬卷積相比窄卷積能確保卷積核中所有權(quán)重能達(dá)到整個句子,包括邊緣的單詞。故本文在輸入層之后進(jìn)行寬卷積操作,盡最大可能保留句子中的所有信息,以提高最后分類的準(zhǔn)確性。

2.3.2 基于Attention的池化層

為了使模型在訓(xùn)練過程中區(qū)分重要信息,本文在池化層中添加注意力機(jī)制,使模型高度關(guān)注這些信息。

在卷積層部分,我們將兩個連續(xù)的句子進(jìn)行寬卷積操作從而得到的兩個不同的輸出向量,命名為CL和CR。利用這兩個向量進(jìn)行如下公式計算可以得到注意力權(quán)重向量矩陣A

Ai,j=MatchScore(CL[:,i],CR[:,j])

(8)

Aij代表FL的第i列向量和FR的第j列向量的距離度量。其定義方法為1/(1+|L-R|),|L-R|表示左右兩個向量的距離度量,計算方法有多種,如歐幾里得距離、余弦相似度、曼哈頓距離等等,此處使用歐幾里得距離,效果較好。

獲取注意力權(quán)重向量矩陣A之后,計算卷積向量權(quán)重,給每個卷積層輸出一個權(quán)重值。左向量(7 col)每個單元對應(yīng)的Attention權(quán)重aL,j是由權(quán)重向量矩陣A中的列向量求和的值作為權(quán)重值

aL,j=∑A[j,:]

(9)

右向量(9 col)中每個單元的權(quán)重值aR,j是權(quán)重向量矩陣A的行向量求和得到

aR,j=∑A[:,j]

(10)

在池化的時候,將卷積后輸出的特征矩陣,基于Attention的權(quán)重值,相乘求和,提取出重要的特征信息,再連接成一個向量,得到池化層的輸出。其中,C∈(L+w-1)×d表示卷積層輸出,而整個句子池化后得到

(11)

其中,x有L和R兩個選項,分別代表一個句子對的左句子和右句子。d是向量維度。ax,k是句子x對應(yīng)的Attention權(quán)重值,Cx是句子x卷積后得到的句子向量。而Px是x句子池化后得到的句子特征。最終在合并層,將PL和PR進(jìn)行拼接操作,得到句子對的特性信息向量P

P=PL⊕PR

(12)

2.4 CNN

經(jīng)過2.3節(jié),最終得到基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)的句子對的信息特征。對于某一待分類的文本,共有s個句子。前后兩個句子組成給句子對,共s-1個句子對,經(jīng)過ACNN層得到句子對的輸出結(jié)果P,共s-1個特征向量P。整個文本的特征向量可以表示為

F=P1⊕P2⊕P3⊕…⊕Ps-1

(13)

其中,⊕表示拼接操作。

將得到的文本特征向量F輸入到CNN模型中,整個CNN模型由以下4個部分組成。圖6為CNN模型框架示意圖。

圖6 CNN框架

(1)輸入層:ACNN模型的輸出結(jié)果F是整個文本的特征向量,同時也是該CNN層的輸入層。其中,F(xiàn)∈(s-1)×2×d。

(2)卷積層:卷積層使用的是2.3.1節(jié)提到的窄卷積,通過多個不同尺寸的卷積核對向量矩陣F進(jìn)行信息提取。

(3)池化層:通過采用最大池化的方式,提取卷積層的最優(yōu)特征。

(4)全連接層:通過softmax函數(shù)進(jìn)行計算,輸出樣本文本在各個標(biāo)簽上的概率分布,得到最終的分類結(jié)果。

3 實(shí)驗與結(jié)果分析

3.1 實(shí)驗環(huán)境

本實(shí)驗的實(shí)驗環(huán)境參數(shù)見表1。

表1 實(shí)驗環(huán)境參數(shù)

3.2 實(shí)驗數(shù)據(jù)集

為了檢驗本文提出的模型性能,本文采用了來自國外長文本電影評論數(shù)據(jù)集:互聯(lián)網(wǎng)電影資料庫IMDB。這個數(shù)據(jù)集是情感分類中最常用的英文影評數(shù)據(jù)集,分類目標(biāo)是將評論分為正類和負(fù)類。實(shí)驗數(shù)據(jù)總共包括50 000篇電影評論,為測試模型在長文本中的效果,本文根據(jù)評論文本的長度將其劃分為兩個子數(shù)據(jù)集,其中少于140字的稱之為短文本,長于140字的稱之為長文本。可以對比模型在短文本和長文本上的效果。實(shí)驗中將標(biāo)注好的數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,分別占總數(shù)據(jù)集規(guī)模的70%、20%和10%。表2為IMDB影評數(shù)據(jù)集樣本示例。

表2 IMDB數(shù)據(jù)集樣本示例

3.3 實(shí)驗設(shè)計和參數(shù)設(shè)定

為了驗證本文提出的基于分層式CNN的神經(jīng)網(wǎng)絡(luò)模型pos-ACNN-CNN在長文本情感分類上的有效性,對以下5種模型進(jìn)行對比實(shí)驗。

(1)CNN:使用了普通卷積神經(jīng)網(wǎng)絡(luò)的模型。

(2)CNN-CNN:使用了雙層卷積神經(jīng)網(wǎng)絡(luò)模型。

(3)ACNN:基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型,在詞嵌入部分不包含位置信息。

(4)pos-ACNN:基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型,在詞嵌入部分包含位置信息。

(5)pos-ACNN-CNN:本文提出的實(shí)驗?zāi)P汀?/p>

在訓(xùn)練過程中,使用Adam優(yōu)化模型,卷積層的激活函數(shù)使用ReLU函數(shù)。其它具體參數(shù)見表3。

表3 實(shí)驗參數(shù)

3.4 評價指標(biāo)

本文采用精確率(Precision,P)、召回率(Recall,R)和準(zhǔn)確率(Accuracy)這3個常用指標(biāo)作為評價標(biāo)準(zhǔn)。具體的計算方式如下所示

(14)

(15)

(16)

其中,TP是真實(shí)類別為正類且預(yù)測為正類的樣本個數(shù);FN是真實(shí)類別為正類且預(yù)測類別為負(fù)類的樣本個數(shù);FP將真實(shí)類別為負(fù)類且預(yù)測類別為正類的樣本個數(shù);TN是真實(shí)類別為負(fù)類且預(yù)測類別為負(fù)類的樣本個數(shù)。

3.5 實(shí)驗結(jié)果及分析

本文將5組實(shí)驗在IMDB數(shù)據(jù)集上進(jìn)行實(shí)驗。表4給出了各個組實(shí)驗進(jìn)行文本情感分類的結(jié)果,包括準(zhǔn)確率、精確度和召回率。

表4 不同類型的文本情感分類模型結(jié)果對比

從表4中可以看出,整體上基于深度學(xué)習(xí)的模型在IMDB數(shù)據(jù)集上都取得了不錯的分類效果,其中本文提出的pos-ACNN-CNN模型的表現(xiàn)性能最優(yōu),在準(zhǔn)確率、精確度和召回率3個衡量指標(biāo)上都達(dá)到了最高。

對比CNN和ACNN模型可以看出,ACNN的性能遠(yuǎn)勝CNN。這是因為注意力機(jī)制對比分析了文本中每個詞的重要程度,因此更好地把握了文本中的重點(diǎn)詞匯給文本情感傾向帶來的影響,從而提高情感分類的準(zhǔn)確率。對比CNN和CNN-CNN模型可以看出,多層模型的性能更好,說明在面對數(shù)據(jù)量較大的情況下,復(fù)雜模型更具優(yōu)勢。多層模型可以更好地提取長文本中特征信息。對比ACNN、pos-ACNN和pos-ACNN-CNN這3個模型,可以看出pos-ACNN相較于ACNN,性能略有提升,這是因為pos-ACNN增加了位置編碼信息,保留了詞語的位置信息,因此其準(zhǔn)確率更高。而pos-ACNN-CNN在pos-ACNN的基礎(chǔ)上多增加了一層CNN,能夠更好適用復(fù)雜數(shù)據(jù)集。

另一方面,對比所有模型在短文本和長文本方面的表現(xiàn),顯然單層模型在短文本上表現(xiàn)更好,但在長文本上表現(xiàn)不佳。而本文提出的基于分層式CNN模型pos-ACNN-CNN在長文本上的表現(xiàn),在精確率和準(zhǔn)確率上與在短文本上表現(xiàn)基本持平,而在召回率上高出0.0093,驗證了pos-ACNN-CNN模型在長文本上的適用性。一方面是因為復(fù)雜的分層式模型更加適用于長文本的特征提取,另一方面則是注意力機(jī)制的運(yùn)用和位置信息的結(jié)合使得提取的特征更加準(zhǔn)確,更能夠反映文本的情感傾向。

4 結(jié)束語

本文提出基于分層式CNN的pos-ACNN-CNN文本情感分類模型,融合了卷積神經(jīng)網(wǎng)絡(luò)的模型優(yōu)勢,并通過注意力機(jī)制抓住了文本的重要特征,同時在此嵌入層增加位置編碼信息,從而提高了文本分類的精確性。為驗證該模型的性能,將其在經(jīng)典文本情感分類IMDB數(shù)據(jù)集上進(jìn)行實(shí)驗,并設(shè)計了多組對比實(shí)驗。該模型在實(shí)驗中獲得了較優(yōu)的分類效果,驗證該模型可以更加精確地提取文本特征,更加適合長文本的情感分類工作。

在未來的工作中,將考慮分層注意力機(jī)制,將普通的文本分類拆分成從句子層的分類和從文本層進(jìn)行的分類,同時結(jié)合LSTM等序列信息模型,以此來探索多種組合模型在更廣泛的領(lǐng)域上的適用性。

猜你喜歡
分類文本情感
分類算一算
如何在情感中自我成長,保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
在808DA上文本顯示的改善
分類討論求坐標(biāo)
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
如何在情感中自我成長,保持獨(dú)立
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
主站蜘蛛池模板: 2021国产v亚洲v天堂无码| 国产日本欧美在线观看| 伊人五月丁香综合AⅤ| 九九视频在线免费观看| 中文字幕欧美日韩高清| 99在线观看国产| 欧美日韩动态图| 69视频国产| 国产男女免费完整版视频| 久久这里只精品国产99热8| 国产无码高清视频不卡| 国产永久在线视频| 无码网站免费观看| 国产精品视频观看裸模| 一本大道东京热无码av | 午夜无码一区二区三区| 精品撒尿视频一区二区三区| 热久久国产| 久久综合色播五月男人的天堂| 国产91精品久久| 伊人大杳蕉中文无码| 久久久精品国产亚洲AV日韩| 欧美另类一区| 欧美激情视频一区二区三区免费| 亚洲午夜综合网| 在线一级毛片| 色婷婷电影网| 久久香蕉欧美精品| 欧美a级完整在线观看| 亚洲AV无码不卡无码| 制服无码网站| 奇米精品一区二区三区在线观看| 99激情网| 青青草一区二区免费精品| 久久夜色撩人精品国产| 亚洲黄色网站视频| 久久久久久久97| 久久亚洲中文字幕精品一区| 永久天堂网Av| 五月激情综合网| 成人一级黄色毛片| 这里只有精品在线| 久久美女精品| 欧洲熟妇精品视频| 四虎永久在线| 日韩福利在线观看| 丰满人妻一区二区三区视频| 91毛片网| 日本午夜三级| 亚洲视频黄| 四虎国产在线观看| 熟妇丰满人妻av无码区| 亚洲国产高清精品线久久| 久久国产精品电影| 无码精品福利一区二区三区| 69国产精品视频免费| 996免费视频国产在线播放| 免费A∨中文乱码专区| 国产在线自乱拍播放| 欧美日韩亚洲国产主播第一区| 69精品在线观看| 88av在线| 鲁鲁鲁爽爽爽在线视频观看| 国产香蕉在线视频| 久久精品丝袜高跟鞋| 大陆精大陆国产国语精品1024| 久久国产精品无码hdav| 欧美日韩福利| 欧美一区精品| a欧美在线| 亚洲精品成人7777在线观看| 久久永久精品免费视频| 欧美成人A视频| 在线视频一区二区三区不卡| 51国产偷自视频区视频手机观看| 亚洲国产天堂在线观看| 伊人查蕉在线观看国产精品| 亚洲人成网站18禁动漫无码| 直接黄91麻豆网站| 国产在线视频导航| 这里只有精品在线| 国产精品免费露脸视频|