999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析

2017-08-31 19:49:08全,2,3進(jìn)
關(guān)鍵詞:機(jī)制情感模型

梁 斌 劉 全,2,3 徐 進(jìn) 周 倩 章 鵬

1(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇蘇州 215000) 2(軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心 南京 210000) 3 (符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(吉林大學(xué)) 長(zhǎng)春 130012) (bliang@stu.suda.edu.cn)

基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析

梁 斌1劉 全1,2,3徐 進(jìn)1周 倩1章 鵬1

1(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇蘇州 215000)2(軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心 南京 210000)3(符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(吉林大學(xué)) 長(zhǎng)春 130012) (bliang@stu.suda.edu.cn)

特定目標(biāo)情感分析作為情感分析一個(gè)重要的子任務(wù),近年來(lái)得到越來(lái)越多研究人員的關(guān)注.針對(duì)在特定目標(biāo)情感分析中,將注意力機(jī)制和LSTM等序列性輸入網(wǎng)絡(luò)相結(jié)合的網(wǎng)絡(luò)模型訓(xùn)練時(shí)間長(zhǎng)、且無(wú)法對(duì)文本進(jìn)行平行化輸入等問(wèn)題,提出一種基于多注意力卷積神經(jīng)網(wǎng)絡(luò)(multi-attention convolution neural networks, MATT-CNN)的特定目標(biāo)情感分析方法.相比基于注意力機(jī)制的LSTM網(wǎng)絡(luò),該方法可以接收平行化輸入的文本信息,大大降低了網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間.同時(shí),該方法通過(guò)結(jié)合多種注意力機(jī)制有效彌補(bǔ)了僅僅依賴(lài)內(nèi)容層面注意力機(jī)制的不足,使模型在不需要例如依存句法分析等外部知識(shí)的情況下,獲取更深層次的情感特征信息,有效識(shí)別不同目標(biāo)的情感極性.最后在SemEval2014數(shù)據(jù)集和汽車(chē)領(lǐng)域數(shù)據(jù)集(automotive-domain data, ADD)進(jìn)行實(shí)驗(yàn),取得了比普通卷積神經(jīng)網(wǎng)絡(luò)、基于單注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)和基于注意力機(jī)制的LSTM網(wǎng)絡(luò)更好的效果.

注意力機(jī)制;卷積神經(jīng)網(wǎng)絡(luò);特定目標(biāo)情感分析;深度學(xué)習(xí);自然語(yǔ)言處理

隨著社交網(wǎng)絡(luò)的興起,越來(lái)越多的人在網(wǎng)絡(luò)上發(fā)表意見(jiàn)和表達(dá)情感,通過(guò)對(duì)這些數(shù)據(jù)的提取和分析可以幫助我們了解不同人對(duì)不同事物所發(fā)表的觀點(diǎn)和情感.如何利用自然語(yǔ)言處理技術(shù)來(lái)分析社交網(wǎng)絡(luò)短文本的情感傾向,已經(jīng)成為研究人員關(guān)注的熱點(diǎn)領(lǐng)域之一[1-2].

近年來(lái),隨著深度學(xué)習(xí)在情感分析領(lǐng)域的研究和應(yīng)用,越來(lái)越多的研究人員使用深度學(xué)習(xí)來(lái)對(duì)社交網(wǎng)絡(luò)短文本進(jìn)行情感分析.例如Kalchbrenner等人用卷積神經(jīng)網(wǎng)絡(luò)(convolution neural networks, CNN)解決Twitter的極性判斷問(wèn)題[3];Zhou等人使用LSTM(long short-term memory)網(wǎng)絡(luò)解決跨語(yǔ)言情感分析任務(wù)[4];Yu等人使用多種深度神經(jīng)網(wǎng)絡(luò)解決跨領(lǐng)域的情感分析任務(wù)[5].這些使用深度神經(jīng)網(wǎng)絡(luò)的方法在情感分析任務(wù)中取得了比以往研究更好的分類(lèi)效果.

特定目標(biāo)情感分析(aspect-based sentiment analysis, ABSA)作為情感分析一個(gè)重要的子任務(wù),是更深層次的情感分析[6].和普通情感分析不同,特定目標(biāo)情感極性的判別不僅依賴(lài)文本的上下文信息,同時(shí)還依賴(lài)特定目標(biāo)的特征信息[7].例如句子“The food was very good,but the service at that restaurant was dreadful”對(duì)于目標(biāo)“food”是積極情感,而對(duì)于目標(biāo)“service”則是消極情感.所以,就算是同一個(gè)句子,針對(duì)不同的目標(biāo)可能會(huì)出現(xiàn)完全相反的情感極性.

注意力機(jī)制(attention mechanism)能很好解決同一句子中不同目標(biāo)的情感極性判別問(wèn)題.注意力機(jī)制最早是用在圖像處理領(lǐng)域,目的是為了讓神經(jīng)網(wǎng)絡(luò)在處理數(shù)據(jù)時(shí)重點(diǎn)關(guān)注某些信息.Mnih等人在2014年提出將注意力機(jī)制用在圖像分類(lèi)任務(wù)中[8],驗(yàn)證了注意力機(jī)制在圖像處理領(lǐng)域的有效性,同時(shí)也使結(jié)合注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)成為研究的熱點(diǎn).隨后,Bahdanau等人將注意力機(jī)制和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)結(jié)合解決機(jī)器翻譯任務(wù)[9],使注意力機(jī)制成功融入自然語(yǔ)言處理領(lǐng)域.隨著研究的推進(jìn),Yin等人在2015年提出一種基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),并將該網(wǎng)絡(luò)用在句子對(duì)建模任務(wù)中[10];Wang等人利用基于多層注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行句子關(guān)系分類(lèi)[11]、這些方法的提出證明了注意力機(jī)制和CNN結(jié)合的有效性.

基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)可以通過(guò)一個(gè)注意力矩陣計(jì)算出句子相應(yīng)的注意力特征,在模型訓(xùn)練時(shí)讓神經(jīng)網(wǎng)絡(luò)高度關(guān)注某些信息.例如在特定目標(biāo)情感分析任務(wù)中,注意力機(jī)制可以通過(guò)注意力特征圖讓模型在訓(xùn)練過(guò)程中關(guān)注目標(biāo)詞的特征信息,正確識(shí)別不同目標(biāo)的情感極性.相比LSTM等序列性神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)可以獲取平行輸入的信息,同時(shí)可以解決傳統(tǒng)LSTM網(wǎng)絡(luò)不能準(zhǔn)確表示每個(gè)詞在句子中的重要程度的缺點(diǎn).為了更好地學(xué)習(xí)不同目標(biāo)的情感信息和識(shí)別不同目標(biāo)的情感極性,本文提出一種結(jié)合多注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到特定目標(biāo)的情感分析方法.該方法基于卷積神經(jīng)網(wǎng)絡(luò),使模型能接收平行輸入的文本信息.同時(shí),該方法在以前研究的基礎(chǔ)上提出了加入詞性注意力機(jī)制,使模型能從多種特征信息關(guān)注句子的目標(biāo)詞和其他詞語(yǔ)之間的聯(lián)系,準(zhǔn)確表示出每一個(gè)詞在句子中的重要程度,獲取更多的隱藏信息.

本文結(jié)合3種注意力機(jī)制來(lái)構(gòu)造多注意力卷積神經(jīng)網(wǎng)絡(luò)(multi-attention convolution neural networks, MATT-CNN)模型:1)詞向量注意力機(jī)制.將目標(biāo)詞的詞向量和文本其他詞的詞向量進(jìn)行運(yùn)算,突出目標(biāo)詞的重要性;2)詞性注意力機(jī)制.將文本中的情感詞和目標(biāo)詞重新進(jìn)行詞性標(biāo)注,使網(wǎng)絡(luò)充分利用文本的情感信息;3)位置注意力機(jī)制.以目標(biāo)詞為中心,計(jì)算其他詞和目標(biāo)詞的位置關(guān)系,有效表示每個(gè)詞在句子中的重要程度和對(duì)目標(biāo)詞的影響程度.最后,將本文提出的方法在SemEval2014和ADD兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),取得了比普通卷積神經(jīng)網(wǎng)絡(luò)、基于單注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)和基于注意力機(jī)制的LSTM網(wǎng)絡(luò)更好的情感分類(lèi)效果,驗(yàn)證了本文提出方法的有效性.

本文的主要貢獻(xiàn)如下:

1) 提出一種多注意力卷積神經(jīng)網(wǎng)絡(luò)(MATT-CNN)用在特定目標(biāo)情感分類(lèi)任務(wù)中,和基于注意力機(jī)制的LSTM網(wǎng)絡(luò)相比,MATT-CNN可以接收句子的平行化輸入,大大降低了模型的訓(xùn)練時(shí)間;

2) 本文提出的詞性注意力機(jī)制可以讓模型充分利用和學(xué)習(xí)輸入文本的情感信息,同時(shí)可以彌補(bǔ)僅僅依賴(lài)內(nèi)容層面注意力機(jī)制的不足;

3) 提出一個(gè)雙向掃描算法,能有效標(biāo)識(shí)不同詞語(yǔ)在句子中的重要程度,使卷積神經(jīng)網(wǎng)可以充分利用文本每個(gè)詞語(yǔ)的位置信息;

4) 多注意力卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)簡(jiǎn)單,無(wú)需使用例如依存句法分析和語(yǔ)義依存分析等外部知識(shí),同時(shí)也不需要對(duì)特定目標(biāo)進(jìn)行額外的向量化;

5) 在不同語(yǔ)言和不同領(lǐng)域的數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的基于多注意力卷積神經(jīng)網(wǎng)絡(luò)能有效識(shí)別不同目標(biāo)的情感極性.

1 相關(guān)工作

1.1特定目標(biāo)情感分析

特定目標(biāo)情感分析是通過(guò)學(xué)習(xí)文本上下文的信息來(lái)判別文本中特定目標(biāo)的情感極性,是更深層次的情感分析,也是細(xì)粒度的文本分類(lèi)任務(wù),一直以來(lái)都得到很多學(xué)者的關(guān)注和研究.2004年,Hu和Liu提出了基于不同商品的用戶(hù)評(píng)論情感分析[12-13];Qiu等人使用目標(biāo)提取和情感詞典擴(kuò)充方法判別特定目標(biāo)的情感極性[14];Kiritchenko等人使用機(jī)器學(xué)習(xí)方法進(jìn)一步研究特定商品的用戶(hù)評(píng)論進(jìn)行情感分析[15].這些使用傳統(tǒng)機(jī)器學(xué)習(xí)的方法通過(guò)構(gòu)造情感特征,能很好地利用文本的情感特征信息,有效判別特定目標(biāo)的情感極性.

近年來(lái),深度學(xué)習(xí)技術(shù)在文本分類(lèi)任務(wù)中取得了重大的突破,也有很多學(xué)者利用深度學(xué)習(xí)技術(shù)來(lái)解決特定目標(biāo)情感分析問(wèn)題.Nguyen和Shirai基于RNN和依存樹(shù)提出一種特定目標(biāo)情感分析模型[16];Dong等人提出一種自適應(yīng)的RNN用在特定目標(biāo)的Twitter文本情感分類(lèi)任務(wù)中[17].這些方法使用深度學(xué)習(xí)技術(shù)來(lái)解決特定目標(biāo)情感分析問(wèn)題,可以在不需要情感詞典的情況下通過(guò)深度神經(jīng)網(wǎng)絡(luò)更好地學(xué)習(xí)文本的情感特征信息,取得了比傳統(tǒng)機(jī)器學(xué)習(xí)方法更好的分類(lèi)效果.但是這些方法需要使用依存樹(shù)、句法關(guān)系等外部知識(shí),網(wǎng)絡(luò)模型結(jié)構(gòu)較為復(fù)雜.Ruder等人提出一種分層的雙向LSTM網(wǎng)絡(luò)進(jìn)行特定目標(biāo)情感分析[18],該方法利用一個(gè)雙向的LSTM網(wǎng)絡(luò)在不同層次對(duì)輸入文本進(jìn)行特征提取和學(xué)習(xí),可以有效學(xué)習(xí)句子內(nèi)部關(guān)系和句子之間的關(guān)系,從而可以判別特定目標(biāo)的情感極性.但該方法更多的是針對(duì)句子中只包含一個(gè)特定目標(biāo)的情況,對(duì)包含多個(gè)目標(biāo)的句子情感極性判別較為困難.為了解決不同目標(biāo)的情感極性判別問(wèn)題,Wang等人提出了一種結(jié)合注意力機(jī)制的LSTM網(wǎng)絡(luò)[19],通過(guò)對(duì)特定目標(biāo)進(jìn)行特定的向量化處理,將特定目標(biāo)作為注意力機(jī)制輸入LSTM網(wǎng)絡(luò),使網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中可以高度關(guān)注特定的目標(biāo),從而可以有效識(shí)別不同目標(biāo)的情感極性.從這些研究工作可以看出,基于LSTM網(wǎng)絡(luò)的網(wǎng)絡(luò)模型已經(jīng)在特定目標(biāo)情感分析任務(wù)中取得了很多的成功,但是將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到特定目標(biāo)情感分析任務(wù)中的研究還很少.此外,基于LSTM等序列性輸入網(wǎng)絡(luò)在特定目標(biāo)情感分析任務(wù)中無(wú)法接收平行化輸入的文本,所以在訓(xùn)練過(guò)程中難以準(zhǔn)確表示每一個(gè)詞在句子中的重要程度.

本文提出的基于多注意力卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分析方法可以接收平行化輸入的文本信息,通過(guò)不同的注意力機(jī)制可以準(zhǔn)確表示出每一個(gè)詞在句子中的重要程度.同時(shí),該方法提出了一種可以充分利用文本情感特征信息的多注意力機(jī)制,使網(wǎng)絡(luò)在訓(xùn)練過(guò)程中更好地學(xué)習(xí)不同目標(biāo)的情感特征信息,有效識(shí)別不同目標(biāo)的情感極性.

1.2卷積神經(jīng)網(wǎng)絡(luò)

在自然語(yǔ)言處理任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)(CNN)無(wú)需對(duì)文本進(jìn)行大量的預(yù)處理工作,有效緩解了特征工程的工作量.如圖1所示,CNN主要由輸入層、卷積層、池化層和全連接層組成.輸入層是對(duì)輸入數(shù)據(jù)的向量表示,對(duì)于給定的長(zhǎng)度為n的句子,輸入層矩陣可表示為

e∈n×k,

(1)

Fig. 1 The overall framework of convolution neural networks圖1 卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖

其中k為詞向量維度.卷積層使用不同的卷積核對(duì)輸入矩陣進(jìn)行卷積操作,提取輸入的局部特征,得到卷積核特征向量圖:

c=f(W·x+b),

(2)

其中,x為卷積核窗口詞向量矩陣,W為權(quán)重矩陣,b為偏置,f為激活函數(shù).池化層是卷積神經(jīng)網(wǎng)絡(luò)的重要網(wǎng)絡(luò)層,對(duì)于卷積層得到的特征向量圖,可以通過(guò)池化層來(lái)對(duì)特征向量圖進(jìn)行下采樣操作,提取重要的特征信息.同時(shí),池化層可以輸出一個(gè)固定大小的矩陣.不同長(zhǎng)度的句子輸入和不同大小的卷積核可以通過(guò)池化層得到一個(gè)相同維度的輸出,并將輸出傳給全連接層對(duì)輸入進(jìn)行分類(lèi),得到分類(lèi)結(jié)果.

2 多注意力卷積神經(jīng)網(wǎng)絡(luò)

本文通過(guò)3種作用在卷積神經(jīng)網(wǎng)絡(luò)輸入層的注意力機(jī)制介紹如何更加充分地學(xué)習(xí)文本的情感特征信息,從而有效識(shí)別不同目標(biāo)的情感極性.如圖2所示,本文提出的多注意力卷積神經(jīng)網(wǎng)絡(luò)主要由6部分組成:

Fig. 2 The overall framework of multi-attention CNN圖2 多注意力卷積神經(jīng)網(wǎng)絡(luò)框架圖

1) 注意力輸入矩陣.存儲(chǔ)不同注意力機(jī)制的注意力特征向量信息;

2) Operation層.對(duì)于3種不同的注意力機(jī)制,本文使用不同的運(yùn)算操作來(lái)獲取輸入文本的不同表示作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,從而使模型在訓(xùn)練過(guò)程中從多方面信息來(lái)關(guān)注特定的目標(biāo);

3) 卷積層.為了使網(wǎng)絡(luò)模型簡(jiǎn)單化,本文使用一層卷積層對(duì)不同的注意力機(jī)制輸入信息進(jìn)行特征提取,通過(guò)多窗口多注意力機(jī)制的結(jié)合,可以獲取輸入文本豐富的局部特征;

4) 池化層.對(duì)于從不同注意力機(jī)制輸入信息提取得到的局部特征,分別進(jìn)行池化操作,可以獲取不同注意力機(jī)制運(yùn)算的最重要的情感特征信息;

5) 合并層.本文將從池化層提取得到的不同注意力機(jī)制的最重要信息通過(guò)合并層操作,形成輸入文本的特征表示,并將特征表示作為全連接層的輸入;

6) 輸出層.本文將通過(guò)softmax函數(shù)輸出最終的分類(lèi)結(jié)果.

2.1任務(wù)定義

對(duì)于長(zhǎng)度為n的句子s={w1,w2,…,ai,…,aj,…,wn},其中ai和aj為2個(gè)不同的目標(biāo)詞,本文的任務(wù)是針對(duì)不同的目標(biāo)分析其情感極性.例如句子“The food was very good, but the service at that restaurant was dreadful”,對(duì)于目標(biāo)“food”來(lái)說(shuō),是積極情感極性,而對(duì)于目標(biāo)“service”則是消極的情感.本文將句子以詞為單位形成一個(gè)詞序列,然后將每一個(gè)詞映射為一個(gè)多維的連續(xù)值詞向量,得到一個(gè)詞向量矩陣E∈k×|V|,其中k為詞向量維度,即把每一個(gè)詞映射為k維向量xi∈k,|V|為詞典的大小,即數(shù)據(jù)集包含的所有詞的數(shù)量.對(duì)于長(zhǎng)度為n的句子可以表示為式(3)所示的矩陣.其中,⊕為拼接操作.本文要通過(guò)句子中的詞向量集合{x1,x2,…,xn}和目標(biāo)集合{ti,tj}之間的特征信息來(lái)判斷目標(biāo)集合{ti,tj}中每一個(gè)目標(biāo)的情感極性.

x1:n=x1⊕x2⊕…⊕ti⊕…⊕tj⊕…⊕xn.

(3)

2.2方法概述

為了更好地學(xué)習(xí)不同目標(biāo)的特征信息以及識(shí)別不同目標(biāo)的情感極性,本文使用3種不同的注意力機(jī)制讓模型以不同的方式注重學(xué)習(xí)某些需要關(guān)注的信息.對(duì)于包含t個(gè)目標(biāo)詞的句子,本文針對(duì)不同的目標(biāo)將句子表示為t個(gè)分句,并用一個(gè)特殊標(biāo)識(shí)“〈〉”標(biāo)記目標(biāo)詞的位置,對(duì)句子重新表示,使得每一個(gè)分句只有一個(gè)目標(biāo)詞.該方法能使模型在訓(xùn)練過(guò)程中獲取目標(biāo)詞的位置,同時(shí)也保留了標(biāo)志的目標(biāo)詞和其他目標(biāo)詞之間的聯(lián)系和相互影響.

如圖3所示,對(duì)于句子“The food was very good,but the service at that restaurant was dreadful”,本文將特殊標(biāo)識(shí)“〈〉”標(biāo)注為特殊的詞性,并映射為一個(gè)多維的向量,可以在訓(xùn)練過(guò)程進(jìn)行調(diào)整和學(xué)習(xí).

Fig. 3 Example of sentence representation圖3 句子表示方法

對(duì)于長(zhǎng)度為n的句子s={w1,w2,…,ai,…,wn},本文將句子中的目標(biāo)詞ai的詞性重新標(biāo)注為“tar”,特殊標(biāo)識(shí)“〈〉”的詞性重新標(biāo)注為“tag”,積極情感詞的詞性重新標(biāo)注為“pos”,消極情感詞的詞性重新標(biāo)注為“neg”.本文通過(guò)詞向量矩陣將每一個(gè)詞表示為k維的向量,提取出目標(biāo)詞ai的詞向量、詞性和ai在句子中的位置這3個(gè)特征來(lái)構(gòu)造神經(jīng)網(wǎng)絡(luò)輸入層的3種注意力機(jī)制:

1) 詞向量注意力機(jī)制.提取目標(biāo)詞的詞向量作為目標(biāo)詞向量注意力矩陣,將注意力矩陣和詞向量矩陣進(jìn)行運(yùn)算操作獲取注意力特征矩陣,是關(guān)聯(lián)文本內(nèi)容的注意力機(jī)制.

2) 詞性注意力機(jī)制.是詞向量注意力機(jī)制的補(bǔ)充,是關(guān)聯(lián)句子中詞語(yǔ)的詞性的注意力機(jī)制,可以讓模型用另一種方式關(guān)注句子的目標(biāo)詞,從而學(xué)習(xí)到更多的隱藏信息.

3) 位置注意力機(jī)制.本文使用的位置注意力有2種形式,一種形式是作為參數(shù)加入詞向量注意力機(jī)制和詞性注意力機(jī)制的運(yùn)算;另一種形式是作為獨(dú)立的注意力機(jī)制輸入到網(wǎng)絡(luò)中.將位置注意力機(jī)制和其他注意力機(jī)制結(jié)合,可以充分表示每一個(gè)詞在句子中的重要程度.

通過(guò)結(jié)合這3種注意力機(jī)制作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,可以讓模型以多種形式學(xué)習(xí)目標(biāo)詞的特征信息,達(dá)到更好的分類(lèi)效果.

2.3詞向量注意力機(jī)制

注意力機(jī)制的目的是在訓(xùn)練過(guò)程中,讓模型知道輸入數(shù)據(jù)中哪一部分信息是重要的,從而使模型高度關(guān)注這些信息.對(duì)于特定目標(biāo)的情感分析,內(nèi)容層面的信息是最重要的,可以通過(guò)分析文本的內(nèi)容得出哪些詞對(duì)句子中目標(biāo)詞的影響較大.例如句子“The food was very good, but the service at that restaurant was dreadful”,詞語(yǔ)“good”是用來(lái)形容目標(biāo)詞“food”的,而詞語(yǔ)“dreadful”是用來(lái)形容目標(biāo)詞“service”的,所以在該句子中情感詞“good”比情感詞“dreadful”對(duì)目標(biāo)“food”的影響大得多.同理,情感詞“dreadful”比情感詞“good”對(duì)目標(biāo)“service”的影響也大得多.

對(duì)于句子s={w1,w2,…,ai,…,wn},提取出目標(biāo)詞ai的詞向量作為注意力矩陣,將注意力矩陣和句子s的詞向量矩陣進(jìn)行運(yùn)算操作,可以得到注意力特征矩陣Ac,如圖4所示,其中Ac為對(duì)角矩陣:

Ai,i=innerproduct(ti,xi),

(4)

(5)

此外,矩陣Ac也可由

(6)

得出,其中,α為可調(diào)參數(shù),用來(lái)控制不同詞向量對(duì)目標(biāo)詞的影響程度,表示出每一個(gè)詞的重要程度.α可以人工設(shè)定,也可以由位置注意力機(jī)制計(jì)算給出,通過(guò)α可以表示出每一個(gè)詞的重要程度.

Fig. 4 The operation of attention mechanism圖4 注意力機(jī)制運(yùn)算操作

利用計(jì)算得到的注意力特征矩陣Ac和原來(lái)的詞向量做運(yùn)算可分別得到卷積神經(jīng)網(wǎng)絡(luò)的輸入矩陣:

(7)

(8)

這2種方法都可以用作輸入矩陣的計(jì)算,本文實(shí)驗(yàn)中使用式(7)計(jì)算輸入矩陣,即簡(jiǎn)單的向量拼接.

2.4詞性注意力機(jī)制

文本的內(nèi)容信息是文本情感分析的關(guān)鍵,然而在分詞錯(cuò)誤以及情感詞典中的情感詞在數(shù)據(jù)集中的覆蓋率較低的情況下,這種僅僅依賴(lài)文本內(nèi)容信息對(duì)文本情感進(jìn)行分類(lèi)的準(zhǔn)確率將會(huì)大大降低.針對(duì)該問(wèn)題,本文提出一種基于詞性的注意力機(jī)制,結(jié)合詞向量注意力機(jī)制作為網(wǎng)絡(luò)的輸入.本文通過(guò)對(duì)特殊詞的詞性重新標(biāo)注,可以讓模型學(xué)習(xí)到目標(biāo)詞和情感詞之間的聯(lián)系信息.以句子“The food was very good, but the service at that restaurant was dreadful”為例,對(duì)句子中的特殊詞詞性重新標(biāo)注如圖5所示:

Fig. 5 Part of speech re-tagging圖5 詞性重新標(biāo)注

和詞向量一樣,本文將每一個(gè)詞性映射為一個(gè)多維的連續(xù)值向量,稱(chēng)為詞性向量,即tagi∈l,其中l(wèi)為詞性向量維度.對(duì)于長(zhǎng)度為n的句子,可以將詞性向量表示為如式(9)所示的向量矩陣,其中tar表示目標(biāo)詞的詞性向量.

tag1:n=tag1⊕tag2⊕…⊕tar⊕…⊕tagn.

(9)

本文提取目標(biāo)詞的詞性向量作為詞性注意力特征矩陣,即At=tar,然后計(jì)算網(wǎng)絡(luò)的輸入矩陣:

(10)

其中β為權(quán)重系數(shù).通過(guò)調(diào)整β的取值,可以充分利用句子的情感特征信息,本文在實(shí)驗(yàn)中對(duì)情感詞取1.2,其他詞取1.0.

2.5位置注意力機(jī)制

在特定目標(biāo)情感分析任務(wù)中,詞語(yǔ)和目標(biāo)詞之間的位置往往也隱含著很重要的信息,一種簡(jiǎn)單的距離計(jì)算方式如圖6所示:

Fig. 6 Example of location calculation圖6 位置計(jì)算方式舉例

我們普遍認(rèn)為距離目標(biāo)詞更近的詞對(duì)目標(biāo)詞的影響更大,例如句子中的情感詞“good”比情感詞“dreadful”距離目標(biāo)詞“food”更近,同時(shí)“good”也是目標(biāo)詞“food”的正確情感表達(dá).但是對(duì)于目標(biāo)詞“service”來(lái)說(shuō),和情感詞“good”的距離更近,但是情感詞“dreadful”才是目標(biāo)詞“service”的正確情感表達(dá).針對(duì)這個(gè)問(wèn)題,本文提出一種雙向掃描算法來(lái)確定詞語(yǔ)和目標(biāo)之間的位置取值,如算法1所示.

算法1. 雙向掃描算法.

輸入: 分詞后的句子s;

輸出: 每個(gè)詞和目標(biāo)詞之間的位置取值集合l.

1) 將目標(biāo)詞的位置取值置為0,其他詞的位置取值置為n,其中n為句子的長(zhǎng)度;

2) 以目標(biāo)詞為中心,設(shè)定2個(gè)工作指針?lè)謩e往左右兩邊掃描(以下步驟以某一個(gè)指針為例子);

3) 記錄工作指針和目標(biāo)相對(duì)位置i的值li,如果該位置的詞為標(biāo)點(diǎn)符號(hào),執(zhí)行步驟4);如果該位置的詞為目標(biāo)詞集合中的詞,則執(zhí)行步驟5);否則,執(zhí)行步驟6);

4) 利用下式更新li的值,將位置取值li加入集合,繼續(xù)掃描;

5) 利用式li=1更新li的值,將位置取值i加入集合,繼續(xù)掃描;

6) 將位置取值li加入集合,繼續(xù)掃描;

7) 當(dāng)2個(gè)指針?lè)謩e到達(dá)句子的起始和終止位置時(shí),將位置取值li加入集合,停止掃描.

本文用矩陣P來(lái)存儲(chǔ)數(shù)據(jù)集所有句子的位置取值,然后計(jì)算α的取值:

(11)

將矩陣P中存儲(chǔ)的所有位置取值映射為一個(gè)多維向量,即Pi∈k,然后計(jì)算網(wǎng)絡(luò)的輸入矩陣:

(12)

2.6多注意力卷積神經(jīng)網(wǎng)絡(luò)模型

卷積神經(jīng)網(wǎng)絡(luò)可以通過(guò)多注意力機(jī)制使模型在訓(xùn)練過(guò)程中以不同的特征信息來(lái)關(guān)注目標(biāo),可以提取和學(xué)習(xí)到目標(biāo)更多的隱藏信息,從而能更好地識(shí)別不同目標(biāo)的情感極性.本文將針對(duì)多注意力機(jī)制介紹3種構(gòu)造輸入矩陣的方法:

1) AATT-CNN.以詞的內(nèi)容為基礎(chǔ),把詞向量注意力、詞性注意力和位置注意力作運(yùn)算,如式(13)所示.該方法以文本最重要的內(nèi)容信息為基礎(chǔ),結(jié)合文本的其他特征信息,使網(wǎng)絡(luò)更好地識(shí)別不同目標(biāo)的情感信息.在式(13)中λc,λt和λp可以為系數(shù),也可以為系數(shù)矩陣.

z=λczc+λtzt+λpzp.

(13)

2) CATT-CNN.將不同的注意力輸入矩陣通過(guò)矩陣變換拼接形成新的輸入矩陣,式(14)給出一種拼接方式.其中G,R,U為權(quán)重矩陣,可以在訓(xùn)練過(guò)程中學(xué)習(xí)和調(diào)整.

z=zcG⊕ztR⊕zpU.

(14)

3) SATT-CNN.將不同的注意力輸入堆疊形成3維的張量作為網(wǎng)絡(luò)的輸入.該方法的優(yōu)點(diǎn)是可以形成不同的輸入通道對(duì)輸入矩陣進(jìn)行卷積操作,缺點(diǎn)是在輸入層忽略了不同注意力矩陣的聯(lián)系.

卷積神經(jīng)網(wǎng)絡(luò)可以通過(guò)卷積核同時(shí)對(duì)文本中的多個(gè)詞進(jìn)行卷積操作,保留了詞之間的聯(lián)系.對(duì)于長(zhǎng)度為h的卷積窗口,對(duì)輸入矩陣的卷積操作為

ci=f(w·xi:i+h-1+b),

(15)

其中,w∈h×k為卷積核權(quán)重,b∈為偏置,f為激活函數(shù),xi:i+h-1為一個(gè)卷積窗口的文本局部特征矩陣.對(duì)于長(zhǎng)度為n的句子,通過(guò)卷積操作可得到所示的特征圖:

c=[c1,c2,…,cn-h+1],

(16)

即c∈n-h+1.本文在池化層采用max-over-time pooling方法[20]對(duì)特征圖進(jìn)行下采樣,提取最重要的特征}.對(duì)于有m個(gè)卷積核的窗口采樣得到的特征信息如式(17)所示.下采樣層輸出的特征向量作為全連接層的輸入,本文通過(guò)一個(gè)softmax函數(shù)輸出分類(lèi)結(jié)果,如式(18)所示.

(17)

y=softmax(WfXp+Bf),

(18)

其中,Xp為下采樣層輸出,Wf∈C×|X|為全連接層權(quán)重矩陣,Bf∈C為全連接層偏置.本文使用反向傳播算法來(lái)訓(xùn)練模型,通過(guò)最小化交叉熵來(lái)優(yōu)化模型,交叉熵代價(jià)函數(shù)為

(19)

3 實(shí) 驗(yàn)

將本文提出的方法在3個(gè)不同領(lǐng)域數(shù)據(jù)的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),解決特定目標(biāo)情感分析任務(wù).通過(guò)和對(duì)比實(shí)驗(yàn)相比,驗(yàn)證本文提出的方法在不同領(lǐng)域的數(shù)據(jù)集上都能取得較好的情感分類(lèi)性能.在本文的實(shí)驗(yàn)中,英文詞向量采用Pennington等人[21]提出的Glove詞向量*http://nlp.stanford.edu/projects/glove/,其中每個(gè)詞向量為300維,詞典大小為1.9 MB.中文詞向量采用從汽車(chē)之家爬取的用戶(hù)評(píng)論,利用word2vec的skip-gram訓(xùn)練得到[22],每個(gè)詞向量為300維.對(duì)于未登錄詞,采用均勻分布U(-0.01,0.01)來(lái)隨機(jī)初始化詞向量.本文采用ICTCLAS分詞工具*http://ictclas.nlpir.org/對(duì)中文數(shù)據(jù)集進(jìn)行分詞和詞性標(biāo)注.對(duì)于單個(gè)詞的目標(biāo),本文使用詞向量作為目標(biāo)的向量表示,例如“food”,“menu”,“staff”等.對(duì)于由多個(gè)詞組成的目標(biāo),本文使用多個(gè)詞的詞向量平均值作為目標(biāo)的向量表示,例如“dim sum”,“battery life”等.

3.1實(shí)驗(yàn)數(shù)據(jù)

本文采用英文的SemEval2014數(shù)據(jù)集*http://alt.qcri.org/semeval2014/和中文的汽車(chē)領(lǐng)域數(shù)據(jù)集*http://www.wid.org.cn/data/science/player/competition/detail/description/237/(automotive-domain data, ADD)進(jìn)行實(shí)驗(yàn).其中汽車(chē)領(lǐng)域數(shù)據(jù)集為2016年CCF大數(shù)據(jù)與計(jì)算智能大賽(BDCI)中“基于視角的領(lǐng)域情感分析”賽題數(shù)據(jù),SemEval2014是語(yǔ)義評(píng)測(cè)比賽任務(wù)4的數(shù)據(jù)集,包含laptop和restaurant兩個(gè)領(lǐng)域的用戶(hù)評(píng)論.數(shù)據(jù)樣本的情感極性分為積極、消極和中性,表1給出本文實(shí)驗(yàn)使用數(shù)據(jù)的統(tǒng)計(jì).本文在Laptop領(lǐng)域數(shù)據(jù)集使用較少的訓(xùn)練數(shù)據(jù),用來(lái)分析不同模型在數(shù)據(jù)樣本缺乏的數(shù)據(jù)集上情感分類(lèi)性能.

Table 1 Statistic of The Datasets表1 實(shí)驗(yàn)使用數(shù)據(jù)統(tǒng)計(jì)

3.2超參數(shù)

本文使用3種不同的注意力矩陣輸入方法完成實(shí)驗(yàn),實(shí)驗(yàn)當(dāng)中使用多種窗口卷積核對(duì)輸入矩陣進(jìn)行卷積操作.卷積核函數(shù)為rectified linear units,訓(xùn)練過(guò)程采用Zeiler[23]提出的Adadelta更新規(guī)則.其他參數(shù)如表2所示:

Table 2 Hyper Parameters of Experiment表2 實(shí)驗(yàn)參數(shù)設(shè)置

3.3對(duì)比實(shí)驗(yàn)

將本文提出的3種方法AATT-CNN,CATT-CNN,SATT-CNN和以下的8種方法在3個(gè)不同領(lǐng)域的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn):

1) CNN.基于Kim[24]提出的卷積神經(jīng)網(wǎng)絡(luò)模型,是最基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò).

2) SVM.文獻(xiàn)[15]提出的基于特征的SVM分類(lèi)模型,該模型取得了比以往研究更好的分類(lèi)效果.

3) ATT-CNN.基于文獻(xiàn)[11]提出的多層注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò),將詞向量作為注意力機(jī)制構(gòu)建網(wǎng)絡(luò)的輸入矩陣,形成單注意力機(jī)制.

4) ATT-LSTM.文獻(xiàn)[19]提出的基于注意力機(jī)制的LSTM網(wǎng)絡(luò),該模型在5種特定目標(biāo)的情感分類(lèi)中取得了比傳統(tǒng)LSTM網(wǎng)絡(luò)更好的分類(lèi)效果.

5) AATT-CNN-1.本文提出的將多種注意力矩陣作運(yùn)算作為卷積神經(jīng)網(wǎng)絡(luò)的輸入模型,實(shí)驗(yàn)中λc,λt和λp系數(shù)分別取0.6,0.3和0.1.

6) AATT-CNN-2.本文提出的將多種注意力矩陣作運(yùn)算作為卷積神經(jīng)網(wǎng)絡(luò)的輸入模型,實(shí)驗(yàn)中隨機(jī)初始化λc,λt和λp系數(shù)矩陣,并在實(shí)驗(yàn)中可調(diào)整.

7) CATT-CNN.本文提出的將多種注意力機(jī)制拼接作為卷積神經(jīng)網(wǎng)絡(luò)的輸入模型,實(shí)驗(yàn)中G,R,U權(quán)重矩陣隨機(jī)初始化,并在實(shí)驗(yàn)中可調(diào)整.

8) SATT-CNN.本文提出的將多種注意力機(jī)制堆疊形成3維張量作為卷積神經(jīng)網(wǎng)絡(luò)的輸入模型.

3.4實(shí)驗(yàn)結(jié)果與分析

本文將8組實(shí)驗(yàn)在SemEval2014和ADD數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),分析特定目標(biāo)的情感極性.表3給出8組實(shí)驗(yàn)在3個(gè)不同領(lǐng)域的情感分類(lèi)正確率.

Table 3 Accuracy on Aspect-based Sentiment Classificationof Different Models

從表3結(jié)果可以看出,本文提出的4種方法在3個(gè)領(lǐng)域的數(shù)據(jù)集上都取得不錯(cuò)的情感分類(lèi)效果,其中AATT-CNN-2,CATT-CNN和SATT-CNN在3個(gè)領(lǐng)域的數(shù)據(jù)集中的情感分類(lèi)效果都比使用傳統(tǒng)的基于特征的SVM分類(lèi)模型好.沒(méi)加入任何特征的CNN模型對(duì)特定目標(biāo)的情感分析性能不是很理想,在最好的汽車(chē)領(lǐng)域數(shù)據(jù)集的分類(lèi)正確率也只有72.09%.分析實(shí)驗(yàn)結(jié)果可知,CNN模型將很多句子中的不同目標(biāo)判別為同樣的情感極性,普通的CNN模型沒(méi)有針對(duì)特定的目標(biāo)提取更多的特征信息,所以模型無(wú)法準(zhǔn)確識(shí)別同一個(gè)句子不同目標(biāo)的情感極性.基于注意力機(jī)制的ATT-CNN模型相比CNN模型分類(lèi)正確率有明顯的提高,在最高的Restaurant領(lǐng)域數(shù)據(jù)集提升了9.56%,這說(shuō)明注意力機(jī)制能使模型在訓(xùn)練過(guò)程高度關(guān)注特定的目標(biāo)的特征信息,從而更好地識(shí)別特定目標(biāo)的情感極性,驗(yàn)證了注意力機(jī)制在特定目標(biāo)情感分類(lèi)任務(wù)中的有效性.

對(duì)比本文提出的4種模型和使用單一的注意力機(jī)制的ATT-CNN模型可以看出,本文提出的4種模型在3個(gè)數(shù)據(jù)集的分類(lèi)正確率都明顯高于單一注意力機(jī)制的ATT-CNN模型,其中Laptop數(shù)據(jù)集提升最高為2.62%,Restaurant數(shù)據(jù)集提升最高為3.28%,汽車(chē)領(lǐng)域數(shù)據(jù)集提升最高為4.5%.實(shí)驗(yàn)結(jié)果表明對(duì)比單一注意力機(jī)制的ATT-CNN模型,結(jié)合多種注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)模型可以使網(wǎng)絡(luò)在訓(xùn)練過(guò)程通過(guò)不同的注意力機(jī)制來(lái)關(guān)注和學(xué)習(xí)特定目標(biāo)的情感信息,以及通過(guò)不同注意力機(jī)制之間的相互聯(lián)系來(lái)提取挖掘更多的隱藏信息,有效彌補(bǔ)了單一注意力機(jī)制的不足,從而取得更好的分類(lèi)效果.

對(duì)比本文提出的4種模型和文獻(xiàn)[19]提出的ATT-LSTM模型可以看出,ATT-LSTM模型在Laptop領(lǐng)域數(shù)據(jù)集取得了最好的分類(lèi)效果(正確率為68.22%),而本文提出的CATT-CNN和SATT-CNN模型在2個(gè)訓(xùn)練數(shù)據(jù)較多的Restaurant領(lǐng)域數(shù)據(jù)集和汽車(chē)領(lǐng)域數(shù)據(jù)集的情感分類(lèi)正確率均高于ATT-LSTM網(wǎng)絡(luò)模型,其中表現(xiàn)最好的CATT-CNN模型在2個(gè)訓(xùn)練數(shù)據(jù)領(lǐng)域數(shù)據(jù)集上的分類(lèi)正確率分別提升了1.28%和1.54%.說(shuō)明和結(jié)合注意力機(jī)制的LSTM網(wǎng)絡(luò)相比,基于多注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)雖然在數(shù)據(jù)量較少的數(shù)據(jù)集上因?yàn)橛?xùn)練樣本的不足容易出現(xiàn)過(guò)擬合現(xiàn)象,從而導(dǎo)致情感分類(lèi)正確率較低,但是在訓(xùn)練集數(shù)據(jù)量較為充足的數(shù)據(jù)集中可以通過(guò)不同的注意力機(jī)制來(lái)關(guān)注輸入的文本,使模型能提取到更多的隱藏信息,從而有更好的情感分類(lèi)效果.

對(duì)比AATT-CNN-1和AATT-CNN-2兩組實(shí)驗(yàn)可以看出,AATT-CNN-2模型在3個(gè)領(lǐng)域的數(shù)據(jù)集都好于AATT-CNN-1模型,其中分類(lèi)正確率提升最高的是Laptop數(shù)據(jù)集,為1.69%.這說(shuō)明結(jié)合系數(shù)矩陣的注意力輸入比單純的固定系數(shù)注意力輸入的情感分類(lèi)效果更好.通過(guò)系數(shù)矩陣可以使網(wǎng)絡(luò)在訓(xùn)練過(guò)程更細(xì)地調(diào)整特征向量的每一個(gè)分量,從而讓網(wǎng)絡(luò)在更低維度的調(diào)整中學(xué)習(xí)更多的隱藏信息.

對(duì)比AATT-CNN-2,CATT-CNN和SATT-CNN這3組實(shí)驗(yàn)可以看出,采用通過(guò)矩陣變換的拼接方法雖然在訓(xùn)練數(shù)據(jù)較少的Laptop領(lǐng)域數(shù)據(jù)集的分類(lèi)正確率最低,只有67.10%,但是在Restaurant領(lǐng)域數(shù)據(jù)集和汽車(chē)領(lǐng)域數(shù)據(jù)集的情感分類(lèi)正確率都明顯高于其他2組實(shí)驗(yàn).結(jié)合變換矩陣的CATT-CNN模型和SATT-CNN模型相比,CATT-CNN模型可以在訓(xùn)練過(guò)程中通過(guò)調(diào)整變換矩陣使不同注意力機(jī)制在輸入層就能很好地互相結(jié)合,而SATT-CNN模型只有在卷積層以后才會(huì)有不同注意力機(jī)制的信息交互.采用拼接操作的CATT-CNN模型和AATT-CNN-2模型相比,CATT-CNN模型保留了不同注意力機(jī)制的原始輸入信息,模型可以更好地調(diào)整注意力機(jī)制輸入向量.

為了進(jìn)一步比較本文提出的AATT-CNN-2,CATT-CNN,SATT-CNN這3個(gè)模型和ATT-LSTM模型在特定目標(biāo)情感分析任務(wù)中的分類(lèi)效果,本文只保留數(shù)據(jù)集中的積極和消極樣本對(duì)4個(gè)模型進(jìn)行對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果如表4所示:

Table 4 Accuracy on Aspect-based Sentiment Classificationof Different Models Ignoring All Neutral Instances

從表4可以看出在去除中性極性數(shù)據(jù)之后,4組實(shí)驗(yàn)的分類(lèi)正確率都有了明顯的提升,其中ATT-LSTM模型在Laptop領(lǐng)域數(shù)據(jù)的分類(lèi)正確率最高,為86.57%.說(shuō)明ATT-LSTM模型在數(shù)據(jù)量較小的數(shù)據(jù)集中仍然可以取得比其他模型更好的分類(lèi)效果.CATT-CNN和SATT-CNN模型在Restaurant和汽車(chē)領(lǐng)域數(shù)據(jù)集的分類(lèi)正確率都高于ATT-LSTM模型,說(shuō)明在數(shù)據(jù)集數(shù)量較為充裕時(shí),基于多注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)的情感分類(lèi)效果要好于基于注意力機(jī)制的LSTM網(wǎng)絡(luò).AATT-CNN-2模型在3個(gè)數(shù)據(jù)集的分類(lèi)效果都是最差的,說(shuō)明在輸入層將注意力機(jī)制矩陣做運(yùn)算會(huì)失去注意力機(jī)制原有的輸入信息,在訓(xùn)練過(guò)程中網(wǎng)絡(luò)只能通過(guò)調(diào)整系數(shù)矩陣和運(yùn)算后的注意力矩陣來(lái)學(xué)習(xí)特征信息,導(dǎo)致不同的注意力機(jī)制沒(méi)有得到充分的利用,降低了分類(lèi)性能.

對(duì)比CATT-CNN模型和SATT-CNN模型可以看出,在Laptop領(lǐng)域和Restaurant領(lǐng)域數(shù)據(jù)集SATT-CNN模型的分類(lèi)正確率高于CATT-CNN模型,分別提升0.25%和0.53%,但是在汽車(chē)領(lǐng)域數(shù)據(jù)集中CATT-CNN模型要明顯優(yōu)于SATT-CNN模型,分類(lèi)正確率提升了1.64%.

Fig. 7 Classification accuracy of different data size 圖7 不同大小數(shù)據(jù)集的分類(lèi)正確率比較

為了進(jìn)一步分析CATT-CNN模型和SATT-CNN模型在不同大小數(shù)據(jù)集中的分類(lèi)效果,本文提取Restaurant領(lǐng)域3 000條數(shù)據(jù)和汽車(chē)領(lǐng)域4 500條數(shù)據(jù)進(jìn)行5倍交叉驗(yàn)證實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖7所示.從圖7結(jié)果可以看出隨著數(shù)據(jù)集的樣本數(shù)增加,CATT-CNN模型和SATT-CNN模型都呈現(xiàn)出越來(lái)越好的分類(lèi)效果.在數(shù)據(jù)集樣本數(shù)較少的實(shí)驗(yàn)中,SATT-CNN模型要好于CATT-CNN模型,而在數(shù)據(jù)集樣本數(shù)較多的實(shí)驗(yàn)中,CATT-CNN模型的分類(lèi)效果要明顯優(yōu)于SATT-CNN模型.因?yàn)镃ATT-CNN模型在訓(xùn)練過(guò)程中可以調(diào)整變換矩陣和注意力機(jī)制矩陣2個(gè)信息的變量,可以更好地?cái)M合訓(xùn)練數(shù)據(jù),所以在數(shù)據(jù)量較少的數(shù)據(jù)集中會(huì)出現(xiàn)過(guò)擬合的情況,而SATT-CNN模型只通過(guò)調(diào)整不同通道的注意力機(jī)制輸入信息,過(guò)擬合現(xiàn)象遠(yuǎn)低于CATT-CNN模型,如圖7(a)所示.相反,隨著數(shù)據(jù)集的樣本數(shù)量的增加,CATT-CNN模型能通過(guò)調(diào)整變換矩陣和注意力機(jī)制輸入矩陣,使不同注意力機(jī)制更好地互相學(xué)習(xí),達(dá)到更好的數(shù)據(jù)擬合效果,隨著數(shù)據(jù)量的增加也可以減輕過(guò)擬合的現(xiàn)象,所以隨著數(shù)據(jù)量的增加,CATT-CNN模型的分類(lèi)效果要比SATT-CNN模型更好,如圖7(b)所示.

Fig. 8 Classification accuracy of different tag embedding dimension圖8 不同維度詞性向量的分類(lèi)正確率比較

本文在以前研究的基礎(chǔ)上提出了加入詞性注意力機(jī)制的方法,為了驗(yàn)證詞性注意力機(jī)制的有效性,本文從Restaurant領(lǐng)域和汽車(chē)領(lǐng)域分別抽取3 000條數(shù)據(jù)在AATT-CNN-2,CATT-CNN和SATT-CNN這3個(gè)模型上使用不同維度的詞性向量構(gòu)造詞性注意力機(jī)制進(jìn)行5倍交叉驗(yàn)證實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖8所示,其中詞性向量維度為0表示不使用詞性注意力機(jī)制.從圖8結(jié)果可以看出,加入詞性注意力機(jī)制后,3個(gè)模型在2個(gè)領(lǐng)域數(shù)據(jù)集上的分類(lèi)效果都有顯著提升.其中,Restaurant領(lǐng)域分類(lèi)正確率提升最高為4.5%,汽車(chē)領(lǐng)域分類(lèi)正確率提升最高為3.83%.說(shuō)明加入詞性注意力機(jī)制可以讓模型更加充分地學(xué)習(xí)文本的情感信息,達(dá)到更好的情感分類(lèi)效果.此外,當(dāng)詞性向量維度大于100維時(shí),AATT-CNN-2模型和CATT-CNN模型在2個(gè)領(lǐng)域數(shù)據(jù)集上的分類(lèi)正確率都出現(xiàn)了波動(dòng).分析實(shí)驗(yàn)結(jié)果可以看出,由于本文實(shí)驗(yàn)中使用的詞向量維度為300維,AATT-CNN-2模型和CATT-CNN模型的輸入矩陣是注意力機(jī)制有聯(lián)系的輸入,所以詞向量注意力機(jī)制作為模型訓(xùn)練的主要特征,當(dāng)詞性向量的維度超過(guò)一定閾值時(shí)會(huì)影響模型對(duì)詞向量注意力機(jī)制的參數(shù)調(diào)整,降低了模型在內(nèi)容層面特征信息的學(xué)習(xí)效果.以獨(dú)立注意力機(jī)制矩陣作為網(wǎng)絡(luò)輸入的SATT-CNN模型在訓(xùn)練過(guò)程中可以獨(dú)立完成不同注意力的參數(shù)調(diào)整,所以當(dāng)詞性向量維度大于100時(shí)SATT-CNN模型的分類(lèi)正確率仍有提升,但提升幅度已經(jīng)不明顯.此外,隨著向量維度的增加,模型的訓(xùn)練時(shí)間代價(jià)也會(huì)增加,所以本文在實(shí)驗(yàn)中選取100作為詞性向量的維度.

3.5訓(xùn)練時(shí)間分析

為了分析不同網(wǎng)絡(luò)模型在相同條件下的時(shí)間性能,本文在相同的CPU,GPU和網(wǎng)絡(luò)框架下完成所有神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn),同時(shí),所有實(shí)驗(yàn)使用相同的詞向量矩陣和相同的數(shù)據(jù)集.表5給出不同網(wǎng)絡(luò)模型在Restaurant領(lǐng)域數(shù)據(jù)集上完成一次迭代的訓(xùn)練時(shí)間對(duì)比結(jié)果.

Table 5 Runtime of Each Training Epoch

從表5結(jié)果可以看出LSTM網(wǎng)絡(luò)的訓(xùn)練時(shí)間代價(jià)是非常高的,這主要因?yàn)長(zhǎng)STM網(wǎng)絡(luò)訓(xùn)練的是序列性數(shù)據(jù),每一個(gè)單元都需要相當(dāng)復(fù)雜的運(yùn)算操作.ATT-LSTM模型完成一次迭代的訓(xùn)練時(shí)間超過(guò)500 s,是本文提出方法的20多倍.此外,不加任何特征的CNN模型是最快的,完成一次迭代的訓(xùn)練時(shí)間只需要4 s,加入注意力機(jī)制的ATT-CNN模型訓(xùn)練時(shí)間也只需12 s,說(shuō)明卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的時(shí)間性能要遠(yuǎn)遠(yuǎn)好于LSTM網(wǎng)絡(luò).此外,本文提出的4種多注意力機(jī)制卷積神經(jīng)網(wǎng)絡(luò)模型的運(yùn)行時(shí)間雖然高于CNN和ATT-CNN模型,但是遠(yuǎn)低于ATT-LSTM網(wǎng)絡(luò)模型.這說(shuō)明基于注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)可以接收句子的平行化輸入,可以有效降低模型的訓(xùn)練時(shí)間.

4 總 結(jié)

在特定目標(biāo)情感分析任務(wù)中,如今大部分研究都是將注意力機(jī)制和LSTM網(wǎng)絡(luò)相結(jié)合的方法,這類(lèi)方法基于循環(huán)網(wǎng)絡(luò)模型,訓(xùn)練過(guò)程需要很高的時(shí)間代價(jià).本文基于注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的研究,提出結(jié)合多種注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)的特定目標(biāo)情感分類(lèi)方法,該模型大大降低了基于注意力機(jī)制網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間.同時(shí),過(guò)去的研究主要是結(jié)合詞向量注意力機(jī)制和普通的位置注意力機(jī)制,本文在以前的研究基礎(chǔ)上提出了加入詞性注意力機(jī)制的方法,并通過(guò)對(duì)比實(shí)驗(yàn)驗(yàn)證了加入詞性注意力機(jī)制能有效提高特定目標(biāo)情感分析的分類(lèi)正確率.此外,本文使用一種雙向掃描算法來(lái)計(jì)算句子的位置特征,使目標(biāo)詞的位置信息得到充分的利用.實(shí)驗(yàn)結(jié)果表明,本文提出的方法對(duì)比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)方法有很明顯的提升,同時(shí)對(duì)比基于注意力機(jī)制的LSTM網(wǎng)絡(luò)模型也有較好的分類(lèi)效果.

從實(shí)驗(yàn)結(jié)果可以看出,本文提出的多注意力卷積神經(jīng)網(wǎng)絡(luò)方法在訓(xùn)練樣本缺乏的數(shù)據(jù)集上容易出現(xiàn)過(guò)擬合現(xiàn)象,導(dǎo)致分類(lèi)效果不理想.所以本文接下來(lái)將針對(duì)這個(gè)問(wèn)題對(duì)多注意力卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn).

[1] Nasukawa T, Yi J. Sentiment analysis: Capturing favorability using natural language processing[C] //Proc of the 2nd Int Conf on Knowledge capture. New York: ACM, 2003: 70-77

[2] Wang Zhongyuan, Cheng Jianpeng, Wang Haixun, et al. Short text understanding: A survey[J]. Journal of Computer Research and Development, 2016, 53(2): 262-269(王仲遠(yuǎn), 程健鵬, 王海勛, 等. 短文本理解研究[J]. 計(jì)算機(jī)研究與發(fā)展, 2016, 53(2): 262-269)

[3] KalchbrennerK N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[C] //Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2014: 655-665

[4] Zhou Xinjie, Wan Xiaojun, Xiao Jianguo. Attention-based LSTM network for cross-lingual sentiment classification[C] //Proc of the 2016 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 247-256

[5] Yu Jianfei, Jiang Jing. Learning sentence embeddings with auxiliary tasks for cross-domain sentiment classification[C] //Proc of the 2016 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 236-246

[6] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1/2): 1-135

[7] Pontiki M, Galanis D, Pavlopoulos J, et al. Semeval-2014 task 4: Aspect based sentiment analysis[C] //Proc of the 8th Int Workshop on Semantic Evaluation. Stroudsburg, PA: ACL, 2014: 27-35

[8] Mnih V, Heess N, Graves A. Recurrent models of visual attention[C] //Proc of Advances in Neural Information Processing Systems 27 (NIPS 2014). Cambridge, MA: MIT Press, 2014: 2204-2212

[9] Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[C/OL] //Proc of ICLR 2015. [2017-03-15]. https://arxiv.org/pdf/1409.0473.pdf

[10] Yin Wenpeng, Schütze H, Xiang Bing, et al. Abcnn: Attention-based convolutional neural network for modeling sentence pairs[J/OL]. arXiv preprint arXiv: 1212.05193, 2015. [2017-03-15]. https://arxiv.org/pdf/1512.05193.pdf

[11] Wang Linlin, Cao Zhu, de Melo G, et al. Relation classification via multi-level attention cnns[C] //Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics. Stroudsburg, PA: ACL, 2016: 1298-1307

[12] Hu Minqing, Liu Bing. Mining and summarizing customer reviews[C] //Proc of the 10th ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2004: 168-177

[13] Hu Minqing, Liu Bing. Mining opinion features in customer reviews[C] //Proc of AAAI 2004. Menlo Park: AAAI, 2004, 4(4): 755-760

[14] Qiu Guang, Liu Bing, Bu Jiajun, et al. Opinion word expansion and target extraction through double propagation[J]. Computational Linguistics, 2011, 37(1): 9-27

[15] Kiritchenko S, Zhu Xiaodan, Cherry C, et al. NRC-Canada-2014: Detecting aspects and sentiment in customer reviews[C] //Proc of the 8th Int Workshop on Semantic Evaluation (SemEval 2014). Stroudsburg, PA: ACL, 2014: 437-442

[16] Nguyen T H, Shirai K. PhraseRNN: Phrase recursive neural network for aspect-based sentiment analysis[C] //Proc of the 2015 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2015: 2509-2514

[17] Dong Li, Wei Furu, Tan Chuangqi, et al. Adaptive recursive neural network for target-dependent twitter sentiment classification[C] //Proc of the 52nd Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2014: 49-54

[18] Ruder S, Ghaffari P, Breslin J G. A hierarchical model of reviews for aspect-based sentiment analysis[C] //Proc of the 2016 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 999-1005

[19] Wang Yequan, Huang Minlie, Zhao Li, et al. Attention-based LSTM for aspect-level sentiment classification[C] //Proc of the 2016 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2016: 606-615

[20] Collobert R, Weston J, Bottou L, et al. Natural language processing (almost) from scratch[J]. Journal of Machine Learning Research, 2011, 12(8): 2493-2537

[21] Pennington J, Socher R, Manning C D. Glove: Global vectors for word representation[C] //Proc of the 2014 Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2014: 1532-1543

[22] Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[C/OL] //Proc of Workshop at ICLR 2013. [2017-03-15]. https://arxiv.org/pdf/1301.3781.pdf

[23] Zeiler M D. ADADELTA: An adaptive learning rate method[J/OL]. arXiv preprint arXiv: 1212. 5701, 2012. [2017-03-15]. https://arxiv.org/pdf/1212.5701.pdf

[24] Kim Y. Convolutional neural networks for sentence classification[C] //Proc of the 2014 Conf on Empirical Methods in Natural Language Processing (EMNLP). Stroudsburg, PA: ACL, 2014: 1746-1751

Aspect-BasedSentimentAnalysisBasedonMulti-AttentionCNN

Liang Bin1, Liu Quan1,2,3, Xu Jin1, Zhou Qian1, and Zhang Peng1

1(CollegeofComputerScienceandTechnology,SoochowUniversity,Suzhou,Jiangsu215000)2(CollaborativeInnovationCenterofNovelSoftwareTechnologyandIndustrialization,Nanjing210000)3(KeyLaboratoryofSymbolicComputationandKnowledgeEngineering(JilinUniversity),MinistryofEducation,Changchun130012)

Unlike general sentiment analysis, aspect-based sentiment classification aims to infer the sentiment polarity of a sentence depending not only on the context but also on the aspect. For example, in sentence “The food was very good, but the service at that restaurant was dreadful”, for aspect “food”, the sentiment polarity is positive while the sentiment polarity of aspect “service” is negative. Even in the same sentence, sentiment polarity could be absolutely opposite when focusing on different aspects, so we need to infer the sentiment polarities of different aspects correctly. The attention mechanism is a good way for aspect-based sentiment classification. In current research, however, the attention mechanism is more combined with RNN or LSTM networks. Such neural network-based architectures generally rely on complex structures and cannot parallelize over the words of a sentence. To address the above problems, this paper proposes a multi-attention convolutional neural networks (MATT-CNN) for aspect-based sentiment classification. This approach can capture deeper level sentiment information and distinguish sentiment polarity of different aspects explicitly through a multi-attention mechanism without using any external parsing results. Experiments on the SemEval2014 and Automotive-domain datasets show that, our approach achieves better performance than traditional CNN, attention-based CNN and attention-based LSTM.

attention mechanism; convolutional neural networks; aspect-based sentiment analysis; deep learning; natural language processing

Liang Bin, born in 1993. Master candidate. His main research interests include sentiment analysis, natural language processing, and deep learning.

Liu Quan, born in 1969. PhD, professor and PhD supervisor. His main research interests include intelligence information processing, automated reasoning and machine learning.

Xu Jin, born in 1992. Master candidate. His main research interests include reinforcement learning, deep learning and deep reinforcement learning.

Zhou Qian, born in 1992. Master candidate. Her main research interest is reinforcement learning.

Zhang Peng, born in 1992. Master candidate. His main research interest is continuous space reinforcement learning.

2017-03-20;

:2017-05-18

國(guó)家自然科學(xué)基金項(xiàng)目(61272005,61303108,61373094,61472262,61502323,61502329);江蘇省自然科學(xué)基金項(xiàng)目(BK2012616);江蘇省高校自然科學(xué)研究項(xiàng)目(13KJB520020);吉林大學(xué)符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室基金項(xiàng)目(93K172014K04) This work was supported by the National Natural Science Foundation of China (61272005, 61303108, 61373094, 61472262, 61502323,61502329), the Natural Science Foundation of Jiangsu Province (BK2012616), the High School Natural Science Foundation of Jiangsu Province (13KJB520020), and the Foundation of the Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education (Jilin University) (93K172014K04).

劉全(quanliu@suda.edu.cn)

TP391

猜你喜歡
機(jī)制情感模型
一半模型
如何在情感中自我成長(zhǎng),保持獨(dú)立
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
自制力是一種很好的篩選機(jī)制
文苑(2018年21期)2018-11-09 01:23:06
如何在情感中自我成長(zhǎng),保持獨(dú)立
3D打印中的模型分割與打包
破除舊機(jī)制要分步推進(jìn)
主站蜘蛛池模板: 国产毛片基地| 看国产毛片| 欧美色丁香| 日韩国产亚洲一区二区在线观看| 国产人免费人成免费视频| 中文字幕在线看| 无码中文字幕精品推荐| 91香蕉国产亚洲一二三区 | 日韩黄色在线| 国产色婷婷视频在线观看| 欧美一区二区三区欧美日韩亚洲| 国产精品理论片| 国产在线八区| 免费高清毛片| 免费国产不卡午夜福在线观看| 欧美福利在线观看| 国产欧美综合在线观看第七页| 99热这里只有免费国产精品| 成人欧美在线观看| 免费看美女自慰的网站| 欧美久久网| 2021国产精品自产拍在线观看| 久久久久国产一级毛片高清板| 国内视频精品| 毛片免费观看视频| 国产精品不卡永久免费| 在线观看国产精品第一区免费| 亚洲无卡视频| 免费高清自慰一区二区三区| 人妻无码中文字幕第一区| 少妇精品网站| 亚洲最新在线| 久久a级片| 欧美成人精品在线| 五月天香蕉视频国产亚| 国产精品大尺度尺度视频| 亚洲国产精品无码久久一线| a级毛片免费播放| 亚洲av日韩av制服丝袜| 欧美午夜在线观看| 免费国产不卡午夜福在线观看| 亚洲欧洲AV一区二区三区| 国产一级妓女av网站| 国产乱人激情H在线观看| 亚洲视屏在线观看| 亚洲日韩国产精品无码专区| 中文字幕乱码二三区免费| 欧美天天干| 国产综合网站| 99ri国产在线| 国产乱论视频| 全免费a级毛片免费看不卡| 亚洲黄色视频在线观看一区| 国产AV无码专区亚洲精品网站| 91偷拍一区| 欧美成人午夜影院| 一级毛片在线免费视频| 国产成人精品日本亚洲77美色| 在线视频精品一区| 青青青国产精品国产精品美女| 欧美成人综合视频| 国产一区二区在线视频观看| 国产黑人在线| 国产爽妇精品| 91精品国产一区| 欧美国产在线看| 亚洲精品福利网站| 国产亚洲精品97AA片在线播放| swag国产精品| 国产成人资源| 国内精品手机在线观看视频| 亚洲视频欧美不卡| 免费国产在线精品一区| 天天综合亚洲| 日韩精品亚洲人旧成在线| 国产一级小视频| 91美女视频在线观看| 亚洲欧美综合精品久久成人网| 欧美久久网| 成人在线观看一区| 人妻精品久久久无码区色视| 亚洲 欧美 中文 AⅤ在线视频|