999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于多注意力網(wǎng)絡(luò)的特定目標(biāo)情感分析①

2020-06-20 07:32:06宋曙光徐迎曉
關(guān)鍵詞:語義特征情感

宋曙光,徐迎曉

(復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 201203)

1 引言

特定目標(biāo)情感分析(Target-Specific Sentiment Analysis,TSSA)是自然語言處理領(lǐng)域的經(jīng)典任務(wù),旨在通過對文本語義的挖掘和分析來判斷其所表達(dá)的情感極性.對于該任務(wù),給定一個(gè)完整的句子和其包含的目標(biāo)詞,應(yīng)推測出該句包含的各個(gè)目標(biāo)詞的情感極性(包括積極情感、消極情感、中性).例如,在句子“The menu is limited but almost all of the dishes are excellent.”中,有兩個(gè)目標(biāo)詞“menu”和“dishes”,特定目標(biāo)情感分析任務(wù)的目的就是要分析出目標(biāo)詞“menu”的情感極性是消極的,目標(biāo)詞“dishes”的情感極性是積極的.

特定目標(biāo)情感分析是一種細(xì)粒度的情感分析任務(wù),在國內(nèi)外有諸多成果涌現(xiàn).該任務(wù)的研究方法一般分為傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法.傳統(tǒng)機(jī)器學(xué)習(xí)方法使用大量人工設(shè)計(jì)的特征集合來提高模型性能,工作量較大.與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,深度學(xué)習(xí)方法能自動提取文本語義特征,在特定目標(biāo)情感分析領(lǐng)域取得快速發(fā)展.在LSTM[1]的基礎(chǔ)上,研究者們引入了注意力機(jī)制來改善長句表達(dá)能力欠佳的問題,取得良好效果.雖然注意力機(jī)制能捕捉更多的句子情感信息,但當(dāng)前研究多采用簡單注意力機(jī)制,當(dāng)句子中情感詞為多詞詞組時(shí),簡單的注意力機(jī)制不能有效提取詞組整體的語義特征,容易引起歧義造成模型錯(cuò)判,而引入短語級別語義特征能有效改善這一問題.

基于此,本文提出了融合短語特征的多注意力網(wǎng)絡(luò)(Phrase-EnabledMulti-Attention Network,PEMAN),通過引入短語級別的語義表示,實(shí)現(xiàn)多粒度特征融合的多注意力網(wǎng)絡(luò)來解決上述問題,并使用該模型在SemEval2014[2]的Laptop 和Restaurant 兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn).結(jié)果表明,本文提出的PEMAN 模型相比基線模型有一定提高,準(zhǔn)確率分別達(dá)到74.9%和80.6%.

2 相關(guān)工作

傳統(tǒng)機(jī)器學(xué)習(xí)方法利用情感詞典、語句分析等獲得句子特征,然后利用分類器進(jìn)行情感預(yù)測.例如,Vo 等[3]提出基于推特語料的情感分析模型,其利用情感詞典、多個(gè)詞嵌入向量來提取語料的語義特征,使得模型的準(zhǔn)確率有一定提高.Kiritchenko 等[4]利用詞袋模型、情感詞典以及語義解析來構(gòu)建特征,通過訓(xùn)練支持向量機(jī)分類器(Support Vector Machine,SVM)來進(jìn)行情感分類.以上方法表現(xiàn)不錯(cuò),但其效果依賴于復(fù)雜的特征抽取和設(shè)計(jì)工作,需要耗費(fèi)大量人力物力.

近年來,越來越多的學(xué)者將深度學(xué)習(xí)方法用在特定目標(biāo)情感分析任務(wù)中.Tang 等[5]提出TD-LSTM、TC-LSTM 兩個(gè)模型,通過兩個(gè)LSTM 分別對特定目標(biāo)的上下文進(jìn)行建模,以獲得更好的文本表示.Wang 等[6]提出基于注意力機(jī)制的分類模型,引入注意力機(jī)制捕獲編碼后的句子表示中的重要信息.Tang 等[7]提出了一個(gè)深度記憶網(wǎng)絡(luò)模型,其通過線性方式組合了多個(gè)收集目標(biāo)特征的注意力計(jì)算層,以提高注意力網(wǎng)絡(luò)的準(zhǔn)確性.Ma 等[8]使用兩個(gè)注意力網(wǎng)絡(luò)計(jì)算特定目標(biāo)和上下文的語義表示并構(gòu)建其交互表示,以此來進(jìn)行情感分類.Chen 等[9]提出利用循環(huán)注意力結(jié)構(gòu)獲得多層句子特征,并將其通過GRU 非線性組合起來,使模型具有更好的表達(dá)能力.Huang 等[10]利用疊加注意力機(jī)制對句子和目標(biāo)詞的特征做交互計(jì)算,提高了模型的準(zhǔn)確率.

在特定目標(biāo)情感分析任務(wù)的已有研究工作中,當(dāng)特定目標(biāo)所對應(yīng)的情感詞為多詞的時(shí)候,可能會因?yàn)榍楦性~語義融合不當(dāng)而導(dǎo)致錯(cuò)誤情況.例如,在句子“Great food andthe service was not bad.”中,對于目標(biāo)詞“service”來說,表達(dá)其情感傾向的是“not bad”這個(gè)情感詞詞組,所表達(dá)的是積極情感.在遇到上述例子時(shí),以往的模型可能會聚焦于“bad”這個(gè)單詞而預(yù)測出負(fù)面情感,造成分類的錯(cuò)誤.針對以上問題,本文提出PEMAN 模型,通過引入短語級別的語義表示,獲取更豐富的句子語義表示,實(shí)現(xiàn)多注意力網(wǎng)絡(luò)的特征融合,以解決注意力分散的問題.

3 PEMAN 模型

本文提出的融合短語特征的多注意力網(wǎng)絡(luò)PEMAN模型的整體框架圖如圖1所示,其結(jié)構(gòu)主要由輸入層、編碼層、多注意力層、輸出層等部分組成:

(1)輸入層:對模型輸入部分做處理,進(jìn)行向量嵌入操作.

(2)編碼層:使用Bi-LSTM[11]對輸入內(nèi)容進(jìn)行編碼,并嵌入位置信息.

(3)多注意力層:使用兩個(gè)注意力交互矩陣對隱層狀態(tài)輸出進(jìn)行計(jì)算,得到最終的語義表示.

(4)輸出層:使用多注意力層輸出的語義表示進(jìn)行情感分類.

3.1 輸入層

本文模型的輸入共有3 個(gè)部分:句子表示、目標(biāo)詞表示、短語集合表示.給定一個(gè)數(shù)據(jù)集中長度為n的句子c=[w1,w2,···,wn]和長度為m的目標(biāo)詞a=[wi,wi+1,···,wi+m-1],使用GloVe 預(yù)訓(xùn)練詞向量[12]初始化可得到其詞向量表示,其中d為詞向量維度.

構(gòu)建用于提取短語特征的向量集合.具體方法是:設(shè)短語長度為x,那么對于長度為n的句子C,如式(1):

其中,C[i:i+x]代表從C中取第i到i+x-1 個(gè)詞向量.pi表示從C中取出x個(gè)詞向量經(jīng)過最大池化操作得到的第i個(gè)短語表示.P=[p1,p2,···,pn-x+1]∈R(n-x+1)×d,代表從C中取出的長度為x的短語向量集合.其中,短語長度的取值范圍為[1,2,···,n],當(dāng)x取1 時(shí),短語集合即為句子表示,不能有效挖掘短語語義特征.當(dāng)x過大時(shí),將混淆句子中單詞的語義表示,模型的表達(dá)能力將會變差.短語長度取值的不同將會影響模型的特征抽取能力,經(jīng)實(shí)驗(yàn)驗(yàn)證,當(dāng)x取3 時(shí),模型表達(dá)能力最強(qiáng).

圖1 PEMAN 模型結(jié)構(gòu)圖

3.2 編碼層

模型將輸入層得到的句子、目標(biāo)詞、短語集合的詞向量表示分別送入到3 個(gè)Bi-LSTM 中,分別學(xué)習(xí)整個(gè)句子、目標(biāo)詞、短語集合的隱藏語義信息.

其中,式(2)表示Bi-LSTM 正向的隱藏狀態(tài)輸出,用于提取句子的正向語義特征.式(3)表示Bi-LSTM 反向的隱藏狀態(tài)輸出,用于提取句子反向的語義特征.二者拼接起來得到句子表示的隱藏狀態(tài)輸出hc=[h1c,h2c,···,hnc]∈Rn×2dh,如式(4)所示.

同理可得目標(biāo)詞表示的隱藏狀態(tài)輸出ha=[h1a,h2a,···,hma]∈Rm×2dh,以及短語集合表示的隱藏狀態(tài)輸出hp=[h1p,h2p,···,hnp-x+1]∈R(n-x+1)×2dh,如式(5)、式(6)所示.

其中,dh為Bi-LSTM 隱藏狀態(tài)的維度,n為句子長度,m為目標(biāo)詞長度,n-x+1 為短語集合的向量個(gè)數(shù).

句子中離目標(biāo)詞越近的情感詞更可能表達(dá)目標(biāo)詞的情感極性.因此,模型在得到句子表示之后,還應(yīng)充分考慮目標(biāo)詞和上下文單詞的位置信息.

給定長度為n的句子和長度為m的目標(biāo)詞,對于句中任意一個(gè)單詞wt,設(shè)wt和目標(biāo)詞的相對距離是l(目標(biāo)詞可能是單詞或多詞,這里統(tǒng)一把目標(biāo)詞當(dāng)做一個(gè)短語整體),則單詞wt的 位置權(quán)重vt的計(jì)算方式如式(7):

得到位置權(quán)重后,可由式(8)計(jì)算包含位置信息權(quán)重的句子最終語義表示:

3.3 多注意力層

在分別得到句子、目標(biāo)詞、短語集合的語義表示hc、ha、hp之后,借助以上語義信息,引入多注意力機(jī)制進(jìn)行特征融合,具體做法如下:給定句子表示hc∈Rn×2dh和目標(biāo)詞表示ha∈Rm×2dh,首先計(jì)算交互矩陣Ictx∈Rn×m,計(jì)算方式如式(9)所示.其中,交互矩陣中每個(gè)元素表示句子中每個(gè)詞和目標(biāo)詞之間的相關(guān)度.

對于交互矩陣Ictx,分別按列、行進(jìn)行歸一化處理,記為 αctx∈Rn×m、βctx∈Rn×m,矩陣αctx和βctx中每個(gè)元素分別表示目標(biāo)詞中每個(gè)詞對于句子中各個(gè)詞的權(quán)重和句子中每個(gè)詞對于目標(biāo)詞中各個(gè)詞的權(quán)重,如式(10)所示.將 βctx按列取平均,可得目標(biāo)詞中每個(gè)詞所占的權(quán)重,記為,如式(11)所示,由此可得所有目標(biāo)詞的權(quán)重為

句子中所有詞的注意力權(quán)重分布 γctx由αctx和相乘得到,如式(12)所示:

同理,對短語集合表示hp和 目標(biāo)詞表示ha做同樣的注意力權(quán)重計(jì)算可得短語集合中各短語的注意力權(quán)重分布γprs,方法同上.計(jì)算公式如式(13)~式(16)所示:

3.4 輸出層

在輸出層,句子表示rctx由句子多個(gè)隱藏狀態(tài)的輸出加權(quán)求和得到,短語集合表示rprs由短語集合多個(gè)隱藏狀態(tài)的輸出加權(quán)求和得到,計(jì)算公式如下所示:

句子最終的語義表示r由二者拼接得到,當(dāng)作最終的句子特征送入到Softmax 層中,得到結(jié)果的概率分布,計(jì)算公式如下所示:

其中,Wl和bl是Softmax 層的參數(shù),結(jié)果y表示模型預(yù)測結(jié)果.

模型通過端到端反向傳播的方式進(jìn)行訓(xùn)練,以交叉熵[13]作為損失函數(shù),并加入正則化項(xiàng)[14]減少過擬合,如式(21)所示:

其中,k表示訓(xùn)練數(shù)據(jù)集中的樣本,C表示分類的類別,本實(shí)驗(yàn)中C=3.λ是L2正則化的參數(shù).在分類器得到的結(jié)果y中,概率最大的yi作為模型預(yù)測得到的標(biāo)簽.同時(shí),為了進(jìn)一步防止模型過擬合,引入dropout[15].

4 實(shí)驗(yàn)與分析

4.1 數(shù)據(jù)集

本文在SemEval2014[1]比賽的Restaurant、Laptop數(shù)據(jù)集上驗(yàn)證模型的效果.目標(biāo)詞的情感極性分為3 類:積極情感、消極情感、中性.數(shù)據(jù)集的統(tǒng)計(jì)情況如表1所示.

表1 數(shù)據(jù)集總體統(tǒng)計(jì)

4.2 超參數(shù)設(shè)置

實(shí)驗(yàn)過程中,文本中的單詞采用300 維的GloVe預(yù)訓(xùn)練詞向量[12]進(jìn)行初始化,所有不在詞向量詞典中的詞,隨機(jī)初始化為服從[-0.25,0.25]均勻分布的300維隨機(jī)向量.所有的權(quán)重矩陣被初始化為服從[-0.01,0.01]的均勻分布,所有偏置量全都置為0 向量.

本文模型使用Pytorch 實(shí)現(xiàn),模型訓(xùn)練過程中采用隨機(jī)梯度下降法[16]進(jìn)行參數(shù)更新,實(shí)驗(yàn)中使用的超參數(shù)值如表2所示.

表2 超參數(shù)設(shè)置

4.3 結(jié)果討論

基線模型和本文模型的實(shí)驗(yàn)結(jié)果如表3所示.由表3可知,本文提出的PEMAN 模型在特定目標(biāo)情感分析任務(wù)中,相對于諸多基線模型均有不同程度提升.

表3 不同模型的情感分類準(zhǔn)確率

實(shí)驗(yàn)結(jié)果表明,本文提出的PEMAN 模型在餐館數(shù)據(jù)集和筆記本數(shù)據(jù)集上的準(zhǔn)確率分別達(dá)到了80.6%和74.9%,相比基線模型有了明顯提高.PEMAN 模型借助句子、短語和目標(biāo)詞表示,構(gòu)建兩個(gè)注意力網(wǎng)絡(luò),有效融合句子上下文語義信息和短語級別特征,在一定程度上解決了注意力分散等問題,使得模型的表達(dá)能力相對基線模型有一定提升.針對情感詞為多詞的情況時(shí),引入短語特征的PEMAN 模型能更準(zhǔn)確地挖掘詞組語義,具有更好的理解能力,有效避免歧義.

另外,本文選擇短語長度為2~5 進(jìn)行對比實(shí)驗(yàn),來驗(yàn)證短語長度的取值對PEMAN 模型表達(dá)能力的影響.結(jié)果如表4所示.

表4 短語長度的取值對本文模型效果的影響

由表4中結(jié)果可知,當(dāng)短語長度取3 時(shí),PEMAN模型在兩個(gè)數(shù)據(jù)集上準(zhǔn)確率分別為80.6%和74.9%,達(dá)到了最好的效果.當(dāng)短語長度取2 時(shí),模型準(zhǔn)確率比大部分基線模型高.這證明了引入的短語級別特征使得PEMAN 模型的表達(dá)能力更強(qiáng).然而,當(dāng)短語長度取4 或5 時(shí),模型的準(zhǔn)確率有明顯下降,說明當(dāng)短語長度過長時(shí),可能導(dǎo)致語義特征過于抽象而降低準(zhǔn)確率.

4.4 樣本分析

本節(jié)通過樣本分析來驗(yàn)證PEMAN 模型的改進(jìn)之處,分析模型準(zhǔn)確率提高的原因.在例句“The appetizers are good and you will not be disappointed if you are a Tequila fan.”中,包含與餐館相關(guān)的兩個(gè)目標(biāo)詞:“appetizers”和“Tequila”.表5展示了AOA[10]模型、PEMAN 模型針對這兩個(gè)目標(biāo)詞推理得到的情感傾向.

表5 兩種模型在該實(shí)例中的結(jié)果對比

在兩種模型中,針對不同目標(biāo)詞上下文信息的注意力權(quán)重分布情況如圖2所示.圖中每個(gè)格子的顏色表示模型給句中每個(gè)詞的權(quán)重分配情況,顏色越深代表權(quán)重越大.

圖2 AOA[10]和PEMAN 模型中句子的注意力權(quán)重分布

例句中針對“Tequila”這個(gè)目標(biāo)詞,表達(dá)其情感傾向的是詞組“not be disappointed”,表達(dá)了正向的情感傾向.AOA[10]模型對于表示消極傾向的情感詞“disappointed”和表示積極傾向的情感詞“fan”都有較大權(quán)重,然而其對于詞組“not be disappointed”整體沒有給予足夠高的權(quán)重分配,所以AOA 模型對目標(biāo)詞“Tequila”預(yù)測了負(fù)面的情感傾向,得到了錯(cuò)誤的判別結(jié)果.而PEMAN 模型通過引入短語級別特征語義,更準(zhǔn)確地捕捉到詞組“not be disappointed”所表達(dá)的積極情感傾向,因此能夠正確分類.另外,針對目標(biāo)詞“appetizers”,PEMAN 模型給對應(yīng)的情感詞“good”分配了更高的權(quán)重,證明短語級別特征的融合能捕捉到更多的句子語義信息,模型的表達(dá)能力更強(qiáng).

5 總結(jié)與展望

特定目標(biāo)情感分析是一種細(xì)粒度的情感分析任務(wù),旨在分析句子中特定目標(biāo)的情感極性.本文提出了融合短語特征的多注意力網(wǎng)絡(luò)PEMAN 模型.PEMAN 模型通過引入短語級別特征,構(gòu)建多粒度特征融合的多注意力機(jī)制,有效提高表達(dá)能力.實(shí)驗(yàn)結(jié)果表明,本文提出的PEMAN 模型在特定目標(biāo)情感分析任務(wù)的準(zhǔn)確率有一定提升.

盡管本文的工作相比諸多基線模型有了一定進(jìn)步,但仍存在一些問題有待探索:(1)針對特定目標(biāo)情感分析任務(wù),目前的研究工作在訓(xùn)練過程中同時(shí)只能對一個(gè)目標(biāo)詞進(jìn)行計(jì)算,未來考慮如何對多個(gè)目標(biāo)詞同時(shí)進(jìn)行計(jì)算.(2)針對數(shù)據(jù)中可能出現(xiàn)的成語或口語化表達(dá),嘗試探索如何將先驗(yàn)的語言學(xué)知識補(bǔ)充到神經(jīng)網(wǎng)絡(luò)模型中,使模型理解能力得到進(jìn)一步提升.

猜你喜歡
語義特征情感
如何在情感中自我成長,保持獨(dú)立
語言與語義
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
如何表達(dá)“特征”
情感
不忠誠的四個(gè)特征
如何在情感中自我成長,保持獨(dú)立
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語義模糊
主站蜘蛛池模板: 色精品视频| 国产成人1024精品| 国产成人a在线观看视频| 欧美成人aⅴ| 日韩欧美综合在线制服| 亚洲一区二区成人| 99久久精品免费看国产电影| 亚洲欧洲日产无码AV| 无遮挡国产高潮视频免费观看 | 一级一毛片a级毛片| 18禁影院亚洲专区| 在线视频97| 91丝袜美腿高跟国产极品老师| 亚洲美女一级毛片| 91激情视频| 国产精品无码在线看| 国产a v无码专区亚洲av| 国产精品自在线拍国产电影| 亚洲伊人久久精品影院| 久久精品人人做人人| 亚洲一区二区视频在线观看| 99这里只有精品免费视频| 久久毛片基地| 国产精品七七在线播放| 久久午夜夜伦鲁鲁片无码免费| 久草视频精品| 日韩AV无码免费一二三区| 国产精品青青| 国产精品网址在线观看你懂的| av无码久久精品| 欧美国产在线一区| 91视频国产高清| 日本三级欧美三级| 国产福利大秀91| 国产你懂得| 欧美一级特黄aaaaaa在线看片| 欧美视频在线播放观看免费福利资源 | 国产91高清视频| 久久精品亚洲中文字幕乱码| 一本大道香蕉中文日本不卡高清二区 | 999国产精品| 中国一级特黄视频| 国产福利拍拍拍| 中文字幕丝袜一区二区| 99激情网| 激情综合网激情综合| 五月婷婷欧美| 小13箩利洗澡无码视频免费网站| 精品久久香蕉国产线看观看gif| 欧美精品一二三区| 欧美午夜视频在线| 中文字幕欧美日韩高清| 日韩免费中文字幕| 看看一级毛片| 久久久久亚洲AV成人人电影软件| 欧美精品一区在线看| 亚洲三级电影在线播放| 2021天堂在线亚洲精品专区| 国产午夜一级淫片| 色综合天天操| 欧美中文字幕在线二区| 日韩国产一区二区三区无码| 欧美亚洲一区二区三区导航| 精品国产污污免费网站| 在线中文字幕日韩| 中文字幕自拍偷拍| 伊人91视频| 色综合中文| 国产精品密蕾丝视频| 毛片视频网址| 综合色88| 91精品啪在线观看国产| 一本大道视频精品人妻 | 日韩乱码免费一区二区三区| 亚洲欧美日韩中文字幕一区二区三区| 欧美成人影院亚洲综合图| 色香蕉影院| 久久国产精品影院| 制服丝袜国产精品| 久久久久无码精品| 久久国产av麻豆| 亚洲国产欧美自拍|