牛長(zhǎng)安
摘要
作為微博情感分析的主要特征,表情符號(hào)在提升分類效果方面具有的作用已經(jīng)獲得了大多數(shù)人的認(rèn)可。文章首先對(duì)微博所應(yīng)用表情符號(hào)的特征進(jìn)行了概述,然后結(jié)合實(shí)際情況,以詞向量輸入、情感語義增強(qiáng)等層次為切入點(diǎn),圍繞著能夠?qū)ξ⒉┣楦羞M(jìn)行分析的、具有情感語義增強(qiáng)特征的深度學(xué)習(xí)模型的構(gòu)建工作展開了討論,以期能夠在某些方面給人以啟發(fā)。
【關(guān)鍵詞】微博情感分析 情感語義增強(qiáng) 深度學(xué)習(xí)模型
對(duì)微信、微博等新興社交媒體而言,最突出的優(yōu)勢(shì)在于人們可以在此平臺(tái)上,通過圖片、文本或是視頻的形式,表達(dá)意見、交流信息或是對(duì)個(gè)人內(nèi)容進(jìn)行發(fā)布,從情感的角度對(duì)用戶數(shù)據(jù)加以分析,可以達(dá)到對(duì)產(chǎn)品滿意度或其他內(nèi)容進(jìn)行獲取的目的,正是因?yàn)槿绱耍楦蟹治龅闹匾蚤_始為人們所熟知,微博內(nèi)容具有的特殊性,在無形之中增加了微博情感分析的難度,圍繞著微博情感分析展開探究,具有的現(xiàn)實(shí)意義自然不言而喻。
1 表情符號(hào)概述
越來越多的人選擇使用表情符號(hào)在微博中對(duì)自己的情感進(jìn)行表達(dá),正是因?yàn)槿绱耍⒉┢脚_(tái)提供的、用于對(duì)情感需要加以表達(dá)的表情符號(hào)的數(shù)量與過去相比也呈現(xiàn)出了明顯的上升趨勢(shì)。通過對(duì)常用網(wǎng)絡(luò)原創(chuàng)表情符號(hào)進(jìn)行分析能夠發(fā)現(xiàn),不同表情符號(hào)在表達(dá)情感能力的方面往往存在一定的差異,需要注意的是,雖然情感符號(hào)的使用頻率較高,能夠代表該情感符號(hào)感情明確或是含有特定感情,但是,即使感情符號(hào)的適用頻率較低,上述兩種可能仍舊存在,因此,研究人員不應(yīng)忽視低使用頻率的感情符號(hào)的重要性。除此之外,在人工標(biāo)注的過程中不難看出,對(duì)情感符號(hào)具有的情感傾向加以判斷,往往具有較高難度,因此,本文最終選定基于情感符號(hào)的EMCNN作為深度學(xué)習(xí)模型,應(yīng)用在對(duì)微博情感進(jìn)行分析的過程中。
2 深度學(xué)習(xí)模型的構(gòu)建
通過上文的分析能夠看出,常用表情符號(hào)往往蘊(yùn)含相應(yīng)的情感,并且具有明確的情感語義,另外,與情感詞相比較而言,表情符號(hào)的優(yōu)勢(shì)體現(xiàn)在情感的區(qū)分和指示兩方面,因此,本文所討論深度學(xué)習(xí)模型具有的情感語義,選擇表情符號(hào)所對(duì)應(yīng)詞向量作為增強(qiáng)工具。EMCNN模型的架構(gòu)符合自底向上、多層前向神經(jīng)等諸多要求,接下來以功能為依據(jù),將深度學(xué)習(xí)模型進(jìn)行劃分,共包括詞向量輸入,情感語義增強(qiáng),卷積采樣以及情感得分輸出四層。
2.1 詞向量輸入
作為模型輸入層而存在的底部詞向量詞典,其構(gòu)成分為數(shù)據(jù)集中詞語、表情符號(hào)兩大類,每一列代表一個(gè)詞向量,若詞典包含n個(gè)元素,詞向量維度是d,那么We∈Rd·N,該式代表詞向量詞典所對(duì)應(yīng)的整個(gè)矩陣。將文本序列中與單詞元素相對(duì)應(yīng)的詞向量,根據(jù)所處位置進(jìn)行拼接,可得出對(duì)文本序列詞向量加以表示的矩陣,RS=,其中,代表的是在行向量方向上進(jìn)行的拼接操作。
2.2 情感語義增強(qiáng)
如果想要得到情感空間中微博對(duì)應(yīng)的特征表示,應(yīng)當(dāng)以向量語義合成原理為依據(jù),完成下列運(yùn)算:E=(RE)T·RM,其中,E代表的是情感空間中微博對(duì)應(yīng)的特征表示,RE代表的是通過拼接操作得出的表情符號(hào)序列,RM是微博所對(duì)應(yīng)詞向量的矩陣表示,作為表示微博文本序列的形式之一,RM的優(yōu)勢(shì)在于為后續(xù)應(yīng)用矩陣運(yùn)算完成語義合成操作提供便利,(RE)T代表的是RE轉(zhuǎn)置,也就是說,如果選取表情符號(hào)為de個(gè),RE∈Rd·de。需要注意的是,數(shù)據(jù)集中的微博在長(zhǎng)度方面往往存在一定的差異,因此,如果想要保證深度學(xué)習(xí)模型具備應(yīng)有的作用,所選擇微博長(zhǎng)度的最大值就應(yīng)當(dāng)是dm,此時(shí),RM∈Rd·dm,如果微博長(zhǎng)度不足dm,則可以通過將全。列向量添加在末端的方式,使微博長(zhǎng)度與dm相等。
2.3 卷積采樣
在完成上述操作后,可針對(duì)微博特征開展卷積操作,例如,在指定窗口合成微博文本語義,假設(shè)卷積算子:Wf∈Rde·dwin,其中,dwin代表的是卷積窗口的具體大小,卷積操作則可以通過如下方式進(jìn)行表示:,其中,rijf代表的是第J個(gè)詞語處,第i個(gè)卷積算子對(duì)應(yīng)的卷積結(jié)果,zj代表的是在dwin范圍,E對(duì)應(yīng)的分塊矩陣,bif表示的是i卷積算子i的偏置值。以E所對(duì)應(yīng)卷積操作方式存在的區(qū)別為依據(jù),卷積窗口的滑動(dòng)類型可分為兩種,分別是寬型和窄型,本文所討論深度學(xué)習(xí)模型應(yīng)用的為寬型卷積窗口。
2.4 情感得分輸出
將上文計(jì)算得出的向量x向多層感知器進(jìn)行輸入,可得出比原有層次更高的特征表示,本文所討論深度學(xué)習(xí)模型不存在隱含層的多層感知器,對(duì)輸出向量進(jìn)行變換后,可得出如下情感得分向量:Score(S)-B(Whx+bh),其中,Score(S)代表的是情感得分向量,Wh代表的是多層感知器所對(duì)應(yīng)參數(shù)矩陣,bh代表的是多層感知器所對(duì)應(yīng)偏置量。另外,該深度學(xué)習(xí)模型所選用非線性變化以函數(shù)為基礎(chǔ)。
3 結(jié)論
綜上所述,文章以情感語義增強(qiáng)為核心,圍繞著深度學(xué)習(xí)模型的構(gòu)建展開了分析,首先以表情符號(hào)列表為對(duì)象,完成人工情感的標(biāo)注工作,這樣做的目的是對(duì)表情符號(hào)在情感指示方面具有的作用進(jìn)行突出,通過分析不難看出,雖然無論是情感詞還是表情符號(hào),在情感語義的區(qū)分度方面都具有較好的表現(xiàn),但是與表情符號(hào)相比,情感詞的判別度稍顯欠缺,因此,文中基于表情符號(hào)列表所對(duì)應(yīng)詞向量,完成了對(duì)深度學(xué)習(xí)模型的構(gòu)建工作。
參考文獻(xiàn)
[1]何炎祥,孫松濤,牛菲菲,李飛.用于微博情感分析的一種情感語義增強(qiáng)的深度學(xué)習(xí)模型[J].計(jì)算機(jī)學(xué)報(bào),2017,40(04):773-790.
[2]張仰森,鄭佳,黃改娟,蔣玉茹.基于雙重注意力模型的微博情感分析方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,58(02):122-130.