滕 磊,嚴(yán) 馨,徐廣義,周 楓,鄧忠瑩
1(昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明 650500) 2(昆明理工大學(xué) 云南省人工智能重點實驗室,昆明 650500) 3(云南南天電子信息產(chǎn)業(yè)股份有限公司,昆明 650500)
情感分析(SentimentAnalysis),也稱為觀點挖掘[1].傳統(tǒng)情感分析任務(wù)[2-4]更專注于推斷句子級別或者文檔級別的情感傾向,通常分為積極、中立和消極3類.和SA任務(wù)不同,Aspect-BasedSentimentClassification(ABSC)旨在發(fā)現(xiàn)實體方面相關(guān)的情感傾向,是情感分析領(lǐng)域的基礎(chǔ)任務(wù)之一[5,6].ABSC任務(wù)數(shù)據(jù)集通常由上下文和給定的方面組成.通常,消費者會對多個方面同時基于不同的評價,同一條產(chǎn)品評論中可能包含多種情感傾向.例如,“朋友請客,兩個人中午去吃的,雖然不是節(jié)假日,但人還是非常的多,等了很長時間才上餐,價位偏高,但是味道還可以”,毫無疑問的是,消費者對食物給予了積極的評論,而出于某些原因,可能餐廳讓顧客等待了太久,顧客對服務(wù)給予了消極的評論.通常傳統(tǒng)情感分析會對句子級別的評論或文檔級別的評論集作出相應(yīng)的情感預(yù)測,人們對情感分析任務(wù)提出了更加細(xì)粒度的要求之后,需要對一條產(chǎn)品評論的不同方面的情感傾向進(jìn)行預(yù)測.
近幾年,很多神經(jīng)網(wǎng)絡(luò)模型(例如卷積神經(jīng)網(wǎng)絡(luò)[7],循環(huán)神經(jīng)網(wǎng)絡(luò)[8],循環(huán)自編碼模型[9]等)在情感分析任務(wù)上都有很好的表現(xiàn).但依舊存在以下問題:1)數(shù)據(jù)集標(biāo)注代價昂貴.ABSC任務(wù)數(shù)據(jù)集的標(biāo)注通常伴隨著多個方面,并人工判斷對應(yīng)的情感傾向,這一方面很難避免人工加入自己的主觀意見造成局部的標(biāo)簽不可信,另一方面增大了數(shù)據(jù)標(biāo)注的難度和成本.與之相比,對于文檔級別的產(chǎn)品評論,通常伴隨著給予該產(chǎn)品的產(chǎn)品得分,有著標(biāo)注成本小、數(shù)據(jù)集容易獲得的優(yōu)點;2)附加的語言知識對ABSA任務(wù)會有些許幫助,如情感詞匯,否定詞和強(qiáng)度詞等,需要仔細(xì)地結(jié)合到當(dāng)前模型中,以實現(xiàn)他們在預(yù)測準(zhǔn)確度方面的最佳潛力.然而,語言知識的開發(fā)需要付出巨大的努力,而且開發(fā)的情感詞匯可能不適用于某些特定領(lǐng)域的數(shù)據(jù)集.例如,當(dāng)病人向醫(yī)院服務(wù)部門提供反饋時,“快”被認(rèn)為是強(qiáng)有力的正面詞.這些話在影評中可能被認(rèn)為是負(fù)面的.我們的膠囊模型不需要任何語言知識,通過共享文檔級別的情感分析的特征和語義信息實現(xiàn)遷移學(xué)習(xí),對方面情感給出準(zhǔn)確預(yù)測.
膠囊網(wǎng)絡(luò)是一種基于動態(tài)路由的網(wǎng)絡(luò)結(jié)構(gòu)[10].膠囊是一組神經(jīng)元的集合,它的激活向量表示實體的實例化參數(shù).膠囊之間的參數(shù)傳遞通過動態(tài)路由算法來實現(xiàn),其中高層膠囊輸出向量表示對應(yīng)類別的語義信息,向量長度表示對應(yīng)情感類別的預(yù)測概率.Zhao[11]等人首次將膠囊網(wǎng)絡(luò)應(yīng)用于文本分類.證明了膠囊網(wǎng)絡(luò)應(yīng)用在文本中既能提高編碼空間的有效性,同時保持了表達(dá)能力的靈活性.Chen[12]等人提出了利用膠囊網(wǎng)絡(luò)提出了共享文檔級別知識對方面情感判斷的遷移學(xué)習(xí)框架:TransCap.在此之上,我們的模型設(shè)計了更加健壯和合理的動態(tài)路由方法.當(dāng)將特征通過一維卷積轉(zhuǎn)化為特征膠囊之后,針對方面級的情感分析任務(wù)和文檔及情感分析任務(wù)分別使用Asp-Routing和Doc-Routing動態(tài)路由方法.其中Asp-Routing動態(tài)路由方法讓方面嵌入向量和輸入句子嵌入之間建立語義關(guān)聯(lián),Doc-Routing動態(tài)路由方法使特征膠囊分配合理的注意力權(quán)重,之后通過共享語義和特征膠囊,增強(qiáng)網(wǎng)絡(luò)對方面情感方向的識別能力.
本文基于遷移學(xué)習(xí)的膠囊網(wǎng)絡(luò),使用了一種具有新穎的動態(tài)路由方法,使得方面嵌入向量和輸入句子嵌入之間建立了強(qiáng)大的語義關(guān)聯(lián).再通過共享的語義和特征膠囊,增強(qiáng)網(wǎng)絡(luò)對方面情感方向的識別能力.最終通過類膠囊輸出語義向量來預(yù)測方面情感.文章主要貢獻(xiàn)如下:
1)使用雙嵌入和位置信息組成輸入文本表示層,增強(qiáng)文本上下文之間的語義關(guān)聯(lián).這一步對使用卷積神經(jīng)抽取特征的質(zhì)量起到了很關(guān)鍵的作用.
2)基于注意力機(jī)制的原理,我們不同任務(wù)設(shè)計了不同的動態(tài)路由方法,使得方面嵌入和輸入句子嵌入之間建立較強(qiáng)的語義關(guān)聯(lián).比如對于文檔級別的情感分析任務(wù),受到自注意力機(jī)制的啟發(fā),我們可以通過自注意力獲取決定文檔的情感特征的權(quán)重.對于方面級別的任務(wù)來說,我們關(guān)注的是方面嵌入在句子中體現(xiàn)相關(guān)情感的特征,所以注意力機(jī)制達(dá)到了我們目的.
3)我們使用帶有擴(kuò)展的動態(tài)路由方法的模型在中文數(shù)據(jù)集上實驗,驗證了模型的有效性.
對文本情感分析任務(wù)可以分為文檔級別[13]、句子級別[14]和方面(AspectLevel)級別[15].近些年,基于神經(jīng)網(wǎng)絡(luò)的方法在自然語言處理任務(wù)的各個領(lǐng)域都取得了優(yōu)異的成績,這歸因于神經(jīng)網(wǎng)絡(luò)是一種學(xué)習(xí)單詞分布或段落分布的簡單有效的方式[16].很多模型已經(jīng)被應(yīng)用于ABSC任務(wù),例如:遞歸自動編碼器[17]、循環(huán)神經(jīng)網(wǎng)絡(luò)[18]、LSTM[6]、GRU[19]等.BERT[20]是自然語言處理的一個里程碑,它是由多個transformer[21]組成的強(qiáng)大特征抽取器,打破了多項自然語言處理任務(wù)的最好成績.由于BERT預(yù)訓(xùn)練過程使用了維基百科等正式文本語料,以及訓(xùn)練過程不區(qū)分任務(wù)的特點,Xu[22]等人使用非正式語料在BERT模型繼續(xù)訓(xùn)練并應(yīng)用于ABSC任務(wù),并取得了良好了結(jié)果.在此基礎(chǔ)之上,Rietzler[23]等人將模型應(yīng)用在特點領(lǐng)域的語料中進(jìn)行微調(diào),并取得了當(dāng)前最好的成績.Li[24]等人,使用BERT模型將ABSC任務(wù)視為序列標(biāo)注任務(wù),同時輸出方面及對應(yīng)情感,實現(xiàn)了一種端到端的網(wǎng)絡(luò)結(jié)構(gòu).
Sabouret[10]等人提出了一種用于圖像分類的膠囊網(wǎng)絡(luò).Zhao[11]等人首次將膠囊網(wǎng)絡(luò)應(yīng)用于文本分類,并提出了三種策略來穩(wěn)定動態(tài)路由過程,以減輕某些可能包含冗余信息或未經(jīng)成功訓(xùn)練的噪聲膠囊的干擾.證明了膠囊網(wǎng)絡(luò)既能提高編碼空間的有效性,同時保持了表達(dá)能力的靈活性.Kim[25]提出了一種簡單有效的減少動態(tài)路由計算復(fù)雜度的方法,該方法在多個數(shù)據(jù)集上取得了良好的效果.Wang[26]等人提出了一種通過共享組件同時進(jìn)行方面檢測和情感判斷的膠囊網(wǎng)絡(luò)模型,并實現(xiàn)了當(dāng)時最好的結(jié)果.Xiao[27]等人利用膠囊網(wǎng)絡(luò)進(jìn)行多任務(wù)學(xué)習(xí),與多任務(wù)學(xué)習(xí)不同,遷移學(xué)習(xí)關(guān)注主要任務(wù)的學(xué)習(xí)結(jié)果,次要任務(wù)對主任務(wù)學(xué)習(xí)起到輔助作用.Chen[12]等人提出了利用膠囊網(wǎng)絡(luò)提出了共享文檔級別知識對方面情感判斷的遷移學(xué)習(xí)框架也取得了不錯的實驗結(jié)果.與之不同的是,本文提出的模型在雙嵌入表示層的基礎(chǔ)上稍加修改,使用卷積神經(jīng)網(wǎng)絡(luò)提取特征之后通過一維卷積轉(zhuǎn)化為特征膠囊.然后基于遷移學(xué)習(xí)的膠囊網(wǎng)絡(luò),使用了改進(jìn)的動態(tài)路由方法,讓方面嵌入向量和輸入句子嵌入之間建立了強(qiáng)大的語義關(guān)聯(lián),之后通過共享的語義和特征膠囊,增強(qiáng)網(wǎng)絡(luò)對方面情感方向的識別能力.最終通過類膠囊輸出語義向量來預(yù)測方面情感.
由于模型是將文檔級別任務(wù)中獲取的特征和語義輔助方面級別的情感任務(wù)的遷移模型,所以分為分檔級別和方面級別.我們定義文檔級別使用的語料語料CD,用于學(xué)習(xí)任務(wù)TD(Doc-Task),方面級別任務(wù)使用的語料為CA,用于學(xué)習(xí)任務(wù)TA(Asp-Task).我們的網(wǎng)絡(luò)模型目的是利用任務(wù)TD傳遞的知識來提高任務(wù)TA中的方面情感預(yù)測函數(shù)fA(·)的學(xué)習(xí).當(dāng)給定一個句子S={w1,…,wa,…,wL}∈CA,其中wa為方面詞,TA的任務(wù)就是預(yù)測方面詞的情感傾向.值得注意的是,一個句子中的方面詞不止一個.當(dāng)給定一個意見文檔D∈CD,TD的任務(wù)是對整個文檔的情感傾向做出預(yù)測.值得注意的是,與多任務(wù)學(xué)習(xí)不同,遷移學(xué)習(xí)關(guān)注主要任務(wù)TA的學(xué)習(xí)結(jié)果,次要任務(wù)TD對主任務(wù)學(xué)習(xí)起到輔助作用,學(xué)習(xí)效果我們并不關(guān)心.
我們的模型如圖1所示.
框架主要由嵌入層、特征膠囊、主膠囊和類膠囊組成.由于遷移學(xué)習(xí)任務(wù)分兩種,圖中上半部分是TA任務(wù)學(xué)習(xí)路線,下半部分是TD任務(wù)學(xué)習(xí)路線.畫虛線部分,針對任務(wù)TA我們設(shè)計了特定的動態(tài)路由方法(Asp-Routing),同樣對任務(wù)TD也使用了動態(tài)路由方法(Doc-Routing),但是兩個任務(wù)中的特征膠囊和主膠囊部分是分別共享的,這也體現(xiàn)了遷移學(xué)習(xí)的學(xué)習(xí)過程,兩任務(wù)會分別通過各自的類膠囊之后根據(jù)最終的向量長度確定各自對應(yīng)的情感極性.下面將詳細(xì)介紹整個框架的各個部分.

圖1 模型的總體結(jié)構(gòu)Fig.1 MADC architecture
3.2.1 嵌入層
嵌入層的目的是將輸入單詞的嵌入向量進(jìn)行編碼來表征句子信息.嵌入層的質(zhì)量直接決定了其后的網(wǎng)絡(luò)層解碼信息的難易.現(xiàn)有的詞向量表示方法有Word2Vec[28],GloVe[29],fastText[30]等.根據(jù)奧卡姆剃刀理論[31],我們應(yīng)該尋求更加簡潔并能自動進(jìn)行詞嵌入表示學(xué)習(xí)的模型.當(dāng)我們將模型應(yīng)用于真實場景中時這一點就顯得尤為重要,因為一個復(fù)雜的模型通常伴隨著跟高的時間或空間復(fù)雜度.然而單純的詞嵌入表示方式并沒有包含上下文的語義信息,更多時候一個詞的含義和所在文章的主題是密切相關(guān)的.Tang[32]等人開發(fā)了3個神經(jīng)網(wǎng)絡(luò),將文本情感極性的監(jiān)控有效地融入到它們的損失函數(shù)中.Xu[33]等人提出的雙嵌入表示層,并驗證了此模型對特征提取的有效性.基于此,我們設(shè)計了以下詞嵌入表征方式.
對TA學(xué)習(xí)任務(wù),假設(shè)輸入句子序列為S={w1,…,wa,…,wL},其中L表示句子長度.此序列將由對應(yīng)的嵌入矩陣(Wg,Wo,Wl)得到3部分詞嵌入表征(xg,xo,xl).Wg表示通用嵌入向量,它由一個大的通用語料庫使用GloVe方法訓(xùn)練得到,通過查表得到對應(yīng)向量xg={g1,…,ga,…,gL}∈Rdg×L.Wo由一個小型的預(yù)訓(xùn)練語料庫使用fastText訓(xùn)練而來,xo={o1,…,oa,…,oL}∈Rdo×L.值得注意的是,使用的小型語料庫必須和TA任務(wù)訓(xùn)練和測試數(shù)據(jù)所屬領(lǐng)域相同.因為同一單詞所在領(lǐng)域不同,表示的含義會有些許差異.另外,受Gu[34]等人的啟發(fā),我們使用了額外的位置向量層,我們計算了句子中每個單詞距離方面詞wa之間的距離,并得到了一個附加的序列,xl={l1,…,la,…,lL}∈Rdl×L.對于TD任務(wù),因為輸入句子中沒有方面詞,所以我們將位置嵌入的查詢表隨機(jī)初始化,這樣通過映射我們可以得到輸入句對應(yīng)的位置向量xi.
最終每個單詞wi的嵌入向量為xi=(gi⊕oi⊕li)∈Rdh,其中dh=dg+do+dl,⊕表示連接操作.輸入句子S(D)通過轉(zhuǎn)換矩陣之后的句子嵌入為X={x1,…,xL}∈Rdh×L.
3.2.2 特征膠囊
由于膠囊網(wǎng)絡(luò)的輸入為向量,所以在這一層中,我們通過卷積神經(jīng)網(wǎng)絡(luò)對輸入的文本嵌入抽取N-Gram特征作為膠囊的輸入.具體做法如下:
假設(shè)輸入句子嵌入X={x1,…,xL}.我們使用CNN層進(jìn)行特征抽取,該層中包含多個一維卷積核,并且每個卷積核都擁有固定的窗口大小k.我們得到X中第i個n-gram特征向量ri:
ri=Wa⊙Xi;i+k+b
(1)
其中⊙表示卷積操作,Wa∈Rdp×(dh×k)表示一組卷積核,(dh×k)為卷積核大小.k=2c+1表示n-gram大小,即卷積核的寬度,所以卷積核都會計算第i個單詞周圍c個上下文編碼信息,dp為一個特征膠囊的維度.在X中滑動卷積核F,我們會得到一系列將n-gram信息編碼在內(nèi)的特征膠囊ri∈Rdp×(L-k+1).在卷積核滑過當(dāng)前文檔之后,我們可以將所有特征映射收集到一個特征圖ri={m1,…,m(L-k+1)/2}.為了增加特征提取的多樣性,我們將由3個具有不同窗口大小(k=3、5、7)的過濾器提取的多個特征圖連接起來.之后使用1×1卷積核Wb={W1,…,Wd}∈Rd,其目的是將特征圖中的標(biāo)量mi轉(zhuǎn)化為膠囊向量pi:
pi=pi1⊕pi2⊕…⊕pid∈Rd
(2)
其中pij=mi×wj∈R,⊕表示連接操作.過程如圖2所示.
3.2.3 主膠囊
對于TA任務(wù),我們的目的是讓方面詞(aspect)結(jié)合上下文探索所所屬情感極性,過程類似于注意力機(jī)制.比如在包含兩個相反極性評論的一句話中,“朋友請客,兩個人中午去吃的,雖然不是節(jié)假日,但人還是非常的多,等了很長時間才上餐,價位偏高,但是味道還可以”,對于“服務(wù)”這個方面詞來說,上下文中的“味道”應(yīng)該被加強(qiáng),而對于方面詞“偏高”來說應(yīng)該被削弱.對于TD任務(wù),我們需要在整個句子中尋找決定情感傾向的詞,尋找過程類似于自注意力機(jī)制.為了達(dá)到這樣的目的,對于不同任務(wù),我們采用不用的動態(tài)路由方法.

圖2 特征膠囊形成過程Fig.2 Generation process of feature capsule
對于任務(wù)TA,為了讓方面判斷上下文決定情感極性,我們提出了一種新穎的動態(tài)路由方式:Asp-Routing Approach.假設(shè)特征膠囊中每個膠囊向量為ri,通過以下公式得到方面路由權(quán)重ai:
wa=riea
(3)
其中ea表示方面的嵌入向量,在多方面單詞的情況下,使用嵌入向量的平均值.方面路由權(quán)重ai∈[0,1],表示在上下文中融入了方面詞信息的多少.如果ai=0,那么特征膠囊中的該詞的路由道路將會被阻斷.
對于任務(wù)TD,與之對應(yīng)的動態(tài)路由方法為:Doc-Routing Approach.文檔單詞路由權(quán)重計算公式如下:
wd=riei
(4)
因此我們設(shè)置了一個分段函數(shù)表示gi來計算路由權(quán)重:
(5)
對于每一個膠囊向量,我們使用點積將路由權(quán)重與之相乘,得到語義特征膠囊P.以上步驟將n-gram特征膠囊轉(zhuǎn)化為了語義特征膠囊P.這一層中,主膠囊的數(shù)量與輸入文檔的大小成正比,這需要路由過程中大量的計算資源.一方面為了緩解這個問題,我們將大量語義膠囊進(jìn)行壓縮.另一方面,我們想濃縮每個通道的局部特征信息,得到更加精確的全局語義表達(dá).因此每個壓縮膠囊通過使用所有語義膠囊ui的加權(quán)和計算,表示為:
ui=∑jbjpj
(6)
其中bj參數(shù)通過監(jiān)督學(xué)習(xí)得到.之后通過非線性擠壓函數(shù)[10]將ui控制在[0,1]之間.
(7)
3.2.4 類膠囊
在Hinton提出的原始膠囊網(wǎng)絡(luò)中,只是對MINIST數(shù)據(jù)集進(jìn)行分類,它使用類膠囊來確定所屬類別并用其長度作為分類概率.與之不同的是,我們的模型針對TA和TD任務(wù)分配不同的兩類膠囊.這樣的結(jié)構(gòu)使得我們的模型能夠在一個統(tǒng)一的框架中訓(xùn)練和測試.在給定兩個任務(wù)的輸入數(shù)據(jù)的情況下,前3層共享大部分參數(shù),共同訓(xùn)練TA和TD,從而將文檔級數(shù)據(jù)中的知識成功地完全轉(zhuǎn)化為方面級任務(wù).在最后一層中,每個類膠囊分別用于計算TA和TD中每個類的分類概率.

(8)
其中cij是由“路由SoftMax”定義的耦合系數(shù).
(9)
其中bij是語義膠囊i應(yīng)該傳遞給類膠囊j的對數(shù)先驗概率.它是使用下面介紹的動態(tài)路由方法計算的.之后再次使用非線性擠壓函數(shù)將sj的長度壓縮在[0,1]之間.
vj=sqush(sj)
(10)
bij確定語義膠囊i和類膠囊j之間的連接強(qiáng)度.它初始化為0,并用aij更新.
(11)
在更新cij之前,將aij添加到bij中:
bij←bij+aij
(12)
3.2.5 損失函數(shù)
類膠囊的長度用來表示情感極性的概率.激活膠囊的長度應(yīng)大于其他未激活膠囊長度.因此,我們在每項任務(wù)中對每一類膠囊j采用單獨的邊界損失Lj:
Lj=Yjmax(0,m+-‖vi‖)2+λ(1-Yj)max(0,‖vi‖-m-)2
(13)
如果情感極性屬于類膠囊j,則Yj=1,否則為0.根據(jù)Sabour等人的論文,我們設(shè)置m+=0.9,m-=0.1,λ=0.5.對于單任務(wù)來說,損失函數(shù)為:
LT=∑jLj
(14)
其中T為A或D,我們分別定義任務(wù)TA和TD的損失為LA和LD.模型的最終損失L是單個任務(wù)上兩個損失的線性組合.
L=LA+γLD
(15)
其中γ∈[0,1],為控制TD權(quán)重的超參數(shù).訓(xùn)練收斂時,選擇任務(wù)中活動概率最大的類膠囊作為情感極性的預(yù)測.
對于通用嵌入,我們使用300維的Glove嵌入,這些嵌入是從幾乎覆蓋了所有網(wǎng)頁語料庫中預(yù)訓(xùn)練出來的.對于領(lǐng)域特定的嵌入,我們通過爬蟲收集了一個筆記本電腦評論語料庫和一個餐廳評論語料庫,并使用fastText來訓(xùn)練雙嵌入表示.筆記本評論語料庫包含來自淘寶、京東等網(wǎng)站爬取的200余種筆記本電腦的評論數(shù)據(jù)集.餐廳評論語料庫來自大眾點評的500余家餐廳的5萬余條評論.我們將嵌入維度設(shè)置為100,迭代次數(shù)設(shè)置為50,并將其余超參數(shù)設(shè)置為fastText中的默認(rèn)值.然后我們進(jìn)一步使用fastText通過子詞N-gram嵌入來組成詞匯表外的單詞嵌入.雙詞嵌入模型代碼在GitHub[35]中可以找到.
對于TA任務(wù)來說,我們通過在多個電商和餐廳評論爬取了兩個領(lǐng)域數(shù)據(jù):計算機(jī)產(chǎn)品領(lǐng)域和餐廳評論.通過整合和人工標(biāo)注,生成了中文計算機(jī)產(chǎn)品評論集(CCR)和中文餐廳評論集(CRR).數(shù)據(jù)集中對評論的各方面的情感進(jìn)行打分,分為正、負(fù)、中3種極性.我們邀請3位專家首先一起對TA任務(wù)數(shù)據(jù)集中每句話的方面進(jìn)行抽取,比如產(chǎn)品服務(wù)、筆記本質(zhì)量等,然后分別對抽取的方面進(jìn)行標(biāo)注,若個別評論方面極性標(biāo)注不同,我們采用商討的方式重新決定該方面的情感傾向.訓(xùn)練集大小分別使用將近2500條產(chǎn)品評論和4300余條餐廳評論,并隨機(jī)將訓(xùn)練集的20%用于開發(fā)集,并保留另外80%用于訓(xùn)練.測試集分別使用近900條產(chǎn)品評論和1600余條餐廳評論,具體數(shù)據(jù)見表1.
對于TD任務(wù)來說,主要的目的在于通過遷移學(xué)習(xí)對TA任務(wù)提供幫助,具體TD任務(wù)的表現(xiàn)不做深究.文檔級別的數(shù)據(jù)集也分兩個領(lǐng)域,計算機(jī)產(chǎn)品評論和餐廳評論.相比于更細(xì)粒度的TA任務(wù)來說,文檔級別的數(shù)據(jù)集更好獲得.我們選取亞馬遜中文數(shù)據(jù)集[36]中電腦相關(guān)的數(shù)據(jù)集作為計算機(jī)產(chǎn)品評論(YCR).餐廳評論數(shù)據(jù)集我們選取了張永豐教授收集的來自大眾點評的數(shù)據(jù)集(DZR)[37],按照打分分為正、負(fù)、中3種極性(打分小于3.0的定位為‘負(fù)類’,等于3.0定義為‘中等’,大于3.0定義為‘負(fù)類’),并隨機(jī)各抽取2萬條評論作為訓(xùn)練集,這些所有的樣本都用于輔助訓(xùn)練.所有用于情感分析的數(shù)據(jù)集統(tǒng)計如表1所示.

表1 實驗所用數(shù)據(jù)集統(tǒng)計表Table 1 StatisticalTable of datasets used in the experiment
我們使用840B個標(biāo)記作為Glove預(yù)訓(xùn)練詞嵌入.根據(jù)Sabour,r=3.其余超參數(shù)在開發(fā)集上進(jìn)行調(diào)整.我們設(shè)置dg=300,do=100,dl=100,d=32.我們使用Adam[38]優(yōu)化器,學(xué)習(xí)率為0.001,批大小為128.我們?yōu)槟P驮O(shè)置50個epoch,并使用early-stop技術(shù),即如果在開發(fā)集上的性能在5個epoch中沒有提升,則停止訓(xùn)練.準(zhǔn)確度(Acc)和F1值在驗證集上隨機(jī)初始化5次取平均值.
本文選擇了近幾年來在ABSC任務(wù)上具有代表性的7個模型作為本文的基線.Attention-basedLSTM模型是一種基于LSTM和注意力模型的情感分析框架,該方法首次將注意力模型帶入到LSTM中用以增強(qiáng)方面嵌入的識別能力,具有很強(qiáng)的代表性.IAN[39]模型是一種交互式注意力網(wǎng)絡(luò),該模型通過互動學(xué)習(xí)增強(qiáng)了方面嵌入的上下文表征能力有助于情感分類.AF-LSTM[40]模型采用循環(huán)卷積和循環(huán)關(guān)聯(lián)的方法對方面嵌入和單詞之間的相似性進(jìn)行建模,并巧妙地整合到了注意力框架中,達(dá)到了當(dāng)時最好的水平.GCAE[41]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和門控機(jī)制的模型,通過使用提出的門控單元可以根據(jù)方面嵌入選擇性地輸出情感特征.IARM[42]提出了一種基于GRU利用記憶網(wǎng)絡(luò)將相鄰嵌入的相關(guān)信息融合到目標(biāo)方面的情感分類中的新方法.PRET+MULT[43]模型是一個基于多任務(wù)學(xué)習(xí)的膠囊網(wǎng)絡(luò)框架應(yīng)用于方面級別的情感分析.TransCap模型是基于遷移學(xué)習(xí)的膠囊網(wǎng)絡(luò)結(jié)構(gòu),與本文的不同點在于特征膠囊的生成方式以及動態(tài)路由的變化.
為了清楚起見,我們將基線的7種模型進(jìn)行了分類,其中Attention-basedLSTM、IAN、AF-LSTM和IARM是基于記憶網(wǎng)絡(luò)LSTM或GRU的模型,GCAR、PRET+MULT和TransCap屬于混合模型.實驗結(jié)果如表2所示.

表2 各模型實驗對比結(jié)果Table 2 Comparison of different methods
通過實驗驗證,我們的模型在兩個數(shù)據(jù)集中和所有的基準(zhǔn)相比,準(zhǔn)確率和F1值均有提升.TransCap模型是基于遷移學(xué)習(xí)的膠囊網(wǎng)絡(luò)框架,其將文檔及知識應(yīng)用于方面級的情感分析任務(wù),所以其性能總體優(yōu)于其他的基線,模型PRE-TMULT是一個多任務(wù)學(xué)習(xí)模型,由于多任務(wù)的本質(zhì)在于找到多個任務(wù)的最優(yōu)解,此過程可能將方面級別的情感分析任務(wù)陷于次優(yōu).在基于循環(huán)神經(jīng)網(wǎng)絡(luò)記憶模型的基線中,由于使用了注意機(jī)制的IAN模型實現(xiàn)了比其他總體性能更高的性能.但是AF-LSTF在CRR數(shù)據(jù)中表現(xiàn)最好,原因是因為該模型考慮到了上下文嵌入對方面嵌入的影響,并將其整合到了注意力框架中.GCAE在所有基線中表現(xiàn)最差,因為簡單的基于CNN的模型無法捕捉上下文單詞之間的長期依賴關(guān)系.
在我們提出的模型(MADC)中,使用的雙嵌入融合句子位置的表示方法,不僅融入了上下文嵌入的語義信息,還考慮到了特定領(lǐng)域的專有詞匯的重要性,為使用CNN提取有效特征奠定了基礎(chǔ),所以效果好于使用CNN進(jìn)行特征抽取的GCAE模型.通過使用遷移學(xué)習(xí)的膠囊網(wǎng)絡(luò),使得模型可以靈活使用文檔級別語料中提取的特征膠囊進(jìn)行最終的情感分類任務(wù).
為了分析MADC模型中動態(tài)路由方法改進(jìn)前后的差別,我們設(shè)計了模型的簡化實驗.1)“MADC-AD”:我們同時刪除了Asp-Routing和Doc-Routing路由方法,并為所有特征膠囊設(shè)置相同的權(quán)重1.0.2)“MADC-A”:我們刪除了TA任務(wù)的Asp-Routing路由方法,保留了TD任務(wù)中的Doc-Routing路由方法.3)“MADC-D”:我們刪除了Doc-Routing路由方法,保留了Doc-Routing路由方法.4)“MADC-S”:我們移除主膠囊,并將加權(quán)的特征膠囊直接傳遞給類膠囊.5)“MADC-DOC”:我們移除了動態(tài)路由方法,即主膠囊將以相等的概率分配到所有類膠囊.實驗結(jié)果如表3所示.

表3 MADC模型簡化實驗結(jié)果Table 3 Experiment results of ablation MADC
在意料之中,簡化之后的模型實驗結(jié)果都下降了很多,這清楚地表明了這些組成部分的有效性.具體來說,MADC-AD性能最差,因為它在從MADC中移除了Asp-Routing和Doc-Routing路由方法后無法生成與目標(biāo)相關(guān)的特征膠囊.相比于使用同一種動態(tài)路由算法,本文提出的兩種動態(tài)路由是關(guān)鍵,因為它針對不同任務(wù)生成權(quán)重同時有助于減少TA和TD之間的干擾.MADC-A和MADC-D呈現(xiàn)不同程度的下降說明兩種動態(tài)路由算法在不同任務(wù)中的有效性.MADC-S性能的下降也表明主膠囊在表達(dá)語義的同時對在特征和極性之間建立準(zhǔn)確的連接有著非常重要的作用.MADC-DOC性能的下降說明動態(tài)路由算法在分類任務(wù)中的有效性.
在本篇論文中,我們提出了一個新的網(wǎng)絡(luò)模型:MADC.首先,使用的雙嵌入融合句子位置的表示方法,融入了上下文嵌入的語義信息,還考慮到了特定領(lǐng)域的專有詞匯的重要性,為使用CNN提取有效特征奠定了基礎(chǔ).之后通過一維卷積轉(zhuǎn)化為特征膠囊,基于已有的遷移學(xué)習(xí)的膠囊網(wǎng)絡(luò)框架TransCap之上,使用了改進(jìn)的動態(tài)路由方法,讓方面嵌入向量和輸入句子嵌入之間建立了強(qiáng)大的語義關(guān)聯(lián),之后通過共享的語義和特征膠囊,增強(qiáng)網(wǎng)絡(luò)對方面情感方向的識別能力.最終類膠囊輸出語義向量來預(yù)測方面情感.模型在自定義中文餐廳評論和筆記本評論數(shù)據(jù)集上的成績均有所提升.我們下一步的工作是探索膠囊網(wǎng)絡(luò)的其他遷移學(xué)習(xí)框架,并嘗試解決人為標(biāo)記導(dǎo)致的標(biāo)簽不可靠的問題.