韓 虎 范雅婷 徐學鋒
(蘭州交通大學電子與信息工程學院 蘭州 730070)
在自然語言處理中,情感分析旨在識別和提取給定文本中的情感、態度和觀點等信息。方面情感分析主要識別句子中給定方面的情感極性(例如,消極、中性或積極)。以“the waiter was attentive,the food is unpleasant.”為例,句子中包含兩個方面“waiter”和“food”,對應的情感極性分別為積極和消極。
對于方面情感分析,大量模型先進行相關方面詞的特征提取,再對特征進行極性劃分。其中一些工作編碼上下文序列信息完成對文本的情感分析,另一些則在此基礎上利用注意力機制挖掘更多隱藏特征[1-3]。然而,上述方法難以捕捉單詞間的句法依賴關系。為避免模型錯誤地學習到與方面詞不相關的特征信息,許多學者利用圖神經網絡(Graph Neural Network, GNN)[4]挖掘句法結構信息[5,6]。若只考慮兩個單詞之間是否存在關系,并沒有對具體的依賴關系類型做出區分,模型難以準確識別與方面詞最相關單詞的依賴信息。部分學者嘗試通過細化依賴關系類型提高方面詞對于不同類型的敏感程度[7,8],這些方法只能捕捉節點的鄰域信息,無法集成高階的全局特征,并且存在遺失重要原始信息的局限性。于是,研究人員探索將語義信息整合到句子的句法結構中,通過兩者交互增強與方面相關的特征信息[9,10]。然而針對表達較為隨意的用戶評論,句子本身缺乏一定的先驗知識,導致模型對相關情感詞產生誤解,并且前期的研究工作對于語義信息的捕獲只考慮對于文本序列的線性提取,受上下文相對位置的影響,難以提供量化的深層語義關聯信息。
目前為止,如何有效利用深層語義信息和細化的句法結構信息增強圖神經網絡,更充分地提取情感特征成為一個值得探索的問題。因此,本文提出一種多通道增強圖卷積網絡模型。主要貢獻如下:
(1)利用依存句法樹和多頭自注意力分別生成句法圖和語義圖,采用多通道圖卷積網絡動態更新學習語法和語義兩個空間中的特征信息;
(2)為了充分互補融合語法與語義信息,利用可訓練的參數矩陣自適應學習不同表示的重要性;
(3)在5個公開數據集上評估模型的性能,實驗結果表明,本模型對不同數據集的準確率與宏F1值均有所提升。
情感分析是一個熱門的研究領域,方面情感分析是其中一項細粒度分類任務,主要是識別句子中特定方面的情感極性。早期工作主要采用傳統機器學習的方法進行情感的預測和分類。然而,有監督的機器學習分類方法嚴重依賴于人工特征工程的質量。隨著深度學習技術的發展,神經網絡在情感分析中的應用范圍不斷擴大。
近年來,越來越多基于神經網絡的方法被提出來解決方面情感分析任務。Tang等人[1]提出了基于目標依存的長短期記憶網絡模型,使用長短期記憶網絡(Long Short-Term Memory, LSTM)獲取目標詞和上下文的特征信息,有效識別對應的情感極性。為了使模型在訓練過程中高度關注方面的特征信息,Wang等人[2]提出一種基于注意力機制的長短期記憶網絡模型(ATtention-based LSTM with Aspect Embedding, ATAE-LSTM),實驗結果表明運用注意力的模型能夠高度關注特定方面的上下文詞特征。Ma等人[3]提出交互注意力網絡(Interactive Attention Network, IAN)有效建模由多個單詞構成的目標詞與上下文間的關系,關注與目標詞相關性更高的部分。但這些方法僅關注句子的上下文序列特征,難以捕捉句子中上下文詞之間的句法依賴關系。Zhang等人[5]發現圖神經網絡處理非結構化數據的優異性和通用性,首次使用句法依存分析獲取句子中的語法依賴信息,并使用圖卷積神經網絡對文本進行建模。
然而,僅考慮單一的語法信息可能會導致模型錯誤地關注與方面詞無關的上下文信息,從而對最終的情感分類結果造成干擾。為了解決這個問題,眾多研究者針對圖卷積網絡如何引入方面情感分析任務進行深入研究。Zhang等人[6]設計雙層交互式圖卷積網絡模型,將層次句法圖和詞法圖集成,以考慮全局的詞共現信息和句法依賴關系類型,從而降低無關信息對方面詞特征的影響。Wang等人[11]提出了關系圖注意網絡(Relational Graph ATtention network, R-GAT),利用多頭注意力機制學習鄰域節點的語義信息,并添加了額外的關系頭捕獲不同上下文之間的句法關系。Dai等人[9]使用不同方式對文本的語義信息進行處理,交互建模一般語義和結構化語義以獲得豐富的特征表示。類似地,王汝言等人[10]通過多交互圖卷積網絡對語法與語義進行融合,引入位置距離特征建立方面詞與上下文的語法關聯,利用語義信息補充句法結構信息。同時,研究人員發現引入外部情感知識可以為模型提供監督信號,從而增強上下文詞和方面詞之間的情感依賴。Liang等人[12]通過情感知識補充單一的句法依賴關系,構建了情感加權后的鄰接矩陣,用于提取強依賴關系的特征。Zhou等人[13]采用兩種策略對依賴樹和知識圖進行建模,更準確地捕捉與方面有關的句法信息和外部知識。同樣的,Xu等人[14]利用情感知識增強句子的依賴關系圖,通過門控機制動態地學習句法圖和語義圖深層的特征信息。
對于包含n個節點的依賴樹,可以構建n×n的鄰接矩陣A。在構建中忽略節點自身的影響,會導致獲取的信息不全面。需要為每個節點添加一個自循環。同時將依賴樹賦予方向,根據依賴樹生成對稱鄰接矩陣,用以增強信息表示并去除重復節點的信息,減少重復信息在矩陣生成中對原始信息產生的干擾。利用圖卷積網絡(Graph Convolutional Network, GCN)層對相鄰節點的特征進行卷積得到新的節點特征,更新過程為
其中,i為當前節點,j為節點i的鄰域節點,若節點i 與節點j 有依存關系,則對應的鄰接矩陣Aij=Aji=1。為節點j在第l層的特征表示,將h作為l+1層GCN的輸出,W和b為可訓練的權重向量和偏置項,將節點的特征映射到圖中相鄰節點,不斷迭代訓練GCN層檢索每個節點的區域特征信息。
本文框架如圖1所示,由詞嵌入層與隱藏層、圖卷積網絡層、方面特定遮掩層、多交互注意與融合層以及訓練與分類層5部分組成。

圖1 KSD-GCN模型結構示意圖
詞嵌入層采用GloVe[15]嵌入模型或BERT[16]預訓練語言模型將每個詞或詞語通過嵌入矩陣E ∈R|V|×de映射到對應的向量空間中,其中 |V|為詞典大小,de為詞嵌入維度。輸出與后向輸出拼接,得到最終輸出結果Hc
隱藏層主要是將初始化后的詞向量通過Bi-LSTM進行句子編碼,生成隱藏狀態向量。將前向
圖卷積網絡層分為情感增強句法圖卷積模塊、依賴嵌入句法圖卷積模塊和語義圖卷積模塊3部分,句法模塊分別融入外部知識和依賴類型特征,語義模塊采用自注意力機制學習上下文信息。
3.2.1 情感增強句法圖卷積模塊
針對復雜的句法結構,需要引入句子特定的外部知識進行豐富,實現對隱式信息的挖掘。首先,利用外部知識補充原始的句法依賴信息,通過方面信息增強矩陣中的相關節點,然后疊加兩部分信息作為情感增強后的鄰接矩陣,最終將其輸入到圖卷積中進行方面情感特征的訓練處理。為了利用句子中單詞間的依賴性,通過依存句法解析得到的依賴樹為每個輸入的句子構建鄰接矩陣D ∈Rn×n。該過程表示為
本文采用情感知識 SenticNet 6[17]作為知識源,整合情感知識增強句子的依存關系圖,將其嵌入到圖卷積模塊中進行編碼,以提高情感分類的精準性。通過句子中每個詞的情感得分來增強鄰接矩陣,充分捕捉上下文詞和方面詞間的情感信息,得到句子的情感矩陣S
其 中, senticNet(wi)∈[-1,1] 表 示 單 詞wi在SenticNet 6 中的情感得分, senticNet(wi)=0表示wi為中性詞,或者不存在。情感知識源SenticNet 6中部分詞匯示例如表1所示,包括單詞的極性、情感得分以及語義相關詞匯。

表1 SenticNet 6中情感詞匯示例
現有的基于圖卷積網絡的方面情感分析模型在構造依賴圖時,往往忽略了對給定方面的關注。因此,構建方面增強矩陣T,賦予方面詞更大的關注力度
最后,得到句子的增強鄰接矩陣Aij
通過兩個詞間的情感得分總和增強依賴樹中相應的情感依賴信息,將依賴樹轉換為圖的結構Gsy=(Asy,Hc),使用圖卷積運算更新每個節點的表示。將節點hi第l層輸出記,則L層GCN的更新過程為
其中,Asy為GCN第l層節點的鄰接矩陣,為前一層圖卷積網絡的輸出結果,其初始化=Hc∈Rn×dlstm是經過Bi-LSTM編碼的單詞隱藏向量。當l ∈[1,L-1] 時,對前l-1層中產生的輸出進行拼接處理,W∈R(dlstm+l*dgcn)×dlstm為第l層的可訓練權重向量,dlstm為通過Bi-LSTM學習的隱藏表示維度,dgcn為GCN層輸出的維度,b為偏置項。
經過L層圖卷積的運算,每個節點不斷迭代聚合來自其鄰居節點的信息并更新表示,得到情感增強句法信息的最終表示Hsy。
3.2.2 依賴嵌入句法圖卷積模塊
為了使模型更充分地學習到句子中的句法信息,在圖卷積層中設計一個依賴關系嵌入模塊,得到依賴類型嵌入增強的句子表示Hd。該模塊與上一節情感增強句法圖卷積網絡共享同一個由Bi-LSTM編碼的隱藏向量表示,從而減少整體模型的參數量。
單一的依賴關系在沒有區分不同依賴類型的情況下會導致信息丟失,考慮對依賴關系類型進行增強建模,使用可交互學習的深層特征來表示每個依賴關系的類型。首先儲存一個關系索引表R ∈R|N|×dm,其中 |N| 為 依賴關系類型的數量,dm為依賴關系中特征維度的大小。依賴嵌入模塊為
其中,Ad為依賴關系類型加權后的鄰接矩陣,初始化=Hc∈Rn×dlstm為共享Bi-LSTM編碼的隱藏向量。Wd∈Rdlstm×(dlstm+dm),b為可訓練權重向量和偏置項。Qijk為節點i與節點j之間是否存在第k種類型的依賴關系。
3.2.3 語義圖卷積模塊
受Huang等人[18]啟發,引入語義圖卷積模塊以區分不同上下文詞間的重要性,如圖2所示。語義圖卷積模塊被劃分為初始化和更新兩部分,第1部分先將作為初始化的輸入,利用多頭自注意力來構建基于的K個權重矩陣。

圖2 語義圖卷積示意圖
為了增強模型的魯棒性,對這些矩陣求和并應用top-k函數,保留前t個重要的上下文單詞。通過這種方式初始化鄰接矩陣,并利用圖卷積操作提取初步語義信息
在融合由雙語法和語義模塊提取的表示之前,對L層圖卷積網絡的輸出進行遮掩,保留方面詞向量,方面詞所對應的位置設置為1,非方面詞對應位置為0,經過方面特定遮掩層后的輸出為h,h,h
隨著句子句法結構的變化,語法和語義信息并沒有完全分離,因此設計語義和語法多交互注意機制,從不同角度提取特征信息。
雙語法交互:通過Bi-LSTM獲取文本中隱藏的語義特征信息Hc,分別與經過遮掩操作后的依賴類型語法特征h和情感知識語法特征h進行交互。語義交互:將方面特征遮掩后的方面詞h與隱藏層獲取的語義特征Hc進行充分交互。以上交互過程為
將多交互注意力操作后得到的特征向量hsy,hd,hse利用可訓練參數矩陣進行自適應的融合學習,使特征在迭代訓練中平衡不同分支的權重系數,得到文本向量的最終表示H
將融合層的輸出作為全連接層的輸入,通過softmax函數進行最終情感極性的分類,即
其中,H為特征融合層的輸出,Wi,bi分別為全連接層的權重和偏置項。本文通過梯度下降算法訓練模型來完成分類任務
為驗證本文模型的有效性,本文在5個數據集上進行了實驗;分別是Twitter[19], Laptop 14[20],Restaurant 14[20], Restaurant 15[21], Restaurant 16[22]。每個數據集都由3種情緒極性標記:積極、中性和消極。數據集信息如表2所示。

表2 數據集統計
本文采用GloVe初始化詞嵌入,LSTM與BERT編碼輸出的隱藏狀態維度分別為300和768。模型權重初始化采用均勻分布的形式,GCN的層數設置為2,此時模型的性能最好。模型的超參數如表3所示。
模型采用準確率(Accuracy, Acc)和宏F1值(Macro-F1, M-F1)作為評價指標
其中,T為正確預測的樣本數量,N為樣本總數,M - F1為分類問題的衡量指標,是精確率與召回率的調和平均數,P為預測是正的樣本中預測正確的概率,R為正樣本中預測正確的概率。
為了全面評估模型的有效性,將其與一系列基準模型進行比較,各個模型簡介如下所示:
LSTM[23]:利用LSTM對給定方面的上下文特征進行建模,將隱藏向量作為文本特征的表示輸入到分類器中。
ATAE-LSTM[2]:引入注意力機制,通過注意力加權操作捕捉上下文中不同詞對特定目標的影響。
IAN[3]:提出交互式注意神經網絡模型,使句子與方面詞進行交互式學習。
AF-LSTM[24]:通過獨立編碼方面和上下文得到句子的聯合表示,并利用注意力學習上下文詞的相對重要性。
TD-GAT[18]:根據句法依賴關系構建基于方面的依賴圖,利用圖注意網絡聚合方面相關的特征信息。
ASGCN[5]:利用圖卷積網絡從句法依存樹中獲取依賴信息,結合注意力機制進行情感分類。
BiGCN[6]:設計雙層交互式圖卷積網絡模型,利用詞匯圖和句法圖聯合建模,獲得豐富的特征表示。
GL-GCN[25]:引入語料庫的詞匯信息挖掘句子的全局語義依賴關系,用其補充句法依賴樹得到局部依賴關系,然后加權圖卷積網絡融合全局和局部信息提高分類性能。
MIGCN[10]:通過多交互注意層融合語義和語法的信息特征,將位置距離和語法距離特征引入到圖卷積網絡層,強化對單詞依賴關系的學習。
DA-GCN[26]:提出一種依賴感知圖卷積網絡模型,利用單詞的依賴關系和依賴類型感知語法信息,與多頭注意力得到的表示進行交互學習,有效提取上下文特征。
MSD-GCN[8]:通過句法結構類型構造細粒度的依賴圖,將具有交叉注意力機制的圖卷積網絡合并到統一的框架中,用多粒度方式捕獲句法特征。
SGAN[7]:提出了一種句法圖注意力網絡,將依賴類型的知識納入圖注意力網絡,根據其依賴類型來學習每個邊緣節點的注意力權重,更好地將上下文單詞與方面術語相關聯。
SK-GCN[13]:通過圖卷積神經網絡建模句法依賴樹和常識知識圖譜,融合基于語法和知識的方面表示。
本文模型在5個數據集的實驗結果如表4所示,相比于僅使用LSTM構建的模型,KSD-GCN在5個數據集上的準確率與宏F1分別有所提升,并在Laptop 14數據集上表示尤其突出,準確率與宏F1分別提升9.09%和12.09%,證明雙語法增強依賴關系補充句法信息的有效性。相比基于圖卷積網絡的ASGCN模型,KSD-GCN在5個數據集上的準確率與宏F1均提升2.60%和4.10%,表明對句法和語義結構進行聯合建模有利于識別方面的情感極性。

表4 不同模型的結果對比(%)
對比最新基于GCN的6個模型BiGCN, GL-GCN,MIGCN, DA-GCN, MSD-GCN和SGAN,本文模型的準確率均有不同程度提升,其中,相比于采用語義語法交互的BiGCN, GL-GCN和MIGCN模型準確率分別平均提升1.93%, 1.72%, 1.57%,相比于豐富語法依賴關系的DA-GCN, MSD-GCN和SGAN模型分別平均提升2.23%, 1.22%, 1.42%,證明本文模型融合雙句法信息增強語義特征的必要性。
針對使用BERT作為嵌入層的模型,KSD-GCNBERT模型整體性能顯著提高。相較于SK-GCNBERT和DA-GCN-BERT模型,本文模型在Restaurant 14和Restaurant 16數據集上的表現更加優異,證明多通道建模語法和語義的有效性。
本文模型的準確率取得顯著成效,但宏F1值在Twitter和Restaurant 15兩個數據集上僅次于最大值,因為Twitter數據集的評論語句較靈活,句法結構不明顯嚴重影響模型的精確率,由于Restaurant 15數據集的情感較為表層,KSD-GCN偏向于挖掘深層的信息,從而無法將模型的優勢發揮到最大,因此達到了次優效果。
在本節及后續章節進行的實驗中,所有提到的KSD-GCN模型均基于GloVe,并認為KSD-GCNBERT顯示出類似的趨勢。
為證明KSD-GCN中每個模塊的重要性,本文對該模型進行消融實驗。研究結果如下:以KSD-GCN為基線模型,分別去除語義分支、依賴類型語法和情感知識語法模塊。如表5所示,w/o sem表示去掉語義分支模塊,w/o dsyn表示去掉依賴類型語法模塊,w/o ksyn表示去掉情感知識語法模塊,w/o sem-dsyn代表僅保留情感知識加權的語法信息,w/o dsyn-ksyn代表僅保留語義分支的信息,w/o sem-ksyn代表僅保留依賴類型的語法信息。

表5 消融實驗結果(%)
觀察w/o sem-dsyn, w/o dsyn-ksyn和w/o sem-ksyn與本文模型的實驗結果,發現使用單獨建模的方式學習的信息較少,泛化能力較差。此外,語義學習模塊和知識增強模塊的貢獻是相當的。總體上看,模型的不同分支得到的句子表示都對本文模型產生重要影響。
對比w/o sem, w/o dsyn和w/o ksyn 3種不同的模型,準確率和宏F1值均下降,證明去掉任何一種語義或語法信息都會降低模型的學習性能。w/o sem不僅表示去掉語義分支的學習,還表示具備依賴類型和情感知識增強的語法聯合學習,從側面反映語法和語義信息之間能夠相互補充,進一步說明設計的雙語法補充語義表示的重要性。
4.6.1 GCN層數分析
本文為了驗證KSD-GCN的層數對模型的影響,在5個數據集上分別進行實驗,其中模型的層數為L ∈{1,2,...,8},結果如圖3(a)和圖3(b)所示。

圖3 GCN網絡層數與準確率和宏F1值的關系
本文模型KSD-GCN在網絡深度為2層時達到最優性能,隨著網絡深度的增加,模型性能存在一定的波動,整體性能呈現下降趨勢。在GCN深度為8層時,相比于最佳性能,其準確率平均下降了2.48%,宏F1值平均下降了3.19%,由于層數增加,模型引入更多的參數,大量的噪聲會更新到KSD-GCN的最后一層,使得模型產生過擬合。
4.6.2 自注意力頭數的影響
針對語義模塊中的多頭注意力進行實驗研究,分析不同注意力頭數在5個數據集上對本文模型KSD-GCN的影響。結果如圖4(a)和圖4(b)所示,當頭數為3時,模型達到最優性能。隨著頭數的增加,性能發生小范圍波動,整體效果偏低。

圖4 自注意力頭數與準確率和宏F1值的關系
將注意力機制擴展到多個頭,能幫助模型學習到更豐富的特征信息。在Laptop 14數據集上的表現更能體現合適的多頭注意力機制,相比于普通自注意力能夠增強模型對不同特征的關注度。
4.6.3 Top-k選擇的影響
針對語義模塊中的top-k選擇進行實驗研究,分析不同top-k數量在5個數據集上對本文模型KSDGCN的影響。實驗結果如圖5(a)和圖5(b)所示。

圖5 Top-k選擇個數與準確率和宏F1值的關系
整體來看,當k值在1~4時表現性能更好,模型達到最佳的效果。由于數據集中存在大量長文本數據,1~4個關鍵詞的選擇利于辨別具體情感得分。k值越大,會發現可挑選的特征向量越多,導致不相關詞造成的干擾越強,極大程度影響模型確定情感極性的能力。
本節分別選取Laptop 14和Restaurant 14數據集中的句子進行注意力權重可視化分析。權重分數越大,對應的色塊區域越深。第1行代表依賴類型嵌入句法信息后的注意力權重,第2行代表語義學習通道的注意力權重,第3行代表情感知識加權句法信息的注意力權重。如圖6,對于方面詞“mountain lion”,句法增強通道的表示突出集中在情感詞“slow”上,幫助句子做出正確預測。從3個分支的可視化角度觀察發現,使用情感知識增強語法分支捕捉情感詞的效果更加明顯,表明外部知識對情感分類的重要影響。如圖7,對于方面詞“milkshakes”,依賴類型增強語法分支的表現性能更為突出,能正確捕捉到影響方面的情感詞“better”,表明不同語法分支對增強句法的特征表示同等重要。對于包含多方面的評論語句,所采用的兩種句法形式均能正確捕捉影響不同方面的情感詞。模型能夠避免無關意見詞對特定方面的干擾,正確預測各個方面對應的情感極性。因此,上述案例充分說明單一的語義需要句法的補充和修正,雙語法增強有助于模型整體性能的提升。

圖6 方面詞“mountain lion”的多通道注意力可視化

圖7 方面詞“milkshakes”的多通道注意力可視化
本文提出一種多通道增強圖卷積網絡,設計了基于語義和句法的圖卷積模型來對句子進行編碼。首先,將依賴類型和情感知識增強句法圖進行圖卷積操作,同時利用多頭注意力和圖卷積學習語義特征,最后采用自適應學習將語法和語義特征融合。實驗結果表明,該模型在公開數據集上準確率和F1值優于基準模型,依賴類型和情感知識均對增強句法圖有不同程度影響,雙語法結合語義增強方案有助于提升情感分類的效果。