宋 婷, 陳戰偉
(1 太原科技大學 計算機科學與技術學院, 太原030024; 2 中國移動通信集團山西有限公司, 太原030001)
情感分析是自然語言處理的任務之一,如何從社交網絡眾多文本信息中判斷用戶的情感傾向,分析人們對產品、服務、事件、主題及其屬性等實體對象所持的意見、情感、評價、看法和態度等主觀感受,是情感分析的主要研究工作。 方面級情感分析,是針對同一實體不同方面屬性挖掘更深層次的情感表達。 其中包括兩個子任務,首先是方面詞的提取,它可以是一個單詞,也可以是一個短語;接著是針對各個方面分析其情感極性。 例如句子:“Good food but dreadful service at that restaurant”。 其中語句評論的對象是餐廳,句中分別描述了兩個方面:food 和service,相對應的情感極性分別是積極和消極。
早期,文本分類問題采用傳統的機器學習算法,其訓練集需要經過大量人工標注的過程,從而在訓練集上進行特征提取,構建文本分類模型,因此它基于復雜的人工規則和特征工程[1]。 近年來,深度學習被廣泛應用于自然語言處理中,它的最大優點是能自動學習大量數據中的潛在特征。 深度神經網絡模型在機器翻譯、文本分類等任務中顯現出較好的效果,同時結合注意力機制,在訓練過程中高度關注特定目標的特征信息,針對不同目標調整參數[2-4]。在情感分析領域,當下使用最多的模型是卷積神經網絡和循環神經網絡[5-6],卷積神經網絡沒有時序性,提取的是文本局部特征,而循環神經網絡有時序性。 當前的決策除了和當前的輸入相關外,還和上一決策相關,可以捕捉到網絡的時序性,從而可以捕捉文本的上下文語義信息。
文本的一個句子中若存在多個特定方面目標,則句子情感可能存在多樣性,同一個用戶評論中也可能存在兩個以上的情感極性,而現有文獻沒有考慮句子中單詞和方面的情感極性信息。 情感極性信息對判斷句子情感有著重要作用,這一點和特征工程算法有相似之處。 單詞和方面詞之間的位置信息可幫助判斷單詞對方面詞的影響力大小,方面、詞性信息對情感極性都有不同程度的影響。 基于上述問題,本文提出一種基于多通道模式和改進雙向循環神經網絡的方面級情感分析模型,主要貢獻如下:
(1)提出一種多通道-雙向-ALSTM 模式進行特定方面級情感分析。 模型利用不同通道對現有文本任務中圍繞方面抽取的豐富情感資源建模。
(2)分別抽取單詞詞性、單詞情感極性和相對方面詞的位置信息,從不同角度學習挖掘更多的隱藏信息。 同時嵌入了方面信息,并融入相應方面情感極性。 融合后,經過線性轉換與通道特征結合,從而實現深層次的方面情感特征學習。
(3)在傳統LSTM 網絡的基礎上添加了預定義的方面目標屬性。 設計擴大的內部記憶鏈獲取情感特征,利用內部記憶鏈上動態記憶單元控制情感信息的遠距離依賴。
(4)在SemEval 2014 的兩個數據集和Twitter 數據集上進行對比實驗,驗證了該方法中不同特征對模型準確率提升程度不同。 特征的加入使情感分類準確率均得到了有效提升。 對傳統LSTM 的改進提高了分類準確率,加快了訓練的收斂速度。
早期的神經網絡模型采用遞歸神經網絡(RNN)結構[7],句法結構信息的使用雖然提高了情感分類準確率,但句法分析的準確率對結果影響較大,尤其對非書面表達時效果欠佳。 Socher 等[8]提出的遞歸神經張量網絡(RNTN),用分布式向量表示短語;Kalchb-renner 等[9]提出了一種動態卷積神經網絡(dynamic convolutional neutral network,簡稱DCNN),用于句子級的 語 義 建 模。 文 獻[10]利 用 長 短 期 記 憶 網 絡(LSTM)抽取文本中的情感特征。 LSTM 是RNN 的變體,較好的解決了長距離依賴問題。 雙向長短期記憶網絡(bi-LSTM)[11]和具有注意力機制的雙向循環神經網絡模型都有較好的性能表現[12]。 Wang 等[13]提出AE-LSTM 神經網絡和ATAE-LSTM 神經網絡模型,后者比前者增強了方面嵌入的效果,兩者都是通過LSTM 建模,對上下文建模后結合文本隱藏狀態和方面信息生成注意力向量,最終得到方面的情感分類。 Tang 等[14]提出基于方面的TD -LSTM 模型和TC-LSTM 模型,兩者皆利用方面的上下文語義信息作為輸入一部分進行情感分類。 Ruder 等[15]提出層次化的Bi-LSTM 模型,將單詞向量作為句子級Bi-LSTM 的輸入。 Ma 等[16]基于注意力機制同時獲取方面信息和上下文語義信息的重要部分,是一種交互式的網絡模型。 Tang 等[17]提出基于端到端存儲網絡的方面級情感分析,利用外部存儲器通過注意力機制獲取方面上下文語義的權重信息。
近期的方面級情感分析大部分圍繞RNN 網絡的設計與注意力機制的結合,及分類器設計等方面工作的研究,以求提升模型性能。
本文提出的多通道方面級情感雙向循環神經網絡基本模型如圖1 所示。

圖1 多通道雙向GRU 網絡模型Fig.1 Multi-channel bidirectional GRU network model
該模型由4 部分組成:
(1)獲取信息層。 基于文本語言知識,圍繞文本方面詞抽取一系列情感特征信息。 其中包括詞性信息、情感極性、詞語相對方面詞的位置信息,從而充分的獲取句子情感。
(2)多通道輸入層。 融合方面詞向量和方面極性信息,將形成的方面特征信息和三個通道特征向量融合,得到最終的通道特征信息,待進入網絡獲取上下文信息。
(3)改進的多通道LSTM 網絡層。 該部分對傳統的LSTM 網絡進行了改進,在LSTM 網絡的基礎上添加了預定義的方面屬性類別;設計了一種內部記憶鏈獲取情感特征;利用動態記憶單元控制情感信息的遠距離依賴。
(4)情感輸出層,輸出最終的情感分類結果。
研究表明,忽略文本方面信息是導致情感分類失敗的原因之一,充分證明了方面信息的重要性。因此,本文將基于文本語言知識,圍繞文本方面詞獲取一系列情感特征信息。 包括:詞性信息、情感極性、單詞相對方面詞的位置信息。 通過與文本詞向量融合分三個通道作為Asp 模型輸入。
(1)詞向量
文本句子中隱含著情感分類所需的語義信息,通過將文本向量化獲取句子的特征信息。 利用工具Glove 將詞語向量化,設維度設為300。 給定句子s,n 表示句子長度,句中wi表示句子s 的第i 個單詞;給定方面其中包含m 個單詞。 得到s 的詞嵌入矩陣為Ws=[wv1,wv2,...,wvn],wv ∈Rd1、特定方面目標的詞嵌入矩陣WAsp=[wa1,wa2,...,wam],wa ∈Rd2,其中,d1,d2分別是句子和方面的詞向量維度。
(2)詞性
單詞詞性暗含用戶對方面的主觀意識和情感極性。 本文通過工具POS Tagger 對單詞進行詞性標注,將得到的單詞詞性進行one hot 編碼。 句子的詞性設為:,wpos∈Rd3。 標簽級包含36 種詞性,p 為詞性長度,d3為向量的維度。若對應單詞無詞性標注,則將向量設置為0。
(3)位置信息
句子單詞相對方面詞的位置信息,在一定程度上反映了單詞對情感分類的影響力大小。 單詞相對于方面詞的位置信息計算如式(1)所示。

其中,pi表示句子s 在第i 個位置上相應單詞的位置信 息, len(s) 為 句 子 的 長 度, pasp(1 ≤pasp≤len(s)) 表示方面詞在句中的順序排位。 上式將句子以方面詞為中心,劃分左右兩部分。 右邊以方面詞為起始,依次掃描,以1 為步長遞增;左邊依次以1 為步長遞減。 情感詞對方面詞的權重影響大小和相對距離成反比。 由此得到句子的位置信息表示:,其中l 表示位置信息的長度,d4表示詞向量的維度。
(4)情感極性
不同詞性的單詞情感分數不同,在不同語境下單詞的情感分數也不同。 利用工具SentiWordNet 在已獲取單詞詞性的基礎上計算單詞的情感極性。 將單詞在不同語境下的情感分數取均值,情感極性用一個二維數組表示,兩個元素分別代表積極分數和消極分數,分別用正值和負值表示。 根據已知詞性,將相應情感分數置于數組對應位置上。 句子情感極性和方面情感極性分別表示為:詞向量維度分別是d5,d6。
在2.1 節基礎上形成三個通道作為網絡模型的輸入。 以句子詞向量為主體,分別和詞性特征向量、位置特征向量、情感極性特征向量,通過拼接操作形成三個輸入通道,如式(2)-(4)所示。

由此得到三個通道的待輸入特征信息。 其中,d1+d3,d1+d4,d1+d5分別為三組特征向量的維度。
將方面詞向量和方面極性融合、方面信息和已得到的三個待輸入通道特征依次融合,得到最終的三個通道特征信息,進入改進的雙向LSTM 網絡。
aspss1 表示方面詞和方面極性融合的計算結果。 假設方面詞包含單詞數最多為M,則aspss1 的維度為M?(d2+d6),為了與待輸入的通道特征結合,通過一次線性轉換得到方面信息aspss, 如式(5)所示:

其中,Waspss是1?M 維的權重參數。
基于方面目標詞的細粒度情感分析,需要模型能夠精確地識別方面相關的情感特征,從而進行情感分類。 本節在LSTM 網絡的基礎上進行了改進,在對網絡模型擴展的同時更有利于獲取方面相關的情感特征。 網絡模型中添加了預定義的方面屬性類別,通過形成的內部記憶鏈獲取方面屬性情感特征,利用動態記憶單元控制情感信息的遠距離依賴,內部記憶鏈通過注意力機制獲取情感分類。 改進后的模型網絡結構如圖2 所示。其中::表示文本中的詞向量;: 表示第j個預定義的方面屬性;:表示當前輸入的方面屬性j 的上一時刻隱層狀態;:表示方面屬性j 在內部記憶鏈中上一時刻的隱層狀態;: 表示方面屬性j 的門控單元;分別表示當前時刻網絡和內部記憶鏈的隱層狀態。 每一個方面屬性類別都對應一個內部狀態鏈,其中擴展的內部記憶鏈上的動態記憶模塊是一個GRU 單元,用來控制長距離依賴的情感信息,每輸入一個,計算當前方面屬性j 的臨時隱層狀態,從而通過門控單元和內部記憶鏈更新。 計算公式如式(6)-(9)所示:


圖2 改進的雙向LSTM 網絡Fig.2 Improved two-way LSTM network
其中:X、Y、U、V 是待訓練參數,?和σ 是非線性的激活函數,☉代表元素相乘。 臨時隱層狀態由方面屬性、上一時刻的內部記憶狀態和當前輸入的信息線性變換組成。 門控單元由式(8)中第一部分的內容信息和第二部分的位置信息決定。 當輸入的向量和方面詞向量相符,并含有方面相關情感特征時,門控單元的計算則對方面屬性的上一步隱層狀態提供更豐富深層的信息量。 門控單元計算式子中第三部分為遠距離依賴信息,若當前進入的詞向量與方面屬性存在遠距離狀態,則門控單元的計算給當前的隱層狀態提供更多的更新信息。 由此可見,內部狀態鏈上的記憶模塊實現了方面相關信息長距離依賴的情感信息控制功能。 最終得到的網絡當前隱層狀態由式(9)中上一步的隱層狀態和代表更新信息量的合并求得。 當前的隱層狀態值通過遺忘過期信息將取值縮至單元距離間,以此丟掉網絡中已過期信息。
本文采用雙向網絡學習特征的上下文信息,沿著前后兩個方向進行建模,最終得到雙向循環網絡。其表示如式(10)所示:

通過改進的Bi-ALSTM 網絡,得到三個隱藏層輸出,經過歸一化處理分別得到三個不同的情感特征,然后進入Merge 層。 通過⊕操作得到情感分類層的輸入向量x,放到情感分類器,從而得到情感極性結果如式(11)所示:

其中,wp,bp分別表示權重參數和偏置參數,本文在模型訓練過程中使用交叉熵作為損失函數,如式(12)所示:

其中,D、C 分別為訓練數據大小和類別數,y、p分別為實際類別和預測類別。
本文提出的基于多通道模式的雙向LSTM 方面情感分析模型(MCBL),在三個數據集上進行驗證。實驗采用SemEval 2014 Task4 的Laptop、Restaurant數據集。 其中包含四種情感類別:積極的、消極的、中立的、沖突的,最后一種類別數據所占比例較低,實驗中只保留前三種。 第三個數據集來自文獻[19]的Twitter 數據集,三個數據集數據統計結果如表1 所示。

表1 數據集信息Tab.1 Data set information
實驗過程中采用準確率作為評價指標,向量初始化采用Glove 詞向量。 詞向量維度為300,詞性、級性、位置信息特征維度為100。 采用均勻分布U(- 0.1,0.1) 對未登陸詞初始化,偏置初始化為0。訓練采用Adam[20]優化器更新模型參數,參數設置如表2 所示。

表2 參數設置Tab.2 Parameter settings
為了驗證本文模型的性能,將其與以下模型進行對比:
(1)LSTM:采用長短期記憶網絡對文本進行方面級的情感分析[11]。
(2)GNN:采用門限神經網絡獲取文本上下門和方面信息,將兩者融合生成句子表示[21]。
(3)TD-LSTM:通過兩個LSTM 對左、右兩個方向分別獲取文本上下文信息,獲得情感分類結果[14]。
(4)?ATAE-LSTM:將方面信息拼接到句子向量上,通過注意力機制獲取詞向量權重,得到分類結果[13]
(5)MemNet:通過文本詞向量構造外部記憶,利用注意力機制的方面情感分析,每一層計算關于方面的注意力表達作為下一層的輸入重新計算[17]。
本文模型(MCBL)同以上模型比較后的準確率值如表3 所示。

表3 不同模型的方面級情感分類準確率Tab.3 Accuracy rate of aspect-level sentiment classification of different models %
由表3 可見:二分類的實驗結果優于三分類,當分類考慮中性情感,模型分類準確率降低。 本文在三個數據集上分別對三分類和二分類兩種情況進行實驗。
通過分析得到基于LSTM 的模型實驗效果優于只采用LSTM 的網絡模型;嵌入方面信息的TDLSTM 優于基礎模型LSTM;ATAE-LSTM 考慮了注意力機制,在分類準確率上比TD-LSTM 有所提高,考慮了方面和注意力機制的MemNet 模型優于以上模型,由此可得方面和注意力機制對模型效果提升有一定影響。
本文提出的MCBL 模型基于多通道模式嵌入不同的特征信息,通過改進的雙向LSTM 網絡獲取上下文,在三個數據集上的實驗結果和對比模型相比均有1-3 個百分點的提升,驗證了該方法的有效性。
通過不同通道特征的組合驗證,不同特征信息對模型準確率的提升效果如表4 所示。
其中,SA 表示融入方面信息的模型,所有對比通道模型均在已融入方面信息的基礎上添加其它信息特征;SAP 表示在融入方面信息的基礎上嵌入詞性信息;SAL 表示在融入方面信息的基礎上嵌入位置信息;SAS 表示在融入方面信息的基礎上嵌入極性信息。

表4 特征信息組合性能準確率Tab.4 Performance accuracy rate of combination of characteristic information %
表4 中融入通道特征后的模型分類準確率,優于表3 中只融入方面信息的模型,嵌入多通道特征信息的模型分類準確率均比單通道特征模型有不同程度的提升。 不同通道特征的結合對模型準確率的影響大小不同,對比表4,可得詞性特征、位置特征相比單詞極性對模型效果的影響力較大,嵌入三種特征信息的模型效果最好。
為了驗證基于LSTM 改進的循環網絡在方面嵌入和內部記憶鏈的擴展情況下,情感特征的獲取是否穩定,模型性能是否提高。 通過若干次迭代過程計算平均損失值,對比模型[14],如圖3 所示。 橫坐標代表實驗中訓練的迭代次數,縱坐標代表平均損失值,實線代表本文模型,虛線代表對比模型。 可以看出隨著迭代次數的增加模型的平均損失值逐漸減小。 分析得出本文改進后的網絡模型在實驗訓練過程中收斂的速度更快,性能更優。

圖3 改進模型與對比模型收斂速度Fig.3 Convergence speed of the improved model and the comparison model
本文基于多通道模式嵌入不同特征信息,分析現有語言知識提取情感資源,形成不同特征通道。 融入方面情感極性,經過線性轉換與通道特征結合,設計擴大的動態記憶鏈改進LSTM,實現深層次的方面情感特征學習。 通過數據集上的對比實驗,驗證了該方法中幾種特征的嵌入對模型情感分類準確率均有提升。 通過一些實例分析得出,包含跨領域詞匯和網絡用語句子的方面情感分析,現模型還不能很好的進行情感識別,這將作為下一步研究的重點。