嵌入常識的混合注意力LSTM用于主題情感分析

2019-10-18 11:13:18任曉奎陶志勇

計算機應用與軟件 2019年10期

任曉奎郭娟陶志勇

1(遼寧工程技術大學電子與信息工程學院遼寧葫蘆島 125105)2(阜新力興科技有限責任公司遼寧葫蘆島 125100)

0 引言

情感分析[1]在博客、微博、在線社區、維基百科等在線平臺上處理數據已成為一個研究熱點。其中，主題情感分析擴展了其典型框架設置，即極性與特定主題(或產品特性)而不是整個文本單元相關聯來聚集情感分析。

深度學習模型[2]在沒有人工標注的特征工程[3-4]前提下，應用于特定主題情感分析時，準確率很高，特別是神經序列模型，但傳統的神經序列模型如長短時記憶網絡以一種隱式的方式捕捉上下文信息[7]，而不能明確顯示某一主題的線索。此外，現有的研究在有效地融入深層神經網絡的外部知識(如情感或常識知識)方面存在不足，情感常識的引入可以訪問有限的訓練數據中沒有的外部信息。這些知識可以有效地幫助識別情感極性。

自Pang等[8]提出有關情感分析的工作之后，情感分析發展為基于傳統的方法和基于深度學習的方法。隨著Hinton等[9]提出深度學習之后，越來越多的學習任務被應用到自然語言處理中。然而，神經網絡模型在處理主題級情感分類主題還處于起步階段，代表性的方法有Kiritchenko[11]等基于特征的支持向量機和Dong[12]等研究的神經網絡模型。最近，目標依賴情感的分類可以從考慮目標信息中獲益，如Tang[4]等研究的目標依賴LSTM(TD-LSTM)和目標連接LSTM(TC-LSTM)。然而，這些模型只能考慮給定目標，而不能考慮主題信息。

本文探討了主題情感分類中主題與情感極性的潛在關聯。為了捕獲針對給定主題的重要信息，設計了一種基于全局注意力和位置注意力的混合注意力LSTM，并在基準數據集[8]上評估所提出的方法，經驗證該方法是有效的。

1 相關工作

1.1 特定主題情感分析

特定主題情感分類是一種細粒度情感分類任務，目標是對于給定的句子和句子中出現的主題，推測句子對于主題的情感極性[13]。早期關于主題情感分析的論文主要依靠特征工程來描述句子。在表征學習深度學習的成功激勵下，Lakkaraju等[14]利用深度神經網絡生成句子嵌入(句子的密集向量表示)，然后作為低維特征向量反饋給分類器。情感極性如Positive、Negative和Neutral。例如，“這個標準間的床很寬敞，但是通風效果很差！”對于主題“床”是Positive，而對于主題“通風效果”的極性是Negative。此外，通過注意力機制可以增強表達，對于句子中的每個單詞，注意力向量都量化了它的情感顯著性以及與給定主題的相關性。

1.2 長短時記憶網絡

LSTM是由Hochreiter和Schmidhuber[5]首次提出的，用來解決RNN面臨的梯度消失和爆炸問題。典型的LSTM單元包含三個門：遺忘門、輸入門和輸出門。這些門決定了在當前時間步驟中流入和流出的信息。LSTM單元狀態數學表示如下：

fi=σ(Wf[xi,hi-1]+bf)

(1)

Ii=σ(WI[xi,hi-1]+bI)

(2)

(3)

(4)

oi=σ(Wo[xi,hi-1]+bo)

(5)

hi=oi×tanh(Ci)

(6)

fi、Ii、oi分別表示遺忘門、輸入門和輸出門；Wf、WI、Wo、bf、bI、bo代表每個門的權重矩陣和偏置量。Ci為單元狀態，hi為隱藏輸出。單個LSTM通常只從一個方向對序列進行編碼。然而，兩個LSTM也可以堆疊起來作為雙向使用編碼器，簡稱雙向LSTM。對于一個句子s={w1,w2,…,wL}，雙向LSTM產生一系列隱藏的輸出，如式(7)所示：

(7)

式中：H的每個元素都是前向和后向LSTM單元對應的隱藏輸出的連接。

1.3 情感常識知識庫

情感常識知識庫[15-16]通常被作為特征的外部來源。神經序列模型[17]利用知識概念的低維度連續表示作為附加輸入。情感常識知識庫，如AffectNet[18]，包含了與一組豐富的情感屬性相關的概念，這些情感屬性不僅提供了概念層面的特征，而且還提供了指向各個主題及其情感極性的語義鏈接。摘要“情感網”是一種基于詞匯的情感知識庫，它是由帶有情感極性注釋的詞義同步構成的。情感網絡既不包含常識性概念，也不包含情感性屬性，這是情感空間的主要特征。因此，必須使用隨機初始化的嵌入來表示敏感詞網絡同步集。與AffectiveSpace一樣，字同步集映射到相同的100維嵌入。借助詞義消歧工具，將句子中的每個單詞映射到其詞義。

2 融合常識知識庫的混合注意力LSTM模型

本節詳細描述了提出的基于混合注意力的神經體系結構：首先提出了特定主題情感分析的任務定義；接著，描述了全局注意力模型和位置注意力模型；最后介紹了嵌入LSTM單元的知識嵌入擴展流程。

2.1 任務定義

給出一個句子s={w1,w2,…,wi,wm}由m個詞組成的句子和出現在句子s中一個主題詞wi，特定主題情感分析旨在確定句子s對wi的情感極性。在處理文本語料庫時，將每個單詞映射為一個低維的連續實值向量，也稱為詞嵌入[19]。所有的詞向量堆疊在一個詞嵌入矩陣L∈Rd×|V|中，其中d為詞向量的維數，|V|為詞匯量的大小。wi的嵌入詞被標記為ei∈Rd×1，它是嵌入矩陣L中的一列。

2.2 詞向量輸入層

句子s={w1,w2,…,wi,…,wn}，主題詞wi，將每個詞映射到它的嵌入向量，這些詞向量被分成兩部分：特定主題表示和上下文內容表示。圖1說明了神經結構是如何工作的。給定一個句子s，首先執行查找操作，將輸入的單詞轉換為詞嵌入?；贚STM的序列編碼器，將詞嵌入轉換為隱藏輸出序列。注意力組件構建在隱藏輸出之上。注意力層包含一個全局注意力和位置注意力，通過兩次注意力層從外部存儲器m中自適應地選擇權重突出的單詞，最后將輸出的向量作為句子的主題表示，進一步作為主題級情感分析的特征。

圖1 融合外部常識庫的混合注意力LSTM模型

2.3 全局注意力

本文使用混合注意力模型來計算一個句子關于一個主題的表示。語境詞對句子語義的貢獻并不相等。此外，如果關注不同的主題，一個詞的重要性應該是不同的。這里再次以“這個標準間的床很寬敞，但是通風效果很差!”為例。對于主題“床”，語境詞“寬敞”比“差”更重要。相反，對于主題“通風效果”而言，“差”比“寬敞t”更重要。

注意力模型以外部存儲器m∈Rd×k和主題向量vaspect∈Rd×1作為輸入，輸出連續向量vec∈Rd×1。輸出向量是m中每一記憶內存的加權和，即：

(8)

gi=tanh(Watt[mi;vaspect]+batt)

(9)

然后獲得{g1,g2,…，gk}，我們將它們輸入softmax函數來計算最終的重要度分數{α1,α2,…，αk}。

(10)

這種注意力模型有兩個優點：該模型可以根據每個內存mi片段與主題的語義相關性，為其自適應地分配一個注意力權重；這種注意力模型很容易與其他組件一起以端到端方式進行訓練。

2.4 位置注意力

從直覺上講，一個離主題更近的上下文詞應該比一個更遠的詞更重要。所以將語境詞的位置定義為它與原句序列中的相位的絕對距離。在此基礎上，研究了在注意力模型中對位置信息進行編碼的一種策略。詳情如下：

根據Sukhbaatar等[20]，計算內存記憶向量mi：

mi=ei?vi

(11)

式中：?代表元素的相乘，vi∈Rd×1是一個單詞wi的位置向量，vi中的每個元素計算如下：

(12)

式中：n是句子的長度，k是層的數目,li是wi的位置。

這種注意力模型有效地結合了位置信息，使主題詞wi的位置向量有更加精確的抽象表示，所研究的位置信息編碼方法仍有進一步提高準確性的空間。

2.5 常識知識庫的嵌入

為了提高情感分類的準確性，將常識知識作為知識來源嵌入到序列編碼器中。將Ma[18]等提出的AffectNet的概念映射到連續的低維嵌入，同時不丟失原始空間中的語義和情感關聯。基于這種新的概念空間，本文將概念混合的信息嵌入到深度神經序列模型中，以更好地對句子的特定主題情感進行分類。AffectNet的目標是賦予這些概念兩個重要的角色：(1) 協助過濾從一個時間步驟到下一個時間步驟的信息和(2) 提供補充的信息給記憶單元。在每次步驟i中，假設可以觸發一組知識概念候選對象并將其映射到dc維空間。K概念的集合為{μi,1,μi,2,…,μi,K}。將候選嵌入合并到單個向量中，如公式所示：

(13)

例如表1所示，“Rotten fish”這一概念具有食物種類屬性——食品可以直接與餐廳或食品質量等主題相關，而“joy”等屬性對情感極性的劃分具有正向作用。

表1 AffectNet 斷定的實例

2.6 模型訓練

我們將上一層中的輸出向量作為特征，并將其提供給softmax層，以進行主題情感分類。該模型通過最小化情感分類的交叉熵誤差進行監督訓練，其損失函數如下所示，其中T表示所有訓練實例，C為情感類別集合，(s;a)表示句子主題。

(14)

3 實驗

3.1 數據集

為了驗證該模型的有效性，實驗基于中文情感挖掘的酒店評論語料(ChnSentiCorp)，ChnSentiCorp是中科院譚松波博士收集整理的一個酒店評論的語料，其公布的語料規模為10 000篇，被分為4個子集，本文選用ChnSentiCorp-Htl-ba-6000數據來進行實驗，其為平衡語料，正負類各3 000篇。評價指標是分類準確率。數據集的統計樣例如表2所示。

表2 數據集的統計樣例

3.2 詞向量訓練

本文選用維基百科的中文語料作為訓練的語料庫，利用Google開源的word2vec tool來進行詞向量的訓練，然后對語料庫進行預處理，并以此作為本模型的輸入層。本文采用的word2vec tool的skip-gram模型，上下文窗口大小設置為5，詞向量維度大小設為50，采樣值大小設為1e-3，如果有詞語不在預訓練好的詞向量中的話，則采用隨機初始化方式來進行表示。

3.3 超參數設置與訓練

本文提出的方案建模過程主要采用Tensorflow深度學習框架。基于長短期記憶網絡和混合注意力模型的方法進行情感分析的實現方案在前文已經有了介紹。模型構建采用的是Tensorflow的序列模型框架，首先添加Embedding層作為模型的輸入，其次添加LSTM模型，并在LSTM的模型后添加混合注意力機制層，在得到句子的向量表示時對評論文本中不同的詞賦予不同的權值，然后由這些不同權值的詞向量加權得到句子的向量表示。之后采用sigmoid函數對文本進行分類。另外，在模型訓練過程中，采用dropout以防止過擬合。最后，編譯過程采用梯度下降算法進行權重的更新迭代。

3.4 實驗對比

將本文提出的融合常識知識庫的混合注意力長短時記憶網絡(LSTM)主題情感分析模型與以下方法進行對比：

1) LSTM。基準LSTM模型不能獲取到特定主題信息，盡管主題不同，但是得到的情感極性一致。

2) TD-LSTM[4]。使用前向和后向LSTM方法在主題詞之前和之后提取信息。但是由于沒有在TD-LSTM模型中應用注意力機制，并不能夠獲取文本中對于給定主題的重要詞信息。

3) TC-LSTM[21]。改進了TD-LSTM模型。TC-LSTM模型[20]在原來TD-LSTM的基礎上，將主題向量引入一個句子的特征表示。能夠更好地利用主題詞和文本中每個詞，將其連接組成一個文本的特征表示。

4) ATAE-LSTM[3]。AE-LSTM中使用主題信息的方式讓主題詞向量在注意力權重中起到了重要的作用。Wang提出的ATAE-LSTM模型，將主題詞向量連接到每個單詞的輸入向量。

5) AE-ATT-LSTM[21]。將融合主題特征的深層注意力LSTM模型應用到特定主題情感分類任務上。通過共享權重的雙向LSTM將主題詞向量和文本詞向量進行訓練，得到主題特征和文本特征融合，經過深層注意力機制在得到相應分類結果。

3.5 實驗結果與分析

本文采用嵌入外部常識的混合注意力LSTM方法在ChnSentiCorp-Htl-ba-600數據集上進行模型訓練和交叉驗證，得到的結果如表3所示。

表3 各模型實驗結果對比

其中Three-way是數據集中的三種情感極性(Positive，Negative， Neutral)和兩種情感極性(Positive，Negative)的分類準確率結果。本文所采用的方法較之其他模型得到了提高，因此可以得出，特定主題下嵌入外部常識知識庫和混合注意力機制的引入，提高了分類準確率。

4 結語

針對特定主題情感分類任務中，大多數方法對注意力機制的引用沒有綜合考慮位置影響，所以分類效果不準確。通過采用全局注意力和位置注意力的混合注意力機制來改進長短時記憶網絡LSTM，該方法能夠準確捕捉上下文信息。同時將有關情感概念的知識常識庫融合到深度神經網絡端到端的情感分類訓練中，使分類更加準確。通過在數據集上不同的對比實驗表明，該方法在準確率上有了進一步的提升，從而能更好地解決特定主題情感分析任務。在未來的研究中，將句子結構和詞性(比如解析結果)整合到深層記憶網絡中進行改進，是下一步研究的重點。