基于注意力機制的雙BERT 有向情感文本分類研究

2023-01-14 14:48:58張銘泉周輝曹錦綱

智能系統學報 2022年6期

張銘泉，周輝，曹錦綱

（1.華北電力大學控制與計算機工程學院，河北保定 071003;2.華北電力大學復雜能源系統智能計算教育部工程研究中心，河北保定 071003）

情感分析是自然語言處理中文本分類領域的一項基本任務，其研究目的是對帶有情感色彩的主觀性文本進行分析并提取其主要情感。社交媒體上的用戶情感分析是情感分析領域的重要組成部分。社交媒體上的用戶情感對整個社交媒體輿論風向具有重要的影響，進而會影響整個社會的政治風向。而以前的研究主要應用訓練好的模型推斷嵌入在各種社交網絡和媒體上的文本數據是否包含正面或負面情感[1-3]。同時，衡量新聞媒體中政治文本的情緒或語氣是計算社會科學中廣泛使用的方法[4]。文獻[5-7]使用社交媒體帖子來評估公眾對政治行為者的看法，并通過大規模情感分析預測未來事件的結果，而文獻[8-10]進一步延伸到非語言或多模態維度。然而目前已有的大多數工作集中在句子級分類[11-14]，或旨在檢測對特定目標的情感極性[15-16]。而以往的這些方法通常不區分情感的來源和目標。這些方法使用的數據主要使用來自用戶生成的內容，如推特評論或來自Yelp 的餐廳評論，同時這些方法假設每個用戶(賬號持有人)都是情緒的來源，并且目標也是明確定義或容易識別(如餐廳評論)的。但是這一假設在政治新聞分析中并不適用，因為很多政治人物在新聞報道中相互指責或相互支持。政治情感分析的關鍵是識別政治人物責備“誰”或支持“誰”[17]，而不是簡單地將全局的情感極性分配給指定文件或句子。例如：從“X 支持Y 批評Z”這句話中，我們可以推斷X 對Y 是積極的，而X 和Y 都對Z 是消極的。但是，現有的情感分析方法并不適合檢測實體之間的這種情感關系。針對上述問題，本文提出基于注意力機制的雙BERT 有向情感文本分類模型，可以有效解決上述問題，提高情感分析的準確性。本研究不僅為自然語言學界的有向情感分析問題提出了解決方法，而且為社會科學界增加了對政治新聞中媒體偏見的實證理解。

1 理論基礎

1.1 BERT 預訓練模型

變換神經網絡的雙向編碼表示(bi-directional encoder representations from transformers，BERT)模型是由谷歌公司在2018[18]提出的開源模型，它在當時11 項自然語言處理任務中奪得最優結果，再一次將自然語言處理推向了浪潮之巔。

BERT 相較于原來的循環神經網絡(recurrent neural network，RNN)、長短時記憶網絡 (long shortterm memory，LSTM)可以做到并發執行，同時提取詞在句子中的關系特征，并且能在多個不同層次提取關系特征，進而更全面反映句子語義。相較于之前的預訓練模型，BERT 能根據句子上下文獲取詞義信息，從而避免歧義產生。同時BERT能夠雙向提取詞義信息，從而得到更豐富、更隱蔽的特征。BERT 模型框架如圖1 所示。

圖1 BERT 框架Fig.1 BERT framework

BERT 先將輸入文本中的各個字表示為語義向量，再輸入至多個變換神經網絡(Transformer)編碼器中進行訓練，最后得到訓練后的詞向量。BERT 中最重要的結構是 Transformer 編碼器，其包含了多頭注意力機制、自注意力機制、殘差連接、層歸一化、線性轉換等關鍵操作，通過這些操作，Transformer 編碼器能將輸入文本中的各個字的語義向量轉換為相同長度的增強語義向量，通過多層Transformer 編碼器，BERT 實現了對文本中的各個字的語義向量的訓練。

BERT 是一個語言理解模型。BERT 采用大規模、與特定自然語言處理(natural language processing,NLP)任務無關的文本語料進行訓練，其目標是學習語言本身應該是什么樣的，以便理解語言的本質特征。BERT 模型的訓練過程就是逐漸調整模型參數，使得模型輸出的文本語義表示能夠刻畫語言的本質，便于后續針對具體NLP 任務作微調。

1.2 文本情感分析

目前的文本情感分析方法主要包括基于情感詞典的方法、基于機器學習的方法和基于深度學習的方法。基于情感詞典的方法是文本情感分析的基礎，利用文本情感詞典，可以對情感詞典進行極性和強度標注，進而進行文本情感分類。而構建情感詞典有人工構建和自動構建兩種方式。但基于詞典的文本情感分析技術由于構建的詞典往往只針對某個領域，對于跨領域文本分析的效果不夠好。基于機器學習的方法首先將文本信息進行特征處理，然后對模型進行有監督學習訓練，訓練好的模型用于預測新的文本信息的情感極性。根據分類算法不同，基于機器學習的方法可分為樸素貝葉斯、最大熵和支持向量機3 種方法。而隨著深度學習研究的不斷發展，深度學習技術也開始應用于文本情感分析領域。例如，Ma 等[19]提出的融合了高維注意力機制的深度學習方法；翟學明等[20]提出的和條件隨機場相結合的深度學習方法，在情感分析上都取得了不錯的效果。基于深度學習的文本情感分析的過程如圖2 所示。首先對文本進行預處理，接著將文本詞嵌入后得到文本的向量表示。然后通過深度學習模型對文本向量進行計算，最后得到情感分析結果。

圖2 情感分析過程Fig.2 Sentiment analysis process diagram

2 基于注意力機制的雙BERT 有向情感文本分類模型

本文提出的基于注意力機制的雙BERT 有向情感分類模型結構如圖3 所示。其主要由輸入模塊、情感分析模塊、政治實體方向模塊和分類模塊組成。輸入政治新聞文本到輸入模塊后，在情感分析模塊獲得文本中政治實體的情感特征，在政治實體方向模塊提取文本中政治實體的方向特征，然后，兩種特征輸入至分類模塊中，最后通過政治實體間有向情感預測文本類別。本文提出的模型中的政治實體方向模塊和情感分析模塊采用相同的結構，提取不同的特征，兩個模塊都包含基于BERT 的詞嵌入層和編碼層。分類模塊則包含轉換層、融合層以及分類層。

圖3 基于注意力機制的雙BERT 有向情感分類模型Fig.3 Analysis model of a dual BERT directed sentiment based on attention mechanism

2.1 輸入模塊

對政治實體方向模塊和情感分析模塊，輸入模塊輸入的輸入序列都為數據集中的一批句子序列，表示為SN,N表示批處理大小。其中一個句子可以表示為={wj1,wj2,···,wji,···,wjn}，j表示這批政治新聞文本句子中的第j個句子，wji表示第j個句子中的第i個詞匯,n為句子長度。

2.2 詞嵌入層

BERT 模型在多個自然語言處理任務中取得了巨大成功，并被應用于文本情感分析。為了獲取文本中政治實體間的情感特征和方向特征，本文使用BERT 預訓練模型將文本中的單詞從低維空間一一映射到多維空間中，與之前的Glove預訓練模型提供的詞嵌入矩陣相比，BERT 預訓練模型提供了一個更大的語言理解模型，能獲得更好的語義信息。

在BERT 預訓練模型之前的大多數預訓練模型都是提供一個轉換矩陣M，M∈RVd，其中V是詞匯表中單詞的總數，d是單詞轉換后的維度，通過轉換矩陣M，可將文本序列中的任一單詞wi轉換為維數為d的數字向量，方便之后的數學計算。相較于Glove 模型的轉換矩陣參數不變，BERT 預訓練模型旨在通過聯合調節所有層中的上下文，來預先訓練單詞的深度雙向表示。本模型使用2 個互相獨立的BERT 預訓練模型分別獲取文本序列的政治實體方向詞嵌入和情感詞嵌入，再分別輸入至政治實體方向模塊和情感分析模塊中的編碼層中，以此提高此模型對政治新聞文本的有向情感分析能力。本文分別使用政治實體方向數據和情感數據訓練這兩個BERT 預訓練模型，讓本模型更好地獲得文本序列的政治實體方向詞嵌入和情感詞嵌入。而本模型中BERT 預訓練模型的輸入為經過隨機初始化和分詞處理后的文本序列SN的各個詞的原始詞向量。

2.3 編碼層

編碼層的任務是將經過詞嵌入層轉換后的嵌入向量編碼成含有豐富上下文語義信息的序列向量。詞嵌入本身包含基礎語言信息，通過多層神經網絡對詞嵌入信息進行恰當縮放與聚合，有效聚合了上下文信息，即減少了計算消耗所需的資源，又能夠有效提高計算的效率。

編碼層采用三層神經網絡對詞嵌入向量進行編碼。輸入層輸入維度為詞嵌入層嵌入維度，隱藏層維度為512，輸出層輸出維度為3。政治實體方向模塊和情感分析模塊的訓練目標不同，其他基本相同。政治實體方向模塊訓練目標為0，1(p→q)，2(p←q)，p、q為政治新聞文本中的兩個實體對象,情感分析模塊訓練目標為0(中性)、1(積極)、2(消極)。

三層神經網絡在隱藏層與輸出層之間使用ReLU 激活函數，增強神經網絡模型的非線性，相比其他激活函數，ReLU 激活函數可以加快訓練速度。

2.4 轉換層

轉換層主要利用線性轉換的方法對情感特征和政治實體的方向特征進行變長計算。轉換層的結構如圖4 所示。

圖4 轉換層結構Fig.4 Transfer layer structure

如果用ht-1和bt-1代表進入轉換層之前的情感特征和政治實體的方向特征，用W1和W2代表轉換參數，b1和b2代表偏置，ht和bt代表轉換之后的情感特征和政治實體的方向特征，則轉換層計算公式為

2.5 融合層

本層的任務是將轉換層得到的相同長度的情感特征和政治實體的方向特征融合在一起，為分類層的分類做準備。

本模型主要利用注意力機制[21]融合文本的情感特征向量h和政治實體的方向特征向量b，并計算兩者的注意力分數a。注意力機制源于人類會選擇性地關注所有信息的關鍵部分，同時忽略其他可見的信息。本文使用的注意力機制為改進的縮放點積注意力機制。改進的縮放點積注意力機制結構圖如圖5 所示。

圖5 改進的縮放點積注意力機制Fig.5 Improved scaled dot-product attention

該注意力機制計算時首先將情感特征h和政治實體的方向特征b相乘，接著進行縮放操作即除以情感特征h和政治實體的方向特征b的長度，得到的結果可以選擇是否進行mask 操作，然后進行softmax 計算。最后將該結果與政治實體的方向特征b再次進行點乘計算后得到情感特征h和政治實體的方向特征b的注意力分數a。此過程計算公式為

式中d為情感特征h和政治實體的方向特征b的長度。

2.6 分類層

本模型將注意力分數a視為政治文本領域識別政治實體之間的有向情感所依據的最終特征，通過一個線性網絡將其映射到任務所要求的結果空間，并使用softmax 來計算政治實體之間的有向情感態度為y的可能性：

式中：W是將向量映射到輸出真空的矩陣；l是偏差。模型訓練的目的是使真實值與預測值之間的交叉熵損失最小，交叉熵損失函數為

3 實驗結果與分析

3.1 實驗數據集

本文在Park 等[22]提供的數據集上進行了實驗驗證。數據集中的單一數據包含一個有兩個實體p和q的句子S，以及一項情感關系分類標簽，目的是檢測從p到q之間的不同方向情感關系。數據集詳情如表1 所示。訓練集與測試集之比為9∶1。

表1 數據集參數Table 1 Parameters to the data set

為驗證提出模型的有效性，本文與下述模型進行了對比。

1) FastText[23]是Facebook2016 年提出的文本分類模型，是一種高效的淺層網絡。

2)卷積神經網絡[24](convolutional neural networks，CNN)，是深度學習的代表算法之一。

3)循環神經網絡[25](recurrent neural network，RNN)是一類以序列數據為輸入，在序列的演進方向進行遞歸且所有節點(循環單元)按鏈式連接的遞歸神經網絡。

4)融合注意力機制的循環神經網絡(RNN_Att)，它根據注意力機制構建注意力權重，取得了不錯的效果。

5) Transformer[21]模型，其主要由注意力機制構成。

6) LNZ 模型，是由Liang 等[26]提出的當前最先進的方向過錯檢測方法。

①年降水存在多尺度演變特性，且具有全域性；②新疆年降水周期為6，15，3a； ③北疆為15，6，3a；④南疆為6，3，14a。

7) RoBERTa 是由Facebook[27]提出的對BERT模型的改進模型。

8) DSE2QA 是由Park 等[22]提出的最新模型。

3.2 模型設置

本文輸入序列文本長度設置為125，如果文本長度超過125，那么截斷；反之，則補零。本文中所有BERT 模型選用uncased-BERT-base，詞嵌入的維度為 768。轉換層輸出維度為125×768。

在訓練過程中，本文利用Adam 作為目標函數的優化器，分層設置學習率，BERT 詞嵌入層學習率設為0.000 02，其他層學習率設為0.000 001，同時對學習率進行預熱操作。損失函數為交叉熵損失函數，訓練批次大小為40，dropout 在注意力機制中設為0.2，在情感分析模型、政治實體方向模型中設為0.5。

本文使用裝有NVIDIA RTX 3 090 顯卡的服務器運行實驗程序，文中的所有的實驗模型使用pytorch 框架和Jutyper Notebook 編寫。

3.3 實驗結果

本文使用3 種指標對實驗結果進行評價：Micro-F1、Macro-F1和平均精度(mAP)。

對于多分類數據預測結果有4 種情況：

真陽性TP：預測為正，實際為正。

假陽性FP：預測為正，實際為負。

假陰性FN：預測為負，實際為正。

真陰性TN：預測為負，實際為負。

準確率P計算公式為

召回率R計算公式為

F1-score 計算公式為

Micro-F1先計算總體的TP、FP、FN 和FP，再計算F1-score。Macro-F1分別計算每個類別的F1-score，然后做平均。因此，Macro-F1是對傾斜類分布(如本文使用的數據) 的更健壯的度量方法。同時，mAP 測量每個類別的平均精度(AP)的未加權平均值，AP 為各個類別準確率-召回率曲線下的面積。對比實驗結果如表2、3 所示，部分實驗結果來自文獻[22]，實驗的最優結果加粗表示。

表2 實驗結果對比Table 2 Comparison of experimental results

表2 給出了每個模型的Micro-F1、Macro-F1、mAP，對比發現，本文提出的模型的Micro-F1比傳統Transformer 提高了18.53%，比DSE2QA (Pseudo)提高了0.57%。同時，本文提出的模型的Macro-F1比傳統Transformer 提高了35.68%，比DSE2QA(Pseudo)提高了0.79%。說明本文模型與經典神經網絡模型以及最新模型相比，在政治新聞文本的有向情感分析任務上確實具有更好的效果。而在mAP 指標上，本文提出模型的mAP 與DSE2QA(Pseudo)大致相當。

在表3 中,0、1、2、3、4 分別代表了兩個實體p和q之間不同的有向情感類別。具體為：0 表示中性；1 表示積極(p→q)；2 表示積極(p←q)；3 表示消極(p→q)；4 表示消極(p←q)。同時，表3 給出了不同模型的每個類別的F1-score 評分。本文模型與其他模型相比在各個類別上的F1-score 均表現出了優秀的性能。相比于性能較好的DSE2QA(Pseudo)模型，本文模型在類別0 上提高了2.49%，在類別1 上提高了0.184%，在類別3 上提高了0.12%，在類別4 上提高了1.11%，只在類別2 上降低了3.66%。實驗說明，本文模型與其他模型相比，對政治新聞文本的各項有向情感都具有更好的識別能力。

表3 各個類別F1-scoreTable 3 F1-score for each category

3.4 消融實驗

為驗證模型中主要模塊設計的合理性和有效性，本文進行了消融實驗：

1)直接將模型中的政治間實體的方向特征和情感特征拼接融合，而不使用注意力機制，此設置為模型1；

2)去掉模型中的情感分析模塊，使用政治實體的方向特征代替情感特征，此設置為模型2；

3)去掉模型中的政治實體方向模塊，使用政治實體的情感特征代替方向特征，此設置為模型3。

實驗結果如表4 所示，實驗的最優結果加粗表示。

表4 消融實驗Table 4 Ablation experiment

從表4 中可以看到，缺少任一功能模塊,尤其是去掉情感分析模塊或政治實體方向模塊后，模型的效果都將有著明顯的下降。其原因是：這兩種模塊在整個模型中相輔相成，情感分析模塊能夠獲取政治實體間的情感特征卻缺乏對方向信息的提取，政治實體方向模塊則相反，可以獲取政治實體間的情感方向卻難以獲得情感信息。兩個模塊對整個模型十分關鍵，缺一不可。而注意力機制則實現了對政治實體的方向特征和情感特征的有效融合，提升了模型識別政治新聞有向情感的能力。

通過上述消融實驗，說明本模型中的各個模塊可以實現對政治文本的準確分類，缺一不可。

4 結束語

在本文中，針對當前政治新聞文本分類研究中存在的不足，設計了基于注意力機制的雙BERT有向情感文本分類模型，該模型通過情感分析模塊、政治實體方向模塊，既能捕捉到政治實體間的情感信息，還能有目的性地識別出情感間的方向信息。該模型將BERT 預訓練語言模型與改進的縮放點積注意力機制相結合，能夠有效提取政治新聞文本中的有向情感特征。實驗證明，本文提出的模型在相應的數據集上取得了最優的效果，并通過消融實驗驗證了模型的合理性和有效性。

盡管本文提出的模型在數據集上取得了不錯的表現，但它仍存在一定的提升空間，可以進一步優化模型結構，讓模型適應沒有標簽或小樣本的數據集。下一步工作是，改變模型中編碼層的結構，優化模型計算方法，降低模型中的參數量，提高模型計算效率，減少模型計算時消耗的資源，并有效提升模型對政治新聞文本中不同政治實體間有向情感的識別能力。