基于注意力機制的謠言檢測算法研究

2020-04-22 23:38:22夏鑫林許亮

現代計算機 2020年8期

夏鑫林，許亮

（四川大學計算機學院，成都610065）

0 引言

社交媒體已經成為人們分享信息以及交流的平臺，然而由于缺乏有效監管，謠言等虛假信息也的泛濫也給政治、經濟、文化等領域帶來威脅。研究認為互聯網虛假新聞甚至影響了英國脫歐投票和2016 年美國總統大選的結果，傳統的人工審核收集以及分析信息十分耗時，因此十分有必要在謠言早期進行自動化檢測[1]。一方面，近年來深度學習發展迅猛，其中注意力機制在各個領域被廣泛使用，具有較大的影響力。基于注意力機制的衍生模型Transformer 有研究[2]表明在一些任務上Transformer 特征抽取能力上不僅強于循環神經網絡而且相比之下更易并行。另一方面，一般謠言是故意偽造來誘導大眾的報道，風格迥異，主題多種多樣，僅根據特定文本內容特征很難辨識是否是謠言，因此十分有必要引入傳統手工構造特征，但如何對這些多模態特征進行融合也是需要解決的問題。因此本文主要工作如下：

（1）實現了基于注意力機制的謠言檢測模型，實驗表明能夠有效檢測出謠言。

（2）在工作（1）的基礎上，嘗試了將手工特征引入到模型中，實驗表明手工特征的引入能夠進一步提高模型的檢測能力。

1 研究現狀

謠言檢測實質上是一個二分類問題，現有研究主要集中在特征構造以及模型框架的改造兩方面。

（1）從特征構造角度，Ratkiewic 等人[3]提出利用內容中標簽、超鏈接等相關特征。Takahashi 等人[4]則使用詞頻特征來表達謠言與非謠言文本的詞頻分布差異；Castillo 等人[5]、Al-Khalifa 等人[6]、Gupta 等人[7]則使用用戶信息以及轉發量、評論數等社交媒體交互特征。Kwon 等人[8]則對評論信息建模結合其他特征通過聚類算法得到新特征；Yang 等人[9]提出設備類型以及時間發生地點作為特征。以上特征通過具體業務可以很容易構造出來，另外也有研究者試圖挖掘更深層次的特征。Sun 等人[10]引入圖片等多模態數據進行特征抽取輔助進行檢測；Zhang 等人[11]則利用特征組合方法抽取出可以描述傳播范圍的特征，包括流行度、轉發率、情感記性、用戶影響力等特征。Zhao 等人[12]提出通過挖掘具有疑問的關鍵字特征來輔助檢測。

（2）從模型角度，謠言在傳播過程中產生的子事件包括評論、轉發等，因此這些包含時間上先后順序的行為數據組成了時間序列數據。因此目前主流的謠言檢測算法仍然是使用時間序列模型檢測某些類別特征模式變化從而進行謠言檢測。Ma 等人[13]首先構造統計量特征以及描述特征變化的特征，然后將特征拼接作為特征向量，博文內容以及博文評論作為輸入給RNN 模型，然后進行檢測；Ma 等人[14]提出了使用LSTM、GRU、tanh-RNN 模型進行自動化謠言檢測。實驗表明循環神經網絡方法優于人工構造特征進行謠言檢測方法。

2 相關工作

2.1 詞向量模型

針對文本的表征從最初的one-hot 表示，到最近發展比較火熱的Word2Vec 模型[15]，Word2Vec 模型可以以無監督的方式進行訓練，不僅可以學習到詞語低維語義向量表示，而且對于經常出現在相似上下文的兩個單詞，該模型可以學到詞語間的語義相似性。由于是無監督學習，不需要標簽數據，因此網絡上有很多文本可以作為預料使用，當數據量足夠大時，學習出的詞向量具有很好的泛化能力。然而如果應用到具體任務時，目標語料較少，此時如果直接使用該預料訓練會使得詞向量訓練不充分，表達能力弱，因此通常在實際使用過程中，一般采用遷移學習的方法，先在大規模語料上訓練得到詞向量，然后交給下游任務使用。具體到本文研究中，由于謠言數據不便于采集，導致整體數據集規模較小，預料不足，因此本文算法首先使用大規模微博數據進行Word2Vec 模型的訓練，然后將學習得到的詞向量交給下游任務使用。

2.2 長短期記憶網絡

LSTM[17]是對循環神經網絡的改進，通過引入門控機制，引入了類似于殘差機制，使得在反向傳播過程某些路徑中不出現類似于RNN 反向傳播時的連乘結構，在一定程度上緩解了RNN 網絡在訓練過程的梯度爆炸與梯度彌散問題。LSTM[17]通過記憶單元來記憶存儲句子中重要的特征信息，同時能夠對不重要信息進行遺忘，在t 時刻，對于給定的輸入xt，ht-1，LSTM[17]的隱藏層輸出為ht，其具體的計算過程如式（1-6）所示

其中，W 為連接兩層的權重矩陣，δ 和tanh 為激活函數，z、r 分別為更新門和重置門。

3 模型結構

3.1 注意力機制及其衍生網絡

循環神經網絡由于存在狀態間的依賴關系，由2.2小節公式（1-6）可知，t 時刻的輸入依賴t-1 時刻的輸出，因此無法實現并行，模型訓練時間緩慢；雖然LSTM[17]在單元中某些路徑引入了殘差機制一定程度緩解了梯度消失與梯度爆炸，但在一些路徑在反向傳播過程中依然存在連乘結構，因此還是存在梯度消失與梯度爆炸現象，限制了LSTM[17]學習長距離依賴關系以及抽取語義特征的能力。近年來，谷歌提出了Transformer 模型[2]，其中論文中的注意力機制在當今研究中被普遍使用，該模型引入了多頭自注意力，前饋網絡以及殘差機制，該模型編碼層通過多頭自注意力抽取語義特征，不存在時間上的依賴關系，便于并行化。實驗表明，Transformer[2]以及其衍生模型Transformer-XL[16]在文本語義特征抽取能力上顯著高于RNN、LSTM[17]等循環神經網絡模型。

3.2 基于注意力機制的謠言檢測模型

微博文本數據通過Word2Vec[15]模型，將單詞映射成相應詞向量轉成詞向量矩陣，經過一層LSTM 得到隱向量，隱向量經過加權求和得到句向量表示，權重是通過注意力機制進行隱向量間的注意力權重計算得到的，類似的，接著在句向量間進行注意力的計算，得到事件的向量表示，然后進行二分類，最終輸出是否是謠言的概率。模型結構圖如圖1 所示。

圖1 基于注意力機制的謠言檢測模型

3.3 基于多模態特征融合的謠言檢測模型

傳統的文本謠言檢測模型僅僅是考慮文本內容特征，然而在實際情況中，謠言是往往經過精心設計、層層包裝地誘導群眾的報道，主題多種多樣，而且風格迥異，僅僅考慮文本特征，會使得檢測算法非常受限。例如根據先驗知識，例如用戶的身份信息，以及用戶的點贊以及評論等行為特征在一定程度上能夠判別是否是造謠者，那么對于判斷該用戶發出來新聞是否是謠言非常有用。因此本文在原有3.2 小節模型基礎上，手工構造了評論數目，以及評論的平均長度、最大長度、最小長度等特征，輸入到模型中，實驗證明加入這些特征后對模型效果提升明顯，而且針對不同模態的特征融合方式具體操作方式如下：微博文本數據通過3.2 小節描述的方式得到事件的語義表示后，以及通過評論數據抽取得到行為特征，兩種特征向量進行直接拼接得到特征向量，然后進行二分類。如圖2 所示。

圖2 不同模態特征直接拼接特征融合方式

4 實驗對比

本文模型為了便于與Ma 等人[14]的工作進行對比，基于相同數據集以及相同訓練集與驗證集劃分方式，與tanh-RNN、LSTM、GRU 算法進行對比。

4.1 評價指標

本文評價指標采用準確率（accuracy）、召回率（recall）、精確率（precision），以及Fl 值，它們針對謠言的定義如下：

準確率=系統正確識別謠言與非謠言樣本數目/系統判別樣本數目

召回率=系統正確識別謠言樣本數目/謠言樣本數目

精確率=系統正確識別謠言樣本數目/系統判別為謠言數目

F1=2×精確率×召回率/（精確率+召回率）

4.2 實驗結果

本文算法與其他作者論文算法的實驗結果如表1所示。其中，“-1”“-2”表示隱含層層數。

表1 本文算法與原算法對比結果

從表1 中可以看出：

（1）本文的基于注意力機制的模型與GRU-2 模型相比，準確率提高了0.8%，精確率提高了0.7%，而與LSTM-1 模型相比在召回率下降了1.1%，F1 值提高了0.5%。F1 值可以綜合衡量模型的性能，從表中可以看到，本文算法在F1 值上都高于原論文算法。從而證明本文模型優于基于回復式神經網絡檢測模型，能夠有效檢測出謠言。

（2）融入了人工特征后的模型，對比沒有添加人工特征的模型在精度上有了更多的提升，證實了手工構造特征的有效性。

5 結語

本文算法通過在模型的各個階段引入注意力機制進行特征的抽取，使得語義特征表達更豐富，有效提升了模型的性能，在此基礎上，本文算法還嘗試將手工構造特征引入模型中，進一步地提升了模型對于謠言的識別率。針對于謠言識別場景、數據量較少、類別不平衡等問題，如何對數據進行處理或修改模型架構進一步提升算法性能將是未來的研究方向。