999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

融合源信息和門控圖神經網絡的謠言檢測研究

2021-07-23 02:04:08楊延杰王宇航
計算機研究與發展 2021年7期
關鍵詞:檢測信息方法

楊延杰 王 莉 王宇航

(太原理工大學大數據學院 山西晉中 030600)

隨著互聯網的飛速發展,社交媒體已經成為用戶獲取信息、交流意見的主要平臺,根據Kantar Media在2019年發布的一份報告,全球40%的人使用社交媒體[1],而且這一數字還在不斷地增加,這就極大地促進了謠言的快速滋生和廣泛傳播,對社會穩定造成巨大的威脅.例如據BuzzFeed News報道[2],在2016年美國總統大選期間,謠言的傳播在網絡上造成了不小的負面影響.2020年COVID -19疫情爆發期間,有些人在社交平臺上散布一些有關疫情傳播的謠言,引發了人們的不安.謠言的迅速傳播,已經開始從各個方面影響人們的正常生活,因此,謠言檢測是一個亟待解決的關鍵問題.

然而,謠言檢測是一項非常有挑戰性的任務,主要體現為3個方面:1)謠言具有強迷惑性和誤導性,使得單獨從謠言文本內容本身檢測謠言存在困難.因此除了從謠言本身的內容信息出發,我們還應該探索和利用其他信息,如社交媒體上的用戶信息以及社會上下文信息.2)早期檢測的需求.社交媒體上的用戶較為活躍,使得謠言能夠在短時間內廣泛傳播,謠言造成的負面影響隨之劇增,使得早期檢測尤為重要.3)謠言的傳播過程復雜多樣[3],數據流動沒有固定的規律,謠言內容涵蓋的方面非常大,使得數據的處理和使用成為一大困難.

為了有效檢測謠言,人們已經做了大量的研究,常見的方法利用文本內容進行謠言檢測,研究人員從文本內容中提取一些低級特征如n-gram,TF-IDF,bag-of-word[4-6]和一些高級的特征如文體特征、事實主觀性、寫作風格一致性[6-8]等,然后將這些特征應用于機器學習算法進行謠言檢測.這些方法基于手工構建的特征,特征提取類別較為單一,無法很好的應對復雜多變的真實環境.深度學習不依賴于手工特征的構建,而且還能提取得到高層次的特征表示.近年來,研究者開始利用深度學習方法建模文本語言[9-11]、文本結構[12-14]等,取得了非常好的效果.這一類方法需要較長的文本才能夠訓練得到好的特征表示以提高檢測效果.但是社交媒體上,人們發表見解的帖子通常是較短的文本[15],這就可能影響基于內容的方法的檢測性能.此外,還有方法利用參與社交媒體的用戶信息來檢測謠言[16-17],這些方法受到現實場景的限制,出于隱私考慮,用戶的真實信息往往難以獲得.研究者們開始關注于利用社交網絡上的傳播信息進行謠言檢測,一些研究利用傳播路徑構建傳播樹,然后利用長短期記憶(long short-term memory, LSTM)網絡、門控遞歸單元(gated recurrent unit, GRU)來學習傳播過程中的序列特征[18-19],但是傳播的序列特征無法反映傳播內部的結構信息,此類方法有一定的局限.圖卷積網絡(graph convolutional network, GCN)[12]的誕生,為我們提供了很好的思路,最近的一些研究使用GCN解決謠言檢測問題[20-21]并取得了較好的效果.

受上述研究啟發,社交媒體上的消息轉發可以建模為圖結構,圖1(a)展示了來自公共數據集Fake-NewsNet的一條“凱瑟琳生下第3個孩子后5個小時就出現在倫敦一家醫院外”(1)https://twitter.com/CNN/status/988463960159608833的謠言以及它的轉發路徑,根據圖1(a)的轉發關系可以得到如圖1(b)所示的轉發圖.消息轉發圖中某一帖子的上游信息和下游信息對于研究當前帖子都非常重要,我們認為這樣的轉發圖中蘊含著豐富的結構關系可以為謠言檢測提供幫助.另外,轉發過程是一種信息逐步擴展的過程,源帖表達出最原始且最重要的信息,更好地利用源帖的信息對于謠言檢測至關重要.

Fig. 1 Construction of forwarding graph in social media environment圖1 社交媒體場景下的轉發圖的構造方法

本文主要研究:1)如何有效地利用轉發圖來整合復雜的轉發結構信息用于分類;2)如何更好地利用源帖的信息以提高謠言檢測的性能.為了解決這2個問題,提出了一種謠言檢測模型GUCNH.首先,我們利用社交網絡中帖子的轉發關系構造轉發圖,然后提出了一種融合門控的圖卷積網絡模塊用于捕獲轉發圖中的各節點之間的結構信息,融合門控的目的是對圖卷積之前的特征表示和之后的特征表示進行選擇與組合,以得到更加可靠的表示.為了更好地利用源帖信息,我們在源帖對應節點的原始表征和通過融合門控的圖卷積網絡模塊之后得到的表示之間進行選擇與組合,將選擇后的結果與每個節點的表征拼接.最后將所有節點表征取平均用于分類.本文工作的主要貢獻可以概括為3個方面:

1) 提出了一種融合門控的圖卷積網絡模塊GUCN,該模塊通過門控單元來對圖卷積之前的特征表示和之后的特征表示進行選擇與組合,以得到更加可靠的表示.通過該模塊來捕獲轉發圖節點之間的結構關系,并結合多頭自注意力模塊來考慮任意節點之間可能存在的影響,最終生成節點表示.

2) 源貼信息往往最為重要,為了充分利用源貼信息,在生成節點表示之后,模型將經過選擇的源貼特征表示與轉發圖中生成的所有節點表示拼接起來,以加強源帖的重要性.

3) 在3個真實的數據集進行了一系列的實驗.實驗結果表明:本模型在謠言分類和早期檢測任務方面都取得了優于現有模型的結果.

1 相關工作

謠言檢測的目標是根據用戶發布在社交媒體平臺上的相關信息(如文本內容、用戶配置文件、評論、傳播模式等)來檢測謠言的真假.根據研究對象的不同,相關工作可以大致的分為3類:1)基于內容的方法;2)基于用戶的方法;3)基于傳播的方法.

1) 基于內容的方法.基于內容的方法主要依賴于文本的內容信息來檢測謠言,這些研究通常面向于長文本數據.一部分研究者從機器學習的角度進行謠言檢測,Pérez-Rosas等人[22]從新聞中提取手工特征建立組合特征集訓練線性支持向量機SVM模型用于謠言檢測;Popat等人[7]通過研究文本內容的語言風格來進行謠言檢測;Takahashi等人[23]通過應用命名實體和線索關鍵字來訓練分類器進行謠言檢測,這類方法均基于機器學習,需要人工設計特征并進行提取,在通用性和擴展性上存在一定的缺陷.近年來,深度學習的發展為謠言檢測提供了很多新的方法,Ma等人[18]利用遞歸神經網絡(recurrent neural network, RNN)從文本內容中提取隱藏的向量表示用于分類;Ahn等人[10]將預訓練的BERT模型用于謠言檢測任務,取得了非常好的效果;Vaibhav等人[13]提出了一種用于虛假新聞檢測的圖神經網絡模型,該模型對新聞中所有句子對之間的語義關系進行建模,從而進行謠言檢測;Wang等人[14]依賴文本內容,提出了SemSeq4FD模型來檢測虛假信息,該模型同時考慮了新聞中句子之間的全局語義關系和局部上下文順序特征,取得了很好的效果.本節介紹的基于文本內容的方法局限性是它們更適用于長文本,基于機器學習的方法需要長文本才能提取到所需要的特征進行分類,基于深度學習的方法也需要較長的文本才能夠訓練得到好的特征表示以提高檢測效果,而社交媒體上的帖子大多是短文本,造成數據稀疏問題從而影響該類方法的檢測性能.

2) 基于用戶的方法.基于用戶的方法主要針對參與社交媒體的用戶進行建模.其中用戶的特征信息是從用戶配置文件中收集的,如描述、性別、關注者、朋友、位置和驗證類型等.Yang等人[16]提取用戶特征進行分類,如性別、地理位置和追隨者數量;Castillo等人[4]利用Twitter上的用戶特征來檢測假新聞,這些特征包括關注者數量、好友數量、注冊年齡等;Shu等人[24]充分研究了用戶配置文件在虛假信息檢測中的作用,他們的工作為深入探索社交媒體的用戶特征提供了基礎;Liu等人[17]結合RNN和卷積神經網絡(convolutional neural network, CNN)來捕獲基于時間序列的用戶特征;Lu等人[20]將參與社交的所有用戶構建為一個完全連通的圖以輔助檢測謠言.這類方法的局限性主要表現在由于隱私問題,許多用戶會隱藏自己的信息或使用虛假的個人信息,這使得獲取真實的用戶信息變得非常困難.

3) 基于傳播的方法.與基于內容和基于用戶的2種方法不同,基于傳播的方法主要側重于真假信息傳播特征的差異,現有的研究根據建模類型的不同主要可以分為3種:基于傳播鏈的方法、基于傳播樹的方法、基于傳播圖的方法.①基于傳播鏈的方法主要將信息傳播按照時間順序看為一個時間鏈來檢測謠言.Kwon等人[25]確定了真假新聞在傳播中存在語言差異,從時間、內容等方面分析了謠言的傳播特征,并根據這些特征,利用決策樹、隨機森林和支持向量機來檢測謠言;Ma等人[26]提出了一系列基于謠言生命周期的時間序列特征,將這些特征用于分類,一定程度上提高了謠言的檢測效果.②基于傳播樹的方法主要將信息的傳播建模為一棵消息傳播樹,通過對消息傳播樹中的傳播鏈進行一系列操作以檢測謠言.Wu等人[27]提出了一種隨機游走的核來建模消息的傳播樹,以提高謠言的檢測能力;Ma等人[19]建立了樹結構遞歸神經網絡(RvNN),從傳播結構和文本內容中捕捉各節點的隱藏表示,取得了不錯的效果.然而,這些方法通常只關注于從傳播樹上學習序列化特征,忽略了社交網絡上帖子之間的全局轉發關系.③最近的一些研究將信息的傳播建模為一個傳播圖,利用圖神經網絡技術解決謠言檢測問題,Wei等人[28]針對謠言檢測問題,提出了一種多深度M-GCN模型,該模型能夠捕獲多尺度的鄰居信息;Wu等人[29]對于傳播圖迭代的使用圖神經網絡直到收斂,將收斂之后的節點表示用于分類;最近,Bian等人[21]提出了一種用于謠言檢測的雙向BiGCN模型.通過雙向圖卷積網絡學習消息轉發的結構特征,取得了良好的效果.這些現有的基于傳播圖的方法雖然已經開始注意使用消息傳播結構信息,但是他們過分依賴于GNN,GCN等單一模型的處理結果,同時源帖子的重要性并沒有得到充分利用.

本文的研究主要是根據文本內容和轉發結構進行謠言檢測,與本研究最相關的是基于文本內容的方法和基于傳播的方法.本文工作的貢獻在于:考慮到帖子之間的轉發結構信息、融合門控單元和圖卷積網絡進行建模、充分利用源帖的信息.

2 問題定義

3 模 型

本文提出一種謠言檢測模型——GUCNH,如圖2所示,主要分為4個模塊:轉發圖構建、節點表示、選擇性增強根節點表示、謠言分類.

Fig. 2 Four modules in GUCNH model圖2 GUCNH模型的4個模塊

3.1 構建轉發圖

(1)

借鑒Bian等人[21]的方法,本文引入了一種DropEdge[31]的方法以減少GCN過擬合,在訓練的每個階段,隨機的將輸入圖中的一部分邊去掉,增加了輸入數據的隨機性和多樣性,能夠有效地防止過擬合.本文模型中,隨機刪除邊的比率設定為q,通過DropEdge之后,鄰接矩陣變為

(2)

3.2 節點表示

構建好轉發圖之后,通過融合門控的圖卷積網絡模塊GUCN和多頭自注意力模塊來得到包含轉發結構信息的節點表示,前者利用圖卷積網絡聚合一定的鄰居信息,融合門控機制來獲取更好的中間表示,后者主要通過注意力機制來捕獲任意節點之間的多方面影響,具體介紹如下:

1) 融合門控的圖卷積網絡模塊GUCN

為了充分利用轉發圖中的轉發結構信息,使轉發圖中的各個節點能很好地融合鄰居信息以獲得更好的特征表示,引入了融合門控的圖卷積網絡模塊GUCN,圖卷積網絡[12]能夠依據結構信息對圖中的節點進行融合,得到聚合鄰居信息后的特征表示.但是GCN依靠聚合鄰居信息來提升自己的表示,有些聚合可能帶來噪聲.受文獻[32]的啟發,本文提出了一種名為GU的門控單元,實現從不同的數據組合中找到合適的中間表示.門控單元GU的結構如圖3所示:

Fig. 3 GU network structure diagram圖3 GU網絡結構圖

為了提高表示的質量,門控單元對圖卷積之前的特征表示和之后的特征表示進行選擇與組合,最終通過堆疊GUCN模塊得到融合鄰居信息的節點高級特征表示:

X1=GUCN(X),

(3)

X2=GUCN(X1),

(4)

(5)

H1=tanh(W1XT),

(6)

(7)

Z=σ(W3[H1,S1]T),

(8)

X1=ZH1+(1-Z)S1,

(9)

2) 多頭自注意力模塊

(10)

(11)

(12)

MutiHeadAttention(Q,K,V)=
Concat(Head1,Head2,…,Headh)WO,

(13)

(14)

3.3 選擇性增強根節點表示

(15)

(16)

z=σ(W6[h1,s1]T),

(17)

(18)

(19)

(20)

3.4 謠言分類

本節主要討論如何使用得到的節點表示Xlast進行分類,我們認為基于轉發圖的謠言檢測可以看作是一個圖分類任務,所以需要一個單獨的向量作為整圖的特征表示用于分類.具體的,首先通過選擇性增強根節點表示模塊得到了轉發圖中每個節點的表示,然后通過平均這些節點表示得到整個轉發圖的向量表示,將該向量表示作為全連接神經網絡的輸入,得到預測結果,計算過程為

(21)

最后,將模型的損失函數定義為預測結果與真實標簽之間的交叉熵:

(22)

其中,r為分類的類別數,θ為整個模型的參數,yi∈{0,1,2,3}(Twitter),yi∈{0,1}(Weibo)為真實標簽值.

3.5 時空復雜度分析

對所提GUCNH模型的時間復雜度和空間復雜度進行分析.對于端到端的深度學習算法而言,相比訓練的時間復雜度,實際應用中,更關注其預測時間復雜度,因此,在進行時間復雜度分析的時候,我們只分析所提模型預測一個謠言需要的時間.在進行空間復雜度分析的時候,我們則更關注于訓練參數的個數.分2個方面進行分析:

1) 時間復雜度分析.對于本文提出的方法,當來自鄰居的信息根據式(3)進行GCN運算的時候,時間復雜度與轉發圖中節點的個數k以及平均入度β有關,所以式(3)的時間復雜度為O(βkd2),其中d為節點表示維度.式(6)~(9)的時間復雜度為O(kd2),所以GUCN模塊的總體時間復雜度為O((β+1)kd2).多頭自注意力模塊的時間復雜度除了與節點個數k相關,還與頭的個數相關,文章中使用了4個,所以該模塊的時間復雜度為O(4k2d2),綜合可得在節點表示模塊,時間復雜度為O(4k2d2+2(β+1)kd2).根節點選擇性增強模塊的時間復雜度為O(d2).謠言分類階段的時間復雜度則為O(rkd2),其中r為最終分類的類別數.

4 實 驗

將通過實驗回答3個問題:

1) 問題1.與現有的謠言檢測方法相比,本模型GUCNH是否能夠獲得較好的謠言檢測性能?

2) 問題2.GUCNH的每個模塊對于謠言檢測的性能是否有貢獻?

3) 問題3.與現有的謠言檢測方法相比,GUCNH是否具有優秀的早期檢測性能?

4.1 實驗數據和設置

1) 實驗數據

我們在3個真實數據集上評估了我們提出方法的有效性:Twitter15[30], Twitter16[30]和Weibo[18].Twitter15,Twitter16數據集均包含4個標簽類別,分別是非謠言(N)、經過驗證的非謠言(F)、真謠言(T)、未經證實的謠言(U).而Weibo數據集包含2個標簽類別,分別是謠言(T)和非謠言(F).數據集中的每個事件標簽都是根據辟謠網站上文章的真實性標簽來標注的,這3個數據集的詳細統計情況如表1所示:

Table 1 Dataset Statistics表1 數據集統計

2) 對比方法

為了驗證我們的模型,我們將提出的方法和一些最先進的基線方法進行了比較,這些方法大致可以分為基于機器學習的方法、基于傳播鏈和傳播樹的方法、基于傳播圖的方法:

① 基于機器學習的方法

Ⅰ DTC[4]:使用基于人工設計的各種統計特征進行分類的決策樹分類模型.

Ⅱ SVM-RBF[16]:一種基于支持向量機的RBF核模型,利用手工制作的特征對帖子進行總體統計.

② 基于傳播鏈和傳播樹的方法

Ⅰ BU-RvNN[19]: 基于遞歸網絡的自底向上樹狀結構的謠言檢測模型.

Ⅱ TD-RvNN[19]: 基于遞歸神經網絡的自頂向下樹狀結構的謠言檢測模型.

Ⅲ PPC_RNN+CNN[17]:一種結合遞歸神經網絡和卷積神經網絡的模型,通過謠言傳播鏈中的用戶特征來進行謠言檢測.

Ⅳ CED(0.975)[34]:一種基于謠言轉發序列的可信度檢測模型,該模型通過尋找一個時間點來做出可信的預測,其中0.975為預測閾值.

③ 基于傳播圖的方法

BiGCN[21]:利用信息傳播時的雙向傳播結構使用圖卷積網絡進行謠言檢測的模型.

3) 實現細節和評價指標

首先,本文所有實驗的機器配置以及環境為:Intel i7 2.20 GHz(處理器),8.0 GB(內存),GTX-1050 ti(GPU),所有代碼都是用Python(3.7.6)實現,scikit-learn(0.22.1),Theano(1.0.4),Pytorch(1.4.0).

① 基于機器學習的方法:

使用scikit-learn實現基于機器學習的對比方法DTC和SVM-RBF,對于特征的選擇與提取,完全按照原文描述基于我們的數據集提取了有效特征(主要包括:轉發數、粉絲數、發布設備類型、好友數量、用戶所在地、是否認證、發帖數、性別、評論數等).

② 基于傳播鏈和傳播樹的方法:

使用Theano實現了基于傳播鏈的方法BU-RvNN和TD-RvNN(2)https://github.com/majingCUHK/Rumor_RvNN,使用pytorh實現了基于用戶傳播鏈的方法PPC_RNN+CNN(3)https://github.com/yumere/early-fakenews-detection.在BU-RvNN和TD-RvNN中,所有模型的參數通過Adam[35]算法更新,模型參數的初始化使用均勻分布,詞匯大小設置為5000,隱層單元大小設置為100.在PPC_RNN+CNN中,我們設置epoch=200,早停機制輪數設置為10,GRU輸出維度設置為32,CNN窗口大小設置為3,dropout率設置為0.5.對于CED方法,由于可復現性問題,我們僅在Weibo數據集上得到了結果(結果來自原文).

③ 基于傳播圖的方法:

使用Pytorch實現了基于傳播圖的方法BiGCN(4)https://github.com/TianBian95/BiGCN以我們提出的模型GUCNH.其中BiGCN的復現代碼由原作者提供,每個節點的隱層特征向量維度設置為64,隨機刪除邊的比率q設置為0.2,dropout率設置為0.5,epoch設置為200,其余參數設置嚴格按照原文設定.

我們所提模型中的參數由Adam[35]算法更新, 學習率初始化為1E-4,在訓練過程中逐漸降低.我們利用TF-IDF值提取前d個單詞構建詞袋模型作為文本的初始表征,設置d=5 000,模型中圖卷積網絡輸出表征的維度m和門控單元輸出表征的維度n均設置為64,多頭自注意力模塊頭的個數h=4.對于原始的轉發圖,我們設置隨機的刪除邊的比率q=0.2,即隨機刪除20%的邊.實驗的batchsize=128,epoch=100,為了防止過擬合,模型中用到了dorpout機制,其比率為0.3,我們將數據集隨機分成5部分進行5折交叉驗證以獲得結果,除此之外還應用了早停機制[36].

我們采用了與先前工作中相同評估指標[20,37],即準確度、F1分數、召回率和精準率進行評估.為了公平比較,我們的方法和對比方法在所有數據集上的結果都是在5次實驗的結果上取平均.

4.2 實驗結果分析

為了回答問題1,通過實驗得到分類的總體準確率Acc和各類別的F1值來驗證本文模型的謠言檢測性能.表2~4分別展示了本文模型以及所有比較方法在3個數據集上的性能.顯然,我們提出的模型優于選定的對比模型.對實驗結果進行分析:

Table 2 Experimental Results on Twitter15 Dataset表2 Twitter15數據集上的實驗結果

Table 3 Experimental Results on Twitter16 Dataset表3 Twitter16數據集上的實驗結果

Table 4 Experimental Results on Weibo Dataset表4 Weibo數據集上的實驗結果

1) 可以觀察到深度學習方法的性能要明顯地優于機器學習方法,理由是因為深度學習方法可以捕捉到更有價值的高層特征,而機器學習的方法需要手工提取特征,檢測能力較為局限.這進一步說明了研究深度學習方法在謠言檢測中的重要性和必要性.

2) 可以觀察到我們提出的GUCNH模型在Twitter15數據集上的結果要比BU-RvNN和TD-RvNN模型分別高17.6個百分點和16.1個百分點,在Twitter16數據集上的結果比BU-RvNN和TD-RvNN模型分別高16.8個百分點和14.9個百分點,在Weibo數據集上的結果比BU-RvNN和TD-RvNN模型分別高7.1個百分點和6.3個百分點.實驗結果表明傳播結構中包含很多重要信息,捕獲這部分結構信息有助于謠言檢測任務,將任務建模為傳播圖以捕獲全局結構信息的方法要優于通過建模為傳播樹捕獲局部序列特征的方法.

3) 相比于PPC_RNN+CNN,我們提出的模型結果更好.一方面,PPC_RNN+CNN僅僅使用傳播鏈上的用戶信息進行建模,單一使用用戶的一些特征來檢測謠言有一定的片面性;另一方面,PPC_RNN+CNN并沒有考慮到實際的轉發結構.我們提出的模型根據實際的轉發結構充分了利用了每個帖子的內容信息,從而取得了更好的結果,由此可見實際的轉發結構在檢測謠言中的重要性.相較于CED(0.975),我們的模型在Weibo數據集上的準確率要高4個百分點,這進一步說明了利用全局傳播結構的優勢.

4) 本文模型的實驗結果要優于BiGCN,BiGCN雖然使用了雙向的GCN對于轉發圖結構進行了建模,同時還在2次GCN之間融入了一定的源節點信息,但是僅僅使用GCN聚合得到節點表示的方法太過于依賴GCN的表現,這一點本文模型通過引入門控單元來彌補.此外,本文模型引入了多頭自注意力模塊來考慮任意節點之間的多方面影響,可以有效彌補有限次GCN不能很好地捕獲任意節點信息的缺陷.

4.3 消融實驗

為了回答問題2,證明我們提出模型各模塊的有效性,進行了一系列的消融實驗.主要包括4部分:

1) w/o Matt.移除多頭自注意力模塊,在節點表示模塊,只使用2次GUCN的堆疊,其余部分不變.

2) w/o 1GUCN.移除一個GUCN模塊,主要用于驗證GUCN模塊堆疊的有效性,將多頭自注意力模塊輸出的結果作為節點表示模塊的輸出,然后拼接源帖表示進行分類.

3) w/o Head.移除選擇性增強根節點表示模塊,主要用于驗證增強源帖信息對于該場景分類的有效性.

4) w/o GU.移除每個GUCN模塊中的GU門控單元,只保留圖卷積操作,用于驗證我們引入的門控網絡與圖卷積網絡融合的有效性.

如圖4為消融實驗的結果,其中ALL為不做任何消融的原始模型GUCNH,根據表中的實驗結果,可以得到結論為:

Fig. 4 The ablation experiment result of the GUCNH on three datasets圖4 GUCNH在3個數據集上的消融實驗結果

首先研究多頭自注意力模塊帶來的影響,根據實驗結果可以看到,刪除多頭自注意力模塊會影響我們的模型在3個數據集上的結果,其中GUCNH在消融多頭自注意力模塊后,Twitter15和Twitter16數據集上的結果分別下降了3.3個百分點和2.0個百分點,Weibo數據集上的結果下降了1.5個百分點.多頭自注意力模塊可以捕獲任意節點之間的影響,而不僅僅限于具有鄰接關系的節點之間,使得在進行下一次節點信息融合之前所有節點的信息盡可能的全面,對于結果的提升有很大的幫助.結果同樣可以證明我們引入該模塊的動機,并非具有直接轉發關系的帖子之間會相互影響,任意的帖子之間也會存在相互影響,而使用多頭注意力模塊能夠很好地考慮到這些影響,取得較好的結果.

隨后我們評估了GUCN模塊堆疊的有效性.GCN的適當堆疊有助于節點聚合高階鄰居的信息,所以我們的模型采用了融合門控的圖卷積網絡模塊堆疊的方式.一方面使得節點能夠聚合到更遠節點上的信息;另一方面為了在多頭注意力機制之后重新讓節點數據考慮到結構信息.為了驗證GUCN模塊堆疊的有效性,我們進行了w/o 1GUCN消融實驗,根據實驗結果可以看到,不進行GUCN模塊堆疊會影響我們所提模型在3個數據集上的結果,GUCNH在不堆疊GUCN模塊的實驗中,Twitter15和Twitter16數據集上的結果分別下降了3.4個百分點和0.8個百分點,Weibo數據集上的結果下降了2.6個百分點.結果表明,對融合門控的圖卷積網絡模塊GUCN進行堆疊使用可以使得節點更好地融合鄰居節點甚至更遠節點的信息,同時對于多頭自注意力模塊有可能造成的結構信息破壞問題有一定的解決,所以取得比單一使用該模塊更好的結果.

謠言事件的源帖總是有著最豐富且重要的信息,所以我們的模型包含選擇性增強根節點模塊,作用就是額外的為每個節點增加源帖的信息.為了證明設計的有效性,進行了該模塊的消融實驗.根據實驗結果可以看到,不增強頭節點的信息會影響我們所提模型在3個數據集上的結果. GUCNH在沒有選擇性增強頭節點模塊的實驗中,Twitter15和Twitter16數據集上的結果分別下降了2.6個百分點和3.6個百分點,Weibo數據集上的結果下降了2.2個百分點.結果表明,源帖有著非常重要且原始的信息,為每個節點額外的增加源節點對應的信息,能夠有效地提高該場景下的檢測能力.

最后研究了引入融合門控的圖卷積網絡的有效性,實驗過程是將原模型中所有融合門控的圖卷積網絡模塊GUCN換為單一的圖卷積網絡模塊GCN進行實驗,根據實驗結果可以看到,使用單一的GCN會影響我們所提模型在3個數據集上的結果, GUCNH在使用單一GCN的實驗中,Twitter15和Twitter16數據集上的結果分別下降了4.2個百分點和2.5個百分點,Weibo數據集上的結果下降了2.9個百分點.結果表明,引入門控單元GU能夠對進行圖卷積之前的特征表示和之后的特征表示進行選擇與組合,從而得到更好的表示使得分類結果有了一定的提升.

4.4 早期檢測研究

在謠言檢測任務中,最關鍵的目標之一是盡早發現謠言,以便及時進行干預[38].為了回答問題3,驗證我們提出的模型具有優秀的早期檢測性能,我們在Twitter15和Twitter16這2個數據集上設計了早期檢測實驗,具體的方法是設置檢測截止時間節點,即僅使用在發布時間到檢測截止時間節點之間的帖子內容來評估模型檢測的性能.通過改變檢測截止時間節點(我們設置節點分別是源帖發布后4 h,8 h,12 h,24 h,36 h),分別得出了2個數據集上的早期檢測結果,如圖5和圖6分別為2個數據集上進行早期檢測的結果.可以看到,在源帖發布的最早期,也就是圖5、圖6中4 h時,我們提出模型的在Twitter15數據集和Twitter16數據上分別取得了82.1%和84.1%的結果,可以看出這些結果比其余對比方法的結果好,這表明我們提出的模型具有良好的早期檢測性能.當檢測截止時間節點逐漸增大時,我們模型的性能仍然呈上升趨勢,這一點與BiGCN等模型不同,隨著時間節點的變大,轉發結構更加復雜,言論種類也逐漸增多,我們的模型仍然可以保持很好的結果,說明我們的模型對復雜的數據不敏感,具有較好的穩定性和魯棒性.

Fig. 5 Experimental results of early detection on Twitter15 dataset圖5 Twitter15 數據集上早期檢測實驗結果

Fig. 6 Experimental results of early detection on Twitter16 dataset圖6 Twitter16 數據集上早期檢測實驗結果

5 總結與展望

本文提出了一個融合門控的傳播圖卷積網絡模型GUCNH,該模型首先通過融合門控的圖卷積網絡模塊GUCN來根據實際轉發結構聚合鄰居信息以生成節點的表示,即門控機制用來對進入圖卷積網絡之前的特征表示和經過圖卷積網絡之后的特征表示進行選擇與組合得到質量更高的特征表示,同時在2個融合門控的圖卷積模塊之間引入了多頭自注意力模塊來考慮任意節點之間的影響,使得節點信息在進入下一次融合之前包含盡可能全面的信息.在生成節點的高級特征表示之后,我們選擇性的增強了源節點的信息,理由是往往轉發源的信息最為豐富.為了確保增強的源節點信息的質量,同樣加入門控單元對于源節點的信息進行了選擇與組合,最終將選擇后的源節點特征表示與所有節點的特征表示拼接用于分類.在3個真實數據集上的實驗結果表明,我們提出的方法優于最先進的方法.

在未來的研究中,我們將主要從2個方面繼續深入工作:1)在轉發圖的構建方面,尋找更加合適的建模方法(如加入用戶構建異構圖),以提高檢測性能.2)一般來說,完整的社交帖子不僅只有文本內容,同樣還會包含圖像或視頻等信息,在接下來的研究中,我們還將考慮利用多模態信息來解決謠言檢測問題.

猜你喜歡
檢測信息方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲国产亚综合在线区| 亚洲国产天堂久久综合| 免费xxxxx在线观看网站| 亚洲欧美日韩动漫| 欧美一级夜夜爽www| 欧美日韩精品一区二区视频| 欧美狠狠干| 这里只有精品在线播放| 精品无码人妻一区二区| 欧美成人二区| 日韩在线永久免费播放| 91伊人国产| 国产高清在线精品一区二区三区| 伊人激情综合| 亚洲无码37.| 成人韩免费网站| 国产高清在线精品一区二区三区 | 国产在线小视频| 欧美成人手机在线视频| 香蕉综合在线视频91| 欧美在线观看不卡| 无码丝袜人妻| 色老二精品视频在线观看| 欧美日韩一区二区在线免费观看| 99在线观看免费视频| 国产精品综合久久久| 国产精品欧美在线观看| 中文字幕欧美日韩| 国产色爱av资源综合区| 午夜精品久久久久久久无码软件| 超碰精品无码一区二区| 国产女主播一区| 99在线小视频| 国产在线观看精品| 亚洲天堂成人| 91无码网站| 国产精品自在线拍国产电影| 中文字幕色站| 手机永久AV在线播放| www.狠狠| 国产精品偷伦视频免费观看国产| 亚洲无码电影| 亚洲综合色吧| 性69交片免费看| 免费看av在线网站网址| 国产美女一级毛片| 综合色亚洲| 亚洲精品天堂自在久久77| 亚欧美国产综合| 午夜视频www| 精品在线免费播放| 白浆视频在线观看| 国产精品9| 色爽网免费视频| 成人一级免费视频| 成人福利视频网| 华人在线亚洲欧美精品| 日韩东京热无码人妻| 亚洲毛片一级带毛片基地| 欧美性色综合网| 在线看片免费人成视久网下载| 日韩无码黄色网站| 永久免费av网站可以直接看的 | 国产精品55夜色66夜色| 日韩毛片免费观看| 久久久噜噜噜| 特级做a爰片毛片免费69| 一区二区三区四区在线| 久久精品嫩草研究院| 免费a级毛片18以上观看精品| 热伊人99re久久精品最新地| 无码精品福利一区二区三区| 亚洲成人网在线播放| 国产香蕉在线视频| 国产午夜福利亚洲第一| 国外欧美一区另类中文字幕| 国产精品lululu在线观看| 高潮毛片免费观看| 精品国产Av电影无码久久久| 欧美日韩91| 美女国产在线| 色爽网免费视频|