段大高,白宸宇,韓忠明,熊海濤
(1.北京工商大學(xué) 國際經(jīng)管學(xué)院,北京 100048;2.北京工商大學(xué) 食品安全大數(shù)據(jù)技術(shù)北京重點(diǎn)實(shí)驗(yàn)室,北京 100048)
在現(xiàn)實(shí)世界中,社交網(wǎng)絡(luò)已經(jīng)與人們?nèi)粘9ぷ骱蜕蠲懿豢煞?,人們不僅通過網(wǎng)絡(luò)獲取各種信息,同時也參與到信息內(nèi)容的創(chuàng)作中。社交網(wǎng)絡(luò)中的信息傳播具有速度快、范圍廣、即時性強(qiáng)等特點(diǎn)。然而,由于在發(fā)布信息時缺乏有效監(jiān)管手段,導(dǎo)致社交網(wǎng)絡(luò)平臺成為謠言傳播的溫床[1]。網(wǎng)絡(luò)謠言不僅會影響人們的日常生活,而且會帶來嚴(yán)重的社會問題。例如,2016 年美國大選期間,有益的謠言信息傾向于支持唐納德·特朗普而非希拉里·克林頓,直接影響選舉結(jié)果[2]。因此,研究自動高效的謠言檢測方法意義重大,尤其是在信息傳播早期階段。
傳統(tǒng)檢測方法主要利用文本內(nèi)容、用戶特征通過手工提取特征,然后再利用分類器分類,如決策樹[3]、隨機(jī)森林[4]、支持向量機(jī)[5]。隨著近年來深度學(xué)習(xí)的發(fā)展,越來越多的研究采用深度學(xué)習(xí)方法。除上述內(nèi)容特征外,謠言的傳播還存在結(jié)構(gòu)特性,傳播圖中的節(jié)點(diǎn)會因?yàn)猷従蛹案h(yuǎn)鄰居而影響自己,關(guān)系越親近的鄰居影響更大,因此轉(zhuǎn)發(fā)關(guān)系的謠言之間存在結(jié)構(gòu)影響力,這將有助于對謠言的分類。雖然現(xiàn)有研究已經(jīng)取得了部分成就,但是鑒于社交媒體下謠言檢測任務(wù)的復(fù)雜性,其還存在以下問題:謠言文本包含了語義信息和傳播結(jié)構(gòu)信息,以往方法利用樹結(jié)構(gòu)學(xué)習(xí)結(jié)構(gòu)影響力并不完善,謠言傳播結(jié)構(gòu)應(yīng)是一個錯綜復(fù)雜的圖結(jié)構(gòu);用戶屬性可以豐富謠言檢測特征,但在傳播早期很難獲取大量用戶信息,因此無法利用用戶的關(guān)注關(guān)系描繪傳播網(wǎng)絡(luò),但可以通過早期謠言的轉(zhuǎn)發(fā)關(guān)系構(gòu)建用戶傳播圖;消息在傳播過程中會受到不同用戶的影響,以往方法忽略了未直接轉(zhuǎn)發(fā)或評論用戶存在的間接影響,而這些潛在關(guān)系可以豐富謠言檢測特征。
本文提出一種基于多傳遞影響力(Multi-Transmit Influence,MTI)的謠言檢測方法。使用轉(zhuǎn)發(fā)關(guān)系對用戶節(jié)點(diǎn)構(gòu)圖,根據(jù)圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的結(jié)構(gòu)影響力,以避免使用大規(guī)模用戶信息,在此基礎(chǔ)上通過構(gòu)造基于用戶傳遞影響力的節(jié)點(diǎn)表示,學(xué)習(xí)用戶之間在傳播過程中不同的影響力,以增強(qiáng)用戶特征信息。
目前,研究人員將謠言檢測任務(wù)看作是一種分類,即判斷某個消息是“虛假信息”還是“非虛假信息”,亦或是其他類別。其中一類方法為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法,例如,文獻(xiàn)[6]通過提取單詞或短語的頻率特征,選出對謠言或者是非謠言比較有代表性的詞進(jìn)行謠言檢測。文獻(xiàn)[7]首先按照主題分類提取用戶特征,然后利用機(jī)器學(xué)習(xí)的方法進(jìn)行分類。文獻(xiàn)[8]使用了多種不同類型的特征,并通過梯度提升決策樹來進(jìn)行謠言檢測。文獻(xiàn)[9]提出一種基于動態(tài)時間序列的謠言檢測模型,利用時間序列為謠言的社會情境特征變化進(jìn)行建模,在傳統(tǒng)機(jī)器學(xué)習(xí)中取得了較好的效果。
隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,許多研究人員嘗試?yán)蒙疃葘W(xué)習(xí)來解決文本分類問題[10]。文獻(xiàn)[11]應(yīng)用遞歸神經(jīng)網(wǎng)絡(luò),通過學(xué)習(xí)傳播序列中的信息進(jìn)行謠言檢測。研究人員通過引入注意力機(jī)制的模型[12-14]和利用對抗生成網(wǎng)絡(luò)的模型[15]都取得了一定的效果。文獻(xiàn)[16]通過遞歸神經(jīng)網(wǎng)絡(luò)對謠言信息以樹結(jié)構(gòu)的形式,捕獲自上而下和自下而上的結(jié)構(gòu)信息,但是樹結(jié)構(gòu)學(xué)習(xí)結(jié)構(gòu)影響力并不完善,謠言傳播結(jié)構(gòu)應(yīng)是一個錯綜復(fù)雜的圖網(wǎng)絡(luò),因此丟失了一些結(jié)構(gòu)信息。文獻(xiàn)[17]則分別使用了循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)傳播路徑上的不同信息,但未考慮到用戶間的影響力。
基于多傳遞影響力的謠言檢測方法整體架構(gòu)如圖1 所示。

圖1 謠言檢測模型整體架構(gòu)Fig.1 Overall architecture of the rumor detection model
模型由文本特征學(xué)習(xí)模塊和用戶特征學(xué)習(xí)模塊兩部分構(gòu)成。其中文本特征學(xué)習(xí)模塊包括:1)文本特征提取,首先利用Word2Vec[18]獲取詞向量,將微博句子表示為一個微博詞特征矩陣,再利用多頭注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)作用于微博詞特征矩陣得到微博句子特征;2)文本傳播特征提取,首先構(gòu)建微博文本之間的轉(zhuǎn)發(fā)或評論關(guān)系圖,再利用圖卷積神經(jīng)網(wǎng)絡(luò)獲取傳播特征。用戶特征學(xué)習(xí)模塊包括:1)用戶影響力計算,利用轉(zhuǎn)發(fā)關(guān)系將微博對應(yīng)的用戶進(jìn)行構(gòu)圖,獲取用戶向量表示,再引入注意力機(jī)制獲取用戶影響力;2)用戶傳遞影響力計算,通過構(gòu)造基于用戶傳遞影響力的節(jié)點(diǎn)表示方法,學(xué)習(xí)用戶之間在傳播過程中的不同影響力。將更新后的文本特征和用戶特征融合,并由分類器進(jìn)行分類輸出,來預(yù)測微博信息的類別。
源謠言集合用X={X1,X2,…,Xn}表示,每條源謠言相關(guān)的信息用Xi=表示,其中r為源微博,v對應(yīng)不同的轉(zhuǎn)發(fā)。Xi中每條信息vi包含若干詞,用vi={Word1,Word2,…,WordL}表示,其中WordL表示微博分詞后的詞組,L表示微博分詞的長度。利用Word2Vec獲取詞嵌入表示,再用微博詞特征矩陣vi∈?L×d表示每個微博句子,微博詞特征矩陣如圖2所示。

圖2 微博詞特征矩陣Fig.2 Weibo word feature matrix
2.2.1 文本特征提取
在謠言檢測問題中,文本信息十分重要,本文模型中文本特征提取過程如圖3 所示。

圖3 文本特征提取過程Fig.3 Text feature extraction process
本文將微博詞特征矩陣作為輸入,通過多頭自注意力機(jī)制更新該矩陣,把更新后的微博詞特征矩陣輸入到卷積神經(jīng)網(wǎng)絡(luò)層和池化層提取特征,得到每條微博的句子特征,最后將不同句子特征拼接,得到源微博及相關(guān)微博的特征矩陣。
1)多頭自注意力機(jī)制。在多頭自注意力機(jī)制計算過程中,使句子中所有詞相互影響,提取內(nèi)部相關(guān)特性,獲取詞間依賴關(guān)系。
多頭自主意力機(jī)制過程如圖4 所示,輸入Q=K=V,即微博句子的詞特征矩陣。

圖4 多頭自注意力機(jī)制過程Fig.4 Multi-head self-attention mechanism process
線性層將Q、K、V映射為h個不同部分,各部分進(jìn)行縮放點(diǎn)擊注意力,計算公式如式(1)所示,得到輸出如式(2)所示:

其中:i∈[1,h];d表示詞嵌入維度。將不同部分的結(jié)果進(jìn)行拼接,再通過一個線性層得到輸出,如式(3)所示:

其中:W0∈?d×d為權(quán)重矩陣,輸出內(nèi)容Z的維度與Q相同。
2)卷積池化層。通過卷積層和最大池化層捕獲微博句子級的特征。將Z∈?L×d作為輸入,文本特征卷積核為W∈?h×d,其中h表示卷積核感受野的大小,作用公式為:

其中:σ為非線性激活函數(shù);為單詞的詞向量表示;b為偏置量。經(jīng)過卷積層提取得到卷積層特征。將卷積層特征輸入最大池化層,對e∈?()L-h+1×d進(jìn)行最大池化,如式(5)所示:

在卷積層中設(shè)置不同大小的卷積核,每種卷積核的數(shù)量為d/3。將不同卷積核對應(yīng)的輸出連接起來得到mi∈?d,表示源微博或其轉(zhuǎn)發(fā)微博的句子級特征,進(jìn)而獲取源微博及相關(guān)微博特征矩陣M=[mr,m1,m2,…,mn-1]∈?n×d。
2.2.2 文本傳播特征提取
對于謠言事件相關(guān)的信息Xi,用Gi={Ei,Vi}表示其傳播圖結(jié)構(gòu)。如圖5 所示,圖中節(jié)點(diǎn)集合為Vi=表示源微博,邊集合Ei={,t=0,1,0,…,ni-1},其中每一條就表示兩條微博間存在著一個傳播行為,用鄰接矩陣A∈?n×n表示,鄰接矩陣中對應(yīng)位置元素為aij,微博之間存在轉(zhuǎn)發(fā)或評論關(guān)系則為1,否則為0,對應(yīng)關(guān)系如式(6)所示:


圖5 微博文本傳播圖Fig.5 Weibo text spread graph
利用圖卷積神經(jīng)網(wǎng)絡(luò)[19]學(xué)習(xí)傳播特征,將微博特征矩陣M和文本傳播圖鄰接矩陣A作為輸入,計算公式如式(7)所示:

如圖6 所示,圖中節(jié)點(diǎn)u0~u6表示轉(zhuǎn)發(fā)圖中的用戶,實(shí)線連接的節(jié)點(diǎn)表示直接轉(zhuǎn)發(fā),存在直接影響力,虛線連接則表示未直接轉(zhuǎn)發(fā),存在間接影響力。例如,圖中u0節(jié)點(diǎn)與u5節(jié)點(diǎn)、u5節(jié)點(diǎn)與u6節(jié)點(diǎn)都存在直接轉(zhuǎn)發(fā)關(guān)系,u5節(jié)點(diǎn)自身存在如粉絲數(shù)量等特征,會對u0節(jié)點(diǎn)造成影響力,用S05表示影響關(guān)系,同理u6節(jié)點(diǎn)也會影響u5節(jié)點(diǎn),用S56表示。傳遞影響力是為了學(xué)習(xí)未直接轉(zhuǎn)發(fā)或評論的用戶所造成的間接影響,即用戶傳遞影響力。在圖6 中,節(jié)點(diǎn)u5作為中間節(jié)點(diǎn),通過S05與S56計算得到u6對u0的傳遞影響力S06。

圖6 用戶傳播圖Fig.6 User communication graph
2.3.1 用戶影響力
在轉(zhuǎn)發(fā)序列構(gòu)成的用戶傳播圖中,從該網(wǎng)絡(luò)中學(xué)習(xí)得到序列中所有用戶的嵌入表示。在得到用戶嵌入后,首先學(xué)習(xí)相鄰用戶節(jié)點(diǎn)間的潛在注意力系數(shù),通過一個全連接層將兩個節(jié)點(diǎn)的用戶嵌入信息轉(zhuǎn)化為一個標(biāo)量sij,如式(8)所示:


其中:Ni表示轉(zhuǎn)發(fā)關(guān)系中與i相連的節(jié)點(diǎn);W為可學(xué)習(xí)的參數(shù)矩陣;σ為激活函數(shù),歸一化相關(guān)性系數(shù)能有效反映不同節(jié)點(diǎn)對目標(biāo)節(jié)點(diǎn)的影響力度。
2.3.2 用戶傳遞影響力
上文計算只考慮了在轉(zhuǎn)發(fā)關(guān)系路徑中直接轉(zhuǎn)發(fā)用戶的影響關(guān)系,而社交網(wǎng)絡(luò)十分復(fù)雜,在一個真實(shí)的社交網(wǎng)絡(luò)轉(zhuǎn)發(fā)序列中,未直接轉(zhuǎn)發(fā)的用戶(其他用戶作為中間節(jié)點(diǎn),間接轉(zhuǎn)發(fā))之間存在一種傳遞影響力,即存在一種多跳的潛在關(guān)系,這種影響力是用戶信息中很重要的一部分。
通過相關(guān)性矩陣M,構(gòu)造傳遞影響力矩陣M'∈?n×n=M×M,n為用戶傳播圖中節(jié)點(diǎn)個數(shù),矩陣中元素計算公式如式(11)所示:

其中:c表示節(jié)點(diǎn)i和j的中間節(jié)點(diǎn);sic表示節(jié)點(diǎn)i和c間的用戶影響力;scj表示節(jié)點(diǎn)c和j之間的用戶影響力。M'矩陣中對應(yīng)位置元素表示間接轉(zhuǎn)發(fā)影響力系數(shù)。將間接轉(zhuǎn)發(fā)節(jié)點(diǎn)的系數(shù)歸一化并聚合節(jié)點(diǎn)的信息,如式(12)和式(13)所示:

其中:W為可學(xué)習(xí)的參數(shù)矩陣;σ為激活函數(shù)。將學(xué)習(xí)到用戶影響力和用戶傳遞影響力的用戶信息進(jìn)行合并,得到最終用戶特征,如式(14)所示:

基于多傳遞影響力的謠言檢測方法如圖7 所示。模型由2 個部分組成:1)在文本特征學(xué)習(xí)模塊,首先學(xué)習(xí)謠言文本詞嵌入,通過多頭注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)提取句子級別特征,通過圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本結(jié)構(gòu)信息最終得到節(jié)點(diǎn)的文本特征mi;2)在用戶特征學(xué)習(xí)模塊,首先利用謠言轉(zhuǎn)發(fā)關(guān)系構(gòu)建用戶傳播圖結(jié)構(gòu),通過學(xué)習(xí)用戶間直接影響力和間接影響力豐富用戶信息,得到節(jié)點(diǎn)用戶特征

圖7 基于多傳遞影響力的謠言檢測Fig.7 Rumor detection based on multi-transmit influence model

其中:W∈?(d+d)×|class|為權(quán)重矩陣;b為偏置量;y^ 來表示預(yù)測pi的概率分布,并利用交叉熵?fù)p失作為優(yōu)化目標(biāo),如式(16)所示:

本文實(shí)驗(yàn)采用3 個真實(shí)社交媒體公共數(shù)據(jù)集,分別是Weibo 謠言數(shù)據(jù)集[11]、Twitter15 謠言數(shù)據(jù)集[17]和Twitter16 謠言數(shù)據(jù)集[17]。Weibo 數(shù)據(jù)集包含兩類標(biāo)簽:謠言(Falserumor)和非謠言(Non-rumors),分別是2 351條和2 313 條。Twitter15 和Twitter16 數(shù)據(jù)集包含4 類標(biāo)簽,即謠言(FalseRumor,F(xiàn)R)、非謠言(Non-Rumors,NR)、未經(jīng)核實(shí)的謠言(Un-verified Rumors,UR)和辟謠的謠言(True Rumors,TR),數(shù)據(jù)集內(nèi)容如表1 所示。

表1 實(shí)驗(yàn)中使用的數(shù)據(jù)集Table 1 Datasets used in the experiment
為了驗(yàn)證本文提出的基于多傳遞影響力的謠言檢測方法(MTI)的有效性,選用近年來在謠言檢測任務(wù)中表現(xiàn)優(yōu)越的模型作為對比模型與本文模型進(jìn)行實(shí)驗(yàn)對比。
1)DTC[3]:采用決策樹分類算法,利用虛假消息特征進(jìn)行建模,判定數(shù)據(jù)集信息的真實(shí)性。
2)SVM-RBF[5]:采用帶有RBF 核的支持向量機(jī)模型算法,利用虛假消息特征進(jìn)行建模,判定數(shù)據(jù)集信息的真實(shí)性。
3)SVM-TS[9]:一種線性的基 于支持向量機(jī)(SVM)的分類模型,采用時間序列為虛假信息的社會情境特征變化進(jìn)行建模。
4)DTR[20]:一種基于決策樹(Decision Tree,DT)的算法,通過搜索判別一些有爭議性的言論來識別虛假信息。
5)GRU-RNN[11]:一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法,通過學(xué)習(xí)隨時間變化的評論特征來進(jìn)行虛假信息檢測。
6)PTK[21]:采用基于傳播樹核的方式,通過將消息傳播構(gòu)建為樹型結(jié)構(gòu),利用支持向量機(jī)分類算法來進(jìn)行虛假信息檢測。
7)RvNN[16]:一種基于遞歸神經(jīng)網(wǎng)絡(luò)的虛假消息識別模型,通過捕獲自下而上和自上而下的樹結(jié)構(gòu)信息實(shí)現(xiàn)虛假消息檢測。
8)RFC[4]:一種利用隨機(jī)森林(Random Forest,RF)算法構(gòu)建的分類模型,采用用戶、語言和結(jié)構(gòu)等特征實(shí)現(xiàn)虛假消息檢測。
9)PPC_RNN+CNN[17]:基于傳播路徑的虛假信息檢測模型,使用了RNN 和CNN 來聯(lián)合捕獲用戶特征的全局和局部信息。
10)MTI(ours):本文提出的基于多傳遞影響力的謠言檢測方法。
本文選用準(zhǔn)確率(Accuracy)和F1 評測值作為檢測模型性能的評價指標(biāo),具體公式如式(17)和式(18)所示:


其中:TTP表示正例預(yù)測為正例;FFN表示正例錯分為負(fù)例;TTN表示負(fù)例預(yù)測為負(fù)例;FFP表示負(fù)例錯分為正例。
在本文實(shí)驗(yàn)中,使用的編程語言為Python,運(yùn)用深度學(xué)習(xí)框架Pytorch 實(shí)現(xiàn)提出的模型架構(gòu),版本為1.2.0。采用Adam[22-23]算法進(jìn)行參數(shù)更新,參數(shù)設(shè)置β1和β2分別為0.9 和0.999,學(xué)習(xí)率初始化 為1e-3。使用Word2Vec 中的Skip-Gram 網(wǎng)絡(luò)訓(xùn)練得到詞嵌入向量,維度為300 維。在文本特征學(xué)習(xí)模塊中,多頭自注意力機(jī)制設(shè)置K為8,即在8 個部分各自進(jìn)行自注意力學(xué)習(xí)。卷積層設(shè)置一維卷積核的大小為[3,4,5],每種卷積核的個數(shù)為100 個。在節(jié)點(diǎn)用戶信息表示中,將節(jié)點(diǎn)的用戶信息初始化為300 維,將訓(xùn)練的批量大小設(shè)置為64,dropout 為0.5。
3.4.1 對比實(shí)驗(yàn)
在Twitter15 和Twitter16 兩個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2 和表3 所示。Twitter15 和Twitter16 都包含了4 個類別,對于每個類別列出了各模型F1 指標(biāo)。

表2 Twitter15 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 2 Twitter15 dataset experimental results

表3 Twitter16 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 3 Twitter16 dataset experimental results
在Weibo 數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果如表4 所示,分別給出了正負(fù)兩類樣本的準(zhǔn)確率、召回率和F1 值。

表4 Weibo 數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 4 Weibo dataset experimental results
實(shí)驗(yàn)結(jié)果分析如下:
1)對比表2~表4所有的模型可以看出,包括RvNN、GRU-RNN、PPC_RNN+CNN 等在內(nèi)的深度學(xué)習(xí)方法在各項(xiàng)評測指標(biāo)上都優(yōu)于基于人工構(gòu)造特征的傳統(tǒng)機(jī)器學(xué)習(xí)方法。在傳統(tǒng)的人工特征方法中,決策樹DTRANK(DTR)的效果很不理想,這是因?yàn)镈TR 通過將謠言的信號特征的正則表達(dá)式匹配來進(jìn)行謠言檢測任務(wù),這些正則表達(dá)式與上述數(shù)據(jù)集中所能匹配的數(shù)據(jù)非常少。SVM-TS 模型的結(jié)果在基于人工特征的方法中效果較好,一方面是因?yàn)镾VM 模型本身具有比較良好的泛化能力,可以適用于復(fù)雜的數(shù)據(jù)集,另一方面在SVM-TS 模型中加入了微博事件在時間變換下的不同特征,因此使得檢驗(yàn)性能提高。深度學(xué)習(xí)的方法表現(xiàn)出的優(yōu)勢很大,這是十分正常的現(xiàn)象,因?yàn)榛谌斯?gòu)造的特征,其局限較大,依賴于經(jīng)驗(yàn)以及受人的主觀性影響較大,對數(shù)據(jù)感知并不敏感,相比之下,RvNN、PPC_RNN+CNN 以及本文模型等深度學(xué)習(xí)算法能夠自動地學(xué)習(xí)到針對虛假信息檢測任務(wù)的文本的高級語義表示,從而能夠提取到更有效的特征。
2)相比于現(xiàn)有的各種方法,本文方法MTI 在各項(xiàng)指標(biāo)上均有明顯提升。具體來講,在Twitter15 數(shù)據(jù)集上,相比于表現(xiàn)最好的PPC_RNN+CNN,本文模型在精準(zhǔn)率上提高了6.9%,4 個不同類別的F1 值也都有較大的提升,分別為:NR 類別提升了13%,F(xiàn)R 類別提升了4.2%,TR 類別提升了9.5%,UR 類別提高了7.8%;在Twitter16 數(shù)據(jù)集上,模型在準(zhǔn)確率上提高了3.4%,各類別的F1 值也都有提升;在Weibo 數(shù)據(jù)集上,模型相比PPC_RNN+CNN 在精準(zhǔn)率上高出2.8%。
3)PTK 和RvNN 兩種方法都依賴于從傳播樹結(jié)構(gòu)中提取特征,效果優(yōu)于其他線性結(jié)構(gòu)方法,相比于RvNN,本文模型在Weibo 數(shù)據(jù)集的準(zhǔn)確率值指標(biāo)上有3.6%的提升,在兩個不同類別的F1 值上也有明顯提升,這表明了利用圖神經(jīng)網(wǎng)絡(luò)捕獲文本結(jié)構(gòu)影響力的有效性。RvNN 使用樹型傳播結(jié)構(gòu)對虛假信息的傳播過程進(jìn)行建模,但是這種方法忽略了消息傳播是一個廣泛而分散的圖結(jié)構(gòu)而非樹型結(jié)構(gòu),因此丟失了許多結(jié)構(gòu)信息。本文方法在得到微博句子級別向量后,將每條微博看作節(jié)點(diǎn),利用轉(zhuǎn)發(fā)關(guān)系進(jìn)行構(gòu)圖,利用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)傳播過程中的結(jié)構(gòu)影響力,得到更精細(xì)的特征,從而獲得更好的謠言檢測效果。
4)在3 個不同的數(shù)據(jù)集上,本文方法在準(zhǔn)確率、召回率、F1 值在內(nèi)的各項(xiàng)指標(biāo)上都優(yōu)于PCC_RNN+CNN 模型,在Twitter15 數(shù)據(jù)集上,本文方法準(zhǔn)確率高 達(dá)6.9%,優(yōu)于PPC_RNN+CNN,在Twitter16 和Weibo 數(shù)據(jù)集上也分別有3.4%和2.8%的提升。因?yàn)镻PC_RNN+CNN 是利用一個時間序列上的節(jié)點(diǎn)向量來表示傳播消息的用戶特征,然而消息在傳播過程中不僅相鄰用戶存在影響力,未直接轉(zhuǎn)發(fā)或評論的用戶也存在間接的影響力,PPC_RNN+CNN 不能捕獲這些影響力特征。本文方法通過構(gòu)造能夠?qū)W習(xí)不同維度的用戶結(jié)構(gòu)影響力,從而豐富了用戶信息,使得檢測精度有所提高。
3.4.2 參數(shù)分析
鑒于謠言數(shù)據(jù)中文本信息至關(guān)重要,本節(jié)將在文本特征提取過程中的卷積層部分進(jìn)行一些不同的超參數(shù)設(shè)置,分別采用不同大小的卷積核驗(yàn)證是否影響模型的性能,實(shí)驗(yàn)結(jié)果如圖8 所示。

圖8 不同卷積核對精度的影響Fig.8 The impact of different convolution kernels on accuracy
從圖8(a)可以看出,當(dāng)卷積核設(shè)置為單核時,主要捕獲單字特征,這將遺失很多信息,隨著設(shè)置的卷積核增大,性能也逐漸變好,峰值為3、4、5 左右,之后又繼續(xù)下降。圖8(b)采取的是將不同大小的卷積核進(jìn)行組合的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明不同大小卷積核進(jìn)行組合相較于單一的卷積核性能更加優(yōu)越;對比幾組不同的卷積核組合,使用卷積核組合為(3,4,5)時模型性能最優(yōu),比單卷積核最佳性能要高出2 個百分點(diǎn),這表明不同大小卷積核的組合能捕獲不同長度詞語更加獨(dú)特的語義信息,豐富了微博句子級別的信息表示。
3.4.3 早期檢測分析
早期的謠言檢測任務(wù)至關(guān)重要,因?yàn)榭梢愿皶r有效地進(jìn)行預(yù)警。早期檢測區(qū)別于直接檢測問題,需要更快地預(yù)測謠言的真實(shí)性。本文設(shè)置一系列的檢測時間點(diǎn),通過只使用在檢測時間點(diǎn)之前的相關(guān)微博來評估所提出方法的有效性。實(shí)驗(yàn)結(jié)果如圖9 所示,利用檢測精度隨著時間變化的曲線進(jìn)行評估,橫坐標(biāo)表示源謠言信息出現(xiàn)之后的時間,設(shè)置的時間點(diǎn)為源消息發(fā)布后的0、4、8、12 個小時,有效性則是通過準(zhǔn)確度衡量。

圖9 早期檢測結(jié)果Fig.9 Early detection results
從圖9 可以看出,本文模型相比于其他基線模型,在Weibo 和Twitter15、Twitter16 數(shù)據(jù)集上不同截止時間點(diǎn)都有優(yōu)異的表現(xiàn)。
DTR、GRU 都是通過從用戶評論中獲取語義信息,但是DTR 性能很差,這是因?yàn)樵谠缙跀?shù)據(jù)量較小的情況下,DTR 可以構(gòu)造的特征不夠豐富,GRU 能夠自動獲取數(shù)據(jù)中更深層的語義信息,結(jié)果優(yōu)于DTR,PTK 則是通過傳播樹結(jié)構(gòu)捕獲語義信息和傳播結(jié)構(gòu)信息,因此效果更好。所以,在傳播的早期階段,如果利用包括用戶信息在內(nèi)的各類信息,捕獲到越多的信息會更利于檢測的準(zhǔn)確度,但是早期階段很難獲取大規(guī)模用戶信息,因此本文模型通過轉(zhuǎn)發(fā)結(jié)構(gòu)對其進(jìn)行學(xué)習(xí),在最早的檢測時間點(diǎn),能夠很快達(dá)到優(yōu)于其他方法的性能,在Twitter15 數(shù)據(jù)集上的準(zhǔn)確率達(dá)到56%,在Twitter16數(shù)據(jù)集上的準(zhǔn)確率達(dá)到54%,在Weibo 數(shù)據(jù)集上達(dá)到93%。在之后的時間點(diǎn)內(nèi),本文模型準(zhǔn)確率提升最快,能夠最早達(dá)到最佳性能,這驗(yàn)證了本文模型以傳播結(jié)構(gòu)學(xué)習(xí)用戶信息的有效性。同PPC_RNN+CNN 方法相比,伴隨著時間的增長,結(jié)構(gòu)信息也會更復(fù)雜,本文模型學(xué)習(xí)到的用戶傳遞影響力會變得更豐富,更有利于性能的提升,結(jié)果比PPC_RNN+CNN 更優(yōu)秀。上述實(shí)驗(yàn)證明了本文模型在面對復(fù)雜的語義信息時具有相對較好的穩(wěn)定性和魯棒性。因此,基于多傳遞影響力的謠言檢測方法不僅在謠言的長期檢測任務(wù)中有效,在早期檢測中同樣有效。
為提升社交媒體謠言檢測精準(zhǔn)度,本文提出一種基于多傳遞影響力的謠言檢測方法。利用源微博和對應(yīng)轉(zhuǎn)發(fā)(評論)之間的傳播結(jié)構(gòu)關(guān)系,構(gòu)建文本信息傳播圖和用戶影響力傳播圖,通過圖卷積神經(jīng)網(wǎng)絡(luò)捕獲文本傳播特征和用戶節(jié)點(diǎn)傳遞影響力特征,最后將不同維度的節(jié)點(diǎn)信息融合,有效學(xué)習(xí)文本內(nèi)容特征和用戶特征,同時利用轉(zhuǎn)發(fā)關(guān)系對用戶節(jié)點(diǎn)進(jìn)行構(gòu)圖,避免使用大規(guī)模的用戶信息,對于早期檢測更為有利。在3 個真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文方法具有比其他基線方法更高的謠言檢測性能,并且在謠言的早期傳播階段具有良好的檢測效果。本文探索了用戶傳遞影響力在謠言檢測中的作用,后續(xù)將研究更高階用戶節(jié)點(diǎn)信息對于檢測模型性能的影響,進(jìn)一步提升謠言檢測精度。