999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于動(dòng)態(tài)異構(gòu)圖的謠言檢測(cè)模型

2024-02-27 09:02:08朱文龍陳羽中饒孟宇
關(guān)鍵詞:語(yǔ)義信息模型

朱文龍,陳羽中,饒孟宇

1(福州大學(xué) 計(jì)算機(jī)與大數(shù)據(jù)學(xué)院,福州 350116)

2(福建省網(wǎng)絡(luò)計(jì)算與智能信息處理重點(diǎn)實(shí)驗(yàn)室,福州 350116)

0 引 言

隨著互聯(lián)網(wǎng)的迅速發(fā)展,微博、Twitter等社交媒體逐漸成為人們生活中不可缺少的交流工具.同時(shí),由于社交媒體傳播速度快、范圍廣,謠言也逐漸成為人們關(guān)注的一大焦點(diǎn).在社交媒體中,謠言是一種以某些途徑廣泛傳播且未經(jīng)證實(shí)的信息表述[1].謠言的出現(xiàn)往往會(huì)給社會(huì)造成嚴(yán)重的危害和巨大的經(jīng)濟(jì)損失.盡管各社交媒體機(jī)構(gòu)陸續(xù)開通了辟謠平臺(tái)來(lái)加強(qiáng)對(duì)謠言的管控,但這些辟謠平臺(tái)仍然需要依靠人工收集的信息來(lái)識(shí)別謠言真實(shí)性,非常耗時(shí)耗力.因此,迫切需要一種能夠有效檢測(cè)謠言的自動(dòng)化方法.

傳統(tǒng)的謠言檢測(cè)方法主要利用特征工程從文本內(nèi)容、用戶資料和傳播模式中提取易識(shí)別的特征來(lái)訓(xùn)練有監(jiān)督學(xué)習(xí)分類器[2-7],例如隨機(jī)森林、支持向量機(jī)、決策樹等.然而,特征工程提取特征往往十分費(fèi)時(shí)費(fèi)力,并很難應(yīng)對(duì)復(fù)雜的社交媒體數(shù)據(jù).近年來(lái),深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域取得了優(yōu)異的性能表現(xiàn),能夠讓模型自動(dòng)學(xué)習(xí)謠言的深層特征表示,例如循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò).通過(guò)將文本內(nèi)容建模為時(shí)間序列,循環(huán)神經(jīng)網(wǎng)絡(luò)可以捕獲每個(gè)帖子及其評(píng)論的語(yǔ)義變化[8].卷積神經(jīng)網(wǎng)絡(luò)可以捕獲文本內(nèi)容中的局部語(yǔ)義信息[9].但是,上述方法僅從傳播序列中學(xué)習(xí)時(shí)間特征,忽略了傳播內(nèi)部的拓?fù)潢P(guān)系.因此,一些研究人員研究了基于文本語(yǔ)義信息及其傳播結(jié)構(gòu)的謠言檢測(cè)方法[13-22].通過(guò)對(duì)帖子的傳播結(jié)構(gòu)建模,構(gòu)建傳播圖,并采用圖神經(jīng)網(wǎng)絡(luò)聚合鄰居節(jié)點(diǎn)的特征,從而捕獲謠言的傳播結(jié)構(gòu)特征.此外,一些研究人員結(jié)合多種異構(gòu)信息構(gòu)建異構(gòu)傳播圖,通過(guò)學(xué)習(xí)不同類型節(jié)點(diǎn)和邊豐富的結(jié)構(gòu)信息來(lái)提高謠言檢測(cè)的性能[23-25].

盡管基于文本語(yǔ)義信息及其傳播結(jié)構(gòu)的謠言檢測(cè)方法取得了顯著的進(jìn)展,但仍然存在一些亟待解決的問(wèn)題.首先,現(xiàn)有基于異構(gòu)傳播圖的謠言檢測(cè)模型通常使用常規(guī)的同構(gòu)圖神經(jīng)網(wǎng)絡(luò),不能充分學(xué)習(xí)傳播圖中的結(jié)構(gòu)信息,忽略了異構(gòu)傳播圖中節(jié)點(diǎn)特定于自身類型的信息.其次,現(xiàn)有模型往往忽略了謠言傳播的動(dòng)態(tài)過(guò)程,無(wú)法捕獲謠言動(dòng)態(tài)傳播的演化模式.最后,現(xiàn)有模型無(wú)法充分學(xué)習(xí)帖子與相關(guān)評(píng)論之間的語(yǔ)義關(guān)聯(lián),導(dǎo)致文本語(yǔ)義信息損失.針對(duì)上述問(wèn)題,本文提出了一種基于動(dòng)態(tài)異構(gòu)圖的謠言檢測(cè)模型DHGNN(Dynamic Heterogeneous Graph Network With Multi-level Attention),主要貢獻(xiàn)如下:

1)DHGNN引入基于異構(gòu)圖的圖神經(jīng)網(wǎng)絡(luò).該網(wǎng)絡(luò)對(duì)異構(gòu)傳播圖中的用戶、帖子節(jié)點(diǎn)和轉(zhuǎn)發(fā)(或評(píng)論)關(guān)系進(jìn)行建模,通過(guò)對(duì)不同類型的節(jié)點(diǎn)和邊設(shè)置不同的共享參數(shù),來(lái)表征每個(gè)邊上的異構(gòu)性注意力,為不同類型的節(jié)點(diǎn)和邊生成特定的表示,學(xué)習(xí)謠言傳播過(guò)程中所有用戶之間的潛在交互,從而充分學(xué)習(xí)異構(gòu)傳播圖中的結(jié)構(gòu)信息.

2)DHGNN提出一種基于旋轉(zhuǎn)記憶單元(Rotational Unit of Memory,RUM)的時(shí)序注意力.該注意力通過(guò)RUM為每個(gè)異構(gòu)傳播圖快照建立記憶,模擬謠言在社交媒體中的動(dòng)態(tài)傳播過(guò)程,從而學(xué)習(xí)傳播過(guò)程中的動(dòng)態(tài)信息,且能進(jìn)一步捕獲謠言動(dòng)態(tài)傳播的演化模式.

3)DHGNN提出一種多級(jí)注意力機(jī)制.該機(jī)制通過(guò)在詞級(jí)和句子級(jí)中應(yīng)用多頭注意力,引導(dǎo)模型關(guān)注源帖和相應(yīng)評(píng)論中的關(guān)鍵詞和關(guān)鍵句,充分學(xué)習(xí)源帖與評(píng)論之間的語(yǔ)義關(guān)聯(lián),從而增強(qiáng)源帖的語(yǔ)義表示.

4)本文在兩個(gè)公共數(shù)據(jù)集上進(jìn)行了充分實(shí)驗(yàn)驗(yàn)證DHGNN的性能.與最先進(jìn)的謠言檢測(cè)模型相比,DHGNN在所有數(shù)據(jù)集上均取得領(lǐng)先的性能.此外,本文進(jìn)一步通過(guò)消融實(shí)驗(yàn)分析了DHGNN的各模塊對(duì)其整體性能的貢獻(xiàn).

1 相關(guān)工作

近年來(lái),國(guó)內(nèi)外很多學(xué)者對(duì)謠言檢測(cè)領(lǐng)域進(jìn)行了深入的研究,并取得了出色的成果.謠言檢測(cè)相關(guān)研究主要可以分為兩類:基于傳統(tǒng)機(jī)器學(xué)習(xí)的檢測(cè)方法與基于深度學(xué)習(xí)的檢測(cè)方法.

傳統(tǒng)的機(jī)器學(xué)習(xí)方法需要從社交媒體中提取有效的特征送入分類器對(duì)謠言進(jìn)行檢測(cè).Yang等人[3]通過(guò)提取文本內(nèi)容、地理位置、轉(zhuǎn)發(fā)次數(shù)和評(píng)論次數(shù)等特征來(lái)訓(xùn)練SVM分類器,該分類器使用了徑向基核函數(shù)(Radial Basis Function,RBF).Castillo等人[4]對(duì)社交媒體上的熱門話題進(jìn)行統(tǒng)計(jì)分析,提出基于文本特征、用戶特征和傳播特征的決策樹模型.Kwon等人[2]通過(guò)考慮一些特殊時(shí)間節(jié)點(diǎn)對(duì)謠言產(chǎn)生的影響,如節(jié)假日、美國(guó)大選等,提出了一種基于時(shí)間特征的隨機(jī)森林模型.Ma等人[5]應(yīng)用時(shí)間序列建模技術(shù)來(lái)整合各種社會(huì)背景信息,通過(guò)考慮特定話題事件的整個(gè)生命周期來(lái)判斷是否為謠言.Wu等人[6]對(duì)傳播樹進(jìn)行建模,使用具有不同核的支持向量機(jī)來(lái)檢測(cè)謠言.Zhao等人[7]通過(guò)發(fā)掘謠言中隱藏的關(guān)鍵字特征,并結(jié)合K-means聚類方法和SVM分類器進(jìn)行謠言檢測(cè).上述方法雖然取得了一定的進(jìn)展,但嚴(yán)重依賴手工的特征工程來(lái)提取特征集,模型經(jīng)常缺乏泛化能力,費(fèi)時(shí)費(fèi)力.

隨著深度學(xué)習(xí)方法研究的不斷深入,許多研究人員也將深度學(xué)習(xí)模型應(yīng)用到謠言檢測(cè)領(lǐng)域中.Ma等人[8]利用循環(huán)神經(jīng)網(wǎng)絡(luò)來(lái)捕獲每個(gè)源帖子及其轉(zhuǎn)發(fā)評(píng)論之間的語(yǔ)義變化,并根據(jù)語(yǔ)義變化進(jìn)行預(yù)測(cè).Yu等人[9]通過(guò)卷積神經(jīng)網(wǎng)絡(luò)捕獲文本內(nèi)容的局部語(yǔ)義,并獲得隱藏單元的深層文本特征.Pan等人[10]在經(jīng)典的文本卷積神經(jīng)網(wǎng)絡(luò)(Text CNN)上引用注意力機(jī)制,為卷積層提取的每個(gè)特征賦予不同權(quán)重來(lái)進(jìn)行謠言事件檢測(cè).Liu等人[11]將每個(gè)新聞的傳播路徑建模成一個(gè)多元時(shí)間序列,其中每個(gè)元組是一個(gè)數(shù)值向量,表示參與傳播新聞的用戶特征.Wang等人[12]采用自動(dòng)構(gòu)造方法構(gòu)建的情感字典來(lái)捕獲人們對(duì)不同事件的細(xì)粒度情感反應(yīng),并通過(guò)兩步動(dòng)態(tài)時(shí)間序列算法保留事件的時(shí)間跨度分布信息.上述這些方法都是將帖子及其評(píng)論建模為時(shí)間序列進(jìn)行處理,而忽略了謠言傳播內(nèi)部的拓?fù)潢P(guān)系.

隨著圖神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,一些研究學(xué)者研究了基于帖子語(yǔ)義信息和傳播結(jié)構(gòu)的謠言檢測(cè)方法.Ma等人[13]利用自頂向下和自低向上的樹形遞歸神經(jīng)網(wǎng)絡(luò)來(lái)捕獲謠言的語(yǔ)義信息和傳播特征.Khoo等人[14]使用Transformer網(wǎng)絡(luò)中的多頭注意力機(jī)制對(duì)帖子之間的長(zhǎng)距離交互進(jìn)行建模,提出一種帖子級(jí)注意力模型.Bian等人[15]利用雙向圖卷積網(wǎng)絡(luò)學(xué)習(xí)謠言的傳播模式,捕捉謠言擴(kuò)散的結(jié)構(gòu).Ma等人[16]提出一種基于樹Transformer的檢測(cè)模型,利用對(duì)話中的用戶交互來(lái)聚合子樹的觀點(diǎn).Wu等人[17]為每個(gè)謠言構(gòu)建傳播圖,并使用門控圖神經(jīng)網(wǎng)絡(luò)對(duì)關(guān)系路徑上的相鄰節(jié)點(diǎn)交換信息,更新節(jié)點(diǎn)的表示,從而增強(qiáng)傳播圖的節(jié)點(diǎn)表示.Tu等人[18]提出聯(lián)合圖的概念,構(gòu)建了一個(gè)集成所有推文傳播關(guān)系的大圖,并使用基于CNN的模型捕捉推文的文本內(nèi)容特征和傳播結(jié)構(gòu)信息.Luo等人[19]提出一種新的順序編碼方法,將源推文的傳播樹嵌入向量空間,并使用預(yù)訓(xùn)練的Transformer提取源推文的上下文語(yǔ)義特征.Wei等人[20]首次嘗試探究傳播過(guò)程中的不確定性,利用貝葉斯方法自適應(yīng)地學(xué)習(xí)傳播結(jié)構(gòu)中潛在關(guān)系的可靠性,并設(shè)計(jì)一個(gè)新的邊一致性訓(xùn)練框架來(lái)優(yōu)化模型.

此外,一些研究人員則嘗試構(gòu)建異構(gòu)圖為模擬謠言傳播過(guò)程提供新的視角,并取得了出色的性能表現(xiàn).Yuan等人[23]將推文、轉(zhuǎn)推和用戶的全局關(guān)系建模成異構(gòu)圖,然后從帖子的內(nèi)容和用戶的傳播關(guān)系中捕獲局部語(yǔ)義信息和全局結(jié)構(gòu)信息.Huang等人[24]構(gòu)建了推文-詞-用戶異構(gòu)圖,利用基于元路徑的異構(gòu)圖注意力網(wǎng)絡(luò)捕獲文本內(nèi)容的全局語(yǔ)義關(guān)系和推文傳播的全局結(jié)構(gòu)信息.Ran等人[25]提出一種多通道圖注意力網(wǎng)絡(luò),該網(wǎng)絡(luò)分別對(duì)源推文與其評(píng)論的關(guān)系、源推文與其詞的關(guān)系、源推文與其相關(guān)用戶的關(guān)系進(jìn)行建模構(gòu)建3個(gè)子圖,并設(shè)計(jì)一個(gè)事件共享模塊學(xué)習(xí)不同事件謠言中的共性特征.

2 模型

2.1 任務(wù)定義

給定源帖集合S={s1,…,si,…,sN}和用戶集合U={u1,…,uj,…,u|u|},其中N表示帖子的總數(shù)量.每篇源帖si的評(píng)論集Ri由m條評(píng)論帖子組成,可表示為Ri={r1,r2,…,rm}.謠言檢測(cè)任務(wù)的目標(biāo)是學(xué)習(xí)一個(gè)函數(shù)f:(si,Ri,U)→y,預(yù)測(cè)源帖是否為謠言,y表示所屬的類別標(biāo)簽.其中,類別標(biāo)簽包括非謠言、假謠言、真謠言、未經(jīng)證實(shí)的謠言.

2.2 模型架構(gòu)

本文提出的DHGNN模型的整體架構(gòu)如圖1所示,主要包括多級(jí)注意力層、動(dòng)態(tài)異構(gòu)圖網(wǎng)絡(luò)層以及分類層.多級(jí)注意力層通過(guò)詞級(jí)多頭注意力和句子級(jí)多頭注意力學(xué)習(xí)源帖與評(píng)論之間潛在的語(yǔ)義關(guān)聯(lián),得到源帖基于評(píng)論的細(xì)粒度語(yǔ)義表示.動(dòng)態(tài)異構(gòu)圖網(wǎng)絡(luò)層的主要任務(wù)是在謠言的動(dòng)態(tài)傳播過(guò)程中同時(shí)捕獲結(jié)構(gòu)信息和動(dòng)態(tài)演化模式.動(dòng)態(tài)異構(gòu)圖網(wǎng)絡(luò)層由兩部分組成,分別為基于異構(gòu)圖的圖神經(jīng)網(wǎng)絡(luò)和時(shí)序注意力.通過(guò)圖神經(jīng)網(wǎng)絡(luò)充分學(xué)習(xí)異構(gòu)傳播圖快照的結(jié)構(gòu)信息,同時(shí),利用時(shí)序注意力來(lái)捕獲謠言動(dòng)態(tài)傳播的演化模式,得到帖子的動(dòng)態(tài)信息表示.最后,分類層將源帖的細(xì)粒度語(yǔ)義表示與動(dòng)態(tài)信息表示拼接,通過(guò)學(xué)習(xí)分類函數(shù)來(lái)預(yù)測(cè)源帖的標(biāo)簽.

圖1 DHGNN整體架構(gòu)Fig.1 Overall architecture of DHGNN

2.3 多級(jí)注意力層

謠言的指示特征往往可以從相關(guān)用戶的評(píng)論中獲取,評(píng)論中表達(dá)的語(yǔ)義信息可以進(jìn)一步增強(qiáng)源帖的語(yǔ)義表示.其中,具有強(qiáng)烈立場(chǎng)的評(píng)論在確定謠言的真實(shí)性時(shí)往往有著至關(guān)重要的作用.為了充分學(xué)習(xí)帖子與相關(guān)評(píng)論之間的語(yǔ)義關(guān)聯(lián),DHGNN采用多級(jí)注意力機(jī)制選擇性地關(guān)注相應(yīng)評(píng)論中具有重要謠言指示特征的詞和句子,從而得到帖子基于評(píng)論的細(xì)粒度語(yǔ)義表示.多級(jí)注意力層由詞級(jí)多頭注意力和句子級(jí)多頭注意力組成.以下進(jìn)行詳細(xì)說(shuō)明.

2.3.1 詞級(jí)多頭注意力

給定一條帖子si和相應(yīng)評(píng)論集合Ri={r1,r2,…,rm},使用預(yù)訓(xùn)練的詞嵌入模型進(jìn)行初始化得到對(duì)應(yīng)的詞嵌入表示,即si=(wi,…,wt,…,w|si|),rj=(w1,…,wt,…,w|rj|),其中每個(gè)wt∈d是一個(gè)d維向量.為了探究評(píng)論中的哪些信息可以作為謠言的指示特征,從而引導(dǎo)DHGNN模型專注于評(píng)論的一些關(guān)鍵單詞或短語(yǔ).DHGNN模型將帖子si作為矩陣Q,相應(yīng)的評(píng)論Ri={r1,r2,…,rm}作為K和V,分別對(duì)帖子的每一條評(píng)論rj進(jìn)行多頭交叉注意力,將帖子的每個(gè)單詞作為指導(dǎo),引導(dǎo)模型關(guān)注到每條評(píng)論中關(guān)鍵的單詞或短語(yǔ),計(jì)算公式如下:

(1)

MultiHead(Q′,K′,V′)=Concat(head1,head2,…,headh)Wo

(2)

(3)

(4)

為了學(xué)習(xí)帖子中單詞之間的依存關(guān)系,并提取句子內(nèi)部的結(jié)構(gòu)信息.將帖子si輸入多頭自注意力,從而關(guān)注源帖中的關(guān)鍵詞.最后,通過(guò)池化層得到帖子si和相應(yīng)評(píng)論rj的句子級(jí)表示:

(5)

(6)

(7)

其中,xi∈d,cj∈d,pool(·)表示池化函數(shù),常用的池化函數(shù)有最大池化和平均池化.

2.3.2 句子級(jí)多頭注意力

從公式(7)可以得到相應(yīng)評(píng)論的句子表示,將所有評(píng)論拼接起來(lái)得到評(píng)論表示C∈m×d:

C=Concat(c1,…,cm)

(8)

在現(xiàn)實(shí)生活中,人們判斷一個(gè)帖子是否是謠言,往往會(huì)專注于一些具有關(guān)鍵信息的評(píng)論,而忽略其他微不足道或毫無(wú)關(guān)系的評(píng)論.因此,DHGNN模型需要專注于有意義的評(píng)論句子.DHGNN使用句子級(jí)多頭交叉注意力產(chǎn)生不同的注意力分布,來(lái)表示不同評(píng)論對(duì)確定帖子真實(shí)性的不同貢獻(xiàn).

首先,復(fù)制m次帖子的句子表示xi,可得到矩陣X∈m×d,通過(guò)多頭交叉注意力關(guān)注重要的評(píng)論句,然后通過(guò)池化層得到所有評(píng)論的語(yǔ)義表示,公式如下:

C′=MultiHead(X,C,C)

(9)

o=pool(C′)

(10)

其中,C′∈m×d.之后,通過(guò)門控機(jī)制將帖子的句子表示xi與相應(yīng)評(píng)論的綜合語(yǔ)義表示o相融合,得到源帖基于評(píng)論的細(xì)粒度語(yǔ)義表示D,公式如下:

α=σ(w1xi+w2o+b)

(11)

D=xi⊙α+o⊙(1-α)

(12)

2.4 動(dòng)態(tài)異構(gòu)圖網(wǎng)絡(luò)層

2.4.1 異構(gòu)傳播圖

具有特定特征用戶之間的相關(guān)性往往可以幫助揭示一條帖子是否為謠言.本文通過(guò)構(gòu)建異構(gòu)傳播圖來(lái)模擬用戶與源貼之間的交互關(guān)系.具體而言,異構(gòu)傳播圖G=(V,E),節(jié)點(diǎn)集V包含源帖節(jié)點(diǎn)、發(fā)布源帖的用戶節(jié)點(diǎn)和轉(zhuǎn)發(fā)(或評(píng)論)源帖的用戶節(jié)點(diǎn),邊集合E包含發(fā)布、轉(zhuǎn)發(fā)和評(píng)論關(guān)系.然后,對(duì)所有節(jié)點(diǎn)進(jìn)行統(tǒng)一編號(hào),讓鄰接矩陣包含所有關(guān)系.

在社交媒體中,一個(gè)新的熱門事件往往會(huì)引發(fā)人們的廣泛關(guān)注和熱議.因此,隨著時(shí)間的推移,不斷會(huì)有新的用戶轉(zhuǎn)發(fā)(或評(píng)論)源帖.為了進(jìn)一步模擬社交媒體中帖子傳播的動(dòng)態(tài)過(guò)程,本文設(shè)置T個(gè)快照時(shí)間點(diǎn),根據(jù)用戶轉(zhuǎn)發(fā)(或評(píng)論)源帖的時(shí)間構(gòu)建T個(gè)異構(gòu)傳播圖快照G1,…,GT,如圖2所示.其中,Gt=(Vt,Et)表示為第t個(gè)異構(gòu)傳播圖快照.

圖2 異構(gòu)傳播圖快照Fig.2 Snapshot of the heterogeneous propagation graph

2.4.2 圖神經(jīng)網(wǎng)絡(luò)

每個(gè)異構(gòu)傳播圖快照都可以被視為一個(gè)靜態(tài)異構(gòu)傳播圖,為了充分學(xué)習(xí)快照的傳播結(jié)構(gòu)信息,學(xué)習(xí)所有用戶之間的潛在交互.本文引入基于異構(gòu)圖的圖神經(jīng)網(wǎng)絡(luò)(Heterogeneous Graph Neural Network,HGN),通過(guò)多層HGN對(duì)異構(gòu)傳播圖的節(jié)點(diǎn)和邊進(jìn)行建模,為不同類型的節(jié)點(diǎn)和邊生成特定的表示.

首先,為了最大程度建模不同類型節(jié)點(diǎn)的分布差異性,HGN為不同類型的節(jié)點(diǎn)提供了相應(yīng)的線性映射函數(shù).同時(shí),由于異構(gòu)傳播圖中邊類型的多樣性,為了捕獲不同節(jié)點(diǎn)對(duì)之間的語(yǔ)義關(guān)聯(lián),HGN為不同類型的邊設(shè)置了不同的參數(shù)化權(quán)重矩陣,進(jìn)而在保留不同關(guān)系特性的同時(shí)盡可能的實(shí)現(xiàn)參數(shù)共享.對(duì)于第t個(gè)異構(gòu)傳播圖快照Gt=(Vt,Et),計(jì)算源帖子節(jié)點(diǎn)si與所有鄰接用戶節(jié)點(diǎn)集合N(si)的注意力分布,公式如下:

(13)

(14)

(15)

(16)

同時(shí),源帖節(jié)點(diǎn)從相鄰用戶節(jié)點(diǎn)學(xué)習(xí)信息的過(guò)程可以看作是相鄰用戶節(jié)點(diǎn)向源帖節(jié)點(diǎn)信息傳遞的過(guò)程,為了緩解不同類型節(jié)點(diǎn)和邊分布的差異性,HGN將不同邊關(guān)系合并到信息傳遞的過(guò)程中.對(duì)于節(jié)點(diǎn)對(duì)e=(u,si),信息傳遞的計(jì)算過(guò)程如下:

(17)

InfoHGN(u,e,si)=Concat(Info_head1(u,e,si),…,Info_headH(u,e,si))

(18)

最后,得到源帖節(jié)點(diǎn)與所有鄰接用戶節(jié)點(diǎn)的注意力分布后,源帖節(jié)點(diǎn)使用注意力系數(shù)作為權(quán)重聚合所有鄰接用戶節(jié)點(diǎn)的信息,得到源帖節(jié)點(diǎn)si更新后的向量表示:

(19)

其中,t表示第t個(gè)異構(gòu)傳播圖快照.

(20)

2.4.3 時(shí)序注意力

隨著時(shí)間的推移,源帖在社交媒體中的演化模式主要表現(xiàn)為新的轉(zhuǎn)發(fā)或評(píng)論出現(xiàn),即異構(gòu)傳播圖中新的用戶節(jié)點(diǎn)和邊的不斷出現(xiàn).HGN雖然可以有效地學(xué)習(xí)靜態(tài)快照的結(jié)構(gòu)信息,但是并不能模擬隨時(shí)間演變的模式.最近,用于動(dòng)態(tài)網(wǎng)絡(luò)嵌入的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)取得了很好的成果.然而,常用的RNN,例如Bi-LSTM和GRU,在保存與當(dāng)前節(jié)點(diǎn)距離較遠(yuǎn)的節(jié)點(diǎn)的信息和復(fù)制過(guò)去很久的信息時(shí)仍然存在問(wèn)題,這可能導(dǎo)致模型的長(zhǎng)期記憶能力不足.Dangovski等人[26]提出一種被稱為旋轉(zhuǎn)記憶單元(RUM)的新型RNN單元以解決該問(wèn)題.與通過(guò)門機(jī)制來(lái)操縱隱藏狀態(tài)的LSTM和GRU不同,RUM通過(guò)在歐式空間中執(zhí)行旋轉(zhuǎn)操作從而實(shí)現(xiàn)對(duì)隱藏狀態(tài)的操縱.因此,RUM可以有效地提升模型對(duì)長(zhǎng)期信息的記憶能力并準(zhǔn)確地總結(jié)上下文信息,從而釋放模型在長(zhǎng)期記憶方面的全部潛力.

DHGNN擴(kuò)展了現(xiàn)有的RUM模型,并提出了一種基于RUM的時(shí)序注意力,學(xué)習(xí)謠言傳播過(guò)程中更深層的演化模式.基于RUM的時(shí)序注意力主要包含兩部分:旋轉(zhuǎn)記憶單元(RUM)和時(shí)序注意力.其中,RUM計(jì)算過(guò)程定義如下:

(21)

(22)

(23)

(24)

(25)

(26)

(27)

(28)

(29)

(30)

(31)

(32)

(33)

(34)

其中Wq,Wk,Wv∈d×d是可訓(xùn)練參數(shù),M∈T×T表示掩碼矩陣.如果Mu,v=-∞,則意味著時(shí)間u到v不記錄注意力系數(shù).當(dāng)時(shí)間u≤v時(shí),設(shè)置Mu,v=0;否則Mu,v=-∞.最后,將Zi輸入池化層中得到源帖si的動(dòng)態(tài)信息表示B.

2.5 分類層

通過(guò)上述過(guò)程,得到一個(gè)文本細(xì)粒度語(yǔ)義表示D和一個(gè)動(dòng)態(tài)信息表示B,這兩種表示都對(duì)謠言檢測(cè)非常的重要.因此,將兩種表示進(jìn)行拼接得到最終特征表示P:

P=Concat(D,B)

(35)

最后,使用一個(gè)全連接層和softmax層,得到帖子的預(yù)測(cè)標(biāo)簽y:

y=softmax(FC(P))

(36)

DHGNN使用交叉熵作為訓(xùn)練過(guò)程中的損失函數(shù),并通過(guò)Adam優(yōu)化算法進(jìn)行學(xué)習(xí)率的更新,交叉熵?fù)p失函數(shù)如下:

(37)

3 實(shí) 驗(yàn)

3.1 數(shù)據(jù)集

為了評(píng)估DHGNN模型的性能,本文在Twitter15和 Twitter16兩個(gè)公共數(shù)據(jù)集中進(jìn)行實(shí)驗(yàn)驗(yàn)證.Twitter15和 Twitter16數(shù)據(jù)集由Ma等人[27]公開提供.每個(gè)數(shù)據(jù)集由一組源帖子和相應(yīng)的響應(yīng)帖子組成,并提供自源帖子發(fā)布以來(lái)經(jīng)過(guò)的時(shí)間.在數(shù)據(jù)集中,每條源帖子都被標(biāo)記為4種謠言類別之一:非謠言、假謠言、真謠言、未經(jīng)證實(shí)的謠言.兩個(gè)數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)如表1所示.

表1 數(shù)據(jù)集統(tǒng)計(jì)信息Table 1 Statistics of datasets

3.2 對(duì)比模型

為了驗(yàn)證DHGNN模型的性能,本文選擇了一些最新的模型進(jìn)行對(duì)比:

DTC[4]:該模型手工提取多個(gè)全局特征,并使用基于信息可信度的決策樹進(jìn)行分類.

SVM-TS[5]:該模型提取隨時(shí)間動(dòng)態(tài)變化的手工特征,并使用線性支持向量機(jī)分類器進(jìn)行謠言檢測(cè).

GRU-RNN[8]:該模型使用RNN對(duì)序列結(jié)構(gòu)特征進(jìn)行建模.

RvNN[13]:該模型采用兩種遞歸神經(jīng)模型,分別基于自底向上和自頂向下的傳播樹.

BiGCN[15]:該模型利用雙向GCN來(lái)模擬自下而上的傳播和自上而下的擴(kuò)散.

RoBERTa-CNN[19]:該模型利用帖子文本的語(yǔ)義特征和帖子傳播樹的底層模式進(jìn)行謠言檢測(cè).

EBGCN[20]:該模型通過(guò)采用貝葉斯方法自適應(yīng)地考慮潛在邊關(guān)系的可靠性.

MGAT-ESM[25]:該模型對(duì)源帖子與評(píng)論的關(guān)系、源帖子與詞的關(guān)系和、源帖子與用戶的關(guān)系建模,并通過(guò)事件共享模塊學(xué)習(xí)不同謠言中的事件不變特征.

3.3 評(píng)估標(biāo)準(zhǔn)和實(shí)驗(yàn)設(shè)置

為了公平比較,本文采用了與先前工作[20,25]相同的評(píng)估指標(biāo),即準(zhǔn)確率(Accuracy)和各類別非謠言(NR)、假謠言(FR)、真謠言(TR)、未經(jīng)證實(shí)的謠言(UR)的F1分?jǐn)?shù).

本文隨機(jī)選擇10%的樣本作為驗(yàn)證數(shù)據(jù)集,并將其余的樣本以3∶1的比例分配給數(shù)據(jù)集的訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集.使用Adam算法優(yōu)化模型,所有權(quán)重矩陣使用Xavier進(jìn)行初始化,并將所有偏置值初始化為零.將初始學(xué)習(xí)率設(shè)置為0.001,并在訓(xùn)練過(guò)程中逐漸減小.詞向量維度設(shè)置為300,當(dāng)文本長(zhǎng)度小于輸入長(zhǎng)度時(shí)用0填充.Dropout設(shè)置為0.5,多頭注意力頭數(shù)h設(shè)置為8,HGN層數(shù)L設(shè)置為4.本文提出的模型基于PyTorch開源工具實(shí)現(xiàn),采用NVIDIA Tesla P100的GPU訓(xùn)練模型.

3.4 實(shí)驗(yàn)結(jié)果分析

DHGNN模型與其他對(duì)比模型的實(shí)驗(yàn)結(jié)果如表2所示.從中可以發(fā)現(xiàn)基于深度學(xué)習(xí)的方法明顯優(yōu)于傳統(tǒng)方法DTC、SVM-TS.主要原因是傳統(tǒng)基于機(jī)器學(xué)習(xí)的模型使用的是手工制作的特征,往往會(huì)導(dǎo)致特征選擇的信息丟失,從而很難達(dá)到性能最優(yōu).另一方面,基于深度學(xué)習(xí)的模型可以從給定的高維數(shù)據(jù)中自動(dòng)學(xué)習(xí)重要的特征表示.此外,與基于序列的模型GRU-RNN相比,DHGNN模型表現(xiàn)出了更好的性能,這可以歸因于DHGNN模型能夠從詞級(jí)和句子級(jí)兩方面充分學(xué)習(xí)文本的語(yǔ)義信息,并通過(guò)對(duì)謠言動(dòng)態(tài)傳播過(guò)程建模學(xué)習(xí)其中的結(jié)構(gòu)信息,而不是僅從轉(zhuǎn)發(fā)序列中捕獲文本中的時(shí)序信息.DHGNN模型在兩個(gè)數(shù)據(jù)集中均取得了良好的性能表現(xiàn).DHGNN模型在Accuracy指標(biāo)上分別比Twitter15和Twitter16數(shù)據(jù)集上的最佳對(duì)比模型高了0.9%和1.3%,在F1值指標(biāo)上最大提升了1.4%和2.2%,但是在TR的F1值中分別比 EBGCN和MGAT-ESM低了0.2%、2.0%.因此,可以認(rèn)為DHGNN模型具有最優(yōu)的綜合性能.

表2 Twitter15和Twitter16數(shù)據(jù)集上謠言檢測(cè)的對(duì)比結(jié)果Table 2 Performance results of rumor detection on Twitter15 and Twitter16 datasets

3.5 消融分析

為了確定DHGNN中每個(gè)模塊對(duì)模型性能的貢獻(xiàn),本文進(jìn)行了一系列的消融實(shí)驗(yàn).其中,消融模型包括DHGNN w/o MLAN、DHGNN w/o DH、DHGNNw/o HGN和DHGNNw/o TA.DHGNN w/o MLAN表示從DHGNN模型中去除多級(jí)注意力層,僅利用動(dòng)態(tài)傳播信息;DHGNN w/o DH 表示從DHGNN模型中去除動(dòng)態(tài)異構(gòu)圖網(wǎng)絡(luò)層,僅利用文本語(yǔ)義信息;DHGNN w/o TA表示去除時(shí)序注意力,不按照轉(zhuǎn)發(fā)時(shí)間構(gòu)建不同的異構(gòu)傳播圖快照,即不使用傳播過(guò)程中的動(dòng)態(tài)信息;DHGNN w/o HGN表示不采用本文提出的圖神經(jīng)網(wǎng)絡(luò),而采用傳統(tǒng)圖神經(jīng)網(wǎng)絡(luò)GAT.

消融實(shí)驗(yàn)的結(jié)果如表2所示,可以看出DHGNN w/o DH的性能與其他消融模型相比存在較大差距,說(shuō)明提出的動(dòng)態(tài)異構(gòu)圖網(wǎng)絡(luò)層可以充分學(xué)習(xí)異構(gòu)傳播圖快照的結(jié)構(gòu)性信息和帖子傳播過(guò)程中的動(dòng)態(tài)信息.DHGNN w/o HGN和DHGNN w/o TA的性能分別位于第2和第3,證明了圖神經(jīng)網(wǎng)絡(luò)HGN和時(shí)序注意力是有效的.DHGNN w/o MLAN的性能差于DHGNN w/o TA和DHGNN w/o HGN,這表明提出的多級(jí)注意力層能夠引導(dǎo)模型學(xué)習(xí)源帖與評(píng)論之間潛在的語(yǔ)義關(guān)聯(lián),從而提高模型性能.

3.6 參數(shù)分析

動(dòng)態(tài)異構(gòu)圖網(wǎng)絡(luò)層中的HGN層數(shù)L和多級(jí)注意力層中的注意力頭數(shù)h決定了DHGNN模型學(xué)習(xí)傳播結(jié)構(gòu)信息和語(yǔ)義信息的程度,是影響模型性能的關(guān)鍵因素.本節(jié)在Twitter15、Twitter16數(shù)據(jù)集中進(jìn)行一系列參數(shù)實(shí)驗(yàn),分析上述參數(shù)對(duì)模型性能的影響.實(shí)驗(yàn)結(jié)果如表3與表4所示.從表3中可以看出,當(dāng)L=4時(shí),模型取得了最好的性能;當(dāng)1≤L≤4時(shí),模型性能隨著層數(shù)的增加而有所提升;但當(dāng)L> 4時(shí),模型性能開始出現(xiàn)下降趨勢(shì).這是由于圖神經(jīng)網(wǎng)絡(luò)層數(shù)越多,各節(jié)點(diǎn)狀態(tài)更新時(shí)就可以融合更多跳內(nèi)的鄰居節(jié)點(diǎn)信息,從而增強(qiáng)帖子節(jié)點(diǎn)的傳播信息表示.但當(dāng)圖神經(jīng)網(wǎng)絡(luò)層數(shù)過(guò)多時(shí),模型過(guò)度學(xué)習(xí)各鄰居節(jié)點(diǎn)的細(xì)節(jié)信息,可能引入更多的噪聲,影響模型的性能.從表4中可以看出,當(dāng)h=8時(shí),模型在兩個(gè)數(shù)據(jù)集中均取得了最好的綜合性能.當(dāng)h=1時(shí),模型的性能s最差.這表明單個(gè)注意力函數(shù)并不能準(zhǔn)確地將注意力權(quán)重分配給帖子(或評(píng)論)文本的上下文,而多頭注意力可以關(guān)注到更多不同子空間中的語(yǔ)義表示信息,增強(qiáng)模型對(duì)文本語(yǔ)義的表達(dá)能力.但是,模型性能不會(huì)隨著頭數(shù)h單調(diào)增加.當(dāng)h>8時(shí),模型的性能出現(xiàn)下降趨勢(shì).這可以歸因于過(guò)多的注意力函數(shù)會(huì)引入大量參數(shù),從而導(dǎo)致模型過(guò)擬合.

表3 HGN層數(shù)對(duì)DHGNN模型性能的影響Table 3 Effects of the number of HGN layers on the performance of DHGNN

表4 多頭注意力頭數(shù)對(duì)DHGNN模型性能的影響Table 4 Effects of the number of multi-head attentions on the performance of DHGNN

4 總 結(jié)

針對(duì)現(xiàn)有未充分學(xué)習(xí)文本的語(yǔ)義信息和謠言傳播過(guò)程中的結(jié)構(gòu)信息,忽略謠言動(dòng)態(tài)傳播過(guò)程等問(wèn)題.本文提出一種基于動(dòng)態(tài)異構(gòu)圖的謠言檢測(cè)模型DHGNN.首先,通過(guò)多級(jí)注意力引導(dǎo)模型關(guān)注到源帖和相應(yīng)評(píng)論中關(guān)鍵的詞和句子,學(xué)習(xí)源帖與評(píng)論之間潛在的語(yǔ)義關(guān)聯(lián),增強(qiáng)帖子的文本語(yǔ)義表示.然后,利用基于異構(gòu)圖的圖神經(jīng)網(wǎng)絡(luò)HGN對(duì)異構(gòu)傳播圖中的用戶、帖子節(jié)點(diǎn)和轉(zhuǎn)發(fā)(或評(píng)論)關(guān)系進(jìn)行建模,通過(guò)對(duì)不同類型的節(jié)點(diǎn)和邊設(shè)置不同的共享參數(shù),來(lái)表征每個(gè)邊上的異構(gòu)性注意力,從而為不同類型的節(jié)點(diǎn)和邊生成特定的表示,充分學(xué)習(xí)異構(gòu)傳播圖中的結(jié)構(gòu)信息.同時(shí),利用基于旋轉(zhuǎn)記憶單元的時(shí)序注意力為每個(gè)異構(gòu)傳播圖快照建立記憶,模擬謠言的動(dòng)態(tài)傳播過(guò)程,捕獲謠言動(dòng)態(tài)傳播的演化模式.此外,本文實(shí)驗(yàn)驗(yàn)證了DHGNN模型在謠言檢測(cè)的性能,通過(guò)消融實(shí)驗(yàn)分析了多級(jí)注意力、圖神經(jīng)網(wǎng)絡(luò)HGN及時(shí)序注意力各模塊的有效性,通過(guò)參數(shù)實(shí)驗(yàn)分析了動(dòng)態(tài)異構(gòu)圖網(wǎng)絡(luò)層中的HGN層數(shù)和多級(jí)注意力層中的注意力頭數(shù)對(duì)模型性能的影響.

猜你喜歡
語(yǔ)義信息模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語(yǔ)言與語(yǔ)義
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
3D打印中的模型分割與打包
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
認(rèn)知范疇模糊與語(yǔ)義模糊
展會(huì)信息
語(yǔ)義分析與漢俄副名組合
主站蜘蛛池模板: 亚洲精品无码成人片在线观看| 亚洲视屏在线观看| 久久一本精品久久久ー99| 国产成人1024精品| 草草影院国产第一页| 亚洲va在线∨a天堂va欧美va| 亚洲国产成人在线| 一区二区无码在线视频| 国产福利一区视频| 国产精品国产三级国产专业不 | 农村乱人伦一区二区| AⅤ色综合久久天堂AV色综合| 国产JIZzJIzz视频全部免费| 国产丝袜第一页| 亚洲第一区欧美国产综合| 中文字幕免费在线视频| 美女无遮挡免费视频网站| 欧美另类精品一区二区三区| 精品人妻一区二区三区蜜桃AⅤ| 激情在线网| 国产无码高清视频不卡| 免费毛片全部不收费的| 国产女同自拍视频| 国产丝袜啪啪| 无码高潮喷水在线观看| 老司机午夜精品网站在线观看| 少妇精品在线| 亚洲成肉网| 婷婷午夜天| 国产成人精品第一区二区| 亚洲国产在一区二区三区| 亚洲视频二| 精品人妻一区无码视频| 一级毛片高清| 91尤物国产尤物福利在线| 国产成人8x视频一区二区| 中文字幕免费播放| 欧美性猛交一区二区三区| 精品三级网站| 成人精品免费视频| 伊人成人在线视频| 天堂网国产| 国产欧美视频在线| 亚洲国产天堂久久九九九| 欧美精品v日韩精品v国产精品| 亚洲国产看片基地久久1024 | 免费无码网站| 大陆国产精品视频| 大学生久久香蕉国产线观看| 国产一二视频| 91在线一9|永久视频在线| 欧美日一级片| 久久久久青草线综合超碰| 亚洲系列中文字幕一区二区| 精品国产自在在线在线观看| 午夜一区二区三区| 在线看片中文字幕| 亚洲色图综合在线| 国产欧美专区在线观看| 国产9191精品免费观看| 高清欧美性猛交XXXX黑人猛交| 国产综合网站| 波多野结衣无码AV在线| 青青草国产在线视频| 亚洲另类第一页| 久久一色本道亚洲| 日本精品影院| 国产在线91在线电影| 亚洲视频影院| 国产无套粉嫩白浆| 国产福利在线免费| 狂欢视频在线观看不卡| 亚洲国产欧美国产综合久久| 国产91麻豆视频| 黄色a一级视频| 又大又硬又爽免费视频| 一级全免费视频播放| 国产女人18毛片水真多1| 亚洲AV无码精品无码久久蜜桃| 亚洲经典在线中文字幕| 成人在线第一页| 亚洲精品777|