999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異構圖注意力網絡的微博謠言監測模型

2022-01-05 02:31:42潘慧瑤隋京言王耀君
計算機應用 2021年12期
關鍵詞:語義用戶模型

畢 蓓,潘慧瑤,陳 峰,隋京言,高 揚,王耀君*

(1.中國農業大學信息與電氣工程學院,北京 100083;2.北京理工大學計算機學院,北京 100081;3.北京工業大學經濟與管理學院,北京 100124;4.中國科學院計算技術研究所,北京 100190)

(?通信作者電子郵箱wangyaojun@cau.edu.cn)

0 引言

微博即微型博客,是一種基于用戶關系分享、傳播以及獲取簡短實時信息的廣播式的社交媒體。最早也是最知名的微博是美國Twitter,新浪微博于2009 年面世,是當前中文社交媒體中活躍用戶數最多的微博媒體。本文提及的微博指新浪微博,研究使用的微博謠言數據也是來自新浪微博的官方公開數據。

微博謠言是指通過新浪微博傳播的,在傳播過程中被證實為謠言的內容。微博謠言的內容涉及社會安全、食品安全、社會熱點、明星名人等,具有傳播速度快、波及面廣、危害大等特性。部分涉及社會熱點的謠言具有煽動網民負面情緒及破壞社會穩定、擾亂公共秩序、削弱公權部門權威性等特點,破壞性極大。如果可以根據微博的傳播模式,設計算法模型在微博謠言傳播的早期自動監測及預警,然后進一步轉交于有公信力的部門及時甄別,可以降低謠言的破壞性。

異構圖(Heterogeneous Graph)是指一個圖模型中可以存在不止一種節點和邊的圖,且允許不同類型的節點擁有不同維度的特征或屬性。異構圖神經網絡專門用于處理異構圖數據,是當前熱門的算法,被應用于生物醫學[1]、人機交互[2]和網絡安全[3]等領域。而引入注意力機制的異構圖注意力網絡(Heterogeneous graph Attention Network,HAN)在DBLP、IMDB和ACM 等科研平臺和機構發布的多行業公開數據集上的實驗結果都優于幾種常用異構圖算法[4]。本文主要探索異構圖注意力模型應用于包括社交媒體的信息傳播網絡分析場景中的效果,基于異構圖注意力網絡構建謠言監測模型,通過對傳播內容及傳播網絡的分析,實現新浪微博的謠言監測。

1 相關工作

1.1 謠言監測模型

在早期的研究中,網絡謠言監測工作主要集中于從文本內容、用戶信息和傳播結構中手動提取特征,訓練傳統機器學習分類器實現謠言識別和謠言監測。例如,Castillo 等[5]的決策樹、Kwon 等[6]的隨機森林和Yang 等[7]的支持向量機(Support Vector Machine,SVM)。Ma 等[8]在訓練SVM 分類器時,考慮了謠言的時間特征,利用時間序列建模技術來整合各種謠言信息。此外,Ma 等[9]還提出了傳播樹核模型,這是一種基于核的方法,通過分析傳播樹結構之間的相似性來識別謠言。

近年來出現了一些使用深度學習模型來識別社交媒體謠言的方法。首次應用神經網絡模型監測謠言的是Ma等[10],他們利用遞歸神經網絡(Recursive Neural Network,RNN)學習網絡謠言的文本表示。Chen 等[11]改進了該方法,提出了一種基于RNN 的深度注意力模型,為不同的文本特征分配不同的權重。Yu 等[12]則提出了一種基于卷積神經網絡(Convolutional Neural Network,CNN)的方法,利用CNN 學習輸入序列的關鍵特征,形成重要特征之間的高層交互。而Liu等[13]的時間序列分類器結合了RNN 和CNN,對用戶特征在傳播路徑上的全局和局部變化分別進行捕獲。最近,Ma等[14]還采用了對抗學習方法,利用生成對抗網絡(Generative Adversarial Network,GAN)的生成器產生沖突和噪聲,迫使鑒別器從增強的、更具挑戰性的例子中學習更強的謠言指示性表示。

采用傳統機器學習方法進行謠言監測,不僅費時費力,而且這些手動提取的特征往往缺乏從謠言傳播網絡中提取的高層表示。深度學習方法能自動學習謠言的高級特征,但這些方法不能處理圖或樹的全局關系,并沒有充分利用微博的傳播信息。

1.2 圖神經網絡

傳統的深度學習方法被應用在提取歐氏空間數據的特征方面取得了巨大的成功,但處理非歐氏空間數據的表現卻仍難以使人滿意。為了分析復雜的圖數據,Gori 等[15]提出了圖神經網絡(Graph Neural Network,GNN)模型。Kipf 等[16]將深度學習中常用于圖像的CNN 推廣到圖數據上,創建了圖卷積網絡(Graph Convolutional Network,GCN),在此基礎上Pei等[17]設計了圖卷積深度神經網絡模型Geom-GCN 來更好地捕獲結構信息和長距離依賴。受到注意力機制的啟發,Veli?kovi? 等[18]設計了圖注意力網絡(Graph Attention neTwork,GAT)。該模型根據相鄰節點的表示來計算每個節點的中間表示,而不需要進行代價高昂的矩陣運算,但模型只適用于同構圖。在探索注意力機制應用于異構圖的效果方面,Wang等[4]提出了異構圖注意力網絡(HAN)。

2 本文方法及建模

微博是一個廣播式的社交平臺,用戶通過關注機制分享、傳播以及獲取簡短的實時信息,這種信息傳播網絡可以建模為一張異構圖[19]。本研究提出了一種基于異構圖注意力網絡的模型MicroBlog-HAN 用于謠言微博的識別,為了描述簡便,簡稱為MHAN模型。

每一條微博的異構圖網絡包含至少兩個節點,即微博主貼內容及主貼的用戶名;如果有轉發和評論,每一次轉發及評論都分別可構建為異構圖中的一個節點。節點之間用三種邊連接:用戶-微博、用戶-評論/轉發、微博-評論/轉發,如圖1所示。

圖1 微博的信息傳播網絡異構圖示例Fig.1 Example of heterogeneous graph of microblog information dissemination network

2.1 異構圖元路徑

元路徑是微博異構圖的重要組成。異構圖的一條元路徑Φ[20]可以定義為:

可簡略表示為A1A2…Al+1。該元路徑描述了節點A1到Al+1的一個復合關系R=R1°R2°...°Rl,°代表關系的復合操作。在微博數據構成的異構圖中,微博之間有可能形成多種元路徑連接,不同的元路徑包含不同的語義信息。例如“W1-U1-W2”和“W1-P1-U1-P2-W2”為微博異構圖中的兩條元路徑,前者代表兩條微博W1和W2是由同一用戶U1發布的,后者代表兩條微博W1和W2被用戶U1轉發或評論。

2.2 基于元路徑的鄰居

給定元路徑Φ,節點i基于元路徑Φ的鄰居被定義為通過元路徑Φ與節點i連接的節點集。需要特別說明的是,節點的鄰居包括自身。同樣以微博異構圖為例,假設微博Wi由用戶Uj發布,給定元路徑模式“W1-U1-W2”,微博Wi基于該元路徑模式的鄰居是用戶Uj發布的所有微博的集合,包括Wi本身。

2.3 異構圖注意力網絡模型構建

通過2.1 節和2.2 節定義了異構圖元路徑和基于元路徑的鄰居后,可進一步定義異構圖注意力網絡。HAN 模型采用分層的注意力結構:第一層是節點級注意力,目的是學習每一個節點基于元路徑的鄰居的權重,并對其進行聚合,得到特定語義的嵌入;第二層是語義級注意力,目的是學習元路徑之間的差異,得到特定語義的節點嵌入的最優加權組合[4]。圖2描述了這兩個層級的注意力聚合過程。下面分別對兩個層級的構建原理和構建過程進行詳細描述。

圖2 HAN模型的分層注意力結構Fig.2 Hierarchical attention structure of HAN model

2.3.1 節點級注意力

首先通過微博的傳播網絡構建元路徑Φ1(W1-U1-W2)和Φ2(W1-P1-U1-P2-W2);然后利用自注意力機制學習微博節點基于元路徑的鄰居的重要性。利用word2vec 提取微博i的文本特征作為節點i的初始嵌入hi;接著以初始嵌入為輸入,利用節點級注意力深層次神經網絡計算元路徑權重;最后,對所有通過softmax歸一化,得到權重系數。詳細計算過程如下:

將鄰居節點的特征和相應的權重系數聚合,就可以得到微博異構圖節點i基于元路徑Φ的嵌入。為了穩定訓練過程,模型采用多頭注意力機制,重復計算節點級注意力K次并連接計算結果,作為微博i特定語義的嵌入,最終節點i的節點級節點嵌入的計算公式為:

2.3.2 語義級注意力

將所有微博節點的特征輸入節點級注意力后,可以得到兩組語義特定的節點嵌入,記作。語義特定的節點嵌入只能從一個方面反映節點,只能反映被同一用戶發布的語義,只能反映被同一用戶轉發/評論的語義。為了融合兩種語義,學習更全面的節點嵌入,使用語義級注意力學習每個元路徑的重要性,softmax 歸一化得到每個元路徑的權重系數,計算過程如下。

其中:attsem是語義級注意的深層神經網絡,模型結構如圖3 所示;W為權重矩陣;b為偏置;q為語義級注意力向量;V為微博節點集,||V表示微博節點數目。q與特定語義的節點嵌入的非線性變換做內積,對結果進行平均得到wΦi,wΦi可以用來衡量元路徑Φi的重要性。

圖3 attsem神經網絡結構Fig.3 Structure of attsem neural network

Z為聚合了元路徑Φ1和Φ2的語義信息的語義級節點嵌入,包含被同一用戶發布、轉發和評論的語義信息,是最終的微博節點嵌入,可以輸入到多層感知器中執行二分類任務,使用交叉熵作為損失函數。

3 實驗數據及結果

3.1 實驗數據

模型在兩個真實的微博謠言數據集上對模型進行評估,分別是Weibo2016 和Weibo2021。其中:Weibo2016 數據集是由香港浸會大學的Ma 等[10]提供,其謠言微博數據來自2016年之前微博社區管理中心公布的不實微博信息;Weibo2021數據集是通過爬蟲從微博社區管理中心的公開數據進行采集獲取,采集了2019—2021 年間被官方證實的謠言微博及其評論轉發數據。為保證數據樣本均衡,同時也采集了同時間段的數量相近的非謠言微博。表1 展示了兩個數據集的樣本信息。其中,本文研究采集的Weibo2021 數據集已上傳到https://github.com/lemon-coder/Weibo2021-dataset。

表1 Weibo2016和Weibo2021數據集的統計信息Tab.1 Statistics of Weibo2016 and Weibo2021 datasets

3.2 實驗結果

MHAN 模型使用8 個注意力頭,并用隨機梯度下降法更新參數,Adam 算法優化模型,學習率為0.005。訓練過程在200 個epoch 上迭代。每個微博節點初始的特征向量的維數為6 000,訓練集與測試集的比例為6∶4。實驗采用了如下4個結果評價指標。

準確率:在謠言及非謠言數據上的識別準確率;

精確率:正確預測為正的占全部預測為正的比例;

召回率:正確預測為正的占全部實際為正的比例;

F1打分:精確率和召回率的調和平均數。

基于Weibo2016 數據集,將MHAN 及MHAN 衍生模型與以下模型比較,實驗結果如表2 所示。其中MHAN 及其衍生模型以外模型的實驗結果來自Ma等[10]的研究。

表2 各模型在Weibo2016數據集的實驗結果Tab.2 Experimental results of different models on Weibo2016 dataset

DTR[21]:基于決策樹的模型,通過查詢短語檢測謠言的排序方法。

DTC[5]:利用謠言特征組合的決策樹模型。

RFC[6]:利用謠言特征組合的隨機森林模型。

SVM-RBF[7]:結合謠言特征的RBF核支持向量機模型。

SVM-TS[8]:對謠言特征隨時間的變化進行建模的支持向量機模型。

GRU[10]:基于RNN,從用戶評論中學習時態語言模式的模型。

MHANWUW:只考慮“W1-U1-W2”元路徑的MHAN。

MHANWPUPW:只考慮“W1-P1-U1-P2-W2”元路徑的MHAN。

此外,使用了近3 年的Weibo2021 數據集對MHAN 進行實驗,實驗結果如表3所示。

表3 MHAN模型在Weibo2021數據集的實驗結果Tab.3 Experimental results of MHAN models on Weibo2021 dataset

3.3 結果分析

如表2 所示,依賴人工提取的機器學習謠言識別模型(DTR、DTC、RFC、SVM-RDF 和SVM-TS)在Weibo2016 數據集上表現普遍較差,測試集準確率都在90%以下。這說明人工提取的文本、用戶和傳播等特征只能在一定程度上反映謠言特征,缺乏更高層的表示。

GRU 在測試集上的準確率和F1 都高于傳統機器學習分類器。這是因為:一方面,作為神經網絡模型,GRU 能自動學習深層的潛在特征;另一方面,GRU 能捕捉相關微博的信息隨時間的變化。

MHAN 的表現優于其他模型,測試集準確率達到了91.2%,說明模型泛化能力較強。該模型具有良好的可解釋性,利用注意力機制分別提取“被同一人發布”和“同一人轉發評論”這兩種語義信息,最后融合兩種語義,充分挖掘了微博異構圖基于語義的結構信息。對比MHAN、MHANWUW和MHANWPUPW在測試集上的準確率和F1 都較低,說明在謠言監測任務中,這兩個元路徑的語義都是有意義的。

表3 的實驗結果顯示,在Weibo2021 數據集上,MHAN 模型的準確率和F1都在85%以上,而MHANWUW和MHANWPUPW表現較差,進一步驗證了MHAN 模型的有效性,且能適用于泛化的數據集。

同時,對實驗數據進行分析發現,發布微博謠言的用戶往往還具有發布其他不實言論的歷史。另外一個有意思的發現是:謠言舉報者常常是同一批用戶,說明謠言的受眾有重疊且有些用戶有很強的謠言甄別能力和檢舉意識。

4 結語

本文將微博數據構建成一張異構圖,并利用異構圖注意力網絡建立微博謠言監測模型。經過在謠言實驗數據的驗證,結果表明MicroBlog-HAN 模型在謠言分類任務上的表現優于其他模型。

在未來的工作中,將嘗試結合圖片、視頻和用戶信息提取微博更全面的特征,在保障召回率的前提下,進一步提高分類的準確率。另外,將探索自動提取元路徑的方法,進一步挖掘微博異構圖的信息。

猜你喜歡
語義用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
認知范疇模糊與語義模糊
主站蜘蛛池模板: 凹凸精品免费精品视频| 色综合五月| 无码免费视频| 国产香蕉一区二区在线网站| 亚洲天堂在线免费| 毛片最新网址| 免费无遮挡AV| 亚洲精品大秀视频| 国产真实自在自线免费精品| 久久久久亚洲Av片无码观看| 亚洲黄网在线| 污污网站在线观看| 中文字幕无线码一区| 无码精品国产dvd在线观看9久 | 精品久久久久久中文字幕女| 国产麻豆精品在线观看| 国产成人精品一区二区秒拍1o| 久久狠狠色噜噜狠狠狠狠97视色 | 精品午夜国产福利观看| 8090午夜无码专区| 免费午夜无码18禁无码影院| 91探花国产综合在线精品| 国产精品黄色片| 国产精品v欧美| 99热亚洲精品6码| 制服丝袜一区| 亚洲二三区| 亚洲爱婷婷色69堂| 乱人伦中文视频在线观看免费| 国产精品99r8在线观看| 国产极品美女在线| 2022国产91精品久久久久久| 国产日韩欧美精品区性色| 国内精品九九久久久精品| 国产精品成人不卡在线观看| 欧美午夜视频在线| 国产清纯在线一区二区WWW| 国产精品欧美日本韩免费一区二区三区不卡 | 欧美成a人片在线观看| 欧美国产日产一区二区| 国产麻豆91网在线看| 亚欧乱色视频网站大全| 精品无码一区二区在线观看| 青青草原国产| 国产尤物在线播放| 五月天在线网站| A级毛片无码久久精品免费| 3344在线观看无码| 亚洲视频三级| 中文字幕 欧美日韩| 亚洲人成网线在线播放va| 91精品免费久久久| 制服丝袜在线视频香蕉| 试看120秒男女啪啪免费| 午夜限制老子影院888| 在线观看国产精美视频| 91色爱欧美精品www| 色妺妺在线视频喷水| 亚洲色图另类| 亚洲午夜18| 国产男女XX00免费观看| 久久国产精品夜色| 少妇高潮惨叫久久久久久| 国产麻豆aⅴ精品无码| 国产微拍精品| 99精品久久精品| 99er这里只有精品| 波多野结衣视频网站| а∨天堂一区中文字幕| 亚洲成a∧人片在线观看无码| 又大又硬又爽免费视频| 国产亚洲精久久久久久无码AV| 嫩草国产在线| 日韩美女福利视频| 欧洲精品视频在线观看| 91免费片| 青草视频在线观看国产| 亚洲娇小与黑人巨大交| 国产精品自在在线午夜| 精品一区二区三区四区五区| 五月婷婷丁香色| 色婷婷综合在线|