999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于潛在話題的微博謠言在線檢測

2020-11-18 14:00:34王浩高玉君劉孫俊
現代計算機 2020年28期
關鍵詞:語義特征檢測

王浩,高玉君,劉孫俊

(1. 成都信息工程大學軟件工程學院,成都610225;2.四川大學網絡空間安全學院,成都610065)

0 引言

隨著Web2.0 時代的到來,Twitter、Facebook、微博、貼吧等新的社交媒體平臺得以快速發展。由于微博具有言論自由、信息及時,內容多樣等特點,且微博的傳播方式在不斷更新,不僅拓寬了社交的厚度與廣度而且極大地豐富了我們的日常生活。微博已逐漸成為人們獲取信息的重要來源。然而在享受微博為我們帶來的便利的同時,也促進了微博謠言的傳播。微博中的謠言信息在傳播過程中會被不斷地歪曲以及放大。不僅危害網絡健康,嚴重的還引起社會的恐慌,影響社會安定有序。因此,及時而準確地識別微博謠言對凈化社交網絡具有重要的意義,也利于政府部門對輿情進行有效的監控,引導正確的輿論導向。所以微博謠言檢測勢在必行。

正是因為近年來微博謠言的泛濫表現出嚴重的危害,所以對于微博謠言的檢測的研究備受學術界和政府的重視。雖然許多研究工作正積極解決這個問題,但微博謠言檢測仍面臨著許多挑戰:

首先,由于微博擁有巨大且穩定的活躍用戶數而產生大量如商業廣告、個人情感、日志記錄等大量無用的信息,而現有的謠言檢測方法無法對這些所有信息進行謠言檢測。如果對每天產生所有信息進行謠言檢測,這不但沒有必要而且不可行。不僅會導致謠言檢測存在滯后性,而且還會出現謠言檢測冷啟動等問題。

其次,文本特征對謠言檢測非常重要。但現在研究對微博文本特征的處理一般使用詞袋的方式處理[1]。這種數據處理的方式只是將詞符號化,并沒有將詞融入到語義中去,該方法不僅忽略了上下文間的聯系、詞語間的語義關系,而且文本的向量表示十分稀疏,極大地增加了模型訓練的難度[2]。

第三,謠言的早期檢測即是在謠言生命周期中的潛伏期發現謠言,因為謠言在潛伏期產生的危害性弱,可控性強,所以謠言的早期檢測會大大降低謠言帶來的危害。但是由于潛伏期的謠言暴露的特征十分有限,所以使得謠言的早期檢測非常困難。盡管有許多早期的謠言檢測算法,但實驗得到的結果往往不盡人意。

針對上面這些挑戰,本文的貢獻如下:

(1)為了解決對海量數據進行謠言檢測的問題,本文提出一種基于熱量模型的潛在話題檢測模型,該模型通過使用熱量模型建模,收集信息的監控時序關系,挖掘微博中短時間內具有大量熱度的數據,僅對這部分可能產生輿情的信息進行判別,從而過濾掉大部分噪音數據,同時克服初發微博的真實性檢測線索不足存在的檢測冷啟動問題。

(2)為了解決對微博語義的理解問題,本文提出了一種將LDA 主題模型與Transformer 模型融合的LTransformer 模型,該模型首先使用LDA 主題模型提取出詞義相近具有相同主題特征的微博,將其歸為一類,然后使用Transformer 模型用來提取對微博的上下文環境以及文本語法等因素,即是能較好地利用謠言的語境信息等特征,獲取更為豐富的語義表示,能極大地提升后續分類的準確率。

(3)為了解決早期謠言檢測的問題,與其他現有先進的謠言檢測算法相比較,本文提出的方法的表現也超越了其他基線方法的性能。

1 相關工作

謠言由于其傳播速度快,影響范圍廣,危害性大等性質,所以在微博謠言的檢測方面,對學術界都提出了不小的挑戰。學術界對該問題展開了積極的研究。微博謠言的識別從之前傳統的人工檢測向機器學習發展,由簡單常用的機器學習向結構復雜的深度學習發展,挖掘的特征由淺層特征向隱藏且深層的特征轉變。總結主要有以下三類方法:

現目前微博使用的謠言檢測大多為人工檢測。但由于人工檢測無法處理海量數據,且人工檢測存在極大的時延等問題,使其越來越不適應當今的真實微博平臺。研究出能自動進行微博謠言檢測的方法迫在眉睫。

常用的機器學習算法的微博謠言檢測模型中,如何選擇與提取出較好的特征對謠言判別的準確度有重要的影響。Castillo 等人使用消息內容、主題、用戶、傳播結構等四類特征來判斷Twitter 上微博主題信息的可信度[3]。Yang 在注冊信息和傳播信息的基礎上,新引入了微博發布的地理位置和客戶端類型[4]。Xiong 等人使用GTB 算法識別重要特征并刪除其他特征來對特征進行選擇[5]。Yu 等人考慮謠言傳播的邊界效應,提出一種廣義謠言中心性的方法來解決準確識別謠言傳播的初始來源[6]。方法[6]考慮了謠言用戶節點之間的關系,但“開小號”,現象在用戶節點分析中不存在意義。而Ma 等人提出了一種基于時序序列的社會網絡不實信息檢測算法,該算法根據構建了一組時序檢測特征對算法進行驗證[7]。Ghenai 等人采用基于LDA 的自動主題發現以及專家引導的信息檢索方法來識別相關tweet,并利用眾包,區分謠言與澄清推文[8]。而在后面這些方法[7-8]里面,試圖挖掘文本和時序特征,試圖解決深層次的文本特征與加入時間序列等隱式特征對謠言檢測影響。淺層的機器學習算法十分依賴于人們對特征的選取,雖然都一定程度的減輕了人工檢測的負擔,但使用淺層機器學習仍然沒法解決還是沒辦法解決數據量巨大,無法實現早期檢測,難以獲取高維度的特征數據等問題。

由于微博謠言的檢測使用淺度機器算法需要進行特征提取與數據標注等操作,此過程需要耗費大量的人力物力,且在識別精度較差。而深度學習具有更強的特征學習能力,能學習到更復雜、本質的特征,所以學者們逐漸將注意力轉移到深度學習。例如Ma 等人首次利用遞歸神經網絡來捕捉相關帖子的內容隨序列變化的隱藏表示[9],用來獲取更多的語義特征,但隨著遞歸神經網絡層數加深出現梯度爆炸與消失等問題。為了解決上述方法的問題,Chen 提出了一個基于循環神經網絡的深度注意力模型,該模型能選擇地學習帖子的時間隱藏表示而且能同時能捕捉上下文的隱藏表示,挖掘更深層次的文本特征[10]。為了能實現微博謠言的早期檢測,Nguyen 提出了一種早期謠言檢測算法,該模型能同時利用CNN 捕捉短語的局部特征以及使用LSTM 來理解全局和時態的tweet 語義,并建立了動態序列的時間結構[11],但該方法只是在單一推特級別建模來解決這個問題,忽略了謠言之間的關系。Lukasik 提出了一種基于Hawkes 的連續時間序列過程的Twitter姿態序列分類模型,考慮了時態文本序列的文本信息與連續信息[12]。上面三個方法[10-12]加入了時間特征,在擁有極高的準確度的同時更好的觀察謠言隨時間變化而出現的變化。Roy 建立了基于卷積神經網絡(CNN)和雙向長短時記憶的模型(雙LSTM)網絡,從這兩個模型學到的向量表示又輸入到多層感知器模型(MLP)中進行謠言識別[13]。為了能解決方法[11]對單一文本級別建模,Li 捕捉微博事件群體對包括情感和語義在內的響應信息的演變[14]。方法[10,11,14]分別通過注意力機制、LSTM 或者門控單元來對不同特征施加不同的權重,控制了隱藏層的信息流動。選擇關注較高微博進行檢測,一定程度的解決了梯度爆炸等問題。

雖然深度學習較淺度機器學習擁有更高的準確率與特征學習能力,能捕獲更為深層且本質特征。但現有的深度學習仍然存在訓練周期較長,面對海量數據難以實現全面檢測,謠言檢測的冷啟動問題仍未得到解決等。但我們提出的基于熱量模型能很好地解決如何對海量數據進行檢測的問題,且LTransformer 模型能很好地挖掘深層語義特征。

2 LTransformer模型

首先對數據集進行基于熱量的潛在話題模型的檢測。由點贊數,關注數與轉發數形成的該條微博的關注度,和構成該條微博的重要性一起輸入到熱量模型進行建模,篩選出那些在一個時間窗口內熱量較多的微博,即可能為謠言的微博。其次將篩選出來的微博先通過LDA 算法提取出微博的主題特征。通過LDA算法得出每個微博包含的特征詞,然后將具有相同主題的特征即詞義相似的微博歸為一類,而不當成單一的文本來處理。最后將具有有相同主題特征的微博輸入Transformer 模型中進行語義分析。先將微博文本詞向量化后,再加上位置編碼關注詞語的上下文關系,最后輸入Transformer 模型后再用sigmod 激活函數進而將微博數據分類為正常微博與謠言微博,從而實現謠言檢測,本文提出的基于潛在話題微博謠言檢測模型如圖1 所示。

圖1 LTransformer模型整體框架圖

2.1 基于熱量模型的微博的潛在話題檢測模型

為了捕獲微博中潛在話題的特征,及時的發現微博中的謠言的傳播,解決謠言檢測冷啟動問題。本文采用基于熱量模型的微博潛在話題檢測。這是由于謠言形成與傳播所經歷的生命周期與熱力學模型中的熱量傳導過程類似,在熱量模型中的溫度差ΔT 表示在單位時間內溫度的變化,而比熱容c 和介質質量m 反映出介質的性質。而對應于謠言形成與傳播過程而言,溫度差ΔT 可以表示在單位時間內對該微博受關注的程度,而比熱容c 則表示為是微博在網絡中的傳播速度,而質量m 可以認為該微博的重要程度。單位時間微博增長的熱度Q 可以看作是熱量模型中傳播的熱量。以此可以篩選一些熱度較低的微博而不進行檢測。所以本文提出的基于改進熱量模型的潛在話題檢測如下:

其中ΔT 為是微博的關注度,該值由微博的點贊數,評論轉發數與評論數共同決定。這三個值越大,則ΔT 值越大,表示該微博越受關注;m 為微博的重要程度,由公式(2)的TF-IDF 所決定,表示該條微博在該語料中的重要性。m 值越大,表示該條微博越重要;

c 為微博的傳播速度,本文假定每條微博在網絡中傳播速度一樣;Q 為一個時間窗口微博熱度值,Q 值越大,表示該條微博熱度越大,當計算得到的Q 值大過我們設置的熱度閾值,即可篩選出該條微博作為模型輸入,從而實現了微博潛在話題的檢測。

2.2 基于潛在狄利克雷分布模型的主題詞提取

本文為了關注謠言之間的關系,將文本中詞義相似的微博歸類處理。所以采用基于LDA 模型的主題詞提取。LDA 主題模型是一種運用于語義挖掘領域的文檔主題生成模型,是基于貝葉斯網絡話題模型對潛在語義分析的擴展,它能給出文檔中主題詞的概率分布。其模型核心是每篇文檔都會產生一個主題分布θ,并且每個主題都會產生一個詞分布φ。具體的LDA 概率圖模型如圖2 所示。

圖2 LDA概率圖模型

對于上圖中LDA 概率圖而言,對于文檔d,其文檔主題的狄利克雷分布為θd,對于主題詞k 的狄利克雷分布為φk可由下式求得:其中α,β為分布的超參數。

而根據主題分布生成m 個主題概率Zd,n可由下面式子計算得到:

最后得到的單詞概率Wd,m是根據主題概率分布Zd,n,與主題詞分布φk聯合計算可得:

對于所有微博數據,我們通過使用LDA 模型從模型參數α中生成與文檔d 對應的主題分布為θd,其中主題分布θd∈{θ1,θ2,θ3,…,θn},然后根據主題分布生成對應的主題z,另一邊從模型參數β生成與主題詞分布φk,然后根據主題詞分布φ和主題取樣生成相應的主題詞w,直到所有微博都訓練完成。最后,所有微博都生成對應的主題詞。然后對相同時間內的所有微博的主題分布進行平均,即得到n 個基于LDA 的主題分布特征,以此獲得LDA 的主題分布特征。

2.3 基于Transformer模型語義挖掘的微博謠言模型

本文需要對微博深層語義進行分析從而進行謠言檢測。而CNN、RNN 由于在語義特征的提取能力方面,長距離特征的捕獲能力方面,并行計算力方面都不如Transformer 模型,所以本文提出了基于Transformer模型語義挖掘的微博謠言模型。將語料通過LDA 處理得到的n 個主題分布特征輸入進Transformer 模型,進行謠言檢測。Transformer 是谷歌的機器翻譯團隊在一篇論文中提出的模型,該模型摒棄了深度學習常用的RNN 與CNN,Transformer 模型采用的是自編碼的encoder-decoder 架構,并且是由6 個encoder 和decod?er 層分別堆疊在一起形成的,相較于attention 模型的結構更為復雜。一個子圖層的Transformer 結構圖如圖3 左側框圖為Encoder 層,右邊為decode 層。

圖3 Transformer結構子圖

(1)位置編碼

在encoder 層前添加了一個位置編碼來解釋輸入序列中單詞的順序,或是不同詞之間的距離。該位置向量的計算方式如:

其中i 是指詞在向量中位置,如果是偶數,則使用式(7),如果是奇數,則用式(8),pos 表示在句子中詞的位置,最后把之前處理得到的主題分布特征的經過詞向量后得到的文本表示和位置編碼計算得到的值PE求和,作為模型輸入。

(2)多頭自注意力

每一個encoder 層里由多頭自注意層和前饋神經網絡組成。多頭注意層是通過對多對Q,K,V 進行不同的線性變換,最后將不同的attention 綜合起來:

而如果對于自注意,則是Q,K,V 值相同。

(3)掩碼

這兒的掩碼的目的是在訓練時會對一些值進行掩蓋,讓其不會接觸到預測的值。

基于Transformer 模型的謠言處理流程:將LDA 處理完成后的n 個主題特征作為數據集,然后將所有詞輸入的Transformer 模型進行attention 計算,能捕獲詞的依賴關系和內部結構。對微博數據進行謠言和正常微博分類。

3 實驗

3.1 數據集

本文所使用的數據集來自馬靜公開的數據集。該數據集時馬靜從微博官方辟謠平臺新浪社區管理中心爬取得到,該數據集有2315 條非謠言,2313 條謠言。該數據集詳細情況如表1。

表1 數據集

3.2 實驗分析

3.2.1 基線

為了驗證本文提出的方法的有效性,將本文方法和其他幾種謠言檢測的基線方法在相同的數據集上進行實驗對比分析。本文測試的基線方法如下:

(1)2-GRU-DTS 模型[22]。是一種基于動態時間序列(DTS)算法和兩層門控遞歸單元(GRU)模型謠言事件檢測新方法,并引入模糊時間序列模型的區域劃分。

(2)CNN 模型[24]。構建了一個卷積神經網絡,利用多個濾波器的大小對短文本進行分類。

(3)Hawkes 模型[19]。在四個推特數據集建立了時間敏感序列分類,并建立了最新的謠言立場分類方法,增加一個新的標簽評論。

(4)DTC 模型[25]。提取了六個特征來進行謠言檢測,并用J48 決策樹來進行分類。

(5)LSTM-DSTS 模型[18]。首先利用神經網絡來提取特征,使用LSTM 獲得文本表示,并與時間序列DSTS 的謠言分類模型結合。

3.2.2 分析結果如表2 所示,由于DTC 模型只是用淺度機器學習算法對于六個特征進行分類,故在精度,準度以及f1 得分都比不上其他方法。其次,基于CNN 模型和基于Hawkes 模型的表現稍好,是因為CNN 使用了128個濾波器能對整條微博文本進行處理,而Hawkes 算法是因為對特征新增了一個時間序列。給特征增加了一個維度。2-GRU-DTS 和LSTM-DSTS 表現不錯,2-GRU-DTS 利用兩層GRU 模型能學習隱藏事件表示自然地擬合時間間隔,并且能更好的捕捉隱藏的特征表示。LSTM-DSTS 使用群體預測綜合,所以性能較好。由實驗數據表明。我們的方法在任何一項得分都高于其他基線方法,所以通過對比實驗得出,本文能在微博謠言檢測上具有出更好的效果。

表2 不同謠言檢測方法對比實驗

3.2.3 模塊分析

表3 模塊測試表

為了測試我們的模型的模塊的必要性,通過設置模型單獨移除基于熱量模塊、LDA 模塊和Transformer模塊,得到的數據和上圖所示,沒有基于熱量模塊,該模型檢測時間增加4 倍,因為缺少了對潛在話題的檢測,是對所有數據進行檢測,所需的檢測時間增加,同時準確度也在由于較多語料的噪聲導致下降。缺少LDA 模塊,精確度下降8%,時間增加了20s,是因為沒有將具有相同特征的數據進行處理,對單獨數據進行處理。缺少了Transformer 模型,精度下降17%,因為缺少對文本的語義特征進行深層次挖掘。3.2.4 早期謠言檢測

早期的謠言檢測可使謠言在爆發遭成惡劣影響前被檢測到,可以通過設置不同的時延來比較本文提出的方法與基線方法的謠言檢測的準確度,以此來評估早期檢測的性能。幾個對比實驗的結果如圖4 所示,隨著時間的推移,所有方法的檢測精度都在逐漸上升。而在最初的0~4 小時內,LSTM-DSTS 在和其他基線方法相比,準確率較高,達到了89%,而我們提出的方法準確率達到了91%,表明了我們模型在早期謠言檢測上擁有巨大的優勢,在4~12 小時內,我們模型準確率上升趨勢放緩,但仍高于其他模型,在12 小時以后,隨著語義特征和結構信息逐漸增多,所有的方法的謠言檢測精度都趨于穩定。實驗結果表明,我們提出的模型在早期謠言檢測是非常有效的。

圖4 早期謠言檢測結果

4 結語

本文提出的基于Transformer 的潛在話題的微博在線檢測模型,篩選并丟棄了大量在一段時間窗口內沒有大量熱度增加的微博,大大降低了檢測的時間。同時從深層挖掘微博語義來判斷謠言與否,并且在模型評估中,所有模塊的組成完整模型的檢測精度很高,且在和其他先進謠言檢測算法對比,無論在檢測時間上還是檢測精度上都具有不錯的表現。所以綜上所述,本文提出的模型給謠言檢測提供了一種有價值的參考。在以后的研究中,將計劃加上對微博傳播結構的研究,更進一步準確且有效地提升謠言檢測的效果。

猜你喜歡
語義特征檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
語言與語義
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
小波變換在PCB缺陷檢測中的應用
認知范疇模糊與語義模糊
主站蜘蛛池模板: 91精品啪在线观看国产91九色| 五月婷婷激情四射| 国产无码性爱一区二区三区| www亚洲天堂| 久久五月视频| 性喷潮久久久久久久久| 国产精品色婷婷在线观看| 精品91在线| 大香网伊人久久综合网2020| 欧美性天天| A级全黄试看30分钟小视频| 国产日韩精品欧美一区灰| 国产视频a| 毛片久久久| 日韩欧美中文在线| 成年人国产视频| 国产精品lululu在线观看| 亚洲性日韩精品一区二区| 91成人免费观看| 免费va国产在线观看| 毛片免费观看视频| 国产日韩欧美精品区性色| 伊大人香蕉久久网欧美| 亚洲精品国产日韩无码AV永久免费网| 国产成人免费手机在线观看视频| 97视频免费在线观看| 好吊色妇女免费视频免费| 日韩天堂视频| 欧美专区在线观看| 精品伊人久久久香线蕉 | 91精品在线视频观看| 亚洲婷婷在线视频| 天堂在线亚洲| 久久99精品国产麻豆宅宅| 亚洲综合经典在线一区二区| 成年网址网站在线观看| 亚洲swag精品自拍一区| 欧美精品v欧洲精品| 亚洲国产综合精品中文第一| 九九线精品视频在线观看| 永久免费AⅤ无码网站在线观看| 亚洲自偷自拍另类小说| 18黑白丝水手服自慰喷水网站| 国产天天色| 亚洲国产AV无码综合原创| 色天堂无毒不卡| 无码福利日韩神码福利片| 国产欧美日韩在线一区| 国产黄在线免费观看| 中文天堂在线视频| 不卡午夜视频| 日本亚洲欧美在线| 一级成人a毛片免费播放| 69av免费视频| 欧美97色| 亚洲永久色| 在线观看免费人成视频色快速| 日韩精品欧美国产在线| 青青草一区| 三级国产在线观看| 女同久久精品国产99国| 久久久久亚洲av成人网人人软件| 日本高清免费一本在线观看| AⅤ色综合久久天堂AV色综合| 最新日韩AV网址在线观看| 成人在线不卡视频| 在线欧美国产| 免费一级毛片在线播放傲雪网 | 国产精品久久久久久久伊一| 亚洲日本一本dvd高清| 久久这里只有精品2| 日韩久久精品无码aV| 精品无码国产一区二区三区AV| 亚洲一级毛片在线播放| 欧美日本在线观看| 欧美中文字幕无线码视频| 国产乱子伦无码精品小说| 免费国产在线精品一区| 国产产在线精品亚洲aavv| 亚洲熟女偷拍| 免费无遮挡AV| 亚洲成人在线免费|