李勝 丁振 左玲
中南財經政法大學,信息與安全工程學院 湖北 武漢 430073
現代網絡技術的高速發展使得越來越多的人開始使用諸如微博、微信、twitter、Facebook等通信社交媒體軟件,這也是人們獲取信息和發布信息的重要平臺。但是社交媒體的開放性和便捷性給社會帶來好處的同時也出現了一些問題,某些營銷號或者個體賬號會發布一些未經證實的推斷或者不真實的信息,這就導致了謠言的產生。于是,在這個天然大數據的環境下,社交媒體又缺乏有效的信息審核制度,謠言可能會在網絡上大量快速地傳播。根據報道,微博上超過三分之一的熱點新聞都含有虛假成分信息[1]。謠言在社交媒體的瘋狂傳播會將不真實的信息快速在網絡上發酵歪曲和誤導群眾,嚴重影響社會安定,甚至可能會影響地區和國家安全。
鑒于謠言帶來的巨大危害,越來越多的研究人員開始探索謠言檢測技術。現有謠言檢測技術主要分為三類:人工檢測方法,基于機器學習的檢測方法和基于深度學習的檢測方法。人工檢測方法準確率高,但具有明顯的滯后性,無法適應社會網絡中海量數據。機器學習方法將社會網絡謠言問題看作有監督學習中的二分類問題,自動化程度高,有效地彌補了人工檢測方法的不足,但該類方法依賴于人工提取與選擇特征,且得到的特征向量魯棒性[3]也不夠健壯。深度學習方法可以獲得更好、更本質的表征性,從而能實現更好的分類效果。相信經過人們不斷的探索和進一步研究,謠言能夠快速并準確的被識別并給出警告,社會也會越來越安定。
一般來說,目前我們更習慣于把謠言檢測類問題看成一個二分類問題。這個問題可以被看作為:給出一個新聞故事或者推文集合,如E = {e1, e2, e3…en},還有一個判斷是否為謠言的類別標簽P = {p1, p2},其中,p1代表是謠言,p2代表不是謠言。我們要做的就是通過大量的數據集學習出一個分類模型M出來,使得對給出任意一條推文,都能預測出一個p1或者p2,從而達到檢測謠言的目的。
社會網絡謠言檢測過程通常包含:數據處理、特征選擇與提取、模型訓練與謠言檢測四個階段。
數據處理包括原始數據的收集與數據標注,數據收集的作用主要有兩項:第一,用于構建模型訓練的數 據集;第二,對社會網絡進行監控,獲取待檢測的社會網絡信息。數據標注則是根據問題及需求的不同對數據 進行不同的標注。
特征選擇與特征提取是從收集的原始數據中選擇與構造出最能代表數據的特征向量集合。對于機器學習方法而言,特征選擇與提取的重要程度甚至超過了模型選擇的重要性。因此現有基于機器學習方法的重要工作是以找到更有效的特征作為提升謠言檢測準確率為主要思路.基于深度學習的謠言檢測具有很強的特征學習能力,其無需對特征進行人工提取即可得到比傳統機器學習更高維、復雜、抽象的特征數據。模型訓練是指根據具體的問題場景從已有的分類模型中選擇模型,并根據模型在訓練數據集上的分類表現調整參數以找到一個最優模型的過程.對于社會網絡謠言問題,如何在充滿噪音且不均衡的海量數據信息中訓練出準確率高的分類器是當前社會網絡謠言檢測問題面臨的最大挑戰。
數據處理是謠言檢測的一個非常重要的環節,數據處理包括了數據數據采集和數據標注兩個部分。
目前關于網絡謠言的數據一般分為三種數據來源:
(1)通過網絡平臺的API接口獲取數據
目前,幾乎所有的社會網絡平臺都向用戶提供了完善的RESTAPI接口,REST即表述性狀態傳遞(Representational State Transfer,簡稱REST)是一套新興的WEB通信協議[2]。這樣方便用戶從社會網絡平臺中獲取到用戶發表的微博、好友關系等社交信息。
(2)利用爬蟲技術獲取數據集
利用網絡爬蟲技術可以以更靈活的方式獲取所需的數據。如:在Facebook中從某一用戶開始不斷搜尋其好友,對整個社交平臺的數據進行爬取。
基于爬蟲技術的獲取數據優點就是能夠獲取到足夠大的供研究的數據,但也有兩個缺點和挑戰:①可能會面臨法律風險,如果擅自爬取未經授權的Web數據,就可能觸犯其所在國家的法律;②面臨的技術難度大,爬蟲技術需要編寫者了解網絡層的各種協議和技術。
(3)通過公開數據集獲取
利用公開數據集可以輕易且合法地獲取標準數據,例如來自于新浪微博和Twitter兩個平臺的公開數據集。此外,清華大學自然語言處理與社會人文計算機實驗室的數據集也較為知名,其數據來源主要為:中文社交媒體謠言數據抓取、中文社交媒體謠言自動識別以及用戶提交,目前仍在不斷更新。
數據標注主要是在進行謠言檢測階段的前一個工作,主要是為了能更好地訓練出一個較優的二分類模型,目前大致有兩種數據標注方式。
(1)人工數據標注
人工標注指的是在獲取到需要的數據集后,專門依靠人力去對初始數據集進行標注工作。該方法簡單方便,但需消耗大量人力和時間,且人工標注也可能會出錯,這主要和標注者的經驗水平有關。
(2)基于半監督學習的標注
由于人工標注存在大量人力時間的消耗,研究人員提出了在謠言檢測問題中引入半監督學習自動標注的方法,在僅需要少量的人工標注數據下,引入了一種CERT框架,該框架聯合聚類數據、選擇特征和訓練分類器實現數據的分類。基于半監督學習的自動標注方法簡單且易實現,在一定程度上緩解了人工標注方法存在的問題,但該方法的先決條件太強,需要研究者能準確地估計數據分布信息。
現階段的謠言檢測技術主要分為三種,即:基于人工的謠言檢測、基于機器學習的謠言檢測和基于深度學習的謠言檢測。
目前在大多數的社交媒體平臺上主要還是用的人工謠言檢測,平臺在用戶或者業內人員的幫助下進行信息核實,謠言甄別。
我國主流社交媒體新浪微博設計了一個舉報處理功能,用戶被鼓勵舉報那些有可能是謠言的虛假文章,微博平臺的專業人士組成的團隊則會仔細做出甄別,并會定期在“微博辟謠”這個官方賬號里公布那些聳人聽聞的謠言。
Facebook的方法是在用戶和外部事實核查人員的幫助下給假新聞貼標簽,用戶會提醒平臺可能出現的謠言,平臺就會將這些疑似謠言的新聞發送給管理員進行核實。
Twitter采用的是,在基于用戶們對每個推文的真實度評價后,Twitter設計了一個結合自動評估和眾包注釋的半自動策略來自動標記可能的虛假推文。
人工檢測謠言的方式準確率較高,但是也存在一些問題:①人工檢測會耗費大量的人力,不斷需要人們去社交媒體的信息進行甄別判斷;②這種方式的檢測質量也直接和判別謠言的人們的學識,能力等因素掛鉤,存在因個人原因誤判的可能;③在大數據時代,社交媒體產生的推文多到我們無法想象,無法僅靠人工完成檢測工作。因此研究自動識別謠言的方法已勢在必行。
在早期的謠言檢測階段研究者們就開始了試圖用機器學習的技術識別謠言。機器學習技術檢測謠言通常包含以下三個部分:①獲取到謠言相關的數據集并劃分訓練集和測試集,然后開始進行特征工程進行特征提取;②利用提取過的特征在訓練集上面訓練出一個分類模型;③利用訓練好的分類模型,經過不斷評估和優化,對測試集進行分類預測。
在機器學習技術檢測謠言的過程中,特征工程是極其重要的環節,其很大程度上決定了機器學習識別謠言的精度。現有用于檢測網絡謠言的特征提取方式主要包括:①基于單一信息的特征提取方式,通過提取單條數據的特征來處理數據;②基于事件級特征提取方式,通過挖掘數據之間層次性關系來提取數據之間的潛在聯系。
與傳統分類器相比,深度學習在許多機器學習問題(例如,對象檢測,情感分類和語音識別)中表現出明顯的優勢,于是研究者們開始嘗試了用深度學習技術進行謠言識別。根據神經網絡的不同結構,可以將神經網絡方法進一步分為兩類:
(1)遞歸神經網絡(RNN)
基于RNN的結構,這種方法將謠言數據建模為順序數。關鍵是RNN中各個單元之間的連接形成一個直接循環并創建網絡的內部狀態,這可能使它能夠捕獲具有謠言擴散特性的動態時間信號。
(2)卷積神經網絡(CNN)
CNN由堆疊的卷積和池化層組成,其結構有助于對重要的語義特征進行建模。基于CNN的方法假定CNN不僅可以從輸入實例中自動提取局部全局重要特征,而且可以揭示那些高級交互。下面將介紹基于這兩種深度神經網絡的謠言檢測方法。
謠言檢測技術經過多年發展,目前的檢測效果在不斷提升中,但是也面臨了一些問題和挑戰如下:
(1)早期檢測。在社交網絡上傳播的故事的生命周期很短,一些研究表明該故事還不到三天。而且,謠言會在幾秒鐘或幾分鐘之內傳播開來。至關重要的是,要盡早發現謠言。但是,大多數現有研究都通過假設謠言在謠言的整個生命周期中都具有全部內容來對其進行檢測。謠言開始時的資源非常有限,以至于在早期發現它非常具有挑戰性。雖然于等。提出一種解決該問題的方法,性能不能滿足早期檢測的需要。
(2)面對突然的大量數據和大量信息的處理效果不夠,目前的方法應對這種多篇數據信息的推文和長篇具有豐富語義信息的推文應對能力還是不夠,檢測時間長,誤差大,會出現“冷啟動”的問題。
(3)在訓練集出現了數據分布不均衡和小樣本的情況下,現有的謠言檢測方法處理起來誤差也較大。因此面對這種偏、怪的數據時,仍需要研究者們設計出一個更好的策略,以應對網絡上的各式各樣的數據集。
在Web2.0時代,自動謠言檢測技術已經是刻不容緩了。面對海量數據的今天,研究者們仍需為更好的謠言檢測方法而努力,凈化網絡里的糟粕垃圾。也希望謠言檢測技術能不斷更新迭代,實現更精準全面的檢測。