何湘東 朱亦寧
【 摘 要 】 隨著網絡的普及,越來越多的人能夠在網上自由地發布信息,但這些信息并非總是真實的。網絡謠言傳播速度快,范圍廣,如果不加以控制,負面影響巨大。然而,謠言往往難以識別,特別是完全依靠人力,不僅費時且費力。論文旨在總結謠言識別方面已有的文獻成果,從特征提取、識別方法構建兩個角度,總結分析了當前的主流識別方法,進而對網絡謠言進行防范。最后,論文給出了未來的研究方向。
【 關鍵詞 】 網絡謠言;特征提?。蛔R別算法
【 中圖分類號 】 TP391
【 文獻標識碼 】 A
Internet Rumors Identification Methods and Its Future
He Xiang-dong 1 Zhu Yi-ning 2
(1.Network and Information Center, Nanjing University JiangsuNanjing 210023;
2.Office of Informatization, Nanjing University JiangsuNanjing 210023)
【 Abstract 】 With the popularity of Internet, an increasing number of people post online information freely. But not all these information is necessarily true. With the rapidity and width of internet rumor circulation, if not being controlled properly, the negative impact is enormous. It is time-consuming and laborious if the rumor identification depends solely on mens efforts. The paper summarizes the results in rumor identification from previous studies. Further, to safeguard against online rumors, both feature extraction and identification method construction are adopted by analyzing the mainstream identification methods. In conclusion, the paper presents possibilities for future studies.
【 Keywords 】 internet rumors;feature extraction;identification algorithm
1 引言
隨著微博等社交網絡媒體的興起,網絡謠言帶來的負面影響越來越受到大家的關注。相較于傳統模式,網絡謠言在傳播范圍與影響程度方面有著質的區別。網絡謠言既有針對個人的誹謗,也有針對重大事件的捏造,前者對公民的日常生活帶來不利影響或者改變,后者則可能動搖社會的穩定和諧。為了應對謠言的威脅,世界各國相繼出臺各種措施。韓國謠言制造者最高可判刑5年,印度傳播謠言最高可判刑3年,美國則有近130項法律法規與規范網絡言論有關。法國政府一方面在法律上予以制裁,另一方面也鼓勵公眾建立辟謠網站,提高人們對謠言的識別能力。我國政府同樣在降低謠言對社會影響方面,在不斷地做出努力。
然而由于網絡謠言的隱蔽性,眾多防范與警示措施依舊無法杜絕網絡謠言的產生,針對網絡謠言的學術研究也沒有停止過。為了識別謠言,學者們從多個角度試圖找出謠言共性,構建高精度識別模型,努力將謠言的危害程度降至最低。本文將在第二部分總結謠言識別的主要文獻,第三部分歸納謠言識別的核心問題,第四部分給出當前的研究空白與不足之處,最后對本文進行總結。
2 謠言識別中的文本屬性提取
研究對象的特征提取是謠言識別的關鍵問題之一,其反映了網絡信息的可信程度,是識別謠言的基礎。通常關鍵屬性可以歸納為四種,即文本屬性、網絡用戶屬性、網絡屬性、構造屬性等。其中前三種屬性可以從網絡中直接提取,第四種屬性需要對原始數據進行計算分析,構造出適合識別算法的屬性,這種屬性往往包含在前三種之中。
文本屬性:文本屬性是識別謠言類文章普遍考慮的屬性。任何謠言,在文本內容上,都有別于事實。文本屬性一般包括謠言發布時間、是否包含URL、文本長度、關鍵詞提取和簡單語義分析等。Benevenuto等人[1]發現,URL包含與否是識別謠言的重要特征。除此之外,文本發布時間和地點能有助于快速判斷描述內容的真實性,需找信息相關事件的發生源頭,有助于算法或其他方法識別結果的準確性。
網絡用戶屬性:網絡用戶屬性包括人口統計數據、網絡特征數據和個人情感、信仰等主觀因素。人口統計數據包含用戶的年齡、性別、住址等;網絡特征數據包括用戶注冊時間、個人網站描述、好友數、粉絲數等;個人情感包括喜怒哀怨、信仰等。Aditi Gupta[2]、Manish Gupta等[3]使用了好友數、粉絲數、是否被網站認證、注冊時間作為用戶特征。但是,這些屬性只能反映用戶的靜態特征,Victoria[4]則選取了個人信仰、微博觀點傾向等作為用戶的動態特征。
信息傳播特征:信息傳播特征是識別謠言的重要特征。對于SNS和微博等不同的網絡形式,謠言傳播的拓撲結構存在差異,SNS是雙向關注類型,而微博允許單向關注。任一奇等[5]認為謠言在微博中具有“由點到面的核裂變傳播”特征。一般的信息傳播特征包括發布者與轉發者之間的關系、被轉發微博再加工屬性、轉發數、轉發率等因素。然而,該特征由于僅僅考慮了一些結構上的變化,不包括從評論內容包含的信息有用性或轉發者類型上的分析。因此研究中需要對這兩方面進行進一步具體的分析,找出其中有效用戶與有效評論,再使用信息傳播特征,以提高識別算法或其他評估方法有效性的可信度。
3 謠言識別相關方法
近年來,國內外學者從不同角度進一步去研究如何識別謠言,特別是在網絡謠言識別與分析方面。國外研究者在這方面起步較早,在該研究領域較為成熟。
謠言的識別離不開語義分析,與傳統的自然語言處理(NLP)中情緒分析任務非常相似。Hassan[6]使用監督馬爾可夫模型、詞性、依賴關系模式來識別Usenet討論區帖子主題的態度極性。Godbole[7]則基于算法自動生成的正面與負面單詞辭典來指定新聞故事的情緒分數。盡管謠言的識別與情緒分析非常接近,但兩者之間存在著一些不同。在謠言識別中,信息接收者關注的不僅僅是個人推文的觀點,也關注推文中的陳述是否引發爭論,因此謠言識別過程是在NLP分析方法的基礎上進一步深入探究,識別謠言與非謠言語義上的差異。
謠言識別與分析的相關研究使用了一系列不同的方法來識別網絡謠言。Mendoza[8]使用Twitter數據來分析用戶在2010年智利地震緊急事件中的行為。該研究分析了轉發網絡拓補結構并發現謠言的傳播模式不同于新聞,謠言受到Twitter社區更多的質疑。Castillo[9]聚焦在如何自動評價一組給定推文的可信程度,他們使用決策樹將所收集熱門話題的微博分為可信與不可信兩類。除了語義分析外,Seo等人[10]提出4種方法選擇SNS中相關話題或事件傳播過程中的節點,然后在節點處使用logistic分類算法,用以監視謠言是否產生。不同于數據挖掘相關算法的謠言識別,另一類研究試圖通過可信度排序找出網絡謠言。Takahashi等人[11]通過對特定危機背景下的關鍵詞設定,依據每條twitter可信度的排序,再挑選被轉發較多傳播范圍較廣的微博,尋找潛在的謠言候選集,從而為進一步確定謠言做準備Morris等[12]發現,信息接收者僅通過內容很難識別謠言,而信息發布者屬性和網絡傳播屬性能顯著提高信息接收者的識別率。
盡管國內微博、SNS起步晚于國外,但是國內這方面研究近幾年進展較快。Yang等[13]根據新浪微博的特點,在使用傳統識別屬性的基礎上,新加入了事件發生地點、客戶端類型屬性,同時先通過人工標碼識別,獲得事件相關的謠言與非謠言數據訓練集,而后運用分類算法對測試集進行分析,其識別精度達70%以上。程亮[14]等人使用經過改進的R-BP神經網絡,對新浪微博特定事件相關謠言進行檢測,算法在運行效率與精度上相對于KNN、傳統BP、SVM等都有顯著提高。Sun等[15]在以往文獻對新浪微博研究的基礎上,除了提取標簽屬性、文本屬性、網絡用戶屬性外,新加入了與事件相關的關鍵詞匹配程度、是否包含負面詞語、是否包含多媒體等屬性,同時使用4種機器學習算法進行分類,新加入的屬性顯著提高了算法精度。相比于國外研究,國內網絡謠言相關研究主要不同點在于微博結構導致的特征選取、中文特點帶來的語義分析上的區別等方面。
4 未來研究方向
目前謠言識別與分析領域的研究已經進入高速發展期。本節將根據上述內容,對未來研究方向進行總結。
自然語言處理:謠言識別的一大軟肋就是自然語言處理方面沒有大的進展。學者們大多通過文本中的靜態特征對文本描述內容進行分析,判斷其準確性,或者建立關鍵詞詞庫,將真實信息與研究對象進行比對。然而由于網絡信息量十分龐大,同時微博具有字數少、特征分散的特點,使得學者很難發現與真實信息差別很小的謠言或不包含詞庫關鍵詞的謠言。那么,未來學者可以將研究重點從現有基礎上,拓展至微型文本語義分析。
機器學習算法:機器學習算法領域的發展已經非常成熟,而且當下深度學習和人工智能領域又有了新的突破。在處理網絡謠言方面,由于網絡拓撲結構龐大、信息量大,語言結構復雜等原因,學者們應該從僅使用常用的算法轉向使用新的算法,進入大數據處理領域。跟進算法領域的最新研究成果,如果能夠實現算法的自我學習與自我辨別,結合網絡信息傳播特征,自動識別網絡拓撲結構中易于發生信息變化的節點,降低人工因素,將會是謠言識別領域的一大飛躍。
從個別事件謠言識別到全網絡謠言監控,從個別網站監控到多途徑監控:謠言識別領域的文章基本都聚焦于選擇是某些重要事件相關的微博或網絡傳聞。然而,網絡上的謠言種類繁多,范圍廣泛,信息來源路徑多樣,僅僅研究個體或個別網站不能滿足日益蓬勃的網絡世界,學者們應該將研究重點從個體謠言識別轉為構建個體與整體相結合的識別框架上,以及從個別網站監控擴展至多途徑監控。
謠言實時識別:學者文獻中的謠言樣本都是事后收集而來。然而,只有在謠言產生于傳播初期就能夠將其識別,才能將謠言的危害降至最低。目前,由于謠言初期具有隱蔽性特征,對謠言的實時監控仍然是具有挑戰性的課題。
5 結束語
到目前為止,越來越多的學者已經意識到快速識別網絡謠言的理論意義和現實意義。本文從網絡謠言領域入手,闡述了網絡謠言識別的背景和意義,針對網絡謠言識別,回顧總結當前謠言識別領域的主要任務和相關研究成果,同時指出當前研究的不足之處和未來可能的研究方向。然而網絡謠言識別是一個非常困難的任務,需要以后學者不斷的探索,在自然語言處理和算法創新上做出努力,跳出局限于某個話題或者某件事的謠言識別,以順應大數據時代的到來。
參考文獻
[1] Benevenuto F,Magno G,Rodrigues T,et al.Detecting spammers on twitter[C]//Collaboration, electronic messaging, anti-abuse and spam conference (CEAS). 2010,6: 12.
[2] Gupta A,Kumaraguru P.Credibility ranking of tweets during high impact events[C]// Proceedings of the 1st Workshop on Privacy and Security in Online Social Media. ACM,2012:2-8.
[3] Gupta M, Zhao P, Han J. Evaluating Event Credibility on Twitter[C]// Sustainable Design and Manufacturing. 2012: 153-164.
[4] Rubin V L,Liddy E D. Assessing Credibility of Weblogs[C]//AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 2006: 187-190.
[5] 任一奇,王雅蕾,王國華,等. 微博謠言的演化機理研究[J].情報雜志, 2012, 31(5).
[6] Hassan A, Qazvinian V, Radev D. What's with the attitude?: identifying sentences with attitude in online discussions[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 1245-1255.
[7] Godbole N, Srinivasaiah M, Skiena S. Large-Scale Sentiment Analysis for News and Blogs[C]// International Conference on Weblogs and Social Media. 2007:219-222.
[8] Mendoza M, Poblete B, Castillo C. Twitter Under Crisis: Can we trust what we RT?[C]// Social Media Analytics, SOMA, KDD workshop. 2010:71-79.
[9] Castillo C, Mendoza M,Poblete B. Information credibility on twitter[C]//Proceedings of the 20th international conference on World wide web. ACM, 2011: 675-684.
[10] Seo E, Mohapatra P,Abdelzaher T. Identifying rumors and their sources in social networks[C]// SPIE Defense, Security,and Sensing. International Society for Optics and Photonics,2012:83891I-83891I-13.
[11] Takahashi T, Igata N. Rumor detection on twitter[C]// Joint, International Conference on Soft Computing and Intelligent Systems. 2012:452-457.
[12] Morris M R,Counts S, Roseway A,et al. Tweeting is believing?:understanding microblog credibility perceptions[C]// Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work. ACM,2012:441-450.
[13] Yang F, Liu Y, Yu X, et al. Automatic detection of rumor on Sina Weibo[C]// ACM SIGKDD Workshop on Mining Data Semantics. ACM, 2012:1-7.
[14] 程亮,邱云飛,孫魯. 微博謠言檢測方法研究[J].計算機應用與軟件,2013,30(2):226-228.
[15] Sun S, Liu H, He J, et al. Detecting event rumors on sina weibo automatically[C]//Asia-Pacific Web Conference. Springer Berlin Heidelberg, 2013: 120-131.
作者簡介:
何湘東(1975-),男,滿族,吉林人,畢業于吉林大學,碩士,南京大學網絡信息中心信息系統部主任,工程師;主要研究方向和關注領域:高校信息化建設、網絡安全。
朱亦寧(1959-),男,漢族,江蘇人,畢業于東南大學,學士,南京大學信息化建設與管理辦公室主任,副研究員;主要研究方向和關注領域:智慧校園、網絡安全與優化。