999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

自動(dòng)謠言檢測(cè)分析與實(shí)現(xiàn)

2016-09-20 07:22:32馮程梁剛周鴻宇楊進(jìn)四川大學(xué)計(jì)算機(jī)學(xué)院成都60065樂山師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院樂山64000
現(xiàn)代計(jì)算機(jī) 2016年7期
關(guān)鍵詞:特征用戶

馮程,梁剛,周鴻宇,楊進(jìn)(.四川大學(xué)計(jì)算機(jī)學(xué)院,成都 60065;.樂山師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,樂山 64000)

FENG Cheng1,LIANG Gang1,ZHOU Hong-yu1,YANG Jin2(1.College of Computer Science,Sichuan University,Chengdu,Chengdu 610065;2.College of Computer Science,Leshan Normal University,Leshan,Leshan 614000)

自動(dòng)謠言檢測(cè)分析與實(shí)現(xiàn)

馮程1,梁剛1,周鴻宇1,楊進(jìn)2
(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.樂山師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,樂山614000)

0 引言

隨著微博的發(fā)展,微博從傳統(tǒng)的社交工具轉(zhuǎn)變?yōu)橛脩舴窒硇畔⒌闹匾獊碓碵1]。截至2015年10月,新浪微博月活躍用戶數(shù)達(dá)到2.2億,每日發(fā)布的微博數(shù)超過1億條[2]。在提供信息便利的同時(shí),微博也面臨著謠言泛濫的問題。據(jù)2015年中國(guó)社科院新聞與傳播研究所發(fā)布的《新媒體藍(lán)皮書》調(diào)查顯示,近六成的假新聞首發(fā)于微博[3]。謠言是指真相或來源不可靠的消息,其傳播會(huì)引起公眾的恐慌,擾亂社會(huì)的秩序,降低政府的公信力,甚至危及國(guó)家安全。如2011年的日本核電站泄露事故,有謠言稱日本核輻射會(huì)污染海水導(dǎo)致以后生產(chǎn)的鹽都無(wú)法食用,而且吃含碘的食用鹽可防核輻射,從而導(dǎo)致了鹽價(jià)上漲,民眾大量搶購(gòu)食鹽[4]。

為了抑制微博謠言泛濫的問題,學(xué)術(shù)界和相關(guān)行業(yè)提出了基于手工的識(shí)別技術(shù)和基于機(jī)器學(xué)習(xí)的識(shí)別技術(shù)。基于手工的識(shí)別技術(shù)由人為判別,需較長(zhǎng)的時(shí)間周期并依賴鑒定者的專業(yè)能力。基于機(jī)器學(xué)習(xí)的方法是一種自動(dòng)識(shí)別的技術(shù),它將謠言問題看作分類問題,通過提取謠言和其傳播的特征用于訓(xùn)練分類模型。該方法受平臺(tái)限制,并且特征的設(shè)計(jì)與選擇較為困難。本文在前人基礎(chǔ)之上,提出了并實(shí)現(xiàn)了一種微博謠言的自動(dòng)識(shí)別系統(tǒng)。由于沒有任何一種單一的學(xué)習(xí)算法在所有情況下都具有優(yōu)勢(shì),不同的學(xué)習(xí)算法可能會(huì)得到類似的結(jié)果[5],并且最有效的特征通常對(duì)機(jī)器學(xué)習(xí)的結(jié)果有著巨大的影響[6],因此有效特征的選擇對(duì)于謠言檢測(cè)非常重要。前人的研究集中使用微博的固有特征[7-9],而忽略隱含因素的影響,因此本文在前人的研究基礎(chǔ)上提出兩個(gè)微博的隱特征:贊的數(shù)目和置疑度。

1 相關(guān)工作

為了識(shí)別微博中的謠言,微博服務(wù)提供商做了大量的努力。新浪微博推出了名為“微博辟謠”的官方賬號(hào),由7名經(jīng)驗(yàn)豐富的編輯組成,對(duì)新浪微博24小時(shí)不間斷監(jiān)控。微博辟謠定期收集和判斷微博中的謠言消息,并將結(jié)果以微博的形式發(fā)布,凡是關(guān)注該賬號(hào)的用戶都可以及時(shí)收到辟謠消息。另外,新浪微博還提出了基于眾包技術(shù)的“不實(shí)消息舉報(bào)”服務(wù)。任何用戶都可以通過這個(gè)平臺(tái)舉報(bào)謠言,最終由微博社區(qū)服務(wù)中心的編輯進(jìn)行判斷并通過微博展示結(jié)果。由于消息的正確性完全由人工判斷、識(shí)別周期長(zhǎng),這些方法不能有效地識(shí)別謠言。

為了解決手工識(shí)別方式的缺點(diǎn),提出了基于機(jī)器學(xué)習(xí)的自動(dòng)識(shí)別技術(shù)。Mendoza[7]中從Twitter中提取出68個(gè)特征并歸為4類:基于內(nèi)容的特征、基于用戶的特征、基于傳播的特征和基于話題的特征。后續(xù)的一些研究在不同的研究對(duì)象上分析出更適合的特征,或者從不同角度發(fā)現(xiàn)更具有代表性的特征。如Yang[8]等提出了客戶端類型和事件地點(diǎn)兩個(gè)新的特征;Sun[9]等提出了消息使用的實(shí)意動(dòng)詞數(shù)、消息是否包含強(qiáng)烈消極詞匯等,并針對(duì)于圖文不符類謠言提出了基于多媒體的特征;Cai[10]根據(jù)轉(zhuǎn)發(fā)和評(píng)論文本簇聚消息得到關(guān)鍵詞作為特征。這些研究集中使用微博的固有特征,而忽略了微博中各個(gè)實(shí)體間的聯(lián)系和其中隱藏的特征,如微博之間的爭(zhēng)議、用戶態(tài)度等。

2 機(jī)器學(xué)習(xí)問題模型

謠言識(shí)別可以看作機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí),監(jiān)督學(xué)習(xí)的任務(wù)是通過學(xué)習(xí)使得模型能夠?qū)θ我饨o定的輸入,對(duì)其相應(yīng)的輸出做出一個(gè)好的預(yù)測(cè)。監(jiān)督學(xué)習(xí)的模型可以是概率模型或非概率模型,由條件概率分布P (Y|X)或決策函數(shù)Y=f(x)表示。其中X稱為輸入變量,Y稱為輸出變量。在監(jiān)督學(xué)習(xí)中,輸入變量的取值記作x,通常由特征向量表示:

x=(x(1),x(2),…,x(i),…,x(n))

x(i)表示的第i個(gè)特征,通常使用xi表示多個(gè)輸入變量中的第i個(gè),即:

xi=(xi(1),xi(2),…,xi(n))

監(jiān)督學(xué)習(xí)從訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)模型,對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè)。訓(xùn)練數(shù)據(jù)由輸入與輸出對(duì)組成,通常表示為:

T={(x1,y1),(x1,y1),…,(xN,yN)}

xi∈N哿R表示輸入,即特征向量;yi表示輸出,即預(yù)測(cè)結(jié)果。測(cè)試數(shù)據(jù)也由相應(yīng)的輸入與輸出對(duì)組成。監(jiān)督學(xué)習(xí)分為學(xué)習(xí)和預(yù)測(cè)兩個(gè)過程,在學(xué)習(xí)過程中,利用給定訓(xùn)練集學(xué)習(xí)得到模型,表示為概率模型或決策函數(shù)。在預(yù)測(cè)過程中,對(duì)于給定測(cè)試樣本中的輸入xN+1,由模型yN+1=argmaxyN+1P(yN+1|xN+1或yN+1=f(xN+1)給出相應(yīng)的yN+1。

3 特征

特征選擇和提取是機(jī)器學(xué)習(xí)的重要步驟,在文獻(xiàn)[8]中列舉出了68個(gè)特征用于謠言檢測(cè)。本文分析了微博的特性,使用Best-first策略選擇了其中的7個(gè)特征,如表1所示。

表1 特征描述

在此基礎(chǔ)上,本文分析了微博中包含的隱藏信息,提出了兩個(gè)新的特征:贊的數(shù)目和置疑度。新浪微博中提供了 “贊”的操作用于統(tǒng)計(jì)用戶對(duì)該微博的喜好。Mendoza[7]指出微博平臺(tái)中的謠言消息通常會(huì)比正常消息受到更多的置疑。通過觀察發(fā)現(xiàn),對(duì)于熱點(diǎn)話題,正常消息的“贊”的數(shù)目和謠言消息的“贊”的數(shù)目存在明顯的區(qū)別。置疑度定義為評(píng)論數(shù)與轉(zhuǎn)發(fā)數(shù)之間的關(guān)系,定義為:

評(píng)論數(shù)通常表示用戶對(duì)該條消息存在者不同的態(tài)度或其他的想法,而轉(zhuǎn)發(fā)數(shù)通常表示了用戶對(duì)該條微博存在支持的態(tài)度,置疑度表示了用戶對(duì)微博消息存在不同態(tài)度的比率。我們將收集到的數(shù)據(jù)進(jìn)行處理,提取“贊”的數(shù)目及置疑度與消息之間的關(guān)系,使用箱線圖描述兩個(gè)新特征區(qū)分消息的能力,得到如圖1所示的結(jié)果。

如圖1所示,“贊”的數(shù)目和置疑度對(duì)謠言和正常消息有著明顯的區(qū)分能力。通常正常消息的“贊”的數(shù)目會(huì)更多。與此同時(shí),謠言的置疑程度也明顯區(qū)別于正常消息。

4 實(shí)驗(yàn)

4.1數(shù)據(jù)集

本文通過模擬登錄weibo.cn頁(yè)面,構(gòu)造URL抓取微博數(shù)據(jù)。數(shù)據(jù)集中包含了1000條正常數(shù)據(jù)和1000條謠言數(shù)據(jù)。在實(shí)驗(yàn)過程中,本文使用10則交叉驗(yàn)證

進(jìn)行訓(xùn)練和驗(yàn)證分類器。

圖1 兩個(gè)新特征對(duì)于1(謠言)和2(正常消息)貢獻(xiàn)的箱線圖

4.2實(shí)驗(yàn)結(jié)果

本文經(jīng)過分析,提取出包含了新特征的9個(gè)特征用于謠言檢測(cè)系統(tǒng),最后使用標(biāo)準(zhǔn)信息檢索度量值準(zhǔn)確率、召回率和F1來評(píng)估方法的性能。精度表示被正確標(biāo)注的謠言占分類器預(yù)測(cè)為謠言的比率。召回率表示被正確標(biāo)注的謠言占真正謠言的比率。F1是精度和召回率的一個(gè)綜合評(píng)價(jià),定義為:

在實(shí)驗(yàn)過程中,我們分別使用三種不同的分類算法構(gòu)造分類器。實(shí)驗(yàn)結(jié)果如圖2所示。

如圖2所示,SVM分類器、貝葉斯分類器和決策樹分類器的準(zhǔn)確率分別是87%、83%和78%,F(xiàn)1分?jǐn)?shù)分別為0.855、0.850和0.765。決策數(shù)在三者中精度較低,這是因?yàn)樘卣髦杏猩僭S的特征分類能力較弱。而從整體結(jié)果看出,選擇不同的機(jī)器學(xué)習(xí)算法得到的結(jié)果是相似的。

圖2 三種不同分類算法結(jié)果對(duì)比圖

5 結(jié)語(yǔ)

微博給消息傳播提供了一個(gè)良好的平臺(tái),同時(shí)也面臨著謠言泛濫的問題,找到一種有效的自動(dòng)謠言識(shí)別方法是非常重要的。本文分析了基于機(jī)器學(xué)習(xí)的分類模型,實(shí)現(xiàn)了一個(gè)自動(dòng)謠言檢測(cè)系統(tǒng)。并挖掘微博中包含的隱藏信息,提出了贊的數(shù)目和置疑度兩個(gè)新的特征。實(shí)驗(yàn)結(jié)果證明本文提出的方法與特征的可行性和有效性。

[1]M.Mendoza,B.Poblete,C.Castillo,Twitter Under Crisis:Can We Trust What We RT[C].Proceedings of the First Workshop on Social Media Analytics,2010:71-79.

[2]Weibo MAUs 198 Mln in Q1 2015,Up 38%YoY.http://www.chinainternetwatch.com/13364/weibo-q1-2015/.

[3]報(bào)告稱近六成假新聞首發(fā)于微博 周二微信謠言最多.http://www.chinanews.com/gn/2015/06-24/7362797.shtml.

[4]人民日?qǐng)?bào)盤點(diǎn)十大網(wǎng)絡(luò)謠言軍車進(jìn)京、搶鹽風(fēng)波上榜.http://news.xinhuanet.com/politics/2012-04/16/c1117824495.htm.

[5]J.Friedman,T.Hastie,R.Tibshirani.The Elements of Statistical Learning vol.1:Springer Series in Statistics Springer,Berlin,2001. [6]M.A.Hall.Correlation-Based Feature Selection for Machine Learning.The University of Waikato,1999.

[7]C.Carlos,M.Marcelo,P.Barbara,Information Credibility on Twitter[C].Proceedings of the 20th International Conference on World Wide Web,2011:675-684.

[8]Y.Fan,L.Yang,Y.Xiaohui et al.Automatic Detection on Sina Weibo[C].Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics,2012,13.

[9]S.Shengyun,L.Hongyan,H.Jun et al.Detecting Event Rumors on Sina Weibo Automatically[J].Web Technologies and Applications,2013:120-131.

[10]C.Guoyong,W.Hao,L.Rui,Rumor Detection in Chinese Via Crowd Responses[C].2014 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining,2014.

Rumor;Social Media;Microblog;Machine Learning

Research and Implementation of Automatic Rumor Detection

1007-1423(2016)07-0040-04

10.3969/j.issn.1007-1423.2016.07.009

馮程(1992-),男,貴州桐梓人,碩士研究生,研究方向?yàn)榫W(wǎng)絡(luò)安全、機(jī)器學(xué)習(xí)

梁剛(1976-),男,四川成都人,博士,講師,研究方向?yàn)榫W(wǎng)絡(luò)安全、智能計(jì)算、機(jī)器學(xué)習(xí)

周泓宇(1990-),男,重慶人,碩士研究生,研究方向?yàn)闄C(jī)器學(xué)習(xí)

楊進(jìn)(1980-),男,四川樂山人,博士,教授,研究方向?yàn)榫W(wǎng)絡(luò)安全、機(jī)器學(xué)習(xí)

2016-01-26

2016-02-26

FENG Cheng1,LIANG Gang1,ZHOU Hong-yu1,YANG Jin2
(1.College of Computer Science,Sichuan University,Chengdu,Chengdu 610065;2.College of Computer Science,Leshan Normal University,Leshan,Leshan 614000)

針對(duì)微博中謠言泛濫的問題,提出一種自動(dòng)識(shí)別謠言的方法。該方法基于機(jī)器學(xué)習(xí)的原理,并在前人的基礎(chǔ)上,結(jié)合贊的數(shù)目和置疑度兩個(gè)新特征。實(shí)驗(yàn)結(jié)果顯示結(jié)合新特征實(shí)現(xiàn)的系統(tǒng)在識(shí)別謠言上準(zhǔn)確率達(dá)到82%,驗(yàn)證所提出的方法與特征的可行性和有效性。

謠言;社交網(wǎng)絡(luò);微博;機(jī)器學(xué)習(xí)

四川省科技廳項(xiàng)目(No.2014JY0036)、四川省教育廳創(chuàng)新團(tuán)隊(duì)基金(No.13TD0014)

Aiming at the spread of rumor in microblog system,proposes an automatic rumor detection method.It is based on the principle of ma-chine learning and combined with the number of pros as well as the number of the doubt on the basis of previous studies.The experiment shows that system with new features reaches 82%accuracy rate.Thus,it proves that system that implemented is feasible and two new fea-tures are efficient.

猜你喜歡
特征用戶
抓住特征巧觀察
新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
100萬(wàn)用戶
主站蜘蛛池模板: 欧美成人综合视频| 国产成人综合日韩精品无码首页| 国产丰满成熟女性性满足视频| 国产主播福利在线观看| 97在线观看视频免费| 在线观看视频99| 日韩国产综合精选| 亚亚洲乱码一二三四区| 久久先锋资源| 久久毛片网| 免费A级毛片无码免费视频| 无码视频国产精品一区二区| 欧美另类第一页| 国产又色又刺激高潮免费看| 国产成人乱无码视频| 亚洲狼网站狼狼鲁亚洲下载| 无码福利日韩神码福利片| 国产福利一区视频| 免费不卡视频| 五月婷婷伊人网| 99国产在线视频| 亚洲香蕉在线| 国产91在线|中文| 在线观看亚洲国产| 精品黑人一区二区三区| 国产九九精品视频| 国产小视频在线高清播放| 亚洲男人的天堂网| 亚洲国产精品日韩专区AV| 囯产av无码片毛片一级| 国产视频欧美| 国产久草视频| 伊人色在线视频| 免费一极毛片| 亚洲AV无码久久精品色欲| 婷婷丁香在线观看| 2021精品国产自在现线看| 亚洲无码视频一区二区三区 | 久久精品国产免费观看频道| 欧洲精品视频在线观看| 中文字幕乱码中文乱码51精品| 亚洲天天更新| 亚洲欧洲日韩综合色天使| 91九色国产在线| 亚洲经典在线中文字幕| 天天摸夜夜操| 国产欧美高清| 国产av一码二码三码无码| 久久精品只有这里有| 特级毛片免费视频| 国产成人综合网| 欧美日本在线观看| 欧美一区国产| 国产精品亚洲精品爽爽| 国产精品任我爽爆在线播放6080 | 国产对白刺激真实精品91| 亚洲国产午夜精华无码福利| 国产91精品调教在线播放| www.91在线播放| 久久久国产精品无码专区| 久久精品无码国产一区二区三区| a欧美在线| 无码精油按摩潮喷在线播放| 国产一区二区免费播放| 色综合久久久久8天国| 久久天天躁夜夜躁狠狠| 国产91透明丝袜美腿在线| 福利在线一区| 欧美精品二区| AV在线天堂进入| www.亚洲国产| 在线高清亚洲精品二区| 麻豆精品在线视频| 国产一级视频久久| 91久久偷偷做嫩草影院精品| 看国产一级毛片| 国产高清免费午夜在线视频| 色综合手机在线| 成人毛片免费观看| 久久亚洲国产视频| 国产人人乐人人爱| 亚洲欧洲一区二区三区|