999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于詞嵌入的微博謠言主題分類研究

2019-06-09 10:36:01關(guān)菁華劉鑫刁建華
軟件導(dǎo)刊 2019年4期

關(guān)菁華 劉鑫 刁建華

摘 要:近年來,隨著智能移動設(shè)備的普及,人們可以隨時隨地通過網(wǎng)絡(luò)社交媒體獲取與分享信息。然而,便捷的上網(wǎng)方式以及自由的網(wǎng)絡(luò)空間,也為網(wǎng)絡(luò)謠言的產(chǎn)生與傳播提供了條件,廣泛傳播的謠言可能具有極大的破壞性。因此,及時識別謠言對于保障社會穩(wěn)定具有重要意義。使用詞嵌入對微博短文本進行向量化處理,然后使用樸素貝葉斯、K最近鄰和支持向量機對文本向量進行主題分類,以期及時發(fā)現(xiàn)具有周期性出現(xiàn)特點的謠言。將該模型在中文謠言真實數(shù)據(jù)集上進行有效性驗證,使用5 487條數(shù)據(jù)作為訓(xùn)練集,2 703條數(shù)據(jù)作為測試集進行分類實驗。實驗結(jié)果表明,K最近鄰模型相比于樸素貝葉斯模型及支持向量機模型,在謠言主題分類任務(wù)中表現(xiàn)最佳,其F1值和分類準(zhǔn)確率都達到0.93,表明基于詞嵌入的謠言主題分類方法可及時發(fā)現(xiàn)周期性謠言。

關(guān)鍵詞:微博謠言;詞嵌入;主題分類;文本向量

DOI:10. 11907/rjdk. 191169

中圖分類號:TP301文獻標(biāo)識碼:A文章編號:1672-7800(2019)004-0001-03

0 引言

謠言是一種自發(fā)性、擴張性的社會心理現(xiàn)象,至今尚沒有一個公認的定義[1]。本文采用我國《現(xiàn)代漢語詞典》對謠言的定義,謠言即沒有事實根據(jù)的消息。

根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2018年8月發(fā)布的《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,截至2018年6月,中國網(wǎng)民規(guī)模達8.02億,互聯(lián)網(wǎng)普及率達到57.7%。網(wǎng)民中使用手機上網(wǎng)人群占比達到98.3%,且網(wǎng)民上網(wǎng)設(shè)備進一步向移動端集中。迅速增長的網(wǎng)民規(guī)模、方便快捷的上網(wǎng)方式,為網(wǎng)絡(luò)謠言的產(chǎn)生與傳播提供了條件。廣泛傳播的謠言可能具有極大的破壞性,如:2011年郭美美事件爆發(fā)后,謠言四起,在網(wǎng)絡(luò)上不斷發(fā)酵,自事件發(fā)生后,社會捐款數(shù)額以及慈善組織捐贈數(shù)額均出現(xiàn)銳減。根據(jù)民政部統(tǒng)計數(shù)據(jù)顯示,全國2011年7月社會捐款數(shù)額為5億元,與6月相比降幅超過50%。慈善組織6~8月接收的捐贈數(shù)額降幅更是達到86.6%;2015年,有關(guān)“娃哈哈爽歪歪、AD鈣奶等飲料中含有肉毒桿菌”的謠言在微博、微信中熱傳。娃哈哈方面表示,相關(guān)謠言使娃哈哈部分產(chǎn)品當(dāng)年第一季度損失高達20億元。以上案例都說明了網(wǎng)絡(luò)謠言的巨大危害。由此可見,研究如何從每天產(chǎn)生的大量社交媒體數(shù)據(jù)中,及時發(fā)現(xiàn)并識別謠言,從而將謠言傳播扼殺在初期,降低謠言對社會的危害具有重大意義。微博作為目前最大的廣播式社交媒體,是最常用的謠言傳播平臺。如何從微博文本中提取有效語義特征并進行謠言主題分類成為目前短文本分類研究中的熱點之一。因此,進行基于內(nèi)容的謠言主題分類研究,從而自動識別謠言主題,及時發(fā)現(xiàn)一些具有周期性特點的謠言,具有重要的研究意義。

目前,國內(nèi)謠言研究主要集中在謠言傳播模型構(gòu)建與仿真實驗上。如任寧等[2]在經(jīng)典SIR謠言傳播模型基礎(chǔ)上,引入反對者角色,運用概率生成函數(shù)方法解決了謠言傳播過程中任意時刻的傳播規(guī)模等問題;王飛雪等[3]基于經(jīng)典SIR傳播模型,引入謠言在不同節(jié)點之間的傳播概率,并分析了不同節(jié)點對傳播概率的影響,建立社交網(wǎng)絡(luò)中考慮網(wǎng)絡(luò)節(jié)點自身影響的謠言傳播模型;王雨嘉等[4]也基于經(jīng)典SIR謠言傳播模型,引入觀望者與辟謠者角色,并將移出者分為中立者、相信謠言者與得知真相者3類,構(gòu)建一個改進的WT-SIR*謠言傳播模型;劉雅輝等[5]指出謠言內(nèi)容、發(fā)布用戶及其傳播過程是識別謠言與非謠言的關(guān)鍵要素;張仰森等[6]利用SVM構(gòu)建一個基于評論異常度的謠言識別模型。以上文獻多從經(jīng)典SIR謠言傳播模型出發(fā)進行模型改進與仿真實驗,而從網(wǎng)絡(luò)謠言自動主題分類角度進行的研究較少,但謠言的自動主題分類對周期性謠言的自動識別具有重要意義。

謠言主題分類問題可看作文本的多分類問題加以解決。基于機器學(xué)習(xí)的文本主題分類方法包括樸素貝葉斯(NB)、K最近鄰(KNN)、決策樹、支持向量機(SVM)等。丁晟春等[7]借助本體將領(lǐng)域知識及領(lǐng)域文本特征融入分類過程,使用加權(quán)樸素貝葉斯模型對網(wǎng)絡(luò)信息進行主題分類;賈隆嘉等[8]提出將特征由基于詞的表示轉(zhuǎn)換為基于類別的表示,然后采用支持向量機進行高校新浪微博主題分類;程元堃[9]提出基于詞向量的網(wǎng)頁分類模型與基于URL+關(guān)鍵詞的網(wǎng)頁分類模型,并使用樸素貝葉斯算法模型解決對未知網(wǎng)頁的分類問題;黎巎等[10]使用LDA(Latent Dirichlet Allocation)主題發(fā)現(xiàn)模型對游客評論進行主題分析與情感傾向分析;胡朝舉等[11]利用LDA模型得到文檔主題分布,然后使用主題詞對原始文本進行特征擴充,最后利用SVM分類模型進行分類;宗乾進等[12]通過隱含狄利克雷分布對生成與舉報的謠言內(nèi)容進行主題分類;姜贏等[13]采用文本句式特征分析方法進行謠言識別。近年來,隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,已成功應(yīng)用于圖像識別[14]、語音識別[15]等領(lǐng)域,目前越來越多研究者開始嘗試利用深度學(xué)習(xí)技術(shù)解決自然語言處理領(lǐng)域的各類問題,也取得了一定效果。如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)與長短時記憶網(wǎng)絡(luò)等深度模型即被應(yīng)用于句子分類[16]、情感分類[17]與文本分類[18]等問題中。

以上方法中,基于機器學(xué)習(xí)的文本分類方法需要研究人員根據(jù)經(jīng)驗,事先篩選好用于分類的特征,即分類效果與特征選擇緊密相關(guān),但該方法前期需要大量人工參與,不適用于目前多變、海量的數(shù)據(jù)。基于深度學(xué)習(xí)技術(shù)構(gòu)建的模型具有不可解釋性,且在模型訓(xùn)練過程中對運行系統(tǒng)硬件要求較高,訓(xùn)練時間也很長,在自然語言處理領(lǐng)域,分類效果與傳統(tǒng)方法相近。

因此,本文從微博內(nèi)容本身特點出發(fā),綜合考慮方法的時效性,使用具有語義信息的詞嵌入表示微博文本向量,且選擇經(jīng)典的NB、KNN和SVM作為分類模型,進行微博謠言主題分類研究,并提出一種基于詞嵌入的謠言主題分類模型。實驗結(jié)果表明,該方法能有效地對微博謠言進行主題分類,且準(zhǔn)確率和 F1 值較高,都達到了0.93。

1 主題分類模型

1.1 基于詞嵌入的微博文本表示

傳統(tǒng)文本表示方法是對一段文本信息先進行分詞,使用一個與詞典維度相當(dāng)?shù)南蛄勘硎疽粭l文本信息,用1表示在文檔中有該詞出現(xiàn),0表示不出現(xiàn)。但該表示方法丟失了詞語間的語義關(guān)系,且文本的向量表示很稀疏,增加了訓(xùn)練難度。本文使用壓縮的詞嵌入存儲方式,每一個詞語、段落或篇章都可以使用一個比較低維、具有語義信息的向量進行表示,從而有利于機器對人類語言的語義表達與理解,且有利于算法實現(xiàn)。

文本常見的向量化表示方法包括對一段文本包含的所有詞向量求平均值、對詞向量聚類以及doc2vec模型[19]。本文從微博屬于短文本的特點出發(fā),選擇簡單求和、求平均的方法,采用公式(1)進行文本向量計算。

1.2 基于詞嵌入的微博謠言主題分類模型

本文以中文Wiki百科作為背景語料庫,首先使用MIKOLOV等[20]提出的word2vec工具進行中文詞向量學(xué)習(xí),為微博短文本向量生成作準(zhǔn)備;然后對微博謠言文本進行分詞、去停用詞等預(yù)處理操作;接著使用公式(1)構(gòu)建每條微博的文本向量;最后分別使用NB、KNN和SVM作為分類模型,進行謠言的主題分類研究,具體模型如圖1所示。

2 實驗結(jié)果

2.1 數(shù)據(jù)

實驗數(shù)據(jù)為劉知遠等[1]給出的微博謠言數(shù)據(jù),其將謠言主題分為5個類別:政治、經(jīng)濟、欺詐、社會生活與常識類,總共8 190條微博,數(shù)據(jù)詳細信息如表1所示。為便于進行分類模型的實驗比較,本文隨機抽取原始數(shù)據(jù)中的?? 2/3作為訓(xùn)練集,構(gòu)建分類模型,其余1/3數(shù)據(jù)作為測試集,測試模型的分類性能。

2.2 數(shù)據(jù)預(yù)處理

由于微博中存在繁體文字,因此首先使用OpenCC工具將微博中的中文繁體轉(zhuǎn)為中文簡體,然后采用中科院分詞工具NLPIR對微博進行分詞,并結(jié)合哈工大停用詞表和百度停用詞表,將部分詞從中移除,以提高主題分類性能。

2.3 微博文本向量計算

由于微博屬于短文本,大部分微博長度都不會超過140詞限制,且本文使用的數(shù)據(jù)均屬于短文本范疇,因此采用文本詞向量加權(quán)平均方法計算微博文本向量。詞向量維度根據(jù)經(jīng)驗選擇200維,經(jīng)過計算后微博文本向量維度也是200維。詞向量使用Wiki中國作為語料庫,計算結(jié)果作為詞向量。

2.4 實驗結(jié)果

使用NB、KNN與SVM進行分類建模,比較3種模型在微博文本向量作為特征的情況下,微博謠言主題分類的準(zhǔn)確率,如表2所示。從表中可見,KNN模型在該謠言數(shù)據(jù)集上獲得了最好的分類準(zhǔn)確率0.93,遠高于NB模型的0.79,比SVM也高了3個百分點,因此KNN與SVM模型在該謠言數(shù)據(jù)集主題分類方面是比較有效的。

不同主題下各分類模型的F1分數(shù)如圖2所示,在經(jīng)濟與欺詐類主題下,KNN和SVM都取得了相同的F1-score,在常識、政治與社會生活類主題下,3種分類模型的F1-score都低于經(jīng)濟與欺詐類主題下的F1-score,即常識、政治與社會生活類主題比較容易混淆。

KNN模型混淆矩陣如表3所示,從表中可以發(fā)現(xiàn),該模型將社會生活類謠言錯分成政治類的有43個,占實際社會生活類謠言總數(shù)的4.99%,將政治類錯分為社會生活類的有33個,占實際政治類謠言總數(shù)的4.60%。以上兩種類別不太容易區(qū)分,以后可考慮進一步提取特征,以提高模型在該類別上的分類準(zhǔn)確率,進而提高模型的整體主題分類性能。

4 結(jié)語

本文以新浪微博謠言數(shù)據(jù)作為分析對象,使用詞嵌入方式表示微博文本特征,進行微博謠言數(shù)據(jù)的主題分類。謠言主題可分為經(jīng)濟類、常識類、政治類、社會生活類與欺詐類。本文選擇NB模型、KNN模型及SVM模型作為分類模型,對微博謠言數(shù)據(jù)集進行主題分類。由實驗結(jié)果可以發(fā)現(xiàn),KNN模型在謠言主題分類中表現(xiàn)出最好的分類性能,其F1值和分類準(zhǔn)確率都達到0.93。通過對KNN模型的混淆矩陣進行分析,發(fā)現(xiàn)社會生活類與政治類謠言最不易區(qū)分,因此未來工作需要進一步尋找特征,以提高模型在以上兩個主題類別上的分類準(zhǔn)確率,進而提高模型整體的主題分類性能。

參考文獻:

[1] 劉知遠,張樂,涂存超,等. 中文社交媒體謠言統(tǒng)計語義分析[J].中國科學(xué): 信息科學(xué),2015, 45(12):1536-1546.

[2] 任寧,李金仙. 帶有反對機制的謠言傳播模型[J]. 云南民族大學(xué)學(xué)報:自然科學(xué)版,2019(1):67-71.

[3] 王飛雪,李芳. 社交網(wǎng)絡(luò)中考慮不同傳播概率上的謠言傳播模型[J]. 計算機應(yīng)用研究,2019(11):1-4.

[4] 王雨嘉,侯合銀. 小世界網(wǎng)絡(luò)中基于一種改進模型的謠言傳播研究[J/OL]. 情報雜志:1-11[2019-02-26]. http://kns.cnki.net/kcms/detail/61.1167.g3.20190222.1319.012.html.

[5] 劉雅輝,靳小龍,沈華偉,等. 社交媒體中的謠言識別研究綜述[J]. 計算機學(xué)報,2018,41(7):1536-1558.

[6] 張仰森,彭媛媛,段宇翔,等. 基于評論異常度的新浪微博謠言識別方法[J/OL]. 自動化學(xué)報:1-14[2019-02-26]. https://doi.org/10.16383/j.aas.c180444.

[7] 丁晟春,王小英,劉夢露. 基于本體和加權(quán)樸素貝葉斯的網(wǎng)絡(luò)輿情主題分類[J]. 現(xiàn)代情報,2018,38(8):12-17.

[8] 賈隆嘉,張邦佐. 高校網(wǎng)絡(luò)輿情安全中主題分類方法研究——以新浪微博數(shù)據(jù)為例[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn),2018(7):55-62.

[9] 程元堃. 基于URL+文本的網(wǎng)頁主題分類模型研究[D]. 武漢:武漢郵電科學(xué)研究院,2018.

[10] 黎巎,謝宗彥,張公鵬,等. 基于LDA的游客網(wǎng)絡(luò)評論主題分類:以故宮為例[J]. 情報工程,2017,3(3):55-63.

[11] 胡朝舉,徐永峰. 基于LDA特征擴展的短文本分類方法研究[J]. 軟件導(dǎo)刊,2018,17(3):63-66.

[12] 宗乾進,黃子風(fēng),沈洪洲. 基于性別視角的社交媒體用戶造謠傳謠和舉報謠言行為研究[J]. 現(xiàn)代情報,2017,37(7):25-29,34.

[13] 姜贏,張婧,朱玲萱,等. 網(wǎng)絡(luò)謠言文本句式特征分析與監(jiān)測系統(tǒng)[J]. 電子設(shè)計工程,2017,25(23):7-10,15.

[14] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Comput Science, 2012,3: 212-223.

[15] GRAVES A, MOHAMED A, HINTON G. Speech recognition with deep recurrent neural networks[C]. Proceedings of the International Conference on Acoustics, Speech and Signal Processing, Vancouver, 2013:6645-6649.

[16] KIM Y. Convolutional neural networks for sentence classification[C]. Proceedings of the Conference on Empirical Methods in Natural Language Processing, Doha, 2014:1746-1751.

[17] CHEN H M, SUN M S, TU C C, et al. Neural sentiment classification with user and product attention[C]. In: Proceedings of Conference on Empirical Methods in Natural Language Processing, Austin, 2016:1650-1659.

[18] 高成亮,徐華,高凱. 結(jié)合詞性信息的基于注意力機制的雙向LSTM的中文文本分類[J]. 河北科技大學(xué)學(xué)報,2018,39(5):447-454.

[19] LE Q V, MIKOLOV T. Distributed representations of sentences and documents[C]. In Proceedings of the 31st International Conference on International Conference on Machine Learning,2014.

[20] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J].? Computer Science,2013.

(責(zé)任編輯:黃 健)

主站蜘蛛池模板: 欧美一级在线看| 在线视频精品一区| 伊人色在线视频| 国产欧美视频在线观看| 无码中文字幕精品推荐| 久久精品一品道久久精品| 亚洲人成网站在线播放2019| 国产成人一区二区| 色婷婷天天综合在线| 欧美成人免费午夜全| 九九线精品视频在线观看| 韩国福利一区| 精品综合久久久久久97| 高清视频一区| 青青久视频| 亚洲天堂免费| 国产99热| 福利在线不卡| 青青草原国产av福利网站| 久久综合九色综合97婷婷| 日韩毛片免费| 亚洲精品第1页| 国产激情无码一区二区免费| 亚洲欧洲日本在线| 女同久久精品国产99国| yjizz国产在线视频网| 婷婷中文在线| 国产成人综合亚洲欧美在| 在线播放精品一区二区啪视频| 精品久久国产综合精麻豆| 黄色免费在线网址| 日韩精品一区二区三区视频免费看| 91久久精品国产| 在线观看免费国产| 中文字幕佐山爱一区二区免费| 亚洲无线视频| 99re视频在线| 亚洲视频一区在线| 亚洲精品视频网| 一区二区在线视频免费观看| 国产91精选在线观看| 香蕉色综合| 日韩在线中文| 欧美97欧美综合色伦图| 亚洲三级色| 一本大道香蕉久中文在线播放| 97国产在线视频| 人妻丰满熟妇AV无码区| 狠狠色狠狠色综合久久第一次| 欧美一级高清片欧美国产欧美| 精品人妻一区无码视频| 91精品国产自产91精品资源| 国产精品对白刺激| 欧美色图久久| 精品亚洲欧美中文字幕在线看| 国内精品久久九九国产精品 | 一级毛片中文字幕| 国产女人18毛片水真多1| 国产男女免费完整版视频| 久久精品中文字幕少妇| 东京热一区二区三区无码视频| 亚洲an第二区国产精品| 国产精品香蕉在线观看不卡| 无码中字出轨中文人妻中文中| 国产第四页| 亚洲日本www| 亚洲专区一区二区在线观看| 91亚洲国产视频| 亚洲成人黄色在线| 久久亚洲黄色视频| 无码内射在线| 亚洲一道AV无码午夜福利| 亚洲综合国产一区二区三区| 亚洲综合婷婷激情| 19国产精品麻豆免费观看| 国产精品网址你懂的| 国内精品视频在线| 尤物精品视频一区二区三区| 日韩毛片免费| 亚卅精品无码久久毛片乌克兰| 国产精品成人免费综合| 伊人久久青草青青综合|