999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的微博發(fā)表意向預(yù)測(cè)研究

2018-05-15 10:10:34陳智梁娟謝兵傅籬
物聯(lián)網(wǎng)技術(shù) 2018年4期

陳智 梁娟 謝兵 傅籬

摘 要:微博的龐大數(shù)量以及微博文本的多樣性,給微博輿情監(jiān)控和預(yù)測(cè)帶來(lái)較多困難,如果能夠預(yù)先判斷用戶發(fā)表微博的意向,那么就可以進(jìn)行更有針對(duì)性的引導(dǎo)和控制。文中根據(jù)微博用戶數(shù)據(jù)的主要特征,使用Python的scikit-learn包中的主要回歸預(yù)測(cè)模型,對(duì)用戶發(fā)表微博的意向進(jìn)行預(yù)測(cè)分析,評(píng)價(jià)不同回歸預(yù)測(cè)模型預(yù)測(cè)微博發(fā)表意向的能力以及用戶特征對(duì)微博發(fā)表意向的影響。通過(guò)實(shí)驗(yàn)研究發(fā)現(xiàn),用戶的微博發(fā)表意向更多取決于用戶關(guān)注數(shù),而梯度提升回歸模型對(duì)此問(wèn)題有更好的適應(yīng)性。

關(guān)鍵詞:微博發(fā)表意向;Python;回歸預(yù)測(cè)模型;特征貢獻(xiàn)度

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2018)04-00-03

0 引 言

作為虛擬社交的重要方式之一,微博在主導(dǎo)輿論方面的作用越來(lái)越重要。微博輿論具有擴(kuò)散圈層化、傳播裂變化等特征[1],社會(huì)影響巨大。如何監(jiān)測(cè)和控制微博輿論,避免惡意言論和謠言在微博傳播,成為微博輿情監(jiān)控的重要研究?jī)?nèi)容。目前,已有不少微博輿情分析[2]、垃圾信息檢測(cè)[3]、傳播趨勢(shì)預(yù)測(cè)[4,5]、輿論引導(dǎo)[6]等研究,但由于微博數(shù)據(jù)量龐大,且具有形式多樣化的特點(diǎn),使得各種輿情監(jiān)控算法在效率和性能方面都面臨著巨大壓力。如果可以預(yù)先判斷用戶發(fā)表微博的意向,進(jìn)而進(jìn)行引導(dǎo)和控制,那么就可以在一定程度上將惡意言論或謠言控制在產(chǎn)生初期并遏制其傳播,提高微博輿情監(jiān)控的效率。

本研究從爬盟[7]獲取微博用戶數(shù)據(jù),提取微博用戶數(shù)據(jù)的特征,并使用Python機(jī)器學(xué)習(xí)回歸預(yù)測(cè)模型分析這些數(shù)據(jù)與微博用戶發(fā)表意向之間的潛在規(guī)律,進(jìn)而對(duì)用戶可能發(fā)表微博的意向進(jìn)行預(yù)測(cè),為微博輿情控制提供更細(xì)化的數(shù)據(jù)參考。

1 數(shù)據(jù)預(yù)處理

通過(guò)爬盟獲取的新浪微博用戶數(shù)據(jù)包括24個(gè)數(shù)據(jù)項(xiàng),即用戶ID,屏幕名,用戶名,是否VIP,VIP描述,自我介紹,性別,地區(qū),工作,教育,頭像,生日,QQ,MSN,Email,標(biāo)簽,關(guān)注數(shù),粉絲數(shù),微博數(shù),創(chuàng)建時(shí)間,關(guān)注列表,是否會(huì)員,是否達(dá)人,等級(jí)。在這些數(shù)據(jù)項(xiàng)中,用戶ID,屏幕名,用戶名都可以看作是用戶的唯一標(biāo)識(shí),作為一個(gè)數(shù)據(jù)項(xiàng)處理;是否VIP,VIP描述反映用戶加入VIP的情況,作為一個(gè)數(shù)據(jù)項(xiàng)處理;性別,地區(qū),工作,教育,頭像,生日,QQ,MSN,Email,創(chuàng)建時(shí)間可以看作自我介紹的明細(xì)和補(bǔ)充內(nèi)容,根據(jù)其詳細(xì)程度統(tǒng)一處理為自我介紹;關(guān)注列表是關(guān)注該用戶的其他用戶ID,對(duì)判斷用戶微博發(fā)表意向及后續(xù)研究沒(méi)有直接作用。因此,對(duì)微博用戶數(shù)據(jù)進(jìn)行篩選后,只留下用戶ID、自我介紹、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)、是否VIP、標(biāo)簽、是否會(huì)員、是否達(dá)人、等級(jí)共10個(gè)數(shù)據(jù)項(xiàng),對(duì)其進(jìn)行必要的規(guī)范化轉(zhuǎn)換。

(1)用戶ID、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)、是否VIP、是否會(huì)員、是否達(dá)人、等級(jí):這些數(shù)據(jù)項(xiàng)保留其值,不做進(jìn)一步轉(zhuǎn)換;

(2)自我介紹:根據(jù)相關(guān)數(shù)據(jù)項(xiàng)(自我介紹,性別,地區(qū),工作,教育,頭像,生日,QQ,MSN,Email)是否為空,即根據(jù)用戶是否有介紹的相關(guān)數(shù)據(jù)項(xiàng)值來(lái)賦值,如果相關(guān)數(shù)據(jù)項(xiàng)中至少6項(xiàng)有值,則賦值為1,否則賦值為0;

(3)標(biāo)簽:標(biāo)簽在微博用戶相似度分析、博文推薦、影響力研究等領(lǐng)域都有較重要的作用,用戶添加標(biāo)簽的個(gè)數(shù)反映了用戶興趣領(lǐng)域的深度或廣度,同地區(qū)數(shù)據(jù)類似,考慮后續(xù)分析中數(shù)據(jù)維過(guò)于分散的問(wèn)題,以用戶標(biāo)簽個(gè)數(shù)作為參考值。

此外,在獲取的用戶數(shù)據(jù)中,有一部分?jǐn)?shù)據(jù)存在數(shù)據(jù)缺失的情況,可直接刪除。

在本實(shí)驗(yàn)中,共從爬盟獲取了2 021個(gè).csv格式的用戶數(shù)據(jù)文件,包括用戶數(shù)據(jù)共3 583 677條,在預(yù)處理過(guò)程中,刪除了不完整數(shù)據(jù)共126 097條,最后獲得3 457 580條用戶數(shù)據(jù)為后續(xù)分析使用。

2 預(yù)測(cè)分析的方法及過(guò)程

用戶微博發(fā)表意向可以看作是一個(gè)回歸預(yù)測(cè)問(wèn)題,以用戶發(fā)表的微博數(shù)作為輸出,以除了用戶ID之外的其他數(shù)據(jù)項(xiàng)作為高維輸入。即:

X= {[自我介紹,關(guān)注數(shù),粉絲數(shù),標(biāo)簽數(shù),是否VIP,是否會(huì)員,是否達(dá)人,等級(jí)]}

Y={微博數(shù)}

F(X)→Y的映射關(guān)系即為回歸預(yù)測(cè)模型,需要通過(guò)實(shí)驗(yàn)確定。在Python的scikit-learn包[8]中,包含了多個(gè)回歸預(yù)測(cè)模型,因此可以直接使用scikit-learn包中的模型,通過(guò)輸入用戶相關(guān)數(shù)據(jù),估計(jì)用戶發(fā)表微博數(shù)。通過(guò)模型評(píng)價(jià)選取其中最合適的一個(gè)或多個(gè)模型。

線性回歸模型是回歸分析中最基本、最簡(jiǎn)單的模型,其模型預(yù)測(cè)能力的評(píng)價(jià)結(jié)果體現(xiàn)了X和Y滿足線性關(guān)系的程度;隨機(jī)梯度下降回歸模型采用隨機(jī)梯度下降參數(shù)估計(jì)算法,適用于輸入數(shù)據(jù)較多的回歸預(yù)測(cè),可以看作是線性回歸模型的有力補(bǔ)充。

K近鄰回歸模型和回歸樹(shù)模型雖然能夠較好地解決非線性數(shù)據(jù)的建模問(wèn)題,但是當(dāng)數(shù)據(jù)量過(guò)大時(shí),其訓(xùn)練效率低下。因此,綜合考慮模型的可用性和實(shí)現(xiàn)效率,采用集成模型中常用的隨機(jī)森林回歸模型、梯度提升回歸模型和極端隨機(jī)森林回歸模型作為參與比較的模型。

選取了以下模型進(jìn)行對(duì)比分析:

(1)線性回歸模型(Linear Regression);

(2)隨機(jī)梯度下降回歸模型(SGDR egressor);

(3)隨機(jī)森林回歸模型(Random Forest Regressor);

(4)梯度提升回歸模型(Gradient Boosting Regressor);

(5)極端隨機(jī)森林回歸模型(Extra Trees Regressor)。

在建立模型的過(guò)程中,首先對(duì)獲得的用戶數(shù)據(jù)進(jìn)行分割和規(guī)范化處理,然后用訓(xùn)練集數(shù)據(jù)訓(xùn)練各模型的參數(shù),最后使用測(cè)試集數(shù)據(jù),用R-square評(píng)價(jià)函數(shù)進(jìn)行模型能力評(píng)價(jià),其函數(shù)定義見(jiàn)式(1)。

其中:n為用戶數(shù)據(jù)的條數(shù);yi為第i個(gè)用戶實(shí)際發(fā)表的微博數(shù);為第i個(gè)用戶發(fā)表微博數(shù)的預(yù)測(cè)值;為用戶發(fā)表微博數(shù)的平均值。

R-square評(píng)價(jià)函數(shù)既考慮了預(yù)測(cè)值的內(nèi)部差異,也考慮了預(yù)測(cè)值與真實(shí)值之間的回歸差異,其數(shù)值表明模型回歸結(jié)果可被真實(shí)值驗(yàn)證的百分比。

3 回歸模型的預(yù)測(cè)能力分析

確定回歸模型預(yù)測(cè)能力的實(shí)驗(yàn)基于經(jīng)過(guò)預(yù)處理的所有用戶數(shù)據(jù)進(jìn)行,首先對(duì)這些數(shù)據(jù)進(jìn)行分割,選擇其中90%的數(shù)據(jù)作為訓(xùn)練集,10%的數(shù)據(jù)作為測(cè)試集,并使用隨機(jī)數(shù)種子35進(jìn)行隨機(jī)分割。分割之后的數(shù)據(jù)提供給5個(gè)回歸模型訓(xùn)練模型參數(shù),使用R-square評(píng)價(jià)函數(shù)評(píng)價(jià)模型預(yù)測(cè)能力。

此外,在所有采集的3 457 580條用戶數(shù)據(jù)中,存在發(fā)表微博數(shù)為0的數(shù)據(jù)。為確定發(fā)表的微博數(shù)為0對(duì)模型是否有影響,以及影響程度,在對(duì)所有數(shù)據(jù)執(zhí)行回歸分析后,排除了其中發(fā)表微博數(shù)為0的數(shù)據(jù),以剩下的2 882 839條數(shù)據(jù)再次進(jìn)行實(shí)驗(yàn)。兩種情況下各種模型的預(yù)測(cè)能力比較見(jiàn)表1所列。

從表1的實(shí)驗(yàn)結(jié)果可以看出,兩種線性模型(線性回歸模型和隨機(jī)梯度下降回歸模型)對(duì)用戶微博發(fā)表意向的預(yù)測(cè)能力均較差。在集成模型中,隨機(jī)森林回歸模型和梯度提升回歸模型的預(yù)測(cè)能力較強(qiáng),而極端隨機(jī)森林回歸模型在包含微博數(shù)為0和不包含微博數(shù)為0的情況時(shí),預(yù)測(cè)能力差異較大。

數(shù)據(jù)中是否包含微博數(shù)為0的數(shù)據(jù)對(duì)模型預(yù)測(cè)能力的影響并不明顯,但倘若不包含微博數(shù)為0的數(shù)據(jù),模型能夠得到更好的預(yù)測(cè)結(jié)果。

各種模型的R-square評(píng)價(jià)函數(shù)值最高為0.486 783 374 421,說(shuō)明模型預(yù)測(cè)能力差強(qiáng)人意。一個(gè)可能的原因是:微博發(fā)表的數(shù)量一定為整數(shù),而回歸預(yù)測(cè)模型的預(yù)測(cè)結(jié)果為實(shí)數(shù),影響了評(píng)價(jià)函數(shù)的計(jì)算結(jié)果。

4 各數(shù)據(jù)項(xiàng)貢獻(xiàn)度分析

對(duì)3種集成回歸模型(隨機(jī)森林回歸模型、梯度提升回歸模型和極端隨機(jī)森林回歸模型)做進(jìn)一步分析,可以得到輸入的各數(shù)據(jù)項(xiàng)對(duì)模型的貢獻(xiàn)度,進(jìn)而確定哪些數(shù)據(jù)項(xiàng)對(duì)模型預(yù)測(cè)能力有決定性作用。

使用3種集成模型,包含微博數(shù)為0的數(shù)據(jù)時(shí),各數(shù)據(jù)項(xiàng)貢獻(xiàn)度見(jiàn)表2所列。

使用3種集成模型,不包含微博數(shù)為0的數(shù)據(jù)時(shí),各數(shù)據(jù)項(xiàng)貢獻(xiàn)度見(jiàn)表3所列。

綜合表2與表3的結(jié)果可以看出,“是否會(huì)員”數(shù)據(jù)項(xiàng)對(duì)模型貢獻(xiàn)度為0;“是否VIP”“是否達(dá)人”數(shù)據(jù)項(xiàng)對(duì)模型貢獻(xiàn)度約等于0。對(duì)模型貢獻(xiàn)度最大的是“粉絲數(shù)”和“關(guān)注數(shù)”,除了用包含微博數(shù)為0的數(shù)據(jù)訓(xùn)練的梯度提升回歸模型之外,其他模型中,“關(guān)注數(shù)”的貢獻(xiàn)度均大于“粉絲數(shù)”,即關(guān)注其他用戶越多的用戶,發(fā)表微博的熱情越高;而不是粉絲越多的用戶,發(fā)表微博的熱情越高。

5 數(shù)據(jù)分割對(duì)預(yù)測(cè)能力的影響

集成模型得到的回歸模型并不是確定不變的,使用不同的訓(xùn)練集或者在模型訓(xùn)練過(guò)程中選取的隨機(jī)值不同,都會(huì)對(duì)模型的參數(shù)造成影響,從而影響模型的預(yù)測(cè)效果。因此,在后續(xù)實(shí)驗(yàn)中,采用不同的隨機(jī)數(shù)種子多次分割數(shù)據(jù),訓(xùn)練3種集成模型并評(píng)價(jià)其性能,可更全面地說(shuō)明模型的預(yù)測(cè)能力。

在實(shí)驗(yàn)中,從[0,100]之間隨機(jī)選取隨機(jī)數(shù)種子,作為Python中train_test_split()函數(shù)的參數(shù),得到不同訓(xùn)練集情況下,3種集成回歸模型的R-square值變化趨勢(shì)如圖1所示。

從圖1可以看出,排除少數(shù)孤立值,隨機(jī)森林回歸模型和梯度提升回歸模型的R-square值均在0.4~0.5之間變化,且梯度提升回歸模型的R-square值變化更集中,在預(yù)測(cè)微博發(fā)表意向時(shí)表現(xiàn)更加穩(wěn)定,而極端隨機(jī)森林回歸模型受測(cè)試集數(shù)據(jù)影響較大,其R-square值主要在0.35~0.5之間浮動(dòng)。

6 結(jié) 語(yǔ)

綜合以上實(shí)驗(yàn)研究可以發(fā)現(xiàn),關(guān)注數(shù)、粉絲數(shù)是用戶微博發(fā)表意向預(yù)測(cè)模型的主要特征項(xiàng),特征貢獻(xiàn)度最高的是用戶關(guān)注數(shù),即關(guān)注其他用戶越多的用戶,越有可能發(fā)表新的微博。在各種回歸預(yù)測(cè)模型中,3種集成回歸模型(隨機(jī)森林回歸模型、梯度提升回歸模型和極端隨機(jī)森林回歸模型)具有更好的模型預(yù)測(cè)能力。當(dāng)訓(xùn)練集變化時(shí),梯度提升回歸模型表現(xiàn)最穩(wěn)定。但是,各種回歸預(yù)測(cè)模型的預(yù)測(cè)能力都不盡如人意,一個(gè)可能的原因是:回歸預(yù)測(cè)模型的結(jié)果為實(shí)數(shù),而微博發(fā)表數(shù)據(jù)為整數(shù)。模型的適應(yīng)性以及如何提高模型預(yù)測(cè)能力還需要今后進(jìn)一步的研究和探討。

參考文獻(xiàn)

[1]王慧.微博輿論的傳播特征及社會(huì)影響[J].合肥學(xué)院學(xué)報(bào)(綜合版),2017,34(4):65-68.

[2]張露晨,張良,孫昊良,等.基于領(lǐng)域文法的微博輿情分析方法及其應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2016,33(8):43-49.

[3]鄒永潘,李偉,王儒敬.基于多特征的垃圾微博檢測(cè)方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(10):184-189.

[4]劉巧玲,李勁,肖人彬.基于參數(shù)反演的網(wǎng)絡(luò)輿情傳播趨勢(shì)預(yù)測(cè)——以新浪微博為例[J].計(jì)算機(jī)應(yīng)用,2017,37(5):1419-1423.

[5]李文娟. 基于灰色模型的微博輿情預(yù)測(cè)研究[J]. 開(kāi)封教育學(xué)院學(xué)報(bào),2017,37(1):280-282.

[6]張明旺. 基于微博的網(wǎng)絡(luò)輿情監(jiān)測(cè)與引導(dǎo)機(jī)制探索[J].電腦知識(shí)與技術(shù),2015,11(31):32-34.

[7]中國(guó)爬盟[DB/OL].http://www.cnpameng.com/

[8] Scikit-learn: machine learning in Python[DB/OL].http:// scikit-learn.org/

主站蜘蛛池模板: 亚洲天堂网2014| 91国内视频在线观看| 无码中文字幕乱码免费2| 国产麻豆精品手机在线观看| 国产精品高清国产三级囯产AV| 中文字幕在线播放不卡| 国产激情无码一区二区APP| 欧美第一页在线| 精品国产一二三区| 玖玖免费视频在线观看| 久久五月视频| 久久无码av三级| 中文字幕永久在线观看| 一级看片免费视频| 国产精品密蕾丝视频| 国产又色又爽又黄| 色婷婷色丁香| 亚洲动漫h| 日韩精品成人在线| 欧美精品高清| 人妻丰满熟妇av五码区| 欧美色香蕉| 国产美女久久久久不卡| 噜噜噜久久| 国产精品免费久久久久影院无码| h视频在线观看网站| AⅤ色综合久久天堂AV色综合| 久久人搡人人玩人妻精品 | 日韩无码视频网站| 成人亚洲视频| 国产导航在线| 亚洲无码四虎黄色网站| 亚洲天堂网在线播放| 久久午夜夜伦鲁鲁片无码免费| 欧美视频免费一区二区三区| 欧美综合成人| 国产精品成人观看视频国产| 欧美国产在线看| 91在线丝袜| 国内精自视频品线一二区| 国产杨幂丝袜av在线播放| 国产真实乱人视频| 国内精品手机在线观看视频| 97国产在线视频| 91小视频在线观看| 欧美精品黑人粗大| 精品夜恋影院亚洲欧洲| 欧美成一级| 国产色爱av资源综合区| 高清欧美性猛交XXXX黑人猛交| 999国内精品视频免费| 国产精品乱偷免费视频| 国产精品第一区在线观看| av性天堂网| 天天婬欲婬香婬色婬视频播放| 中国特黄美女一级视频| 日韩欧美国产综合| 国产极品嫩模在线观看91| 欧美亚洲国产视频| 国产sm重味一区二区三区| 天天综合网亚洲网站| 国产精品成人啪精品视频| 国产精品欧美亚洲韩国日本不卡| 丝袜久久剧情精品国产| 五月激情婷婷综合| 亚洲无码熟妇人妻AV在线| 国内精品91| 国产一区二区三区在线精品专区| 蜜芽一区二区国产精品| 在线一级毛片| 72种姿势欧美久久久大黄蕉| 一本无码在线观看| 日日拍夜夜操| 国产欧美网站| 99热这里只有精品国产99| 一区二区三区国产精品视频| 国产精品lululu在线观看| 97超爽成人免费视频在线播放| 国产精品免费久久久久影院无码| 国产资源免费观看| 精品少妇三级亚洲| 国产黄色免费看|