999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于循環(huán)神經(jīng)網(wǎng)絡(luò)的微博轉(zhuǎn)發(fā)行為預(yù)測①

2019-08-22 02:31:06穆圣坤張路橋滕彩峰
關(guān)鍵詞:特征用戶模型

穆圣坤, 張路橋, 滕彩峰

(成都信息工程大學(xué) 網(wǎng)絡(luò)空間安全學(xué)院,成都 610225)

近年來,隨著微博活躍用戶持續(xù)穩(wěn)步增長,微博逐漸成為社交網(wǎng)絡(luò)中信息傳播及信息收集的重要平臺,截至2017年9月,微博月活躍人數(shù)共3.76億,較去年同期增長27%,日活躍用戶達(dá)到1.65億,較去年同期增長25%. 如此龐大的用戶規(guī)模使得微博已經(jīng)成為社交網(wǎng)絡(luò)中重要的媒體之一.

微博轉(zhuǎn)發(fā)是微博信息傳播的重要途徑,是微博信息傳播[1,2]、微博營銷、輿情監(jiān)控[3]等問題的研究關(guān)鍵,研究微博轉(zhuǎn)發(fā)問題可以更好地跟蹤微博信息的傳播路徑,更好地研究微博傳播的特點(diǎn),方便進(jìn)行深層次的研究; 同時還可以通過挖掘用戶粉絲的興趣特點(diǎn),進(jìn)行粉絲分類,從而達(dá)到微博營銷、微博推薦[4,5]等目的. 因此,研究微博轉(zhuǎn)發(fā)問題有著重要的意義.

1 相關(guān)工作

再對微博轉(zhuǎn)發(fā)的研究上,主要的研究方向有影響微博轉(zhuǎn)發(fā)因素的分析[6,7]和微博轉(zhuǎn)發(fā)預(yù)測[8-10]. 在影響微博轉(zhuǎn)發(fā)因素的分析方面,Rudat[11]等研究了用戶引導(dǎo)、微博主題以及信息量3個方面因素對微博轉(zhuǎn)發(fā)行為的影響. 徐曉璇[12]主要是根據(jù)信息的傳播特點(diǎn)、微博群體轉(zhuǎn)發(fā)規(guī)律、微博用戶信息轉(zhuǎn)發(fā)行為的心理三方面因素,分別從傳播學(xué)、信息學(xué)、社會學(xué)的角度對影響用戶轉(zhuǎn)發(fā)微博的因素進(jìn)行了研究. 賴勝強(qiáng)[13]等人利用多元回歸法在微博信息內(nèi)容特性、傳播者特性以及受眾特性這三個方面對影響用戶轉(zhuǎn)發(fā)微博的因素進(jìn)行了研究. 吳凱[14]利用興趣相似程度、社會關(guān)系影響、文本特征與用戶屬性影響、用戶受激活次數(shù)的影響四種指標(biāo)構(gòu)建了一種行為預(yù)測的信息傳播模型. 文獻(xiàn)[15]在微博數(shù)據(jù)中發(fā)現(xiàn)影響用戶是否會轉(zhuǎn)發(fā)的一個重要因素是用戶的社會關(guān)系結(jié)構(gòu),并利用邏輯回歸構(gòu)建轉(zhuǎn)發(fā)預(yù)測模型. 在微博預(yù)測方面,S Petrovic[16]提出了基于passive-aggressive算法的人工實(shí)驗(yàn)方法來預(yù)測微博.Suh[17]等人首先研究了對微博轉(zhuǎn)發(fā)率影響較大的因素,然后又提出了預(yù)測轉(zhuǎn)發(fā)率的廣義線性模型. 鄧青[18]從微博文本內(nèi)容和發(fā)帖人兩方面對影響微博轉(zhuǎn)發(fā)的因素進(jìn)行了分析研究,并利用BP神經(jīng)網(wǎng)絡(luò)對突發(fā)事件下的微博轉(zhuǎn)發(fā)量進(jìn)行了預(yù)測. 張效尉[19]等借助集成學(xué)習(xí)的思想提出了一種的預(yù)測微博用戶轉(zhuǎn)發(fā)行為的算法.Nesi P[20]等從Twitter數(shù)據(jù)中提取出若干特征,然后利用遞歸劃分過程構(gòu)建了用于預(yù)測的分類樹. 李志清[21]通過LDA主題生成模型提取并構(gòu)建了微博的主題特征,同時再與微博特征和用戶特征相結(jié)合,最終提出了基于主題特征的微博預(yù)測模型. 李英樂[22]等利用用戶影響力、興趣相似度、用戶活躍度、微博文本內(nèi)容的重要性和用戶親密程度五類特征通過支持向量機(jī)算法構(gòu)建模型進(jìn)行轉(zhuǎn)發(fā)行為預(yù)測.

綜上所述,以往模型存在的問題是:(1) 沒有考慮到網(wǎng)絡(luò)的飛速發(fā)展、微博營銷策略的改變對微博轉(zhuǎn)發(fā)的影響. (2) 在通過用戶歷史微博來預(yù)測當(dāng)前微博轉(zhuǎn)發(fā)量的研究上,沒有考慮到歷史微博和預(yù)測微博的文本相關(guān)性. (3) 在興趣相似度的問題上,沒有通過微博文本和粉絲興趣的相似度來預(yù)測單個粉絲是否會轉(zhuǎn)發(fā). 這樣必然會導(dǎo)致最終的結(jié)果不準(zhǔn)確. 基于以上的分析,本文結(jié)合LSTM[23,24]和DNN神經(jīng)網(wǎng)絡(luò)[25]的優(yōu)勢,提出一種基于LSTM的模型來預(yù)測用戶微博的轉(zhuǎn)發(fā)量級.

1.1 模型架構(gòu)

隨著微博用戶數(shù)量和微博平均瀏覽時長的不斷增長,微博用戶營銷策略的不斷變化,微博轉(zhuǎn)發(fā)量也會呈現(xiàn)不同的變化趨勢,故本文定義這種變化趨勢為轉(zhuǎn)發(fā)趨勢度. 當(dāng)然微博主題的不同、用戶知名度變化、微博用戶營銷策略的不同都對應(yīng)這不同的轉(zhuǎn)發(fā)趨勢度,轉(zhuǎn)發(fā)趨勢度越高的用戶其發(fā)布微博后,該微博被轉(zhuǎn)發(fā)幾率越大,傳播的范圍和影響也會變大,所以轉(zhuǎn)發(fā)趨勢度也是影響微博轉(zhuǎn)發(fā)的關(guān)鍵因素之一. 此外,用戶轉(zhuǎn)發(fā)微博主要有兩類原因:① 內(nèi)容:即用戶對微博的內(nèi)容感興趣,② 用戶本身:用戶對微博發(fā)布者感興趣.

基于以上三點(diǎn),本文通過微博特征、用戶特征、微博文本與粉絲興趣的相似度、轉(zhuǎn)發(fā)趨勢度與LSTM和DNN神經(jīng)網(wǎng)絡(luò)的優(yōu)勢相結(jié)合來建立預(yù)測模型. 模型架構(gòu)如圖1.

2 數(shù)據(jù)采集及特征選擇

2.1 數(shù)據(jù)采集

由于微博API的限制,本文采用網(wǎng)絡(luò)爬蟲獲取新浪微博數(shù)據(jù). 詳細(xì)數(shù)據(jù)如表1.

2.2 特征選擇

本文選取用戶特征和微博特征共計(jì)17種. 詳見表2.

以“汽車之家”微博為例,其中活躍粉絲數(shù)是在“汽車之家”一年之內(nèi)發(fā)布的所有微博中存在評論或轉(zhuǎn)發(fā)行為的用戶. 平均微博轉(zhuǎn)發(fā)數(shù)是用戶所有微博的轉(zhuǎn)發(fā)數(shù)之和與發(fā)布微博總數(shù)量的比值.

微博文本特征詞向量:將微博文本提取出來,利用jieba分詞獲取文本的特征詞向量.

粉絲興趣特征詞向量:獲取每個粉絲近期的微博文本,同樣通過分詞得到該粉絲的特征詞向量.

圖1 模型框架圖

利用微博文本特征詞向量和粉絲的特征詞向量構(gòu)建的語料庫,然后通過TF-IDF分別建立微博文本特征向量和粉絲微博特征向量

微博文本興趣相似度:計(jì)算微博文本特征向量和粉絲微博特征向量的余弦相似度.

如圖2所示,是用戶微博文本示例.

表1 數(shù)據(jù)表

表2 特征表

圖2 預(yù)測微博文本示例

圖3是不同小時發(fā)布微博數(shù)累計(jì)分布曲線,可知用戶在晚上22時至8時,活躍次數(shù)較少,發(fā)布微博的數(shù)量也相對較低. 圖4為微博VIP等級與用戶微博轉(zhuǎn)發(fā)數(shù)的分布圖,微博針對VIP級別越高的會員,會有更多的特權(quán),其微博更易擴(kuò)散,轉(zhuǎn)發(fā)量也會多一些. 此外,從前人的研究中也可以看出微博包含圖片數(shù)、是否有視頻、是否有外部鏈接、是否包含主題符都對微博轉(zhuǎn)發(fā)有著一定的影響.

圖3 不同小時發(fā)布微博數(shù)累計(jì)分布曲線

圖4 微博用戶VIP等級與平均轉(zhuǎn)發(fā)量分布圖

3 轉(zhuǎn)發(fā)行為預(yù)測

3.1 SIM-LSTM神經(jīng)網(wǎng)絡(luò)模型:構(gòu)建轉(zhuǎn)發(fā)趨勢度

目的:預(yù)測出某條微博的轉(zhuǎn)發(fā)趨勢度.

輸入:活躍粉絲數(shù)、關(guān)注用戶數(shù)、微博數(shù)、是否為認(rèn)證用戶、微博等級、會員等級、平均微博轉(zhuǎn)發(fā)數(shù)、微博發(fā)布時間、圖片的個數(shù)、是否有視頻、是否有外部鏈接、是否有包含主題符:#、平均微博點(diǎn)贊數(shù)、平均微博評論數(shù)、微博文本特征向量、預(yù)測微博文本特征向量.

輸出:微博轉(zhuǎn)發(fā)趨勢度對應(yīng)該條微博轉(zhuǎn)發(fā)量,根據(jù)本文所使用的數(shù)據(jù)集,將微博最終轉(zhuǎn)發(fā)量對應(yīng)為10個數(shù)量級(0-9). 如表3所示.

相較于傳統(tǒng)的LSTM,本文新加入了一個控制門sim. sim門功能:前一節(jié)點(diǎn)的細(xì)胞狀態(tài) C(t-1)和輸出的隱藏層 h(t-1)進(jìn)入當(dāng)前節(jié)點(diǎn)時會先進(jìn)入sim門,sim門是微博相似度的余弦函數(shù),sim值大于0時:進(jìn)入遺忘門、輸入門依次更新細(xì)胞狀態(tài)最后得到 C(t)和 h(t); 當(dāng)sim值小于0時:細(xì)胞狀態(tài)直接輸出上一時刻的細(xì)胞狀態(tài)和上一時刻的隱藏層狀態(tài)即 C(t)=C(t-1),h(t)=h(t-1).

表3 微博轉(zhuǎn)發(fā)趨勢與微博轉(zhuǎn)發(fā)數(shù)對照表

SIM-LSTM網(wǎng)絡(luò)模型可以根據(jù)歷史微博文本內(nèi)容和預(yù)測微博文本內(nèi)容的相似度來選取相關(guān)性大的微博作為訓(xùn)練集,使得訓(xùn)練數(shù)據(jù)之間的關(guān)系更加緊密,故采用此結(jié)構(gòu)可以有效的使弱相關(guān)的訓(xùn)練數(shù)據(jù)權(quán)重變小,從而得到更加準(zhǔn)確的預(yù)測效果.

改進(jìn)LSTM模型圖如圖5所示.

圖5 SIM-LSTM結(jié)構(gòu)圖

圖5中①號框中是sim判斷門; 是改進(jìn)的判斷控制函數(shù)sim:

當(dāng)判斷的sim值大于0時:按照原來LSTM依次更新細(xì)胞狀態(tài); 當(dāng)sim值小于0時:細(xì)胞狀態(tài)直接輸出上一時刻的細(xì)胞狀態(tài)和上一時刻的隱藏層狀態(tài).

圖5中②號框中是遺忘門:輸入是前一時刻的隱藏狀態(tài) h(t-1)和本序列數(shù)據(jù) X(t),此處通過的激活函數(shù)是本文提出的Sigmoid函數(shù),得到遺忘門輸出:其中,Wf、Uf、bf是線性關(guān)系的系數(shù)和偏倚,X(t)是本文上面提到的16種特征.

圖5中③號框中是輸入門:它的輸入是包括兩部分是i(t)和a(t):

同理Wi、Ui、bi、Wa、Ua、ba是線性關(guān)系的系數(shù)和偏倚.

圖5中④號框中是輸出門:

圖5中⑤號框中是細(xì)胞狀態(tài)更新:細(xì)胞狀態(tài)更新C(t)有兩部分組成:遺忘門輸出f(t)和C(t-1)的乘積、輸入門i(t)和a(t)的乘積.

其中,·是Hadamard積.

4 建模分析與結(jié)果

4.1 SIM-LSTM預(yù)測模型分析

SIM-LSTM模型中sim門是通過粉絲興趣和微博文本的相似度來對輸入數(shù)據(jù)進(jìn)行權(quán)重控制,使相關(guān)性小的微博數(shù)據(jù)權(quán)重降低甚至為0,所以我們訓(xùn)練集中的數(shù)據(jù)會與預(yù)測微博相關(guān)性更大,結(jié)果必然會更好. 為此,我們將SIM-LSTM模型和傳統(tǒng)的LSTM模型進(jìn)行對比試驗(yàn),分別將各自的轉(zhuǎn)發(fā)趨勢度作為特征訓(xùn)練最后的神經(jīng)網(wǎng)絡(luò)模型,實(shí)驗(yàn)結(jié)果表明SIM-LSTM的提出是有效的.

圖6上圖是SIM-LSTM結(jié)果混淆矩陣,下圖是LSTM的混淆矩陣,我們可以看出,SIM-LSTM得到結(jié)果會更好,同時我們計(jì)算得SIM-LSTM的準(zhǔn)確率為89.55%,LSTM的準(zhǔn)確率為75.53%.

4.2 深度神經(jīng)網(wǎng)絡(luò)預(yù)測轉(zhuǎn)發(fā)量級

目的:預(yù)測微博的轉(zhuǎn)發(fā)量級.

本文是在用戶活躍粉絲集中預(yù)測單個粉絲是否會轉(zhuǎn)發(fā)微博,最后統(tǒng)計(jì)預(yù)測會轉(zhuǎn)發(fā)微博的粉絲數(shù)來得到微博的轉(zhuǎn)發(fā)量.

因?yàn)橐A(yù)測粉絲是否會轉(zhuǎn)發(fā),所以輸入包含用戶、微博、粉絲3類特征再加興趣相似度和轉(zhuǎn)發(fā)趨勢度共計(jì)20種.

用戶特征有:活躍粉絲數(shù)、關(guān)注數(shù)、微博數(shù)、是否認(rèn)證、微博等級、VIP等級、平均轉(zhuǎn)發(fā)量、平均點(diǎn)贊量、平均評論量; 微博特征有圖片數(shù)、是否有視頻、外部鏈接、主題符、發(fā)布時間; 粉絲特征有微博數(shù)、關(guān)注數(shù)、VIP等級、是否認(rèn)證.

輸出:0 和 1,0代表該粉絲不會轉(zhuǎn)發(fā),1代表該粉絲會轉(zhuǎn)發(fā).

為了深入探究不同模型對最后轉(zhuǎn)發(fā)預(yù)測結(jié)果的影響,我們使用LR、SVM、BP、RF算法進(jìn)行建模預(yù)測.

此外我們在實(shí)驗(yàn)后,又利用隨機(jī)森林預(yù)測模型給出的特征權(quán)重(如圖7(a)、(b)和圖8所示為訓(xùn)練特征中微博類特征、粉絲類特征、微博用戶類特征的權(quán)重條形圖)進(jìn)行特征篩選,剔除權(quán)重在0.5以下的特征,然后再次通過DNN進(jìn)行建模預(yù)測,得到了更高的準(zhǔn)確率.

圖6 SIM-LSTM和LSTM預(yù)測結(jié)果混淆矩陣

DNN的一些關(guān)鍵參數(shù)如下:

損失函數(shù):對數(shù)似然損失函數(shù).

激活函數(shù):Softmax函數(shù).

參數(shù)設(shè)置:本文最終采用隱藏層為8層,節(jié)點(diǎn)數(shù)目為32的神經(jīng)網(wǎng)絡(luò)模型. 利用指數(shù)衰減法來動態(tài)的設(shè)置學(xué)習(xí)率,設(shè)置初始學(xué)習(xí)率為0.1,衰減系數(shù)為0.95. 滑動平均模型的衰減率為:0.999,dropout率為0.5.

圖7 微博類、粉絲類特征的權(quán)重條形圖

圖8 微博用戶類特征的權(quán)重條形圖

在DNN模型訓(xùn)練中,我們將圖9是微博興趣相似度與轉(zhuǎn)發(fā)率的關(guān)系圖,可以看出,相似程度高的粉絲轉(zhuǎn)發(fā)用戶微博的可能性更高.

預(yù)測用戶轉(zhuǎn)發(fā)量級:為了獲得理想的預(yù)測結(jié)果,本文選擇了多種預(yù)測模型并通過交叉驗(yàn)證來對轉(zhuǎn)發(fā)行為進(jìn)行預(yù)測,通過準(zhǔn)確率、召回率、F1值來對結(jié)果進(jìn)行度量,準(zhǔn)確率用于檢驗(yàn)?zāi)P偷臏?zhǔn)確性,召回率用于檢驗(yàn)?zāi)P偷耐陚湫裕瑴?zhǔn)確率和召回率相互制約,因此用F1值作為模型效果的綜合評價指標(biāo). 經(jīng)實(shí)驗(yàn)得:本文提出的方法較其他的方法而言有著近5%的提高,提出的轉(zhuǎn)發(fā)趨勢度和微博興趣相似度對微博轉(zhuǎn)發(fā)的研究也有著重要的影響. 如表4所示.

圖9 微博興趣相似度與轉(zhuǎn)發(fā)率的關(guān)系圖

表4 微博轉(zhuǎn)發(fā)量級預(yù)測結(jié)果

5 結(jié)語

本文主要是針對社交網(wǎng)絡(luò)平臺(以微博為例)用戶微博的轉(zhuǎn)發(fā)量級的預(yù)測,社交平臺的消息傳播是通過千千萬萬個用戶轉(zhuǎn)發(fā)而實(shí)現(xiàn)的,本文首先考慮到近幾年我國網(wǎng)絡(luò)發(fā)展迅速,人們的生活水平不斷提高,上網(wǎng)瀏覽微博信息的時長不斷增加,使得微博的轉(zhuǎn)發(fā)量呈遞增趨勢,所以提出微博轉(zhuǎn)發(fā)趨勢度,同時又針對性的利用用戶活躍粉絲興趣與用戶微博文本內(nèi)容的相似度來把微博轉(zhuǎn)發(fā)量的預(yù)測針對到每一個粉絲的身上. 經(jīng)試驗(yàn)分析,并取得較好的結(jié)果,準(zhǔn)確率達(dá)85.6%. 此外,本文只是利用微博的特征來對微博的轉(zhuǎn)發(fā)量級進(jìn)行預(yù)測,如果可以將微博發(fā)布后的一天內(nèi)的轉(zhuǎn)發(fā)數(shù)據(jù)利用起來,再進(jìn)行微博最終轉(zhuǎn)發(fā)量的預(yù)測,那么應(yīng)該會有更大的提高. 這也為微博預(yù)測提供一種新的思路.

猜你喜歡
特征用戶模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
關(guān)注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
3D打印中的模型分割與打包
關(guān)注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關(guān)注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
主站蜘蛛池模板: A级毛片高清免费视频就| 国产xx在线观看| 黑人巨大精品欧美一区二区区| 黄色福利在线| 天堂岛国av无码免费无禁网站 | 福利一区在线| 国产丝袜精品| 国产精品一区在线麻豆| AV不卡国产在线观看| 色香蕉影院| 欧洲高清无码在线| 国产午夜精品一区二区三区软件| 亚洲 欧美 中文 AⅤ在线视频| 乱码国产乱码精品精在线播放| 亚洲永久精品ww47国产| 青青青国产在线播放| 热九九精品| 亚洲黄色片免费看| 国产精品视频导航| 天天摸天天操免费播放小视频| 国产伦精品一区二区三区视频优播| 亚洲国产精品一区二区高清无码久久| 日本精品视频一区二区| 精品国产成人三级在线观看| 天堂网亚洲系列亚洲系列| 亚洲无码视频喷水| 中文字幕久久精品波多野结| 久草视频精品| 欧美亚洲一区二区三区导航| 久久精品这里只有精99品| 久久先锋资源| 免费高清毛片| 国产你懂得| 国产成人亚洲日韩欧美电影| 国产欧美综合在线观看第七页| 国产美女自慰在线观看| 伊人无码视屏| 午夜福利网址| 国产精品无码久久久久AV| 久久精品无码中文字幕| 亚洲综合国产一区二区三区| 69av免费视频| 免费人成在线观看成人片| 天天视频在线91频| 最新亚洲人成无码网站欣赏网 | 黄色三级毛片网站| 亚洲成人黄色在线观看| 久久综合色天堂av| 国产精品无码作爱| 国模在线视频一区二区三区| 亚洲成a∧人片在线观看无码| 成人免费午间影院在线观看| 国产精品欧美激情| 香蕉久人久人青草青草| 色综合久久久久8天国| 欧美一级夜夜爽| 国产精品久久久久久久久| 亚洲天堂免费观看| 国产精品久久国产精麻豆99网站| 国产成人成人一区二区| 2021精品国产自在现线看| 久久久黄色片| 亚洲一级毛片在线观| 99精品国产高清一区二区| 国产成人精品优优av| 91福利在线看| 精品一区二区三区视频免费观看| 在线观看91精品国产剧情免费| 欧美成人精品高清在线下载| 无码区日韩专区免费系列| 国产精品思思热在线| 热伊人99re久久精品最新地| 欧美啪啪视频免码| 中文字幕波多野不卡一区| 一本视频精品中文字幕| 被公侵犯人妻少妇一区二区三区| 国产麻豆精品久久一二三| 久久久久国产精品免费免费不卡| 2020最新国产精品视频| 波多野结衣在线一区二区| 露脸一二三区国语对白| 亚洲国产午夜精华无码福利|