999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于用戶影響力的微博數據提取算法

2017-03-01 04:30:34田霏霏沈記全
計算機應用與軟件 2017年1期
關鍵詞:用戶信息

田霏霏 沈記全

(河南理工大學計算機科學與技術學院 河南 焦作 454000)

基于用戶影響力的微博數據提取算法

田霏霏 沈記全

(河南理工大學計算機科學與技術學院 河南 焦作 454000)

微博作為輿情分析中基礎數據的主要來源之一,如何對其進行有效提取是數據獲取的關鍵問題。為此,提出一種基于用戶影響力的數據提取算法,以滿足輿情系統對數據的需求。該算法首先利用模擬登錄技術獲取用戶關系并依此構建用戶網絡,再根據自主設計的用戶影響力計算方法計算出影響力,進而建立符合微博特征的影響力最大化模型挖掘出最具傳播能力的k個節點,最后爬取相應的微博數據。實驗證明,該算法能夠有效提高獲取數據的質量,為輿情分析提供更好的數據支持。

輿情 微博 數據獲取 用戶影響力 范圍最大化

0 引 言

微博作為大數據時代新生的網絡應用形式,以建立用戶關系為基礎,提供了一個基于信息共享和傳播的平臺[1]。自其誕生之日起,就以其簡單的組網方式和強大的信息傳播能力吸引了大量用戶[2]。大數據背景給予微博平臺龐大的用戶群體和海量的數據,其在社會輿情的形成中起著重要作用。隨著微博持續不斷地披露出重大公共事件,其逐漸成為輿情分析的主要數據來源。

為進行更有效的輿情分析,對基礎數據的質量提出新的要求。近年來國內外學者在微博數據提取方面做了大量研究。高凱等[3]利用模擬登錄技術結合抓包工具對數據包進行截取和分析,爬取網頁鏈接和數據。陳舜華等[4]通過調用微博API接口來獲取數據信息。由于API不完全對外開放,因此該方案獲取到的數據不夠全面。廉捷等[5]將微博API與Web頁面解析技術相結合,對API調用頻率進行合理控制實現了微博數據的高效獲取。該方法獲取的數據雖相對完整,但數據較原始、質量較低。盧體廣等[6]使用一種模擬登錄的算法來完成新浪微博的認證,通過計算優先級構造優先隊列來進行數據獲取。馬俊等[7]提出了PBF方法,該方法通過對用戶個人屬性進行分析計算出用戶影響力。Aizawa[8]針對Binary Heaps算法進行改進,提出一種優先隊列計算方法來構造優先隊列。Weng等[9]提出了基于PageRank原理的TwitterRank算法來計算某一用戶在某一主題內的影響力。Phan等[10]基于Reduce Number of Comparison算法進行改進,在數據獲取時也進行了優先隊列的計算及構造。毛佳昕等[11]通過對用戶行為特征的分析來評價用戶影響力。雖然使用文獻[6-11]中的方案均可獲取到用戶數據,但卻沒有將提取目標用戶的范圍最大化[12],忽略了用戶網絡中的弱連接點。

針對以上獲取數據質量方面的不足,本文提出一種基于用戶影響力的微博數據提取算法來解決此問題。該算法首先構建用戶網絡,再通過深入分析用戶交互行為計算用戶影響力,進而建立影響力最大化模型挖掘出最具傳播能力的k個節點并提取相應的微博數據,最終完成微博數據獲取。通過該算法可以有目的地提取數據,為輿情分析提供良好的數據來源。

1 用戶影響力計算

微博平臺中,用戶通過添加關注建立起單雙向關系,從而構成整個用戶網絡。在此基礎之上,用戶間可進行各種交互使信息得到傳播。定義用戶影響力來衡量用戶對信息的傳播能力:

定義1 用戶影響力[13]是微博網絡中用戶對他人的影響能力以及對信息的傳播能力,是以用戶交互為基礎的一種信息傳播能力,是用戶在社交網絡中重要性的體現。

由定義1可知影響力大的用戶可以影響到更多的人,使信息的傳播范圍更廣,更有利于輿情的產生。因此本文通過設計用戶影響力計算方法對影響力進行計算,并以此為基礎進行數據提取,能夠更好地滿足輿情分析的需要。

1.1PageRank算法

眾所周知的PageRank[14]算法是用來計算網頁重要性排名的經典算法,在用戶影響力的計算中也被廣泛應用。該算法利用網絡拓撲中的鏈接關系來計算網頁的重要程度。表達式如下:

(1)

式中,Pi代表當前頁面,L(Pj)表示從頁面Pj鏈出頁面的集合,M(Pi)是Pi的鏈入頁面集合,d是阻尼系數。計算后PageRank值越大的網頁越重要。由式(1)可看出,算法中頁面的影響力值是均勻地傳遞到鏈出頁面上的,忽略了各頁面間影響力的不均衡性。

1.2 用戶影響力計算方法

針對PageRank算法在影響力傳遞方面的不足,本文通過深入分析用戶交互提出用戶影響率的概念對其進行改進,以便更合理地分配用戶影響力,最終計算出每個用戶的影響力。用戶影響率是被關注者對關注者的影響力,是一種衡量用戶間交互能力的量,所以應從用戶交互的角度去計算用戶影響率。

用戶交互是以用戶網絡為背景的,首先應針對用戶間的單雙向關系構建用戶網絡。定義G=(V,E)代表整個用戶網絡,V為所有用戶節點的集合,E代表用戶間有直接關系的邊的集合。對于vm,vn∈V,∈E,代表用戶vm關注vn,則vm稱為vn的粉絲。網絡中每個節點都會附加該用戶的狀態信息及行為信息,分別儲存在PROFILES和ACTIONS文件中。其中,狀態信息包括微博數量、關鍵詞等信息,行為信息包括用戶間的轉發、評論等一系列的互動操作信息。可通過對交互行為的分析來計算用戶影響率。通常,用戶交互行為包括微博的轉發、評論、提及(@)和私信等。在以下所有分析中,均有vi,vj∈V,vj關注vi。

1) 關注度

伴隨著粉絲微博的發布,被關注用戶的微博也一同被推送到該粉絲的微博首頁。因此粉絲關注的用戶越多,收到的推送信息就越多,從而會使某用戶的微博在數據更新迅速的微博平臺上被粉絲看到的幾率降低。定義關注度來衡量這種特殊的關系,用AS表示如下:

(2)

式中,Tweet(vi)和Tweet(vj)分別代表的是vi和vj在某時間段內發布的微博總數,Attention(vj)代表的是用戶vj關注的用戶集合。

2) 轉發量

用戶vi發布的微博被推送到vj的首頁時,若vj對vi發布的某條微博感興趣,可對其進行轉發操作,則該微博就被分享并推送給用戶vj的粉絲,此情況下微博的傳播范圍被擴大。轉發量作為衡量用戶影響率的指標之一,用FS表示如下:

(3)

式中FS(vi,vj)代表用戶vj對vi的轉發量,Forward(vi,vj)是用戶vj對vi轉發次數總和,Forward(vj)表示用戶vj對所有用戶轉發次數總和,Forwarded(vi)表示用戶vi被所有用戶轉發次數總和。轉發量越大,用戶vi對vj的影響也就越大。

3) 評論量

當用戶vi的微博對vj產生影響時,vj也會對其進行評論,評論越多證明該用戶對其影響越大。用CS來表示評論量:

(4)

式中,CS(vi,vj)代表用戶vj對vi的評論量,Comment(vi,vj)代表用戶vj對vi進行評論的總次數,Comment(vj)表示用戶vj對所有用戶進行評論的總次數,Commented(vi)表示用戶vi被所有用戶評論的總次數。評論量越大則證明用戶vj對vi越關注。

4) 提及量

@操作是微博平臺上極具特色的操作,一般出現在微博內容中,表示發出者提及接收方來讀取該微博信息,是用戶交互行為的一種,該操作多出現在密友中。用MS表示提及量:

(5)

式中,MS(vi,vj)表示用戶vj對vi的提及量,Mention(vi,vj)為用戶vj提及vi的總次數,Mention(vj)表示用戶vj提及其他所有用戶的總次數,Mentioned(vi)表示用戶vi被所有其他用戶提及的總次數。提及量越大,信息交互越頻繁,更能夠促進信息的傳播。

5) 私信值

私信是微博平臺新上線的功能,用戶間可以相互發送私信,體現了用戶間的親密和互動的程度。用DM表示私信值如下:

(6)

式中Direct(vi,vj)代表的是用戶vi和vj的私信總次數,Direct(vj)表示用戶vj私信所有用戶的總次數,Directed(vi)表示用戶vi被所有用戶私信的總次數。

6) 關鍵詞相似度

關鍵詞集合是描述用戶擅長領域或話題的集合。若兩個用戶的關鍵詞有交集,表示二者有著相同的愛好,微博數據就更有可能在二者間傳播。關鍵詞數據格式為(keyword1,weight1;keyword2,weight2;…),分別代表該用戶的關鍵詞及與之相對應的權重。則兩個用戶的關鍵詞相似度KS表示如下:

(7)

式中,兩用戶關鍵詞集合總大小為s,wik和wjk分別代表該公共關鍵詞在兩用戶集合中相應的權重。

7) 用戶影響力的計算

(8)

為解決不同評價指標間量綱不同的問題,需將數據進行標準化處理,使各指標處于同一數量級,適合進行綜合對比評價。因此,對IR(vi,vj)進行線性變換,使其結果映射到[0,1]之間。

(9)

式中,INF(v)和INF(v′)分別代表用戶v和v′的影響力,IR(v,v′)和IR(v″,v′)分別代表用戶影響率。式中F(v)代表用戶v的粉絲集合,Attention(v′)代表的是用戶v′關注的用戶集合,d是阻尼系數。對式(9)進行迭代可以求出網絡中所有節點的影響力INF。

2 影響力最大化模型設計

根據本文提出的影響力計算方法可求得各節點的INF值,從而得到用戶影響力的排序。INF值越大的用戶,對信息的傳播貢獻就越大。假設某一INF值較小的用戶A擁有INF值較大的粉絲B,此時A的微博數據可以被B在較大的范圍內傳播。若直接選取INF排名靠前的k個節點作為目標數據,很可能忽略網絡中的弱連接點,導致k個節點集中在一個簇內,不能保證最終獲取到的用戶節點影響范圍最大。因此需要建立符合微博網絡特征的影響力最大化模型來尋找能夠影響最多用戶的節點。

2.1 影響力最大化定義

定義2 在已知的網絡G中,給出特定的影響力INF(v)來求解集合S(k),集合大小為k。S(k)需滿足以該集合中節點為初始節點遵循影響力傳播模型進行傳播,最終能激活節點數目最多。即獲取k個用戶,使其具有最大的傳播范圍。

LTM模型[15]是一種經典的基于節點的傳播模型。已知社會網絡G=(V,E),定義N(v)={u|(u,v)∈E}表示節點v在網絡G中的鄰居節點集合,buv是已激活節點u對它未激活鄰居節點v的影響力,且∑u∈N(v)buv≤1。定義N(v)中已激活節點集合為A(v),每個節點v均有一個特異性閾值θv,在∑u∈A(v)buv≥θv的條件下節點v被激活。

信息擴散步驟如下:

Step1 給定初始傳播種子集合S0,buv為節點u對v的影響力,θv為節點v被激活的閾值。

Step2 在第t步擴散時,滿足激活條件的基于集合St-1節點將形成新集合St。

Step3 程序循環進行,直到不再有新節點被激活。

2.2 最大化模型設計

LTM是基于節點的價值積累傳播模型,其中buv是通過社交網絡中u對v的影響權重來計算的。但在微博平臺中,當用戶被抽象為節點后,各節點間是通過雙向交互來激活網絡中的其他節點,最終促進信息傳播。因此應根據微博自身的特征設計最大化模型來滿足影響力最大化的需要。

通過本文對微博的深入分析,根據式(9)可計算出每個用戶的影響力INF。各用戶通過雙向交互對其鄰居節點的影響力bvv′可表示如下:

(10)

(11)

其中,V是用戶集合,S是已激活節點集合。由式(11)計算后選取SeedFind值最大的節點為初始種子節點。

根據上述分析,設計具有微博特征的影響力最大化模型表示如下:

Step1 根據式(9)迭代計算所得的用戶影響力INF值代入式(10)計算出傳遞概率bvv′。初始狀態集合S為空。

Step3 由式(11)計算出指標SeedFind值。

Step4 將SeedFind值最大的節點作為種子節點,以bvv′為傳遞概率進行節點擴散。

Step5 每一步擴散都選取傳播范圍增量最大的節點,并將此節點添加到集合S中。

Step6 集合S.size=k,傳播結束。

3 算法實現

本文綜合微博自身特征及用戶屬性,提出一種基于用戶影響力的微博數據提取算法來提取微博數據,核心步驟如下:

Step1 采用模擬登錄技術獲取微博用戶初始數據,并對其進行結構化和預處理,獲得用戶關系。

Step2 構建用戶網絡,同時得到PROFILES和ACTIONS兩個文件用來儲存用戶信息。利用式(2)-式(7)分別計算出AS(v,v′)、FS(v,v′)、CS(v,v′)、MS(v,v′)、DM(v,v′)、KS(v,v′)。

Step3 根據以上計算結果,利用式(8)計算出IR(v,v′)。

Step4 為用戶INF賦初值1/n,并對式(9)進行迭代,依次求出網絡中所有用戶的影響力INF。

Step5 根據式(10)、式(11)計算出用戶的SeedFind值和傳播概率bvv′。建立基于微博特征的最大化模型,最終獲取到大小為k的用戶集合S。

Step6 根據集合S中的節點,應用爬蟲技術提取相應的微博并存儲,算法結束。

根據以上各步驟,將算法用偽代碼表示如下:

Input: G=(V,E),PROFILES ,ACTIONS ,c,k,θv

Output: the Top-k node set S

1: for each edge ∈E do

2: calculate AS(v,v′),FS(v,v′),CS(v,v′),MS(v,v′),DM(v,v′),KS(v,v′) respectively

3: calculate IR(v,v′)

4: end for

5: set the initial influence value to 1/n,where n is the total number of nodes

6: while (ratio > Threshold)

7: for each v in V do

8: for each v′∈F(v)

9: get the value of IR(v,v′) and INF(v′)

10: for each v″∈ Attention(v′)

11: get IR(v″,v′),then accumulate them and assign to sum

12: end for

13: INFt+1(v)+=IR(v,v′)*INFt(v′)/sum

14: end for

15: INFt+1(v)=INFt+1(v)*c+(1-c)/n

16: end for

17: ratio=max(INFt+1(v)- INFt(v))/max(INFt+1(v))

18: end while

19: for each v in V do

20: get the value of INF(v),then accumulate SeedFind(v)

21: end for

22: Order SeedFind(v) by desc,then Initialize S=φ

23: v = List[0],S = S∪{v},i=1

24: while |S|<=k

25: v = List[i]

26: while v=argmax(I(v)i- I(v)i-1)

27: S = S∪{v}

28: i ++;

29: end while

30: end while

31: return S and extract the data

算法中I(v)代表以節點v為種子進行傳播所激活的節點集合,其中I(v)i-I(v)i-1表示當前節點新加入后所激活節點的增量。因此該算法最終輸出大小為k的集合S中的元素都是最具傳播能力的節點。然后將這些用戶的微博數據提取存入數據庫,完成數據提取。

4 實驗與分析

4.1 實驗環境及初始數據準備

為驗證本文提出的基于用戶影響力的微博數據提取算法的有效性,設計實驗進行驗證。測試機器為Lenovo Y460服務器,Intel(R)Core(TM)i5 CPU,4 GB內存,運行環境為Windows 8.1平臺下的Microsoft Visual Studio 2010,使用C#語言進行開發和實現。本文基于瀏覽器模擬登錄技術完成微博平臺的認證,再通過設計爬蟲算法以得到實驗的初始用戶數據。模擬登錄后可獲取用來識別用戶身份的cookie數據。將cookie作為訪問微博的header參數提交request給服務器,可以收到服務器的response反饋。在提交POST請求之前,需要GET 獲取“servertime” 和 “nonce”兩個參數的值,通過HttpFox觀察POST的數據,其中 “su”是加密后的username,“sp”是加密后的password,最終實現模擬登錄。認證成功后便可爬取用戶信息,再對得到的數據進行結構化和預處理(過濾僵尸用戶等)即可完成初始數據的準備工作。數據集描述如表1所示。

表1 數據集情況

表1顯示了實驗獲取到的8756個用戶,以及用戶間的單雙向關系總量,將其抽象為節點和邊建立用戶網絡G=(V,E)。用戶的狀態信息和行為信息分別以JSON數據格式儲存在PROFILES文件和ACTIONS文件中。

4.2 實驗評估及分析

算法通過設定比率ratio來控制收斂,該值為迭代過程中用戶影響力的增量最大值與最大值的比值。當該比值小于已設定的門限值Threshold時終止循環。圖1顯示了實驗過程中比率ratio隨著迭代次數增加的變化情況。

圖1 迭代次數與比率ratio變化關系圖

圖1中顯示了進行0~100次迭代ratio值的變化情況,ratio的值隨著迭代次數的增加而不斷減小。進行70次迭代后,ratio已經減小到10-5數量級,已經非常接近0,可以認為該循環結束,因此門限值Threshold可設為10-5,即計算過程中循環進行70次結束。迭代結束后可以計算出用戶影響力值,其分布情況如圖2所示。

圖2 INF值分布圖

圖2中顯示出實驗數據集內INF值的分布情況,INF較大的用戶集中在小范圍內,更多用戶集中在INF值較小的范圍內。為防止弱連接點的丟失,需進行影響力最大化計算來擴大影響力的范圍。提取結果數據集中INF值Top 10用戶與影響力最大化后的Top 10節點進行對比說明,如表2和表3所示。

表2 用戶影響力INF值Top 10

表3 影響力最大化后微博用戶Top 10

通過對比兩表中的數據,可見INF值大的用戶與影響力范圍最大化后的節點集合S不完全相同,INF排名靠前的用戶不一定出現在集合S的Top-k中。原因是某些INF小的用戶可能擁有INF較大的粉絲,這些粉絲對當前用戶的微博進行轉發后,相當于影響力較大的用戶發布了該微博,從虛擬的角度增大了當前用戶的影響力,所以在結果集S中出現INF值小的新用戶,從某種程度上初步體現了本文算法獲取數據范圍廣的優點,保證網絡中弱連接點不被忽略。

為進一步驗證本文算法的有效性,與PageRank算法以及TwitterRank算法進行對比。將PageRank算法結果按降序排列并取出Top-k節點構成集合P1,同理TwitterRank算法對應集合P2,與本文算法最終輸出集合S分別對比。定義相似性分別為H1、H2:

(12)

H1、H2的計算結果如圖3所示。

圖3 相似性曲線

由圖3可看出,H1、H2隨著抓取目標集合大小k的增大均呈現先下降后平穩上升的趨勢。這是由于隨著獲取節點的不斷增多,弱連接點也隨之增多,當一些弱連接點被挖出時,相似性就會相對降低;當獲取節點個數持續增多時,弱連接點的個數由于不斷被挖掘出來而減少,此時相似性就呈現出穩定增長的狀態。該對比進一步驗證了本文算法的正確性和獲取數據完整的優點。

為驗證本文算法獲取數據質量高,選取本文算法(以下簡稱Our method)、PageRank算法、TwitterRank算法以及爬蟲算法(Web Spider)的實驗結果集進行對比。四個集合中分別選取前十個節點作為種子節點,以bvv′為傳播概率構成傳播模型來模擬微博數據在微博平臺上的傳播情況。在選取同樣數量種子節點的情況下,所激活的節點個數情況如圖4所示。

圖4 激活用戶節點個數比較

圖4中各曲線可看出,在種子集合大小一樣的情況下,四種算法激活的節點數都呈上升趨勢,其中爬蟲算法激活的節點最少,本文算法激活的節點最多,PageRank和TwitterRank算法則居中。這意味著本文算法獲取到的用戶對數據具有最強的傳播能力,可使數據傳播的范圍更廣,對輿情的形成具有更重要的意義,因此依據本文算法提取到的微博數據質量更高。為將四種算法進行效率對比,實驗利用獲取相同個數節點所消耗的時間來評估各算法的效率。實驗結果如圖5所示。

圖5 各算法執行性能比較

由圖5可以看出,在獲取相同數量節點的情況下,爬蟲算法耗時最長,本文算法與PageRank算法耗時基本接近,TwitterRank居中。本文算法在耗時上相對于爬蟲算法和TwitterRank算法具有明顯的優勢。由于本文需要進行最大化計算,在保證耗時與PageRank基本相同的情況下獲取到的數據質量更高,相對提高了數據的獲取效率。

將本文算法提取的微博數據集與PageRank算法以及TwitterRank算法獲取的用戶數據進行對比。將三者的數據集分詞后應用LDA模型,進行熱門話題檢測,比較召回率、準確率和F值,如表4所示。

表4 話題測評結果對比

表4中可看出,本文算法提取的數據在話題檢測中較其他兩種算法占優勢,性能較PageRank算法提高約3.79%,較TwitterRank算法提高約1.89%。因此本文算法獲取的數據質量更高,更能滿足輿情分析的需要。

5 結 語

本文針對輿情分析的要求提出一種基于用戶影響力的數據提取算法。通過詳細分析用戶間的雙向交互最終實現微博數據的有效獲取。通過設計實驗驗證了本文算法可以減少用戶網絡中弱連接點的丟失,保證抓取目標數據的完整性和準確性。通過與其他算法的性能對比,驗證了本文算法可以有效提取高質量的微博數據,為進一步進行輿情分析提供了良好的條件。但在算法執行時間上應考慮到并行化,這將是后續研究的方向。

[1] 丁兆云,賈焰,周斌.微博數據挖掘研究綜述[J].計算機研究與發展,2014,51(4):691-706.

[2] Kwak H,Lee C,Park H,et al.What is Twitter,a Social Network or a News Media?[C]//Proceedings of the 19th International Conference on World Wide Web.New York:ACM,2010:591-600.

[3] 高凱,王九碩,馬紅霞,等.微博信息采集及群體行為分析[J].小型微型計算機系統,2013,34(10):2413-2416.

[4] 陳舜華,王曉彤,郝志峰,等.基于微博API的分布式抓取技術[J].電信科學,2013,29(8):146-150,155.

[5] 廉捷,周欣,曹偉,等.新浪微博數據挖掘方案[J].清華大學學報(自然科學版),2011,51(10):1300-1305.

[6] 盧體廣,劉新,劉任任.微博數據通用抓取算法[J].計算機工程,2014,40(5):12-16,20.

[7] 馬俊,周剛,許斌,等.基于個人屬性特征的微博用戶影響力分析[J].計算機應用研究,2013,30(8):2483-2487.

[8] Aizawa A.An information-theoretic perspective of tf-idf measures[J].Information Processing & Management,2003,39(1):45-65.

[9] Weng J,Lim E P,Jiang J,et al.TwitterRank:Finding Topic-sensitive Influential Twitterers[C]//Proceedings of the Third ACM International Conference on Web Search and Data Mining.ACM,2010:261-270.

[10] Phan X H,Nguyen L M,Horiguchi S.Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections[C]//Proceedings of the 17th International Conference on World Wide Web.ACM,2008:91-100.

[11] 毛佳昕,劉奕群,張敏,等.基于用戶行為的微博用戶社會影響力分析[J].計算機學報,2014,37(4):791-800.

[12] Liu Y.Influence Maximization in MicroBlog Based on a New User Influence Ranking Method[J].Journal of Information and Computational Science,2015,12(9):3729-3737.

[13] 張昊,劉功申,蘇波.一種微博用戶影響力的計算方法[J].計算機應用與軟件,2015,32(3):41-44.

[14] 平宇,向陽,張波,等.基于MapReduce的并行PageRank算法實現[J].計算機工程,2014,40(2):31-34,38.

[15] 陳浩,王軼彤.基于閾值的社交網絡影響力最大化算法[J].計算機研究與發展,2012,49(10):2181-2188.

MICROBLOG DATA EXTRACTION ALGORITHM BASED ON USER INFLUENCE

Tian Feifei Shen Jiquan

(CollegeofComputerScienceandTechnology,HenanPolytechnicUniversity,Jiaozuo454000,Henan,China)

As one of the main sources of basic data in public opinion analysis,the microblog is a key problem in data acquisition.For this issue,a data extraction algorithm based on user influence is proposed in order to meet the needs of public opinion system for data.First,the algorithm uses the simulation login technology to obtain the user relationship and builds the user network,and then calculates the user influence with the independent design user influence calculation method in order to establish the influence of microblog features to maximize the ability of the model and dig out the mostknodes.Finally,it uses the conventional crawler technology to climb the corresponding microblog data.Experiments show that this algorithm is able to improve the quality of the data effectively and provide better data support for public opinion analysis.

Public opinion Microblog DATA acquision User influence Range maximize

2015-09-09。國家自然科學基金面上項目(61175066)。田霏霏,碩士生,主研領域:輿情分析,數據挖掘。沈記全,教授。

TP39

A

10.3969/j.issn.1000-386x.2017.01.010

猜你喜歡
用戶信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲无线观看| 97视频精品全国免费观看| 在线亚洲精品福利网址导航| 99精品在线看| 爆操波多野结衣| 久久国产成人精品国产成人亚洲| a毛片在线播放| 免费欧美一级| 午夜高清国产拍精品| 日本免费a视频| 97人妻精品专区久久久久| 欧美精品亚洲精品日韩专区| 青青青国产免费线在| www.youjizz.com久久| 一级全黄毛片| 青草精品视频| 欧美一级黄片一区2区| 亚洲乱码视频| 亚洲无线一二三四区男男| 国产肉感大码AV无码| 国产美女丝袜高潮| 精品人妻系列无码专区久久| 国产美女无遮挡免费视频网站| 久夜色精品国产噜噜| 亚洲狼网站狼狼鲁亚洲下载| 国产大片喷水在线在线视频| 亚洲欧美成人综合| 国产黄网站在线观看| 日韩小视频网站hq| 亚洲日本精品一区二区| 激情无码字幕综合| 欧美有码在线观看| 欧美精品1区| 国产欧美视频一区二区三区| 中文字幕欧美日韩| 亚洲成综合人影院在院播放| 国产91无毒不卡在线观看| 好吊色国产欧美日韩免费观看| 在线日本国产成人免费的| 国产福利在线免费| 国产精品无码在线看| 国产丰满大乳无码免费播放 | 99久久成人国产精品免费| 欧美视频免费一区二区三区| 国产精品夜夜嗨视频免费视频| 久久天天躁狠狠躁夜夜躁| 国产成人综合久久精品尤物| 在线五月婷婷| 成人在线不卡| 5555国产在线观看| 美女内射视频WWW网站午夜| 免费视频在线2021入口| 國產尤物AV尤物在線觀看| 久久网欧美| 国产一区二区三区在线无码| 视频二区国产精品职场同事| 午夜性刺激在线观看免费| 色国产视频| 久久精品66| 国产精品吹潮在线观看中文| 婷婷午夜天| 国产尤物jk自慰制服喷水| 三区在线视频| 免费无码AV片在线观看国产| 伊人久久影视| 国产女人爽到高潮的免费视频| 欧美一级夜夜爽www| 激情乱人伦| 国产成人精品在线1区| 国产99精品久久| 四虎永久免费网站| 日本精品视频一区二区| 国产91视频观看| 国产精品第| 欧美午夜视频| 爱爱影院18禁免费| 最新国产网站| 无码人中文字幕| 亚洲性色永久网址| 亚洲精品在线影院| 欧美成人精品一级在线观看| 亚洲全网成人资源在线观看|