999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

社交網站數據采集與熱點分析技術研究

2021-04-29 06:56:24黃德勝
微型電腦應用 2021年4期
關鍵詞:分析方法

黃德勝

(廣州衛生職業技術學院 基礎學院, 廣東 廣州 510925)

0 引言

實現快速準確的社交網站數據采集與熱點分析,有利于及時發現熱點信息。眾所周知,社交網絡是用戶在線交流、傳播信息的重要場所。社交網絡可以讓所有用戶都能夠自由注冊賬戶,與其他人建立聯絡,同時還能夠查看其他好友的動態,為人們帶來了很大便利。然而任何事情都有兩面性,在社交網絡用戶以及信息不斷增長的同時,去中心化問題也尤為突出。社交網絡中的信息具有稀疏性、高維性、主題不均勻等特點,這些特點導致用戶難以獲取自己感興趣的話題以及某一時間段內的熱點話題。因此,如何從雜亂無章的海量社交網絡信息中提取到熱點話題是一個巨大的挑戰。

當前常使用的關于社交網絡數據采集與熱點分析的方法有兩種,一種是基于時間序列的社交網站數據與熱點分析方法;另一種是基于事件關聯的社交網絡數據采集與熱點分析方法。其中基于時間序列的社交網站數據與熱點分析方法主要是將一定情況、場景或者某一個統計維度在不同時刻點上的各個數據,按照時間的先后順序排列而成的序列,能夠研究隨機數據序列所服從的統計特征,從而對社交網絡的熱點進行分析。基于事件關聯的社交網絡數據采集與熱點分析方法主要對采集的大量網絡安全事件信息進行分析,從中查找到關聯數據,從而分析社交網站數據熱點。

盡管這兩種方法在社交網站的數據采集與熱點分析中分別具有一定優勢,但依舊存在部分問題,為了提高社交網站的數據采集與熱點分析的速度以及準確性,本研究設計了一種社交網站的數據采集與熱點分析方法。首先進行社交網絡數據的采集與預處理,再通過計算社交網站數據語義相似度對相關數據進行檢索,最后計算社交網站中的數據熱度,完成社交網站的數據采集與熱點分析。實驗證明,本研究設計的社交網站的數據采集與熱點分析方法能夠及時發現熱點信息。

1 社交網絡數據采集

數據采集通過網絡爬蟲抓取指定社交網絡平臺上的原始數據[1-2],下載到計算機中作為社交網絡數據熱點分析的數據源,并從這些數據源中抽取有價值的信息,主要包括用戶信息、發布時間、文本內容、評論信息以及關注人數等,將這些信息轉化為結構數據存儲到數據庫中。網絡爬蟲可以自動采集所有其能夠訪問到的頁面內容,為搜索引擎和大數據分析提供數據來源。在抓取工作中,首先選取一部分種子統一資源定位符(Uniform Resource Location、URL),將其放入待抓取URL隊列中,從中取出待抓取URL,解析DNS得到主機的IP地址,并將URL對應的網頁下載下來存儲到已下載網頁庫中。此外,將以上URL放進已抓取URL隊列,再分析已抓取URL隊列中的URL,分析其中的其他URL,并且將這些URL放入待抓取URL隊列,在此基礎上進入下一個循環。網絡爬蟲工作流程,如圖1所示。

圖1 網絡爬蟲工作流程

由于本研究采集的數據中包含重復數據,因此需要對采集的數據進行分詞處理與過濾。處理流程,如圖2所示。

圖2 社交網站數據分詞處理流程圖

在此基礎上,選取社交網站數據特征,其處理流程如下所示。

Step1:采用TF-IDF(Term Frequency-inverse Document Frequency)權值計算方法,計算經過分詞的社交網站數據詞頻。其中TF-IDF權值計算方法的主要思想是分析某個數據在一個網站中出現的頻率值[4],如果該數據在其他數據中很少出現,則認為此數據具有很好的類別區分能力;

Step2:將數據高維向量空間[5]進行降維縮減;

Step3:提取最能反映社交網站數據的特征向量;

Step4:存儲特征數據。

以此,通過上述過程完成社交網絡數據分詞的處理,通過分詞可得到每個數據對應句子的權重,其流程如下所示。

第一:特征數據存儲;

第二:社交網站特征數據加權處理;

第三:按照上述權重計算結果對原文數據排序,完成數據分詞權重的處理。

2 社交網站數據熱點分析

2.1 數據語義相似度計算

在上述社交網站數據采集的基礎上,對社交網絡數據熱點進行分析。在分析過程中,需要將獲取的數據轉換為計算機內部能理解的形式以進行數值運算[6]。因此建立向量空間模型,即對文本數據建模[7]。向量空間模型的主要思想是將數據看成孤立的、互不相關的部分,以將文本數據轉化為多維度的空間向量。向量空間模型中文本與空間存在的關系,如圖3所示。

圖3 向量空間模型中文本與空間存在的關系

將社交網站文本數據轉換為空間向量后,就可以進行相關計算,通過向量空間模型將整個數據映射為一個特征向量,如式(1)。

Q=D+R/x

(1)

式中,D表示社交網站文本數據中互不相同的詞條項;R表示社交網站文本數據詞頻函數;x表示數據在文檔中出現的次數。

在此基礎上,計算數據語義相似度[8],這是由于社交網絡數據熱點分析過程中,數據之間具有相關性,因此采用語義相似度的方法度量數據相關性。語義相似度方法主要以信息特征為計算基礎,通過分析兩個概念在知識庫中共享信息情況,計算二者所有信息的比率[9],如式(2)。

(2)

式中,X表示最小上層詞語的深度;y表示詞語包含的語義信息;d表示同義詞集合中元素集合中的部分。

2.2 相關數據檢索

尋找社交網站中熱點數據,需要依據語義相似度計算結果建立事件關聯圖[10],以分析數據之間的關聯關系。對相關數據檢索通過兩個方面展開,如圖4所示。

圖4 相關數據檢索流程

本地事件檢索主要應用了特征詞提取技術[11],其具體表達式,如式(3)。

F=H/k+l

(3)

式中,H表示社交網站數據詞頻;k表示數據長度;l表示數據特征參數。

在互聯網事件檢索上,借助互聯網上的搜索引擎[12]對數據進行處理,將檢索到的文檔分類到在本地數據庫中獲得的相關話題中,從而獲得新的相關話題。

2.3 數據熱度計算

將上述獲得的相關話題文檔按照時間進行劃分,根據各個事件的數據文檔衡量數據的熱度[13]。數據熱度計算涉及的主要內容,如圖5所示。

圖5 數據熱度計算主要內容

從圖5可知,社交網站的數據紛繁復雜,數據量極為龐大,而且各種各樣的話題涉及到的內容不同,但只有部分數據是用戶重點關注的話題。因此以衡量數據的重要度來確定數據的影響力[14],綜合考慮網民關注度與媒體關注度[15],計算數據熱度,如式(4)。

w=At*Et+B

(4)

式中,At表示社交網站數據在時間t內的總點擊次數,即表示數據的評論數;w表示社交網站數據的權威度;Et表示社交網站數據在時間t內的報道總數;B表示調整因子。

通過上述過程,完成社交網站中數據熱點的分析。

3 實驗對比

為了更好地證明本研究方法的有效性,本研究使用Chrome瀏覽器,并利用網上一綜合性大型網站為實驗對象進行相關實驗,通過網絡爬蟲抓取實驗使用的4個數據集,其中主要包括娛樂類數據、體育類數據、美食類數據和美妝類數據,其大小分別為45 kB、125 kB、256 kB和452 kB,實驗分析了該網站總計8天的數據。將每小時對該帖子的評論數作為熱度值,采用此次設計的社交網站的數據采集與熱點分析方法識別這4個數據集中的熱點話題。為了增強實驗的對比性,將傳統的基于時間序列的社交網站數據與熱點分析方法、基于事件關聯的社交網絡數據采集與熱點分析方法對比。此次設計的方法發現在這4個數據集上的熱點數據的時間。

3.1 娛樂類數據熱點發現時間

三種方法發現娛樂數據熱點內容的時間對比結果,如表1所示。

表1 娛樂類數據熱點發現時間

由表1可知,所設計的方法能夠在短時間內識別社交網站的數據。傳統的基于時間序列的社交網站數據與熱點分析方法、基于事件關聯的社交網絡數據采集與熱點分析方法的娛樂類數據熱點發現時間顯著高于所設計的社交網站數據采集與熱點分析方法。

3.2 美食類數據熱點發現時間

三種方法發現美食類數據熱點內容的時間對比結果,如表2所示。

表2 美食類數據熱點發現時間

由表2可知,美食類數據多于娛樂類數據,在此類數據識別上,傳統兩種方法發現美食類數據熱點的時間呈增加的趨勢。并經過對比可知,所設計方法發現美食類數據熱點內容的時間較短。

3.3 美妝類數據熱點發現時間

美妝類數據為452 kB,數據量多于上述兩種對比內容的數據,三種方法在此數據下的發現時間,如表3所示。

表3 美妝類數據熱點發現時間

由表3可知,此次設計的方法發現熱點的時間沒有明顯變化,花費時間依舊較少。而傳統兩種方法的美妝類數據熱點發現時間仍然高于所設計的社交網站數據采集與熱點分析方法。

3.4 體育類數據熱點發現時間

三種方法發現體育類數據熱點內容的時間對比結果,如表4所示。

表4 體育類數據熱點發現時間

由表4可知,所設計方法發現體育類數據熱點的時間較短,明顯低于傳統兩種方法。或許是傳統方法在分詞、特征提取、權重計算與聚類處理等方面上耗費了大量時間,導致數據熱點發現時間延長。因此,通過上述實驗能夠證明,所設計的方法數據熱點發現時間短于傳統兩種分析方法,能夠及時向社交網站用戶推送熱門內容。

4 總結

社交網站數據采集與熱點分析是一個隨著時代變化不斷發展的研究領域,還有許多問題有待進一步探索與研究。針對此次研究內容的不足,今后將重點研究三方面內容,分別為如何有效及時獲取網絡中的最新消息;如何挖掘社交網站數據中蘊含的語義信息以提高熱點數據挖掘能力;如何對音頻、視頻等多媒體信息進行處理以進一步提高社交網站數據熱點分析效果,及時為用戶提供熱點數據。

猜你喜歡
分析方法
隱蔽失效適航要求符合性驗證分析
學習方法
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
電力系統及其自動化發展趨勢分析
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
主站蜘蛛池模板: 日本人真淫视频一区二区三区| 亚洲二区视频| 怡春院欧美一区二区三区免费| 亚洲视频四区| av在线5g无码天天| 国产青青草视频| 最新国产高清在线| 欧美国产综合视频| 国产在线一二三区| 亚洲AV一二三区无码AV蜜桃| 国产人人乐人人爱| 99热国产这里只有精品9九| 亚洲精品视频免费观看| 色婷婷综合激情视频免费看| 欧美中文字幕第一页线路一| 国产91小视频在线观看| 99精品在线视频观看| 亚洲一区二区黄色| 亚洲欧美日韩天堂| 欧美亚洲第一页| 久久久国产精品无码专区| 青草娱乐极品免费视频| 一级在线毛片| 一级黄色片网| 国产美女无遮挡免费视频| 欧美天堂在线| 国产精品30p| 精品久久久久久久久久久| 小蝌蚪亚洲精品国产| 99人妻碰碰碰久久久久禁片| 福利在线一区| 中国黄色一级视频| 国产69精品久久| 免费一级毛片在线观看| 91精品视频在线播放| 一区二区理伦视频| 亚洲欧美激情另类| 国产人人射| 午夜高清国产拍精品| 扒开粉嫩的小缝隙喷白浆视频| 91综合色区亚洲熟妇p| 亚洲精品在线观看91| 国产精品免费福利久久播放| 婷婷综合色| 国产制服丝袜91在线| 国产一区免费在线观看| 欧美性久久久久| 色135综合网| 国产福利小视频在线播放观看| 久久一本精品久久久ー99| 欧美日韩资源| 人妻精品全国免费视频| 亚洲色无码专线精品观看| 夜夜高潮夜夜爽国产伦精品| 亚洲国产中文在线二区三区免| 真实国产精品vr专区| 国产又爽又黄无遮挡免费观看| 999国产精品永久免费视频精品久久 | 亚洲国产系列| 久久婷婷国产综合尤物精品| 亚洲国模精品一区| 人妻丰满熟妇AV无码区| 国产精品网曝门免费视频| 播五月综合| 在线国产毛片| 中文字幕有乳无码| 欧美人在线一区二区三区| 成人在线观看一区| 国产激爽大片在线播放| 国产在线第二页| 99er这里只有精品| 国产精品女人呻吟在线观看| 欧美乱妇高清无乱码免费| 亚洲高清中文字幕在线看不卡| 久久无码免费束人妻| 全部免费特黄特色大片视频| 亚洲福利片无码最新在线播放| 毛片免费高清免费| 亚洲中文字幕日产无码2021| 国产激情无码一区二区APP| 久久a级片| 久久精品国产电影|