999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

微博的熱點數據處理與公眾關注分析

2021-06-11 23:59:25王坤張益民
錦繡·下旬刊 2021年2期

王坤 張益民

摘要:文章在使用爬蟲獲得不同種類的熱點數據后,提取了一些關于用戶和微博間的一些基本相關數據,并用最新的spss分析軟件進行清洗數據和分析軟件中的數據,運用單因素方差分析法,比較不同話題分類樣本和話題樣本對熱門微博下的粉絲數、關注數、轉發數、評論數、點贊數這些觀測值有沒有產生顯著性影響,從而研究分析出公眾對哪方面的熱門話題更感興趣。

關鍵詞:微博;爬蟲;方差分析;熱門話題

0引言

由于熱門話題內容復雜,普通網民往往缺乏對專業性較高問題的判斷能力,需要在新浪微博上找到熱點話題,抓取熱點數據,為人們從海量信息中提取有價值的信息節省時間,正確引導普通網民思考問題的角度和趨勢。對于熱點研究方面角度不同,方法多樣,運用于的領域也不同,本文著重關注某一方面熱點數據,自建合理scrapy框架,運用于微博大量的數據爬取,實現數據的獲取、查找、整理與分析。[2]

1爬蟲系統設計

Scrapy框架用于對微博上的熱門數據抓取。當爬蟲程序成功登錄到微博并獲得微博頁面后,可以解析HTML腳本并將其提取到所需的數據中。一篇熱門微博文章的主要數據包括:用戶昵稱、用戶ID、關注數、粉絲數、微博內容、轉發數等。[1]使用爬蟲爬取數據的主要流程有以下三步。

1.1微博內容獲取

在微博登錄方面,我們使用一種簡單的方式:抓取微博登錄cookie[4],然后使用cookie登錄微博。這樣就可以瀏覽某個人的微博內容了,爬取微博正文的代碼如下:

#-*-coding:utf-8-*-

fromscrapyimportItem,Field

classTweetsItem(Item):

"""微博信息"""

_id=Field()#微博id

weibo_url=Field()#微博URL

created_at=Field()#微博發表時間

like_num=Field()#點贊數

comment_num=Field()#評論數

content=Field()#微博內容

user_id=Field()#發表該微博用戶的id

crawl_time=Field()#抓取時間戳

1.2用戶信息獲取

抓取登錄微博的cookie,使用cookie登錄微博后我們可以看到登錄用戶的個人信息。為了研究熱門話題對公眾的影響,我們需要確定一個微博用戶作為抓取數據的起點,部分代碼如下:

classInformationItem(Item):

"""個人信息"""

_id=Field()#用戶ID

nick_name=Field()#昵稱

gender=Field()#性別

province=Field()#所在省

city=Field()#所在城市

brief_introduction=Field()#簡介

birthday=Field()#生日

tweets_num=Field()#微博數

1.3用戶關系獲取

新浪微博用戶之間存在互相關注的情況,為了方便起見,本文只對用戶的粉絲進行了爬行,以了解兩個用戶之間是否存在關注關系。代碼如下:

classRelationshipsItem(Item):

"""用戶關系,只保留與關注的關系"""

_id=Field()

fan_id=Field()#關注者,即粉絲的id

followed_id=Field()#被關注者的id

crawl_time=Field()#抓取時間戳

微博用戶關系數據表共有5列屬性,采集到的用戶關系信息包括:信息爬取的爬行時間、用戶關注對象ID列表、用戶粉絲ID列表等。

2數據分析結果與解釋

本文把話題分類作為定類數據,關注數、粉絲數、轉發數、評論數、點贊數作為定量數據進行方差分析,結果如下[3]:

(1)分類相比較于關注數呈現出0.01水平顯著性(F=40.25,P=0.00),以及具體對比差異可知,有著較為明顯差異的組別平均值得分對比結果。

(2)分類相比較粉絲數表現出0.01水平顯著性(F=26.31,P=0.00),由具體對比差異可以知到,有著比較明顯差異的分組平均值得分比較結果。

(3)分類相比較轉發數表現出0.01水平顯著性(F=8.18,P=0.00),由具體對比差異可以知到,有著較為明顯差異的分組平均值得分比較結果。

(4)分類相比較評論數表現出0.01水平顯著性(F=6.36,P=0.00),由具體對比差異可以知到,有著較為明顯差異的分組平均值得分比較結果。

(5)分類相比較點贊數表現出0.01水平顯著性(F=17.91,P=0.00),由具體對比差異可以知到,有著較為明顯差異的分組平均值得分比較結果。

總結可知:各種話題樣本對于關注數,粉絲數,轉發數,評論數,點贊數全部均呈現出顯著性差異。為了檢驗以上分析結果是否準確,本文把話題和話題分類這兩個數據指標做成了詞云圖,通過詞云圖顯示具體哪個話題或者話題分類出現的頻率最高[2,5]。通過對微博熱門話題關注程度的分析,發現用戶在娛樂的同時也應該多去了解下國家正在發生的社會事件。

參考文獻

[1]王海玲,周志彬.基于Scrapy框架的爬蟲設計[J].軟件導刊,2020,19(04):224-228.

[2]方潔,龔立群,魏疆.基于利益相關者理論的微博輿情中的用戶分類研究[J].情報科學,2014,32(01):18-22.

[3]戴金輝.單因素方差分析中異方差的檢驗與修正[J].統計與決策,2017(08):23-26.

[4]安子建.基于Scrapy框架的網絡爬蟲實現與數據抓取分析[D].吉林大學,2017.

[5]劉志明,劉魯.微博網絡輿情中的意見領袖識別及分析[J].系統工程,2011,29(06):8-16.

(遼寧大連東軟信息學院?遼寧?大連?116000)

主站蜘蛛池模板: 久久久久久尹人网香蕉 | 在线观看免费AV网| 亚洲国产欧美国产综合久久| 天天做天天爱天天爽综合区| 91精品aⅴ无码中文字字幕蜜桃| 欧美亚洲香蕉| 99热这里只有精品久久免费| 国产人成午夜免费看| 欧美综合区自拍亚洲综合绿色 | 免费全部高H视频无码无遮掩| 女人一级毛片| 国内精品小视频福利网址| 久久婷婷人人澡人人爱91| 又粗又硬又大又爽免费视频播放| 99精品视频九九精品| 精品久久蜜桃| 天堂成人在线| 亚洲第一网站男人都懂| 国产精品吹潮在线观看中文| 亚洲视频免费在线| 一级毛片免费高清视频| 乱人伦视频中文字幕在线| 国产极品美女在线观看| 国产精品亚洲专区一区| 亚洲天堂视频在线观看| 男女性色大片免费网站| 亚洲国产午夜精华无码福利| 欧美成人A视频| 亚洲天堂2014| 国产福利免费视频| 91尤物国产尤物福利在线| 色爽网免费视频| 国产日本欧美在线观看| 一级毛片免费不卡在线 | 亚洲aaa视频| 日韩欧美国产综合| 国产亚洲现在一区二区中文| 免费一级毛片在线观看| 亚洲一区波多野结衣二区三区| 久久无码高潮喷水| 国产va在线观看免费| 亚洲欧洲自拍拍偷午夜色无码| 高清无码手机在线观看| 国产女人喷水视频| 国内精自视频品线一二区| 国产精品毛片一区| 精品久久久久成人码免费动漫 | 免费国产不卡午夜福在线观看| 国产黄色爱视频| 91外围女在线观看| 亚洲香蕉在线| 免费a在线观看播放| 毛片网站在线播放| 亚洲国内精品自在自线官| 国产中文一区二区苍井空| 91精品人妻互换| 久久免费视频播放| 国产又粗又猛又爽| 精品视频一区在线观看| 国产91视频免费观看| 夜夜拍夜夜爽| 亚洲人成网站观看在线观看| 国产H片无码不卡在线视频 | 伊大人香蕉久久网欧美| 国产精品yjizz视频网一二区| 4虎影视国产在线观看精品| 国产成年女人特黄特色毛片免| а∨天堂一区中文字幕| 中文字幕色在线| 欧美三级自拍| 欧美成人第一页| 欧美日韩在线第一页| 日本午夜影院| 欧美另类精品一区二区三区| 国产丝袜无码精品| 亚洲一区色| 97免费在线观看视频| 日韩国产黄色网站| 9999在线视频| 波多野结衣久久精品| 欧美成人aⅴ| 1024你懂的国产精品|