999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于網絡爬蟲的新浪微博數據抓取技術

2019-02-18 01:15:52王金峰彭禹王明鐘聲趙雪輝
關鍵詞:大數據

王金峰 彭禹 王明 鐘聲 趙雪輝

【摘 要】隨著人工智能和大數據時代的到來,各種數據都變得越來越重要。新浪微博作為國內最大的社交平臺之一,因為其擁有大量用戶,每天都產生著龐大的數據,所以如何快速獲取到這些數據并實現結構化的存儲以便后續利用是一個挑戰。論文對微博網頁端平臺進行分析,選用Scrapy框架和Requests、Selenium等工具,提出了對微博數據進行抓取的高可行性方案,該方案能夠實現多用戶同時抓取,獲得微博用戶的關系數據和微博內容等。

【關鍵詞】網絡爬蟲;新浪微博;大數據

【Keywords】web crawler; sina microblog; big data

【中圖分類號】TP311.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?【文獻標志碼】A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2019)01-0162-02

1 引言

隨著移動互聯網的飛速發展,人們越來越多地在社交網絡上發表自己的見解,分享自己的生活,與他人進行交流討論。新浪微博作為國內最大的社交平臺之一,同時也成了各類消息發布的最主要渠道之一。截至2017年9月,微博月活躍用戶3.76億,日活躍用戶1.65億,每天都有用戶發布上億條微博,評論、轉發或點贊其他微博。一個如此龐大和公開的社交平臺,每天都能產生海量信息,能為各種輿情監控、商業推廣分析、自然語言處理等系統提供大量的數據支持[1]。在國外,開展了針對于Twitter和

Facebook等社交平臺的一系列研究,但是不同于國外的Twitter和Facebook等平臺,微博官方并沒有提供相關接口給人們下載與微博相關的數據集,并且微博的登錄、瀏覽等操作都有較敏感的反爬蟲機制,這給數據的采集帶來了困難,對普通的想獲取相關數據的人員來說是個極大的挑戰。因此,快速獲得微博數據的方法就是構建一個穩定高效的爬蟲抓取系統。

2 網絡爬蟲

2.1 原理

網絡爬蟲(Web Crawler),是自動地抓取萬維網信息的程序或者腳本,它們被廣泛用于互聯網搜索引擎或其他類似網站。爬蟲一般分為數據采集、處理和儲存三個部分。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。

2.2 網絡爬蟲框架Scrapy

Scrapy是Python開發的一個快速、可擴展的Web抓取框架,用于抓取Web站點并從頁面中提取結構化的數據。通過Scrapy中的Spider模塊,能方便地定義網址爬取和數據提取的規則。

3 微博爬蟲策略

現在各種爬蟲的搜索策略[2]主要為:深度優先搜索策略、廣度優先搜索策略、非完全PageRank策略以及大站優先搜索策略。

微博跟其他普通網站相比,動態性和網頁結構都比較復雜,其對于爬蟲的防范也更加嚴格,普通的爬蟲程序一般不能直接獲取到相應的網頁內容,但其網頁內容中的數據格式較為統一。所以,針對微博相關的瀏覽機制,運用一些工具和方法,就可以較為方便地獲取到微博中的有關數據。

3.1 微博爬取入口選擇

微博網頁端基本分為PC端用戶入口(域名:weibo.com)和移動端用戶入口(域名:weibo.cn)。這兩種頁面雖然展現內容的方式和策略有所區別,但能獲取的數據基本相同,且由于PC入口為大多數網頁端用戶瀏覽微博的主要途徑,從安全性和用戶體驗等角度考慮,該入口交互設計都更復雜,并設置有許多動態刷新的內容,這給數據的爬取造成了一定難度,而移動端網頁可以直接發送不同的HTTP請求來獲取相應的內容[3],相比

PC端而言,后者網頁結構更加簡單,設置的反爬措施也更少,所以選取通過移動網頁入口來進行數據的爬取和解析。

3.2 微博登錄和爬取

在微博中進行網頁瀏覽是需要進行登錄并保持登錄狀態的,否則是無法獲取到相關信息的。我們使用多個微博賬戶通過Selenium自動化工具加Firefox瀏覽器無頭模式訪問微博登錄頁面進行登錄,登錄成功后將其相應的cookies保存起來。為了提高爬取的穩定性和成功率,還需要建立一個User-Agent池,再對Scrapy的middlewares模塊進行擴展,在其中的process_request方法里對Scrapy的request加入自動化登錄微博后獲得并已保存在數據庫的Cookies,在Scrapy請求微博服務器時使用一個可用的Cookies并隨機抽取一個User-Agent進行偽裝,這樣就能順利訪問頁面,減少爬蟲請求被微博服務器屏蔽和賬戶被封號的概率。采用的抓取策略是廣度優先搜索,通過社交關系[4],抓取用戶的關系數據。只要利用一小群“種子用戶”,每個用戶都對應有一個微博ID,通過使用微博ID也就能獲得該用戶的全部個人信息和他所發布的微博。以某個“種子用戶”為起點,獲得他的關注人和粉絲等關系[5],再對其好友進行關系搜索,并按此方法遞歸爬取,將得到的用戶去重[6]和排序,加入待爬取的隊列,從而得到一個龐大的待爬取的用戶數據集。理論上,這可以爬取到微博上所有的用戶信息。

4 微博數據抓取

4.1 微博信息的爬取

得到用戶ID后,就能通過發起不同的HTTP請求訪問他們的個人信息、微博列表、粉絲列表和關注列表等頁面,將頁面下載之后,能看到這些頁面都是有固定結構的HTML代碼,只要在Scrapy里自定義的Spider中通過正則表達式或者Xpath等工具分別對Response結果進行不同的解析,就能得到相應的結構化數據。

一般的爬取只需保留四類數據:①微博信息;②個人信息;③用戶關系(只保留關注者的信息);④微博評論信息。例如,微博信息主要抓取的是該用戶發布過的所有微博的內容、時間、轉發數、評論數、點贊數、發布微博時的地點(經緯度坐標)以及發布微博所用的設備或平臺等,如果是轉發微博,還可以獲得源微博的URL鏈接等。

同時,微博下面的評論與回復也可以按需求進行抓取并以時間排序,作為對話語料數據保存。

4.2 低價值信息的過濾

微博中因為各種各樣的原因[7],通常會存在一些爬取價值不大的賬號和信息,例如,常見的無人使用的“僵尸賬號”或一些“惡意營銷號”等,如果不加處理而直接爬取則會浪費許多爬取性能和儲存空間,這就需要過濾待爬取的原數據。

目前,在爬取過程中不能很好地識別或直接判斷無價值信息,但微博用戶可以設定某些條件來達到過濾的目的[8],如設置被爬取的主體賬號的粉絲和關注數閾值在5000之內,判斷其是否有正常的頭像,昵稱是否是常見的“垃圾賬號”類的昵稱等,也可針對不同的爬取需求來設置爬取對象的屬性,如地域、年齡、發布的微博數等,從而得到相應的結果數據。

5 結語

本爬蟲從技術和思路上提供了獲取微博上相關數據的一些方法,對于中小型的數據需求有較好的適用性,并且基于Scrapy框架進行了擴展,相比于一般的爬蟲系統,有著更好的應對反爬蟲的機制,提高了爬取的效率和穩定性。

作為主流社交互動平臺,在當今大數據時代,微博存在著巨大的可挖掘價值。如何提供更快、更準確的數據爬取技術,將會是今后極具研究價值和挑戰的方向。

【參考文獻】

【1】張賽,徐恪,李海濤.微博類社交網絡中信息傳播的測量與分析[J].西安交通大學報,2013,47(2):124-130.

【2】張俊林.這就是搜索引擎:核心技術詳解[M].北京:電子工業出版社,2012.

【3】周立柱,林玲.聚焦爬蟲技術研究綜述[J].計算機應用,2005,25(9):1965-1969.

【4】劉玲,楊長春.一種新的微博社區用戶影響力評估算法[J].計算機應用與軟件,2017,34(7):212-216+261.

【5】馮靜.微博用戶排名機制的研究[D].秦皇島:燕山大學,2012.

【6】嚴磊,丁賓,姚志敏,等.基于MD5去重樹的網絡爬蟲的設計與優化[J].計算機應用與軟件,2015,32(2):325-329+333.

【7】劉晶,李琳,李石君.基于社交網絡大規模行為數據的用戶關系研究[J].計算機應用與軟件,2016,33(7):38-41.

【8】康書龍,葉施仁,肖春.基于用戶質量的微博社區博主影響力排序算法[J].計算機工程與應用,2016,5(4):128-132.

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 91精品久久久久久无码人妻| 亚洲精品福利视频| 666精品国产精品亚洲| 亚洲人成在线精品| 日本不卡在线| 亚洲欧美不卡视频| 最新午夜男女福利片视频| 国产福利免费在线观看| 毛片免费视频| 国产办公室秘书无码精品| 亚洲国产午夜精华无码福利| 亚洲欧美在线精品一区二区| 欧美性爱精品一区二区三区| 小13箩利洗澡无码视频免费网站| 91无码网站| 国产黄网永久免费| 精品视频第一页| 美女亚洲一区| 亚洲天堂区| 日韩最新中文字幕| 国产XXXX做受性欧美88| 99视频在线观看免费| 一本久道久久综合多人| 色有码无码视频| 国产精品第5页| 国产色婷婷视频在线观看| 97精品国产高清久久久久蜜芽| 最新国产精品鲁鲁免费视频| 欧美亚洲日韩不卡在线在线观看| www.日韩三级| 婷婷综合色| 久草中文网| 国产精品手机在线播放| 不卡无码网| 亚洲欧美日韩精品专区| 国产一区二区三区夜色| 狠狠干综合| 国产综合精品日本亚洲777| 国产地址二永久伊甸园| 国产乱视频网站| 国产凹凸视频在线观看| 精品一區二區久久久久久久網站| 亚洲欧美日韩另类在线一| 国产农村妇女精品一二区| 99久久国产综合精品2023| 亚洲三级成人| 国产91丝袜在线观看| 日韩国产 在线| 毛片久久久| 亚洲一区二区三区中文字幕5566| 久久一色本道亚洲| 国产va欧美va在线观看| 国产精品永久免费嫩草研究院| 综合亚洲网| 欧美国产三级| 亚洲最猛黑人xxxx黑人猛交| 天天做天天爱夜夜爽毛片毛片| 久久久噜噜噜久久中文字幕色伊伊| 美女亚洲一区| 精品亚洲麻豆1区2区3区| 日本高清免费一本在线观看 | 91成人在线观看视频| 人人爽人人爽人人片| 国产jizz| 亚洲高清国产拍精品26u| 欧美国产日韩在线观看| 亚洲第一香蕉视频| 久久鸭综合久久国产| Jizz国产色系免费| 久久久黄色片| 亚洲日韩精品无码专区| 精品久久777| 小说区 亚洲 自拍 另类| 亚洲人成网站色7799在线播放| 特级做a爰片毛片免费69| 青青草原国产免费av观看| 午夜福利网址| 亚洲欧美日韩另类在线一| 91美女视频在线| 欧美精品H在线播放| 色婷婷丁香| 国产一区二区福利|