999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息爬取工具MetaSeeker的介紹及其在微博中的應用

2015-04-16 13:23:09劉丹葉子青周舒唐瑤粟妮張璐妮
計算機與網絡 2015年10期
關鍵詞:頁面用戶信息

劉丹 葉子青 周舒 唐瑤 粟妮 張璐妮

(北京郵電大學,北京海淀 100876)

信息爬取工具MetaSeeker的介紹及其在微博中的應用

劉丹 葉子青 周舒 唐瑤 粟妮 張璐妮

(北京郵電大學,北京海淀 100876)

移動互聯網為微博的發展帶來了契機,如何深入理解微博用戶的行為,從而利用好微博平臺,這是政府相關管理機構和網絡營銷企業共同關注的問題。從海量的微博數據中提取有用的數據就要依賴于網絡爬蟲技術,而選擇合適的爬蟲技術可以使我們的研究簡便且有效率。

微博;網絡爬蟲;爬蟲工具

1 引言

目前來說,微博已經成為了一種新型社交的重要媒介,以其實現了移動終端與互聯網的無縫連接,以及易用、隨意、即時、傳播快等特點,在不到三年的時間內已發展成為重要的分享工具和自媒體傳播平臺,成為人們網上生活的重要組成部分。在使用微博的過程中,一條微博的評論量與轉發量會與什么因素相關引起了我們興趣,故而希望通過捕捉大量的數據,進行實證分析,來確定評論量與轉發量的影響因素及其關系。本項研究是基于網絡爬蟲工具MetaSeeker完成的,在眾多爬蟲工具中選擇MetaSeeker是由于其可以在web頁面的語義結構進行描述,輸出適合計算機自動處理的描述文件和指令文件,且能夠持續地、大批量地提取web信息,輸出帶有語義結構元數據的信息提取結果文件,可以高效地為信息服務系統補充內容。

2 關于網絡爬蟲技術

網絡爬蟲技術是通過專門的工具實現對海量網絡數據的提取、挖掘。在大數據時代,數據即意味著財富,生活中的很多信息感知和采集終端提供了海量的數據,借助大數據,使我們感知和看待世界的方法發生了改變,不再像過去那樣憑借直覺和經驗得出結論,而是基于大量的數據分析。但從海量的數據中如何提取有價值的信息,還需要專門的爬蟲技術。網絡爬蟲是一個自動提取網頁的程序,它為搜索引擎從Web上下載網頁,是搜索引擎的重要組成部分,通用網絡爬蟲從一個或若干個初始網頁的URL開始,獲得初始網頁的URL列表;在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入待爬行隊列,直到滿足系統的停止條件[1]。

目前相關的爬蟲軟件較多,比如MetaSeeker爬蟲工具軟件包、多可網絡爬蟲、LoalaSam網絡爬蟲等。由于微博信息目前并沒有一個成型的數據庫,必須從網頁中逐個抓取。實現方式主要有兩種,一種是基于python等編程語言實現,另一種是采用MetaSeeker等數據采集工具包進行實現。

3 Python與MetaSeeker的對比

Python是一種基于面向對象,且功能超強的編程語言。Python是開放源代碼的軟件之一。用戶可以自由發布軟件的拷貝,閱讀原代碼,對它改動以用于新的軟件。Python還具有龐大的標準庫,可以處理各種工作,Python語言編寫網絡爬蟲可用于在線微博用戶的行為數據的抓取。

MetaSeeker是一個WEB網頁抓取、數據抽取和頁面信息提取工具包,能夠按照用戶的指導,從web頁面上篩選出需要的信息,并輸出含有語義結構的提取結果文件(XML文件),metaseeker解決了一個關鍵問題:將無結構的web頁面信息轉換成有結構的適用于機器處理的信息,可應用于專業搜索、mashup和web數據挖掘領域。

與phyton相比,metaseeker不需要設計采集規則,因此實現較為簡單。此外,在數據采集的后期,由于新浪微博API接口對采集數據量的限制,無法繼續通過python軟件抓取數據。因此,本研究數據采集通過metaseeker來搜集。

4 MetaSeeker爬取數據的流程及相關設定

(1)MetaSeeker的數據采集流程包括三步:①確定目標網址,制定相關抓取規則;②使用Metastudio定義抓取規則,創建線索,上載數據;③使用datascraper提取數據。

(2)關于抓取時間的設定:微博平臺的信息傳播具有迅速、實時性強的特點,雖然這種實時性為微博營銷帶來了及時互動、迅速反饋的優勢,但另一方面,這種實時性卻會導致微博平臺各類信息更新快,而用戶的接收量有限,基于人的習慣動力學行為[2][3]用戶的注意力主要會集中新近發布的微博上,從而導致前期發布的微博內容會很快的被湮沒,從而降低其影響力。根據以上微博平臺數據時間的特點,推斷至多在微博發布7天之后此條微博便會失去其時效性。因此我們重點關注新浪微博熱門搜索榜上的微博和一周之內的熱門微博,從中抓取數據并進行分析。

(3)關于數據抓取內容的設定:微博雖然內容簡短在140個字以內,但就是因為字數的限制,所以微博通過很多機制進行表意壓縮。根據對新浪微博內容的分析發現,無論是微博正文內容、被轉發內容、圖片、鏈接或是評論轉發量,都是可能對企業微博營銷有效性研究起到重要作用的指標和變量,因此在數據抓取階段,將會把每條微博的全部內容抓取下來,以備后續分析。

5 微博相關信息抓取示例

(1)打開MetaStudio,在地址欄輸入要采集數據的地址;

(2)建立整理箱;

(3)設置反向選擇;

(4)設置多實例采集規則:選中整理箱;

(5)當樣例復制品映射兩次都做好之后,就可以點擊工具條上的schema按鈕,啟動上載過程,觀察工作流文件;

(6)轉到Clue Editor工作臺;

①點擊newClue按鈕,創建一個線索

②點擊Marker類型,設定為記號線索,“下一頁”字樣就是記號

③指定為線內線索類型。

(7)再次點擊工具條上的schema按鈕,啟動上載過程,觀察工作流文件;

(8)打開DataScraper,輸入相應的主題名,找到相關提取線索,進行提取即可。

6 結束語

通過由MetaSeeker爬取的微博數據的分析,可以深入理解微博用戶的行為,從而利用好微博平臺,這是政府相關管理機構和網絡營銷企業共同關注的問題。

[1]于娟,劉強.主題網絡爬蟲研究綜述[J].計算機應用研究, 2007,24(10).

[2]Frank M C,Goldwater S,Griffiths T L,et al.Modeling HumanPerformance in Statistical Word Segmentation[J]. Cognition,2010,117(2):107-25.

[3]JiaoY,Liu Y,Wang J,et al.Model for Human Dynamics Based on Habit[J].Chinese Science Bulletin,2010,55(24): 2744-2749.

Introduction of Information Crawling Tool“Metaseeker”and Its Application in Weibo

LIU Dan,YE Zi-qing,ZHOU Shu,TANG Yao,SU Ni,ZHANG Lu-ni
(Beijing University of Posts and Telecommunication,Beijing 100876,China)

Mobile Internet has brought an opportunity for the development of micro-blog(Weibo).Now it is the common concern of government administration and Internet enterprise to understand micro-blog users’behavior,so as to make good use of micro-blog platform.To extract useful data from the mass of micro-blog data largely depends on web crawler technology.Appropriate choice of crawler technology enables simple and efficient study.

micro-blog;web crawler;crawler-like tool

TN971

A

1008-1739(2015)10-72-2

定稿日期:2015-04-26

受北京郵電大學大學生創新研究基金資助(基金號:500050024)

猜你喜歡
頁面用戶信息
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
如何獲取一億海外用戶
創業家(2015年5期)2015-02-27 07:53:25
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導航技術
主站蜘蛛池模板: 91精品国产综合久久香蕉922| 免费国产高清视频| 亚洲无码精彩视频在线观看| 伊人无码视屏| 风韵丰满熟妇啪啪区老熟熟女| 午夜限制老子影院888| 国产精品亚洲精品爽爽| 素人激情视频福利| 91精品专区| 国产女人在线观看| 国产午夜不卡| 99精品福利视频| 三区在线视频| 欧美一级夜夜爽www| 国产精品lululu在线观看| 热思思久久免费视频| 99re热精品视频中文字幕不卡| 蝌蚪国产精品视频第一页| 久久婷婷五月综合97色| 亚洲精品视频在线观看视频| 欧美一级夜夜爽| 直接黄91麻豆网站| 天天做天天爱天天爽综合区| 亚洲天堂视频网| 久久久久无码国产精品不卡| 久久中文字幕2021精品| 在线毛片网站| 99热线精品大全在线观看| 国产成年无码AⅤ片在线| 中文字幕伦视频| 亚洲男人在线天堂| 国产乱人视频免费观看| 欧美成人精品在线| 亚洲国产亚洲综合在线尤物| 精品五夜婷香蕉国产线看观看| 日韩无码真实干出血视频| 欧洲亚洲欧美国产日本高清| 久久免费成人| 亚洲综合二区| 国产美女自慰在线观看| 香蕉伊思人视频| 99视频在线精品免费观看6| 国产99视频在线| 黄色片中文字幕| 亚洲三级色| 亚洲无码高清免费视频亚洲| 国产波多野结衣中文在线播放| 日韩精品一区二区三区swag| 亚洲国产欧美目韩成人综合| 国模私拍一区二区三区| 中国一级特黄大片在线观看| 无码人妻免费| 九九九国产| 青青草一区| 亚州AV秘 一区二区三区 | 欧美区国产区| 波多野结衣亚洲一区| 99在线视频网站| 天天婬欲婬香婬色婬视频播放| 国产手机在线观看| 亚洲国产一区在线观看| 日韩在线永久免费播放| 国产精品无码一二三视频| 亚洲欧美综合另类图片小说区| 一本大道在线一本久道| 国产区免费精品视频| 国产裸舞福利在线视频合集| 凹凸国产分类在线观看| 丝袜久久剧情精品国产| 亚洲精品在线91| 99这里只有精品免费视频| 丁香六月激情综合| 国产精品成人观看视频国产| 久久国产乱子| 欧美国产在线一区| 国产欧美高清| 久久精品日日躁夜夜躁欧美| 久久国产精品电影| 欧美亚洲日韩中文| 2022国产无码在线| 久久人人妻人人爽人人卡片av| 亚国产欧美在线人成|