999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡爬蟲在采集崗位招聘數據方面的應用實踐

2018-01-04 10:59:48湯義好
電腦知識與技術 2018年28期
關鍵詞:大數據

湯義好

摘要: 現代教學設計理論認為優化教學過程,可以更好有效地達成教學目標,提高教學效率。文章闡述了在崗位分析系統中如何利用網絡爬蟲框架WebMagic不斷地從網絡采集崗位招聘數據,并保存到HBase數據庫的一個過程。

關鍵詞:大數據;崗位招聘;WebMagic

中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2018)28-0008-02

大學生最關心的莫過于就業,高校的數字化建設日漸成熟,大數據在就業方面的應用正處在積極探索階段??梢哉f數據采集是大數據應用開發的一個重要環節,如果沒有數據,處理分析也就無從談起。下面我們就來討論下如何進行數據采集。

1 數據采集的來源與工具

就業信息主要來自網絡和學校招聘,主要的崗位數據源于網絡,需要有一套采集軟件也就是爬蟲。爬蟲有很多,綜合考慮WebMagic是一個無序配置、便于二次開發的爬蟲框架,其提供簡單靈活的API,只需要少量代碼既可以實現。數據抓取時序圖如圖1所示。

Downloader負責從互聯網上下載頁面,以便后續處理。WebMagic默認使用Apache HttpClient作為下載工具。PageProcessor負責解析頁面,抽取有用的信息,以及發現新的鏈接。WebMagic使用Jsoup作為HTML解析工具,并基于其開發了解析XPath的工具Xsoup。PageProcessor對于每個站點每個頁面的解析都不一樣,是需要使用者定制的部分。Scheduler負責調度,一般無須自己定制。Pipeline負責抽取結果的處理,包括計算、持久化到文件、數據庫等。默認提供了輸出到控制臺和保存到文件兩種結果處理方案。

2 如何實施爬取任務

(1) 解析崗位列表源代碼

定制基于Java的WebMagic爬蟲框架抓取招聘網站上根據崗位的關鍵詞如“大數據”搜索出的崗位結果。列出的關于關鍵詞搜索出來的列表就是爬蟲抓取的起始頁??梢酝ㄟ^添加后續鏈接的URL至爬取隊列,使得爬蟲按照要求一步步循環下去。這里需要添加的鏈接便是崗位的信息頁,以及后續列表分頁。分析頁面中的相同項,可以發現所需要的URL是一個唯一的超鏈接,記下標簽的樣式名稱交給Xpath識別,并添加至抓取列,實現代碼如下。

select = page.getHtml().xpath(“//p[@class = t1 ]”);

urls = select.links().all();

page.addTargetRequests(urls);

需要注意的是,要防止添加空白搜索結果頁的鏈接,否則將會把整個招聘網站的崗位全部抓取下來。所以需要添加提出隊列的保護機制,代碼如下:

Iteratror it= urls.iterator();

while(it.hasNext()){

String x = it.next();

If(x.equals(“http://...”)){

it.remove();

}

}

page.addTargetRequest(urls);

(2) 解析崗位信息頁面

需要爬取的崗位信息包括職位名稱、發布時間、是否洗數據、編號、工作地點、工作經驗、薪資、招聘人數、學歷、崗位描述、職能類別、公司名稱、公司性質、公司行業、公司規模等。由于格式基本差不多可以json配置項的方式將某個點的正則保存在一起,方便調用。WebMagic框架可以根據獲取的正則定位相關的內容。具體代碼如下:

page.putField("jobname", page.getHtml().xpath("http://div[@class='cn']/h1/text()").toString());

page.putField("name", page.getHtml().xpath("http://p[@class='cname']/a/text()").toString());

(3) 根據條件保存抓取到的信息

根據條件篩選崗位信息,比如已經列出的一些培訓機構的“公司黑名單”,保存在數組中,那么就可以使用簡單的if語句來判斷。對于發布日期,僅需要保留當天或本周發布的招聘信息。篩選完成便可以將抓取內容選擇性的保存到本地的某個文件中。也可以將結果保存到HDFS和HBase數據庫中,這樣更有助于后面的大數據處理。

(4) 運行主程序

WebMagic的核心組件為PageProcessor與Pipeline。用戶可以自己定制這兩個組件,而調用這兩個核心組件是通過Spider類,其簡單的代碼如下:

Spider.create(new CrawlJob())

.addUrl(URL_START)

.addPipleline(new PipelineJob()).thread(5).run();

可以借助系統的定時服務來實現程序的定時爬取功能使用代碼如下:

public ServiceState start() {

initializer = new InitializeService(this);

initializer.start();

services.add(initializer);

Service jobAnalyzer = new JobAnalysisService(this, initializer);

jobAnalyzer.start();

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 无码啪啪精品天堂浪潮av| 久久黄色一级视频| 国产精品女主播| 中文字幕在线看视频一区二区三区| 亚洲福利视频一区二区| 91精品网站| 欧美无遮挡国产欧美另类| 日韩性网站| 97在线视频免费观看| 波多野结衣在线一区二区| 刘亦菲一区二区在线观看| 亚洲欧美综合精品久久成人网| 日韩欧美网址| 青青青国产视频手机| 一级香蕉视频在线观看| 日日拍夜夜操| 国产色爱av资源综合区| 日韩二区三区无| 欧洲欧美人成免费全部视频| 国产乱人乱偷精品视频a人人澡| 亚洲午夜天堂| 国产精品19p| 国产18在线播放| 国产一二三区视频| 日本精品影院| 久久免费看片| 韩日免费小视频| 伊人色天堂| 国产呦精品一区二区三区下载 | 2020久久国产综合精品swag| 91网在线| 中文字幕在线免费看| 亚洲综合经典在线一区二区| 在线观看免费国产| www.av男人.com| 欧洲亚洲一区| 欧美日本在线播放| 69国产精品视频免费| 欧美精品v欧洲精品| 亚洲成AV人手机在线观看网站| 91久久青青草原精品国产| 女人毛片a级大学毛片免费| 中文字幕一区二区人妻电影| 99热这里只有免费国产精品 | 国产视频a| 有专无码视频| 青青草原国产精品啪啪视频| 国产H片无码不卡在线视频| 久久香蕉欧美精品| www成人国产在线观看网站| 亚洲AⅤ波多系列中文字幕| 亚洲资源站av无码网址| 国产精品毛片一区视频播| 国产人人干| 久久精品人人做人人综合试看| 国产办公室秘书无码精品| 日韩人妻精品一区| 日韩国产亚洲一区二区在线观看| 午夜精品久久久久久久2023| 免费jizz在线播放| 伊人福利视频| 亚洲热线99精品视频| 五月婷婷综合在线视频| 国产在线精品人成导航| 黄色网页在线观看| 亚洲免费福利视频| 国产亚洲一区二区三区在线| 国产成人午夜福利免费无码r| 久久特级毛片| www.狠狠| 欲色天天综合网| 国产jizz| 亚洲一区无码在线| 亚洲日本中文字幕天堂网| 美女免费黄网站| 亚洲人成成无码网WWW| a级毛片免费播放| 视频一区视频二区日韩专区| 日本黄网在线观看| 青青久久91| 91久久夜色精品| 国产视频资源在线观看|