999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

面向崗位信息的分布式爬蟲應用

2020-11-10 06:00:56
無線互聯科技 2020年15期
關鍵詞:數據庫內容信息

馮 成

(貴州電子信息職業技術學院,貴州 凱里 556000)

1 崗位信息的需求

隨著大數據時代的來臨,信息的產生正呈指數形式增長,而傳統崗位信息的獲取方式過于單一,很難滿足當前高校畢業生的求職需求?;ヂ摼W中發布的崗位信息由多種元素組成,具有變動性大、時效性強、分布范圍廣等特點,雖然是學生獲取就業崗位信息的有效渠道,但在高校依然存在就業信息不通暢的問題。為了提高就業信息使用率,文章利用分布式技術爬取招聘網站的相關招聘信息,通過算法抽取有用的數據信息,并存儲到存儲系統當中,通過信息分享平臺將數據分享給全校學生使用[1-3]。

2 項目構建與實現

2.1 項目的構建

文章所需爬取的崗位信息數據來源于“前程無憂”網站,在項目的開發過程中使用了Scrapy框架完成指定數據的爬取,并將爬取到的數據保存到MySQL數據庫當中。具體的開發流程如下所示。

第一步:在Windows的cmd命令提示符界面中進入代碼存放目錄,并在該目錄下創建Scrapy工程名和模板名稱。第二步:settings.py設置header代理頭和Mysql連接參數的設置以及根據項目的需要設置相關反爬蟲措施。第三步:items.py主要設置了需要爬取的字段內容,使用scrapy.Field()方法完成相關爬取字段的設定。第四步:piplines.py主要負責利用Python連接MySQL數據庫,并自定義了MySQL數據插入方法insert_data(),用于將爬取到的內容放入到MySQL數據庫當中。第五步:自定義爬取類Job,Job是爬蟲的核心內容,主要負責頁面的解析和數據爬取。

2.2 項目的實現

2.2.1 界面的分析

要爬取指定內容,需要到相應的網站訪問填寫相應的搜索關鍵詞,文章當中的搜索關鍵詞分別為地點:”全國”,全文:”Java”,其產生的URL如下:”https://search.51job.com/list/000000,000000,0000,00,9,99,Java,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=”。

在URL中,Java表示搜索的崗位名稱,其中,“..../list /000000 .....”中的000000表示全國,workyear表示工作年限,companysize表示公司的規模,providerSalary表示薪資水平。

2.2.2 詳細信息的獲取

信息的獲取是本次應用的核心內容,文章使用了xpath庫,定位獲取“公司名稱”“工作名稱”“公司信息”“基本要求”“工作地點”等相關信息。具體的步驟如下。(1)設置編寫的start_url的鏈接地址,用于獲取招聘信息網頁。(2)在parse方法中,主要處理兩大部分內容:

第一部分為詳情頁的request,其主要是通過xpath定位到招聘信息列表,并使用for循環函數遍歷該列表,獲取招聘名稱和詳情頁鏈接,之后將詳情頁鏈接發送給回調函數“detail_parse”處理。獲取詳情頁的關鍵代碼如下所示。

result_list=response.xpath("http://div[@class=′dw_table′]/div")

for list in result_list:

#獲取名稱

name=list.xpath("./p/span/a/text()").get()

//獲取鏈接地址

url=list.xpath("./p/span/a/@href").get()

第二部分主要工作是css選擇器來提取數據以及判斷是否存在下一頁,如果存在下一頁則將數據回調給parse處理。獲取下一頁的主要代碼如下。

next_url = response.css(

′#resultList>div.dw_page>....>li:last-child>a::attr(href)′).extract_first());

調用parse_detaill方法,在該方法中使用response.xpath()方法獲取要指定的爬取內容,如崗位名稱、公司名稱、薪水、崗位信息、福利待遇、公司規模、公司地址等內容,并將其發送給Items。詳情頁主要爬取代碼如下。

jobname=list.xpath("./div[@class=′cn′]/h1/text()").get()

……

salary=list.xpath("./div[@class=′cn′]/strong/text()").get()

2.2.3 反爬蟲措施

為了保護網站的資源和提高數據的安全性,限制爬蟲措施已經廣泛被使用在各大網站中,文章當中采用了反爬蟲措施如下。(1)IP代理:通過IP動態代理的方式,避免網站偵測到真實的IP地址,防止了網站禁止本機IP的訪問。(3)User-agent代理池:是一種有效的代理方式,能夠有效地防止網站的偵測識別,將user-agent寫入到settings文件中。

2.2.4 數據的存儲

數據存儲將極大地提高數據價值,文章將爬取數據存放到MySQL數據庫當中,數據庫的具體操作步驟如下。

(1)分別在settings和ITEM_PIPELINES文件中完成數據庫的配置,具體的數據庫連接配置如表1所示。

表1 數據庫連接參數

(2)數據爬取完成之后,發送給pipeline的處理,主要完成的是數據庫的連接和數據的插入,其中,在數據__init__(self, )時,完成指定數據庫的連接,并使用process_item方法調用insert()方法完成數據的保存至數據庫,存儲部分內容如圖1所示。insert插入數據的關鍵代碼如下。

sql = "insert into java(jobname,.....,company_info) VALUES(%s,....,%s);"

params = (item[′jobname′],.....,item[′company_info′])

self.cursor.execute(sql, params)

圖1 爬取部分數據展示

3 結語

文章首先對分布式爬蟲技術進行了介紹;其次,闡述了整個項目的構建過程;最后,介紹了項目的技術實現,實現數據爬取工作,并將數據存儲到MySQL數據庫當中,但是如何對數據進行處理分析、采用何種算法完成就業信息的預測,依舊是后期需要研究的重點內容。

猜你喜歡
數據庫內容信息
內容回顧溫故知新
科學大眾(2022年11期)2022-06-21 09:20:52
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
數據庫
財經(2017年2期)2017-03-10 14:35:35
主要內容
臺聲(2016年2期)2016-09-16 01:06:53
數據庫
財經(2016年15期)2016-06-03 07:38:02
數據庫
財經(2016年3期)2016-03-07 07:44:46
數據庫
財經(2016年6期)2016-02-24 07:41:51
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
健康信息(九則)
祝您健康(1987年2期)1987-12-30 09:52:28
主站蜘蛛池模板: 免费av一区二区三区在线| 日韩国产一区二区三区无码| 亚洲色图欧美激情| 爽爽影院十八禁在线观看| 国产精品午夜福利麻豆| 免费三A级毛片视频| 影音先锋丝袜制服| 国产新AV天堂| 久久精品只有这里有| 99久久99这里只有免费的精品| 狠狠v日韩v欧美v| 国模粉嫩小泬视频在线观看| 亚洲精品视频免费| 亚洲国产清纯| 欧美在线观看不卡| 国产一级毛片高清完整视频版| 精品国产自| 久久婷婷国产综合尤物精品| 伊人色婷婷| 日韩av手机在线| 一级片一区| 亚洲国产日韩视频观看| 成人综合网址| 欧美五月婷婷| 啊嗯不日本网站| 爱爱影院18禁免费| 成人国产精品视频频| 天天躁日日躁狠狠躁中文字幕| 亚洲综合第一页| 国产乱子伦视频三区| 国产在线97| 国产女人18毛片水真多1| 亚洲天堂网在线播放| 91成人在线观看视频| 日韩高清一区 | 免费aa毛片| 3344在线观看无码| 亚洲色无码专线精品观看| 国产一区二区三区免费观看| 国产精品护士| 中文字幕人妻无码系列第三区| 日本高清在线看免费观看| 国产福利微拍精品一区二区| 国内自拍久第一页| 久久亚洲精少妇毛片午夜无码| 欧美国产日韩一区二区三区精品影视| 2021国产在线视频| 亚洲欧美人成电影在线观看| 蜜桃视频一区二区| 亚洲欧洲日产国码无码av喷潮| 国产精品jizz在线观看软件| 在线永久免费观看的毛片| 欧美色视频网站| 91成人在线观看| 亚洲无码高清一区二区| 亚洲中文久久精品无玛| 伊大人香蕉久久网欧美| 这里只有精品在线播放| 伊人久久婷婷五月综合97色| a亚洲视频| 亚洲综合色婷婷中文字幕| 国产精品爆乳99久久| 亚洲天堂色色人体| 欧美专区在线观看| 国产成人福利在线| 黄色成年视频| 国产精品一区二区在线播放| 亚洲日韩国产精品综合在线观看| 激情六月丁香婷婷| 天堂中文在线资源| 亚洲a免费| 欧美一级高清视频在线播放| 婷婷亚洲最大| 国产成人精品优优av| 国产丝袜啪啪| 精品伊人久久大香线蕉网站| 国产成人精品一区二区三区| 大学生久久香蕉国产线观看| 色悠久久综合| 精品无码国产自产野外拍在线| 国外欧美一区另类中文字幕| 91精品免费久久久|