基于Python的就業崗位數據獲取與預處理

2019-06-01 10:06:30林長謀黃瑋

電腦知識與技術 2019年12期

關鍵詞：數據分析

林長謀黃瑋

摘要：互聯網數據獲取及分析是當前數據科學的一個重要部分。該文針對互聯網中就業崗位數據獲取與分析的過程基于Python構建了網絡爬蟲。并在通爬蟲獲取網絡數據的基礎上，對所獲得的就業崗位數據進行預處理，最終可到供挖掘的數據。

關鍵詞：Python；網絡爬蟲；數據分析

中圖分類號：TP393 文獻標識碼：A

文章編號：1009-3044（2019）12-0006-02

開放科學（資源服務）標識碼（OSID）：

1 背景

隨著信息技術的發展，大數據越來越成為熱門的話題[1]。使用大數據技術對就業崗位市場進行數據的分析對于學生職業生涯的規劃有較強的現實意義。而就業崗位的相關數據動態連續的創建于不同的人才市場，受數量多、分布廣、格式不統一等因素的影響，不易采用人工進行數據的獲取。因此也就更不利于相關信息的分析。為解決這一問題，本研究先針對性的進行網絡爬蟲[2]的設計，再基于分詞技術[3]和TD-FID算法進行關鍵詞的提取的統計。

2 網絡爬蟲的關鍵技術

爬蟲是互聯網時代用于獲取主題內容的主流工具之一。其可從不同的站點獲取預先設置好的主題內容。在本研究中使用Python，并調用BeautifulSoup、Requests等庫及數據庫技術，進行爬蟲的構建。構建爬蟲涉及的技術如下：

2.1 HTTP請求與響應與 URL

爬蟲的工作原理基于http協議中的請求與響應機制[4]。在瀏覽器瀏覽某個網頁時，需要使用HTTP協議將URL提交給服務器。服務器收到URL后根據URL中攜帶的信息處理將對方所請求的資源回傳給瀏覽器端。

爬蟲在運行時模擬瀏覽器與服務器的運行特征，模擬瀏覽器向服務器發送URL請求，接收對方的回復，并最終將接收到的數據轉換成要保留的數據。由于互聯網網頁錯綜復雜，一次的請求與回復無法獲取批量數據，因此需要對爬蟲的流程進行規劃設計，使之適應多頁面跨頁面的情況。

2.2 超文本語言

超文本語言[5]也稱為HTML（Hypertext Markup Language），在該語言中規定了相關事項的標簽，并采用配對標記的形式進行使用。例如為了表示一個表格，可以使用

……

進行表達。瀏覽器接收到服務器的回復內容即為采用HTML表達后的結果。其網頁源碼是一系列HTML代碼，里面包含了一系列標簽。在進行網絡數據獲取前，需要對目標網站的數據特征進行分析，此時就需要查看網頁的HTML格式。

圖2展示了從51Job上相關招聘信息鏈接對應的HTML片段。可以看出標簽的 href屬性值是一個URL的鏈接，點擊該鏈接后即可獲得該職位的詳細信息。

2.3 Web信息抽取

在獲得目標網頁的URL地址，通過請求可得到該網頁內容。由于網頁是HTML格式，中間嵌入了許多對于信息抽取不必要的標記。因此需要對數據進行一定的抽取。在具體Web頁的抽取中，要根據頁面的結構特點定位要抽取的信息。具體實踐中，通過正則表達式可以高效的抽取具有固定特征的頁面信息，準確性很高，而且由于現今的主流編程語言基本上都提供了操作正則表達式的封裝API，所以可以很方便快捷地構建基于這種模式的web信息抽取系統。