賴力潛 余星潔 曾曉勿 陳舒琪
(嘉應學院 廣東省梅州市 514015)
網絡招聘因其信息全網互通、地域限制小、響應速度快等特點為求職者帶來更多的就業機會、提供更全面的職位信息、降低了求職成本,為企事業單位擴大招聘覆蓋范圍、降低招聘成本、增加了招聘效率。
網絡招聘平臺的蓬勃發展帶來了海量的線上求職招聘數據。這些數據有著的數據規模龐大、數據格式形式多樣、數據價值密度低、數據增長速度快、數據真實性存在風險等問題。這些問題導致求職者尤其是應屆生在網上求職時初選耗時較長、應聘成功率低、安全存在隱患等問題。而另一方面,真正有意向招聘應屆生的企事業單位的招聘信息又被其他信息給淹沒,導致這些企事業單位難以招到合適的應屆畢業生,招聘企業與求職者之間的匹配效率問題始終有待解決。
大數據(Big Data),一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,它具有數據量大(Volume)、速度快(Velocity)、類型多(Variety)、價值(Value)、真實性(Veracity)“5V”特征,已成為當前IT 行業最火熱的技術之一。2015年9月,國務院印發《促進大數據發展行動綱要》系統部署大數據發展工作。而大數據技術的戰略意義不僅僅在于掌握龐大的數據信息,更在于對這些含有意義的數據進行專業化處理,其中包括可視化分析、數據挖掘、預測性分析、數據和質量管理、數據倉庫等。大數據技術在不同領域已經有了較多較成熟的應用。
因此,本文在現有技術的基礎上,設計了大數據校園招聘平臺(后續簡稱平臺)。該平臺通過多種方式采集求職招聘信息,對采集后的數據進行預處理、存儲、處理與分析、數據可視化等,建立企業評分機制、求職者用戶畫像、求職招聘精準匹配機制,以解決在網絡求職招聘過程中的虛假信息泛濫、求職效率低、安全存在隱患等問題,使得網絡求職招聘更加高效且安全。
依靠大數據技術,可實現對應屆畢業生的求職招聘數據的采集、預處理、存儲、處理分析、數據可視化。系統總計架構設計如圖 1。系統功能模塊以數據的加工順序劃分,在功能上保持統一,在軟件設計開發上盡可能做到模塊獨立、向上透明,降低軟件的耦合度,保證模塊的可復用、可修改及可維護性。
應屆畢業生的求職招聘數據來源主要包括以下三種:
(1)雇主或者求職者注冊登錄后發布的招聘或者求職信息;

圖1:大數據校園招聘平臺總體框架
(2)平臺用戶分享的求職或者招聘數據,用戶有效分享后將獲得相應的虛擬貨幣獎勵;
(3)從各大招聘平臺、高校就業網站等獲取的求職招聘信息。
數據采集必須保證安全性以及合法性:
(1)采集時遵守Robots協議采集網站公開信息,注意采集頻率、時間點保證不影響數據源的正常運行;
(2)盡量不采集公司或者個人的敏感信息,對個人及公司信息進行加密處理;
(3)尊重各大平臺及其他網站等數據源,工作崗位匹配后,如個人需要獲取簡歷投遞方式,需跳轉到原平臺訪問。
由于數據源頭差異性大、可靠性不足,采集的就業信息有很多臟數據,包括不完整、含噪聲、格式不一樣的數據。然而我們在數據處理分析的過程中,對數據有著一致性、準確性、完整性、時效性、可信性、可解釋性的要求。只有基于準確的、高質量的數據進行分析,才有可能獲得可信的分析結果,才能進一步得到正確的決策。就業信息數據預處理包含以下內容:
1.2.1 數據清洗
由于數據采集源頭不一、數據格式不完整、數據真實性存在一定風險原因,采集的數據存在著數據部分元組缺失、噪聲干擾、數據值異常等問題。平臺對采集的就業數據進行偏差監測,并按照相關規則進行數據變換。
1.2.2 數據集成

圖2:數據處理分析
數據源不一致導致采集的數據內容、屬性、格式有著很大的不同。數據集成分為物理式數據集成、虛擬式數據集成兩類。因為平臺暫未有現成的數據庫源頭,因此該平臺將采用物理式的數據集成。不同的招聘平臺中,存在著大量的重復的冗余數據,需要進行冗余分析并刪除重復的求職招聘記錄;不同的平臺,對公司名稱、工作崗位的名稱描述也可能不盡相同,比如有的使用全稱、有的使用簡稱、有的使用中文名稱、有的使用英文名稱、需要對相關實體進行識別以達到等價實體匹配。
1.2.3 數據變換
將數據變換成為適合挖掘的形式,其中包括光滑、屬性構造、聚集、規范化、離散化等等。
如圖 2 將獲取到的海量數據,結合機器學習和數據挖掘算法,進行處理、分類。對招聘崗位和簡歷進行分析,將受歡迎程度高的崗位或者簡歷匹配性高的的進行優先推送。
對招聘信息及簡歷信息以可信賴、更準確可視化呈現給大眾,幫助求職者或者企業更好的理解、分析這些數據,從而進行投遞簡歷或者收取簡歷。主要包括工作區域熱點圖、應屆生分布圖、熱門城市分布圖、工作經驗需求分布圖等,如圖 3。

圖3:招聘數據可視化
大數據校園招聘平臺核心功能包括垃圾招聘信息清除、大數據企業評分機制、大數據用戶畫像、招聘信息匹配推送。其具體設計如下:
將虛假、失真、滿員的招聘信息及時清理。如圖 4,主要分為以下4 個步驟:S1:對清洗流程進行配置定義;S2:對清洗流程進行解析,將清洗流程轉換為原子操作;S3:將清洗任務提交至集群;S4:對招聘數據進行清洗。

圖4:垃圾招聘信息清洗

圖5:大數據建立企業評分機制

圖6:大數據構建用戶畫像

圖7:招聘信息與用戶畫像匹配并推送
如圖5,通過分析數據特征建立欺詐模型、預支付模型等模型來多角度、集成學習最終得到企業的信用評分。企業特征包括多維多角度的特征,比如企業總體狀況、盈利能力、運營能力、債償能力、獲取現金能力、成長發展能力等等。

圖8:大數據校園招聘平臺移動端界面
如圖 6 通過大數據構建用戶畫像,為企業招聘人才提供便利。用戶畫像包括用戶的基礎信息、項目經歷、獲獎證書、工作實習經理、工作期望、福利關注點的等內容。通過用戶畫像的構建,一方面可以讓招聘者更加直觀的獲取到求職人員的信息,另外一方面,也為企業與求職人員之間的精裝匹配與信息推送成為可能。
如圖7 所示,將招聘信息、企業評分機制與用戶畫像的進行優先級匹配,結果輸送到Web 服務器,并最終推送到求職者或者企業HR,一方面減輕了用戶的信息瀏覽量,另一方面又提高了求職招聘效率。
基于當前移動端用戶迅速發展的現狀,平臺第一步實現了對手機端用戶的支持與推送,具體界面如圖 8。
大數據校園招聘平臺是一個針對在校大學生開發的校園招聘平臺。該平臺采用大數據技術,對海量數據進行采集、預處理、存儲、處理與分析、數據可視化。招聘信息經大數據分析審核,虛假信息大量減少??筛鶕W生的需求精準推送就業信息,使學生能夠在短時間內篩選出適合自己的招聘信息。平臺目標利用大數據技術解決垃圾招聘信息泛濫、建立企業評分機制、建立求職者用戶畫像以致于解決招聘信息與用戶精準匹配并推送等問題,使得招聘平臺更加安全且高效,具有一定的創新性、先進性與應用價值。