朱劍林 李林潔 宮托婭



摘要:簡歷是求職者能力、經歷、技能等簡要的總結,是求職者全面素質和能力體現的縮影。但是目前互聯網上的簡歷數據分散、格式不統一等問題,該論文圍繞簡歷數據可視化分析,以就業理論和生涯規劃理論為指導,爬取了互聯網上公開發布的求職簡歷相關的數據,經過數據清洗、特征工程,構建了職業發展相關的特征并將結果進行可視化分析。這些可視化的圖表數據以量化、直觀的方式為求職者的職業生涯指導提供輔助指導,為大規模細粒度研究人才職業流動行為打下基礎。
關鍵詞:簡歷數據分析;網絡爬蟲;數據可視化
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2020)36-0189-03
1 背景
根據Super(舒伯)[1-2]的職業生涯發展理論,人的職業生涯可以劃分為五個主要階段:成長階段、探索階段、建立階段、維持階段和退出階段,職業選擇和生涯規劃是人重要的發展任務之一[1-3]。職業是指人們從事的相對穩定的、有收入、專門類別的工作,它是人們的生活方式、經濟狀況、文化水平、行為模式、思想情感的綜合反映,也是一個人的權力、義務、利益和職責,從而是一個人社會地位的一般性表征。選擇職業是人的一生中最復雜和最重要的決定之一[1-2],人們對職業的選擇可以滿足他們的基本生存需求、價值觀和興趣,從而影響他們的生活質量。Guay等人[4]強調,職業發展是一個持續的過程,包括尋找、獲取和處理關于自己和環境的信息,個人在職業生涯中的工作變動引起的人才流動現象稱為職業流動行為[5]。
求職者的能力、教育水平、經歷、技能、職業追求等均濃縮在簡歷中,簡歷可以說是求職者全面素質和能力體現的縮影。隨著社會信息化的快速發展,互聯網上積累了大量的簡歷相關數據,同時信息處理能力的快速增長、信息可視化理論和技術的不斷發展,為職業流動行為的科學研究和創新提供了機遇。本項目擬從簡歷數據的角度對職業流動相關問題進行可視化分析,根據Super[1-2]的職業發展理論認為人的職業選擇不是一次完成的,而是隨著環境以及個人的成長而不斷動態地發展變化,這些交互直接或者間接影響了自我的認知和職業決策能力。
本文以求職者簡歷中的性別、年齡、學歷、預期薪水、自我評價、崗位變遷等為基礎,通過自身比對與比較不同城市的可視化數據,將計算機行業中“通信/網絡/計算機”的職位類別在市場與人才競爭中的特點一一展現。這些可視化的圖表數據以量化、直觀的方式為求職者的職業生涯指導提供輔助材料,幫助求職者對該類型崗位有所理解并能找準自己的定位,招聘單位借此類圖表數據也能對崗位或人才的緊缺有所了解,并能提供符合市場需要的合理的薪酬與待遇,為大規模細粒度研究人才職業流動行為打下基礎。
2 相關研究工作
本論文圍繞簡歷數據爬取與可視化這一研究主題,以就業理論和生涯規劃理論為指導[6-7],采集互聯網上公開的簡歷相關數據,自適應抽取相關數據,從這些數據中構建職業發展相關的特征,并盡可能無損將這些特征融合在一起動態、實時、可視化展示職業發展相關指標。
與本研究相關的研究內容,胥皇[5]提出基于屬性圖挖掘技術研究職業流動行為(職業生涯中的工作變動引起的人才流動現象),將流量源發現和流動量預估問題分別轉換成了靜態圖聚類和動態圖預測問題。Wu K等[8]一個人的職業軌跡是由他/她在不同時期的工作或學習經歷(機構)組成的,了解人們尤其是學者的職業軌跡,可以幫助政府制定更科學的戰略,以分配資源和吸引人才,幫助公司制定明智的招聘計劃,以及個人找到合適的合作研究者或工作機會。Huaxiu Yao等[9]試圖從基于在多個地點共同出現的行為記錄構建校園的社交網絡,并驗證了校園社交網絡和學業成績的關系,表明學生的學業成績與他們的朋友圈相關。在校園社交網絡對學業成績有影響的基礎上,提出了一種新的基于多重網絡的標簽傳播算法來預測學業成績。Nie M.等[10]基于學生校園行為提取了四種行為特征,提出了一種基于數據驅動的職業選擇預測框架,發現所提取的職業技能、行為規律性和經濟狀況與職業選擇顯著相關。基于以上的研究基礎,教育管理者可以更好地指導學生的職業生涯規劃,并在必要時在早期實施有效的干預措施。
3 簡歷數據的獲取與處理
本文數據爬取、處理、可視化均是基于Python語言編寫,并使用anaconda3進行包的管理。Python語言是一種開放源代碼、一個高層次的結合了解釋性,編譯性,互動性和面向對象的免費的跨平臺的高級語言,被稱為“膠水語言”——可以非常容易地把Java和C++等主流語言粘在一起,實現程序之間的聯動。
3.1 簡歷數據的獲取
本文數據主要通過網絡爬蟲爬取某簡歷發布與查詢網站而獲得。網絡爬蟲英文Web Crawler[11-12],是一種能按照既定的規則自動抓取互聯網信息的程序或者腳本,已廣泛地運用于互聯網的搜索引擎或者其他類似的網站中。從功能上來講,爬蟲通常分為網頁獲取、網頁分析、數據儲存三個部分。爬蟲的核心模塊有三個部分:URL管理器、網頁下載器和網頁解析器。
3.2 簡歷數據的處理
數據處理的基本目的是從大量的、復雜的、難以理解的數據中去粗取精,抽取并推導出有價值、有意義的信息。處理數據需要一些軟件及算法的支持,數據處理相關軟件包括:支持數據下載、模式識別等的程序設計語言及其編譯程序,管理維護數據的管理系統,以及整合了多種數據處理方法的應用軟件包。本文中對數據進行處理使用到的第三方庫有Jieba、re、Collections、Numpy、Pandas等。
3.3 簡歷數據的可視化
數據可視化[13-14],是針對數據視覺表現形式的科學技術研究,這種數據的視覺表現形式被定義為以某種概要形式抽提出來的信息,包括相應信息的各種屬性、變量等。數據可視化技術主要通過圖形化手段對需要的數據進行處理,目的是展示出直觀、鮮明、分而有類的數據。數據的可視化通過直觀地傳達關鍵的方面與特征,美學形式與功能需要齊頭并進,從而實現對于相當稀疏而又復雜的數據集的深入洞察。論文中使用到的第三方庫有wordcloud、PIL、matplotlib.pyplotis、PyEcharts等。
4 簡歷數據可視化
本節數據選取中國五個不同城市、所求職位類別為“通信/網絡/計算機”的求職者簡歷,對他們簡歷中的基本信息內容進行可視化分析。
4.1 個人簡歷可視化
針對單個簡歷數據,生成該簡歷的思維導圖,如圖1所示。
隨機選取的個人簡歷在自我評價一欄,其自我評價的詞云圖如圖2所示。
4.2 簡歷基本信息數據的圖表可視化
求職者中的性別分布:性別屬性構成僅分為“男”“女”兩種,選擇簡單明了的餅圖最為合適,不同顏色的面積大小表現了數值的多少。
求職者年齡組成:由于年齡跨度可能為十年甚至更多,且呈現明顯的男女差別需要具體到單一年齡段才能使數據更為翔實。論文中選擇以面積圖來展示求職者中男女的年齡分布,不僅僅顯示不同年齡數量的差別,更進一步顯示男女之間在求職中的年齡體現。
求職者學歷區別:不同求職者受教育程度在很大程度上決定了求職崗位的難度及薪水等關鍵問題,而對于同一崗位,競爭者間的學歷劃分與分布能為市場及招聘公司的人才采納規劃提供有力的支持,圖3的南丁格爾圖為求職者學歷比例,展示不同學歷的數量分布。
求職者預期薪水分布:對于同一行業同一職位,不同的求職者根據市場規律及自身條件會有不同的薪水預期,明確了解薪水的期望數值,能為招聘公司對不同職位給出的薪水標準提供有力的支持。而由于職場中男女性別的自身差異較大,對預期薪水的判斷也有明顯差別,因此特別區分男女性別在相同職位“通信/網絡/計算機”上的預期薪水分布。
4.3 圖表整合優化
論文中繪制了超過20多張圖表,為了能夠方便觀察,需要在一個界面顯示多個圖表。PyEcharts可支持圖表組合,組合類型有四種:Grid、Overlap、Page、Timeline。它們的不同功能如下:
1)Grid:可將多個不同類型的圖表放在一個界面中。
2)Overlap:可將多個類型功能不同的圖表放在一張圖種同時顯示。
3)Page:可將多個圖表按順序展示在一張網頁中,且能放置Grid、Overlap、Timeline這三種類型的圖表。
4)Timeline:可將多個圖表繪制成輪播圖,動態播放。
根據所繪制的圖表,論文中應用了Timeline和Page這兩種組合。論文中將所有圖表按照所代表的地區劃分,則分別有全部地區和北京、上海等五個城市的圖表,這樣的分法用Page模塊生成了6頁不同的圖表組合。同時為了能將不同城市的同一屬性進行對比,本文按照不同圖表所展示的內容,將不同地區作為輪播圖的選擇條件,并將顯示不同內容的輪播圖放置在同一頁面中。
5 論文總結
本論文圍繞簡歷數據可視化分析這一主題,以就業理論和生涯規劃理論為指導,爬取了互聯網上公開發布的求職簡歷相關的數據,經過數據清洗、特征工程后,聚焦在計算機行業中“通信/網絡/計算機”的職位類別,以求職者簡歷中的性別、年齡、學歷、預期薪水、自我評價、崗位變遷等為基礎,構建了職業發展相關的特征并將結果進行了可視化分析。這些可視化的圖表數據以量化、直觀的方式為求職者的職業生涯指導提供輔助材料,幫助求職者對該類型崗位有所理解并能找準自己的定位,招聘單位借此類圖表數據也能對崗位或人才的緊缺有所了解,并能提供符合市場需要的合理的薪酬與待遇,為大規模細粒度研究人才職業流動行為打下基礎。
參考文獻:
[1] Super D E.A theory of vocational development[J].Theory &Practice of Vocational Guidance,1953,8(5):13-24.
[2] Super D E.A life-span,life-space approach to career development[J].Journal of Vocational Behavior,1980,16(3):282-298.
[3] 馮嘉慧.美國生涯指導理論范式研究[D].上海:華東師范大學,2019.
[4] Guay F,Ratelle C F,Senécal C,et al.Distinguishing developmental from chronic career indecision:self-efficacy,autonomy,and social support[J].Journal of Career Assessment,2006,14(2):235-251.
[5] 胥皇.基于屬性圖挖掘的職業流動行為研究[D].西安:西北工業大學, 2019.
[6] 張淼.大學生就業質量評價指標開發及其實證檢驗[D].西安:西北工業大學,2017.
[7] 劉洋.遼寧省大學生就業偏好識別及影響因素研究[D].阜新:遼寧工程技術大學,2017.
[8] Wu K,Tang J,Zhang C H.Where have You been?inferring career trajectory from academic social network[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. 2018.
[9] Yao H X,Nie M,Su H,et al.Predicting academic performance via semi-supervised learning with constructed campus social network[M]//Database Systems for Advanced Applications.Cham:Springer International Publishing,2017:597-609.
[10] Nie M,Yang L,Sun J,et al.Advanced forecasting of career choices for college students based on campus big data[J].Frontiers of Computer Science,2018,12(3):494-503.
[11] 瑞安·米切爾. Python網絡爬蟲權威指南[M].神煩小寶,譯.2版.北京:人民郵電出版社,2019:92-168.
[12] 呂云翔,張揚.Python網絡爬蟲實戰[M].北京:清華大學出版社,2019:20-35.
[13] 魏世超,李歆,張宜弛,等.基于E-t-SNE的混合屬性數據降維可視化方法[J].計算機工程與應用,2020,56(6):66-72.
[14] 張杰.Python數據可視化之美:專業圖表繪制指南(全彩)[M].北京:電子工業出版社,2020.
【通聯編輯:謝媛媛】