潘保國,黃永杰,張慧敏,劉康穎,陳廣輝
(1.湖北工程學院 數學與統計學院,湖北 孝感 432000;2.浙江省溫州市龍港市玉成實驗學校,浙江 溫州 325802)
近年來,隨著互聯網技術的不斷發展,網絡招聘依托于互聯網的觸角可以輕易地延伸到世界的每一個角落,達到了傳統招聘方式無法獲得的效果。網絡招聘可以簡化招聘流程,減少時間投入,更加快捷。劉暢[1]利用網絡文本挖掘技術研究了數據分析崗位需求情況,李玲等[2]以信息管理與信息系統專業為例,分析了網絡招聘時代專業人才技能情況,徐成龍等[3]利用網絡招聘數據分析了體育經濟與管理專業的人才市場需求,楊迪月等[4]以互聯網金融招聘數據為例,研究基于復雜網絡的招聘文本挖掘,陳慧慧[5]利用2020年網絡招聘信息研究了后疫情時代杭州市物流專業人才需求現狀。
為了更加直接地了解當前社會上對于數據科學與大數據技術專業人才的需求,本文利用招聘網站對數據科學與大數據技術專業人才需求狀況進行研究,采用文本挖掘技術將大量的招聘網站的數據提取出來,然后進行詞云圖等可視化分析后提出相關建議,為大數據專業的人才培養模式提供參考,更加符合當前大數據人才需求的就業市場。
通過多個招聘網站對比,我們選擇了前程無憂招聘網站。因為它可以較為輕松獲取到全國各領域大數據相關專業的人才需求,信息可靠且具有較高的挖掘價值。
通過Python開啟多線程,采集得到251313條相關數據。對其進行去重處理(當崗位名稱與公司名稱一致時,則視為重復記錄)。最后得到有效記錄共計82436條,保留職位名稱、企業名稱、薪資、供職地點、發布時間、企業類型、招聘人數、學歷要求、經驗要求、所屬行業、崗位描述和公司規模等12個字段來進一步分析。
對每個字段進行相應處理,保證數據集的完整與干凈,便于后續做詳細分析。主要包括以下5個方面:
1)對有效字段的缺失值與異常值進行替換或刪除。用apply方法進行自定義函數映射,將數值型字段的異常值替換為np.nan,便于后續計算。
2)對崗位字段進行篩選并規范化崗位名稱。將崗位名中的大寫英文字母統一轉換為小寫字母,并在結合招聘網站的職位設置與調查相關公司崗位實際設置情況后,大體上可將崗位屬性與類型細分為:‘算法’,‘分析’,‘工程師’等十大類,進一步進行count計數與職位名稱規范,最后進行歸并處理。
3)地址字段也存在參差不齊的現象,對其進行過濾、替換操作。許多城市,由于名稱的不規范化,在進行統計計數的時候被記為不同的城市,比如:廣州市-天河區,廣州市-海珠區,都是屬于廣州市,卻被計為兩個地區。
4)對薪資進行統一換算,便于后續可視化操作及相關計算。大體上薪資字段類型分為元/天,千(以上/下)/月,萬(以上/下)/月,萬(以上/下)/年,如果數據是區間的形式,則求其平均值,最后的值統一單位為元/月。
5)對學歷、往屆和應屆字段字段進行篩選處理。避免切片錯誤,個別學歷字段含有其他字段內容,用正則表達式進行查找替換,并構建新的字段包括:“博士|碩士|本科|大專|高中|中專|中技|初中及以下|應屆生|在校生”。
探索招聘的企業所在行業、性質、規模及其要求的學歷、工作經驗情況,分析各個崗位的薪資狀況,挖掘相關企業所需要的職業技能情況。
1) 企業所在的行業分布。在就業市場中,研究招聘企業所在的行業對數據科學與大數據技術專業求職者來說具有重要的意義,有助于在其學習過程中明確方向。在對大數據領域相關崗位的所在行業進行分類匯總后,從統計出的41個行業中提取出行業排名前10的數據,如圖1所示。在目前大數據環境中處于高速發展階段的互聯網行業占比最高,共有14460家企業占比26.4%。其次是電子技術行業,占比9.57%,這兩個行業本身就對大數據職業人員的需求較高(見圖2)。就招聘崗位而言,缺口最大有開發工程師、運營、數據分析、算法這些熱門崗位(見圖3)。

圖1 大數據相關熱門行業分布

圖2 大數據相關行業類型

圖3 大數據相關熱門招聘崗位
2) 企業性質分布,圖4展示了大數據相關企業類型占比圖。

圖4 大數據相關企業類型
從圖4來看,超過一半的職位所在的企業為民營企業,這與企業整體水平的趨勢大致相同。上市公司和國企的占比相差不大,分別占10.6%和8.19%,排列在后的是合資企業,外資等。從大數據相關企業招人數可知,企業所需的大數據專業的人數最多招若干人的概率為20.65%,招1人的概率高達39.96%,招2人的概率為19.33%。而在公司規模上,有近半數的公司屬于50~500人的中小型公司,綜上所述,可知目前相關企業對數據科學與大數據技術專業的認知度和認可度相對較高,并且相關招聘公司規模和招人數目也比較可觀(見圖5)。

圖5 大數據相關企業規模
3) 企業所處地區分布(見圖6)。從分析結果可以看出招聘崗位的地區主要集中在經濟發達的城市,大多分布在沿海偏西部地帶。招聘職位數量最多的前六個城市分別是上海(17.91%)、深圳(14.25%)、廣州(11.16%)、北京(8.60%)、杭州(5.32%)、武漢(4.96%),這六個城市地理位置和資源配置條件優越,對大部分高校畢業生有一定的吸引力。

圖6 大數據相關職位熱門招聘城市
1) 學歷要求。學歷是企業招聘人才最初的門檻,通常,企業在招聘信息中明確指出最低學歷的限制,研究職位的最低學歷要求有助于求職者的自我定位以及培養機構的教育機制改革。
對相關學歷要求進行分析后,可知企業對學歷的要求可以分為以下幾類;本科(61.09%)、大專(28.75%)、碩士(6.02%)等,超過一大半的崗位對學歷提出了硬性的要求,大多數崗位招收的是本科和大專的學歷(見圖7)。從大數據相關職位學歷與平均薪資水平關系的圖(見圖8)中可以看出,學歷和薪資有一定的關系,其中學歷最高的博士薪資最高,碩士其次。

圖7 大數據相關學歷要求

圖8 大數據相關職位學歷與平均薪資水平關系
2) 工作經驗要求。企業對工作經驗的需求與崗位的性質有很大的關系,擁有相關工作經驗的求職者可以更快的適應相關工作崗位,可以減少公司培訓的成本。不同的工作崗位會有不同的工作經驗需求。我們可以發現企業對大數據崗位的最低工作年限要求可以分為7個取值范圍:無需經驗、1年經驗、2年經驗、3~4年經驗、5~7年經驗、8~9年經驗、10年以上經驗,其中3~4年經驗的人才需求最多(見圖9)。從大數據相關職位經驗與平均薪資關系圖中(見圖10),我們可以看出隨著經驗的加深,平均薪資會越來越多。

圖9 大數據相關工作經驗漏斗圖

圖10 大數據相關職位經驗與平均薪資關系圖
3) 招聘單位對崗位的能力要求。招聘信息中的崗位要求和任職資格非常直觀的體現了用人單位對求職者的技能需求,通過對崗位描述字段作進一步文本挖掘,探索求職高頻職業技能。TF-IDF定義如下:

逆文檔頻率(IDF)=
TF-IDF=TF*IDF
利用TF-IDF算法加權,篩選出前一百個高頻技能詞匯,并繪制了下列的詞云圖(見圖11)。

圖11 高頻技能詞匯詞云圖
從圖11中我們可以直觀看到用人單位對應聘者的能力要求分可大致分為兩大類,一類是基本能力要求,包括溝通能力、學習能力、責任心等;另一類是專業技能需求,包括Java語言、數據庫、Python、linux、web、運維、架構等。我們又根據這一百個高技能詞匯相應的權值抽取部分繪制出了“基本能力要求表”和“專業技能需求表”(見表1和表2)。
4) 基本能力要求。本文將基本能力定義為除專業技能以外的能力,可以概括為人際交往、職業素養、心理素質、語言能力四大類。根據表1,從人際交往、職業素養等方面來看,用人單位對求職者有一些基本要求,包括要有較強的團隊意識、學習能力要好,并且最重要的就是要有較好的溝通能力和責任心,說明了企業比較重視團隊之中成員與成員溝通,只有溝通才能夠建立合作,以及成員與成員的在工作中的互相協助。其次對責任心的要求,則說明了企業十分重視員工在工作室認真負責的工作態度。再次就是學習能力,這表明了在大部分工作崗位中最需要的就是學習能力,這樣才能提高工作的效率,這也是用人單位非常看重的品質。而營銷能力和策劃能力以及抗壓能力和報告撰寫能力也占據了較高的權重,說明部分崗位偏運營管理類,和營銷、策劃有關。緊隨其后的就是團隊合作能力,足以說明與大數據相關專業的工作中,經常需要同其他部門進行合作。

表1 基本能力要求表
5) 專業技能要求。在專業知識技能需求的分析中,我們將對數據科學與大數據技術專業的技能要求按知識類型分為數學與統計學基礎知識、計算機相關知識、大數據技術專業知識三大類,其中優化的權重最大,說明大數據相關崗位大部分以數學基礎為核心(見表2)。只有具備了一定的數學基礎,才能夠更好地理解和掌握各種更深層次的算法,位列其后的便是Java語言與數據庫,處于大數據時代,各種類型的數據體量呈指數爆炸式增長,普通的存儲方式很難滿足相關數據的存儲,這時就需要數據庫來進行存取,便于數據的預處理與讀取,從而更好的處理數據。對于日益復雜的用戶需求,大數據各個領域的相關崗位任職者也得具備一定的編程能力,Java、Python、c++等編程語言在開發上的應用范圍也十分廣泛。對于不同的崗位,可以選擇不同的編程語言作為輔助工具。

表2 專業技能需求表
通過對數據科學與大數據技術專業人才崗位需求分析得出以下三點結論:
1)招聘崗位主要集中在經濟較為發達的一線城市和超一線城市,大多分布在沿海偏西部地帶,就業空間廣泛,各公司對于開發工程師、運營、數據分析等職位存在較大需求,其中根據對比分析可以看出求職者選擇去上市公司或者民營企業就職會更好,并且職位經驗越高的平均薪資越高。
2)用人單位對求職者的專業技能和職業綜合素質要求較高。大數據相關行業需要經過一定的實習,培養扎實的專業技能,練就較強的溝通能力,有較豐富的經驗才能找到更好的工作。
3)學歷是企業招聘人才的第一道門檻,交叉分析可知本科以上的學歷在就業中會有一定的優勢,并且薪資相對于而言也會更高。
在進行網絡調研時,本文只選取了第三方招聘網站的招聘信息作為數據來源,而多數事業單位、國企等機構的招聘信息通常發布在官網或其他人力資源網站上,數據選取還不夠全面系統,對大數據人才需求現狀的調研結果不夠精確,有待進一步提高。