陳偉龍,邱梁泉,張小華(通訊作者)
(仲愷農業工程學院 廣東 廣州 510225)
近年來,隨著互聯網、云計算、物聯網、三網融合等通信與IT技術的迅猛發展,數據的快速增長,信息社會己經進入了大數據時代。本文收集2016年度拉勾網的網頁招聘信息作為分析所用數據。數據采集工具使用Python的Scrapy框架,同時配置redis和MongoDB數據庫,分別用于爬蟲URL池和數據存儲。采集的招聘信息中包括數據分析師職位的數據2053行,數據工程師的數據192行,數據科學家的數據65行。
按照崗位職責和要求差異,將數據處理類崗位分為三類:數據分析師、數據工程師和數據科學家,三種不同職業的定義為:數據分析師指的是不同行業中,專門從事行業數據搜集、整理、分析,并依據數據做出行業研究、評估和預測的專業人員。數據工程師一般被定義成“深刻理解統計學科的明星軟件工程師”,他們的核心價值在于他們借由清晰數據創建數據管道的能力。數據科學家是指能采用科學方法、運用數據挖掘工具對復雜多量的數字、符號、文字、網址、音頻或視頻等信息進行數字化重現與認識,并能尋找新的數據洞察的工程師或專家。
數據處理類崗位地域分布顯示,數據科學職位需求量較多的是北京、上海、深圳、杭州和廣州,越是發達的城市越多數據處理人才需求。數據處理類崗位行業分布顯示,移動互聯網行業職位需求數量為610171,占比51%,居于首位。電子商務次之,占比19%。金融和O2O、企業服務和數據服務排名依次遞減。排名前六的行業基本屬于互聯網行業,互聯網行業對數據處理人才需求旺盛。
本文用Kruskal-Wallis檢驗分析多組數據之間的差異性是否顯著,對三種崗位的工資水平進行Kruskal-Wallis檢驗。在0.05置信水平下,檢驗結果顯示P值為0,說明數據分析師、數據工程師和數據科學家的工資存在顯著差異。不同類崗位的薪資水平影響因素不同,本文從公司實力影響和崗位人才兩個維度,選取公司規模、公司融資情況、工作經驗要求、學歷要求四個指標,分析三種崗位薪資的影響因素。
根據公司規模、融資情況、工作經驗和學歷要求四個影響因素,分別與數據分析師、數據工程師和數據科學家三種崗位的薪資進行Kruskal-Wallis檢驗,結果顯示,在0.05的顯著性水平下:公司規模、融資情況、工作經驗和學歷要求的差異均對數據分析師工資有顯著影響;學歷要求的差異對數據工程師的平均工資有顯著影響,而其他變量P值均大于0.05,公司規模、融資情況和工作經驗的差異對數據工程師沒有顯著影響;公司規模、融資情況、工作經驗和學歷要求四個因素均對數據科學家工資有顯著影響。
以數據科學家、數據工程師和數據科學家的崗位職責和職位要求進行分詞處理,根據詞匯詞頻進行基本的分析,詞頻以詞云形式展示如下(以下圖左均為崗位職責的詞云,圖右均為職位要求的詞云)。數據分析師頻繁用到數據庫的SQL語句、R語言、SAS或者SPSS等軟件。在學歷和經驗方面,學歷要求中最多的是本科學歷,經驗要求是熟練,說明數據分析師是一個更多依靠經驗的職位。

圖2 數據工程師的崗位職責和職位要求
由圖2可知,數據工程師的主要職責是根據業務需求進行數據架構平臺的搭建,能數據分析、數據挖掘的方法進行的建模,基本報表生成能力。在理論知識方面,數據工程師要求任職者掌握數據庫、數據分析、數據挖掘的知識,具備獨立編程和建模能力,自主搭建數據的數據架構平臺。在軟件操作方面,數據工程師需學會操作Linux操作系統,數據庫操作需掌握C++或C語言,Hadoop,mysql;數據建模需掌握R語言,Python,SAS等軟件的使用;分布式計算中要掌握MapReduce,Spark等軟件;網頁操作要求PHP的使用。在學歷和經驗方面,數據工程師學歷要求最多是本科,經驗要求是熟練。

圖3 數據科學家的崗位職責和職位要求
由圖3可知,數據科學家的主要職責是根據用戶的需求,利用數據分析方法、數據挖掘算法和機器學習的技術,將海量數據中處理并建模,不斷改進算法效率。在理論知識方面,數據挖掘要求任職者掌握數學、統計學、數據挖掘和機器學習的知識,具備獨立建模和編程的能力;能結合業務需求挖掘數據中的價值。在軟件操作方面,數據科學家需學會使用Linux操作系統,數據庫操作需掌握C++或C語言,Java,Hadoop,mysql;數據建模需掌握R語言,Python,SAS等軟件的使用。在學歷和經驗方面,數據科學家學歷要求最多是碩士,經驗要求是熟練。在學歷和經驗上,三個職業要要求有豐富的經驗,可見數據科學更是經驗的科學;數據分析師和數據工程師學歷要求偏向本科,數據科學家學歷要求偏向研究生。
在軟件使用上,三種職業都要求對Linux系統有所了解,對數據庫操作上要求掌握sql,Hadoop等數據庫操作語句;軟件Excel、SPSS、SAS、R和Python都有使用,只是側重的比例不一樣。
由圖1可知,數據分析師的崗位職責主要是根據用戶需求進行相關行業數據產品的分析,結合自身的經驗和模型結果提出相應的建議,給予決策者決策的方向。在理論知識方面,數據分析師不僅要求任職者熟悉數學、統計學、計算機相關的知識,對數據有一定的敏感度,具備獨立建模的能力,熟練掌握建模流程;而且還要求掌握相關業務知識,能結合統計學和業務知識建模。在軟件操作方面,