郭建龍, 方院生, 黃欽偉, 商震雷, 周青云
(1. 廣東電網(wǎng)有限責任公司 培訓與評價中心;2. 廣東電網(wǎng)有限責任公司 電力科學研究院, 廣東 廣州 510520;3. 廣東電網(wǎng)有限責任公司, 廣東 廣州 510520)
大數(shù)據(jù)技術能夠令人們更容易采集信息,還可通過數(shù)據(jù)應用需求,利用數(shù)據(jù)分析技術為企業(yè)提供更多的服務,而人才畫像技術為大數(shù)據(jù)技術的主要應用之一,人才畫像技術的目標為從多維度角度建立針對人才的代表性標簽屬性[1-2]。通過建立標簽屬性對人才多個角度的特征進行描述。
人才畫像技術的發(fā)展是在用戶畫像技術的基礎上實現(xiàn)的,傳統(tǒng)用戶畫像技術采用的數(shù)據(jù)只源于業(yè)務系統(tǒng)、事件系統(tǒng)以及關系信息等,有很多種類的信息是缺失的,無法得到準確全面的人才畫像[3-4]。在大數(shù)據(jù)環(huán)境下,可采集的數(shù)據(jù)維度更多,信息更加充分健全,而且隨著互聯(lián)網(wǎng)與物聯(lián)網(wǎng)的逐漸發(fā)展,能夠通過各種渠道采集信息,可建立全方位人才畫像。本文主要將大數(shù)據(jù)技術應用于人才畫像技術中,根據(jù)聚類分析方法和網(wǎng)絡爬蟲的清洗數(shù)據(jù)作用,構(gòu)建人才畫像技術應用模型,對企業(yè)掌握現(xiàn)階段領域杰出人才情況具有重要意義。
基于大數(shù)據(jù)的人才畫像技術能夠幫助企業(yè)發(fā)現(xiàn)人才特質(zhì)和崗位需求間的匹配關系,為人才與企業(yè)提供更好的建議。將人才畫像數(shù)據(jù)作為基礎,構(gòu)造動態(tài)分層的分段調(diào)整體系,改進人才培養(yǎng)目標,發(fā)揮真實數(shù)據(jù)的充分作用,提高人才招聘質(zhì)量與效果[5]。
人才畫像技術的主要依據(jù)為二層數(shù)據(jù)倉儲設計,第一層為原始數(shù)據(jù)采集與預處理,通過人才數(shù)據(jù)后臺、網(wǎng)絡訪問的方式采集數(shù)據(jù)并完成匯總,對采集數(shù)據(jù)進行清洗處理,將冗余數(shù)據(jù)刪除;第二層為分析結(jié)果,主要負責對數(shù)據(jù)集成后的標簽進行保存,構(gòu)建人才畫像。其中標簽可設計成內(nèi)容與權重兩個部分,對人才提取的標簽內(nèi)容并非一直不發(fā)生改變,其權重隨時間的改變而改變。利用標簽能夠?qū)θ瞬盘岢鲇嗅槍π缘倪x擇方案。
在大數(shù)據(jù)環(huán)境下,可挖掘的人才數(shù)據(jù)信息很多,應利用數(shù)據(jù)分析技術對人才用戶特征標識數(shù)據(jù)進行采集,人才畫像主要數(shù)據(jù)信息標識如圖1所示。

圖1 人才畫像數(shù)據(jù)信息圖
(1) 用戶層次。人才用戶層次主要有中高端人才、白領人才、藍領人才和應屆畢業(yè)生[6-7]。中高端人才想要找到更加廣闊的的空間,對薪資有更高的要求;白領人才更加注重用戶體驗與高效率;藍領人才對網(wǎng)絡的掌握程度較差,流通性相對較高,更加關注信息的及時性。應屆畢業(yè)生對流通信息的掌握能力尚有很大的提高空間,對信息及時性要求更高[8]。
(2) 地域分布。依據(jù)網(wǎng)絡人才分布的區(qū)域,顯示各個年齡段人才用戶對全國不同地域的求職需求,并且便于為企業(yè)招聘提供準確的信息。
(3) 人才學歷。人才學歷也就是學歷、專業(yè)、畢業(yè)院校等標簽。
(4) 性別。也就是男女性別標簽,利用發(fā)送電子簡歷對男女人才對各個職業(yè)的偏好性進行判斷。
(5) 行為特點。行為特點也就是在招聘網(wǎng)站中人才點擊應聘職位的次數(shù)標簽,可依據(jù)人才瀏覽行為與用戶活躍度獲取。
(6) 社交網(wǎng)絡。社交網(wǎng)絡也就是通過注冊登錄的社交網(wǎng)絡以及企業(yè)平臺標簽。
(7) 專業(yè)技能。專業(yè)技能就是人才在所處領域中可體現(xiàn)自身能力的憑證,包括資格證書、專利等。
采集的數(shù)據(jù)中有很多冗余、重復和錯誤數(shù)據(jù),為了提高數(shù)據(jù)的準確性,防止對標簽挖掘和決策產(chǎn)生不利影響,應通過數(shù)據(jù)分析算法對采集的原始數(shù)據(jù)進行清洗處理,防止冗余標簽干擾挖掘操作。
箱形圖如圖2所示。

圖2 箱形圖
主要用于對數(shù)據(jù)分布情況進行統(tǒng)計,用于對數(shù)據(jù)整體分布狀態(tài)進行觀察[9-10]。通過中位數(shù)、上四分位數(shù)、下四分位數(shù)、上下邊界統(tǒng)計量表示數(shù)據(jù)的分布[11]。經(jīng)統(tǒng)計,形成箱體圖,箱體涵蓋了絕大多數(shù)正常數(shù)據(jù),處于箱體上下邊界范圍外的即為異常數(shù)據(jù)。
人才畫像構(gòu)建即在有限時間范圍內(nèi)的人才求職行為與內(nèi)容構(gòu)建臨時人才畫像,同時令該人才畫像求職行為與內(nèi)容和描述性標簽屬性匹配,在有效時間范圍內(nèi)人才求職行為與內(nèi)容標簽屬性不匹配的情況下,需在臨時人才畫像中建立新的標簽屬性[12]。
(1) 數(shù)據(jù)標準化。構(gòu)建人才畫像應分析不同媒介中資源整合的能力,構(gòu)造統(tǒng)一標準實現(xiàn)對完整人才畫像的構(gòu)建。
(2) 人才信息整合。對人才資料進行統(tǒng)計分析,提取主要因素,通過數(shù)據(jù)分析算法清洗處理采集到的原始數(shù)據(jù)。
通過職位內(nèi)容和主題的相似度對主題網(wǎng)絡爬蟲進行設計,通過詞語或短語特征詞表示主題,內(nèi)容也可被劃分成詞語與短語,從而通過向量空間模型對主題與網(wǎng)頁進行描述。為了形成描述主題的特征向量,把若干個與主題有關的網(wǎng)頁進行關鍵詞提取,則可獲取該主題特征向量和向量權重[13-14]。通過向量空間模型,可把內(nèi)容描述成詞頻向量,如式(1)。
CTF=(TF1,TF2,…,TFn)
(1)
式中,TFi表示描述第i個內(nèi)容在網(wǎng)站中的詞頻。
本文通過余弦間隔對網(wǎng)站的相關度進行衡量,在夾角是0°的情況下,相似度最高,為1,也就是內(nèi)容和主題最相關。反之,在夾角是90°的情況下,相似度最低,為0,也就是網(wǎng)頁內(nèi)容和主題不相關[15]。相似度計算如式(2)。
(2)
式中,t表示描述體現(xiàn)主題的詞語集合;s表示描述主題鏈接文本集合;ωsk表示描述集合中特征詞的關聯(lián)度;ωtk表示描述集合中特征詞針對某主題的關鍵性,具體計算如式(3)。
(3)
式中,TFtk表示描述主題出現(xiàn)的頻率;N表示描述文檔集中全部文檔數(shù)量;nk表示描述出現(xiàn)的文檔數(shù)量。
通過爬蟲對招聘網(wǎng)站進行清洗處理,對內(nèi)容進行分析,通過式(1)、式(2)求出主題相似度,將得到的結(jié)果與既定閾值相比,若相似度超過閾值,則認為內(nèi)容和主題有關,需進行內(nèi)容提取。
(3) 標簽挖掘。利用部署環(huán)境平臺對標簽進行加工與處理,針對爬取數(shù)據(jù)完成結(jié)構(gòu)化操作,通過聚類分析方法進行數(shù)據(jù)挖掘。
聚類分析方法屬于數(shù)據(jù)挖掘,聚類主要是為了在無先驗知識的情況下,按照數(shù)據(jù)相似程度把數(shù)據(jù)聚類為不同種類,令同一類型的元素盡量類似,而不同種類元素盡量不同,也被稱作非監(jiān)督分類,聚類方法主要有統(tǒng)計學方法與機器學習方法,本節(jié)選用K-means算法,該算法是一種典型算法,其聚類目標為在既定分組數(shù)k(k≤n)的情況下,利用聚類依據(jù)聚類成都將樣本點劃分為幾個簇,在相同簇中,數(shù)據(jù)相似度很高,但簇間相似度很低。也就是針對簇集合A={A1,A2,…,Ak},在數(shù)值模型中針對下式計算最小值,其中μi用于描述分類Ai的均值,如式(4)。
(4)
詳細流程如下。
① 針對采集的n個人才數(shù)據(jù)對象,將k個對象當成初始聚類中心;
② 按照各聚類對象均值求出各對象和上述中心的不同程度,把上述元素依次劃分至差異度最低的簇;
③ 對所有改變了的聚類均值進行重新計算;
④ 重復運行步驟(2)與步驟(3),直至所有聚類均不出現(xiàn)改變;
⑤ 輸出結(jié)果。
將人才屬性組成記錄,得到有n條數(shù)據(jù)記錄的集合(x1,x2,…,xn),同時所有xi都是d維向量,也就是xi(xi1,xi2,…,xid),其中xi1—xid代表人才標簽。
通過K-means算法對經(jīng)清洗后的數(shù)據(jù)進行挖掘,把相同種類的數(shù)據(jù)集合在一起,對人才標簽進行挖掘。至此,人才畫像技術應用可視化模型構(gòu)建完成。
(4) 標簽驗證。利用實際案例對挖掘標簽結(jié)果的準確性進行驗證,使得與標簽相應的處理結(jié)果達到預期結(jié)果。
(1) 結(jié)合業(yè)務。在建立人才畫像的過程中需考慮實際業(yè)務場景或所屬領域,防止過于抽象,在相同環(huán)境下標簽的名稱在很大程度上有不同的意義,應分別對待。
(2) 控制粒數(shù)。畫像粒度并非越細越好,分割標簽也并非越多越好,分割的標簽數(shù)量越多,涵蓋的人數(shù)越少,描述性能越差,越可能為偽特征。
(3) 動態(tài)變化。不可盲目采用人才畫像,人才畫像絕大多數(shù)是靜態(tài)特征,人才特征也會隨時間與空間的改變而發(fā)生改變,也有一定的動態(tài)人才畫像信息,例如人才在招聘網(wǎng)站上的訪問路徑與時間等。
下面把基于大數(shù)據(jù)的人才畫像技術應用于制造領域杰出人才特征分析中,為制造企業(yè)招聘杰出人才提供依據(jù)。我國的制造領域一般包括基礎的工業(yè)部門如機械、建材、輕紡等以及一些新興的工業(yè)部門如航空航天工業(yè)、汽車工業(yè)等,以我國2017—2018年政府數(shù)據(jù)網(wǎng)內(nèi)全部制造企業(yè)為數(shù)據(jù)樣本,因部分企業(yè)不具有代表性,所以排除3—5線城市制造業(yè);排除第一產(chǎn)業(yè)聯(lián)動制造業(yè);排除無應用價值的國內(nèi)外合資企業(yè);排除存在股權不穩(wěn)定等無法正常管理因素的制造業(yè),剩余企業(yè)369家,將其按照制造業(yè)生產(chǎn)方式分為智能機器人、數(shù)控機床與增材制造3種。
現(xiàn)對3種分類制造業(yè)樣本進行人才數(shù)據(jù)畫像分布情況測試,以圖測試本文應用研究實用性。將實驗指標設為杰出人才年齡、杰出人才所處機構(gòu)、杰出人才專利數(shù)量、杰出人才地理分布4種。
杰出人才年齡分布情況匹配情況如表1所示。

表1 智能制造杰出人才年齡分布
由表1可知,絕大多數(shù)制造領域杰出人才年齡處于50—59歲范圍內(nèi),從智能機器人、數(shù)控機床與增材制造三個制造領域杰出人才的年齡組成分析,增材制造領域杰出人才呈中年、青年、老年的年齡梯隊,智能機器人與數(shù)控機床領域均需補充青年人才。
本節(jié)把制造領域人才所處機構(gòu)劃分成高校、研究院、行業(yè)協(xié)會3類,人才所處機構(gòu)分布情況如表2所示。

表2 智能制造杰出人才機構(gòu)分布
由表2可知,在研究的3個領域中,研究型人才的數(shù)量最多,主要來源于高校與研究所,一些來源于企業(yè),說明高校與研究所應列為制造企業(yè)招聘的重點。
在制造領域杰出人才專利數(shù)量分布情況如表3所示。

表3 制造杰出人才專利數(shù)量分布
綜合看來,高校與研究所人才專利數(shù)量相對較多,而協(xié)會人才專利數(shù)量相對較少,可以認為高校與研究所應列為制造企業(yè)招聘的重點。
此次測試的369家企業(yè)人才分布在以下10個省份,智能機器人、數(shù)控機床以及增材制造人才在各省的人才數(shù)量,如表4—表6所示。

表4 智能機器人杰出人才地區(qū)分布

表5 數(shù)控機床杰出人才地區(qū)分布

表6 增材制造杰出人才地區(qū)分布
分析表4可知,智能機器人領域人才大部分分布于北京、陜西與江蘇地區(qū);數(shù)控機床人才主要分布在北京、遼寧與陜西,北京最多;增材制造人才主要分布在北京、陜西與江蘇。綜合看來,企業(yè)在招聘制造領域人才的過程中,可主要考慮北京、陜西地區(qū)。
在經(jīng)過杰出人才年齡、杰出人才所處機構(gòu)、杰出人才專利數(shù)量、杰出人才地理分布4種實驗結(jié)果的算例分析后,將得到的分析結(jié)果進行證明本文模型的準確性判斷即標簽驗證,如式(5)
(5)
式中,(MF1,MF2,…,MFn)表示分割的標簽總數(shù)量;K表示標簽數(shù)據(jù)擬合個數(shù)。具體驗證結(jié)果如圖3所示。

圖3 標簽驗證結(jié)果
由圖3可知,本文算例分析的挖掘結(jié)果可在最大程度上符合企業(yè)要求與社會實際情況,說明本文應用模型可有效挖掘出大數(shù)據(jù)下的人才畫像,是人才畫像技術的突出應用。
本文進行了基于大數(shù)據(jù)的人才畫像技術應用研究,并將該技術應用于制造領域杰出人才畫像構(gòu)建中,在杰出人才年齡、杰出人才所處機構(gòu)、杰出人才專利數(shù)量和杰出人才地理分布4個方面進行本文模型準確度驗證,研究結(jié)論為:從整體分析,制造業(yè)杰出人才年齡主要在50—59歲范圍內(nèi),學術型人才相對較多,可重點考慮高校與研究院,從地域的角度分析,主要集中于北京。為了有效發(fā)展制造領域,智能機器人企業(yè)與數(shù)控機床企業(yè)應招聘中青年專業(yè)杰出人才,增財制造企業(yè)應增加有專利技術的杰出人才,經(jīng)過標簽驗證后的處理結(jié)果說明本文模型人才畫像挖掘程度可達到企業(yè)要求。
本文的創(chuàng)新主要體現(xiàn)在應用基于大數(shù)據(jù)的人才畫像技術為某個領域與企業(yè)提供杰出人才群體特征,便于該領域發(fā)展。同時,其設計的網(wǎng)絡爬蟲具有可遷移性和代表性,說明構(gòu)建的人才畫像應用模型可被應用于各領域中。