999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于大數(shù)據(jù)的人才畫像技術應用研究

2021-06-24 07:24:48郭建龍方院生黃欽偉商震雷周青云
微型電腦應用 2021年6期

郭建龍, 方院生, 黃欽偉, 商震雷, 周青云

(1. 廣東電網(wǎng)有限責任公司 培訓與評價中心;2. 廣東電網(wǎng)有限責任公司 電力科學研究院, 廣東 廣州 510520;3. 廣東電網(wǎng)有限責任公司, 廣東 廣州 510520)

0 引言

大數(shù)據(jù)技術能夠令人們更容易采集信息,還可通過數(shù)據(jù)應用需求,利用數(shù)據(jù)分析技術為企業(yè)提供更多的服務,而人才畫像技術為大數(shù)據(jù)技術的主要應用之一,人才畫像技術的目標為從多維度角度建立針對人才的代表性標簽屬性[1-2]。通過建立標簽屬性對人才多個角度的特征進行描述。

人才畫像技術的發(fā)展是在用戶畫像技術的基礎上實現(xiàn)的,傳統(tǒng)用戶畫像技術采用的數(shù)據(jù)只源于業(yè)務系統(tǒng)、事件系統(tǒng)以及關系信息等,有很多種類的信息是缺失的,無法得到準確全面的人才畫像[3-4]。在大數(shù)據(jù)環(huán)境下,可采集的數(shù)據(jù)維度更多,信息更加充分健全,而且隨著互聯(lián)網(wǎng)與物聯(lián)網(wǎng)的逐漸發(fā)展,能夠通過各種渠道采集信息,可建立全方位人才畫像。本文主要將大數(shù)據(jù)技術應用于人才畫像技術中,根據(jù)聚類分析方法和網(wǎng)絡爬蟲的清洗數(shù)據(jù)作用,構(gòu)建人才畫像技術應用模型,對企業(yè)掌握現(xiàn)階段領域杰出人才情況具有重要意義。

1 基于大數(shù)據(jù)的人才畫像技術

基于大數(shù)據(jù)的人才畫像技術能夠幫助企業(yè)發(fā)現(xiàn)人才特質(zhì)和崗位需求間的匹配關系,為人才與企業(yè)提供更好的建議。將人才畫像數(shù)據(jù)作為基礎,構(gòu)造動態(tài)分層的分段調(diào)整體系,改進人才培養(yǎng)目標,發(fā)揮真實數(shù)據(jù)的充分作用,提高人才招聘質(zhì)量與效果[5]。

1.1 人才畫像數(shù)據(jù)分析依據(jù)

人才畫像技術的主要依據(jù)為二層數(shù)據(jù)倉儲設計,第一層為原始數(shù)據(jù)采集與預處理,通過人才數(shù)據(jù)后臺、網(wǎng)絡訪問的方式采集數(shù)據(jù)并完成匯總,對采集數(shù)據(jù)進行清洗處理,將冗余數(shù)據(jù)刪除;第二層為分析結(jié)果,主要負責對數(shù)據(jù)集成后的標簽進行保存,構(gòu)建人才畫像。其中標簽可設計成內(nèi)容與權重兩個部分,對人才提取的標簽內(nèi)容并非一直不發(fā)生改變,其權重隨時間的改變而改變。利用標簽能夠?qū)θ瞬盘岢鲇嗅槍π缘倪x擇方案。

1.2 人才畫像數(shù)據(jù)信息采集與預處理

在大數(shù)據(jù)環(huán)境下,可挖掘的人才數(shù)據(jù)信息很多,應利用數(shù)據(jù)分析技術對人才用戶特征標識數(shù)據(jù)進行采集,人才畫像主要數(shù)據(jù)信息標識如圖1所示。

圖1 人才畫像數(shù)據(jù)信息圖

(1) 用戶層次。人才用戶層次主要有中高端人才、白領人才、藍領人才和應屆畢業(yè)生[6-7]。中高端人才想要找到更加廣闊的的空間,對薪資有更高的要求;白領人才更加注重用戶體驗與高效率;藍領人才對網(wǎng)絡的掌握程度較差,流通性相對較高,更加關注信息的及時性。應屆畢業(yè)生對流通信息的掌握能力尚有很大的提高空間,對信息及時性要求更高[8]。

(2) 地域分布。依據(jù)網(wǎng)絡人才分布的區(qū)域,顯示各個年齡段人才用戶對全國不同地域的求職需求,并且便于為企業(yè)招聘提供準確的信息。

(3) 人才學歷。人才學歷也就是學歷、專業(yè)、畢業(yè)院校等標簽。

(4) 性別。也就是男女性別標簽,利用發(fā)送電子簡歷對男女人才對各個職業(yè)的偏好性進行判斷。

(5) 行為特點。行為特點也就是在招聘網(wǎng)站中人才點擊應聘職位的次數(shù)標簽,可依據(jù)人才瀏覽行為與用戶活躍度獲取。

(6) 社交網(wǎng)絡。社交網(wǎng)絡也就是通過注冊登錄的社交網(wǎng)絡以及企業(yè)平臺標簽。

(7) 專業(yè)技能。專業(yè)技能就是人才在所處領域中可體現(xiàn)自身能力的憑證,包括資格證書、專利等。

采集的數(shù)據(jù)中有很多冗余、重復和錯誤數(shù)據(jù),為了提高數(shù)據(jù)的準確性,防止對標簽挖掘和決策產(chǎn)生不利影響,應通過數(shù)據(jù)分析算法對采集的原始數(shù)據(jù)進行清洗處理,防止冗余標簽干擾挖掘操作。

箱形圖如圖2所示。

圖2 箱形圖

主要用于對數(shù)據(jù)分布情況進行統(tǒng)計,用于對數(shù)據(jù)整體分布狀態(tài)進行觀察[9-10]。通過中位數(shù)、上四分位數(shù)、下四分位數(shù)、上下邊界統(tǒng)計量表示數(shù)據(jù)的分布[11]。經(jīng)統(tǒng)計,形成箱體圖,箱體涵蓋了絕大多數(shù)正常數(shù)據(jù),處于箱體上下邊界范圍外的即為異常數(shù)據(jù)。

2 構(gòu)建人才用戶畫像

人才畫像構(gòu)建即在有限時間范圍內(nèi)的人才求職行為與內(nèi)容構(gòu)建臨時人才畫像,同時令該人才畫像求職行為與內(nèi)容和描述性標簽屬性匹配,在有效時間范圍內(nèi)人才求職行為與內(nèi)容標簽屬性不匹配的情況下,需在臨時人才畫像中建立新的標簽屬性[12]。

2.1 人才畫像模型

(1) 數(shù)據(jù)標準化。構(gòu)建人才畫像應分析不同媒介中資源整合的能力,構(gòu)造統(tǒng)一標準實現(xiàn)對完整人才畫像的構(gòu)建。

(2) 人才信息整合。對人才資料進行統(tǒng)計分析,提取主要因素,通過數(shù)據(jù)分析算法清洗處理采集到的原始數(shù)據(jù)。

通過職位內(nèi)容和主題的相似度對主題網(wǎng)絡爬蟲進行設計,通過詞語或短語特征詞表示主題,內(nèi)容也可被劃分成詞語與短語,從而通過向量空間模型對主題與網(wǎng)頁進行描述。為了形成描述主題的特征向量,把若干個與主題有關的網(wǎng)頁進行關鍵詞提取,則可獲取該主題特征向量和向量權重[13-14]。通過向量空間模型,可把內(nèi)容描述成詞頻向量,如式(1)。

CTF=(TF1,TF2,…,TFn)

(1)

式中,TFi表示描述第i個內(nèi)容在網(wǎng)站中的詞頻。

本文通過余弦間隔對網(wǎng)站的相關度進行衡量,在夾角是0°的情況下,相似度最高,為1,也就是內(nèi)容和主題最相關。反之,在夾角是90°的情況下,相似度最低,為0,也就是網(wǎng)頁內(nèi)容和主題不相關[15]。相似度計算如式(2)。

(2)

式中,t表示描述體現(xiàn)主題的詞語集合;s表示描述主題鏈接文本集合;ωsk表示描述集合中特征詞的關聯(lián)度;ωtk表示描述集合中特征詞針對某主題的關鍵性,具體計算如式(3)。

(3)

式中,TFtk表示描述主題出現(xiàn)的頻率;N表示描述文檔集中全部文檔數(shù)量;nk表示描述出現(xiàn)的文檔數(shù)量。

通過爬蟲對招聘網(wǎng)站進行清洗處理,對內(nèi)容進行分析,通過式(1)、式(2)求出主題相似度,將得到的結(jié)果與既定閾值相比,若相似度超過閾值,則認為內(nèi)容和主題有關,需進行內(nèi)容提取。

(3) 標簽挖掘。利用部署環(huán)境平臺對標簽進行加工與處理,針對爬取數(shù)據(jù)完成結(jié)構(gòu)化操作,通過聚類分析方法進行數(shù)據(jù)挖掘。

聚類分析方法屬于數(shù)據(jù)挖掘,聚類主要是為了在無先驗知識的情況下,按照數(shù)據(jù)相似程度把數(shù)據(jù)聚類為不同種類,令同一類型的元素盡量類似,而不同種類元素盡量不同,也被稱作非監(jiān)督分類,聚類方法主要有統(tǒng)計學方法與機器學習方法,本節(jié)選用K-means算法,該算法是一種典型算法,其聚類目標為在既定分組數(shù)k(k≤n)的情況下,利用聚類依據(jù)聚類成都將樣本點劃分為幾個簇,在相同簇中,數(shù)據(jù)相似度很高,但簇間相似度很低。也就是針對簇集合A={A1,A2,…,Ak},在數(shù)值模型中針對下式計算最小值,其中μi用于描述分類Ai的均值,如式(4)。

(4)

詳細流程如下。

① 針對采集的n個人才數(shù)據(jù)對象,將k個對象當成初始聚類中心;

② 按照各聚類對象均值求出各對象和上述中心的不同程度,把上述元素依次劃分至差異度最低的簇;

③ 對所有改變了的聚類均值進行重新計算;

④ 重復運行步驟(2)與步驟(3),直至所有聚類均不出現(xiàn)改變;

⑤ 輸出結(jié)果。

將人才屬性組成記錄,得到有n條數(shù)據(jù)記錄的集合(x1,x2,…,xn),同時所有xi都是d維向量,也就是xi(xi1,xi2,…,xid),其中xi1—xid代表人才標簽。

通過K-means算法對經(jīng)清洗后的數(shù)據(jù)進行挖掘,把相同種類的數(shù)據(jù)集合在一起,對人才標簽進行挖掘。至此,人才畫像技術應用可視化模型構(gòu)建完成。

(4) 標簽驗證。利用實際案例對挖掘標簽結(jié)果的準確性進行驗證,使得與標簽相應的處理結(jié)果達到預期結(jié)果。

2.2 人才畫像應用注意事項

(1) 結(jié)合業(yè)務。在建立人才畫像的過程中需考慮實際業(yè)務場景或所屬領域,防止過于抽象,在相同環(huán)境下標簽的名稱在很大程度上有不同的意義,應分別對待。

(2) 控制粒數(shù)。畫像粒度并非越細越好,分割標簽也并非越多越好,分割的標簽數(shù)量越多,涵蓋的人數(shù)越少,描述性能越差,越可能為偽特征。

(3) 動態(tài)變化。不可盲目采用人才畫像,人才畫像絕大多數(shù)是靜態(tài)特征,人才特征也會隨時間與空間的改變而發(fā)生改變,也有一定的動態(tài)人才畫像信息,例如人才在招聘網(wǎng)站上的訪問路徑與時間等。

3 基于大數(shù)據(jù)的人才畫像技術應用算例分析

下面把基于大數(shù)據(jù)的人才畫像技術應用于制造領域杰出人才特征分析中,為制造企業(yè)招聘杰出人才提供依據(jù)。我國的制造領域一般包括基礎的工業(yè)部門如機械、建材、輕紡等以及一些新興的工業(yè)部門如航空航天工業(yè)、汽車工業(yè)等,以我國2017—2018年政府數(shù)據(jù)網(wǎng)內(nèi)全部制造企業(yè)為數(shù)據(jù)樣本,因部分企業(yè)不具有代表性,所以排除3—5線城市制造業(yè);排除第一產(chǎn)業(yè)聯(lián)動制造業(yè);排除無應用價值的國內(nèi)外合資企業(yè);排除存在股權不穩(wěn)定等無法正常管理因素的制造業(yè),剩余企業(yè)369家,將其按照制造業(yè)生產(chǎn)方式分為智能機器人、數(shù)控機床與增材制造3種。

現(xiàn)對3種分類制造業(yè)樣本進行人才數(shù)據(jù)畫像分布情況測試,以圖測試本文應用研究實用性。將實驗指標設為杰出人才年齡、杰出人才所處機構(gòu)、杰出人才專利數(shù)量、杰出人才地理分布4種。

3.1 杰出人才年齡分布情況

杰出人才年齡分布情況匹配情況如表1所示。

表1 智能制造杰出人才年齡分布

由表1可知,絕大多數(shù)制造領域杰出人才年齡處于50—59歲范圍內(nèi),從智能機器人、數(shù)控機床與增材制造三個制造領域杰出人才的年齡組成分析,增材制造領域杰出人才呈中年、青年、老年的年齡梯隊,智能機器人與數(shù)控機床領域均需補充青年人才。

3.2 杰出人才所處機構(gòu)分布特征

本節(jié)把制造領域人才所處機構(gòu)劃分成高校、研究院、行業(yè)協(xié)會3類,人才所處機構(gòu)分布情況如表2所示。

表2 智能制造杰出人才機構(gòu)分布

由表2可知,在研究的3個領域中,研究型人才的數(shù)量最多,主要來源于高校與研究所,一些來源于企業(yè),說明高校與研究所應列為制造企業(yè)招聘的重點。

3.3 杰出人才專利數(shù)量分布特征

在制造領域杰出人才專利數(shù)量分布情況如表3所示。

表3 制造杰出人才專利數(shù)量分布

綜合看來,高校與研究所人才專利數(shù)量相對較多,而協(xié)會人才專利數(shù)量相對較少,可以認為高校與研究所應列為制造企業(yè)招聘的重點。

3.4 杰出人才地理分布特征

此次測試的369家企業(yè)人才分布在以下10個省份,智能機器人、數(shù)控機床以及增材制造人才在各省的人才數(shù)量,如表4—表6所示。

表4 智能機器人杰出人才地區(qū)分布

表5 數(shù)控機床杰出人才地區(qū)分布

表6 增材制造杰出人才地區(qū)分布

分析表4可知,智能機器人領域人才大部分分布于北京、陜西與江蘇地區(qū);數(shù)控機床人才主要分布在北京、遼寧與陜西,北京最多;增材制造人才主要分布在北京、陜西與江蘇。綜合看來,企業(yè)在招聘制造領域人才的過程中,可主要考慮北京、陜西地區(qū)。

3.5 標簽驗證

在經(jīng)過杰出人才年齡、杰出人才所處機構(gòu)、杰出人才專利數(shù)量、杰出人才地理分布4種實驗結(jié)果的算例分析后,將得到的分析結(jié)果進行證明本文模型的準確性判斷即標簽驗證,如式(5)

(5)

式中,(MF1,MF2,…,MFn)表示分割的標簽總數(shù)量;K表示標簽數(shù)據(jù)擬合個數(shù)。具體驗證結(jié)果如圖3所示。

圖3 標簽驗證結(jié)果

由圖3可知,本文算例分析的挖掘結(jié)果可在最大程度上符合企業(yè)要求與社會實際情況,說明本文應用模型可有效挖掘出大數(shù)據(jù)下的人才畫像,是人才畫像技術的突出應用。

4 總結(jié)

本文進行了基于大數(shù)據(jù)的人才畫像技術應用研究,并將該技術應用于制造領域杰出人才畫像構(gòu)建中,在杰出人才年齡、杰出人才所處機構(gòu)、杰出人才專利數(shù)量和杰出人才地理分布4個方面進行本文模型準確度驗證,研究結(jié)論為:從整體分析,制造業(yè)杰出人才年齡主要在50—59歲范圍內(nèi),學術型人才相對較多,可重點考慮高校與研究院,從地域的角度分析,主要集中于北京。為了有效發(fā)展制造領域,智能機器人企業(yè)與數(shù)控機床企業(yè)應招聘中青年專業(yè)杰出人才,增財制造企業(yè)應增加有專利技術的杰出人才,經(jīng)過標簽驗證后的處理結(jié)果說明本文模型人才畫像挖掘程度可達到企業(yè)要求。

本文的創(chuàng)新主要體現(xiàn)在應用基于大數(shù)據(jù)的人才畫像技術為某個領域與企業(yè)提供杰出人才群體特征,便于該領域發(fā)展。同時,其設計的網(wǎng)絡爬蟲具有可遷移性和代表性,說明構(gòu)建的人才畫像應用模型可被應用于各領域中。

主站蜘蛛池模板: 亚洲精品第一在线观看视频| 午夜国产理论| 成人年鲁鲁在线观看视频| 91精品视频在线播放| 欧美一区二区丝袜高跟鞋| 欧美性猛交一区二区三区| 精品国产美女福到在线不卡f| 国产麻豆91网在线看| 午夜精品区| 欧美天堂久久| 国产精品免费福利久久播放| 2020久久国产综合精品swag| 免费一级大毛片a一观看不卡| 性色在线视频精品| 亚洲青涩在线| 美女免费黄网站| 国产欧美日韩va| www精品久久| 99re在线视频观看| 国产视频a| 尤物成AV人片在线观看| 午夜无码一区二区三区| 久久无码av三级| 999精品色在线观看| 国产成人乱无码视频| 日韩二区三区| 国产欧美又粗又猛又爽老| 国产欧美日韩在线一区| 成年人国产视频| 美女国产在线| 亚洲性一区| 91蜜芽尤物福利在线观看| 欧美成一级| 国产精品欧美日本韩免费一区二区三区不卡 | 日韩av手机在线| 欧美yw精品日本国产精品| 日本国产精品一区久久久| 爆操波多野结衣| 国产在线一区视频| 18禁黄无遮挡网站| 亚洲性色永久网址| 国产三级毛片| 99无码熟妇丰满人妻啪啪| 四虎影视国产精品| 国产Av无码精品色午夜| 国产成人亚洲综合A∨在线播放| 国产后式a一视频| 国产亚洲精久久久久久久91| 国产精品七七在线播放| 久久狠狠色噜噜狠狠狠狠97视色 | 一级毛片在线免费看| 免费在线国产一区二区三区精品| 91丝袜乱伦| 日韩色图区| 欧洲日本亚洲中文字幕| 91精品综合| 亚洲av成人无码网站在线观看| 亚洲国产成人麻豆精品| 在线观看亚洲精品福利片| 一本视频精品中文字幕| 亚洲综合久久一本伊一区| 91精品国产自产在线老师啪l| 精品一区二区三区自慰喷水| 国产91小视频在线观看| 日本道中文字幕久久一区| 久久青草精品一区二区三区| 超薄丝袜足j国产在线视频| 久久永久免费人妻精品| 伊人久久婷婷| 国产成人艳妇AA视频在线| 国产国拍精品视频免费看 | 国内精品久久九九国产精品| 精品一区二区无码av| a亚洲天堂| 亚洲国产天堂在线观看| 色婷婷亚洲十月十月色天| 精品国产www| 又大又硬又爽免费视频| 在线高清亚洲精品二区| 国产成人亚洲无码淙合青草| 黄色三级网站免费| 中文字幕无线码一区|