999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

大數(shù)據(jù)環(huán)境下基于決策樹(shù)算法的人才招聘系統(tǒng)優(yōu)化研究

2021-06-01 12:57:04
關(guān)鍵詞:信息系統(tǒng)

(深圳職業(yè)技術(shù)學(xué)院,廣東深圳 518055)

統(tǒng)計(jì)顯示,最近五年,我國(guó)高校畢業(yè)生人數(shù)連年猛增,2021屆高校畢業(yè)生將突破900萬(wàn)人,人數(shù)再創(chuàng)新高。規(guī)模增長(zhǎng)必然使就業(yè)形勢(shì)更加嚴(yán)峻,傳統(tǒng)招聘方式渠道眾多,需投入大量的人力審核簡(jiǎn)歷,且審核結(jié)果容易受影響。招聘結(jié)束后,簡(jiǎn)歷大量沉淀,人才庫(kù)利用率低。因此,提高招聘系統(tǒng)處理海量數(shù)據(jù)的能力,亟待解決。

另一方面,招聘過(guò)程中面臨的最大挑戰(zhàn)之一,是將招聘目標(biāo)鎖定在合適的候選人身上。尋找一個(gè)合適的候選人并邀約面試,需要花費(fèi)3~5天時(shí)間,面試時(shí)間一般在30分鐘到1 小時(shí),而后續(xù)的跟進(jìn)周期更長(zhǎng)。利用大數(shù)據(jù)的分析和人工智能技術(shù)[1],高效的找到合適的候選人,也是招聘系統(tǒng)必須解決的問(wèn)題。

本文將采用大數(shù)據(jù)平臺(tái)Hadoop及決策樹(shù)算法,實(shí)現(xiàn)招聘系統(tǒng)自動(dòng)快速、精準(zhǔn)地篩選出候選人信息。利用Hive工具,建立人才數(shù)據(jù)倉(cāng)庫(kù),對(duì)應(yīng)聘者的數(shù)據(jù)做深層次分析,從而提高科學(xué)識(shí)人的水平。

1 相關(guān)模型

1.1 Hadoop

Hadoop是一個(gè)開(kāi)源的分布式系統(tǒng)基礎(chǔ)架構(gòu),它在分布式環(huán)境下提供了海量數(shù)據(jù)的處理能力。Hadoop主要有以下幾個(gè)重要組成部分,分別為HDFS(分布式文件系統(tǒng))、MapReduce(計(jì)算框架)、HBase、Hive等組件[2-3]。

Hive設(shè)計(jì)了SQL語(yǔ)句查詢(xún)功能,能透明地將select、insert等SQL語(yǔ)句翻譯為MapReduce任務(wù)來(lái)執(zhí)行。Hive可以實(shí)現(xiàn)快速M(fèi)apReduce統(tǒng)計(jì),簡(jiǎn)化了MapReduce程序設(shè)計(jì),可以處理大數(shù)據(jù)的統(tǒng)計(jì)分析,降低了處理數(shù)據(jù)倉(cāng)庫(kù)的使用門(mén)檻[4]。

1.2 決策樹(shù)

常用的分類(lèi)算法包括決策樹(shù)、貝葉斯、神經(jīng)網(wǎng)絡(luò)、K近鄰、支持向量機(jī)等。決策樹(shù)是非常廣泛的分類(lèi)算法,其中C4.5算法是比較成熟的算法[5]。C4.5算法使用信息增益率來(lái)判斷最佳分支屬性,能較好地處理非離散數(shù)據(jù)屬性。

2 招聘系統(tǒng)設(shè)計(jì)

傳統(tǒng)的招聘系統(tǒng)主要包含了職位發(fā)布管理、應(yīng)聘者投遞簡(jiǎn)歷、簡(jiǎn)歷篩選等模塊。對(duì)管理者而言,篩選簡(jiǎn)歷是最繁重的工作,尤其是競(jìng)爭(zhēng)激勵(lì)的職位,達(dá)到上千人應(yīng)聘。通過(guò)大數(shù)據(jù)、數(shù)據(jù)挖掘等技術(shù)手段,可以明顯地提高簡(jiǎn)歷篩選的效率。

2.1 數(shù)據(jù)源

通過(guò)分析處理簡(jiǎn)歷庫(kù)中的歷史數(shù)據(jù)[6],以決策樹(shù)為手段,可以準(zhǔn)確、高效地篩選簡(jiǎn)歷,本文采集了2017年至2020年每年的招聘系統(tǒng)數(shù)據(jù)。主要數(shù)據(jù)如表1 所示。

表1 招聘系統(tǒng)簡(jiǎn)歷庫(kù)數(shù)據(jù)表Tab.1 Resume database data table of recruitment system

2.2 建立基于Hive的數(shù)據(jù)倉(cāng)庫(kù)

(1)首先,分別啟動(dòng)Hadoop、Hive。

(2)在Hive中創(chuàng)建分區(qū)表[7]。使用Hive查詢(xún),一般會(huì)遍歷整個(gè)表內(nèi)容,當(dāng)數(shù)據(jù)量過(guò)大時(shí),查詢(xún)效率明顯降低。在建表時(shí)引入了分區(qū)(partition)概念。Hive分區(qū)表對(duì)應(yīng)一個(gè)分布式文件(HDFS)系統(tǒng)上的單獨(dú)的文件夾,該文件夾下存儲(chǔ)的是對(duì)應(yīng)分區(qū)所有的數(shù)據(jù)文件。當(dāng)查詢(xún)時(shí),通過(guò)查詢(xún)某些子目錄中的數(shù)據(jù),能加快數(shù)據(jù)的檢索速度和對(duì)數(shù)據(jù)按照一定的規(guī)格和條件進(jìn)行管理。創(chuàng)建分區(qū)表時(shí),要調(diào)用可選參數(shù)partitioned by實(shí)現(xiàn)。

例如:創(chuàng)建基本信息分區(qū)表如下,其他表如同。

create table BasicInformation (

id string comment 'ID',

name string comment '名字',

sex string coment ‘性別’,

……

)

partitioned by (InforDate string comment '按日前分區(qū)')

ROW FORMAT DELIMITED FIELDS TERMINATED BY ','

(3)將招聘系統(tǒng)人才庫(kù)數(shù)據(jù)按照時(shí)間為分區(qū)導(dǎo)入到Hive數(shù)據(jù)倉(cāng)庫(kù)。導(dǎo)入數(shù)據(jù)采用Sqoop工具,該工具是Apache旗下的數(shù)據(jù)傳送工具,它能方便地讓數(shù)據(jù)在Hadoop和關(guān)系數(shù)據(jù)庫(kù)之間傳輸。它主要的功能是導(dǎo)入和導(dǎo)出,如圖1所示[8]。

圖1 Sqoop 處理數(shù)據(jù)過(guò)程圖Fig.1 Sqoop processing data process diagram

Sqoop導(dǎo)入過(guò)程如下:

第一步:將Mysql的表數(shù)據(jù)導(dǎo)入到HDFS;

第二步:根據(jù)Mysql的表自動(dòng)模擬創(chuàng)建Hive表,默認(rèn)情況下存放到default庫(kù)中;

第三步:將臨時(shí)文件中的數(shù)據(jù)導(dǎo)入到Hive表中。

2.3 基于Hive的C4.5算法

每次的招聘信息定期存入數(shù)據(jù)倉(cāng)庫(kù),隨著數(shù)據(jù)的不斷增加,傳統(tǒng)的C4.5算法難以處理[9],可以通過(guò)Hive數(shù)據(jù)倉(cāng)庫(kù)的Select操作,查詢(xún)訓(xùn)練集集合中各屬性的信息增益情況。基于Hive的C4.5算法如下:

輸入:從數(shù)據(jù)倉(cāng)庫(kù)中獲取訓(xùn)練數(shù)據(jù)集D,特征集記做A,閾值計(jì)為ε;

輸出:決策樹(shù)T

步驟1:如果訓(xùn)練集D 中所有實(shí)例屬于同一類(lèi)屬性Ck,則T 為單結(jié)點(diǎn)樹(shù),并將屬性Ck作為該結(jié)點(diǎn)的類(lèi)標(biāo)記,返回T;

步驟2:若A=Φ,則T為單結(jié)點(diǎn)樹(shù),并將D中實(shí)例數(shù)最大的類(lèi)Ck作為該結(jié)點(diǎn)的類(lèi)標(biāo)記,返回T;

步驟3:否則讀取Hive數(shù)據(jù)倉(cāng)庫(kù),統(tǒng)計(jì)屬性信息,計(jì)算特征集A 中各特征對(duì)數(shù)據(jù)集合D 的信息增益率,選擇信息增益率最大的特征Ag;

步驟4:如果Ag的信息增益率小于閾值ε,則置T為單結(jié)點(diǎn)樹(shù),并將D 中實(shí)例數(shù)最大的類(lèi)Ck作為該結(jié)點(diǎn)的類(lèi)標(biāo)記,返回T;

步驟5:否則,分別讀取Hive數(shù)據(jù)倉(cāng)庫(kù)中Ag的每一個(gè)取值A(chǔ)gi對(duì)應(yīng)的類(lèi)別Di統(tǒng)計(jì)信息,每個(gè)類(lèi)別產(chǎn)生一個(gè)子節(jié)點(diǎn),對(duì)應(yīng)特征值是Agi,返回增加了結(jié)點(diǎn)的樹(shù);

步驟6:對(duì)所有的子結(jié)點(diǎn),以Di為訓(xùn)練集,以A-Ag為特征集,遞歸調(diào)用(1)-(5),得到子樹(shù)Ti,返回Ti。

2.4 招聘系統(tǒng)模型設(shè)計(jì)

優(yōu)化后的人才招聘系統(tǒng)主要包括職位發(fā)布、應(yīng)聘者在線投遞簡(jiǎn)歷、建立Hive數(shù)據(jù)倉(cāng)庫(kù)、生成基于Hive的C4.5決策樹(shù),智能簡(jiǎn)歷篩選幾個(gè)核心部分,工作流程模型如圖2所示。

圖2 優(yōu)化后的招聘系統(tǒng)流程圖Fig.2 Flow chart of the optimized recruitment system

職位發(fā)布:主要包括設(shè)置各崗位名稱(chēng)、學(xué)歷、專(zhuān)業(yè)技術(shù)資格、工作經(jīng)歷等模塊。

應(yīng)聘者在線投遞簡(jiǎn)歷:根據(jù)每個(gè)招聘崗位的要求,需要應(yīng)聘者填報(bào)不同的信息,具體信息見(jiàn)數(shù)據(jù)源章節(jié)。

智能簡(jiǎn)歷篩選[10]:以原有招聘系統(tǒng)2017年至2020年的簡(jiǎn)歷數(shù)據(jù)為基礎(chǔ),建立人才數(shù)據(jù)倉(cāng)庫(kù)。首先通過(guò)選取性別、出生日期、籍貫、婚姻、參加工作日期、專(zhuān)業(yè)技術(shù)職務(wù)等級(jí)信息、論文數(shù)等屬性從數(shù)據(jù)倉(cāng)庫(kù)抽取訓(xùn)練集數(shù)據(jù),其中訓(xùn)練集數(shù)據(jù)以是否進(jìn)入筆試為分類(lèi)結(jié)果。從抽取的數(shù)據(jù)中選取總量的80%為訓(xùn)練集,20%為測(cè)試集,從而提高決策樹(shù)的正確率[11]。

3 結(jié)語(yǔ)

原有招聘系統(tǒng)存儲(chǔ)了大量的應(yīng)聘簡(jiǎn)歷,隨著數(shù)據(jù)的不斷積累,通過(guò)單一的數(shù)據(jù)庫(kù)存儲(chǔ)方式難以利用。文章以Hadoop 平臺(tái)的強(qiáng)大數(shù)據(jù)存儲(chǔ)及計(jì)算能力為依托,使用Hive建立數(shù)據(jù)倉(cāng)庫(kù),增強(qiáng)了數(shù)據(jù)分析能力。通過(guò)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的關(guān)鍵信息提取,構(gòu)建人才屬性測(cè)試集,用C4.5算法建立的決策樹(shù)進(jìn)行簡(jiǎn)歷篩選,協(xié)助HR 完成招聘流程,降低時(shí)間成本,節(jié)省招聘支出,提升工作效率。

猜你喜歡
信息系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
WJ-700無(wú)人機(jī)系統(tǒng)
ZC系列無(wú)人機(jī)遙感系統(tǒng)
基于PowerPC+FPGA顯示系統(tǒng)
半沸制皂系統(tǒng)(下)
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會(huì)信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 精品撒尿视频一区二区三区| 国内丰满少妇猛烈精品播| 久久青青草原亚洲av无码| 性视频一区| 国产中文一区二区苍井空| 国内精品小视频在线| 成人无码一区二区三区视频在线观看| 三上悠亚一区二区| 国产高清自拍视频| 中文成人在线| 婷婷六月综合网| 成人91在线| 国产浮力第一页永久地址| 69视频国产| 狂欢视频在线观看不卡| 2019国产在线| 影音先锋亚洲无码| a亚洲天堂| 亚洲精品中文字幕无乱码| 91人妻日韩人妻无码专区精品| 欧美精品v日韩精品v国产精品| 一区二区三区四区精品视频| 亚洲一级毛片| 朝桐光一区二区| 欧美色图第一页| 欧美三级不卡在线观看视频| 亚洲免费黄色网| 精品国产免费人成在线观看| 国产精品女主播| 精品国产香蕉伊思人在线| 欧美自拍另类欧美综合图区| 日韩av无码DVD| 久久精品最新免费国产成人| 欧美一级专区免费大片| 国产人碰人摸人爱免费视频| 亚洲日韩欧美在线观看| 国产福利免费在线观看| 欧美日韩一区二区三| 国产91丝袜在线播放动漫 | 国产美女无遮挡免费视频| 国产精品视频导航| 中文字幕久久波多野结衣| 国产欧美日韩精品综合在线| 天天干伊人| 国产美女免费网站| 亚洲婷婷在线视频| 一级全黄毛片| 国产亚洲欧美日本一二三本道| 71pao成人国产永久免费视频| 国产在线自乱拍播放| 久久这里只有精品2| 欧美精品成人| 国产成人1024精品下载| 亚洲AV免费一区二区三区| 欧美日韩亚洲国产主播第一区| 亚洲自拍另类| 欧美啪啪精品| 激情视频综合网| 亚洲综合极品香蕉久久网| 国模私拍一区二区| 91视频区| 99久久性生片| 18禁影院亚洲专区| 亚洲天堂网2014| 日韩天堂网| 亚洲第一成年免费网站| 在线中文字幕网| AⅤ色综合久久天堂AV色综合| 一本久道久久综合多人| 一区二区午夜| 97影院午夜在线观看视频| 91在线免费公开视频| 久久久久人妻一区精品| 无码专区国产精品第一页| 国产福利2021最新在线观看| 一本色道久久88亚洲综合| 亚洲一级毛片在线观| 性欧美久久| 精品人妻无码中字系列| 欧美成人精品高清在线下载| 欧美精品一区二区三区中文字幕| 国产精品99久久久久久董美香 |