999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

數據挖掘在員工網絡招聘中的應用研究

2010-12-31 00:00:00胡東波肖丹萍
商場現代化 2010年14期

[摘 要] 本文首先對簡歷原始數據進行預處理,然后采用數據挖掘技術中的決策樹算法和神經網絡算法,在Clementine軟件中對處理后的數據進行挖掘,以提取被企業接收面試的簡歷的共同特征,為日后的網絡簡歷處理提供一定的依據。此外,本文對數據挖掘算法的優劣性與挖掘準確性進行了比較。

[ 關鍵詞 ] 招聘 人力資源管理 數據挖掘 決策樹 神經網絡

一、引言

隨著計算機和網絡的迅速發展和普及,網絡招聘正日益成為用人單位招聘人才的一種重要方式,招聘者們越來越

希望通過計算機技術協助人力資源管理來處理電子簡歷的評價及篩選,提升整個人力資源管理的效率。數據挖掘技術,是解決這一問題的較好方法。

本文將數據挖掘技術運用于網絡電子簡歷的篩選,并比較了決策樹與神經網絡兩種算法的優劣。

二、網絡簡歷樣本的獲取與預處理

1.簡歷樣本的獲取

本文從某人才招聘網站數據庫獲得簡歷數據,選取十個熱門的崗位(會計、銷售工程師、衛生醫療、紡織服裝設計、司機、建筑/結構工程師管理人員、美術/圖形設計、市場經理、行政/人事人員),每個崗位中抽取50個招聘職位,每個職位抽取20份簡歷信息,每一份簡歷及其相應的招聘職位要求構成一個樣本。其中10份為企業通過招聘網站發出面試通知的簡歷(簡稱A類樣本),另外10份為沒有被企業通知面試的簡歷(簡稱B類樣本)。

2.簡歷樣本的預處理

考慮到本研究的挖掘目的,本文選取了以下幾個應聘者的屬性與招聘公司的需求進行匹配,在對數據進行處理后,再應用到數據挖掘工作中。所選擇的屬性都需要將招聘企業的要求和應聘者的信息相匹配,再進行數據的處理。選擇的輸入屬性是:性別、年齡、籍貫、學歷、婚姻狀況、工作年限、政治面貌、畢業院校、計算機水平、專業、工作經驗,輸出屬性是:是否被接受面試。

由于原始數據庫中的數據存在著各種各樣現實中不可避免的缺陷,下面將根據所選擇的屬性分別詳述對簡歷數據所進行的預處理。

(1)性別(R_Sex):不需要復雜的處理。

(2)年齡(R_Age):本文將應聘者劃分為三個年齡段:a.小于或等于三十歲;b.三十到五十歲;c.五十歲以上,修改后的數據變為“<=30”、 “30-50”和“>=50”。

(3)婚姻狀況(R_Married):婚姻狀況僅僅分為已婚和單身,因此將數據修改前的FALSE改為單身,TRUE改為已婚。

(4)籍貫(R_Place):本文在預處理中,將籍貫與招聘單位所在省份一致的應聘者籍貫取1,其余的為0。

(5)工作年限(R_WorkYear):本文將應聘者按照工作年限的長短來劃分,修改后數據分別變為“<=5”、“5-10”和“>=10”。

(6)學歷(R_Education):大致分為博士后、博士、碩士、本科、大專、高中/中專六類,通過觀察發現這一屬性中存在一些空缺值,因此對這一屬性的處理僅僅是把空缺值清除。

(7)政治面貌(R_Political):本文將是黨員的不做修改,將其他表述一概改為其他。

(8)畢業院校(R_School):本文將應聘者的學校分為五類,并收集了大學的排名和院校名稱,211重點大學取為1,一般重點大學為2,一般本科院校為3,其他專科和民辦院校為4,海外大學為0。

(9)專業(R_Specialty):本文將企業對專業的要求提取出來與應聘者簡歷中的信息做對比,若兩者專業相符合則改為符合,否則改為不符合。

(10)計算機水平(R_ComputerGrade):本研究將初級程序員用等級1代替,中級用2,高級用3,其余的為0。

(11)工作經驗(R_Experience):本文提取了招聘者要求中的一些關鍵字眼與應聘者簡歷中的描述來做對比,將應聘者的經驗劃分為三類:有相關經驗、有實習經驗、無相關經驗。

(12)接受(Accept):接受與否屬性是數據挖掘中唯一的輸出屬性,A類樣本取作為接受,B類樣本取為拒絕。

三、簡歷篩選的分類算法

本文主要選取了C5.0決策樹算法和神經網絡算法在數據挖掘軟件Clementine中對預處理后的簡歷樣本數據進行分類挖掘。

1. C5.0決策樹算法

構造決策樹的目的是找出屬性和類別間的關系,用它來預測將來未知記錄的類別。本文分別抽取了幾個崗位中的部分預處理后的數據作為數據挖掘的數據測試集,為決策樹算法在招聘簡歷中的數據挖掘應用做進一步的驗證和解釋。

首先在Clementine中建立Excel來源節點,導入數據,對其進行讀取和處理,使其符合Clementine中的挖掘要求,將數值類型改為讀取,在方向列確定輸入輸出屬性。

C5.0算法能產生決策樹或規則集,并且在決策樹的產生過程中它能自動根據最大信息增益進行樣本拆分,一直到樣本子集不能再拆分為止。因此本文選擇C5.0算法來產生規則集,C5.0能支持基于準確性的規則和基于普遍性的規則,基于普遍性的規則會考慮盡可能大的樣本量,而基于準確性的規則則更傾向于規則的準確率。如對財務管理職位進行挖掘,可得到如下分類規則:

(1) 基于準確性的十二個拒絕規則:

規則一:如果Sex=女;并且Education=本科;且School=3;且ComputerGrade<=1;且Experience=無相關經驗;則拒絕。樣本數:19,準確性:95.2%。

規則二:若Sex=男;且WorkYear<=5;且Political=黨員;并且School>2;且Experience=無相關經驗;則拒絕。樣本數:16,準確性:88.9%。

規則三:如果Education=高中/中專;并且CompurerGrade<=1;則拒絕。樣本數:45,準確性:87.2%。

規則四:如果Sex=男;且WorkYear<=5;且Education=本科;并且School>2;并且ComputerGrade<=2;并且Experience=無相關經驗;則拒絕。樣本數:13,準確性:86.7%。

規則五:如果Education=高中/中專;并且Specialty=不符合;則拒絕。樣本數:27,準確性:86.2%。

規則六:如果School<=2;并且Specialty=不符合;并且Experience=無相關經驗;則拒絕。樣本數:16,準確性:83.3%。

規則七:如果Education=大專;并且Specialty=不符合;并且ComputerGrade>1;則拒絕。樣本數:45,準確性:83%。

規則八:如果Education=高中/中專;并且Experience=無相關經驗;則拒絕。樣本數:63,準確性:80%。

規則九:若Sex=女;并且Age<=30;并且Place=不符合;并且School=3;并且ComputerGrade<=2;并且Experience=無相關經驗;則拒絕。樣本數:35,準確性:75.7%。

規則十:如果Education=初中;則拒絕。樣本數:12,準確性:75%。

規則十一:如果Education=大專;并且School>2;并且Experience=無相關經驗;則拒絕。樣本數:35,準確性:75.7%。樣本數:212,準確性:70.6%。

規則十二:如果Place=符合;并且Education=大專;并且School>3;并且ComputerGrader>1;則拒絕。樣本數:68,準確性:68.6%。

(2) 基于準確性的四個接受規則

規則一:如果Married=單身;并且WorkYear=5-10;并且Education=本科;則接受。樣本數:8,準確性:90%。

規則二:如果School<=3;并且Experience=有相關經驗;則接受。樣本數:112,準確性:76.3%。

規則三:如果Education=大專;并且School>3;并且Computergrade=1;并且Experience=有相關經驗;則接受。樣本數:56,準確性:72.4%。

規則四:如果Specialty=符合;則接受。樣本數:566,準確性:50.2%。

(3) 基于普遍性的兩個接受規則

規則一:如果R_School<=2;并且R_Speciality=符合;則接受。樣本數:69,準確性:80.3%。

規則二:如果Experience=有相關經驗;則接受。樣本數:270,準確性:62.5%。

(4) 基于普遍性的四個拒絕規則

規則一:如果R_School<=2;并且R_Speciality=不符合;并且Experience=無相關經驗;則拒絕。樣本數:16,準確性:83.3%。

規則二:如果Education=高中/中專;則拒絕。樣本數:103,準確性:74.3%。

規則三:如果R_School>2;并且Experience=無相關經驗;則拒絕。樣本數:372,準確性:69.5%。

規則四:如果R_Political=其他;并且R_School>3;并且ComputerGrade>1;則拒絕。樣本數:201,準確性:64.7%。

2. 神經網絡算法

相對于決策樹來說,神經網絡算法需要更多的時間,而且對結果的解釋也相對較困難,而且神經網絡模型只包含一組權值,了解其中的關系和為什么有效也比較困難。

將數據導入Clementine中并與神經網絡模型相連接,其方法與決策樹算法中一樣。考慮到時間和準確性的關系,本文選擇了修剪方法。另外,為了預防訓練過度,本文選擇了樣本的50%至60%進行訓練。

本文希望數據訓練的準確性盡量高一些,因此,在模型選擇中選擇使用最佳網絡。節點訓練結束后將會產生一個神經網絡模型。神經網絡算法挖掘的準確性在84%左右。

3. 兩種分類算法的比較

分類算法的分類質量一般可以用查全率和查準率來評價。

決策樹算法和神經網絡算法分別對A、B類樣本中部分數據集1、2的挖掘情況比較如下所示:

(1)決策樹和神經網絡算法對數據集1的挖掘結果比較:

決策樹算法

測試樣本數:356,訓練樣本數:713,查準率:79.8%,查全率:75.1%,F1測試值:0.77,用時:1秒。

神經網絡算法

測試樣本數:428,訓練樣本數:713,查準率:83.95%,查全率:80.59%,F1測試值:0.82,用時:5分9秒。

(2)決策樹和神經網絡算法對數據集2的挖掘結果比較:

決策樹算法

測試樣本數:500,訓練樣本數:1000,查準率:81.02%,查全率:79.2%,F1測試值:0.80,用時:1秒。

神經網絡算法

測試樣本數:600,訓練樣本數:1000,查準率:84.56%,查全率:82.34%,F1測試值:0.83,用時:1分33秒。

從上文中我們可以知道,決策樹算法的原理相對容易為人力資源管理者所理解,也能夠得到比神經網絡算法更加直觀易懂的分類規則。決策樹算法計算速度較快,用時較少,神經網絡算法花費時間較長。但神經網絡算法比決策樹算法有更高的整體查準率和查全率,同時F1測試值反映出來的分類質量的二者比較中可見,神經網絡算法比決策樹算法分類質量要高一些。

四、結束語

本文主要研究了數據挖掘技術在電子簡歷數據篩選中的應用,得到了一些有用的結論,但還存在一些不足。

(1)在挖掘過程中,由于時間精力有限,所以本文只選擇了決策樹和神經網絡兩種算法進行挖掘比對,沒有考慮其他算法。

(2)本文在對原始數據進行預處理時,其中涉及到對文本數據的預處理,如工作經驗以及專業,本文只是簡單的進行替換處理。

參考文獻:

[1]趙蘇星:數據挖掘技術在人力資源管理中的應用[J].管理科學,2007,91.

[2]陳小穎:人力資源管理系統中數據挖掘技術的應用[D].武漢:武漢理工大學,2006.

[3]楊麗華,戴齊,楊占華:文本分類技術研究[J].軟件時空,2006,209-211.

[4] 謝邦昌.數據挖掘Clementine應用實務[M].北京:機械工業出版社,2008.

主站蜘蛛池模板: 欧美成人亚洲综合精品欧美激情 | 久久永久免费人妻精品| 日韩在线网址| 夜色爽爽影院18禁妓女影院| 国产一级在线观看www色| 国产成人AV综合久久| 99在线小视频| 国产a v无码专区亚洲av| 国产欧美精品午夜在线播放| 在线色综合| 自拍偷拍一区| 日本免费a视频| 亚洲中文字幕在线精品一区| 日韩视频免费| 茄子视频毛片免费观看| 欧美一区二区精品久久久| jizz在线观看| 亚洲国产高清精品线久久| 美女毛片在线| 欧美一区二区三区不卡免费| 又粗又硬又大又爽免费视频播放| 一级毛片在线播放免费| 91青青草视频| 国产精品第一区| 色综合成人| 国产一级毛片高清完整视频版| 亚洲欧美自拍一区| 亚洲欧美成aⅴ人在线观看| 97久久超碰极品视觉盛宴| 波多野结衣视频一区二区 | 亚洲欧美日韩视频一区| 国产女人水多毛片18| 无码在线激情片| 国产一区二区免费播放| 久久亚洲中文字幕精品一区| 久久久亚洲色| 亚洲天堂精品在线观看| 99青青青精品视频在线| 久久窝窝国产精品午夜看片| 尤物亚洲最大AV无码网站| 亚洲免费福利视频| 国产一级裸网站| 91视频青青草| 91在线中文| 中文字幕在线欧美| 欧美日本在线播放| 亚洲日本在线免费观看| 亚洲男人天堂2018| 亚洲欧美在线看片AI| 国产日韩欧美成人| 久久中文字幕不卡一二区| 99热这里只有精品免费| 久久久精品国产SM调教网站| 人妻一区二区三区无码精品一区| 久久婷婷国产综合尤物精品| 一区二区三区在线不卡免费| 亚洲精品制服丝袜二区| 日韩经典精品无码一区二区| 国产成人做受免费视频| 国产麻豆永久视频| 老色鬼欧美精品| 熟妇丰满人妻| 国产AV无码专区亚洲精品网站| 日韩123欧美字幕| 日韩精品无码不卡无码| 超薄丝袜足j国产在线视频| 丁香婷婷在线视频| 99在线观看精品视频| 精品国产黑色丝袜高跟鞋| 国产丰满大乳无码免费播放| 狠狠五月天中文字幕| 精品久久国产综合精麻豆| 波多野结衣一区二区三区AV| 国产欧美在线观看视频| 亚洲啪啪网| 丰满少妇αⅴ无码区| 国产欧美日韩综合一区在线播放| 日韩美女福利视频| 无码专区国产精品第一页| 日本a∨在线观看| 亚洲系列无码专区偷窥无码| 久久黄色视频影|