999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于代價敏感加權(quán)支持向量機的員工離職分類預測

2021-03-01 08:44:40萬毅斌王紹宇秦彥霞
智能計算機與應用 2021年12期
關(guān)鍵詞:分類方法企業(yè)

萬毅斌,王紹宇,秦彥霞

(東華大學 計算機科學與技術(shù)學院,上海 201620)

0 引 言

隨著中國經(jīng)濟的高速發(fā)展,國內(nèi)各類科技公司不斷涌現(xiàn),傳統(tǒng)行業(yè)加速轉(zhuǎn)型,許多省市都出臺了各種各樣的政策來吸引和留住人才,同樣對于企業(yè)來說如何吸引人才和如何留住人才都是對企業(yè)的發(fā)展至關(guān)重要的。企業(yè)員工流失對于企業(yè)而言并不是簡單人員流失,而會對企業(yè)的人事、財務、業(yè)務等多方面造成諸多影響,比如已投入費用的損失,流失員工所負責相關(guān)工作的臨時性中斷,流失員工可能會帶走企業(yè)一些重要客戶或關(guān)鍵技術(shù),從而使企業(yè)承受巨大損失[1]。

隨著員工需求和社會環(huán)境的不斷變化,不同企業(yè)的員工所關(guān)心的點也不盡相同。根據(jù)調(diào)查統(tǒng)計,2020 年國內(nèi)企業(yè)員工離職率為19.8%,其中主動離職率達到了13.4%,相較于過去有明顯的升高。

目前很多企業(yè)在原有員工數(shù)據(jù)庫的基礎上,還通過統(tǒng)計、調(diào)查和問卷等方式建立了可用于預測員工離職傾向的數(shù)據(jù)集,以供人力資源等部門進行預警分類。目前,主流的分類算法,如基于結(jié)構(gòu)風險最小化的SVM 能克服傳統(tǒng)分類器局部最優(yōu)解、過擬合、維數(shù)災難等缺點[2]。但對于企業(yè)員工離職傾向預測、疾病診斷、欺詐檢測等不平衡數(shù)據(jù)集的處理上,SVM在訓練過程中由于自身的原因,以及數(shù)據(jù)集存在的界模糊,噪聲污染等問題,導致對不平衡數(shù)據(jù)集的分類效果不佳[3]。為此,Bagging、Boosting、rotation forest 等一些組合算法提出,來解決分類問題中的數(shù)據(jù)不均衡問題[4];董燕杰等提出的Random-SMOTE 算法對小類樣本進行上采樣以平衡數(shù)據(jù)集,有效地解決了不平衡數(shù)據(jù)集中小類分類困難的問題[5];覃朗提出一種基于信息增益的超立方體頂點采樣SMOTE-SVM 算法,通過優(yōu)化算法對改進后的SMOTE-SVM模型的參數(shù)進行自動尋優(yōu),進而增強了算法參數(shù)設置的合理性,提升了分類性能[6]。

現(xiàn)有方法大多使用SMOTE 算法先對少數(shù)類樣本進行合成,解決不平衡分類問題,但通常SMOTE與SVM 結(jié)合是對少數(shù)類樣本進行處理,沒有結(jié)合SVM 算法本身的特點,從而導致分類效果不夠穩(wěn)定。針對以上缺點,本文提出了一種改進的代價敏感算法,通過對合成的樣本賦予錯分代價,來增加通過SMOTE 算法合成的數(shù)據(jù)集的合理性,減少了可能存在的過擬合風險,提升了對企業(yè)員工不平衡數(shù)據(jù)集的分類效果和穩(wěn)定性。

1 基于SMOTE-SVM 的企業(yè)員工離職分類

1.1 傳統(tǒng)企業(yè)員工離職SVM 分類算法

假設某企業(yè)員工信息數(shù)據(jù)樣本集為{(x1,y1),…,(xi,yi),…,(xn,yn) },i=1,…,n,其中n代表該企業(yè)員工數(shù)量,xi∈Rm,m表示該企業(yè)員工的信息維數(shù),分類標簽yi={-1,+1},其中-1 代表已經(jīng)離職的員工,+1 代表在職員工。本文使用的SVM算法通過在Rn空間上尋找一個使分類邊界最小的實數(shù)函數(shù)g(x)=(WTx+b),從而確定企業(yè)員工是否離職的分類決策平面,使用決策函數(shù)f(x)=sgn(g(x)) 來預測輸入的任意一名新員工x對應的是否可能離職分類類別y。

對于一般的線性可分問題,SVM 通過求解下列二次規(guī)劃問題得到最優(yōu)分類超平面,式(1):

對于這樣的二次規(guī)劃問題,通常轉(zhuǎn)換成與其對應的Lagrange 對偶問題來求解,該問題對應的Lagrange 函數(shù)為式(2):

其中,αi≥0 為Lagrange 乘子。可利用Lagrange對偶方法將式(2)轉(zhuǎn)化為對偶問題,式(3):

求解后可得到分類決策的超平面函數(shù),式(4):

由于企業(yè)員工信息數(shù)據(jù)集的維度較高,分布不均勻,無法通過SVM 對一般的線性可分問題的求解方法尋找分類超平面,因此本文使用核函數(shù)將企業(yè)員工樣本數(shù)據(jù)集映射到高維空間,在高維空間求解分類超平面。通過核函數(shù)不僅無須知道高維變換的顯示公式,還解決了高維數(shù)據(jù)帶來的問題。對于給定的核函數(shù)K(x,y)=φ(x)φ(y),則非線性SVM 的對偶問題可以寫成式(5)形式:

通過上述SVM 算法的分類原理可知,SVM 算法分類的結(jié)果是由分隔超平面所決定,該超平面也就是最終的決策函數(shù),通過兩類樣本中的少量樣本點即支持向量所決定的,所以對于樣本中其他的非支持向量數(shù)據(jù),不會影響SVM 算法的分類性能,算法的復雜性主要取決于支持向量的數(shù)量[7]。因此,傳統(tǒng)SVM 算法一般在數(shù)據(jù)集中正類與負類樣本數(shù)量大致相同的情況下有較好的表現(xiàn),而面對現(xiàn)實應用領域中數(shù)據(jù)集不平衡的特點,由于SVM 算法決策平面偏移程度不足、支持向量分布不均勻等自身特點,其分類性能往往會大打折扣[8]。在企業(yè)員工離職傾向分類問題中,特別是對規(guī)模較大的企業(yè),離職員工數(shù)量一般占員工總數(shù)的比例很小,但對于企業(yè)來說培養(yǎng)一名員工所投入的花費很大,為了避免和預防可能出現(xiàn)員工離職潮,能夠提早發(fā)現(xiàn)員工離職傾向并采取措施是非常重要的。傳統(tǒng)SVM在處理不平衡數(shù)據(jù)分類問題時,分類平面會向少數(shù)類偏移,即將更多的少數(shù)類樣本錯分為多數(shù)類,這樣會導致企業(yè)對員工離職傾向判斷不準確。

1.2 改進的SMOTE-SVM 分類算法

為了解決上述問題,本文引入SMOTE 算法,通過人工合成少數(shù)類樣本,即離職員工的數(shù)據(jù)集,使離職員工數(shù)據(jù)數(shù)量與在職員工數(shù)據(jù)量達到均衡。具體操作是:首先找到離職員工樣本xi的k個鄰近同類樣本,在這k個樣本中隨機選取一個xj,通過公式(6)合成新的樣本:

雖然SMOTE 過采樣方法已被證明在許多不平衡數(shù)據(jù)上表現(xiàn)良好,但是其對分類分布進行了假設。使用SMOTE 算法對數(shù)據(jù)集進行過采樣處理,會使得SVM 算法存在一定的過擬合風險,同時SMOTE算法在合成數(shù)據(jù)的時候,并未考慮噪聲的影響,會導致合成的數(shù)據(jù)增加了原始樣本的噪聲率,最終導致影響SVM 算法的準確性[9]。

2 基于代價敏感加權(quán)的SMOTE-SVM 方法

為減少SMOTE 算法存在的過擬合問題,可通過改進的代價敏感算法對少數(shù)類、多數(shù)類以及合成實例進行不同的加權(quán)處理。改進的SMOTE-SVM的原始優(yōu)化函數(shù),式(7):

其中,權(quán)重因子cmaj、cmin、csyn控制了多數(shù)類、少數(shù)類和合成實例的錯分代價。該方法通過對合成實例和原始的少數(shù)實例進行不同的加權(quán),使得SVM 能夠更加精細地控制分離超平面。

通過(7)式求解,得到的a*來確定新樣本實例anew的類別y,式(8):

算法的主要流程如下:

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)來源

本文所使用的數(shù)據(jù)為某外企2015~2020 年內(nèi)的所有在離職員工數(shù)據(jù)集。該數(shù)據(jù)集包含了5 020條員工的基礎以及相關(guān)信息數(shù)據(jù),包括員工的年齡、性別、職位等級、加班情況、旅游情況和公司滿意度等35 列特征信息,其中已離職員工數(shù)量為434 名,在職員工數(shù)量為4 586 名,離職員工數(shù)量與在職員工數(shù)量的比例為1∶10,符合不平衡數(shù)據(jù)集的特點。

由于上述數(shù)據(jù)集中包含缺失值、噪音以及人工錄入錯誤導致的異常值存在,不利于算法模型的訓練。所以在訓練實驗前,首先要對數(shù)據(jù)集中的臟數(shù)據(jù)進行數(shù)據(jù)清理、集成和規(guī)約,使其能夠達到標準,滿足訓練要求的數(shù)據(jù)集。

本文針對外企員工數(shù)據(jù)集中所存在的數(shù)據(jù)缺失、噪聲及冗余等問題做了數(shù)據(jù)預處理。主要工作包括一是缺失值處理:對缺失率較高,且重要性較低的信息,比如親屬相關(guān)信息等直接刪除變量,再使用隨機插值法對小部分缺失值進行補充;二是冗余數(shù)據(jù)處理:由于企業(yè)員工數(shù)據(jù)信息數(shù)據(jù)集包含較多的屬性信息,其中有部分屬性與模型訓練任務不相關(guān),屬于冗余數(shù)據(jù),使用matlab 的scikit-learn 中的遞歸特征消除算法,由整個數(shù)據(jù)集開始,逐步刪除尚在數(shù)據(jù)集中的最壞屬性。

3.2 評價指標

本文采用基于混淆矩陣的評價方法,見表1。其中TP表示實際是正類且被正確分為正類的樣本的數(shù)目;FN表示實際是正類但被錯誤分為負類的樣本的數(shù)目;FP表示實際是負類但被錯誤分為正類的樣本的數(shù)目;TN表示實際是負類且被正確分為負類的樣本的數(shù)目。

表1 評價混淆矩陣Tab.1 Evaluation confusion matrix

通過表1 可計算出5 種評估標準:

(1)查準率Precision,表示預測正確的正類占總樣本的比例,公式(9):

(2)查全率Recall,表示預測正確正類占所有正類的比例,公式(10):

(3)Overall Accuracy(OA),表示每個樣本所分類的結(jié)果與檢驗數(shù)據(jù)類型一致的概率,公式(11):

(4)F- measure是查全率和查準率的調(diào)和值,是綜合評價指標,公式(12):

(5)G-mean 表示算法在正確正類和負類的平均性能,公式(13):

其中,G-mean 考慮了兩類樣本的分類性能,只有分類平面不發(fā)生偏移,兩類樣本都有較大的查全率,G-mean值才會較大。F-measure考慮了少數(shù)類的查全率和查準率,任何一個值的變化都能影響F的大小,因此能全面反映分類器對少數(shù)類樣本的分類性能。

3.3 實驗結(jié)果及分析

本文采用Matlab 工具中的LibSVM 工具箱在某公司員工信息數(shù)據(jù)集上進行實驗,對比傳統(tǒng)SVM 和SMOTE-SVM 兩種模型,驗證本文方法的有效性。實驗采用RBF核函數(shù),gamma值取1。由于企業(yè)員工信息數(shù)據(jù)中存在缺失和冗余數(shù)據(jù),因此首先對原始數(shù)據(jù)集進行了預處理,然后利用3 種模型進行學習,最后使用G-mean和F-measure衡量各方法的分類精確度,結(jié)果見表2。

表2 SVM、SMOTE-SVM與本文方法比較Tab.2 Comparison between SVM,SMOTE-SVM and our method

從表2 中的3 種方法的比較結(jié)果可以看出,由于未考慮不平衡數(shù)據(jù)集的問題,傳統(tǒng)SVM 算法在三者中表現(xiàn)最差,G- mean和F- measure分別只有83.28%和81.95%;使用SMOTE 算法對少數(shù)類樣本進行新實例合成,多數(shù)類與少數(shù)類樣本數(shù)量基本達到一致,分類精度有了明顯的提升,G- mean和F-measure分別達到了99.08%和89.25%;本文方法對SMOTE-SVM 方法增加了改進的代價敏感算法,對少數(shù)類樣本、多數(shù)類樣本和新合成的樣本進行加權(quán)處理,實驗精度有了進一步的提升。本文方法的G- mean值比SMOTE-SVM 略高,而F- measure值均比SMOTE-SVM 高10%,充分證明了本文方法對企業(yè)員工離職傾向分析的有效性。

4 結(jié)束語

本文以某大型外資企業(yè)為例,針對2015~2018年3 年的員工信息數(shù)據(jù)集,首先對原始數(shù)據(jù)集進行了數(shù)據(jù)預處理,包括缺失值補充,冗余數(shù)據(jù)處理等;針對傳統(tǒng)SVM 分類器在處理不平衡數(shù)據(jù)集時分類超平面會向少數(shù)類偏移的特點,以及使用SMOTE算法對數(shù)據(jù)樣本集進行上采樣后的合成數(shù)據(jù)會對SVM 算法造成過擬合風險的問題,本文提出了一種改進的基于代價敏感算法與SMOTE-SVM算法,該算法通過對少數(shù)類、多數(shù)類以及合成樣本進行加權(quán)處理,提高了SVM 分類器的穩(wěn)定性和準確率。實驗結(jié)果表明論文提出的改進算法,相對于傳統(tǒng)SVM 和SMOTE-SVM 能達到更高的分類預測精度,能對員工離職傾向進行有效地預測,從而能提前采取應對策略來降低員工離職意向和提升企業(yè)競爭力。

猜你喜歡
分類方法企業(yè)
企業(yè)
企業(yè)
企業(yè)
分類算一算
敢為人先的企業(yè)——超惠投不動產(chǎn)
云南畫報(2020年9期)2020-10-27 02:03:26
分類討論求坐標
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 欧美激情视频一区二区三区免费| 欧美在线免费| 亚洲午夜综合网| 欧洲av毛片| www.亚洲色图.com| 国产偷倩视频| 久久公开视频| 欧美劲爆第一页| 国产在线观看一区精品| 青青青国产在线播放| 亚洲热线99精品视频| 91视频精品| 成人精品区| 欧美日韩在线成人| 日本中文字幕久久网站| 国产日本一区二区三区| 久久99久久无码毛片一区二区| 91视频99| 国产簧片免费在线播放| 欧美色亚洲| 在线毛片网站| 亚洲高清中文字幕| 国产亚洲精品97AA片在线播放| 超清无码一区二区三区| 91福利在线看| 永久免费AⅤ无码网站在线观看| 亚洲黄色成人| 人妻一区二区三区无码精品一区| 中文字幕永久在线看| 国内精品久久久久久久久久影视| 亚洲色图综合在线| 成人av手机在线观看| 日本国产精品| 国产h视频在线观看视频| 无码一区中文字幕| 女人天堂av免费| 91青青草视频在线观看的| www.99在线观看| 98超碰在线观看| 国产毛片不卡| 午夜a级毛片| 久久精品国产在热久久2019| 高清大学生毛片一级| 亚洲h视频在线| 国产伦精品一区二区三区视频优播| 粗大猛烈进出高潮视频无码| 亚洲黄网视频| 波多野结衣中文字幕一区| 午夜福利免费视频| jizz国产视频| 免费人成视网站在线不卡| 亚洲一区波多野结衣二区三区| 国产噜噜在线视频观看| 国产免费高清无需播放器| 国内精品视频| 国产精品所毛片视频| 在线欧美a| 被公侵犯人妻少妇一区二区三区| 爆乳熟妇一区二区三区| 无码区日韩专区免费系列| 午夜无码一区二区三区| 99热最新在线| 亚洲一区二区成人| 欧美一道本| 91小视频在线观看| 亚洲国产精品日韩欧美一区| 中国一级特黄大片在线观看| 亚洲欧洲国产成人综合不卡| 美女国产在线| 国产一级视频在线观看网站| 最新亚洲人成网站在线观看| 亚洲精品欧美日韩在线| 国产91av在线| 免费xxxxx在线观看网站| 亚洲高清无码久久久| 欧美色丁香| 亚洲午夜国产精品无卡| 久久精品国产在热久久2019| 国产三级成人| 自拍偷拍欧美| 亚洲精品国产日韩无码AV永久免费网 | 2021最新国产精品网站|