999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

樣本均衡與特征選擇在員工離職傾向預測上的應用

2022-07-15 09:54:04吳學亮
智能計算機與應用 2022年7期
關鍵詞:標準化特征方法

吳學亮,婁 莉

(西安石油大學 計算機學院,西安 710000)

0 引 言

近年來,隨著經濟社會的發展,員工流失問題是追求持續增長企業面臨的重大挑戰。這是一個在研究和實踐中都受到廣泛關注的問題。為了留住員工,并利用員工的知識促進公司的成長,人力資源部門利用機器學習算法預測員工是否有離職傾向解決此問題。

在現實生活中,數據普遍呈不平衡分布特征,其帶來的問題也越加明顯。隨著分類問題研究的發展,越來越多的研究者開始研究不平衡數據集的極端不平衡分布特征,不平衡數據集的分類算法也越來越全面。針對上述問題,本文對SMOTE、SMOTETOMEK、ADASYN、SMOTEENN和Borderline-SMOTE 5種樣本均衡方法進行了研究與分析。

在應用機器學習的過程中,樣本數據的特征通常差異很大,其中可能包含不相關的特征或存在緊密依賴的特征。綜上所述,本文的貢獻如下:

(1)提出了基于LightGBM(Light Gradient Boosting Machine)的員工離職傾向預測模型,可根據給出的信息,評估員工是否有離職傾向并給出建議。

(2)實驗過程中,對樣本數據進行了詳細的特征工程,包括:數據標準化、樣本均衡和特征選擇。

(3)利用Data Castle提供的數據集,評估了LightGBM方法。實驗表明,使用樣本均衡和特征選擇后再使用LightGBM方法,優于直接使用LightGBM方法。

1 特征工程

1.1 數據標準化

數據采用不同的度量單位,可能導致不同的數據分析結果。通常,用較小度量單位表示的屬性值,將導致該屬性具有較大的值域,該屬性往往具有較大的影響或“權重”。為了避免數據分析結果對度量單位選擇的依賴性,需要對樣本數據進行標準化或規范化,使之落入較小的共同區間(如:[0,1]或[-1,1])。

對數據進行標準化不僅可以規避數據分析結果對度量單位選擇的依賴性,有效提高結果精度;也可以簡化計算,提升模型的訓練和收斂速度。常用數據標準化(Data Normalization,DN)方法有:最小-最大值標準化、z分數標準化和小數定標標準化。

本文采用z分數標準化,經過處理后的數據符合標準正態分布,即均值為0,標準差為1。轉化函數定義如式(1):

1.2 樣本均衡

在現實生活中,為了更好地理解數據集類不平衡問題,本文從二分類問題的角度進行分析。設:br、、χ分別表示樣本的失衡率、少數類和多數類。一般情況下,如果關注的是少數類的樣本數據且br≤0.2(本文數據集br<0.2),就需要考慮對樣本進行均衡處理,如式(2):

目前,已有多種方法用來克服類不平衡問題。其中,最常用的技術是采樣方法,用于實現從數據集類的不平衡分布到平衡分布。采樣方法可分為兩種:欠采樣和過采樣技術。欠采樣技術是指去除多數類中的少數數據點,而過采樣方法是生成屬于少數類的合成數據點,以獲得所需的平衡比率。本文重點介紹過采樣技術,主要包括:SMOTE、ADASYN、SMOTETOMEK、SMOTEENN、Borderline-SMOTE。

1.3 特征選擇

特征選擇可以消除不相關或冗余的特征,從而減少特征數量,提高模型的準確性,或減少運行時間。此外,選擇具有真實相關特征的簡化模型,可以使研究人員更容易理解數據生成的過程。常見的特征選擇方法可以分為3類:過濾、包裝和嵌入方法。本文在LightGBM算法的基礎上,考慮特征的互補性,對特征進行選擇和剔除。

對于包裝方法,其主要組成部分是搜索策略和學習算法。包裝模型中的搜索策略可以分為全搜索、啟發式搜索和隨機搜索。由于計算成本,完全搜索會耗盡所有可能的子集并找到最佳子集。與完全搜索不同,啟發式搜索策略將會權衡搜索效率的最優性。順序后向選擇(Sequential backward selection,SBS)和順序前向選擇(sequential forward selection,SFS)是兩種最常用的啟發式搜索打包方法。但是,這兩種方法都有一個單調的假設,即添加的特征不能被刪除,并且被刪除的特征不能再次添加,這使其易陷入局部最小值。隨機搜索總是使用進化方法作為其眾所周知的全局搜索能力。與確定性算法相比,進化搜索方法不僅能有效捕捉特征冗余和交互作用,而且不受單調假設條件的限制。進化搜索方法,可以避免陷入局部最優,并且可以找到小部分特征。然而,基于隨機搜索的打包方法存在計算量大的缺點。

遺傳算法(Genetic Algorithm,GA)是受自然進化過程啟發而開發的一種啟發式優化技術,其種群的成員以基因序列的染色體形式表示。在特征選擇問題中,每個基因用0或1來表示,對應問題空間的一個屬性或參數。本文選擇基于LightGBM算法進行員工離職傾向預測,其結果的準確率作為適應度函數評估指標。遺傳算法的基本思想是適者生存理論。每個新種群生成的算法,可通過選擇、交叉和變異等3個主要步驟達到更高的適應度水平。

2 LightGBM算法

2.1 算法原理[8]

LightGBM是在傳統的梯度提升樹(GBDT)上使用直方圖算法(histogram-based algorithm),在一個待分裂的結點上,為每一個特征構建直方圖。具體實現過程是:先對特征值進行分箱處理,然后根據分箱值構造一個直方圖;遍歷結點中的每一個樣本,在直方圖中累積每個的樣本數和樣本梯度之和;當一次數據遍歷完成后,直方圖就累積了需要的統計量。

對于每個特征,根據構建的直方圖,遍歷每一個值從而尋找最優分裂特征及值。同時使用帶深度限制的Leaf-wise葉子生長策略,經過一次數據可以同時分裂同一層的葉子,具有易進行多線程優化、易控制模型復雜度、不易過擬合的特點。

2.2 算法優勢

為了更準確的殘值建模和預測,LightGBM算法在基于直方圖的GBDT算法中引入了基于梯度的單邊采樣(Gradient-based One-Side Sampling,GOSS)和獨占功能捆綁(Exclusive Feature Bundling,EFB)兩種技術。其中,GOSS方法可在小樣本情況下實現高精度預測,可減少計算成本,性能優于隨機抽樣方法且不會損失太多的訓練精度。而EFB可將互斥的特征捆綁在一起解決高維特征的降維問題。

在GBDT算法中,信息增益由方差增益計算獲得。而LightGBM算法采用的是GOSS算法,根據訓練實例的梯度絕對值降序,對訓練實例進行排序,并且生成3個特征子集:、A和。其中,特征子集由前100%的實例與較大的梯度得到,特征子集A由(1-a)×100%組成的實例與較小的梯度得到;特征子集是進一步隨機采樣b×|A|得到。估計方差增益V()定義如式(3):

3 實驗結果與分析

為了驗證5種樣本均衡方法和遺傳算法對數據進行處理的有效性,在配置為Intel Corei7、SSD128 G、HDD 1TB、RAM 24 GB、Windows操作系統的環境中進行了相關實驗。實現代碼工具利用Conda 4.11.0完成;GA種群規模為100,迭代次數是50,交叉率是0.5,變異率是0.4;LightGBM算法參數為默認值。本文實驗使用scikit-learn版本為0.24.1、LightGBM版本為3.3.0。

3.1 數據集描述

本文數據取自Data Castle平臺發布的數據集,從中選取1 100條數據用于實驗。其中,在職記錄922條,離職記錄178條。樣本的失衡率即離職率為:0.161 8。原始數據中有31個條件屬性,1個決策屬性。通過業務選擇過濾了3個條件屬性,利用已有的條件屬性構造出了6個新的條件屬性。

3.2 評價指標

本實驗采用準確率、精確率、召回率和值作為評價指標。準確率()是指對于給定測試數據集,分類器正確分類的樣本數與總樣本數之比;精確率()是預測的正例結果中,確實是正例的比例;召回率()是所有正例的樣本中,被找出的比例;1值是綜合評價指標,1值越接近1,表明模型預測越準確。準確率、精確率、召回率和1值是由混淆矩陣計算得到。分類結果混淆矩陣見表2。準確率、精度率、召回率和值的計算方法如公式(4)公式(7)所示。

表1 分類結果混淆矩陣Tab.1 Confusion matrix of classification results

3.3 模型評估

為了達到驗證的目的,在驗證數據集時使用了分層(10)折交叉驗證。每個數據集被隨機分成折,其中1折為訓練集,剩余的為測試集。分層折交叉驗證是評估建模結果最有效和廣泛使用的驗證和能力評估技術之一。通過分層折交叉驗證獲得了不同樣本均衡算法和是否使用遺傳算法進行特征選擇的最佳評價指標。實驗結果見表2與圖1所示。

圖1 實驗運行結果對比Fig.1 Comparison of experimental results

由表2可知,樣本處理方法為“SMOTEENN+GA”時,效果最好,其準確率達到95.82%、精確率達到97.42%、召回率達到96.28%、值達到96.66%。實踐證明,采用樣本均衡和遺傳算法的特征選擇,可以有效提高模型的性能。

表2 樣本采用不同處理方法性能對比結果 Tab.2 The performance comparison of different processing methods %

4 結束語

本文描述了研究預測員工離職的必要性,并在構建模型時使用了樣本平衡、特征選擇和機器學習算法,強調樣本均衡和特征選擇算法的重要性。模型選用SMOTEENN、遺傳算法和LightGBM的組合,與單獨的LightGBM分類器給出的結果相比,該模型提供了更優越的性能。

猜你喜歡
標準化特征方法
標準化簡述
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
標準化是綜合交通運輸的保障——解讀《交通運輸標準化體系》
中國公路(2017年9期)2017-07-25 13:26:38
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
論汽車維修診斷標準化(上)
交通運輸標準化
主站蜘蛛池模板: 在线人成精品免费视频| 成年女人a毛片免费视频| 无码aaa视频| 97在线观看视频免费| 97精品久久久大香线焦| 国产精品护士| 97精品国产高清久久久久蜜芽| 亚洲国产成人精品青青草原| 美女一级免费毛片| 亚洲首页在线观看| 亚洲国产日韩一区| 精品亚洲国产成人AV| 久久亚洲美女精品国产精品| 黄片一区二区三区| 福利在线免费视频| 欧美国产菊爆免费观看| 中文字幕无码av专区久久| 日本欧美在线观看| 人妻精品久久无码区| 国产91成人| 国产色伊人| 亚洲中文字幕av无码区| 动漫精品中文字幕无码| 日韩精品无码不卡无码| 91精品免费高清在线| 国产在线日本| 亚洲视频二| 中文字幕人成乱码熟女免费| 亚洲国产中文精品va在线播放| 99激情网| 无码综合天天久久综合网| 狠狠五月天中文字幕| 亚洲成人网在线观看| 天天摸天天操免费播放小视频| 天天色天天综合| 欧美一级片在线| 又大又硬又爽免费视频| 五月婷婷中文字幕| 久久狠狠色噜噜狠狠狠狠97视色| 精品国产99久久| 欧美在线网| 91毛片网| 青青热久免费精品视频6| 色婷婷狠狠干| 亚洲综合色婷婷| 亚洲高清中文字幕| 国产亚洲视频中文字幕视频| 亚洲一区二区日韩欧美gif| 免费A∨中文乱码专区| 91精品国产福利| 亚洲综合香蕉| 99精品视频九九精品| 狠狠亚洲婷婷综合色香| 欧美无遮挡国产欧美另类| 久草国产在线观看| 欧美不卡视频在线| 亚洲男人天堂网址| 91精品国产情侣高潮露脸| 99国产在线视频| 国产日韩欧美在线播放| 亚洲乱码精品久久久久..| 91精品国产91久久久久久三级| 亚洲男人的天堂在线观看| 免费看黄片一区二区三区| 亚洲视频免| 欧美激情首页| 中文成人在线视频| 国产交换配偶在线视频| 国产精品私拍在线爆乳| 午夜视频免费一区二区在线看| 三级国产在线观看| 999在线免费视频| 呦女精品网站| 91久久偷偷做嫩草影院电| 91麻豆久久久| 国产精品成人一区二区| 日韩AV无码免费一二三区| 欧美区日韩区| 日韩欧美在线观看| 国产一级毛片网站| 国产精品成人啪精品视频| 成人一级黄色毛片|