瞿曉理
(蘇州經貿職業技術學院 工商系,江蘇 蘇州 215009)
所謂員工流失,是指企業不愿意而員工個人卻愿意的自愿流出[1]。這種流出方式對企業來講是被動員工流失,特別是我國產業升級轉型期,新生代勞動力的素質不斷提升,員工流失成為企業人力資源管理中最為棘手的問題之一,它將給企業帶來特殊的損失,增加企業的經營成本。據相關統計,一個員工流失給企業帶來的直接經濟損失大致是這個員工在這家企業一年的薪酬所得[2];此外,他們的流失還會間接性地影響企業其他員工的士氣,造成不可估量的無形損失。
所以,員工流失問題一直是近年來管理界研究的重點之一。在我國,自2000 年以來,有大量關于員工流失的研究文獻與報道[3],歸結其研究視點基本集中在以下幾個方面:員工忠誠度、工作滿意度、心理契約、組織承諾、工作倦怠及薪酬激勵制度等;基于這些研究基礎,很多企業也相應調整各類管理制度和優化企業文化,以期望能降低企業員工的流失狀況。
但是,綜合過往企業員工流失原因及對策的研究,也從中發現一些研究疑點。例如,過往研究基本集中于“企業核心員工”群體,但是在當今新經濟“用工荒”形勢下,企業的主要人力成本已從原先的“核心員工”擴展到“一線員工”[4];而過往對企業員工離職傾向的評價指標——員工忠誠度、工作滿意度、心理契約、組織承諾及工作倦怠等,由于“一線員工”的數量龐大和文化素質偏低等原因,在其范圍內實施均存在實際操作的困難。因此,尋求企業“一線員工”流失傾向的預測指標,建立一套與其相對應的“一線員工”流失管控機制,將大大降低企業的人力成本,有利于提高其市場競爭力。
針對上述員工流失問題中的疑點,研究將以H集團零售連鎖門店員工的信息數據為例,探討企業一線員工流失的預測和控制問題。H 集團是一家老牌央企,旗下業務呈多元化經營態勢,其中為公眾較為熟知的為零售連鎖超市業,它是中國最具規模的零售連鎖企業集團之一,旗下員工共計約35 萬名。H 集團擁有較為成熟的企業文化,對員工管理也形成一套較為完善的機制,其員工的平均薪酬水平比市場同行同工種一般要高出15%-20%。但是盡管如此,H 集團零售門店的一線員工流失多年來均要達到15%-20%左右,而在近年來在“用工荒”的經濟大背景下,經濟較為發達的華北、華東及華南區域門店員工流失情況更為凸顯,以2012 年該集團華東區人力資源部統計數據顯示,旗下各區連鎖門店員工流失率均超20%[5]。
數據挖掘(Data mining),又譯為資料探勘、數據采礦。它是數據庫知識發現(Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟[6]。
算法是數據挖掘工具的核心部份,主要算法有:聚類分析、分類分析、統計分析、關聯分析、相關分析、時間序列和值預測等。對于數據挖掘來說,一般最常用的算法就是值預測(比如預測個人收入、客戶貢獻度、股票價格等)、分類算法(比如用于風險評級、產品購買概率預測、客戶流失預測等)以及聚類分析(比如用于客戶分割、內幕交易監測等)[7]。因此,依據分類算法的應用特性,對H 集團門店員工的流失率實施挖掘研究。
研究采用的數據來源于H 集團人力資源部提供的蘇南某市在2013 年1 月-2013 年12 月間所有門店員工信息,共計5 277 名,包括其個人基本信息(姓名、性別、年齡、民族、文化水平、婚姻狀況、政治面貌、家庭住址、國籍、籍貫、所在門店位置等)、員工績效信息(夜班次數、崗位出錯額)、員工薪酬信息(每月的基本工資、津貼補助、工資扣款額及總收入)及其他信息(入職時間、離職時間)。
4.2.1 數據的集成
依據上述信息,將這5 277 位離職員工錄入統計軟件SAS9.3,集成原始數據庫。
4.2.2 數據的歸約
在所有門店員工17 個信息項中,首先通過特征歸約,刪除“姓名”、“國籍”、“民族”、“婚姻狀況”、“政治面貌”這五項無關維度。其次,由于每位員工的在職時間不同,導致他們“績效”和“薪酬”上的信息因時間長短而參差不齊,因此,研究將他們的“績效”和“薪酬”實施平均化,即依據每位員工的每個月的薪酬績效信息和他們的在職時間,計算出“月均績效”、“月均夜班次數”、“月均崗位出錯額”、“月均基本工資”及“月均津貼補助”。再者,由于“入職時間”和“離職時間”均為時點變量,無法參與模型計算,因此研究設置新特征變量“在職時間”,以月為單位。此外,研究發現,“夜班次數”與“津貼補助”呈顯性相關,相關系數r=0.356***;“崗位出錯額”與“工資扣款額”呈顯性相關,相關系數r=0.417***。“每月工資總額”=“月基本工資+津貼補助-工資扣款額”,其中所有門店“月基本工資”區間范圍為(1 370,1 430),浮動率<5%;“工資扣款額”空缺項>30%,且區間范圍為(0,2 500),其中僅一人某月扣款額為2 476 元,扣除此異常點,區間為(0,50),max(0,50)<工資總額的3%。因此,將“夜班次數”、“津貼補助”、“崗位出錯額”、“工資扣款額”、“基本工資”定位冗余維度,以與刪除。最后,利用百度地圖APP 功能,依據“家庭住址”與“門店位置”,計算出每位員工的“上班距離”,以公里為單位。
4.2.3 數據的清理
由于5 277 位門店人員信息相對繁多,個別信息為空缺,在整個數據庫削減過程中,我們將信息空缺項超總信息項20%的人員刪除,其余空缺項,則跟據集合的出現規律來補齊。得到有效數據庫成員信息共有5 066 位,其中選取4 000 位員工為挖掘樣本,1 066 位員工為模型驗證樣本。
4.2.4 數據的轉換
為了便于數據模型的計算,研究將員工的信息特征變量實施屬性值轉換。依據數據分布狀況,對一些連續變量特征的數據實施離散化處理,①年齡(歲):分為“18-30”、“31-40”、“40-50”“50 以上”;②月均工資總額(元):“1 500 以下”、“1 500-2 500”、“2 500 以上”;③在職時間(月):“1 以下”、“2-3”、“4-6”、“6-12”、“12 以上”;④上班距離(公里):“3 以下”、“3-10”、“10 以上”。
綜合上述數據預處理工作,研究工作采集了H集團4 000 名門店員工的“性別、年齡、籍貫、上班距離、月均工資總額及在職時間”等6 項特征為挖掘字段,形成數據樣本集。
研究的數據挖掘采用決策樹C4.5 算法,其核心算法是ID3 算法。ID3 算法中在決策樹各級結點上選擇屬性時,用信息增益(information gain)作為屬性的選擇標準,以使得在每一個非葉結點進行測試時,能獲得關于被測試記錄最大的類別信息。C4.5 算法繼承了ID3 算法的優點,且采用了多重分支技術和剪枝技術對ID3 算法進行了改進,是當前最流行的一種決策樹算法[8]。
依據C4.5 算法,在整個數據挖掘中,我們將X設為H 集團4 000 位門店員工各特征樣本xi的集合;設門店員工每一個特征屬性具有k 個不同的值,又設k 個不同類別的特征項Aj,則Aj(j=1,…,k),其中xij是Aj中的樣本數[9]。因此,研究可以對一個給定的樣本分類所需的期望信息為pi=xij/xi,即不同類別門店員工的流失人數與總人數之比。依據ID3 算法,信息量大小的度量計算為[6,9]:

在這個假設之下,如果由A 劃分成子集的熵值越小,則子集的純度越高,也就意味著該類型員工的流動的可能性越低。在已知的4 000 位門店員工信息中,在2012 年整年間,總流失員工與未流失員工之比為843/3 166,流失員工占樣本總數的21.08%;經計算處理后得到門店員工是否流失的決策樹模型,如圖1 所示。
依據以上決策樹模型,我們得到H 集團門店員工流失概率較高的6 條規律,總結見表1。
研究在數據庫準備之初,就設立了一個與挖掘數據庫不重復的1 066 位H 集團門店員工信息,作為驗證數據庫,對該決策樹模型實施誤差估計。在1 066 位門店員工中,有216 位流失,占20.26%。依照挖掘模型得出的規律,我們分別計算出驗證數據庫6 類特征員工的流失概率,與挖掘數據庫作對比,實施百分數差異檢驗,詳見表2。
這6 條規律流失的員工為679 人,占總員工流失人數的80.54%。

表1 門店員工流失特征規律集合表

表2 “挖掘-驗證”數據庫的員工流失概率比較

圖1 門店員工是否流失的決策樹模型
從兩個數據庫的百分數差異檢驗值u 來看,6條規律及總解釋數均未達到顯著差異水平,擬合水平高于一般數據模型檢驗擬合標準[10],因此,研究的決策模型具備較理想的準確率。
從對H 集團零售連鎖門店員工的數據挖掘結果來看,首先,大部分流失規律還是合乎常理,但是也有個別規律在意料之外,如G6,女性員工工作距離在3-10 公里范圍,月均收入2 500 以上的,在職時間3-6 個月階段的流失率較高。探究其中原因,不難發現,員工的收入差異主要來自與津貼補助,而一線員工每月的津貼補助主要來自于當月值守夜班的次數;如果說,這個員工收入越高,則說明她值守夜班的次數較多;而對于女性來說,工作距離并不是離家很近,值守夜班的次數較多的話,很容易在工作3 個月后出現倦怠感[11],因此離職流失人數比例也會較高。
其次,通過決策樹C4.5 算法挖掘出來的6 條一線員工流失規律,其解釋的流失人數占總流失人數的80%以上,說明通過研究挖掘的員工日常信息,已經較好地能說明大部分流失員工的特征,無需再通過調查“工作滿意度”、“職業倦怠感”等隱形信息來預測員工流失狀況。這可以大大減輕人力資源部工作人員在一線員工流失問題上的工作量,今后,他們只需構建員工特征集G1、G2、G3、G4、G5 和G6,一旦有員工歸屬這些集合,則可標記為“流失率高風險員工”,對他們日常一線員工的招聘、配置及工作量安排等問題都有一定的指導意義。
最后,通過H 集團蘇南某市門店一線員工的樣本數據挖掘案例,對于一些一線員工流失率較高的企業,如生產、服務及零售性行業,提供借鑒經驗,利用當前有效數據的分析結果管控員工的流失狀況,降低企業人力成本。
總而言之,本次研究的過程、方法和結論給人力資源相關工作者帶來較新的工作思路,作為掌握員工大量基本數據信息的人力資源部門,可以進一步利用數據挖掘的其他技術——聚類分析、關聯分析、相關分析、時間序列和神經網絡分析等[12-13],探索和解決企業人力資源管理中的規劃、招聘、績效、薪酬、培訓等相關問題,提高管理質量和效率。
[1]沈新民.新人力資源管理[M].北京:中央編譯出版社,2002.
[2]無優商務網.企業員工流失率分析報告[DB/OL].2011,http://www.5ucom.com/
[3]高福霞,李 婷,李 志.我國企業員工忠誠度研究述評[J].經濟師,2006(1):192-193.
[4]李寶元,王澤強.中國經濟發展方式轉變的歷史契機——關于近年來“民工(技工)荒”現象的勞動經濟學分析[J].天津行政學院學報,2009(3):64-67.
[5]H 集團門店人員(華東區)2013 年度統計報告[R].企業內部資料,2014.
[6]Jiawei Han,Micheline Kamber.數據挖掘:概念與技術[M].范 明,孟小峰,譯.北京:機械工業出版社,2001.
[7]劉君強.數據挖掘技術在企業經營中的應用研究[J].商業經濟與管理,2003(6):27-29.
[8]Rastogi R,Shim K.A decision tree classifier that integrates building and pruning[C]//In Proc.1998 Int.Conf.Very Large Data Bases(VLDB'98),New York:1998.
[9]David Hand Heikki Manila Padhraic Smyth.數據挖掘原理[M].張銀奎,譯.北京:機械工業出版社,2003.
[10]Frank R,Giordano Maurice D,Weir William P Fox.A first course in mathematical modeling(Third Edition)[M].New York:Brooks/Cole,2004.
[11]王 虹,程劍輝,吳 菁.員工流失分析與研究[J].商業經濟與管理,2001(5):36-40.
[12]王 慶,鄭漢超.數據挖掘在人力資源管理中的應用及展望[J].企業活力,2010(4):68-71.
[13]朱近賢.數據挖掘技術在人力資源管理中的應用研究[J].計算機與信息技術,2008(10):7-9.