張永雄,余丙軍,鄧志虹
(1.廣州工商學院經濟貿易系,廣州 510850;2.華南理工大學計算中心,廣州 510641)
決策樹算法在高校學生就業分析中的應用研究
張永雄1,余丙軍2,鄧志虹1
(1.廣州工商學院經濟貿易系,廣州510850;2.華南理工大學計算中心,廣州510641)
隨著大數據分析技術的快速發展,對于高校就業信息的海量數據,如何有效地利用這些數據,發掘有價值的知識,是目前高校研究的熱點課題。提出一種利用決策樹算法分析就業信息的方法,并通過實例驗證其可行性,為高校決策部門改進教學管理提供有價值的參考方案。
決策樹;信息增益;準確率
2015廣東省青年創新人才類項目(No.2015WQNCX160)
近年來,全球經濟面臨下行壓力,隨著高校招生規模的擴大,會導致畢業生就業形勢不樂觀,畢業生就業方式變得自主化和多元化。如何充分利用過去畢業生的就業信息資源,來挖掘有價值的信息,使得高校相關部門做出正確的決策,是目前高校研究的熱門課題。盡管數據挖掘技術在商業界上的應用取得了顯著的效果,但在教育界上的應用卻比較少。本文利用決策樹算法對電子商務專業畢業生的就業信息進行分析,找出影響畢業生就業的主要因素及其之間的關系,為高校決策部門提供一種數據分析的可行方案。
1.1分類分析的概述
分類就是要把一個事件或對象劃定到給定的類別上。例如,小額貸款公司可以根據收入水平、工作情況和教育程度等信息給客戶進行信用風險的分析,確定客戶的風險等級。分類的過程一般是包含兩個步驟:首先,分析已有的數據,建立一個分類的模型以描述數據屬性與類別之間的對應關系;其次,利用所獲得的分類模型對新數據進行類別預測。
在分類分析過程中,對于分類模型準確率的分析是必不可少的。要使得一個分類模型被認可,那么分類模型的準確率必須要符合規定的要求。
1.2決策樹算法
決策樹是一個類似流程圖的樹形結構[1],決策樹分類方法以樹的形式采用自上而下的方式給出分類規則。決策樹包含兩類節點:內部節點和葉子節點。其中,每個內部節點代表對一個屬性的測試,該屬性是分裂屬性,這是由于根據該屬性的不同取值可以把數據分成不同的部分。
使用決策樹方法一般分為兩個階段:一是決策樹構建;二是決策樹剪枝。決策樹構建是指訓練集得到一個基礎的樹形結構。但是,在決策樹構建的過程中,會有許多由噪聲或異常數據所產生的分枝。因此,決策樹減枝就是識別并消除這些分枝,提高分類的準確性。
本文采用信息增益方法的決策樹。信息論認為:一個信息所表達的信息量取決于它的概率p,并且可以用-log2(p)表示其包含的信息量[2]。
定義1 假設|T|是表示數據集T的記錄總數,f(Ci,T)表示數據集中屬于類別Ci的記錄總數,則:

定義2假設數據集T中的屬性D有k個不同的取值,那么可以把數據集T分為k個子集T1,T2,…,TK,則該屬性D的平均信息量為:

定義3根據屬性D對數據集T的劃分,信息增益為:

構建決策樹的基本過程是[3]:創建一個節點N,如果該節點中的所有樣本均為同一個類別C,那么返回N作為一個葉子節點,并標記為類別C;如果候選集為空,那么返回N作為一個葉子節點并標記為默認類別C_default。從候選屬性集中選擇最優分裂屬性D,把節點N標記為D,然后從候選集中刪除D,對于D中的每一個取值,都要建立測試分枝。遞歸以上過程,直到當前節點所有樣本均為同一類別,或者候選集為空,標記該節點為默認類別,或者某一分枝沒有符合測試條件的樣本,創建一個葉子節點并將其標記為默認類別。
2.1數據采集
高校對每一年的畢業生都有數據的統計,本文在眾多的數據屬性中,選一些用人企業較為關心的屬性作為研究內容。本文選取畢業生中性別、專業綜合成績、英語水平、計算機等級、專業技能等級、社團經驗(含學生會)和畢業生起薪作為研究的數據屬性。在電子商務專業應屆畢業生中隨機選取11名學生的信息作為研究的數據集。
2.2數據清洗和轉換
在采集的數據中,必須對數據進行清洗和轉換。例如,在專業綜合成績里,教務信息系統導出來的數據是學生各門課程的成績,那么需要取其平均成績,80分以上為良好及以上,60到80(不含)為及格。本文研究的是畢業生起薪與各項屬性的關系情況,把畢業生起薪作為類別,分為三類,分別是A1,A2和A3,其中,A1表示少于2000元,A2表示2000(含)到3500元,A3表示3500(含)元以上。所以,經過清洗和轉換后的數據如表1所示。

表1 學生樣本就業信息表
2.3構建決策樹
根據前面的定義可知,首先計算數據集T的平均信息量:

然后,計算每一個決策屬性的期望信息量。如英語水平的期望信息量為:

所以,屬性“英語水平”的信息增益為:
gain(英語水平)=info(T)-info英語水平(T)=0.845351
同理,可算出屬性性別,專業綜合成績,計算機等級,專業技能等級,社團經驗的信息增益分別為
gain(性別)=0.060879;
gain(專業綜合成績)=0.1831498;
gain(計算機等級)=0.0790364;
gain(專業技能等級)=0.1943273;
gain(社團經驗)=0.2426972;
通過比較,可知英語水平的信息增益是最大的,因此,最優分裂屬性為“英語水平”。由于當英語水平為四級時,所有的樣本都屬于同一類別,所以為該分枝創建一個葉子節點,標記為類別“A3”。
接下來,對英語水平為二級B的數據組成的節點進一步選擇分裂屬性,此時需要重新計算數據集的熵。通過遞歸以上步驟,最后生成的決策樹如圖1所示。
2.4規則知識描述
通過圖1可以提取分類規則,從根節點向下到每個葉子節點所進過的路徑都可以提取一條分類規則。提出的規則如下:
(1)IF(英語水平=四級)THEN畢業生起薪=A3(即工資大于或者等于3500元)

圖1 學生樣本的決策樹
(2)IF(英語水平=二級B)AND(社團經驗=有)THEN畢業生起薪=A2(即工資介于2000到3500元之間)
(3)IF(英語水平=二級B)AND(社團經驗=無)AND(專業技能等級=高級)THEN畢業生起薪=A2(即工資介于2000到3500元之間)
(4)IF(英語水平=二級B)AND(社團經驗=無)AND(專業技能等級=中級)THEN畢業生起薪=A2(即工資少于2000元)
從以上規則可知,對于電子商務專業的學生來說,如果英語水平是四級以上的,工資普遍都比較高,其次,企業比較重視學生的社會實踐經驗,接著才是專業技能等級。
本文利用決策樹算法建立了一個簡單的學生就業信息分析模型。該模型能較好地反映出目前企業需要具有哪些技能的電子商務專業學生,為學校及教研室對課程的改革,教學管理的改進都有非常好的參考價值。但是,由于樣本量少,模型并非完全反映出企業的真實人才需要。該模型通過k倍交叉驗證法[4]進行準確率的評估,得到65%的準確率,這個準確度不算理想,也許是樣本量太小或者由其他因素造成。盡管如此,本文給出了一種利用決策樹分析高校學生就業信息的可行方法,為高校相關部分進行教學管理改革提供了有效的參考方案。
[1]Breiman L,Friedman J,Olshen R,et al.Classification and Regression Trees[M].1984,Nibterey,CA:Wadsworth and Brooks.
[2]Quinlan J R.C4.5 Programs for Machine Learning[M].1993:Morgan Kaufmann.
[3]MEHMED K,閃四清等譯.數據挖掘——概念、模型、方法和算法[M].北京:清華大學出版社
[4]毛國君,段立娟,王實.數據挖掘原理與算法[M].北京:清華大學,2007
Decision Tree;Information Gain;Accuracy Rate
Research on the Application of Decision Tree Algorithm in College Students' Employment Analysis
ZHANG Yong-xiong1,YU Bing-jun2,Deng Zhi-hong1
(1.Department of Economy and Trade,Guangzhou College of Technology and Business,Guangzhou 510850;2.Computing Center,South China University of Technology,Guangzhou 510641)
With the rapid development of large data analysis technology,the massive data of employment information for colleges and universities,how to effectively use these data to explore the value of knowledge,which is currently a hot topic of research in Colleges and universities. Puts forward a method of using decision tree to analyze the employment information,and verifies its feasibility through an example,which provides a valuable reference for the improvement of teaching management in Colleges and universities.
1007-1423(2016)29-0061-04
10.3969/j.issn.1007-1423.2016.29.014
張永雄(1982-),男,廣東廣州人,碩士研究生,講師,研究方向為數據分析與云計算余丙軍(1977-),男,湖北黃岡人,碩士研究生,工程師,研究方向為數據分析與云計算鄧志虹(1981-),女,碩士研究生,講師,研究方向為教育科研方法
2016-08-25
2016-10-10