彭少芬



【摘 要】 在就業中,有許多因素決定著你最終就業單位的性質。為了能有效的分析就業因素的具體影響,在這里采用決策樹算法,先利用信息熵和各個屬性的信息增益找到劃分點,依次類推直至屬性無法再劃分,在進行分析。
【關鍵詞】 決策樹 ID3算法 信息熵 信息增益
1.前 言
自各大高校對于研究生進行擴招以來,畢業生數量急劇攀升。就業競爭越來越大,就業問題也日益突出,必須解決,否則不僅影響到學生的本身利益,也會影響到經濟和社會的可持續發展,學校一般都建立了學生管理系統,保存有大量的學生就業歷史數據,我們通過分析這些數據,從中找出影響就業的主要因素。從而為各大高校和學生就業培養提供有效建議。
2.決策樹算法
決策樹學習的目的是產生一棵泛化能力強,即處理未知樣本能力強的決策樹。決策樹屬性劃分原則是希望隨著劃分過程的進行,決策樹的分支結點所包含的樣本盡可能屬于同一類別,即結點的純度越來越高。
構造樹的步驟:
訓練樣本的信息值。
第一棵樹,屬性,各葉節點的信息值。
第一棵樹,屬性,導致的信息增益。
依次,計算每棵樹導致的信息增益。
選擇獲得最大信息增益的屬性進行劃分。
以此類推,遞歸,繼續劃分
當所有葉節點都是純的,劃分過程終止
屬性停止劃分條件:
當前結點所包含的樣本屬于同一類,無需劃分。
當前屬性集為空,或所有樣本在所有屬性上取值相同,無法劃分
當前結點包含的樣本集合為空,不能劃分。
3.決策樹算法的實際運用
3.1相關數據及說明
我們找到最能影響就業的主要因素有:專業成績,政治面貌,獎勵情況,社會實踐經驗、科研能力。在這里將就業單位作為決策變量。
就業單位分為企業和事業單位。
專業成績取平均,成績低于60分為差,60-80分為一般,80分以上為優良。
獎勵情況分為三個等級,多(獲得多次科研或學習等相關獎學金),少(獲得少數獎項),無(沒有獲得過任何獎項)。
科研能力分為兩個等級,優秀(發表過多篇文章等),少(發表少量文章等)
社會實踐經驗分為三個等級,多(在外實習次數多等)、少(偶爾在校做小項目),無(無任何實習經驗)。
隨機抽取了某班10個畢業研究生就業信息情況并對數據做了處理得到下表:
3.2訓練樣本的信息值(基于類的劃分)
訓練樣本(用來創建樹的數據集)在包含4個事業單位和6個企業的根節點上,對應于信息熵為:
3.3屬性信息增益值
然后,我們要計算出當前4個屬性的每個屬性的信息增益值,用“專業成績”劃分之后所獲得的三個分支節點的信息熵為:
于是根據公式算出屬性“專業成績”的信息增益為:
類似的,我們可計算出其他三個屬性的信息增益:
顯然,屬性“科研能力”的信息增益最大,于是它被選為劃分屬性,下圖是基于“科研能力”對根節點進行劃分的結果,各分支結點所包含的樣例子集顯示在結點中。
然后,決策樹學習算法將對每個分支結點做進一步劃分,以上圖科研能力少的樣例集合為例,里面有{甲,乙,戊,己,庚,葵}6個樣例,可用屬性集合為{專業成績,獎勵情況,社會實踐經驗}?;诳蒲心芰ι儆嬎愠龈鲗傩缘男畔⒃鲆?。首先算出專業成績的信息增益。
基于科研能力少的專業成績信息熵:
所以可算出基于科研能力少的專業成績信息增益為:
同理,我們可計算出其他屬性基于科研能力少的信息增益。
3.4決策樹的生成
“專業成績”取得了最大的信息增益,可選專業成績作為劃分屬性。類似的,對每個分直節點進行上述操作,最終得到的決策樹如下圖所示。
3.5結論
從上面的決策樹我們可以看出,科研能力優秀的人基本都進了事業單位,因為事業單位比較注重科研能力,專業成績對就業單位也有影響,專業成績差和一般的更多進入企業,社會經驗豐富的學生進企業的多。學生要是畢業后更傾向于進入事業單位,應側重加強專業素養和科研能力的培養,如果要是想到企業發展,應多多側重專業成績,好好學習專業知識,側重社會實踐經驗的培養,學??梢愿鶕W生的傾向制定相應的培養方案,提高就業率。
4.結語
在目前就業形勢嚴峻的環境下,本文提出了基于ID3算法來構造決策樹的方法。實驗表明,該算法所構造的決策樹結構簡單、更加準確使用,而且具有較高的可理解性。具有很好的實際利用價值。為我們作出最終決策和制定有效措施提供了非常有利的參考依據。
【參考文獻】
[1] 安瑞鈺,郝琪,基于ID3決策樹算法的學科競賽參賽學生選拔——以天津農學院數學建模競賽為例[J].信息與電腦(理論版).2019,(11),24-25.
[2] 韓松來,張輝,周華平.基于關聯度函數的決策樹分類算法[J].計算機應用,2005(11):2655-2657.
[3] 王子京,劉毓,決策樹ID3新屬性選擇方法[J].現代電子技術.2018,41(23),9-12.