朱莉萍
(成都文理學院,四川 成都 610000)
招生工作是各大院校的常規(guī)工作也是最重要的工作之一,對于民辦高職院校而言,招生工作更是關乎全校教職工的生計。報考率和報到率是招生人員最為關心的兩個因素,也是衡量一個學校招生管理水平和成效的重要依據。利用數據挖掘技術對招生錄取數據進行挖掘分析,提煉出影響報到率的重要因素,進行報到預測,將挖掘結果用于指導招生宣傳和服務,輔助招生管理決策。
文獻[1]中,作者利用決策樹算法對不同專業(yè)考生的性別進行預測,利用貝葉斯算法預測每個專業(yè)的生源省份,得到的預測結果和實際結果之間的誤差率較低;文獻[2]中,作者用CHAID 算法構建決策樹模型,挖掘出性別同專業(yè)、成績,生源地同專業(yè)等方面的潛在信息。
決策樹是一種使用非常廣泛的分類技術。在分類的過程中,用一棵倒置的樹從根節(jié)點開始由上到下逐漸構建決策的分支。常見的決策樹算法有ID3、CHAID、CART、C4.5 等。為了確保在決策樹的構建過程中每一個決策分支之間的差異最大,ID3 算法將信息增益作為確定劃分的標準,而C4.5算法將信息增益率作為確定劃分的標準。C4.5 算法是在ID3算法的基礎上改進而來的,不僅可以處理離散型數據,也能處理連續(xù)性數據,因此本文考慮利用C4.5 算法對招生數據進行挖掘。下面介紹幾個概念和公式:
(1)信息熵:表示信息的不確定性,公式定義如下:

(2)屬性分裂后信息熵
假設屬性有個離散值,數據集合中的元組被劃分為個子集合D,按照屬性分裂后的信息熵定義為:……p>