吳朝霞 常慶麗 王 偉
(安陽工學院,河南 安陽 455000)
在習近平總書記提出堅決打贏脫貧攻堅戰后,為響應國家的號召,各個地區開始投入資源,推進扶貧工作的實行。而傳統的扶貧工作存在一些問題,如信息查詢不夠方便、人工采集容易出錯等。因此需要一款針對精準扶貧工作的系統來進行輔助,使扶貧信息管理更加細化,提升扶貧信息管理的效率,滿足扶貧機構的相關工作需求。[1]
為了使系統能夠進行精準識別,可以在高校精準扶貧系統中添加決策樹算法,利用決策樹算法實現趨勢分析、提供輔助決策等功能,并建立相應的信息化支撐體系。
決策樹就是數據結構中的樹,每一個葉子節點都是一種選擇的結果,而每個分叉路代表該特征的具體內容。決策樹算法是根據離散函數值進行分析的方法,是一種分類算法。[2]對數據進行預處理,然后歸納總結出一個可讀的規則和決策樹,根據總結的決策樹對新的數據進行預測分析,推測新數據的決策結果。本質上決策樹就是通過數據特征歸納出的規則對數據進行分類的過程。
預測模型分類結果是決策樹其中一個用途。決策樹中的每個非葉子節點都是根據不同的分類算法在所有的特征中相互比較得出的,從根節點到葉子節點,其中的每一條路徑都是一條分類規則,決策樹就是把這些規則都統計組合在一起,用來進行預測。[3]
本研究采用的是以某高校經濟困難學生數據為模型構建的數據訓練集。訓練集共包含計算機科學與技術400人,獲得補助的有50人,涉及的分類屬性分別是“是否建檔立卡”、“是否最低生活保障學生”、“是否特困救助學生”、“是否孤兒”、“是否事實撫養兒童”、“是否烈士子女”、“是否殘疾學生”、“是否殘疾人子女”(如表1家庭情況調查表所示)。

表1 家庭情況調查表
常用的決策樹實現算法有下述三種。
2.2.1 ID3算法
ID3算法是選出信息增益最小的屬性作為最佳劃分屬性進行劃分,信息增益是用來度量兩種概率分布的差異,其計算公式是g(D,A)=H(D)-H(D|A),其實H(D)是集合D的熵,H(D|A)是給定條件下D的條件熵。[4]熵表示某種結果可能出現的程度:設Y是有限離散隨機變量,其概率為:P(Y=xi)=pi,i=1,2,3…則隨機變量Y的熵例如:一個硬幣拋10次,其中6次正面朝上,4次反面朝上,則硬幣朝上的熵為:[5]
2.2.2 C4.5算法
C4.5算法是對ID3算法進行了改進,如果X是一個連續型隨機變量,此時采用ID3算法就無法計算了,而C4.5
算法把連續型隨機變量用區間表示,這樣就可以使用ID3算法的計算過程進行計算,并在此基礎上計算出信息增益比來進行比較,信息增益比的計算公式:
2.2.3 CART算法
CART算法是選出基尼指數選出最大的屬性作為最佳分裂屬性進行劃分,假設有K種分類,樣本點屬于第k類的概率為pk,基尼指數為如果樣本集合D根據特征被劃分為D1和D2兩部分,此時集合D的基尼指數
由于本研究的數據不存在連續性,因此采用ID3算法進行模型的構建。首先計算集合整體的熵[8]然后計算各個分類的條件熵和信息增益,計算結果如表2特征信息增益表所示。

表2 特征信息增益表
然后選出信息增益最大的作為根節點,根據根節點的特征取值,繼續選出下一節點。[9]直到特征值取完為止,最后生成決策樹,結果如圖1所示。決策者可以利用圖1生成的決策信息對學生進行精準資助。

圖1 生成的決策樹結果圖
本文通過對高校資助學生的基礎數據進行研究,結合機器學習的決策樹算法,經過大量的樣本訓練,最后基于ID3的決策樹算法生成了基于高校精準扶貧的決策樹模型。[10]為高校的扶貧資助工作提供參考,為扶貧工作的量化估計提供了解決方案。