文/劉文妍 付葉薔
?
淺析數據挖掘中決策樹算法的分析與應用
文/劉文妍 付葉薔
河南大學
數據挖掘近幾年來發展十分迅速,數據挖掘采用的一個重要的方法就是機器學習,就是經過程序積累經驗。機器學習是計算機學與統計學的一個交叉學科,現在好多的數據挖掘作業都需要借助機器學習的算法來完成。隨著數據挖掘近幾年來應用的廣泛程度加大,產生了大量不同類型各種各樣的基本數據挖掘算法。在此文章中,首先簡析一下數據挖掘中的決策樹算法的概念,特性,以及它的軟件實現,其次,再分析一下決策樹算法的有關應用。
數據挖掘;決策樹算法;分析與應用
決策樹算法是數據挖掘算法中的一類用于處理分類問題的基本算法。決策樹是一種基本的分類與回歸方法。從名字上就可以看出,決策樹其實就是一個樹形結構。每個分支代表一個值范圍內的此特征屬性的輸出,每個頁面節點存儲一個類型。使用決策樹的基本過程就是從根節點開始,測試要分類的項目中的相應特征屬性,并按照其值選擇輸出分支,直到到達葉子節點,將葉子節點寄存的類別作為決策結果。決策樹的生成算法有很多的變形,如:ID3算法,C4.5算法,隨機森林算法和CART算法。
在決策樹的生成過程中,會出現一些影響分枝的一些因素如數據異常以及噪音等。這時,我們就可以通過適當的剪去某一些節點來對這種數據的適應問題作出處理。修剪決策樹一般有兩種策略,先剪枝和后剪枝。望文生義,第一種先剪枝的策略,就是在決策樹的生成過程中,在每一個節點通過某種選擇策略選擇某個屬性劃分數據集,我們計算在劃分后決策樹的測試誤差是否有提升來決定當前節點是否需要劃分其子節點。第二種后剪枝的策略,它就是在生成出一棵完整的決策樹之后,再去剪枝的方法,通過刪除分枝,剪除節點,來實現剪枝操作。
決策樹算法一般都是用來處理離散型的數據的,對于處理連續型的數據,其困難程度就加大了。但是它能夠處理連續型的屬性,首先它將連續型屬性離散化,在最大最小值之間設置多個分割點,將連續型的數據分割成不同的取值區間。
如果待分類樣本中存在缺失變量,而決策樹決策過程中沒有用到這些變量,那么這個決策過程和沒有缺失的變量的決策過程一樣,并不造成影響;相反的,若是存在缺失變量,則可以采取三種方式進行處理:采用拋棄缺失值,補充缺失值,該綠化缺失值。
其實一棵決策樹就是很多規則的集合,每個規則對應著決策樹上一條從根節點到葉子節點的路徑。現將現有的數據分為幾個類別,然后依據決策樹建立規則集,對每一條規則執行一個搜索看看是否存在一些決策條件可以被去除。
決策樹算法作為數據挖掘中的一類重要算法,它具有著理解和解釋起來簡單,執行效果好以及執行效率高的特點,從而使它在生活中具有了很大的應用價值。
選股問題其實就是分析與分類問題,往往人們在選取一只股票時,都會去搜集大量數據進行分析,用以判別這只股票的優劣,是否值得購入。在對股票進行分析選擇時,我們往往會選擇數據挖掘算法中的決策樹算法。究其本質,選股本質是分類問題,選取一只股票要考慮的因素有很多,影響股票價格大因素都應該被考慮到,我們可以加每一個影響因子作為一個指標,這樣就會產生一個多維的指標體系,從大量各種類別的股票中選擇一只合適的股票,從根本上就被歸結為統計分析問題,即可采取決策樹算法進行分析。
隨著我國教育的逐漸遍及以及高校招生規模的不斷擴大,我國高校的畢業生人數也在逐年的快速增加,隨之而來的就業難的問題也逐漸顯現。對以往的高校畢業生的就業數據進行整合分析,就可以得到重要的數據,從而為還未畢業的畢業生提供就業的科學指導。大學生的就業,其實就是畢業生與企業之間的一個雙向選擇問題,影響這一選擇結果的因素有很多,比如英語水平,計算機水平和綜合能力等。通過對決策樹中屬性取值的分析,在得到決策影響程度值的基礎上,從決策樹中獲得屬性的取值的“成功就業”與“未成功就業人數”。
犯罪是公安治安問題中一直待解決的問題,其中有一個重要的觀念就是關注罪犯本身要比關注犯罪有意義的多。犯罪預測是降低犯罪率的有效方法手段,對重點人員進行犯罪預測就成為了新時代警局部門要探索的一項新的難題。在這一新的任務中,數據挖掘就起到了很大的應用。具體應用過程就是通過采集犯案案子中對犯罪人的細致剖析(如年齡,性別,出生地等) ,得到一些有關犯罪人的真實的特征,從得到的這些特征中預判出引發犯罪的動機特征,如犯罪人的家庭是否存在離婚,家庭中是否存在暴力,個性是否存在精神缺陷等,將這些特征映射到分類器中形成隨機森林的每一棵樹,得出用于判斷重點人員犯罪傾向的結果。
數據挖掘這門技術,是計算機科學與統計學相結合的一門科學,它旨在通過一定的技術手段來獲取數據之間內在的聯系,進而找出一些數據規律,預測出未來的趨勢走向,從而挖掘出有用的信息。數據挖掘中的決策樹模型常常用以解決分類和回歸的問題。因為它的特性使它在現實生活中有著比較高的應用價值。決策樹算法僅僅只是數據挖掘領域里的冰山一角,數據挖掘又是當前的大數據分析領域的一大熱點,尚且還有許多值得我們去學習和探究的地方。
[1]鞏固,張虹. 決策樹算法中屬性缺失值的研究[J]. 計算機應用與軟件,2008,(09):242-244. [2017-08-03]
[2]曹正鳳.隨機森林算法優化研究[D].首都經濟貿易大學,2014.
[3]方亮.決策樹算法在高校畢業生就業分析中的應用研究[D]. 湖南大學,2013. DOI:10.7666/d.Y2522827.
[4]孫菲菲,曹卓,肖曉雷.基于隨機森林的分類器在犯罪預測中 的應用研究[J].情報雜志,2014,(10):148-152. DOI:10.3969/j.issn.1002 -1965.2014.10.025
劉文妍(1996.7-),女,漢族,河南鞏義人河南大學軟件學院2015級本科生,研究方向:軟件工程。
付葉薔