999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺析數據挖掘中決策樹算法的分析與應用

2018-12-08 23:34:06劉文妍付葉薔
新商務周刊 2018年12期
關鍵詞:數據挖掘分析

文/劉文妍 付葉薔

?

淺析數據挖掘中決策樹算法的分析與應用

文/劉文妍 付葉薔

河南大學

數據挖掘近幾年來發展十分迅速,數據挖掘采用的一個重要的方法就是機器學習,就是經過程序積累經驗。機器學習是計算機學與統計學的一個交叉學科,現在好多的數據挖掘作業都需要借助機器學習的算法來完成。隨著數據挖掘近幾年來應用的廣泛程度加大,產生了大量不同類型各種各樣的基本數據挖掘算法。在此文章中,首先簡析一下數據挖掘中的決策樹算法的概念,特性,以及它的軟件實現,其次,再分析一下決策樹算法的有關應用。

數據挖掘;決策樹算法;分析與應用

1 基本概念

1.1 決策樹算法的基本思想

決策樹算法是數據挖掘算法中的一類用于處理分類問題的基本算法。決策樹是一種基本的分類與回歸方法。從名字上就可以看出,決策樹其實就是一個樹形結構。每個分支代表一個值范圍內的此特征屬性的輸出,每個頁面節點存儲一個類型。使用決策樹的基本過程就是從根節點開始,測試要分類的項目中的相應特征屬性,并按照其值選擇輸出分支,直到到達葉子節點,將葉子節點寄存的類別作為決策結果。決策樹的生成算法有很多的變形,如:ID3算法,C4.5算法,隨機森林算法和CART算法。

2 算法特性

2.1 決策樹剪枝

在決策樹的生成過程中,會出現一些影響分枝的一些因素如數據異常以及噪音等。這時,我們就可以通過適當的剪去某一些節點來對這種數據的適應問題作出處理。修剪決策樹一般有兩種策略,先剪枝和后剪枝。望文生義,第一種先剪枝的策略,就是在決策樹的生成過程中,在每一個節點通過某種選擇策略選擇某個屬性劃分數據集,我們計算在劃分后決策樹的測試誤差是否有提升來決定當前節點是否需要劃分其子節點。第二種后剪枝的策略,它就是在生成出一棵完整的決策樹之后,再去剪枝的方法,通過刪除分枝,剪除節點,來實現剪枝操作。

2.2 連續型屬性

決策樹算法一般都是用來處理離散型的數據的,對于處理連續型的數據,其困難程度就加大了。但是它能夠處理連續型的屬性,首先它將連續型屬性離散化,在最大最小值之間設置多個分割點,將連續型的數據分割成不同的取值區間。

2.3 缺失值處理

如果待分類樣本中存在缺失變量,而決策樹決策過程中沒有用到這些變量,那么這個決策過程和沒有缺失的變量的決策過程一樣,并不造成影響;相反的,若是存在缺失變量,則可以采取三種方式進行處理:采用拋棄缺失值,補充缺失值,該綠化缺失值。

2.4 規則集誘導

其實一棵決策樹就是很多規則的集合,每個規則對應著決策樹上一條從根節點到葉子節點的路徑。現將現有的數據分為幾個類別,然后依據決策樹建立規則集,對每一條規則執行一個搜索看看是否存在一些決策條件可以被去除。

3 決策樹算法的一些應用

決策樹算法作為數據挖掘中的一類重要算法,它具有著理解和解釋起來簡單,執行效果好以及執行效率高的特點,從而使它在生活中具有了很大的應用價值。

3.1 決策樹算法在股票領域的應用

選股問題其實就是分析與分類問題,往往人們在選取一只股票時,都會去搜集大量數據進行分析,用以判別這只股票的優劣,是否值得購入。在對股票進行分析選擇時,我們往往會選擇數據挖掘算法中的決策樹算法。究其本質,選股本質是分類問題,選取一只股票要考慮的因素有很多,影響股票價格大因素都應該被考慮到,我們可以加每一個影響因子作為一個指標,這樣就會產生一個多維的指標體系,從大量各種類別的股票中選擇一只合適的股票,從根本上就被歸結為統計分析問題,即可采取決策樹算法進行分析。

3.2 決策樹算法在統計畢業生就業信息中的應用

隨著我國教育的逐漸遍及以及高校招生規模的不斷擴大,我國高校的畢業生人數也在逐年的快速增加,隨之而來的就業難的問題也逐漸顯現。對以往的高校畢業生的就業數據進行整合分析,就可以得到重要的數據,從而為還未畢業的畢業生提供就業的科學指導。大學生的就業,其實就是畢業生與企業之間的一個雙向選擇問題,影響這一選擇結果的因素有很多,比如英語水平,計算機水平和綜合能力等。通過對決策樹中屬性取值的分析,在得到決策影響程度值的基礎上,從決策樹中獲得屬性的取值的“成功就業”與“未成功就業人數”。

3.3 決策樹算法在犯罪預測中的應用

犯罪是公安治安問題中一直待解決的問題,其中有一個重要的觀念就是關注罪犯本身要比關注犯罪有意義的多。犯罪預測是降低犯罪率的有效方法手段,對重點人員進行犯罪預測就成為了新時代警局部門要探索的一項新的難題。在這一新的任務中,數據挖掘就起到了很大的應用。具體應用過程就是通過采集犯案案子中對犯罪人的細致剖析(如年齡,性別,出生地等) ,得到一些有關犯罪人的真實的特征,從得到的這些特征中預判出引發犯罪的動機特征,如犯罪人的家庭是否存在離婚,家庭中是否存在暴力,個性是否存在精神缺陷等,將這些特征映射到分類器中形成隨機森林的每一棵樹,得出用于判斷重點人員犯罪傾向的結果。

4 結語

數據挖掘這門技術,是計算機科學與統計學相結合的一門科學,它旨在通過一定的技術手段來獲取數據之間內在的聯系,進而找出一些數據規律,預測出未來的趨勢走向,從而挖掘出有用的信息。數據挖掘中的決策樹模型常常用以解決分類和回歸的問題。因為它的特性使它在現實生活中有著比較高的應用價值。決策樹算法僅僅只是數據挖掘領域里的冰山一角,數據挖掘又是當前的大數據分析領域的一大熱點,尚且還有許多值得我們去學習和探究的地方。

[1]鞏固,張虹. 決策樹算法中屬性缺失值的研究[J]. 計算機應用與軟件,2008,(09):242-244. [2017-08-03]

[2]曹正鳳.隨機森林算法優化研究[D].首都經濟貿易大學,2014.

[3]方亮.決策樹算法在高校畢業生就業分析中的應用研究[D]. 湖南大學,2013. DOI:10.7666/d.Y2522827.

[4]孫菲菲,曹卓,肖曉雷.基于隨機森林的分類器在犯罪預測中 的應用研究[J].情報雜志,2014,(10):148-152. DOI:10.3969/j.issn.1002 -1965.2014.10.025

劉文妍(1996.7-),女,漢族,河南鞏義人河南大學軟件學院2015級本科生,研究方向:軟件工程。

付葉薔

猜你喜歡
數據挖掘分析
探討人工智能與數據挖掘發展趨勢
隱蔽失效適航要求符合性驗證分析
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
數據挖掘技術在中醫診療數據分析中的應用
電力系統及其自動化發展趨勢分析
一種基于Hadoop的大數據挖掘云服務及應用
中西醫結合治療抑郁癥100例分析
在線教育與MOOC的比較分析
數據挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
主站蜘蛛池模板: 欧美激情首页| 乱码国产乱码精品精在线播放| 91成人免费观看| 日本欧美中文字幕精品亚洲| 91精品国产麻豆国产自产在线| 中文字幕在线看| 日本国产在线| 国产精品视频猛进猛出| 久久久噜噜噜久久中文字幕色伊伊| 女人爽到高潮免费视频大全| 黄片在线永久| av免费在线观看美女叉开腿| 在线无码九区| 精品伊人久久久久7777人| 亚洲天堂视频网站| 91成人在线免费观看| 国产精品夜夜嗨视频免费视频| a级毛片免费播放| 免费中文字幕在在线不卡| 国产麻豆福利av在线播放| 97精品国产高清久久久久蜜芽| 亚洲人成亚洲精品| 99热这里只有免费国产精品| 丁香亚洲综合五月天婷婷| 99国产精品国产| 国产v精品成人免费视频71pao| 亚洲综合中文字幕国产精品欧美| 久久网欧美| 91麻豆精品国产91久久久久| 免费在线不卡视频| 日本不卡在线播放| 欧洲高清无码在线| 国产国拍精品视频免费看| 三区在线视频| 五月天丁香婷婷综合久久| 欧美天天干| 欧美综合激情| 国产视频自拍一区| 日本影院一区| 曰AV在线无码| 九九九国产| 欧美色图久久| 麻豆精品国产自产在线| 国产精品无码一二三视频| 中文字幕久久波多野结衣| 色综合国产| 欧美精品啪啪一区二区三区| 一本二本三本不卡无码| 国产成人亚洲精品蜜芽影院| 97国产成人无码精品久久久| 欧美日韩理论| 精品国产美女福到在线不卡f| 亚洲码在线中文在线观看| 久久中文字幕av不卡一区二区| 91毛片网| 国产精品男人的天堂| 99久久精品国产综合婷婷| 青草国产在线视频| 精品午夜国产福利观看| 青草精品视频| 天天综合色网| 亚洲色成人www在线观看| 美女被躁出白浆视频播放| 日韩欧美中文亚洲高清在线| 99热这里只有精品免费| 日本精品αv中文字幕| 中文字幕在线观看日本| 欧美国产日韩在线播放| 国产95在线 | 国产综合精品日本亚洲777| 第九色区aⅴ天堂久久香| 专干老肥熟女视频网站| 91精品人妻互换| 亚洲成人在线免费| 国产女人爽到高潮的免费视频| 在线播放真实国产乱子伦| 国产精品综合色区在线观看| 超薄丝袜足j国产在线视频| 久久永久免费人妻精品| 日韩第一页在线| 91国内视频在线观看| 五月激情综合网|