999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

決策樹算法分析與改進

2016-10-08 20:58:15張永昭岳晟劉曉楠
財稅月刊 2016年6期
關鍵詞:改進數據挖掘特點

張永昭 岳晟 劉曉楠

摘 要 ID3、C4.5、CART是三種已經研究發展很多年的經典算法,是從事數據挖掘研究工作基礎模板。三種決策樹模型應用廣泛,原理簡明,各有所長,但缺點同樣明顯。經過深入的學習研究,團隊對三種算法的特點及改進進行了匯總,為進一步的研究做了總結性分析;并運用分析成果對ID3算法進行了改進。

關鍵詞 數據挖掘;決策樹算法;特點;改進;匯總

引言:

近年來,決策樹方法在機器學習、知識發現等領域得到了廣泛應用。數據挖掘作為一種發現大量數據中潛在信息的數據分析方法和技術,已經成為各界關注的熱點。其中,決策樹以其出色的數據分析效率、直觀易懂等特點,倍受青睞。構造決策樹有多種算法,國際上最早的、具有影響力的決策樹是由Quinlan于1986年提出的ID3算法[1],是基于信息熵的決策樹分類算法。ID3算法采用信息熵作為屬性選擇標準,可這個標準易偏向于取值較多的候選屬性。

一、ID3算法優化

1.改進思路

針對ID3算法的缺點④,即信息增益的計算依賴于特征數目較多的特征,而屬性取值最多的屬性并不一定最優,這會導致結果與實際誤差較大。基于上述對ID3算法改進方案的分析,本文提出以下改進思路:

(1)提出子屬性信息熵的概念。假設所有屬性集合為{A1,A2,…,An},對于屬性Ai有子屬性{Ai1,Ai2, …, Aim}。定義Aij的子屬性信息熵為。

(2)引入屬性優先[18]的概念。不同的屬性對決策的影響程度不同,這種影響程度可以在輔助知識的的基礎上事先加以假設,給每個屬性賦予一個權值{w1,w2,…,wn},通過權值,弱化非重要屬性,強化重要屬性。

(3)引入屬性修正信息熵的概念,目的是弱化非重要多值屬性對信息增益的影響。假設所有屬性集合為{A1,A2,…,An},每個屬性發生概率分別是{P1,P2,…,Pn},對于屬性Ai每個子屬性發生的概率為{Pi1,Pi2,…,Pim}。定義屬性Ai的屬性修正信息熵為。

而entropy(Ai)采用ID3中的算法計算。

2.算法步驟

(1)對當前例子集合,計算各個屬性的修正信息熵。

(2)選擇修正信息熵最小的屬性Ai作為根節點。

(3)把在Ai處取值相同的例子歸于同一子集,Ai取幾個值就得幾個子集。

(4)依次對每種取值情況下的子集,遞歸調用建樹算法,即返回(1)。

(5)若子集只含有單個屬性,則分支為葉子節點,判斷其屬性值并標上相應的符號,然后返回調用處。

二、實例分析

針對表1中的數據,用ID3算法求解得圖1所示決策樹。

由表一,對于該例子集合的屬性集合為{天氣,溫度,濕度,風} 。對于“天氣”屬性有子屬性{多云,雨,晴},對于“溫度”屬性有子屬性{高,低,適中},對于“濕度”屬性有子屬性{正常,大},對于“風”屬性有子屬性{無風,中風,大風}。

由經驗我們假定“天氣”的優先權值為0.95,“風”的優先權值為0.35,濕度和溫度的優先權值為0。

計算“天氣”的子屬性的子屬性信息熵:

由ID3算法可知:

由5.1中屬性修正信息熵的定義可得:

同理,,。所以選取“濕度”為根節點。接下來將例子集分成兩個子集:

接下來重復上面步驟,可得決策樹如圖2所示。

通過比較,可以得到以下結論:

(1)優化算法所生成是二叉樹,而ID3算法所生成的是多叉樹,簡化了決策問題處理的復雜度。

(2)引入子屬性信息熵、優先權、屬性修正信息熵的概念,從本例來看,根節點選擇了濕度而沒有選擇屬性值最多的天氣,所以本優化算法確實能克服傳統ID3算法的多值偏向性。

三、結束語

數據挖掘技術是當前數據庫和人工智能領域研究的熱點課題,分類是數據挖掘的一種非常重要的任務。決而策樹算法是一種非常重要的數據挖掘分類算法。本文主要對三種算法的特點及改進進行了匯總。對于ID3算法,目前的改進方向主要集中在解決ID3偏向于選擇取值較多的屬性的不足、解決不能處理連續值的屬性、解決易受噪聲干擾和優化儲存這四個方面。

本文對這三種決策樹算法當前研究情況進行了總結分析,并運用分析結果對經典ID3算法提出了改進方法。通過進行實例分析,了解和熟悉實際應用上的差別,為對決策樹算法進一步的研究作準備。

猜你喜歡
改進數據挖掘特點
探討人工智能與數據挖掘發展趨勢
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
高壓輸配電線路工程施工技術控制之我見
中低壓配網桿塔防撞措施淺析
微信輔助對外漢語口語教學研究
科技視界(2016年21期)2016-10-17 17:18:00
論離婚損害賠償制度的不足與完善
商(2016年27期)2016-10-17 06:57:20
高校安全隱患與安全設施改進研究
商(2016年27期)2016-10-17 05:02:12
從語用學角度看英語口語交際活動的特點
考試周刊(2016年76期)2016-10-09 09:16:03
“慕課”教學的“八年之癢”
大學教育(2016年9期)2016-10-09 08:09:53
淺析秦二廠設計基準洪水位提升對聯合泵房的影響
科技視界(2016年20期)2016-09-29 13:36:14
主站蜘蛛池模板: 欧美日韩一区二区在线播放| 国产欧美一区二区三区视频在线观看| 亚洲国产中文精品va在线播放| 亚洲无码精品在线播放 | 亚洲久悠悠色悠在线播放| 天堂在线亚洲| 3344在线观看无码| 午夜成人在线视频| 亚洲天堂自拍| 国产va在线观看免费| www中文字幕在线观看| 精品国产一区二区三区在线观看 | 欧美另类一区| 欧美久久网| 少妇人妻无码首页| 日本一区二区三区精品视频| 成人福利在线观看| 青青草国产免费国产| 午夜综合网| 欧美日韩精品一区二区视频| 自慰高潮喷白浆在线观看| 91成人免费观看| 亚洲精品黄| 国产精品视频白浆免费视频| 一区二区三区国产| 亚洲第一成年人网站| 免费在线视频a| 在线人成精品免费视频| 日本精品中文字幕在线不卡| 国产欧美视频在线| 久久香蕉国产线看观看式| 亚洲无码熟妇人妻AV在线| 欧美一区二区三区欧美日韩亚洲 | 国产精彩视频在线观看| 久久综合丝袜长腿丝袜| 2020精品极品国产色在线观看| 国产91蝌蚪窝| 亚洲精品第五页| 欧美日韩亚洲国产主播第一区| 亚洲精品你懂的| 欧美有码在线| 亚洲男女在线| 91福利国产成人精品导航| 国产网站免费观看| 亚洲区第一页| 全裸无码专区| 亚洲综合激情另类专区| 一本大道香蕉久中文在线播放 | 欧美特黄一免在线观看| 国产精品对白刺激| 欧美v在线| 国产成人精品免费视频大全五级| 91精品国产一区自在线拍| 国产成人91精品| 99久久国产综合精品2020| 在线色国产| 97成人在线观看| 日本少妇又色又爽又高潮| 久久午夜夜伦鲁鲁片无码免费| 久久网综合| 亚洲人成亚洲精品| 暴力调教一区二区三区| 成人国产免费| 亚洲国产精品VA在线看黑人| 国产一区二区三区免费观看 | 久久这里只有精品66| 国产成人精品2021欧美日韩| 国产亚洲视频播放9000| 亚洲高清在线天堂精品| 国产凹凸视频在线观看| 四虎永久在线视频| 国产欧美日韩专区发布| 91麻豆精品视频| 国产自产视频一区二区三区| 亚洲水蜜桃久久综合网站| 亚洲精品自拍区在线观看| 中文字幕有乳无码| 综合久久五月天| 国产69精品久久久久孕妇大杂乱 | 色综合狠狠操| 欧美日韩在线第一页| av色爱 天堂网|