999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種改進的ID3決策算法及其應用?

2019-12-27 06:31:26圣文順孫艷文
計算機與數字工程 2019年12期
關鍵詞:信息

圣文順 孫艷文

(南京工業大學浦江學院 南京 211222)

1 引言

決策樹分類方法是一種有效的實例學習[1]和數據挖掘[2]方法,當前最有效的決策樹分類算法是Quinlan在1986年提出的ID3算法,其中決策樹以自頂向下遞歸的分治方式構造[3]。ID3算法的思想是將所有實例(或者數據庫中的數據)作為決策樹的根節點,按照信息論方法中熵[4]的概念來度量各項屬性的信息度,以此作為選擇屬性的依據,根據屬性值對樹根進行分裂,建立分支節點;然后將每個分支節點分別作為根節點,重復進行“選擇屬性——分裂樹”的操作,直到最后的分支節點僅包含正例或者反例,構建成一棵完整的決策樹[5]。

2 ID3算法理論

對于有大量實例數據的歸納學習,常采用ID3算法。實例數據[6]一般都是混亂無序的,歸納學習[7]的目的就是從無序的數據中找出內在蘊涵的規律。實例數據一般都基于屬性理論,這樣就允許使用信息論方法來測試特定屬性值從而進行分類。ID3算法的核心思想是將Shannon的信息論方法[8]引入到屬性選擇中。ID3算法通過把每個屬性當作當前子樹的根節點來度量信息增益[9]。

Shannon的信息論方法提供了度量一條信息的信息量的數學基礎。將一條信息看成是可能信息空間的一個實例;傳播信息的動作就相當于從可能的信息中挑選出一個。從這個觀點來看,定義一條信息的信息含量依賴于這個空間的大小、每個可能的信息的出現頻率。對于實例學習,可將每一實例的屬性看作一條信息,屬性的選擇即可從屬性的信息量出發,優先選擇信息量高的屬性生成決策樹。

ID3算法中信息論方法形式化如下:設作為訓練集的實例數據集合為X,ID3學習的過程是將該實例數據集合根據某一屬性A的屬性值分為n類,記為{c1,c2,…,cn},第i類的實例數據的個數計為|Xi|,—個實例數據屬于第i類的概率為p(Xi|A=ai),則有:

概率p(Xi|A=ai)即為屬性A的屬性值等于ai的概率。給定屬性取值空間和每一屬性值出現的概率,那么可定義該屬性值的信息含量數學期望值:

對于實例集X,最終會將其分為n類,設為{c1,c2,…,cn} ,則有決策樹劃分X的信息量為

選擇屬性A后,對劃分出的每個子集,可得:

根據信息論方法,在當前樹的根節點做測試所提供的信息增益與樹的總的信息量減去測試完成后完成分類索溪的信息量相等,則有:

式(5)即為屬性A的信息增益,信息增益越大,說明選擇該屬性進行決策樹的劃分帶來的不確定性越小,越能快速的構建好決策樹。ID3算法基采用Gain(A)[10]作為選擇測試屬性的依據生成決策樹。

3 ID3算法改進

由ID3算法可知,信息增益最大要求I[X]值盡量大。研究表明,采用加權和計算[11]的選擇方式往往傾向于選擇取值較多的屬性,而拋棄取值少的屬性。然而在實際中,取值多的屬性并不一定是主要屬性,取值少的屬性不一定是非主要屬性,這種屬性稱為噪聲[12]。現提出對ID3算法進行改進——對每項屬性的權重加以修正,在選擇測試屬性時,不再以屬性的取值多少作為主要依據。

設修正權值[13]為a,取值區間為[0,1],該權值由用戶根據先驗知識確定。先驗知識[14]是指先于經驗的知識,具體包括領域知識和專家建議。先驗知識調節其對分類的信息量,提高分類的準確性,應用到決策樹學習中,除了用于生成和修改決策樹的實例集之外,還包括所有影響決策樹規則生成和選擇的因素。先驗知識是一個模糊概念,可使用模糊集概念[15]來輔助確定。

改進的ID3算法主要步驟如下:在式(4)中加入α,可得:

相應的增益為

改進的算法使用式(6)和式(7)來代替原式生成決策樹。

4 算法驗證

本文通過分析HR選擇就職人員的記錄,應用改進后的ID3算法生成符合就職的決策規則。示例樣本數據見表1。

表1 樣本數據

對于覆蓋所有歷史樣本數據的樹的信息含量為

假設選擇歷史樣本數據的屬性“專業”作為決策樹的根節點,可將歷史樣本數據分為C1={1,14}、C2={2,4,5,8,10,11,13,15}和 C3={3,6,7,9,12},分別對應“專業”屬性取值為“國際貿易”、“通信與信息系統”和“計算機科學與技術”的取值分類。根據先驗知識,對性別、年齡、學歷、專業分別設修正權值為0.3、0.2、0.1、0。完成樹所需的信息量數學期望為

即選擇專業屬性測試的信息增益為0.304。

類似可得:

對應所得的決策樹為

圖1 決策樹

5 結語

上述算法示例表明,在原有ID3算法中加入屬性修正權值,同樣能夠生成決策樹,且具有可行性。加入修正權之后,ID3決策樹的生成不再僅僅依賴于屬性的信息量,先驗知識也能夠對決策樹的生成起到影響,可以對算法中噪聲的產生起到抑制作用。

先驗知識的獲得和表示是該改進算法的重要部分,如何確定屬性修訂權值直接影響了改進算法的效果。先驗知識的處理屬于模糊集合問題,可用粗糙集概念[16]對其進行形式化描述,已有不少學者在這方面進行深入研究,這也是下一步研究工作的重點。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 中文字幕亚洲精品2页| 国产又粗又猛又爽视频| 午夜视频在线观看免费网站 | 中文字幕日韩欧美| 国产午夜不卡| 国产第八页| av一区二区无码在线| 色婷婷电影网| 999精品色在线观看| 久久综合干| 国产亚洲精品无码专| 国产99免费视频| 国产va欧美va在线观看| 亚洲美女视频一区| 自慰高潮喷白浆在线观看| 国产三级成人| 中文字幕久久波多野结衣| 2021精品国产自在现线看| 国产精品久久自在自2021| 99久视频| 久草美女视频| 国产av剧情无码精品色午夜| 99热这里只有精品免费国产| 久久国语对白| 亚洲狠狠婷婷综合久久久久| 成人在线视频一区| 久久国语对白| 狠狠色狠狠综合久久| 一区二区无码在线视频| 午夜免费小视频| 欧美在线精品一区二区三区| 91久久国产成人免费观看| 国产靠逼视频| 成人午夜天| 日本精品视频| 热九九精品| 99激情网| 久久精品这里只有国产中文精品| 国产精品区视频中文字幕| 国产高清免费午夜在线视频| 亚洲精品中文字幕午夜| 国产男女免费完整版视频| 日韩东京热无码人妻| 中文字幕人妻av一区二区| 免费播放毛片| 亚洲天堂日本| 国产真实乱了在线播放| 97在线观看视频免费| 手机在线免费不卡一区二| 亚洲专区一区二区在线观看| 国产三级视频网站| 91国内在线观看| 国产精品第一区在线观看| 午夜精品久久久久久久99热下载| 国产精品福利导航| 在线精品视频成人网| 99视频精品在线观看| 91人妻在线视频| 欧美天堂在线| 国产资源站| 国产毛片片精品天天看视频| 51国产偷自视频区视频手机观看| 午夜a视频| 天天干伊人| 日韩精品毛片人妻AV不卡| 欧洲熟妇精品视频| 亚洲婷婷在线视频| 欧美精品一区在线看| a在线亚洲男人的天堂试看| 无码 在线 在线| 亚洲天天更新| 呦系列视频一区二区三区| 欧美三级不卡在线观看视频| 美女内射视频WWW网站午夜| 色婷婷国产精品视频| 深爱婷婷激情网| 国产91蝌蚪窝| 日本黄网在线观看| 99久久精品免费看国产电影| 欧美国产另类| 二级特黄绝大片免费视频大片| 亚洲色欲色欲www网|