999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于貢獻(xiàn)因子的改進(jìn)決策樹屬性選擇方法

2013-09-24 07:57:50
關(guān)鍵詞:分類信息

鄭 麟

(汕頭職業(yè)技術(shù)學(xué)院計(jì)算機(jī)系,廣東 汕頭 515000)

0 引言

1 ID3算法的屬性選擇方法

1.1 ID3算法的基本思想

ID3算法用信息增益(熵)作為屬性的選擇標(biāo)準(zhǔn),即選擇具有最高信息增益(或最大熵壓縮)的屬性作為當(dāng)前結(jié)點(diǎn)的測(cè)試屬性,該屬性使得結(jié)果劃分中的樣本分類所需的信息量最小.具體方法是:檢測(cè)所有的屬性,選擇信息增益最大的屬性產(chǎn)生決策樹結(jié)點(diǎn),由該屬性的不同取值建立分支(稱為分枝優(yōu)選),再對(duì)各分支的子集遞歸調(diào)用該方法建立

其中pi是任意樣本屬于Ti類的概率,即pi=si/s.因?yàn)樾畔⑹怯枚M(jìn)位編碼的,所以對(duì)數(shù)函數(shù)以2為底.如果以屬性A作為第一個(gè)決策樹劃分屬性,設(shè)屬性A有v個(gè)不同的值{v1,v2,…,vv},可以將S劃分為v個(gè)子集{S1,S2,…,Sv},用Sj表示,Sj中的樣本在屬性A上具有相同的值aj(j=1,2,…,v),對(duì)于給定子集Sj的期望信息由下式給出:

公式(2)實(shí)際上是由公式(1)而來(lái),只不過(guò)將整個(gè)樣本集S換成樣本子集Sj,兩者的區(qū)別在公式(2)只需要計(jì)算屬性A的值等于aj的樣本子集Sj的熵,而公式(1)用來(lái)計(jì)算整個(gè)樣本S的總期望信息(即總熵).由此可知Pij=sij/sj,其中sij是子集Sj中屬于類Ti的樣本數(shù).所以樣本子集Sj中的樣本總數(shù)為s1j+s2j+…+snj,在計(jì)算由屬性A劃分后的總熵時(shí)我們必須在每個(gè)樣本子集Sj的熵前面乘上權(quán)值(s1j+s2j+…+snj)/s,其中s是樣本集S的總樣本數(shù),即用屬性A作為決策樹第一個(gè)劃分結(jié)點(diǎn)得到的熵為:

因此,劃分后的信息增益為原來(lái)的總熵減去劃分后的總熵即:

熵值E(A)越小,子集劃分的純度越高,因此算法選取具有最高信息增益的屬性作為給定集合S的測(cè)試屬性,創(chuàng)建一個(gè)結(jié)點(diǎn),并以該屬性標(biāo)記,對(duì)該屬性的每個(gè)值創(chuàng)建一個(gè)分支,并據(jù)此劃分樣本,如此反復(fù)不斷構(gòu)造決策樹的下一級(jí)直至所有的樣本子集只有一個(gè)類別,這時(shí)表明系統(tǒng)的熵為零,決策樹構(gòu)造過(guò)程完畢[5].

1.2 ID3屬性選擇的性能分析

ID3算法的屬性選擇方法簡(jiǎn)單、基礎(chǔ)理論清晰,能夠快速和高效的構(gòu)造出平均深度較小的決策樹,但是該算法存在著一些缺陷[7]:首先,ID3算法在選擇信息增益作為分裂屬性的選擇標(biāo)準(zhǔn)時(shí),偏向于優(yōu)先選擇取值較多的屬性,而取值較多的屬性往往不是最優(yōu)的屬性,這在實(shí)際應(yīng)用中往往不太合理;其次,ID3算法對(duì)噪聲較為敏感,當(dāng)訓(xùn)練樣本集變動(dòng)時(shí),決策樹會(huì)隨之大幅度變化,不利于漸進(jìn)學(xué)習(xí).最后,該方法沒(méi)有考慮屬性間的相關(guān)性,不能處理屬性值缺省的情況,也不能處理連續(xù)型屬性.

已經(jīng)提出的C4.5算法能較好的解決不能處理連續(xù)屬性的問(wèn)題,而對(duì)于其他缺陷,許多學(xué)者提出各種各樣的解決方法:針對(duì)屬性間的相關(guān)性問(wèn)題,文獻(xiàn)[8]引進(jìn)屬性依賴度來(lái)改進(jìn)算法性能;針對(duì)優(yōu)先選擇取值較多屬性的缺陷,文獻(xiàn)[9]提出一種基于屬性貢獻(xiàn)度的決策樹算法,從屬性選優(yōu)上消除了多值屬性選擇的偏向;文獻(xiàn)[10]則提出一種合理且可靠的MID3改進(jìn)算法,在一定程度上解決多值偏向問(wèn)題;文獻(xiàn)[11-12]引入屬性重要性和屬性取值數(shù)量2個(gè)參數(shù)對(duì)ID3算法的信息增益公式進(jìn)行改進(jìn),并根據(jù)凸函數(shù)的性質(zhì)簡(jiǎn)化信息熵的計(jì)算,提高決策樹的構(gòu)造效率;文獻(xiàn)[7]使用泰勒公式和麥克勞林公式提出了新的屬性選擇標(biāo)準(zhǔn),改進(jìn)后的算法通過(guò)簡(jiǎn)化信息熵的計(jì)算,提高了分類準(zhǔn)確度.由以上研究成果可知,許多研究者主要針對(duì)該算法優(yōu)先選擇取值較多屬性的缺陷,對(duì)屬性選擇標(biāo)準(zhǔn)進(jìn)行改良,本文在參考以上研究成果的基礎(chǔ)上,結(jié)合實(shí)際研究工作,在只對(duì)離散型屬性進(jìn)行劃分的前提下,提出屬性貢獻(xiàn)因子的概念并將其作為ID3算法屬性選擇的重要參考依據(jù),并對(duì)ID3屬性選擇方法在數(shù)學(xué)上進(jìn)行適當(dāng)?shù)牡葍r(jià)變換使其簡(jiǎn)化,最后達(dá)到提高屬性分類精度和速度的目的.

2 信息熵的簡(jiǎn)化與優(yōu)化

2.1 信息熵的近似變換

將公式(1)、(2)、(3)帶入到公式(4)可得信息增益的公式為:

對(duì)于I(s1,s2,…,sn)的部分,只要給定了訓(xùn)練樣本和類別數(shù),pi就是不變的,因此它在整個(gè)決策樹構(gòu)造中始終為定值,可以把它從公式(5)中去掉,只保留E(A)來(lái)考慮如何改進(jìn)算法.在E(A)中要進(jìn)行多次的對(duì)數(shù)計(jì)算,由文獻(xiàn)[13]可知log x函數(shù)在[0,1]上是凸函數(shù),Pij取值在[0,1]上,所以可以運(yùn)用凸函數(shù)的性質(zhì).

性質(zhì)1[13]設(shè)f(x)為凸函數(shù),X為非空集合,則由可推出

公式(6)是計(jì)算信息增益的簡(jiǎn)化公式,由此完成了屬性選擇標(biāo)準(zhǔn)改進(jìn)的第一步.

2.2 屬性信息熵的優(yōu)化

ID3屬性選擇標(biāo)準(zhǔn)的主要缺陷是算法優(yōu)先選擇取值較多的屬性,因此應(yīng)著重在這方面進(jìn)行改良,已有的C4.5算法是通過(guò)信息增益率作為屬性選擇標(biāo)準(zhǔn),但是很明顯的這會(huì)阻礙選擇屬性值分布均勻的屬性,即偏袒取值較少的屬性,而較好的解決方法是即不偏袒取值較多的屬性,也不偏袒取值較少的屬性.本文提出了一種基于貢獻(xiàn)因子的屬性選擇標(biāo)準(zhǔn).主要思想是:首先根據(jù)公式(5)的屬性選擇標(biāo)準(zhǔn)計(jì)算出各個(gè)特征屬性的信息增益,從而選擇出信息增益最大(即信息熵E(A)最小)的屬性記為屬性A1,然后計(jì)算出屬性取值個(gè)數(shù)最多的屬性A2,如果A1≠A2,說(shuō)明信息增益最大的屬性不是取值個(gè)數(shù)最多的屬性,選擇該屬性作為測(cè)試屬性不會(huì)產(chǎn)生多值偏向問(wèn)題;如果A1=A2,則說(shuō)明信息增益最大和取值個(gè)數(shù)最多的屬性為同一屬性,用它作為測(cè)試屬性易產(chǎn)生多值偏向問(wèn)題,應(yīng)對(duì)該屬性的信息增益用貢獻(xiàn)因子來(lái)修正,以避免取值異常偏向.在用屬性A劃分時(shí)加入貢獻(xiàn)因子(用函數(shù)Contribute(A)表示)修正其信息增益,則得到公式(7):

由上面的討論可以得到貢獻(xiàn)因子Contribute(A)的表達(dá)式如下:

由于sgn(sij)≤sij

2.3 屬性信息熵的綜合改進(jìn)

以上討論了ID3屬性選擇標(biāo)準(zhǔn)的簡(jiǎn)化與優(yōu)化,結(jié)合公式(6)、(7)、(8)和(9)可以得到屬性A的信息增益E(A)的綜合改進(jìn)公式:

由公式(5)和公式(10)可以得到最后的信息增益計(jì)算公式:

可以使用公式(11)計(jì)算改進(jìn)后的信息增益,達(dá)到簡(jiǎn)化計(jì)算和優(yōu)化決策樹劃分的作用.

3 實(shí)驗(yàn)及結(jié)果分析

3.1 小數(shù)據(jù)集測(cè)試分析

為說(shuō)明基于貢獻(xiàn)因子的ID3算法的優(yōu)勢(shì),先進(jìn)行小數(shù)據(jù)集測(cè)試以達(dá)到簡(jiǎn)化分析的目的.測(cè)試的數(shù)據(jù)集使用UCI經(jīng)典數(shù)據(jù)集soybean中隨機(jī)取出的30條記錄,該數(shù)據(jù)集包括8個(gè)屬性,最后一個(gè)是類屬性class,前面7個(gè)屬性用來(lái)預(yù)測(cè)soybean(大豆)病變的類型,分別運(yùn)行了傳統(tǒng)的ID3算法(使用公式(5))和基于貢獻(xiàn)因子的ID3算法(使用公式(11))計(jì)算各個(gè)屬性的信息增益,實(shí)驗(yàn)結(jié)果如表1所示.

表1 小數(shù)據(jù)集分析結(jié)果

由實(shí)驗(yàn)結(jié)果可知,用傳統(tǒng)ID3算法計(jì)算出來(lái)的信息增益中,屬性

canker-lesion(潰瘍病變)的增益最大,但是其擁有的屬性取值個(gè)數(shù)也最大,作為第一個(gè)劃分結(jié)點(diǎn)值得商榷,在加入貢獻(xiàn)因子之后,屬性leafspot-size(葉斑大小)的信息增益變?yōu)樽畲?而其屬性取值個(gè)數(shù)并不是最大的,很明

顯取屬性leafspot-size作為劃分屬性較為合理.從生物學(xué)角度來(lái)看,潰瘍病變作為大豆病變的一種普遍癥狀,并不能對(duì)病變進(jìn)行合理分類,而葉斑大小很大程度上是和病變的類型相關(guān)的,這也解釋了使用leafspot-size作為劃分屬性的合理性.從分類準(zhǔn)確率、未知率和運(yùn)行時(shí)間方面來(lái)評(píng)估兩種方法如表2所示.

從表2可以看出,改進(jìn)后的ID3屬性劃分方法不僅在分類準(zhǔn)確率上有所提高,而且由于簡(jiǎn)化了對(duì)數(shù)函數(shù)的計(jì)算,所以在運(yùn)行時(shí)間上也有所改進(jìn).

表2 小數(shù)據(jù)集上的算法性能比較

3.2 不同量級(jí)的數(shù)據(jù)集測(cè)試分析

為說(shuō)明改進(jìn)算法具有普適性,采用各種不同量級(jí)的UCI數(shù)據(jù)集對(duì)其進(jìn)行測(cè)試,實(shí)驗(yàn)中選用樣本個(gè)數(shù)和屬性個(gè)數(shù)從小到大的數(shù)據(jù)集進(jìn)行測(cè)試,各數(shù)據(jù)集的分布情況如表3所示.

表3 數(shù)據(jù)集的分布情況

在上面5個(gè)數(shù)據(jù)集上分別采用傳統(tǒng)的ID3算法和基于貢獻(xiàn)因子的ID3算法進(jìn)行分類,結(jié)果如表4所示.

表4 不同量級(jí)數(shù)據(jù)集上的算法性能比較

由實(shí)驗(yàn)結(jié)果可知,基于貢獻(xiàn)因子的ID3算法在不同量級(jí)的數(shù)據(jù)集下的分類準(zhǔn)確率和分類未知率均優(yōu)于傳統(tǒng)的ID3算法.在中小量級(jí)的數(shù)據(jù)集中,改進(jìn)的算法亦表現(xiàn)良好,運(yùn)行時(shí)間較短;而在大型數(shù)據(jù)集中,改進(jìn)的算法由于計(jì)算貢獻(xiàn)因子的時(shí)間消耗增加,導(dǎo)致算法的總運(yùn)行時(shí)間會(huì)比傳統(tǒng)算法稍慢,但是從提高分類準(zhǔn)確率的效果來(lái)看,這點(diǎn)時(shí)間消耗是值得的.

4 結(jié)束語(yǔ)

基于貢獻(xiàn)因子的決策樹屬性選擇方法對(duì)傳統(tǒng)的ID3屬性選擇方法作了改進(jìn):首先簡(jiǎn)化了信息熵的計(jì)算復(fù)雜度,提高算法的運(yùn)行速度;然后提出了貢獻(xiàn)因子的概念,平衡了ID3算法的屬性取值偏向,改善了分類結(jié)果.實(shí)驗(yàn)結(jié)果分析表明,對(duì)于相同的數(shù)據(jù)集,相較于傳統(tǒng)的ID3算法,基于貢獻(xiàn)因子的算法提高了決策樹分類的準(zhǔn)確率,縮短了運(yùn)行時(shí)間.但是,屬性的重要程度和屬性取值個(gè)數(shù)之間還存在著復(fù)雜的關(guān)系,本文只是平衡了屬性取值個(gè)數(shù)的問(wèn)題,如何將重要程度和取值之間聯(lián)系起來(lái)并考慮處理缺失值是今后研究的重點(diǎn).

[1]Tan P N,Steinbach M,Vipin K.Introduction to data mining[M].北京:機(jī)械工業(yè)出版社,2011.

[2]Quinlan J R.Induction of decision trees[J].Machine Learning,1986,1(1):81-106.

[3]董廣,王興起.基于決策分類熵的決策樹構(gòu)造算法及應(yīng)用[J].計(jì)算機(jī)應(yīng)用,2009,29(11):3103-3106.

[4]陶榮,張永勝,杜宏保.基于粗集論中屬性依賴度的ID3改進(jìn)算法[J].河南科技大學(xué)學(xué)報(bào):自然科學(xué)版,2010,31(1):42-45.

[5]Quinlan J R.Simplifying decision trees[J].Internet Journal of Man-Machine Studies,1987,27(3):221-234.

[6]Han J,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯.2版.北京:機(jī)械工業(yè)出版社,2006.

[7]謝妞妞,劉於勛.決策樹屬性選擇標(biāo)準(zhǔn)的改進(jìn)[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(34):115-118.

[8]史岳鵬,朱顥東.基于類別相關(guān)性和優(yōu)化的ID3特征選擇[J].數(shù)據(jù)采集與處理,2011,26(2):230-234.

[9]孫淮寧,胡學(xué)鋼.一種基于屬性貢獻(xiàn)度的決策樹學(xué)習(xí)算法[J].合肥工業(yè)大學(xué)學(xué)報(bào):自然科學(xué)版,2009,32(8):1137-1141.

[10]王永梅,胡學(xué)鋼.基于用戶興趣度和MID3決策樹改進(jìn)方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(27):155-157.

[11]張 琳,陳燕,李桃迎,等.決策樹分類算法研究[J].計(jì)算機(jī)工程,2011,37(13):66-70.

[12]朱顥東.ID3算法的改進(jìn)和簡(jiǎn)化[J].上海交通大學(xué)學(xué)報(bào),2010,44(7):883-886.

[13]陳紀(jì)修,金路,於崇華.數(shù)學(xué)分析[M].北京:高等教育出版社,2004.

[14]周海波.基于決策樹的分類算法研究[D].蘭州:蘭州大學(xué),2009.

猜你喜歡
分類信息
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
給塑料分分類吧
展會(huì)信息
信息
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 中文字幕久久亚洲一区 | 亚洲欧美精品一中文字幕| 国产黄色片在线看| 国产精品专区第1页| 中国一级毛片免费观看| 欧美一级高清视频在线播放| 国产裸舞福利在线视频合集| 8090成人午夜精品| aaa国产一级毛片| 日韩精品一区二区三区免费在线观看| 久久黄色免费电影| 欧洲日本亚洲中文字幕| 欧美日韩导航| 热伊人99re久久精品最新地| 美女免费黄网站| 色成人综合| 综合五月天网| 国产乱子伦精品视频| 亚洲永久免费网站| 二级特黄绝大片免费视频大片| 欧美激情成人网| 国产福利免费在线观看| 国产丝袜一区二区三区视频免下载| 国产十八禁在线观看免费| 国产亚洲欧美在线人成aaaa| 亚洲AV成人一区二区三区AV| 欧美精品伊人久久| 成人在线观看一区| 精品久久香蕉国产线看观看gif| 国产精品3p视频| 在线视频亚洲色图| 国产免费看久久久| 亚洲热线99精品视频| 欧美成a人片在线观看| 国产精品大白天新婚身材| 国产成人麻豆精品| 亚洲精品在线观看91| 欧美日韩国产高清一区二区三区| 国产精品美女免费视频大全| 天天操精品| 18黑白丝水手服自慰喷水网站| 久久午夜夜伦鲁鲁片不卡| 四虎国产永久在线观看| 国产玖玖视频| 精品欧美日韩国产日漫一区不卡| 亚洲成AV人手机在线观看网站| 国产在线精品美女观看| 日本不卡视频在线| 国产欧美日韩另类| 亚洲成网777777国产精品| 国内精品九九久久久精品| 国产欧美日韩一区二区视频在线| 亚洲另类第一页| 91av国产在线| 亚洲无码视频一区二区三区| 欧美色99| 在线欧美一区| 国产sm重味一区二区三区| 亚洲综合欧美在线一区在线播放| 国产一区二区人大臿蕉香蕉| 亚洲人成网站18禁动漫无码 | 国产精品短篇二区| 黄色在线网| 成人无码区免费视频网站蜜臀| 精品国产欧美精品v| 国产精品久久久久久久久kt| 91无码视频在线观看| 日韩专区欧美| 岛国精品一区免费视频在线观看 | 日韩黄色大片免费看| 久久久久久久久久国产精品| 精品视频免费在线| 在线精品欧美日韩| 亚洲男人的天堂久久香蕉网| 日本三区视频| 国产女人在线| 青青操国产| 国产精品成人一区二区不卡| 9966国产精品视频| 精品剧情v国产在线观看| 亚洲成aⅴ人在线观看| 999国内精品久久免费视频|