999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種基于連續屬性離散化的知識分類方法

2012-12-26 10:38:48孫英慧孫英娟蒲東兵
東北師大學報(自然科學版) 2012年1期
關鍵詞:分類方法

孫英慧,孫英娟,蒲東兵,姜 艷

(1.吉林師范大學計算機學院,吉林 四平 136000;

2.長春師范學院計算機科學與技術學院,吉林 長春 130032;

3.東北師范大學計算機科學與信息技術學院,吉林 長春 130117)

一種基于連續屬性離散化的知識分類方法

孫英慧1,孫英娟2,蒲東兵3,姜 艷2

(1.吉林師范大學計算機學院,吉林 四平 136000;

2.長春師范學院計算機科學與技術學院,吉林 長春 130032;

3.東北師范大學計算機科學與信息技術學院,吉林 長春 130117)

提出一種基于連續屬性離散化的知識分類方法.將條件屬性按照重要度由高到低排序,并依照此排序將決策表中各條件屬性依次離散化.在對決策表中條件屬性的離散化過程中充分考慮已離散化的條件屬性及決策屬性,離散后的決策表不需要進一步約簡.使用了模擬數據和UCI機器學習數據集中的數據進行算法測試,而且與其他離散化算法進行了對比,結果充分證明了新方法的有效性.

粗糙集;離散化;屬性重要度;區間劃分;斷點

粗糙集是一種主要用于分析具有不確定性數據的數學理論,被廣泛應用于模式識別、機器學習、數據挖掘、知識獲取、知識發現等研究[1-2].粗糙集只能對離散化的數據進行處理,因此連續屬性的離散化非常關鍵.目前關于數據的離散化方法有很多,如等距或等頻法[3]、基于統計的方法[4-5]、基于屬性重要度的方法[6]、基于計算智能的方法[7-10]等.其中等距或等頻法應用起來很方便,但是可能導致離散點過多,丟失信息.基于屬性重要度的方法和基于計算智能的方法是應用比較廣泛的方法.本文提出的連續屬性離散化方法,在充分考慮屬性重要度的同時,也考慮決策分類,離散后的決策表不需要約簡.與其他算法相比,具有極高的識別率、最低的誤識率和拒識率,產生盡可能少的斷點,生成最少、最優的規則集.

1 離散化相關概念

1.1 離散化描述

具有條件屬性和決策屬性的知識表達系統S=(U,A,{Va},f)稱為決策表.對于?x∈U,有序列C(c1(x),…,cn(x)),D(d1(x),…,dm(x)),其中U為非空有限集,稱為域;A為非空有限集,稱為屬性集合;Va為屬性a∈A的值域;f:U→Va為一單射,使論域U中任一元素取屬性a在Va中的某一唯一值;A=C∪D,C∩D=?;{c1(x),…,cn(x)}稱為條件屬性集,{d1(x),…,dm(x)}稱為決策屬性集,決策規則可以表示為c1(x),…,cn(x)→d1(x),…,dm(x).在值域Va=[la,ra]上的任意一個斷點集合{(a,ca1),(a,ca2),…,(a,cak)}定義Va上的一個分類Pa:

若某一條件屬性的值域被劃分為n個區間,每一個斷點即是一個區間端點,斷點數應為n-1.離散化實質上即是利用選取的斷點來對條件屬性的值域進行劃分,每一劃分區間對應一個離散值,一般為一個整數.這樣原有屬性中同屬于一個劃分區間的各屬性值合并為一個,用同一離散值代替.因而,離散化過程即是選取斷點的過程.

1.2 屬性重要度

在決策表中,條件屬性與決策屬性之間的關聯程度反映了條件屬性的重要性.因此,條件屬性a取得某個屬性值Va時,決策屬性的可能值數目就反映了條件屬性相對于對決策屬性的重要性.如果條件屬性a取得某個屬性值Va時,決策屬性的可能值數目唯一,則說明該條件屬性值能夠唯一確定該決策屬性,因此在規則生成時,當條件屬性取該值時不需要考慮其他條件屬性.

從定義可以看出,在一個決策系統中,Ma的值越大,說明a屬性的決策能力越強.

2 基于決策屬性的連續屬性離散化算法

2.1 算法的主要思想

決策表中的每條記錄就是一條決策規則,訓練樣本數據并沒有廣泛的決策意義.通過屬性離散化能將各樣本之間的共同點找到,得出有意義的決策規則[10].在本文算法中,首先運用C-mean方法將原決策系統中的各連續屬性離散化,然后計算決策表中各條件屬性的重要度,并將其按重要度由高到低排序.重要度最高的屬性保留C-mean方法的離散化結果,其他屬性根據重要度排序,依次離散化.離散化過程中充分考慮已離散化的各屬性及決策屬性,所有的連續屬性離散化后得到新的決策系統.最后去除新的決策系統中的矛盾規則,以保證系統的識別準確率.

2.2 算法描述

在一個決策系統中,決策規則通常與重要度高的條件屬性相關性更高,即重要度高的屬性決策能力更強.算法描述如下:

算法:一種基于連續屬性離散化的知識分類方法.輸入:訓練樣本集D.

輸出:決策規則表Snew.

令:S=(U,A,{Va},f),條件屬性數目為n,決策屬性集為{d},S′和Snew與S具有相同結構,初始值為空.

(1)將樣本集D預處理后,輸入決策系統S.

(2)S′=S,i=1.

(3)將S′的各條件屬性用FCM聚類方法離散化,令聚類中心數為k(決策分類數).

(4)計算S′中各屬性的重要度,并按照屬性重要度由高到低排序各條件屬性,令各條件屬性排序為C1,C2,…,Cn.

(5)將S′的C1屬性列賦值給Snew.

(6)i=i+1.

(7)判斷Snew中條件屬性取值相同的各行,決策屬性值是否相同.分別執行(a)或(b).

(a)若條件屬性值相同時,決策屬性值唯一,則取該條件屬性值的各行其余連續屬性不再需要離散化,如果Snew中所有的條件屬性都無需離散化或者i>n,則轉至(9);

(b)否則,將Snew中條件屬性值相同的各行劃分為一組.組內計算取得每一個決策值時,S中對應的i劃分區間,求各劃分區間的并(若劃分區間有交集,則增加斷點).將各組的劃分區間進行歸并,最后生成i條件屬性的劃分區間,離散化i屬性,將離散化結果添加到Snew.

(8)i≤n轉至(6).

(9)生成規則集,即將Snew中沖突行重新離散化,最后去除Snew中重復行.

2.3 區間劃分

離散化即是對屬性區間的劃分,如果區間劃分過細,就會導致分類規則過細,決策規則增加;相反,如果區間劃分過粗就會導致分類不清,出現矛盾規則.本文提出兩個概念:已劃分區間和空閑區間.

定義2 在數軸上,已經有屬性取值劃分的區間稱之為已劃分區間.

定義3 在數軸上,沒有屬性取值的區間稱之為空閑區間.

2.3.1 組內劃分區間

若條件屬性值相同時,決策屬性值唯一,則取該條件屬性值的各行其余連續屬性不再需要離散化,否則,將Snew中條件屬性值相同的各行劃分為一組.因此在Snew中同一組的各行條件屬性取值相同,而決策屬性值并不完全相同,即存在不一致數據.令第x小組內決策屬性種類為Numdx,則其對S中i的劃分區間至少為Numdx個,若劃分區間存在交集,增加一個劃分區間.兩個劃分區間a,b的相交情況只有如下兩種情況:此時原有區間劃分轉變為a′,b′,c′.如圖1所示.

圖1 組內區間劃分

2.3.2 各組劃分區間歸并

令數軸O存放i的最后區間劃分,初始值為空閑區間.首先用第一小組的區間劃分劃分O.然后依次將第二小組的區間劃分與O歸并,……直到所有小組的區間劃分與O歸并.因為各小組間不存在不一致數據,因此,各小組劃分區間與O進行歸并時,在不導致數據產生不一致的前提下盡量不增加O的區間劃分.每一個小組執行與O歸并前,將O各區間的更新標志清空.第x小組的區間劃分,與O歸并的方法為:由小到大依次取x的劃分區間x1,x2,…,與O歸并,xi(?xi,1,xi,2))區間與Oj及Oj-1區間之間的關系有如圖2所示的4種情形.

(a)如果Oj-1為未更新,將Oj-1設置為已更新;否則,將xi,1作為Oj-1的新斷點,將Oj-1劃分為左、右兩個區間,并將右區間設置為已更新.

(b)將Oj-1的右端點移至xi,2,如果Oj-1為已更新,則將xi,1作為一個新斷點,將Oj-1劃分為左、右兩個區間.

(c)如果Oj-1為未更新,則將Oj-1的右端點移至xi,2;否則,將Oj的左端點移至xi,1,并將Oj標志為已更新.

(d)將Oj的左端點移至xi,1,若xi右端點落在O的劃分區間,則將該劃分區間設置為更新.

圖2 屬性區間劃分

2.3.3 去除沖突規則

找到Snew中有沖突的兩行記錄,按照屬性重要度,依次比較原決策系統中對應的屬性值,找到兩行記錄首次出現不同的屬性值.獲得該屬性的新斷點D(取兩條記錄對應屬性值的均值).令Snew中該屬性的斷點序列為D1<…<Di-1<Di<…,Di-1<D<Di,如果原決策表S中沒有記錄屬性取值在[Di-1,D)區間,并且更新斷點后不會產生新沖突行,則將Snew中Di-1斷點變更為D;否則如果決策表S中沒有記錄屬性取值在[D,Di)區間,并且更新斷點后不會產生新沖突行,則將Snew中Di斷點變更為D.如果前面所述條件都不能滿足,則將D作為該屬性的一個新斷點.按照該方法,將所有沖突行的相應屬性重新離散化.運用更新后的斷點集去重新離散S,得到Snew.

3 算例

3.1 模擬數據

本文選取來自文獻[11]的決策表,并將本文算法與貪心算法、屬性重要性離散化算法和遺傳算法進行比較[10-11],離散化結果如表1所示,斷點結果如表2所示.從表1和表2可以看到,本文所提出的連續屬性離散化方法只有3個斷點,與遺傳算法和屬性重要性離散化算法的斷點數相同,優于貪心算法,獲得了最少的斷點集.屬性重要度排序為a,b;重要度分別為0.75和0.5.

表1 不同算法離散化結果對比

表2 不同算法的離散化斷點結果

3.2 UCI數據

為了驗證算法的可行性和有效性,采用UCI機器學習標準數據集中的數據作為測試數據[12].數據集的特征如表3所示.

表3 實驗數據集

按訓練集與測試集分別占60%及40%,獨立運行100次,求得分類精度的平均值.與文獻[12]中表5的各算法進行比較,結果如表4所示.其中:AEFD為文獻[12]提出的一種近似等頻離散化方法;A2為基于混合概率模型的無監督離散化算法;MDL為有監督離散化方法Fayyad&Irani的MDL方法.

實驗結果表明,本文提出的基于連續屬性離散化的知識分類方法,在4個數據集上的識別精度都高于其他三種算法,而對Breast數據集的分類識別率更是達到99%以上,實驗效果非常好.

表4 識別精度比較%

4 結論

本文提出一種基于連續屬性離散化的知識分類方法.通過屬性重要度確定屬性離散化次序,離散化過程中始終以決策分類為核心,充分考慮已經離散化的條件屬性.從表1可以看出,本文提出算法的斷點數明顯低于文獻[11]提出的貪心算法,與文獻[10]提出的遺傳算法和屬性重要性離散化算法的斷點數相同.從表4可以看出,算法在UCI的4個數據集(Breast,Diabetes,Glass,Iris)上運行所得的分類精度遠高于文獻[12]中表5的各分類算法.綜合以上實驗結果,可以看出:使用本文算法,條件屬性離散后產生的斷點數少,能夠更好地抓住樣本共性,從而分類精度更高.

[1] 李永敏,朱善君,陳湘暉,等.基于粗糙集理論的數據挖掘模型[J].清華大學學報:自然科學版,1999,39(1):110-113.

[2] PAWLAK Z.Rough sets[J].International Journal of Information and Computer Science,1982,11(5):341-356.

[3] 蔣盛益,李霞,鄭琪.一種近似等頻離散化方法[J].暨南大學學報:自然科學版,2009,30(1):31-34.

[4] MEHMET ACI,CIGDEM INAN,MUTLU AVCI.A hybrid classification method of k nearest neighbor,Bayesian methods and genetic algorithm [J].Expert Systems with Applications,2010,37:5061-5067.

[5] 劉豐年,黃景濤.基于分布率的連續屬性二次離散化算法[J].微電子學與計算機,2009,26(1):177-179.

[6] 白根柱,裴志利,王建,等.基于粗糙集理論和信息熵的屬性離散化方法[J].計算機應用研究,2008,25(6):1701-1703.

[7] 王飛,劉大有,薛萬欣.基于遺傳算法的Bayesian網中連續變量離散化的研究[J].計算機學報,2002,25(8):794-800.

[8] 劉德玲,馬志強.基于多群體遺傳算法的非線性最小二乘估計[J].東北師大學報:自然科學版,2011,43(1):40-47.

[9] YOON-SEOK CHOI,BYUNG-RO MOON,SANG YONG SEO.Genetic fuzzy discretization with adaptiv ntervals for classification problems[C]//GECCO.Proceedings of the genetic and Evolutionary Computatin Conference,Wahington,DC,2005:2037-2043.

[10] 陳果.基于遺傳算法的決策表連續屬性離散化方法[J].儀器儀表學報,2007,28(9):1700-1705.

[11] 王國胤.Rough集理論與知識獲取[M].西安:西安交通大學出版社,2001:24-105.

[12] 蔣盛益,李霞,鄭琪.一種近似等頻離散化方法[J].暨南大學學報:自然科學版,2009,30(1):31-34.

One method of classification based on discretization of continuous attributes

SUN Ying-hui1,SUN Ying-juan2,Pu Dong-bing3,JIANG Yan2

(1.College of Computer,Jilin Normal University,Siping 136000,China;
2.College of Computer Science and Technology,Changchun Normal University,Changchun 130032,China;
3.College of Computer Science and Information Technology,Northeast Normal University,Changchun 130117,China)

This paper gives a new method of classification based on discretization of continuous attributes.Firstly condition attributes are sorted in descending order by their significance,and then each condition attribute in the decision table is discretized in sequence by the order.Both discretized condition attributes and decision attributes are paid more attention during the course of discretization.And the discretized decision table needs not to be reduced further.Finally,the simulation data and the UCI machine learning data are used to verify the new method,and the new method is compared with other discretization algorithms.The results fully show the correctness and effectiveness of the proposed method of classification based on discretization of continuous attributes.

rough set;discretization;significance of attributes;region division;breakpoint

TP 18

520·20

A

1000-1832(2012)01-0045-05

2011-05-11

國家自然科學基金資助項目(60673099,60873146);吉林省科技發展計劃項目(201105056);吉林省教育廳科技計劃基

金資助項目(2007172,2010383);長春師范學院校內青年基金資助項目(010,012).

孫英慧(1975—),女,碩士,講師,主要從事數據挖掘、人工智能研究;通訊作者:蒲東兵(1970—),男,博士,副教授,主要從事嵌入式、模式識別、人工智能研究.

陶 理)

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學習方法
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 国产成人高精品免费视频| 中国国产A一级毛片| 国产亚洲现在一区二区中文| 亚洲欧美综合另类图片小说区| 欧美国产精品不卡在线观看| 欧美午夜理伦三级在线观看| 精品国产91爱| 国产亚洲精品97AA片在线播放| 又黄又湿又爽的视频| 欧美69视频在线| 99热免费在线| 黄色片中文字幕| 国产乱人激情H在线观看| 91亚洲精品国产自在现线| 国产欧美精品专区一区二区| 欧美综合区自拍亚洲综合天堂| 香蕉蕉亚亚洲aav综合| 国产中文一区二区苍井空| 伊人无码视屏| 91精品国产情侣高潮露脸| 青青青国产视频手机| 国产丝袜丝视频在线观看| 天天视频在线91频| 日韩免费毛片视频| 波多野结衣亚洲一区| 精品视频福利| 精品视频第一页| 亚洲区第一页| 成人在线亚洲| 国内精品九九久久久精品 | 中国丰满人妻无码束缚啪啪| Aⅴ无码专区在线观看| 精品伊人久久久久7777人| 国产极品嫩模在线观看91| 中文字幕在线日韩91| 亚洲欧洲自拍拍偷午夜色无码| 国产精品一区二区在线播放| 性69交片免费看| 国产人成午夜免费看| 青青热久免费精品视频6| 亚洲AⅤ永久无码精品毛片| 色婷婷成人| 91视频国产高清| 在线观看无码av五月花| 久久精品中文字幕免费| 人妻中文久热无码丝袜| 亚洲精品人成网线在线 | 亚洲免费播放| 最新加勒比隔壁人妻| 亚洲欧美人成电影在线观看| 国产精品蜜芽在线观看| 欧美激情二区三区| 国产精品观看视频免费完整版| 青青青国产视频| 亚洲第一在线播放| 在线视频亚洲欧美| 欧美性猛交一区二区三区| 日韩成人在线视频| 国产高清国内精品福利| 在线观看国产精品第一区免费 | 国产在线无码av完整版在线观看| 99偷拍视频精品一区二区| 亚洲人成网站在线观看播放不卡| 国产va在线| 免费看a级毛片| 亚洲一级毛片免费看| 高清无码不卡视频| 亚洲第一页在线观看| 国产精选小视频在线观看| 国产成人高清精品免费5388| 国产高颜值露脸在线观看| 成人一区在线| 91在线丝袜| 欧美日韩免费观看| 国产精品吹潮在线观看中文| 中文字幕中文字字幕码一二区| 无码有码中文字幕| 91精品久久久无码中文字幕vr| 久久久久国产精品免费免费不卡| 亚洲精品制服丝袜二区| 国产91精品调教在线播放| 久久久久人妻精品一区三寸蜜桃|