999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于粗糙集理論和信息熵的屬性離散化方法

2008-01-01 00:00:00白根柱裴志利劉麗莎

摘要:在分析當(dāng)前研究中常用的屬性離散化方法的基礎(chǔ)上,提出了一種計(jì)算初始斷點(diǎn)集合的算法;定義了斷點(diǎn)的信息熵,并以此作為對(duì)斷點(diǎn)重要性的度量,提出了一種基于粗糙集理論和信息熵的屬性離散化算法。通過與其他離散化算法的對(duì)比實(shí)驗(yàn),驗(yàn)證了本算法的有效性,而且在樣本數(shù)和條件屬性數(shù)目不斷增大時(shí)仍有很高的效率。

關(guān)鍵詞:粗糙集; 離散化; 信息熵; 斷點(diǎn)

中圖分類號(hào):TP301.6文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2008)06-1701-03

0引言

Pawlak提出的粗糙集是一種新的處理不精確、不完全與不相容知識(shí)的數(shù)學(xué)理論,目前已在模式識(shí)別、機(jī)器學(xué)習(xí)、知識(shí)發(fā)現(xiàn)和決策支持等方面獲得了廣泛的應(yīng)用。人們對(duì)基于粗糙集模型的離散化方法已經(jīng)取得了一些有價(jià)值的研究成果。Nguyen等人提出了粗糙集與布爾邏輯方法[1],該方法具有完備性,即理論上可以找出所有可能組合的離散化斷點(diǎn)集,但是其算法復(fù)雜度是指數(shù)級(jí)的,無法在實(shí)際問題中應(yīng)用;有些文獻(xiàn)提出了在此基礎(chǔ)上的幾種改進(jìn)貪心算法[2~5],這些算法都是基于斷點(diǎn)對(duì)實(shí)例的可分性,屬于局部尋優(yōu)搜索算法;有的文獻(xiàn)則采用遺傳算法搜索最佳離散化斷點(diǎn)集合[6,7],它們屬于整體搜索算法;有的文獻(xiàn)提出了一種基于屬性重要性的離散化方法[8];有的文獻(xiàn)給出了一種將多項(xiàng)式超曲面與支撐向量機(jī)方法相結(jié)合的離散化方法[9];有的文獻(xiàn)提出了一種基于云模型的離散化方法[10];有的文獻(xiàn)將模糊性引進(jìn)到離散化中[11];有的文獻(xiàn)則討論了離散化中的信息粒度[12];有的文獻(xiàn)提出了基于屬性聚類的離散化方法[13]。

本文提出了一種計(jì)算初始斷點(diǎn)集合的算法,該算法不但能夠保證決策表的分辨關(guān)系,而且求得的初始斷點(diǎn)集合的基數(shù)小于按參考算法求得的結(jié)果[1]。并從決策表信息熵的角度提出了一種新的連續(xù)屬性離散化算法,在保證決策表的相容度不變的同時(shí)還考慮了由連續(xù)條件屬性和離散條件屬性構(gòu)成的混合決策表。實(shí)驗(yàn)結(jié)果表明,該算法的綜合性能優(yōu)于參考算法[1,8]。

1粗糙集的基本概念[ 5]

2決策表屬性離散化問題描述

在決策表DT=〈U,R,V,f〉中,對(duì)論域U的連續(xù)屬性離散化的結(jié)果就是要在每個(gè)連續(xù)屬性a的值域Va中尋找一個(gè)恰當(dāng)?shù)膭澐諴a,且在劃分Pa下的決策表與原決策表具有相同的決策能力。Pa將屬性值域劃分為若干互不相交的子區(qū)間,對(duì)每個(gè)子區(qū)間以符號(hào)賦值,即得到一組Va上的離散化取值。因?yàn)槿魏蝿澐諴a都是由一組值域Va內(nèi)的斷點(diǎn)序列(v1<v2<…<vk)確定的,所以離散化就是要在每個(gè)連續(xù)值域Va的斷點(diǎn)序列集合中選出一個(gè)恰當(dāng)?shù)臄帱c(diǎn)序列,進(jìn)而形成滿足需要的劃分。一個(gè)決策表的最優(yōu)劃分通常不是惟一的。相關(guān)文獻(xiàn)已經(jīng)證明,在一個(gè)給定的決策表中尋找最優(yōu)劃分是NP難題[1]。因此,人們?cè)O(shè)計(jì)了各種算法以求得近似解,即尋找次優(yōu)劃分。

3計(jì)算初始斷點(diǎn)集合算法

在保證決策表分辨關(guān)系的前提下,如何使初始斷點(diǎn)集合具有盡可能小的基數(shù),對(duì)后繼工作具有非常重要的意義,它不但可以減小約簡(jiǎn)初始斷點(diǎn)集合的計(jì)算量,而且可以減小計(jì)算過程的時(shí)間和空間開銷。

定義4有序?qū)傩灾敌蛄小Q策表DT=〈U,R,V,f〉,R=C∪g0gggggg,連續(xù)屬性a∈C。設(shè)Ia=[VBa,VTa]是a上的取值區(qū)間,若VBa<V1a<V2a<…<VTa,則序列S={VBa,V1a,V2a,…,VTa}稱為有序?qū)傩灾敌蛄?。VBa稱為S的下確界,記為B(S),VTa稱為S的上確界,記為T(S)。

根據(jù)上面的定義,任意兩個(gè)有序?qū)傩灾敌蛄蠸1和S2的位置關(guān)系如圖1所示。

依據(jù)圖1所示得到計(jì)算初始斷點(diǎn)集合的算法如下:

算法1計(jì)算初始斷點(diǎn)集合算法

a)初始斷點(diǎn)集合P為空集。

b)查看決策表中的條件屬性a:

(a)根據(jù)決策屬性值將條件屬性a的值劃分成若干集合,并由各集合構(gòu)造出相應(yīng)的有序?qū)傩灾敌蛄?。?/p>

(b)查看有序?qū)傩灾敌蛄袑?duì)Si和Sj(i<j):

● 若min(T(Si),T(Sj))≤max(B(Si),B(Sj))將max(B(Si),B(Sj))加入P,轉(zhuǎn)(c);

● 構(gòu)造有序?qū)傩灾敌蛄蠸=Si∪Sj,分別確定max(B(Si),B(Sj))和min(T(Si),T(Sj))在S中的序號(hào)m和n;

● 將S中的元素S[m]和S[n]加入P;

● 對(duì)于S中S[m]和S[n]間的元素(設(shè)為S[k]),若S[k-1]與S[k]僅同時(shí)在Sj中,則忽略S[k];否則將S[k]加入P。

(c)若仍有未查看的屬性值序列對(duì),則轉(zhuǎn)(b);

(d)若仍有未查看的條件屬性,則轉(zhuǎn)(b);否則算法結(jié)束,輸出集合P。

4約簡(jiǎn)初始斷點(diǎn)集合算法

離散化本質(zhì)上就是利用選取的斷點(diǎn)來對(duì)條件屬性構(gòu)成的空間進(jìn)行劃分的問題,即把這個(gè)n(n為條件屬性的個(gè)數(shù))維空間劃分成有限個(gè)區(qū)域。顯然,采用不同的劃分方法,離散化后得到的新的決策表的相容性有可能與原決策表的相容性不同。隨著屬性個(gè)數(shù)和樣本量的增加,初始斷點(diǎn)的數(shù)目將會(huì)不斷增大,因此,初始斷點(diǎn)集合約簡(jiǎn)算法的效率對(duì)后續(xù)的規(guī)則獲取是很重要的。

5實(shí)驗(yàn)結(jié)果和分析

為驗(yàn)證本文提出的離散化算法的有效性,本文選擇貪心算法(用A1表示)和屬性重要性算法(用A2表示)與本文提出的算法(用A3表示)進(jìn)行了詳細(xì)對(duì)比實(shí)驗(yàn)。首先采用以上三種離散化方法對(duì)樣本數(shù)據(jù)進(jìn)行離散化處理,然后進(jìn)行屬性約簡(jiǎn)和屬性值約簡(jiǎn)從而得到推理規(guī)則,最后采用獲得的規(guī)則對(duì)測(cè)試數(shù)據(jù)進(jìn)行識(shí)別測(cè)試。全部算法采用C++語言實(shí)現(xiàn),測(cè)試計(jì)算機(jī)的基本配置為:CPU為奔騰4處理器(主頻1.7 GHz),內(nèi)存為256 MB。實(shí)驗(yàn)數(shù)據(jù)選取了來自網(wǎng)站http://www.fmt.vein.hu/softcomp/ucidata/dataset/的UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫中的一些實(shí)際數(shù)據(jù)集,針對(duì)四組不同的實(shí)驗(yàn)數(shù)據(jù)分別進(jìn)行5折交叉驗(yàn)證。四個(gè)實(shí)驗(yàn)數(shù)據(jù)的詳細(xì)信息如表1所示,斷點(diǎn)計(jì)算結(jié)果如圖2所示,識(shí)別測(cè)試結(jié)果如圖3所示。其中Ⅰ指正確識(shí)別率,Ⅱ指錯(cuò)誤識(shí)別率,Ⅲ指拒絕識(shí)別率。

從斷點(diǎn)計(jì)算結(jié)果中可以看出:如圖2(a)所示,A2的剩余屬性數(shù)目最少,A1和A3的剩余屬性數(shù)目相當(dāng);如(b)所示,A3的斷點(diǎn)數(shù)目最少,A1和A2的斷點(diǎn)數(shù)目相當(dāng)如(c)所示,隨著樣本數(shù)和條件屬性數(shù)目的不斷增大,計(jì)算時(shí)間A2和A3增加不多,而A1急劇增加,因此A1更適合小樣本數(shù)據(jù)集。出現(xiàn)這種情況的主要原因是,A1會(huì)把所有可能的斷點(diǎn)都計(jì)算出來,因此計(jì)算時(shí)間會(huì)隨著樣本數(shù)和條件屬性數(shù)目的增大而急劇增加;而A2和A3是在可能的斷點(diǎn)集合中尋找符合要求的最小斷點(diǎn)集合,所以它們的計(jì)算時(shí)間隨著樣本數(shù)和原始屬性數(shù)目的增大只是小幅度地增加。從識(shí)別測(cè)試結(jié)果(圖3)中可以看出,正確識(shí)別率A1和A3相當(dāng),略好于A2,錯(cuò)誤識(shí)別率A2略高一些,而且其拒絕識(shí)別率也略高于A1和A3。實(shí)驗(yàn)結(jié)果說明本文提出的離散化算法不僅是有效的,而且在樣本數(shù)和條件屬性數(shù)目不斷增大時(shí)仍有很高的效率。

6結(jié)束語

本文討論了基于粗糙集理論的屬性離散化方法,并在此基礎(chǔ)上提出了基于信息熵的離散化算法,本文算法不僅保證了決策表的分辨關(guān)系,而且還不改變決策表的相容度。實(shí)驗(yàn)結(jié)果表明本文算法適于處理大規(guī)模數(shù)據(jù)。

今后的研究工作包括改進(jìn)此算法,使其能夠處理不完備數(shù)據(jù),最終使改進(jìn)的算法具有普遍適應(yīng)性;把遺傳算法與粗糙集理論相結(jié)合,進(jìn)一步提高解決大規(guī)模數(shù)據(jù)問題的效率。

參考文獻(xiàn):

[1]NGUYEN H S,SKOWRON A. Quantization of real values attributes,rough set and Boolean reasoning approaches[C]//Proc ofthe 2nd Joint Annual Conference on Information Science, Wrightsville Beach:[s.n.],1995:34-37.

[2]NGUYEN S H,NGUYEN H S.Some efficient algorithms for rough set methods[C]//Proc ofConference on Information Processing and Management of Uncertainty in Knowledge-based Systems. 1996:1451-1456.

[3]SUSMAGA R.Analyzing discretizations of continuous attributes given a monotonic discrimination function[J].Intelligent Data Analysis,1997,1(4):157-179.

[4]DAI Jian-h(huán)ua, LI Yuan-xiang.Study on discretization based on rough set theory[C]//Proc of the 1st International Conference on Machine Learning and Cybernetics. 2002:1371-1373.

[5]王國(guó)胤.Rough集理論與知識(shí)獲取[M].西安:西安交通大學(xué)出版社,2001.

[6]CHEN Cai-yun,LI Zhi-guo,QIAO Sheng-yong,et al.Study on discre-tization in rough set based on genetic algorithm[C]//Proc of the 2nd International Conference on Machine Learning and Cybernetics. 2003:1430-1434.

[7]HUANG Jin-jie, LI Shi-yong.A GA-based approach to rough data model[C]//Proc of the 5th World Congress on Intelligent Control and Automation. 2004:1880-1884.

[8]侯利娟,王國(guó)胤,聶能,等. 粗糙集理論中的離散化問題[J].計(jì)算機(jī)科學(xué),2000,27(12):89-94.

[9]何亞群, 胡壽松. 粗糙集中連續(xù)屬性離散化的一種新方法[J].南京航空航天大學(xué)學(xué)報(bào),2003,35(3):213-215.

[10]李興生. 一種基于云模型的決策表連續(xù)屬性離散化方法[J].模式識(shí)別與人工智能,2003,16(3):33-38.

[11]ROY A,PAL S K.Fuzzy discretization of feature space for a rough set classier[J].Pattern Recognition Letters,2003,24(6):895-902.

[12]WANG Li-h(huán)ong,ZHANG Shu-cui,F(xiàn)AN Hui,et al. The information granulation in discretization[C]//Proc of the 2nd International Conference on Machine Learning and Cybernetics. 2003:2620-2623.

[13]LI Meng-xin,WU Cheng-dong,HAN Zhong-h(huán)ua,et al. A hierarchical clustering method for attribute discretization in rough set theory[C]//Proc of the 3rd International Conference on Machine Learning and Cybernetics. 2004:3650-3654.

注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文

主站蜘蛛池模板: 亚洲无码高清视频在线观看| 国产精品9| 在线看片国产| 亚洲人免费视频| 国产精品无码作爱| 小13箩利洗澡无码视频免费网站| 国产精品免费p区| 韩日免费小视频| 永久免费精品视频| 亚洲国产一成久久精品国产成人综合| 久久精品国产精品国产一区| 国产一级做美女做受视频| 日本午夜三级| 五月婷婷导航| 亚洲色图在线观看| 国产美女一级毛片| 国产第一页亚洲| 国产精品999在线| 黄色一级视频欧美| 亚洲无线一二三四区男男| 影音先锋丝袜制服| 人妖无码第一页| 高清无码手机在线观看| jijzzizz老师出水喷水喷出| 中文天堂在线视频| 91精品国产91欠久久久久| 五月天综合网亚洲综合天堂网| 毛片网站在线看| 国产黄在线免费观看| 999国产精品永久免费视频精品久久 | 色综合中文综合网| h视频在线观看网站| 女同久久精品国产99国| 狠狠色丁香婷婷综合| 亚洲欧美在线精品一区二区| 无码精品国产dvd在线观看9久| 40岁成熟女人牲交片免费| 波多野结衣视频网站| 中国国语毛片免费观看视频| 欧洲成人免费视频| 欧美午夜一区| 精品国产毛片| 91精品视频在线播放| 国产色婷婷视频在线观看| 亚洲男人天堂久久| 特级毛片8级毛片免费观看| 欧美中文字幕一区二区三区| 日韩精品一区二区三区视频免费看| 丰满少妇αⅴ无码区| 色综合婷婷| 大陆国产精品视频| 国产综合欧美| 国产精品自拍合集| 亚洲欧美在线看片AI| 一级毛片免费的| 欧美va亚洲va香蕉在线| 免费久久一级欧美特大黄| 国产黄色爱视频| 日本午夜网站| 在线观看亚洲精品福利片| 国产一区二区精品福利| 免费国产在线精品一区| 国产乱肥老妇精品视频| 一本大道香蕉中文日本不卡高清二区| 最新亚洲人成无码网站欣赏网| 日韩乱码免费一区二区三区| 午夜免费小视频| 成年人国产视频| av一区二区三区高清久久| 成年午夜精品久久精品| 国内毛片视频| 男女性色大片免费网站| 毛片免费试看| 国产精品漂亮美女在线观看| 日韩大片免费观看视频播放| 蝌蚪国产精品视频第一页| 亚洲天堂网2014| 99精品久久精品| 成·人免费午夜无码视频在线观看| av尤物免费在线观看| 亚洲精品在线影院| 欧美日韩国产一级|