999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

不一致鄰域粗糙集的不確定性度量和屬性約簡

2018-04-13 10:16:59晟,汪杰,徐風(fēng),陳
關(guān)鍵詞:分類

姚 晟,汪 杰,徐 風(fēng),陳 菊

1(安徽大學(xué) 計(jì)算智能與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,合肥 230601) 2(安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥 230601) E-mail:wangjiechn@126.com

1 引 言

粗糙集理論[1]是Pawlak在1982年提出的用于處理不精確、不確定性問題的一種數(shù)據(jù)分析工具.目前已經(jīng)廣泛應(yīng)用于機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、模式識(shí)別、特征選擇和圖像分割等研究領(lǐng)域[2-5].

經(jīng)典粗糙集理論基于等價(jià)關(guān)系,它通常適用于處理符號(hào)型數(shù)據(jù).然而在現(xiàn)實(shí)應(yīng)用(如科研、醫(yī)療、金融、工程應(yīng)用領(lǐng)域)中,數(shù)值型數(shù)據(jù)廣泛存在.研究人員在處理這類數(shù)據(jù)時(shí)通常采用離散化方法將數(shù)值型數(shù)據(jù)轉(zhuǎn)化為符號(hào)型數(shù)據(jù)[6].這一轉(zhuǎn)換必然會(huì)造成某些信息的損失.為了解決這類問題,林等[7]通過拓展經(jīng)典粗糙集中的等價(jià)關(guān)系,提出了鄰域粗糙集模型,該模型通過鄰域關(guān)系來刻畫對(duì)象之間的相似程度.胡等[8,9]通過定義鄰域關(guān)系,構(gòu)造了一種統(tǒng)一的鄰域分類理論體系,并針對(duì)數(shù)值型屬性和符號(hào)型屬性并存的混合數(shù)據(jù)提出了一種基于鄰域依賴度的特征選擇算法.

不確定性度量作為粗糙集理論中描述系統(tǒng)分類能力和提高分類精度的重要依據(jù),國內(nèi)外眾多學(xué)者對(duì)此進(jìn)行了研究.Pawlak提出利用上下近似集,用精度和粗糙度來度量信息系統(tǒng)的不確定性,用近似精度和近似粗糙度來度量決策系統(tǒng)的不確定性[1].由于精度和粗糙度依賴的是正區(qū)域和邊界域,會(huì)導(dǎo)致不確定性度量不夠精細(xì)的情況.因此,部分學(xué)者從其它不同角度進(jìn)行了研究,目前主要的研究方法主要有基于信息熵的方法以及基于信息熵的變種方法.比如信息熵[10]、粗糙熵[11]、混合熵[12,13]等方法都可以有效的應(yīng)用于粗糙集的不確定性度量.模糊熵也是一種研究比較多的方法,它是通過將粗糙集轉(zhuǎn)化為模糊集來度量集合的不確定性[14].然而,以上不確定度量方法主要是基于等價(jià)關(guān)系,只適用于處理具有符號(hào)型屬性的數(shù)據(jù).鄰域粗糙集是基于鄰域關(guān)系,適用于處理數(shù)值型數(shù)據(jù),但是鄰域關(guān)系并不具有嚴(yán)格的等價(jià)關(guān)系,因此,這些不確定度量方法難以適用于鄰域決策系統(tǒng).

屬性約簡是粗糙集理論研究的核心內(nèi)容之一,是指在保持原有信息系統(tǒng)或決策表分類能力不變的情況下,剔除其中不重要、不相關(guān)的冗余屬性的過程.近些年來,基于鄰域粗糙集模型的屬性約簡算法不斷被提出.文獻(xiàn)[8]在經(jīng)典粗糙集屬性約簡的基礎(chǔ)上,提出了以依賴度為啟發(fā)式函數(shù)的屬性約簡算法.文獻(xiàn)[15]將信息論中的互信息引入鄰域粗糙集模型中,提出了以互信息為啟發(fā)式函數(shù)的屬性約簡算法.文獻(xiàn)[12]考慮了代數(shù)觀點(diǎn)下的精度和信息論觀點(diǎn)下的信息熵,提出了混合度量的屬性約簡算法.文獻(xiàn)[16]提出鄰域軟間隔度量方法.以上約簡算法考慮的主要是條件屬性和決策屬性之間的關(guān)系,判斷一個(gè)條件屬性是否是冗余屬性的依據(jù)是該屬性是否會(huì)影響決策屬性中的確定信息或者不確定信息,然而并沒有充分考慮到條件屬性之間的關(guān)系也會(huì)影響約簡結(jié)果和分類精度.在實(shí)際情況中,條件屬性之間通常不是獨(dú)立的,它們之間具有某種關(guān)聯(lián).如穿衣指數(shù)和氣溫是有關(guān)聯(lián)的,氣溫高,穿衣指數(shù)減小,氣溫低,穿衣指數(shù)增加;城市空氣污染指數(shù)與汽車保有量也具有某種關(guān)聯(lián),汽車保有量多,空氣污染指數(shù)增加,汽車保有量少,空氣污染指數(shù)減小.在實(shí)際的屬性約簡中,將關(guān)聯(lián)很大的屬性都放入約簡結(jié)果中必然會(huì)造成數(shù)據(jù)冗余,顯然這是不必要的.

本文通過深入研究粗糙集的不確定性度量方法,針對(duì)數(shù)值型數(shù)據(jù)的特點(diǎn),分析了不一致鄰域粗糙集的相關(guān)性質(zhì),定義了鄰域條件熵的不確定度量方法用來評(píng)價(jià)約簡屬性的質(zhì)量.同時(shí)考慮了條件屬性之間的關(guān)聯(lián)程度會(huì)對(duì)約簡結(jié)果和分類精度產(chǎn)生影響,提出了基于相關(guān)系數(shù)的不一致鄰域粗糙集屬性約簡算法.其主要思想是通過引入統(tǒng)計(jì)學(xué)中秩相關(guān)系數(shù)的概念來度量條件屬性之間的關(guān)聯(lián)程度,并將相關(guān)系數(shù)融入到鄰域粗糙集屬性約簡算法中來剔除冗余屬性,最終的約簡結(jié)果可以根據(jù)實(shí)際問題的需要,靈活選擇合適的相關(guān)系數(shù)閾值.實(shí)驗(yàn)結(jié)果表明,本文提出的算法能夠獲得較小的約簡和較高的分類精度.

2 背景知識(shí)

在本節(jié)中,我們主要介紹粗糙集理論的基本概念和性質(zhì)以及鄰域粗糙集的基本知識(shí).

2.1 粗糙集理論

在粗糙集理論中,知識(shí)被認(rèn)為是分辨對(duì)象的能力.粗糙集采用等價(jià)關(guān)系將論域粒化為若干等價(jià)類,利用上下近似逼近的方式刻畫未知概念,通過知識(shí)約簡來發(fā)現(xiàn)數(shù)據(jù)當(dāng)中潛在的知識(shí)和規(guī)律[1].

定義1[1].設(shè)決策信息系統(tǒng)DT=(U,A,V,f),其中U={x1,x2,…,x|U|}是有限非空集,稱為論域或?qū)ο罂臻g,U中的元素稱為對(duì)象;A也是一個(gè)有限非空集,A中的元素稱為屬性,且A=C∪D,C∩D=φ,其中C中的屬性稱為條件屬性,D中的屬性稱為決策屬性;V=∪Va,Va是屬性a的值域;f:U×A→V是一個(gè)信息函數(shù),它為每個(gè)對(duì)象的每個(gè)屬性賦予一個(gè)值,即f(x,a)∈Va.

在決策信息系統(tǒng)DT中,對(duì)于任意的x,y∈U(x≠y).若f(x,C)=f(y,C)∧f(x,D)≠f(y,D).則稱DT為不一致決策表,x,y為不一致對(duì)象.否則稱DT為一致決策表.

定義2[1].設(shè)DT=(U,A,V,f)和B?C.B上的不可分辨關(guān)系定義為

IND(B)={(x,y)∈U×U|?a∈B,f(x,a)=f(y,a)}.

(1)

定義3[1].設(shè)DT=(U,A,V,f)和B?C.對(duì)論域上的一個(gè)對(duì)象子集X?U,定義X在條件屬性子集B上的下近似、上近似和邊界域分別為

其中:[x]B是x在條件屬性集B上的等價(jià)類.

2.2 鄰域粗糙集及其相關(guān)性質(zhì)

鄰域粗糙集通過鄰域關(guān)系來粒化論域,解決了離散化數(shù)據(jù)帶來的某些信息損失,可以有效的處理數(shù)值型數(shù)據(jù)[8].下面簡要介紹基本性質(zhì).

定義4[8].設(shè)〈U,Δ〉為非空度量空間,我們稱Δ為〈U,Δ〉上的距離函數(shù),如果Δ滿足

1)Δ(x1,x2)≥0,Δ(x1,x2)=0,當(dāng)且僅當(dāng)x1=x2;

2)Δ(x1,x2)=Δ(x2,x1);

3)Δ(x1,x3)≤Δ(x1,x2)+Δ(x2,x3).

目前常用的距離函數(shù)有曼哈頓距離、歐氏距離和切比雪夫距離,本文采用的是歐氏距離.歐氏距離Δ定義為

(5)

定義6[8].設(shè)鄰域決策系統(tǒng)NDT.對(duì)于U中任意對(duì)象xi,定義其δ鄰域?yàn)?/p>

δ(xi)={x∈U|Δ(x,xi)≤δ}.

(6)

其中,δ≥0,Δ為距離函數(shù).

定義7[8].設(shè)鄰域決策系統(tǒng)NDT.若由B?C生成U上的鄰域關(guān)系NB.則對(duì)X?U,X關(guān)于B的下近似、上近似和邊界域分別定義為

3 不一致鄰域粗糙集的不確定性度量

經(jīng)典粗糙集的不確定性度量方法通常只能處理符號(hào)型數(shù)據(jù),難以應(yīng)用于鄰域粗糙集的不確定性度量.下面首先給出不一致鄰域粗糙集的相關(guān)性質(zhì),然后給出鄰域條件熵的不確定性度量方法,證明了其滿足不確定度量的基本要求.并分析證明了相關(guān)的性質(zhì)定理.

3.1 不一致鄰域粗糙集模型

定義8.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.其中,U/D={[x1]D,[x2]D,…,[xn]D}.則δB(x)表示對(duì)象x在屬性集B下的鄰域,[x]D表示對(duì)象x在決策屬性D上對(duì)應(yīng)的決策類.如果存在x∈U,使得δB(x)?[x]D.那么稱NDT為不一致鄰域決策系統(tǒng).其中δB(x)∩[x]D表示對(duì)象x的決策一致鄰域.δB(x)-[x]D表示對(duì)象x的決策不一致鄰域.

性質(zhì)1.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.其中,U/D={[x1]D,[x2]D,…,[xn]D}.則決策屬性D關(guān)于B的正區(qū)域定義為

POSB(D)={xi∈U|δB(xi)-[xi]D=?}.

證明:假設(shè)存在x∈POSB(D),使得δB(x)-[x]D≠?.根據(jù)定義7可知當(dāng)x∈POSB(D),容易得到δB(x)?[x]D,所以δB(x)-[x]D=?.與假設(shè)不符,所以POSB(D)={xi∈U|δB(xi)-[xi]D=?}成立.

性質(zhì)1說明正域?yàn)闆Q策不一致鄰域?yàn)榭占膶?duì)象集合.

性質(zhì)2.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.其中U/D={[x1]D,[x2]D,…,[xn]D}且xi∈POSB(D).如果?xj∈U-POSB(D),那么xi?δB(xj)-[xj]D.

證明:根據(jù)題設(shè)可知xi∈POSB(D)所以δB(xi)?[xi]D.

當(dāng)xj?δB(xi),此時(shí)顯然xi?δB(xj)-[xj]D.當(dāng)xj∈δB(xi),可得xi∈δB(xj).又由xj∈[xi]D得xi∈[xj]D.由此可得xi?δB(xj)-[xj]D.故性質(zhì)得證.

性質(zhì)2說明正域中的任意對(duì)象不屬于非正域?qū)ο蟮臎Q策不一致鄰域.

3.2 鄰域條件熵及其相關(guān)性質(zhì)

定義9.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.那么關(guān)于B的鄰域信息熵定義為

.

(10)

定義10.設(shè)鄰域決策系統(tǒng)NDT.?M,N?C,條件屬性集M,N的聯(lián)合熵定義為

(11)

定義11.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.其中,U/D={[x1]D,[x2]D,…,[xn]D}.則決策屬性D關(guān)于屬性集B的條件熵定義為

(12)

定理1.設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.其中,U/D={[x1]D,[x2]D,…,[xn]D}.則Eδ(D|B)=Eδ(B)-Eδ(D,B).

證明:Eδ(D|B)

=Eδ(B)-Eδ(D,B).

粗糙集的不確定性度量通常應(yīng)該滿足以下幾個(gè)約束條件[17]:1)單調(diào)性;2)不變性;3)非負(fù)性.

下面分別進(jìn)行證明:

定理2.(單調(diào)性) 設(shè)鄰域決策系統(tǒng)NDT.其中U/D={[x1]D,[x2]D,…,[xn]D}.如果M?N?C,那么Eδ(D|M)≤Eδ(D|N).

證明:由文獻(xiàn)[18]中的定理12和引理4.1得出.

證明:不變性顯然成立.

定理4.(非負(fù)性) 設(shè)鄰域決策系統(tǒng)NDT和B?C.其中U/D={[x1]D,[x2]D,…,[xn]D}.那么Eδ(D|B)≥0.

證明:當(dāng)?xi∈U,δB(xi)=xi.可得Eδ(D|B)=0.當(dāng)?xi∈U,δB(xi)=U,[xi]D=xi,可得Eδ(D|B)=log2|U|.由此可得0≤Eδ(D|B)≤log2|U|.所以Eδ(D|B)≥0一定成立.

通過定理2、3、4可得Eδ(D|B)滿足不確定度量的基本條件,因此可以用做不確定性度量工具.

定理5.設(shè)鄰域決策系統(tǒng)NDT和M,N?C.其中U/D={[x1]D,[x2]D,…,[xn]D}.如果?xi∈U,δB(xi)?[xi]D,則NDT是一致鄰域決策系統(tǒng).那么Eδ(D|B)=0.

證明:根據(jù)題設(shè)?xi∈U,δB(xi)?[xi]D可得?xi∈U,δB(xi)∩[xi]D=δB(xi),又根據(jù)定義11可得Eδ(D|B)=0.

證明:對(duì)任意xi∈U,δB(xi)?[xi]D可知

δB(xi)∩[xi]D=δB(xi).

對(duì)任意xi∈U,δB(xi)?[xi]D可知

δB(xi)∩[xi]D≠?.

定義12[8].設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.?a∈C-B,則條件屬性a相對(duì)于B的重要度定義為

SIG(a,B,D)=Eδ(D|B∪a)-Eδ(D|B)

(13)

定義13[8].設(shè)鄰域決策系統(tǒng)NDT和條件屬性子集B?C.稱B是C的一個(gè)約簡,如果B滿足

4 秩相關(guān)系數(shù)及其性質(zhì)

條件屬性與決策屬性之間的關(guān)系會(huì)影響屬性約簡的特征數(shù)量和分類精度,條件屬性之間同樣也存在著某種關(guān)系,這種關(guān)系也會(huì)影響屬性約簡的結(jié)果.通常可以將屬性之間的關(guān)系用相關(guān)系數(shù)來表示.目前常用的度量屬性之間相關(guān)系數(shù)的方法主要有二元正態(tài)分布、獨(dú)立性卡方檢驗(yàn),秩相關(guān)系數(shù)等[19-21].其中,二元正態(tài)分布可以度量數(shù)值型數(shù)據(jù)中的屬性相關(guān)系數(shù),獨(dú)立性卡方檢驗(yàn)可以度量符號(hào)型數(shù)據(jù)中的屬性相關(guān)系數(shù).而在實(shí)際應(yīng)用中,數(shù)值型與符號(hào)型共同存在的混合數(shù)據(jù)廣泛存在.二元正態(tài)分布和獨(dú)立性卡方檢驗(yàn)都難以適用于處理混合數(shù)據(jù).

秩相關(guān)系數(shù)也稱,Spearman 秩相關(guān)系數(shù),是一個(gè)非參數(shù)性質(zhì)(與分布無關(guān))的秩統(tǒng)計(jì)參數(shù).它將兩屬性的屬性值按數(shù)據(jù)的一定順序排列位次,以各屬性的屬性值的位次代替實(shí)際數(shù)據(jù)而求得的一種統(tǒng)計(jì)量.因此,秩相關(guān)系數(shù)不僅可以處理符號(hào)型數(shù)據(jù)和數(shù)值型數(shù)據(jù),還可以處理數(shù)值型與符號(hào)型共同存在的混合數(shù)據(jù).本文將秩相關(guān)系數(shù)的概念引入到鄰域粗糙集模型中.

定義15.設(shè)鄰域決策系統(tǒng)NDT.?ai,aj∈C,第k個(gè)對(duì)象在ai,aj屬性下對(duì)應(yīng)的秩次分別記為Rk和Sk,則所有對(duì)象可得|U|對(duì)秩組合(R1,S1),(R2,S2),…,(R|U|,S|U|),其中,|U|對(duì)秩可能完全相同,也可能完全相反,或者不完全相同.

定義16.設(shè)鄰域決策系統(tǒng)NDT.?ai,aj∈C,對(duì)象U在ai,aj下有|U|對(duì)秩組合(R1,S1),(R2,S2),…,(R|U|,S|U|),則屬性ai,aj的相關(guān)系數(shù)rij定義為

(16)

且rij滿足如下性質(zhì):

1)0≤rij≤1;

2)當(dāng)rij越接近1時(shí),表示條件屬性ai,aj之間的相關(guān)程度越高.當(dāng)rij越接近0時(shí),表示條件屬性ai,aj之間的相關(guān)程度越低.

下面舉例簡要進(jìn)行說明.

例1.給定決策表S如表1所示.其中U={x1,x2,x3,x4},C={a,b}.

①獲取表1中所有對(duì)象在屬性a下的對(duì)應(yīng)的屬性值序列為Aa={x1=0.1,x2=0.6,x3=0.4,x4=0.5}.

②將Aa根據(jù)屬性值從小到大的順序進(jìn)行排序,得到一個(gè)有序?qū)ο笮蛄衶x1,x3,x4,x2},并進(jìn)行編秩得到序列{x1=1,x3=2,x4=3,x2=4}.

⑥根據(jù)公式(16)計(jì)算相關(guān)系數(shù)為0.8.

表1 決策表STable 1 Decision table S

表2 秩次表S1Table 2 Rank table S1

5 屬性約簡算法

下面分別介紹計(jì)算相關(guān)系數(shù)算法,計(jì)算鄰域條件熵算法以及基于相關(guān)系數(shù)的不一致鄰域粗糙集屬性約簡算法.

5.1 計(jì)算相關(guān)系數(shù)算法

在鄰域粗糙集模型中,大部分屬性約簡算法主要是通過基于依賴度或者基于熵的啟發(fā)式函數(shù)來刻畫條件屬性對(duì)決策屬性的重要度.然而,這些算法僅僅只考慮了條件屬性對(duì)決策屬性的影響,并沒有考慮條件屬性之間的相互影響會(huì)對(duì)約簡結(jié)果產(chǎn)生影響.在實(shí)際應(yīng)用中,條件屬性之間相互影響的情況廣泛存在,當(dāng)兩個(gè)條件屬性之間的相關(guān)系數(shù)較大時(shí),二者同時(shí)在約簡集中會(huì)導(dǎo)致數(shù)據(jù)冗余.因此在約簡算法中只考慮條件屬性和決策屬性之間的關(guān)系遠(yuǎn)遠(yuǎn)不夠,本文通過引入秩相關(guān)系數(shù)的概念,通過計(jì)算條件屬性之間的相關(guān)系數(shù),來剔除冗余的條件屬性.

根據(jù)前面的研究,下面給出計(jì)算相關(guān)系數(shù)的算法.

算法1.計(jì)算相關(guān)系數(shù)

輸入:NDT=〈U,A,V,f,N〉,ai,aj;

輸出:相關(guān)系數(shù)rij.

Step1.獲取所有對(duì)象在ai,aj下的屬性值序列Ai,Bj;

Step2.將Ai,Bj根據(jù)屬性值從小到大的順序進(jìn)行排列,并分別進(jìn)行編秩,若屬性值相等時(shí)取平均數(shù);

Step4.fork=1to|U|do:

Step5.fork=1to|U|do

計(jì)算r(ai,aj);

Step6.計(jì)算rij;

Step7.返回相關(guān)系數(shù)rij.

5.2 計(jì)算鄰域條件熵算法

算法2.計(jì)算鄰域條件熵

輸入:鄰域決策系統(tǒng)NDT=(U,A,V,f,N)和B?C.其中,鄰域半徑為δ,U/D={[x1]D,[x2]D,…,[xn]D}.

輸出:鄰域條件熵Eδ(D|B).

Step1.初始化.令Eδ(D|B)=0;

Step2.對(duì)于每個(gè)1≤i≤|U|,循環(huán)執(zhí)行:

①計(jì)算對(duì)象xi的鄰域類δB(xi);

②獲取對(duì)象xi的決策類[xi]D;

③計(jì)算鄰域條件熵

Step3.計(jì)算鄰域條件熵

Step4.返回鄰域條件熵Eδ(D|B).

5.3 基于相關(guān)系數(shù)的不一致鄰域粗糙集屬性約簡算法(RNRS)

RNRS算法從空集開始,首先計(jì)算條件屬性集中任意屬性的鄰域關(guān)系;然后遍歷約簡集之外的所有條件屬性計(jì)算相應(yīng)的屬性重要度并從中選擇屬性重要度最大的條件屬性與約簡集中的所有屬性進(jìn)行相關(guān)系數(shù)計(jì)算;如果條件屬性之間的相關(guān)系數(shù)都小于預(yù)先設(shè)定的相關(guān)系數(shù)閾值λ時(shí),則對(duì)當(dāng)前的屬性進(jìn)行判斷,如果加入該屬性后屬性重要度大于0,則將該屬性加入到約簡集中后繼續(xù)遍歷約簡集之外的屬性;如果加入該屬性后屬性重要度等于0,直接輸出約簡結(jié)果;如果條件屬性之間的相關(guān)系數(shù)存在大于等于相關(guān)系數(shù)閾值λ時(shí),將該屬性從候選條件屬性中刪除,繼續(xù)遍歷約簡集之外的屬性直到屬性重要度為0結(jié)束.

下面給出算法詳細(xì)步驟.

算法3.RNRS算法

輸入:NDT=〈U,A,V,f,N〉;

輸出:約簡red.

Step1.初始化,令red=?,標(biāo)記集合flag=?;

Step2.對(duì)條件屬性集C中任意屬性a,計(jì)算鄰域關(guān)系Na;

Step3.對(duì)于任意ai∈C-(red∪flag),循環(huán)執(zhí)行:

①利用算法2計(jì)算ai的屬性重要度

SIG(ai,red,D)=Eδ(D|red∪a)-Eδ(D|red);

//其中Eδ(D|?)=0

②選擇一個(gè)屬性ak滿足條件:

SIG(ak,red,D)=max{SIG(ai,red,D)}.

Step4.for ?aj∈red,循環(huán)執(zhí)行:

①利用算法1計(jì)算

aj和ak之間的相關(guān)系數(shù)rjk;

② ifrjk≥λ;

令flag=flag∪ak;

跳轉(zhuǎn)到Step3;

else

跳出此次循環(huán).

Step5.ifSIG(ak,red,D)>0;

令red=red∪ak;

跳轉(zhuǎn)到Step 3;

else

跳轉(zhuǎn)到Step 6.

Step6.返回約簡red.

6 實(shí)驗(yàn)分析

6.1 實(shí)驗(yàn)準(zhǔn)備

為了更好的驗(yàn)證算法的有效性,本文從UCI數(shù)據(jù)集中選用了4組數(shù)據(jù),具體描述見表3.同時(shí)為了在計(jì)算鄰域時(shí)消除量綱的影響,實(shí)驗(yàn)所用的所有數(shù)值型數(shù)據(jù)全部被標(biāo)準(zhǔn)化到[0,1]區(qū)間.屬性約簡的結(jié)果會(huì)受到鄰域半徑的影響.因此,為了求解問題必須先進(jìn)行實(shí)驗(yàn)選取合適的鄰域半徑,然后再進(jìn)行屬性約簡算法的比較.本次實(shí)驗(yàn)我們通過相關(guān)實(shí)驗(yàn)分析后設(shè)置鄰域半徑為0.35.

表3 數(shù)據(jù)集描述Table 3 Data set description

實(shí)驗(yàn)測試環(huán)境為一臺(tái)i3 3.7GHz(4GB 內(nèi)存,Windows 10 操作系統(tǒng)),采用Java語言實(shí)現(xiàn)所有算法,通過Matlab語言進(jìn)行繪圖.同時(shí)本文將RNRS算法與以下幾個(gè)算法進(jìn)行了比較:

1)基于依賴度的算法(DNRS)[9];

2)基于互信息的算法(MNRS)[15];

3)基于信息熵的方法(INRS)[22].

6.2 算法有效性驗(yàn)證

為了更好的比較約簡屬性的分類能力,實(shí)驗(yàn)引入流行的CART和SVM兩種分類器,并以10折交叉驗(yàn)證的分類精度來評(píng)價(jià)所選屬性的質(zhì)量.

6.2.1 相關(guān)系數(shù)閾值選取

圖1-圖4分別展示了4組數(shù)據(jù)集在約簡后,RNRS算法在CART和SVM兩種分類器下的分類精度隨相關(guān)系數(shù)閾值λ的變化情況.其中λ的取值以0.05為步長從0到1變化.圖1展示的是wine數(shù)據(jù)集的變化情況,當(dāng)λ較小時(shí),RNRS算法在兩種分類器下的分類精度明顯較小;隨著λ的增長RNRS算法的分類精度逐漸提高,當(dāng)λ值在0.65附近時(shí),RNRS算法在CART和SVM分類器下的分類精度波動(dòng)較為穩(wěn)定并且獲得較高的分類精度.當(dāng)λ接近1時(shí),分類精度不再變化.圖2-圖4中也能得出相似的結(jié)果.這與實(shí)際情況是相符合的,當(dāng)λ較小時(shí),對(duì)篩選冗余屬性的要求過于嚴(yán)格,導(dǎo)致分類精度的下降;當(dāng)λ過大時(shí),對(duì)篩選冗余屬性的要求又過于寬松,所以在數(shù)值型數(shù)據(jù)中分類精度沒有明顯變化.綜合考慮,本文選擇的相關(guān)系數(shù)閾值為0.65.

圖1 wine數(shù)據(jù)集Fig.1 winedataset圖2 iono數(shù)據(jù)集Fig.2 ionodataset

圖3 wdbc數(shù)據(jù)集Fig.3 wdbcdataset圖4 wpbc數(shù)據(jù)集Fig.4 wpbcdataset

6.2.2 約簡屬性數(shù)量比較

首先比較不同算法的約簡屬性數(shù)量.表4中展示的是4種算法約簡后的屬性數(shù)量與數(shù)據(jù)集原始屬性數(shù)量的比較.從實(shí)驗(yàn)的結(jié)果可以看出,4種算法都可以約簡掉冗余的屬性.其中,RNRS算法在大部分?jǐn)?shù)據(jù)集中屬性數(shù)量都小于其它3中對(duì)比算法.從約簡結(jié)果的平均數(shù)來看,本文的RNRS算法獲得的平均屬性數(shù)為10,而DNRS、MNRS和INRS算法分別為20、12和11,因此從總體來看,本文的算法同樣能夠獲得較少的屬性數(shù)量.

表4 特征數(shù)量比較Table 4 Comparison of feature number

6.2.3 分類精度比較

表5展示了在CART分類器下4種約簡算法約簡后的分類精度和原始精度的比較.觀察表5中的數(shù)據(jù)發(fā)現(xiàn),在wine數(shù)據(jù)集中,RNRS算法的分類精度略低于其它3種算法的分類精度;在wdbc數(shù)據(jù)集中,RNRS算法的分類精度略低于INRS算法,但是高于DNRS和MNRS算法;在iono和wpbc這2個(gè)數(shù)據(jù)集中,RNRS算法的分類精度略高于其它3種對(duì)比算法.從分類精度的平均數(shù)綜合來看,RNRS算法的平均精度高于原始精度和其它3種算法的精度.這說明RNRS算法在CART分類器下在剔除冗余的條件屬性后還能夠獲得較好的分類精度.

表5 CART分類器下分類精度比較Table 5 Comparison of classification accuracy in CART classifier

表6展示了在SVM分類器下4種約簡算法約簡后的分類精度和原始精度的比較,通過觀察表6中的數(shù)據(jù)發(fā)現(xiàn),在iono數(shù)據(jù)集中,RNRS算法的分類精度略低于DNRS和MNRS算法,但是高于INRS算法.在wpbc數(shù)據(jù)集中,RNRS算法的分類精度略低于MNRS算法,但是高于DNRS和INRS算法.在wine和wdbc數(shù)據(jù)集中RNRS算法的分類精度高于其它3種算法.從平均分類精度來看,RNRS算法的平均精度為0.9097,高于其它3種算法和原始屬性的分類精度.這說明RNRS算法在SVM分類器下在剔除冗余的條件屬性后也能夠獲得較好的分類精度.

表6 SVM分類器下分類精度比較Table 6 Comparison of classification accuracy in SVM classifier

通過以上的幾組實(shí)驗(yàn)對(duì)比,表明本文的算法是有效的.充分說明考慮了條件屬性之間的影響后,引入相關(guān)系數(shù)的約簡算法能夠在屬性約簡中既保持較少的屬性特征,又能獲得更好的分類精度.

7 結(jié)論與展望

本文首先分析了不一致鄰域粗糙集的相關(guān)性質(zhì),針對(duì)目前已有的不確定性度量方法難以應(yīng)用到鄰域粗糙集中,提出鄰域條件熵的不確定度量方法,分析證明了相關(guān)的性質(zhì)定理.同時(shí)考慮到條件屬性之間的關(guān)系會(huì)影響約簡屬性數(shù)量和分類精度,將統(tǒng)計(jì)學(xué)中秩相關(guān)系數(shù)的概念用到鄰域粗糙集屬性約簡算法中,提出基于相關(guān)系數(shù)的屬性約簡算法.該算法通過計(jì)算屬性之間的相關(guān)系數(shù)來剔除冗余屬性.從而保證了約簡結(jié)果既能表達(dá)原數(shù)據(jù)所包含的信息,又減少了結(jié)果的冗余程度.并通過實(shí)驗(yàn)展示了該算法在屬性約簡中的作用.實(shí)驗(yàn)結(jié)果表明,本文提出的算法具有較好的效果.下一步的工作是如何在屬性約簡過程中選擇合適的相關(guān)系數(shù)閾值.

[1] Pawlak Z.Rough sets[J].Int J of Computer and Information Sciences,1982,11(5):341-356.

[2] Sarah Vluymans,Lynn D′eer ,Yvan Saeys,et al.Applications of fuzzy rough set theory in machine learning:a survey[J].Fundamenta Informaticae,2015,142(1-4):53-86.

[3] Rahman Ali,Muhammad Hameed Siddiqi,Sungyoung Lee.Rough setbased approaches for discretization:a compact reviews[J].Artificial Intelligence Review,2015,44(2):235-263.

[4] Wang De-lu,Song Xue-feng,Yuan Jing-ying.Forecasting core business transformation risk using the optimal rough set and the neural network[J].Journal of Forecasting,2015,34(6):478-491.

[5] Chen Li-fei,Tsai Chih-Tsung.Data mining framework based on rough set theory to improve location selection decisions:a case study of a restaurant chain[J].Tourism Management,2016,53(4):197-206.

[6] Jensen R,Shen Q.Semantics-preserving dimensionality r-eduction:rough and fuzzy-rough-based approaches[J].IEEE Trans.On Knowledge and Data Engineering,2004,16(12):1457-1471.

[7] Lin T Y.Granular computing on binary relations[C].Rough Sets and Current Trends in Computing,Third International Conference,RSCTC 2002,Malvern,PA,USA,Oct-ober 14-16,2002,Proceedings,DBLP,2002:296-299.

[8] Hu Qing-hua,Yu Da-ren,Xie Zong-xia.Numerical attrib-ute reduction based on neighborhood granulation and rough approximation [J].Journal of Software,2008,19(3):640-649.

[9] Hu Qing-hua,Yu Da-ren,Liu Jin-fu,et al.Neighborhood rough set based heterogeneous feature subset selection[J]. Information Sciences,2008,178(18):3577-3594.

[10] Miao Duo-qian.Information representation of the conce-pts and operations in rough set theory[J].Journal of Soft-ware,1999,22(2):113-116.

[11] Beaubouef T,Petry F E,Arora G.Information-theoretic measures of uncertainty for rough sets and rough relation-al databases[J].Information Sciences,1998,109(1-4):185-195.

[12] Chen Yu-ming,Wu Ke-shou,Chen Xu-hui,et al.An ent-ropy-based uncertainty measurement approach in neighbo-rhood systems [J].Information Sciences,2014,279(9):239-250.

[13] Qian Yu-hua,Ling Ji-ye.Combination entropy and com-bination granulation in rough set theory[J].International Journal of Uncertainty Fuzziness and Knowledge-Based Systems,2011,16(2):179-193.

[14] Lu Juan,Li De-yu,Zhai Yan-hui,et al.A model for type-2 fuzzy rough sets[J].Information Sciences,2016,328(C):359-377.

[15] Hu Qing-hua,Zhang Lei,Zhang David,et al.Measuring relevance between discrete and continuous features based on neighborhood mutual information[J].Expert Systems with Applications,2011,38(9):10737-10750.

[16] Hu Qian-hua,Che Xun-jian,Zhang Lei,et al.Feature evaluation

and selection based on neighborhood soft margin[J].Neurocomputing,2010,73(10-12):2114-2124.

[17] Huang Guo-shun,Zeng Fan-zhi,Wen Han.Uncertainty measures of rough set based on conditional possibility[J].Control and Decision,2015,30(6):1099-1105.

[18] Wang Guo-yin.Rough reduction in algebra view and information view[J].International Journal of Intelligent Systems,2003,18(6):679-688.

[19] Gao Hui-xuan.Applied multivariate statistical analysis[M].Beijing:Beijing University Press,2005:218-228.

[20] Wang Jing-long,Liang Xiao-yun.Nonparametric statistical analysis[M].Beijing:Higher Education Press,2006.

[21] Jia Jun-ping,He Xiao-qun,Jin Yong-jin.Statistics[M].Beijing:Renmin University of China Press,2012:226-230.

[22] Chen Yu-ming,Zeng Zhi-qiang,Tian Cui-hua.Uncertainty measures using entropy and neighborhood rough sets[J].Journal of Frontiers of Computer Science and Technology,2016,10(12):1793-1800.

附中文參考文獻(xiàn):

[8] 胡清華,于達(dá)仁,謝宗霞.基于鄰域粒化和粗糙逼近的數(shù)值屬性約簡[J].軟件學(xué)報(bào),2008,19(3):640-649.

[17] 黃國順,曾凡智,文 翰.基于條件概率的粗糙集不確定性度量[J].控制與決策,2015,30(6):1099-1105.

[19] 高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M].北京:北京大學(xué)出版社,2005:218-228.

[20] 王靜龍,梁小筠.非參數(shù)統(tǒng)計(jì)分析[M].北京:高等教育出版社,2006.

[21] 賈俊平,何曉群,金勇進(jìn).統(tǒng)計(jì)學(xué)[M].北京:中國人民大學(xué)出版社,2012:226-230.

[22] 陳玉明,曾志強(qiáng),田翠華.鄰域粗糙集中不確定性的熵度量方法[J].計(jì)算機(jī)科學(xué)與探索,2016,10(12):1793-1800.

猜你喜歡
分類
2021年本刊分類總目錄
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
星星的分類
我給資源分分類
垃圾分類,你準(zhǔn)備好了嗎
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
按需分類
教你一招:數(shù)的分類
主站蜘蛛池模板: 97国内精品久久久久不卡| 国产一级视频久久| 日韩精品高清自在线| 成人无码区免费视频网站蜜臀| 国产成人精品高清在线| 国产97区一区二区三区无码| 日韩精品专区免费无码aⅴ| 国产免费久久精品44| 四虎成人在线视频| 91丝袜乱伦| 亚洲综合九九| 亚洲AV永久无码精品古装片| 免费看久久精品99| 欧美一级视频免费| 99re经典视频在线| 国产综合日韩另类一区二区| 在线免费不卡视频| 干中文字幕| 久一在线视频| 人人艹人人爽| 亚洲成人精品| 国产菊爆视频在线观看| 国产精品内射视频| 欧美成人区| 欧美成a人片在线观看| 91麻豆久久久| 毛片免费在线| 欧美19综合中文字幕| 欧美成人综合视频| 日本免费a视频| 亚洲高清国产拍精品26u| 国产国产人免费视频成18| 亚洲不卡av中文在线| 婷婷综合缴情亚洲五月伊| 亚洲国产成人麻豆精品| 六月婷婷精品视频在线观看| 久久国产精品波多野结衣| 丁香婷婷久久| 成人国产一区二区三区| 欧美精品成人| 日韩无码真实干出血视频| 久热这里只有精品6| 亚洲第一成年网| 福利在线免费视频| 在线观看精品国产入口| 国产无码网站在线观看| 欧美激情成人网| 四虎永久免费地址| 欧美日韩第二页| 国产成人无码综合亚洲日韩不卡| www.91在线播放| 亚洲成网777777国产精品| 国模私拍一区二区三区| 亚洲精品成人福利在线电影| 亚洲视频免| 伊大人香蕉久久网欧美| 91成人免费观看| 久久精品人人做人人爽97| 婷婷伊人久久| 狠狠久久综合伊人不卡| 久久综合亚洲鲁鲁九月天| 熟妇无码人妻| 亚洲免费三区| 国产乱人伦精品一区二区| 亚洲国产欧美国产综合久久| 手机永久AV在线播放| julia中文字幕久久亚洲| 国产福利小视频高清在线观看| 国产18在线| 亚洲高清日韩heyzo| 亚洲Aⅴ无码专区在线观看q| 青草91视频免费观看| 狠狠色噜噜狠狠狠狠奇米777| 99九九成人免费视频精品 | 亚洲视频一区在线| 色婷婷视频在线| 欧美午夜在线观看| 毛片在线看网站| 五月天福利视频| 欧美中文字幕第一页线路一| 伊人久久久久久久久久| 欧美不卡视频在线观看|