基于模糊鄰域粗糙集的啟發(fā)式屬性約簡算法

2018-05-08 07:51:25任曉霞

計算機工程與應(yīng)用 2018年9期

關(guān)鍵詞：定義

任曉霞，薛凡

REN Xiaoxia1,XUE Fan2，3

1.張家口學(xué)院理學(xué)院，河北張家口 075000

2.武漢大學(xué) 計算機學(xué)院軟件工程國家重點實驗室，武漢 430072

3.黃淮學(xué)院創(chuàng)新創(chuàng)業(yè)學(xué)院，河南駐馬店 463000

1.College of Science,Zhangjiakou University,Zhangjiakou,Hebei 075000,China

2.State Key Laboratory of Software Engineering,School of Computer,Wuhan University,Wuhan 430072,China

3.School of Innovation and Entrepreneurship,Huanghuai University,Zhumadian,Henan 463000,China

1 引言

屬性約簡即特征選擇，是粗糙集理論中一項重要的應(yīng)用[1]，由于現(xiàn)實中很多的數(shù)據(jù)集存在著大量的冗余屬性，屬性約簡其主要思想是在保持已有知識的分類能力不變的情形去消除那些冗余屬性，這樣可以降低數(shù)據(jù)集的規(guī)模，從而提高知識發(fā)現(xiàn)的效率。目前，如何構(gòu)造出優(yōu)越的啟發(fā)式函數(shù)對數(shù)據(jù)集中的屬性進(jìn)行重要度評估是目前屬性約簡研究的重點[2-5]。

粗糙集理論[1]是波蘭學(xué)者Pawlak提出的一種處理不確定性數(shù)據(jù)的數(shù)學(xué)方法，由于它不需要數(shù)據(jù)之外的任何先驗信息，因此目前已廣泛運用于數(shù)據(jù)的屬性約簡[2-5]中。傳統(tǒng)的粗糙集理論建立在等價關(guān)系基礎(chǔ)上，僅適用于離散型屬性。為了解決這個問題，近年來，學(xué)者們提出了多種改進(jìn)的模型，使得粗糙集理論可以很好地處理數(shù)值型數(shù)據(jù)。例如，運用鄰域關(guān)系取代等價關(guān)系，鄰域粗糙集模型[6-7]是目前處理數(shù)值型數(shù)據(jù)的一種常用模型，Dubois等[8]學(xué)者將模糊集融入粗糙集理論中，提出了模糊粗糙集模型。這兩種模型都是處理數(shù)值型數(shù)據(jù)常用且有效的方法，基于這兩種模型的屬性約簡算法也被大量提出。例如，Hu等[3]學(xué)者運用屬性依賴度作為啟發(fā)式函數(shù)提出了基于鄰域粗糙集模型的混合屬性約簡算法。段潔等[9]學(xué)者提出了鄰域粗糙集的多標(biāo)記屬性約簡。Wang[10-13]等學(xué)者運用屬性依賴度提出了基于改進(jìn)模糊粗糙集的特征選擇算法等。對于目前這些眾多的算法，它們大多是以依賴度為啟發(fā)式函數(shù)來度量屬性。

在文獻(xiàn)[13]中，Wang將鄰域粗糙集與模糊粗糙集結(jié)合，提出了模糊鄰域粗糙集模型，并根據(jù)依賴度度量構(gòu)造出了相應(yīng)的屬性約簡算法。徐風(fēng)等[14]學(xué)者證明了模糊鄰域粗糙集模型對信息系統(tǒng)具有更好的不確定性度量效果。由于依賴度是通過近似逼近的角度對屬性進(jìn)行評估，但是這種方法顯得過于單一，并不能對屬性有著更精確的度量。因此本文在此基礎(chǔ)上重新定義了依賴度，并且提出了模糊鄰域粒度的概念，然后將這兩種方法用于屬性重要性的評估，提出相應(yīng)的屬性約簡算法。最后進(jìn)行一系列實驗來比較本文所提出的算法與目前已有算法的屬性約簡性能，從而驗證本文算法的有效性和優(yōu)越性。

2 基本理論

在機器學(xué)習(xí)和數(shù)據(jù)挖掘等領(lǐng)域中，結(jié)構(gòu)化的數(shù)據(jù)表示成信息系統(tǒng)IS=(U,AT,V)的形式，其中U被稱為論域，AT為屬性集，V為屬性的值域。若信息系統(tǒng)中屬性集AT=C?D，且C?D=?，其中C,D分別被稱為條件屬性和決策屬性，那么稱這個信息系統(tǒng)為決策信息系統(tǒng)(DIS)。

模糊集理論[15]是在傳統(tǒng)明確集基礎(chǔ)上的推廣，定義論域U 上的函數(shù)映射(?):U→[0,1]，被稱為U 上的模糊集，(x)稱為對象x關(guān)于模糊集的模糊隸屬度，U上的所有的模糊集組成的全集表示為F(U)。

設(shè)鄰域信息系統(tǒng)NIS=(U,AT,V)，U為論域，AT為全體屬性集且均為數(shù)值型數(shù)據(jù)，V為屬性的值域。由B?AT在U上誘導(dǎo)的模糊相似關(guān)系R滿足?x∈U，R(x,x)=1 ，并且對于?a∈AT ，由 a 誘導(dǎo)的模糊相似關(guān)系為，并且 R與之間滿足對象 x 在 U 上關(guān)于 B 的模糊信息粒定義為 [x](y)=R(x,y)。

定義1[12-13]設(shè)鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，決策屬性劃分為，R是由B在U上誘導(dǎo)的模糊相似關(guān)系，那么?x∈U的模糊決策定義為：

定義2[13-14]設(shè)鄰域信息系統(tǒng)NIS=(U,AT,V,f)，R是由B?AT在U上誘導(dǎo)的模糊相似關(guān)系，?x∈U關(guān)于R的模糊鄰域定義為：

這里的δ被稱為模糊鄰域的鄰域半徑，滿足0≤δ≤1。通過模糊相似關(guān)系R和鄰域半徑δ就可以確定?x∈U的模糊鄰域。

定義3[13-14]對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，B?C，決策屬性劃分為D2,…,Dm}，其對應(yīng)的模糊決策為是由B在U上誘導(dǎo)的模糊相似關(guān)系，令鄰域半徑為δ，那么決策類Di關(guān)于R的模糊鄰域粗糙集的下近似和上近似分別定義為：

3 依賴度與模糊鄰域粒度

在粗糙集理論中，屬性依賴度[2-5]是一個非常重要的概念，它反映了條件屬性與決策屬性之間的關(guān)系程度，是構(gòu)造基于粗糙集理論屬性約簡算法的關(guān)鍵[3，5]。本文這里定義基于模糊鄰域粗糙集模型的依賴度。

定義4對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，B?C，決策劃分為是由B在U上誘導(dǎo)的模糊相似關(guān)系，設(shè)鄰域半徑δ，那么決策屬性集D關(guān)于B的依賴度定義為：

依賴度表示的是包含在正區(qū)域的對象占論域?qū)ο蟮谋壤蚨梢宰鳛闂l件屬性與決策屬性之間的關(guān)系程度的度量[6]。根據(jù)定義3可以看出，模糊相似關(guān)系RB和鄰域半徑δ對依賴度有著很重要的影響。

下文中，將適當(dāng)?shù)厥÷脏徲虬霃溅牡臉?biāo)記。

性質(zhì)1對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，B1?B2?C ，那么屬性依賴度滿足 DE(D)≤DE(D)。

證明由于 B1?B2?C ，那么顯然有根據(jù)定義2可以得到，所以根據(jù)定義3可推出滿足，因此，即滿足關(guān)系證畢。

性質(zhì)2對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，B?C ，鄰域半徑 δ1,δ2滿足 δ1≤δ2，那么屬性依賴度滿足

證明由于 δ1≤δ2，根據(jù)定義2有，所以對于滿足，因而，即滿足關(guān) 系證畢。

粒計算理論[16]是智能信息處理中一種很重要的研究方法，其中粒結(jié)構(gòu)模型[17-18]是該理論的一種重要表現(xiàn)形式，同時也是評價信息系統(tǒng)分類能力的一個重要的指標(biāo)。目前學(xué)者們提出了多種粒結(jié)構(gòu)模型[14，17-18]，本文這里在模糊相似關(guān)系的基礎(chǔ)上提出一種新的粒結(jié)構(gòu)模型。

定義5對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，B?C，鄰域半徑為δ，由U在模糊相似關(guān)系R上誘導(dǎo)的模糊鄰域粒結(jié)構(gòu)定義為：

類似于模糊粗糙集中信息粒度[18]的定義，這里給出基于模糊鄰域粒結(jié)構(gòu)的知識粒度。

性質(zhì)3對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，B1?B2?C，那么模糊鄰域粒度滿足GK(B2)≤GK(B1)。

證明由于 B1? B2? C ，那么 R? R，根據(jù)定義2可以得到 ?x∈U ，[x]?[x]，所以由定義6可以容易得到GK(B2)≤GK(B1)。證畢。

性質(zhì)4對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，B?C ，鄰域半徑 δ1,δ2滿足 δ1≤δ2，那么模糊鄰域粒度滿足GKδ1(B)≤GKδ2(B)。

證明由于 δ1≤δ2，根據(jù)定義2有那么由定義6可以容易得到GKδ1(B)≤GKδ2(B)。

在定義4中，依賴度是通過近似逼近的視角去對條件屬性集進(jìn)行評估，而定義6中的模糊鄰域粒度可以體現(xiàn)出條件屬性集對系統(tǒng)的分類性能，這兩種方法表現(xiàn)出了對屬性集的不同視角評估，因此將它們結(jié)合起來可以更為全面的評估屬性，達(dá)到更好的屬性重要度度量，同時可以體現(xiàn)出兩種方法的優(yōu)越性[15，18]。

定義7對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，B?C，R是由B在U上誘導(dǎo)的模糊相似關(guān)系，設(shè)鄰域半徑δ，定義基于模糊鄰域粗糙集的依賴度和知識粒度混合度量為：

一般情況下，信息系統(tǒng)的論域非空，因此模糊鄰域粒度GKδ(B)≠0。結(jié)合性質(zhì)1～4，可以發(fā)現(xiàn)，當(dāng)鄰域半徑δ不變，隨著屬性集B的逐漸增大，Hδ(B)也是逐漸增大的。當(dāng)屬性集B不變時，隨著鄰域半徑δ的逐漸增大，Hδ(B)是逐漸減小的。特別的，當(dāng)B=?時，Hδ(B)=0 。

本文依據(jù)定義7的混合度量給出信息系統(tǒng)的屬性約簡如定義8所示。

定義8對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，若B?C是該信息系統(tǒng)的一個屬性約簡集當(dāng)如下兩點同時成立：

定義9對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，B?C，R是由B在U上誘導(dǎo)的模糊相似關(guān)系，設(shè)鄰域半徑δ，對于?a∈B在D下關(guān)于B的第一種屬性重要度定義為：

定義10對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，B?C，R是由B在U上誘導(dǎo)的模糊相似關(guān)系，設(shè)鄰域半徑δ，對于?a∈C-B在D下關(guān)于B的第二種屬性重要度定義為：

這兩種屬性重要度的定義表示了兩種不同的含義，定義9表示的是屬性子集B中內(nèi)部屬性a關(guān)于B的屬性重要度，而定義10表示的是屬性子集B的外部屬性a關(guān)于B的屬性重要度。

4 啟發(fā)式屬性約簡算法

屬性約簡作為粗糙集理論的一個重要的應(yīng)用而得到學(xué)者的廣泛關(guān)注，如何對信息系統(tǒng)中屬性進(jìn)行更精準(zhǔn)的重要度評估一直是該方向的研究重點[2-5]。借助定義9和定義10的兩種屬性重要度作為啟發(fā)式函數(shù)，這里給出一種基于模糊鄰域粗糙集的啟發(fā)式屬性約簡算法。

對于鄰域決策信息系統(tǒng)NDIS=(U,C?D,V,f)，B?C，鄰域半徑δ，算法1給出的是模糊鄰域粗糙集的模糊粒度度量計算方法。

算法1基于模糊鄰域粗糙集的依賴度和模糊鄰域粒度混合度量Hδ(B)。

輸入：NDIS=(U,C?D,V,f)，B?C，鄰域半徑δ。

輸出：Hδ(B)。

步驟5根據(jù)定義7返回結(jié)果Hδ(B)。

算法2基于模糊鄰域粗糙集的啟發(fā)式屬性約簡算法。

輸入：NDIS=(U,C?D,V,f)，鄰域半徑δ。

輸出：屬性約簡red。

步驟1初始化red=?，Hδ(?)=0。

步驟2對于?a∈C-red，根據(jù)定義10計算每個屬性重要度，選擇屬性重要度最大的那個屬性，記為′。

步驟4對于?a∈red，找出所有使Hδ(red-{a})=Hδ(C)成立的屬性，記Π←?，將這些屬性添加入Π中，如果Π為空集，輸?shù)讲襟E6，否則轉(zhuǎn)到步驟5。

步驟6返回red，算法終止。

步驟2和步驟3通過屬性重要度函數(shù)對數(shù)據(jù)集的屬性集進(jìn)行啟發(fā)式搜索，是一個不斷迭代的過程，算法剛開始時候，red=?，Hδ(red)=0，然后通過啟發(fā)式函數(shù)每次迭代選擇出一個屬性，并將這個屬性添加入約簡集red中，根據(jù)定義7，當(dāng)約簡集red逐漸增大時，其Hδ(red)的值也是增大的，經(jīng)過不斷迭代直到滿足Hδ(red)=Hδ(C)，此時達(dá)到收斂條件。正是由于 Hδ(?)函數(shù)的單調(diào)性，因此算法2肯定是收斂的。在步驟2中，算法每次讓屬性重要度達(dá)到最大的屬性加入red中，這樣就加速了算法2的收斂速度。算法2收斂時，得到的集合red是全集C的一個約簡，但不一定是一個最優(yōu)的約簡，因為集合red內(nèi)部可能存在屬性之間的依賴導(dǎo)致某些屬性冗余[3]，因此該算法在步驟4中進(jìn)行了進(jìn)一步的屬性剔除，從而得到最終的約簡結(jié)果，這個結(jié)果既保持了原度量結(jié)果的收斂性，又保證了約簡集red的極小性。

根據(jù)算法1的時間復(fù)雜度和文獻(xiàn)[3]，算法2的時間復(fù)雜度為 O(c2?n2)。

5 實驗分析

為了驗證本文所提出的啟發(fā)式屬性約簡算法具有一定的優(yōu)越性，本實驗將所提出的算法與其他的相關(guān)算法對同一組數(shù)據(jù)集進(jìn)行實驗，然后通過實驗結(jié)果的約簡集、約簡耗時和約簡集的分類精度來比較算法的優(yōu)越性。參與實驗的數(shù)據(jù)集均選取自UCI標(biāo)準(zhǔn)數(shù)據(jù)集庫，具體信息如表1所示。

表1 UCI數(shù)據(jù)集

實驗中選取參與比較的相關(guān)算法分別為：一種相對決策熵度量的高效特征選擇算法（算法1）[5]，基于改進(jìn)模糊粒化的模糊粗糙集屬性約簡算法（算法2）[12]，基于鄰域組合測度的屬性約簡算法（算法3）[19]，基于改進(jìn)模糊粗糙集的一種模糊條件熵的特征選擇算法（算法4）[20]，基于鄰域?qū)傩詤^(qū)分度量的屬性約簡算法（算法5）[21]，基于改進(jìn)鄰域?；哪：靥卣鬟x擇算法（算法6）[22]，記本文所提出的算法為算法7。

在這些算法中，算法2、算法4、算法5和算法6是基于單一度量方法對屬性進(jìn)行度量，而算法1、算法3和算法7是通過多種方法進(jìn)行組合來度量屬性。在實驗開始之前，為了消除屬性量綱的影響，所有數(shù)據(jù)集的屬性值均被歸一化到[0，1]區(qū)間。算法1是針對離散型數(shù)據(jù)集的特征選擇算法，因此在運用算法1前需將連續(xù)數(shù)據(jù)進(jìn)行離散化處理。在實驗分析過程中，需要運用分類器來評估約簡結(jié)果的優(yōu)劣，本實驗采用支持向量機（SVM）分類器和分類決策樹（CART）分類器。各個算法采用Matlab2014b進(jìn)行編程實現(xiàn)，實驗運行的硬件環(huán)境為Intel i3 7500 3.40 GHz的處理器，內(nèi)存為8 GB的個人主機。

對于本文所提出的屬性約簡算法，在開始之前需要確定鄰域半徑δ的值，并且該值的選取對最終的屬性約簡結(jié)果有著很重要的影響，因此為了得到最優(yōu)的實驗結(jié)果，本實驗嘗試通過取多個值分別進(jìn)行實驗來選擇最優(yōu)結(jié)果，即讓鄰域半徑從區(qū)間[0，1]按0.05的間隔分別取值，并對每個鄰域半徑分別進(jìn)行實驗，然后運用SVM分類器對每個鄰域半徑下的屬性約簡結(jié)果進(jìn)行分類訓(xùn)練，從而得到對應(yīng)實驗結(jié)果的分類精度，本文所提出的算法最終約簡結(jié)果選取為分類精度最高的屬性子集。表2所示的是7種算法約簡結(jié)果集合基數(shù)的大小比較。

表2 7種算法的約簡集大小比較

觀察表2可以看出，7種算法得到的約簡結(jié)果均小于原數(shù)據(jù)集的屬性總數(shù)，部分?jǐn)?shù)據(jù)集遠(yuǎn)小于原數(shù)據(jù)集，這說明了現(xiàn)實中很多數(shù)據(jù)集普遍存在著很多的冗余屬性，從而體現(xiàn)出屬性約簡在數(shù)據(jù)預(yù)處理中的重要性，同時也說明這7種算法的有效性。對比這7種算法的屬性約簡結(jié)果，可以看出算法3和本文所提出的算法7約簡得到的屬性子集大小整體比其他算法要小一些，例如數(shù)據(jù)集wdbc、sonar、move和gerbox。這主要是由于這兩種算法是基于多種度量方法的啟發(fā)式屬性約簡，在約簡過程中對候選屬性具有更好的度量效果，降低了度量偏差，因此能夠得到更小的約簡集。這表明，多種度量方法的結(jié)合能對屬性達(dá)到更好的評估，從而鑒別出信息系統(tǒng)更為關(guān)鍵的屬性。同時，本文所提出的算法7在多數(shù)數(shù)據(jù)集具有更小的約簡結(jié)果，這說明了基于模糊集的模糊粒化比傳統(tǒng)的明確集具有更好的集合隸屬關(guān)系表達(dá)，屬性的度量效果更佳。另外觀察表2還可以發(fā)現(xiàn)，算法1在多數(shù)數(shù)據(jù)集的約簡結(jié)果較大，這主要是由于算法1在屬性約簡前數(shù)據(jù)集經(jīng)過了離散化處理，離散化的過程可能導(dǎo)致了連續(xù)型數(shù)據(jù)集分類信息的丟失，這樣不利于數(shù)據(jù)集的屬性約簡。通過屬性約簡結(jié)果，證明了組合度量方法具有更好的屬性評估性能，能夠搜索到更優(yōu)的屬性子集，并且基于模糊集的方法具有更精準(zhǔn)的度量結(jié)果。

接下來將比較各個算法所選擇出約簡集的優(yōu)越性。本實驗利用SVM和CART兩種分類器分別對7種算法的屬性約簡結(jié)果運用十折交叉的方法對樣本數(shù)據(jù)進(jìn)行分類學(xué)習(xí)訓(xùn)練，然后計算出樣本數(shù)據(jù)的分類精度，其結(jié)果如表3和表4所示。

在表3和表4中，用“*”標(biāo)記的分類精度為7種算法中的最大值。觀察表3和表4可以發(fā)現(xiàn)，7種算法的分類精度結(jié)果差別不是很大，均接近原始數(shù)據(jù)集的分類精度，并且有一些算法在部分?jǐn)?shù)據(jù)集的分類精度高于原始數(shù)據(jù)集的分類精度，這便體現(xiàn)了屬性約簡算法的有效性。仔細(xì)比較分析可以看出，算法1、算法3和算法7約簡結(jié)果對應(yīng)的分類精度在整體上同樣比其他算法約簡結(jié)果的分類精度要高一些，這說明了，通過多種度量方法結(jié)合后約簡出來的屬性子集能夠達(dá)到更好的分類效果，從而進(jìn)一步證明了組合度量對屬性評估的優(yōu)越性。同時，算法7在部分?jǐn)?shù)據(jù)集得到的約簡結(jié)果具有更高的分類精度，說明本文所提出的屬性約簡算法在約簡結(jié)果方面具有更好的約簡性能。

表3 7種算法約簡結(jié)果在SVM下的分類精度比較%

表4 7種算法約簡結(jié)果在CART下的分類精度比較 %

圖1 算法效率比較

算法的時間復(fù)雜度是評估算法優(yōu)劣的一項重要指標(biāo)，因此接下來將比較7種算法的約簡效率。在實驗中，為了防止偶然性，讓每種算法分別對每個數(shù)據(jù)集重復(fù)約簡多次，取多次屬性約簡時間開銷的平均值作為對應(yīng)數(shù)據(jù)集屬性約簡的時間結(jié)果，具體結(jié)果如圖1所示。觀察圖1可以發(fā)現(xiàn)，在各個數(shù)據(jù)集的屬性約簡時間開銷結(jié)果中，算法1、算法3和算法7結(jié)果略多于其他算法，這主要是由于這三種算法的評估函數(shù)是多種方法的結(jié)合，在進(jìn)行計算方法無疑會增加時間的開銷，但是這三種算法都經(jīng)過了優(yōu)化，多種度量的計算都避免了重復(fù)計算，尤其是本文所提出的屬性約簡算法，其中依賴度和模糊鄰域粒度的計算都需要計算出每個對象的模糊鄰域粒，因此可以將依賴度和模糊鄰域粒度進(jìn)行同時計算，這樣可以大大降低計算量，因此所提出的算法同樣具有較高的時間效率。

綜合以上算法的約簡結(jié)果和算法的運行效率，可以看出，本文所提出的算法通過多個度量方法可以對信息系統(tǒng)的屬性達(dá)到更好的度量效果，其約簡結(jié)果優(yōu)于單一度量的啟發(fā)式屬性約簡，同時本文所提出的算法是運用模糊集的視角去構(gòu)造兩種度量，同樣具有更佳的評估效果。此外實驗結(jié)果也表明本文所提出的算法具有較高的約簡效率。另一方面，本文所提出的算法在進(jìn)行實驗時，鄰域半徑是一個需要設(shè)定的參數(shù)，這里是通過重復(fù)實驗多次才能得到最優(yōu)的結(jié)果，很難直接快速地得到合適的鄰域半徑取值，因此這也是本文所提出算法的一個的不足之處。

由于鄰域半徑δ對實驗結(jié)果有著很重要的影響，因此接下來將探究鄰域半徑δ對實驗結(jié)果是如何影響的，并且分析其取值問題，為以后的研究提供參考。圖2給出了數(shù)據(jù)集屬性約簡集大小、SVM分類精度和鄰域半徑之間的關(guān)系。觀察可以發(fā)現(xiàn)，隨著鄰域半徑的逐漸增大，算法約簡出的屬性子集大小是逐漸增大的，而分類精度剛開始逐漸增大，但是當(dāng)鄰域半徑達(dá)到0.2～0.3時，其分類精度開始趨于穩(wěn)定或略有降低，這主要是由于，剛開始時候約簡集較小，未能達(dá)到最佳的分類效果，所以分類精度較低，但是當(dāng)屬性子集較大時，較多的屬性可能會帶來噪聲數(shù)據(jù)的干擾，反而會不利于數(shù)據(jù)的分類，從而出現(xiàn)了分類精度降低的情形。根據(jù)圖2的實驗結(jié)果，本文所提出的屬性約簡算法中鄰域半徑可以取[0.2，0.3]之間較為適宜。

6 結(jié)語

屬性約簡是一項重要的數(shù)據(jù)預(yù)處理技術(shù)，如何構(gòu)造有效的屬性評估方法一直是目前研究的重點，在基于粗糙集理論的屬性約簡算法中，本文針對目前屬性評估單一性的問題，在模糊鄰域粗糙集模型中定義屬性依賴度的概念，并基于此提出了模糊鄰域粒度度量，由于依賴度和模糊鄰域粒度是兩種不同視角的屬性評估方法，因此本文將兩種方法結(jié)合提出一種新的啟發(fā)式屬性約簡算法。最后UCI實驗結(jié)果證明了所提出算法的適用性和優(yōu)越性。由于本文提出的算法只適用于數(shù)值型數(shù)據(jù)，因此接下來探索可以適用混合型數(shù)據(jù)的屬性約簡算法。

圖2 各個數(shù)據(jù)集實驗結(jié)果

參考文獻(xiàn)：

[1]Pawlak Z.Rough sets[J].International Journal of Computer and Information Sciences，1982，11（5）：341-356.

[2]Shao Mingwen，Li Kewen.Attribute reduction in generalized one-sided formal contexts[J].Information Sciences，2016，378：317-327.

[3]Hu Qinghua，Yu Daren，Liu Jinfu，et al.Neighborhood rough set based heterogeneous feature subset selection[J].Information Sciences，2008，178（18）：3577-3594.

[4]陳昊，楊俊安，莊鎮(zhèn)泉，等.變精度粗糙集的屬性核和最小屬性約簡算法[J].計算機學(xué)報，2012，35（5）：1011-1017.

[5]Jiang Feng，Sui Yuefei，Zhou Lin.A relative decision entropy-based feature selection approach[J].Pattern Recognition，2015，48（7）：2151-2163.

[6]D’Eer L，Restrepo M，Cornelis C，et al.Neighborhood operators for covering-based rough sets[J].Information Sciences，2016，336：21-44.

[7]徐怡，楊宏健，紀(jì)霞.基于雙重?；瘻?zhǔn)則的鄰域多粒度粗糙集模型[J].控制與決策，2015，30（8）：1469-1478.

[8]Dubois D，Prade H.Rough fuzzy sets and fuzzy rough sets[J].International Journal of General Systems，1990，17（2/3）：191-208.

[9]段潔，胡清華，張靈均，等.基于鄰域粗糙集的多標(biāo)記分類特征選擇算法[J].計算機研究與發(fā)展，2015，52（1）：56-65.

[10]Wang Changzhong，Cui Xinhua，Bao Wenying，et al.Attribute reduction of decision table based on similar relation[C]//2012 International Conference on Machine Learning and Cybernetics，2012.

[11]Wang Changzhong，Qi Yali，He Qian.Attribute reduction using distance-based fuzzy rough sets[C]//International Conference on Machine Learning and Cybernetics，Guangzhou，2015：860-865.

[12]Wang Changzhong，Qi Yali，Shao Minweng，et al.A fitting model for feature selection with fuzzy rough sets[J].IEEE Transactions on Fuzzy Systems，2016：1-13.

[13]Wang Changzhong，Shao Minweng，He Qian，et al.Feature subset selection based on fuzzy neighborhood rough sets[J].Knowledge-Based Systems，2016，111：173-179.

[14]徐風(fēng)，姚晟，紀(jì)霞，等.基于模糊鄰域粗糙集的信息系統(tǒng)不確定性度量方法[J].南京大學(xué)學(xué)報：自然科學(xué)版，2017，53（5）：926-936.

[15]Zadeh L A.Fuzzy sets[J].Information&Control，1965，8（3）：338-353.

[16]Zadeh L A.Some reflections on soft computing，granular computing and their roles in the conception，design and utilization of information/intelligent systems[J].Soft Computing，1998，2（1）：23-25.

[17]Pedrycz W，Succi G，Sillitti A，et al.Data description：A general framework of information granules[J].Knowledge-Based Systems，2015，80：98-108.

[18]Zhang Xianyong，Miao Duoqian.Three-layer granular structures and three-way informational measures of a decision table[J].Information Sciences，2017，412：67-86.

[19]何松華，康嬋娟，魯敏，等.基于鄰域組合測度的屬性約簡方法[J].控制與決策，2016，31（7）：1225-1230.

[20]Zhang Xiao，Mei Changlin，Chen Degang et al.Feature selection in mixed data：A method using a novel fuzzy rough set-based information entropy[J].Pattern Recognition，2016，56（1）：1-15.

[21]Wang Changzhong，Hu Qinghua，Wang Xizhao，et al.Feature selection based on neighborhood discrimination index[J].IEEE Transactions on Neural Networks and Learning Systems，2017（99）：1-14.

[22]姚晟，徐風(fēng)，趙鵬，等.基于改進(jìn)鄰域粒的模糊熵特征選擇算法[J].南京大學(xué)學(xué)報：自然科學(xué)版，2017，53（4）：802-814.