余 清 侯麗萍
(信陽職業技術學院數學與計算機科學學院 河南 信陽 464000) 2(信陽農林學院信息工程學院 河南 信陽 464000)
隨著大數據處理技術的發展,數據量呈指數級增長,收集到的大量信息中可能含有大量噪聲、冗余或缺失的特征值[1]。因此,在使用海量數據之前,有必要對其進行預處理。特征選擇作為一個重要的預處理步驟,其主要目標是消除冗余和噪聲特征,并對其進行處理缺失值,對數據進行分類,并為數據應用程序提取有用的信息[2]。
近年來,特征選擇在模式識別、機器學習和數據挖掘應用等領域引起了學者們的廣泛關注。傳統的粗糙集模型作為一種流行的屬性約簡工具,只能處理分類數據集,而不適合解決混合數據集和不完全數據集中數值數據不完整和連續的問題。為了解決數值數據集離散化過程中的信息丟失問題,許多學者引入鄰域粗糙集來研究特征選擇。在不完備決策系統中,文獻[3]提出一種基于鄰域容忍條件熵的啟發式特征選擇算法,文獻[4]基于不完備決策系統中的容忍關系,構造了一種基于正區域的屬性約簡方法。文獻[5]在鄰域粗糙集中,通過增加相似類與某些決策類具有最大交集的樣本來擴大正區域。但是上述方法存在特征冗余問題,并且特征選擇算法在一定程度上處理高維數據集時仍有較高的時間消耗。
信息熵作為一種重要的不確定性度量在特征選擇及其變體中得到了廣泛的研究,提出一種利用鄰域粗糙集中的條件判別指數進行特征選擇的方法[6]。另外文獻[7]研究了鄰域互信息及其在高光譜波段選擇分類中的應用,然而這些不確定性度量的單調性并不總是成立的,而且這些基于鄰域粗糙集的特征選擇文獻也只是從完備信息系統的信息觀角度進行研究集合,許多現有的特征選擇方法通常只基于代數視圖或信息視圖,對于大規模、高維的數據集,這些方法仍然是低效的。
為解決上述問題,提出一種基于Lebesgue和熵度量的不完備鄰域決策系統特征選擇方法。將鄰域粗糙集與Lebesgue度量相結合,解決了不完備信息系統中基于鄰域粗糙集的特征選擇方法不能處理無限集的問題,并有效地處理了混合和不完備數據集分類問題。通過數據集驗證了本文方法的有效性。

(1)
Lebesgue內部度量可以表示為m*(E)=|I|-m*(I-E)。如果m*(E)=m*(E);那么,可以說E是可測量的,寫為m(E)。在本文中,m(X)被統一視為集合X的Lebesgue度量,即|X|。

(2)
性質1[8]假設對于任何P、Q?C和x∈U,存在具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉;然后,以下屬性條件成立:
m(U)=|U|

定義2假設對于任何B?C,x,y∈U,存在一個具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉;然后,根據Lebesgue度量,分別定義X?U,X相對于B的鄰域上近似集和鄰域下近似集,分別為:
(3)
(4)
定義3假設一個具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉,對于任意B?C,U/D={d1,d2,…,dl,…},基于Lebesgue度量,D相對于Β的正區域定義為:
(5)
式中:POSB為查找函數;dj∈U/D,j=1,2,…,l,…。
命題1假設存在一個具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉且任意Q?P?C。然后,POSQ(D)?POSP(D)和m(POSQ(D))≤m(POSP(D))。

定義4假設對于任何B?C,存在一個具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉,并且U/D={d1,d2,…,dl,…};然后,基于Lebesgue度量將D相對于B的依賴程度定義為:
(6)
式中:dj∈U/D,且j=1,2,…,l,…。
命題2假設一個不完備鄰域決策系統INDS=〈U,C,D,δ〉,具有非空無限集U和任意Q?P?C,γQ(D)≤γP(D)保持不變。
證明對于任何Q?P?C,根據命題1,m(POSQ(
D))≤m(POSP(D))。因此,根據定義4,可以得到γQ(D)≤γP(D)。

(7)

(8)
命題3假設具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉,對于任何Q?P?C,NTEδ(Q)≤NTEδ(P)成立。



(9)
式中:dj∈U/D,且j=1,2,…,l,…。
引理1[9]假設具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉,對于任何Q?P?C,NTEδ(Q∪D)≤NTEδ(P∪D)成立。
命題4假設對于任何B?C和xi∈U,dj∈U/D={d1,d2,…,dl,…},存在一個具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉,其中j=1,2,…,l,…,則NTEδ(B∪D)≥NTEδ(B)。
證明從定義6和定義7可以立即得出:
NTEδ(B∪D)-NTEδ(B)=
(10)

根據命題4,鄰域容差聯合熵的值大于特征子集的鄰域容差熵的值。因此,可以得出結論,當添加新特征時,鄰域容差聯合熵具有更強的區分能力。

(11)
式中:dj∈U/D,以及j=1,2,…,l,…。
性質2[9]假設存在具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉,并且對于任何B?C,D對B的依賴程度為γB(D),B和D的鄰域容差聯合熵為NTEδ(B∪D),則NTDE(B,D)=γB(D)·NTEδ(B∪D)≥0。
從定義8和性質2可以看出,在代數視圖中,γB(D)是D對B的依賴程度,而在信息視圖中,NTEδ(B∪D)是B和D的鄰域容差聯合熵。因此,定義8可以基于Lebesgue和熵度量從代數視圖和信息視圖分析和測量不完備鄰域決策系統的不確定性。
命題5假設對于任何Q?P?C,U/D={d1,d2,…,dl,…},存在具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉,其中dj∈U/D且j=1,2,…,l,…。NTDE(Q,D)≤NTDE(P,D)。


定義9假設存在一個不完備鄰域決策系統INDS=〈U,C,D,δ〉,并且有一個非空的無限集U和B?C;如果NTDE(B,D)=NTDE(C,D),并且對于任何a∈B,則存在NTDE(B,D)>NTDE(B-{a},D)。可以說B是C相對于D的約簡。
定義10假設對于任何B?C和a∈B,存在具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉。然后,將B中的屬性a相對于D的內部顯著性定義為:
Siginner(a,B,D)=NTDE(B,D)-NTDE(B-{a},D)
(12)
定義11假設存在一個具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉,B?C;如果任何a∈B的Siginner(a,B,D)>0,則B中的屬性a是必要的;否則,a是不必要的。如果B中的每個a是必要的,則B是獨立的。
定義12假設存在一個具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉,B?C;如果對于任意a∈C,NTDE(C,D)>NTDE(C-{a},D),即Siginner(a,C,D)>0,則a稱為C相對于D的核心屬性。
定義13假設對于任何B?C和b∈C-B,存在一個具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉。然后,將屬性b關于D的外部顯著性定義為:
Sigouter(b,B,D)=NTDE(B∪,D)-NTDE(B,D)
(13)
性質3[9]假設存在一個具有非空無限集U和任意B?C的不完備鄰域決策系統INDS=〈U,C,D,δ〉,然后,可以得到下述特性:
(1) 對于任意a∈C,0≤Siginner(a,C,D)≤1。
(2) 對于任意b∈C-B,0≤Sigouter(b,B,D)≤1。
(3) 當B=C時,Sigouter(,C,D)=0。
(4) 當且僅當Sigouter(b,B,D)=0時,任何b∈C-B都是不必要的。
請注意,在具有非空無限集U和B?C的INDS=〈U,C,D,δ〉中,對于任何a∈B,在計算Siginner(a,B,D)時,NTDE(B-{a},D)僅因為NTDE(B,D)是一個常數而被計算。同樣,對于任何b∈C-B,在計算Sigouter(b,B,D)時,僅需要計算NTDE(B∪,D)。

命題6假設存在一個不完備鄰域決策系統INDS=〈U,C,D,δ〉,具有非空無限集U和任何B?C;如果B是不完備鄰域決策系統中C相對于D的鄰域容差約簡;那么,在不完備鄰域決策系統中,B是C相對于D的一個正區域約簡。

給出一個具有非空無限集U的不完備鄰域決策系統INDS=〈U,C,D,δ〉,任意B?C和D=g0gggggg,對于任意a∈B,提出一種稱為鄰域條件熵約簡的不完備鄰域決策系統的約簡,如下:如果NTE(D|B)=NTE(D|C)和NTE(D|B-{a}) 式中:NTB(xi)和NTD(xi)分別是xi關于B和D的鄰域容差類,NTD(xi)∈U/D。 命題8假設存在一個不完備鄰域決策系統INDS=〈U,C,D,δ〉,并且有一個非空無限集U和B?C;當且僅當B是不完備鄰域決策系統中C相對于D的鄰域條件熵約簡時,B是不完備鄰域決策系統中C相對于D的鄰域容差約簡。 圖1中顯示了用于特征選擇的數據分類過程,其中引入了Fisher評分方法以初步減少高維數據集的維數。為了支持有效的特征選擇,將基于鄰域容差依賴聯合熵(FSNTDJE)的特征選擇算法設計為算法1。 圖1 用于數據分類的特征選擇方法的處理流程 算法1FSNTDJE 輸入:不完備鄰域決策系統INDS=〈U,C,D,δ〉,鄰域參數δ。 輸出:最優屬性子集B。 (1) 初始化B=?,R=?; (2) 計算:NTDE(C,D); (3) Fori=1 to |C| do (4) 計算Siginner(ci,C,D); (5) IfSiginner(ci,C,D)>0 (6)B=B∪{ci}; (7) End if (8) End for (9) 令R=C-B; (10) WhileNTDE(B,D)≠NTDE(C,D) (11) Forj=1 to |R| do (12) 計算NTDE(B∪{aj},D); (13) 選擇aj使得滿足max{aj∈R|NTDE(B∪{aj},D)},并且如果多個屬性滿足最大值。然后選擇前者; (14) End For (15) 令B=B∪{aj},R=R-{aj},并計算NTDE(B,D); (16) End While (17) Fork=1 to |B| do (18) 選擇一個bk∈B; (19) 計算NTDE(B-bk,D); (20) IfNTDE(B-bk,D)>NTDE(B,D) (21)B=B-bk; (22) End if (23) End (24) 返回最優屬性子集B 計算鄰域容差類的過程對特征選擇的時間復雜度有很大影響。FSNTDJE的主要計算涉及兩個重要方面:獲得鄰域容差類和計算鄰域容差依賴聯合熵。首先,為了進一步降低鄰域容差類的計算時間復雜度,采用了排序算法。然后,鄰域容差類的時間復雜度為O(mn),其中:m是樣本數;n是特征數。同時,鄰域容差依賴聯合熵的計算時間復雜度為O(n)。由于O(n) 為了驗證本文方法的分類性能,在15個公共數據集:7個UCI數據集(Nursery、Credit、Mushroom、Wpbc、Soybean、Annealing和Ozone level)和8個DNA微陣列基因表達數據集(Colon、DLBCL、Brain、Leukemia、Breast、Lung、MLL和Prostate)上獲得了所有對比算法的綜合結果并進行了分析。表1中詳細描述了所有數據集。 表1 15個公共數據集的描述 實驗是在一臺運行Windows 10的計算機上進行的,該計算機具有3.20 GHz的Intel(R)i5 CPU和4.0 GB內存。所有仿真實驗均在MATLAB 2016a中實現,并選擇了4個分類器,包括Naive Bayes、C4.5、KNN和CART,以說明分類結果。10個數據子集中的每個子集僅被用作測試數據集一次。交叉驗證重復10次,10個測試結果的平均值是所選特征的數量和分類精度。 實驗的第二部分重點研究了不同鄰域參數下的分類精度和約簡率。為了解釋不同鄰域參數值的分類精度和約簡性能,需要一個約簡率來評估本文方法的特征冗余性能。 定義14數據集的約簡率定義為: (14) 式中:|C|描述條件屬性的數量;|R|表示在給定的鄰域參數下生成的所選特征的數量。由于較高的約簡率表明該方法對數據集的約簡能力較強,因此較高的約簡率意味著冗余度會降低。 對于8個高維基因表達數據集,采用Fisher評分方法,并基于8個數據集中的所有基因對其進行排序,然后選擇g個基因形成候選基因子集。獲取以下7個維度(10、50、100、200、300、400和500)下的分類精度,以便可以選擇適當的維度進行特征選擇。圖2顯示了8個基因表達數據集上分類精度和基因數量之間的變化趨勢??梢钥闯?當基因數量增加時,精度通常會發生變化。因此,對于Colon和MLL數據集,可以將基因的維設置為200維特征,而對于DLBCL、Lung和Prostate數據集,可以設置為50維特征。對于Brain數據集,可以設置為400維特征。Leukemia和Breast數據集均可設置為100維特征。 注意,如果所有特征值都是分類的,則鄰域容差關系將退化為容差關系。因此,在實驗中,對于3個數據集(Nursery、Mushroom和Soybean),鄰域參數將設置為0。通過使用具有不同鄰域參數值的FSNTDJE算法獲得十二個數據集上所選特征的分類精度。在獲得具有不同參數的特征選擇結果之后,對于4個UCI數據集,在Naive Bayes和C4.5分類器下實現了分類精度。對于8個基因表達數據集,在KNN(k=10)和C4.5分類器下評估分類精度和約簡率。由于篇幅所限,僅展示Credit數據集在不同參數值下的結果,如圖3所示,其中水平坐標代表間隔0.05時δ∈[0.05,1]的不同鄰域參數值,左右垂直坐標分別表示精度和約簡率。 圖3 具有不同鄰域參數值的12個數據集的分類精度和約簡率 可以看出,不同的參數對FSNTDJE的分類性能有很大的影響。對于其他數據集,也顯示了相類似的結果。因此,對于每個數據集,可以根據結果圖選擇約簡率較高且能夠保證兩個分類器均能有較高分類準確度的參數。 對比算法包括:(1) 基于條件熵的粗糙集特征選擇算法(FSCE)[6];(2) 基于正逼近的粗糙集不完備特征選擇算法(IFSPA)[7];(3) 使用粗糙集模型的基于正區域的特征選擇算法(FSPR)[8];(4) 基于粗糙集理論的啟發式SetCover特征選擇算法(SetCover)[9]。通過使用不同鄰域參數,并且獲得了表2的7個UCI數據集上所選特征的平均數量和適當的鄰域參數,如表2所示。其中,從10倍交叉驗證方法中獲得了這5種方法的選定特征子集的平均大小。本文表中粗體字均表示最佳結果。 表2 5種算法選擇的特征數 表2列出了5種不同算法使用10倍交叉驗證選擇的平均特征數??梢钥闯?使用Naive Bayes和C4.5分類器,在大多數情況下,FSNTDJE選擇的平均特征數量少于FSCE、IFSPA、FSPR和SetCover。對于Nursery和Soybean數據集,在2個不同的分類器下,SetCover和FSNTDJE算法獲得了幾乎相同的平均特征數。但是,它們兩者都比其他3種算法多大約一個。在Credit和Annealing數據集上,FSNTDJE選擇的平均特征數略低于FSPR,并且在5種算法中均達到最小值。對于Mushroom數據集,FSNTDJE選擇的平均特征數為4.2,比其他4種算法的平均特征數少0.2~3.4。對于Wpbc數據集,在Naive Bayes分類器下FSNTDJE的選定特征數為4.9,達到最低值。但是,在C4.5分類器下,FSNTDJE選擇的平均特征數與Wpbc的SetCover算法幾乎相同。在這兩個分類器下,FSNTDJE達到了Ozone level數據集上最少特征數。此外,平均指數表示所有結果的平均值。顯然,表2中Naive Bayes分類器下FSNTDJE的平均結果是最小的??傮w而言,就所有數據集而言,所提出的FSNTDJE算法在所選特征的平均數量方面是有效的。 接下來,使用6種方法評估所選特征的分類性能,說明了本文方法的平均分類精度,即通過10倍交叉驗證選擇特征子集;此外,為了獲得客觀的分類結果并減少隨機誤差,將所有的比較方法進行10次,結果是10次分類精度評估的平均值。將FSNTDJE算法與以上4種特征選擇方法(FSCE、IFSPA、FSPR和SetCover)以及原始數據處理方法(ODP)進行了比較。使用兩個分類器(Naive Bayes和C4.5)測試分類性能。在Naive Bayes和C4.5分類器下通過6種方法選擇的最佳特征的平均分類精度分別顯示在表3和表4中。 表3 Naive Bayes分類器下6種方法的分類精度 表4 C4.5分類器下6種方法的分類精度 從表2中可以看出,在這5種算法選擇的平均特征數上幾乎沒有差異,在此基礎上,表3和表4顯示了這6種方法之間的差異。顯然,除了Naive Bayes分類器下的Wpbc和Soybean數據集,以及C4.5分類器下的Nursery、Mushroom和Annealing數據集之外,大多數數據集上的FSNTDJE算法的分類精度均優于其他5種方法。此外,在表3和表4中,FSNTDJE的平均精度得到了提高,且在2種不同的分類器上是最高的。從表3和表4可以看出,在Naive Bayes分類器下,雖然FSNTDJE在所選特征的平均大小上不如FSCE、IFSPA和FSPR,但是FSNTDJE的分類精度比Nursery數據集的ODP、FSCE、IFSPA和FSPR高0.024 0~0.052 2;但是,FSNTDJE在Soybean數據集上不如SetCover。盡管這5種算法選擇的特征的平均大小存在一些差異,但是FSNTDJE的平均精度在所有數據集上均高于其他方法,除了Wpbc和Soybean數據集。同樣,從表3和表4中可以看出,在C4.5分類器下,FSNTDJE的平均精度比其他5種方法高0.009 4~0.022 2,并且在所有數據集中,FSNTDJE的精度與SetCover的精度幾乎相同。對于Mushroom數據集,FSNTDJE的分類精度比ODP、FSPR和SetCover低0.05。但與其他方法相比,FSNTDJE選擇的特征較少,并且顯示出比FSCE和IFSPA更好的分類性能。綜上所述,就平均精度而言,FSNTDJE算法在Naive Bayes和C4.5中表現出了極大的穩定性,而ODP、FSPR和SetCover算法的精度則有些不穩定。從表3和表4的結果可以確定,對于Naive Bayes下的Nursery數據集,以及C4.5下的Mushroom和Annealing數據集,FSNTDJE可能會減少特征選擇過程中的一些重要特征,結果降低所選特征子集的分類精度。 在進行實驗的過程中,按時間復雜度對5種特征選擇方法進行了粗略排序:O(FSNTDJE) 進一步根據所選特征的數量及其分類精度,說明FSNTDJE算法在所選數據集上的分類結果。這里,比較中使用的4種不完備數據集的最新特征選擇方法包括:(1) 基于啟發式可分辨矩陣的模糊粗糙集特征選擇算法(DMFS)[10];(2) 基于粗糙集的向后屬性約簡算法(BKAR)[11];(3) 粗糙集中不完備決策系統的具有前向貪婪策略的基于互信息的特征選擇算法(MIFS)[12];(4) 基于可分辨矩陣的優勢粗糙集知識約簡算法(DMKR)[13]。應當注意,為了將FSNTDJE算法與上述4種特征選擇方法和ODP方法進行比較,從表1中選擇了Credit和Annealing數據集。表5和表6顯示了6種不同方法的實驗結果,其中,在Naive Bayes和C4.5分類器下可以實現具有10倍交叉驗證的所選特征的平均數量和10次評估的平均精度。 表5 6種方法對所選Credit特征的分類精度 表6 6種方法對所選Annealing特征的分類精度 如表5所示,FSNTDJE實現了所選的Credit特征數量最少,分類精度最高。與其他5種方法相比,該算法選擇的平均特征數比5種方法要少2.0~4.5。另外無論哪種分類器,本文方法選擇特征的精度均高于其他5種方法,即在Naive Bayes分類器下,該算法的精度比其他方法高0.052 2~0.089 8,在C4.5分類器下,比它們高0.020 0~0.089 2。因此,FSNTDJE算法可以為Credit數據集實現出色的分類性能。 根據表6的分類結果,FSNTDJE算法得到的Annealing特征選擇數量最少、平均精度最高,并且該算法在Naive Bayes分類器下選擇的特征精度與DMFS、BKAR和DMKR算法的相當,且分別比ODP和MIFS高0.325 9和0.078 5。此外,FSNTDJE的精度類似于MIFS,并且在C4.5分類器下高于其他4種方法的精度。因此,FSNTDJE算法可以從原始Annealing數據集中刪除冗余特征。 從以上所有結果和分析中可以明顯看出,對于不同的學習任務和分類器,沒有一種算法始終比其他算法更好。通常,從表3至表6可以看出,與其他特征選擇方法相比,FSNTDJE算法可以反映特征的決策能力,避免因離散化而導致有用信息的丟失,并解決了不完備鄰域決策系統中的不確定性問題和有效提高分類性能。因此,在不完備的低維UCI數據集上,FSNTDJE算法優于其他相關的特征選擇方法。 進一步展示了本文方法在高維基因表達數據集上的分類性能。將FSNTDJE算法與4種最新的特征選擇方法進行了比較,包括:(1) 基于粗糙集的相關特征選擇算法(CFS);(2) 基于快速相關的粗糙集濾波特征選擇算法(FCBF);(3) 交互特征選擇算法,它可以處理特征交互并有效地選擇相關特征(INT);(4) 基于信息增益和散度的統計機器學習特征選擇算法(IG)。從表1中選擇了5個基因表達數據集,獲得了使用10倍交叉驗證和基因表達數據集上的適當鄰域參數選擇的特征子集的平均大小,結果如表7所示。 表7 5種算法選擇的基因數量 表7顯示了在Naive Bayes和C4.5分類器下使用10倍交叉驗證通過5種特征選擇算法選擇的平均基因數。很明顯,在大多數情況下,FSNTDJE算法優于CFS、FCBF和INT算法。但是,對于Brain數據集,FCBF提供了最佳結果,IG則選擇了DLBCL數據集上的最佳基因數量。FSNTDJE算法為Naive Bayes分類器下的Colon和Prostate數據集選擇最小平均基因。對于Breast數據集,在兩個不同的分類器下,FSNTDJE選擇的基因數量為7,并且達到最小值。此外,FSNTDJE選擇的平均基因數是最好的,在兩個不同的分類器上比IG分別平均低0.84和0.32??偠灾?所提出的方法可以為高維基因表達數據集選擇最少的基因。 根據表7中的結果,使用Naive Bayes和C4.5分類器評估5個基因表達數據集的分類結果。使用3個指標來評估特征選擇的分類性能,包括準確度(Acc)、真陽性率(TPR)和假陽性率(FPR)。TPR越高,FPR越低,該方法越好。3個指標的公式分別表示為: (15) (16) (17) 式中:TP表示檢測為正確的陽性樣本數;FP表示檢測為錯誤的陽性樣本數;TN表示診斷為正確的陰性實例數;FN表示診斷為錯誤的陰性實例數。表8和表9分別顯示了在Naive Bayes和C4.5分類器下用6種方法選擇的基因的Acc、TPR和FPR值。所有比較的方法都執行10次,并且將Acc的值評估為10次分類操作的平均值。 表8 Naive Bayes分類器下6種方法的3個指標 表9 C4.5分類器下6種方法的3個指標 從表7可知,5種算法在所選基因的平均數目上有很大的不同。根據表8和表9,除了Naive Bayes分類器下的Colon和Brain數據集和C4.5分類器下的Brain數據集之外,FSNTDJE的分類準確性優于其他5種方法。此外,FSNTDJE的TPR和FPR值在這5個數據集中的大多數上都取得了更好的結果。根據表8和表9,在Naive Bayes分類器下,明顯可以識別出這6種方法之間的差異。盡管從DLBCL和Brain數據集中選擇的平均基因而言,FSNTDJE的性能不如IG,但在Naive Bayes分類器中的Acc、TPR和FPR平均值最佳。對于Colon和Brain數據集,FSNTDJE的Acc分別比CFS和ODP的Acc低近0.018 8和0.015 8,這是因為FSNTDJE算法在約簡過程中丟失了Colon和Brain數據集的一些重要基因,從而導致分類準確度降低。對于Breast數據集,FSNTDJE在平均基因數上達到最小,在3個指標上獲得最佳結果。盡管在TPR中,FSNTDJE比Prostate數據集的CFS、FCBF和INT低約0.06,比Brain數據集的FCBF低約0.09,但Prostate和Brain數據集的FPR值最小。同樣,從表8和表9可以看出,在C4.5分類器下,FSNTDJE的Acc平均值比其他五種方法的平均值高出0.082~0.304。與ODP的結果相比,除Prostate數據集外,本文方法的TPR有了顯著提高。此外,關于FPR,對于DLBCL和Prostate數據集,FSNTDJE的FPR最低;但是,其平均值比ODP的平均值高出近0.064。根據表7、表8和表9中的結果,盡管FSNTDJE并未在DLBCL和Brain數據集中選擇最少的基因,但FSNTDJE在大多數基因表達數據集中均達到了相對最佳的結果??傮w而言,實驗結果表明,本文方法可有效消除冗余基因并提高高維基因表達數據集上的Acc和TPR。 與先前對低維UCI數據集的時間復雜度分析相似,以上5種方法的比較說明了時間復雜度的大致順序如下:O(FSNTDJE) 與FSNTDJE相比的4種最新方法描述如下:(1) 基于可分辨矩陣的模糊粗糙集約簡算法(DMRA)[14];(2) 基于模糊正區域的粗糙集加速算法(FPRA)[15];(3) 基于模糊粗糙集的邊界區域特征選擇算法(FRFS)[16];(4) 基于直覺模糊正區域的模糊粗糙集基因選擇算法(IFPR)[17]。類似于之前的實驗方法,所有比較方法均運行10次,并且在KNN(k=10)和CART分類器下4個基因表達數據集的平均分類精度是10次評估的平均值。表10和表11分別顯示了在KNN和CART分類器下這6種方法的分類精度。 表10 KNN分類器下6種方法的分類精度 表11 CART分類器下6種方法的分類精度 可以看出,除了KNN分類器下的Breast數據集和CART分類器下的MLL數據集,FSNTDJE算法的平均分類精度幾乎在所有數據集上都優于其他5種方法,且FSNTDJE算法的平均分類精度最高。根據表10,在KNN分類器下,對于Colon、Leukemia和MLL數據集,FSNTDJE的分類精度最高,分別為0.876 3、0.901 9和0.961 5。但是,對于Breast數據集,FSNTDJE的精度略遜于DMRA的精度。如表11所示,在CART分類器下,FSNTDJE在幾乎所有數據集上都達到了最高的精度。但是,對于MLL數據集,FSNTDJE的平均精度比IFPR低0.062,比其他4種方法高0.026 5~0.099 2??傮w而言,就平均精度而言,FSNTDJE算法對KNN和CART分類器下的4個高維基因表達數據集表現出更強的穩定性,而DMRA、FPRA、FRFS和IFPR算法的分類性能略有不穩定。因此,可以證明FSNTDJE算法可以消除冗余基因,顯著提高分類性能,并且優于高維基因表達數據集的其他5種相關特征選擇方法。 為了進一步評估FSNTDJE算法的分類性能,與3種最新的特征選擇方法相比。這些用于對比的特征選擇方法包括:(1) 動態貝葉斯遺傳特征選擇算法,是通過在粗糙集中增強貝葉斯遺傳算法的原理而設計的(DBAGEL)[18];(2) 基于動態遺傳算法的特征選擇方法,用于選擇重要特征(DGAFS)[19];(3) 通過選擇重要特征并推算缺失值來實現基于粗糙集的特征選擇算法(DGAFS-MI)[20]。從表2中選擇了5個基因表達數據集(Colon、DLBCL、Breast、Lung和Prostate),使用了Naive Bayes和KNN(k=10)分類器,表12和表13分別詳細顯示了在2種不同分類器下的5種不同特征選擇方法的實驗結果。 表12 Naive Bayes分類器下5種方法的分類精度 表13 KNN分類器下5種方法的分類精度 如表12所示,在Naive Bayes分類器下,除Prostate數據集外,FSNTDJE的分類精度明顯優于其他4種方法,并且在5個基因表達數據集上,ODP、DBAGEL、DGAFS和DGAFS-MI算法的精度相似。在Prostate數據集上,FSNTDJE的精度比DBAGEL的精度低0.082 8,比其他3種方法的精度高0.005 4~0.170 7。這是因為當FSNTDJE處理基因數據集時,Prostate數據集仍然存在一些噪聲,因此這種情況會降低精度。但是,FSNTDJE的平均精度比其他4種方法高0.056 3~0.165 4,并達到了最高值。從表13中可以看出,在KNN分類器下,FSNTDJE選擇的基因子集的平均分類精度在Colon、DLBCL、Lung和Prostate數據集上是最好的。但是,對于Breast數據集,FSNTDJE的精度比DBAGEL的精度低0.035 7,比其他三種方法的精度高0.020 9~0.111 8。原因是FSNTDJE無法充分消除噪聲基因,這會削弱所選Breast基因的分類性能。綜上所述,FSNTDJE模型可以有效地減少高維基因表達數據集的維數,并在這些大規模和高維數據集上實現出色的分類性能。 為了證明特征選擇結果的統計性能,采用了Friedman檢驗和Bonferroni-Dunn檢驗來進一步研究采用幾種不同方法的每個分類器的分類精度。Friedman統計量表示為: (18) (19) 式中:s是方法數量;T是數據集數量;Ra是方法A在所有數據集中的平均排名。FF遵循具有s-1和(s-1)·(T-1)自由度的Fisher分布。如果在Friedman檢驗后否定了原假設,則可以引入Bonferroni-Dunn檢驗以進一步檢測統計意義上哪些算法不同。如果平均距離水平超過臨界距離,則兩種算法將有顯著差異。臨界距離表示為: (20) 式中:qα是檢驗的臨界列表值;α是Bonferroni-Dunn檢驗的顯著性水平。 對于表3和表4中的7個低維UCI數據集,將FSNTDJE算法與5種方法:ODP、FSCE、IFSPA、FSPR和SetCover進行比較,以進行Friedman統計。開發了2個Friedman檢驗來調查這6種特征選擇算法的分類性能是否存在顯著差異。從表4和表5中獲得的分類精度來看,在Naive Bayes和C4.5分類器下的6種算法的排名結果分別顯示在表14和表15中。 表14 Naive Bayes分類器下6種算法的排名 表15 C4.5分類器下6種算法的排名 表16 兩個分類器下6種方法的排名 表17 Naive Bayes分類器下6種特征選擇方法的排名 以下部分致力于所有高維基因表達數據集的統計分析。根據表8和表9的分類結果,在Naive Bayes和C4.5分類器下的6種特征選擇方法的排名結果顯示在表17和表18中。 表18 C4.5分類器下6種特征選擇方法的排名 表19 KNN分類器下6種方法的排名 表20 CART分類器下6種方法的排名 表21 Naive Bayes分類器下5種方法的排名 表22 KNN分類器下5種方法的排名 為了能夠處理混合數據集和不完全數據集,并能同時保持原始分類信息,提出一種基于Lebesgue和熵度量的不完備鄰域決策系統特征選擇方法。通過高維與低維多個數據集實驗可以得出如下結論: (1) 針對低維數據集,FSNTDJE算法實現了較低的時間復雜度,可以有效地消除冗余特征并優化不完備數據集的分類性能。 (2) 針對高維數據集,FSNTDJE算法可以消除冗余基因,有效地減少高維基因表達數據集的維數,并在這些大規模和高維數據集上實現出色的分類性能。 (3) FSNTDJE算法可以反映特征的決策能力,避免因離散化而導致有用信息的丟失,并解決了不完備鄰域決策系統中的不確定性問題和有效提高分類性能。 (4) 統計數據進一步表明了本文方法相對于其他方法,能夠更加有效地處理混合數據集和不完全數據集,并保持較好的分類性能。
2.3 特征選擇算法

3 實驗與結果分析
3.1 實驗準備

3.2 不同鄰域參數值的影響

3.3 低維UCI數據集的分類結果





3.4 高維基因表達數據集的分類結果







3.5 統計分析














4 結 語