













摘要:針對模糊鄰域粗糙集的特征選擇方法通常僅考慮下近似中的分類信息,而忽略上近似和邊界域中的分類信息這一問題,本文提出了一種基于自信息和模糊鄰域條件熵的特征選擇算法。首先,結合下近似、上近似和邊界域提出了三種自信息不確定性測度,并將三種自信息相結合提出了相似自信息。其次,在信息論視角下,給出了模糊鄰域條件熵的不確定性度量,并將其與相似自信息相結合,提出了更為全面的特征評價函數,用于衡量特征子集分類信息的不確定性,并基于此利用最大相關最小冗余技術設計特征選擇算法。最后,通過在數據集上進行對比實驗,實驗結果表明所提算法能有效處理上近似和邊界域中的分類信息;且所提算法在兩個分類器下其平均分類精度,在低維數據集中分別提高了2.55%和4.15%,在高維數據集中分別提高了0.83%和2.54%。
關鍵詞:模糊鄰域粗糙集;自信息;不確定性度量;模糊鄰域熵;模糊鄰域條件熵
中圖分類號:TP181 文獻標志碼:A 文章編號:0253-2395(2025)01-0077-12
0 引言
目前,人們在數據挖掘和機器學習中獲得的信息和數據正在迅速擴大,信息的不確定性有所增加,數據之間的關系也變得更加復雜。從模糊和不精確的數據中獲取有用的信息已成為數據挖掘領域的一個重大挑戰[1]。特征選擇作為數據預處理的一項重要技術,其從原始的特征集合中篩選出具有最佳區分能力的特征子集,旨在消除不相關和冗余的特征,以降低特征的維度和減少特征的空間[2-3],目前已被廣泛應用于模式識別、數據挖掘和機器學習等領域[4-5]。因此,特征選擇在實際應用和理論研究方面具有重要的實際意義和學術價值。
粗糙集的概念最初是由Pawlak[6]提出的,其作為一種處理數據模糊和不確定性的數學方法,已成功應用于特征選擇[7-9]。然而,Pawlak提出的粗糙集是基于一般的等價關系,這限制了該模型僅適用于離散數據處理。然而,包含離散數據和連續數據的混合數據在實際生產和生活中廣泛存在。因此,當應用經典的粗糙集模型處理連續數據時,需要對數據離散化,但離散化過程會導致信息的丟失[10-11]。為克服這一問題,許多學者擴展了粗糙集模型。Hu等[12]采用鄰域關系代替等價關系構造鄰域粗糙集模型,廣泛應用于混合數據的處理。Du?bois 等[13]將粗糙集和模糊集相結合,提出了模糊粗糙集模型,其允許數據之間在某種程度上可以區分,能夠處理不確定的信息,解決了經典粗糙集處理數值型數據的局限性。Qian等[14]研究了悲觀的多粒度粗糙集決策模型,克服了大多數模型由于單一等價關系而限制其應用的缺點。Wang 等[15]提出的模糊鄰域粗糙集模型解決特征選擇問題,該模型的優點是不僅可以有效處理連續性數據,而且可用參數化的模糊關系來描述模糊信息的粒度,降低了樣本被誤分類的可能性。受此啟發,本文利用模糊鄰域粗糙集,進一步解決特征選擇問題。
特征選擇的關鍵在于構建一個有效的特征評價函數,以衡量特征子集的分類性能[16]。在模糊鄰域粗糙集中依賴度是一個廣泛使用的特征評價函數。Xu 等[17]應用依賴度構建了相對依賴互補互信息的擬合模糊粗糙集特征選擇方法,解決了模糊相似性和模糊粗糙近似易受數據分布影響的問題。Zhou 等[18]應用依賴度提出一種面向高維類不平衡數據的在線流特征選擇方法,以在線方式處理類不平衡數據。Ma等[19]研究了一種動態的基于依賴度的無監督模糊粗糙集特征選擇算法,使得時間效率上得以提高。
然而,針對上述以及大部分的特征選擇算法利用依賴度這一評價函數時,僅利用下近似的分類信息,忽略了上近似和邊界域中的分類信息,而Wang 等[3]表明上近似中的不一致實例同時具有分類信息,Shu[20]等表明可將邊界樣本看作是含有噪聲的正域。此外,Shan?non[21]提出的自信息是一類能有效刻畫隨機變量的不確定性的測度。因此,本文為考慮上近似和邊界域中的分類信息,首先結合上近似定義了模糊度,結合邊界域定義了近似精度,并將依賴度、模糊度和近似精度分別引入自信息的概念中構建了積極自信息、消極自信息和相對自信息,并為綜合考慮下近似、上近似和邊界域中的分類信息,故將三種自信息相結合構建了相似自信息,解決了上近似和邊界域中信息沒有利用的問題。其次,將代數觀構建的相似自信息與信息觀定義的模糊鄰域條件熵相結合,其在雙視角下構建了更為全面的特征評價函數,用于衡量特征子集分類信息的不確定性,此彌補了僅從單一視角下構建特征評價函數的不足。最后,基于上述理論設計了一種特征選擇算法(Feature Selection Method Based onSelf-information and Fuzzy Neighborhood Condi?tional Entropy,FS-SIFNCE),其實驗結果表明,所提算法相較于其他算法能有效提高數據的分類性能。
1 相關工作
本節主要介紹了模糊鄰域粗糙集、自信息和模糊鄰域熵的基本知識。
定義1[22] 模糊鄰域系統由以下四部分組成,簡記為DS = {U, C, D, δ}。
(1)U = {x1, x2, …, xn }是被稱為論域的樣本集合;
(2)C = {c1, c2,…, cm } 是用于描述每個樣本的條件特征集合;
定義20 給定模糊鄰域系統DS = {U, C,D, δ},特征子集B ? C,若滿足以下條件,則稱B 是C 相對于D 的約簡:
(1) IFNE (D | B ) = IFNE (D | C );
(2) IFNE (D | B )gt;IFNE (D | B-{ci }) ,?ci∈B 。
其中,式(1)通過約簡子集,可以達到與整個數據集相同的分類結果。式(2)約簡子集保留了與整個數據集相同的分類準確性,但擁有更少的屬性,沒有冗余。
定義21 給定模糊鄰域系統DS ={U, C, D, δ},特征子集B ? C,對于任何屬性子集ci ∈ C - B,則屬性ci 相對于D 的屬性重要度定義為:
Sig (ci, B, D) =IFNE (D | B )- IFNE (D | B ∪{ci })。(21)
根據公式(21),Sig (ci,B,D) 代表了ci 提供的分類信息量。通過定義20 從條件特征集合中挑選出能夠提供最大分類信息的特征子集,以此作為特征集合的約簡子集。依據上述內容,提出一種基于自信息和模糊鄰域條件熵的特征選擇算法(FS-SIFNCE),算法描述見算法1。
算法1 基于自信息和模糊鄰域條件熵的特征選擇算法(FS-SIFNCE)。
輸入:模糊鄰域決策系統DS ={U, C, D, δ}
輸出:特征約簡子集red
步驟1. 初始化red = ?,B = C - red;
步驟2. While B ≠ ? do
步驟3. For each c ∈ B
步驟4. 計算Sig (c,red,D);
步驟5. end for
步驟6. 選出特征ci = max Sig (c,red,D);
步驟7. if Sig (r,red,D) gt; 0
步驟8. Let red = {red ∪ ci }
步驟9. B = C - ci
步驟10. else
步驟11. break
步驟12. end if
步驟13. end while
步驟14. for each r ∈ red
步驟15. 計算Sig (r,red,D)
步驟16. if Sig (r,red,D) ≤ 0
步驟17. Let red = {red - r }
步驟18. end if
步驟19. end for
步驟20. 返回約簡子集red。
假設數據存儲是n × m 維度矩陣,其中n 是實例數,m 是條件特征數. 該算法對復雜度影響較大的是參數化模糊鄰域粒的計算,時間復雜度約為O (mn)。步驟2—13 的最佳時間復雜度是O (mn2 ),它最壞的時間復雜度近似O (mn3 )。步驟14—19 的時間復雜度為O (n)。假設所選特征子集的大小為r,則模糊鄰域粒的時間復雜度為O (rn),在算法中大多數情況下n 遠大于r,所以FS-SIFNCE 總的時間復雜度為O (mn)。
4 實驗及結果分析
本節通過對實驗結果的分析,證明所提算法在能剔除冗余屬性的同時提高了分類精度。
4.1 實驗準備
為驗證FS-SIFNCE 算法對于提高數據集的分類性能是有效的,選取了8 個公共數據集作為實驗對象,包括4 個低維數據集(Wine,Wisconsin Prognostic Breast Cancer (WPBC) ,Wisconsin Diagnostic Breast Cancer (WDBC) ,Heart)和4 個高維數據集(Colon,Breast,Lung,Diffuse Large B-cell Lymphoma(DLBCL))。表1給出了數據集的詳細信息。
本文所有實驗均在Windows 10 操作系統,Intel(R) Core(TM) i5-8250U CPU @ 1.60 GHz和8.0 GB RAM 環境下進行,并使用Matlab2016a 實驗和完成所有對比實驗。實驗分析了FS-SIFNCE 算法在所選8 個數據集上的特征子集大小,以及約簡數據集在K- 近鄰(K-NearestNeighbors,KNN)和分類和回歸樹(Classificationand Regression Tree,CART)分類器下的分類精度,分類器中的參數均使用默認值。為保證本文的實驗具有一致性,對所有的數據集均采用十折交叉驗證獲取最后的實驗數據。
4.2 Fisher Score 用于高維數據集初步降維
在高維數據中,不是所有的特征都對于解決問題或任務都有意義或貢獻。降維可幫助識別重要的特征,從而提高模型的性能并減少計算成本。故將Fisher Score 引入FS-SIFNCE 算法中。根據Fisher Score 中的特征評價準則的原理,特征得分越高,其對應特征的辨別能力就越強,因此根據不同數據特征的 FisherScore,選出得分前k 的特征作為候選子集,并將其分割為10 個不同維度的特征集合,然后采用KNN 和CART 分類器來評估10 個不同維度下的約簡數據集的分類精度。最后,根據分類精度,選擇具有最高精度的約簡數據集作為后續研究的輸入數據。
圖1 直觀地展示分類精度不會隨著維度的增加而增高。故針對不同的數據集要結合具體的維數和精度,將降維后的數據集作為分類器的輸入。因此,對于數據集Colon 的最佳分類精度所對應的候選特征維度為300 維,對于數據集Breast 的最佳分類精度所對應的候選特征維度為250 維,類似的,對于數據集Lung 和DL?BCL 分別取200 維和100 維。
4.3 選取模糊鄰域半徑
模糊鄰域半徑的選擇會影響鄰域關系的形成,進而影響上下近似集合。因此合理選擇模糊鄰域半徑至關重要。表2 展示了8 個數據集在兩個分類器上所獲得的最佳模糊鄰域半徑的具體數值。圖2 和圖3 展現了8 個數據集在兩個分類器上的分類效果以及所選特征的個數。
4.4 低維數據集實驗結果分析
為評估FS-SIFNCE 算法在低維數據上的有效性,本節研究對比了6 種不同的特征選擇算法(其中包括:一種基于直覺模糊正區域尋找直覺模糊決策系統約簡的啟發式算法(AHeuristic Algorithm for Finding a Reduct of an In?tuitionistic Fuzzy Decision System Based on Intu?itionistic Fuzzy Positive Region,IFPR)[25]、基于鄰域自信息的特征選擇算法(Feature SelectionBased on Neighborhood Self-information,NSI)[3]、一種基于悲觀鄰域多粒度依賴聯合熵的屬性約簡算法(A Pessimistic Neighborhood Multi-granu?lation Dependency Joint Entropy-based AttributeReduction Algorithm,PDJE-AR)[1]、一種基于鄰域容差依賴聯合熵的特征選擇算法(A FeatureSelection Algorithm Based on the NeighborhoodTolerance Dependency Joint Entropy,FSNTD?JE)[26]、一種在擬合模糊粗糙集模型中利用相對依賴補互信息的啟發式算法(A Heuristic Al?gorithm Using Relative Dependency ComplementMutual Information in the Fitting Fuzzy RoughSet,FNRDCI)[17]和基于最大相關最小冗余的自適應鄰域粗糙集粗糙互信息的特征選擇算法(Maximum Relevance Minimum RedundancybasedFeature Selection Using Rough Mutual In?formation in Adaptive Neighborhood Rough Sets,FSRMI)[22])在4 個低維數據集(Wine、WPBC、Heart、WDBC)的分類結果。表3 展示了7 種算法在4 個低維數據集上所選特征的數量。而表4 和表5 分別展示了這4 種算法在KNN 和CART 分類器下的分類精度。其中所選特征數和分類精度均采用十折交叉驗證得到。加粗的內容代表了對比中的最佳結果。
根據表3 可知,FSRMI 算法所選擇的特征數量均值最小,而FS-SIFNCE 算法緊隨其后,說明其具有比較好的約簡能力。根據表3 和表4 中的KNN 分類器數據,FSRMI 算法在Heart數據集上的分類能力表現出良好的性能,但該算法在該數據集上所選的特征數和平均分類精度均弱于FS-SIFNCE 算法,其中前者所選特征數多出1.4 且平均分類精度低2.8%。這也表明FS-SIFNCE 算法在低維數據集上性能是穩定的。另在WPBC 數據集上,FS-SIFNCE 算法在KNN 分類器中顯示出最佳的分類性能,相對于對比算法,其精度高出5.4% 至18.0%。根據表2 和表5 中的CART 分類器數據,得知FS-SIF?NCE 算法在CART 分類器下,所選數據集的分類精度均超過了對比算法。具體而言,平均精度高出其他對比算法4.1% 至12.9%。此外,在Wine 數據集上,FSRMI 算法在CART 分類器中顯示出最佳的分類性能,并且其精度相對于對比算法高出3.8% 至21%。這也表明FS-SIF?NCE 算法所選擇的特征與決策之間存在著強烈的相關性。總之,FS-SIFNCE 算法在所選低維數據上具有較好的分類能力和較強的約簡能力。
4.5 高維數據集實驗結果分析
為評估FS-SIFNCE 算法在高維數據上的有效性,研究對比了4 種不同的特征選擇算法(FSNTDJE[26] 、IFPR[25] 、FSRMI[22] 、FNRD?CI[17])在4 個高維數據集(DLBCL、Lung、Colon、Breast)的分類結果。具體地,表6 展示了5 種算法在4 個高維數據集上所選特征的數量。而表7和表8 分別展示了這4 種算法在KNN 和CART分類器下的分類精度。其中所選特征數和分類精度均采用十折交叉驗證得到。需要注意的是,加粗的內容代表了對比中的最佳結果。
根據表6 可知,算法FSNTDJE 和FNRDCI分別在數據集Breast 和DLBCL 上選擇了最少特征數分別為7.0 和4.2,算法FS-SIFNCE 分別在數據集Lung 和Colon 均取得了最小的特征數分別為7.0 和2.3。整體而言,算法FS-SIFNCE在平均選取特征數量上低于其余算法,表明所提算法可有效的消除冗余特征。
根據表7 和表8 可知在Colon 數據集上,FS-SIFNCE 算法在KNN 和CART 兩個分類器中顯示出最佳的分類性能,精度分別為89.47%和91.33%,分別高于對比算法2.5%~18.1% 和3.4%~21.8%,且選取特征數量最小。根據表6—7 和表8,可知雖FNRDCI 算法在DLBCL 數據集上具有良好的約簡能力,但在兩個分類器下的平均精度均低于FS-SIFNCE 算法。所以FNRDCI 算法并不能像FS-SIFNCE 算法一樣,保持強約簡能力的同時具有高分類能力。此外,根據表7 和表8 可知算法FS-SIFNCE 在KNN 和CART 分類器下的平均分類精度均最高,分別為91.48% 和92.04%。這也揭示了FSSIFNCE算法可以提高高維數據的分類結果。總之,FS-SIFNCE 算法的平均所選特征數量最小,且平均分類精度最高,表明所提算法在減少冗余特征的同時能有效地提高分類精度。
5 結論
針對在模糊鄰域粗糙集中的重要特征評價函數依賴度僅利用了下近似中的信息,忽略了上近似和邊界域中存在的有效信息這一問題,本文提出了一種基于自信息和模糊鄰域條件熵的特征選擇方法。首先用自信息這一度量工具,定義了相近自信息,使得上近似和邊界域中的有效信息得以利用。其次,利用條件熵的概念引入到模糊鄰域中提出模糊鄰域條件熵,其可通過特征子集的變化選擇出對決策屬性不確定性最小的特征子集,并針對大多特征評價函數僅從代數視角或信息視角構建的問題,將相近自信息與模糊鄰域條件熵相結合,在雙視角下提出了更為全面的特征評價函數,用于衡量特征子集分類信息的不確定性,并基于此利用了最大相關最小冗余技術設計特征選擇算法。最后通過實驗及分析驗證所提 FS-SIFNCE 算法相對于其他算法提高了分類精度和特征選擇的效果。今后的工作將主要集中在進一步優化模糊鄰域半徑的設置,以提高算法的時間效率。
參考文獻:
[1] SUN L, WANG L Y, DING W P, et al. NeighborhoodMulti-granulation Rough Sets-based Attribute ReductionUsing Lebesgue and Entropy Measures in IncompleteNeighborhood Decision Systems[J]. Knowl Based Syst,2020, 192: 105373. DOI: 10.1016/j.knosys.2019.105373.
[2] XIA S Y, WU S L, CHEN X X, et al. GRRS: Accurateand Efficient Neighborhood Rough Set for Feature Selection[J]. IEEE Trans Knowl Data Eng, 2023, 35(9): 9281-9294. DOI: 10.1109/TKDE.2022.3222447.
[3] WANG C Z, HUANG Y, SHAO M W, et al. Feature SelectionBased on Neighborhood Self-information[J].IEEE Trans Cybern, 2020, 50(9): 4031-4042. DOI:10.1109/TCYB.2019.2923430.
[4] HUANG Z H, LI J J. Multi-level Granularity Entropiesfor Fuzzy Coverings and Feature Subset Selection[J]. ArtifIntell Rev, 2023, 56(10): 12171-12200. DOI: 10.1007/s10462-023-10479-3.
[5] 孫敏杰. 基于模糊鄰域熵的特征基因選擇方法研究[D]. 廣州: 廣州大學, 2023.
SUN M J. Research on Feature Gene Selection MethodBased on Fuzzy Neighborhood Entropy[D]. Guangzhou:Guangzhou University, 2023.
[6] PAWLAK Z. Rough Sets[J]. Int J Comput Inf Sci, 1982,11(5): 341-356. DOI: 10.1007/bf01001956.
[7] YUAN Z, CHEN H M, ZHANG P F, et al. A Novel UnsupervisedApproach to Heterogeneous Feature SelectionBased on Fuzzy Mutual Information[J]. IEEE TransFuzzy Syst, 2022, 30(9): 3395-3409. DOI: 10.1109/TFUZZ.2021.3114734.
[8] 冉虹, 候婷, 賀龍雨, 等. 基于模糊鄰域系統的模糊粗糙集模型[J]. 計算機科學, 2022, 49(S2): 330-334. DOI:0.11896/jsjkx.211100224.
RAN H, HOU T, HE L Y, et al. Fuzzy Rough Set ModelBased on Fuzzy Neighborhood System[J]. Comput Sci,2022, 49(S2): 330-334. DOI: 0.11896/jsjkx.211100224.
[9] SHI Z Q, XIE S R, LI L Q. Generalized Fuzzy NeighborhoodSystem-based Multigranulation Variable PrecisionFuzzy Rough Sets with Double TOPSIS Method toMADM[J]. Inf Sci, 2023, 643: 119251. DOI: 10.1016/j.ins.2023.119251.
[10] GOU H Y, ZHANG X Y. Feature Selection Based onDouble-hierarchical and Multiplication-optimal FusionMeasurement in Fuzzy Neighborhood Rough Sets[J]. InfSci, 2022, 618: 434-467. DOI: 10.1016/j.ins.2022.10.133.
[11] 龐婧, 姚炳學, 李令強. 基于模糊鄰域系的a-粗糙集及其應用[J]. 模糊系統與數學, 2022, 36(5): 158-165.
PANG J, YAO B X, LI L Q. The Α-rough Set Based onFuzzifying Neighborhood Systems and Its Applications[J]. Fuzzy Syst Math, 2022, 36(5): 158-165.
[12] HU Q H, YU D R, LIU J F, et al. Neighborhood RoughSet Based Heterogeneous Feature Subset Selection[J].Inf Sci, 2008, 178(18): 3577-3594. DOI: 10.1016/j.ins.2008.05.024.
[13] DUBOIS D, PRADE H. Rough Fuzzy Sets and FuzzyRough Sets[J]. Int J Gen Syst, 1990, 17(2/3): 191-209.DOI: 10.1080/03081079008935107.
[14] QIAN Y H, LI S Y, LIANG J Y, et al. PessimisticRough Set Based Decisions: A Multigranulation FusionStrategy[J]. Inf Sci, 2014, 264: 196-210. DOI: 10.1016/j.ins.2013.12.014.
[15] WANG C Z, SHAO M W, HE Q, et al. Feature SubsetSelection Based on Fuzzy Neighborhood Rough Sets[J]. Knowl Based Syst, 2016, 111: 173-179. DOI:10.1016/j.knosys.2016.08.009.
[16] CHEN Y Y, CHEN Y M. Feature Subset SelectionBased on Variable Precision Neighborhood Rough Sets[J]. Int J Comput Intell Syst, 2021, 14(1): 572. DOI:10.2991/ijcis.d.210106.003.
[17] XU J C, MENG X R, QU K L, et al. Feature SelectionUsing Relative Dependency Complement Mutual Informationin Fitting Fuzzy Rough Set Model[J]. Appl Intell,2023, 53(15): 18239-18262. DOI: 10.1007/s10489-022-04445-9.
[18] ZHOU P, HU X G, LI P P, et al. Online Feature Selectionfor High-dimensional Class-imbalanced Data[J].Knowl Based Syst, 2017, 136: 187-199. DOI: 10.1016/j.knosys.2017.09.006.
[19] 馬磊, 羅川, 李天瑞, 等. 基于模糊粗糙集的無監督動態特征選擇算法[J]. 計算機應用, 2023, 43(10): 3121-3128. DOI: 10.11772/j.issn.1001-9081.2022101543.
MA L, LUO C, LI T R, et al. Fuzzy-rough Set BasedUnsupervised Dynamic Feature Selection Algorithm[J].J Comput Appl, 2023, 43(10): 3121-3128. DOI:10.11772/j.issn.1001-9081.2022101543.
[20] SHU W H, LI S H, QIAN W B. A Composite EntropybasedUncertainty Measure Guided Attribute Reductionfor Imbalanced Mixed-type Data[J]. J Intell Fuzzy Syst,2024, 46(3): 7307-7325. DOI: 10.3233/JIFS-237211.
[21] Shannon C E. A Mathematical Theory of Communication[J]. Bell Syst Tech J, 1948, 27(4): 623-656. DOI:10.1002/j.1538-7305.1948.tb00917.x.
[22] QU K L, XU J C, HAN Z Q, et al. Maximum Rel‐evance Minimum Redundancy-based Feature SelectionUsing Rough Mutual Information in Adaptive NeighborhoodRough Sets[J]. Appl Intell, 2023, 53(14):17727-17746. DOI: 10.1007/s10489-022-04398-z.
[23] 苗奪謙, 胡桂榮. 知識約簡的一種啟發式算法[J]. 計算機研究與發展, 1999, 36(6): 681-684.
MIAO D Q, HU G R. A Heuristic Algorithm for Reductionof Knowledge[J]. J Comput Res Dev, 1999, 36(6):681-684.
[24] 王國胤, 于洪, 楊大春. 基于條件信息熵的決策表約簡[J]. 計算機學報, 2002, 25(7): 759-766. DOI: 10.3321/j.issn: 0254-4164.2002.07.013.
WANG G Y, YU H, YANG D C. Decision Table ReductionBased on Conditional Information Entropy[J]. ChinJ Comput, 2002, 25(7): 759-766. DOI: 10.3321/j. issn:0254-4164.2002.07.013.
[25] TAN A H, WU W Z, QIAN Y H, et al. IntuitionisticFuzzy Rough Set-based Granular Structures and AttributeSubset Selection[J]. IEEE Trans Fuzzy Syst, 2019,27(3): 527-539. DOI: 10.1109/TFUZZ.2018.2862870.
[26] SUN L, WANG L Y, QIAN Y H, et al. Feature SelectionUsing Lebesgue and Entropy Measures for IncompleteNeighborhood Decision Systems[J]. Knowl Based Syst,2019, 186: 104942. DOI: 10.1016/j.knosys.2019.104942.
基金項目:國家自然科學基金(61976082;62076089;62002103)