摘要:該文提出了一種基于粗糙-模糊集理論的知識獲取方法,該方法將粗糙集理論與模糊集理論相結合,先利用模糊集理論對決策表的連續屬性進行模糊化,通過構建模糊相似矩陣進而劃分論域;再利用粗糙模糊集理論進行屬性約簡,從而獲取決策規則。最后,通過實例驗證了該方法的有效性和實用性。
關鍵詞:粗糙集;模糊集;屬性約簡;知識獲取
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)23-1029-03
Knowledge Acquisition Approach Based on Rough-Fuzzy Sets
CAI Hong, YE Shui-sheng, ZHANG Yong
(Nanchang Hang Kong University, School of Computing, Nanchang 330063, China)
Abstract: This article presents an approach of knowledge acquisition based on rough and fuzzy sets, which combines features of rough sets and fuzzy sets. The continuous attributes in the decision table are fuzzified with fuzzy membership functions. The domain partition is accomplished after establishing fuzzy similarity matrix. Attributes reduction can be obtained using rough-fuzzy sets, and then decision rules can be acquired. At last, an example is illustrated and proves the approach is effective and practical.
Key words: rough sets; fuzzy sets; attributes reduction; knowledge acquisition
粗糙集理論是一種處理不完整和不確定信息的有效數學工具,它具有知識獲取完全由數據驅動,不需額外信息的優點。但是,粗糙集理論直接處理連續屬性的能力非常有限,因而連續屬性的離散化成為制約粗糙集理論發展的難點。而模糊集可以通過模糊隸屬度函數來刻畫集合中子類邊界的模糊性,兩者正好互補。因此,本文將粗糙集與模糊集理論相結合,提出了一種基于粗糙-模糊集理論的知識獲取方法,并通過實例驗證了該方法的有效性。
1 基于模糊相似關系的論域劃分模型
1.1 連續屬性離散化
對于決策表中任一連續屬性,根據值域的大小和屬性值的分布,可以將其模糊化為k個語義變量,而這k個模糊劃分的中心mi可由Kohonen網絡自組織映射算法確定。
1.2 基于模糊相似關系的論域劃分方法
1)利用數量積法建立模糊相似矩陣R=(rij)n*n,rij表示對象xi和xj的相似程度。rij定義如下:
2)在此基礎上,引入置信水平λ,rij經過如下操作,得到普通相似矩陣Rλ。
3)基于模糊相似關系的論域劃分方法
輸入:決策表四元組,普通相似矩陣Rλ,其中A=C∪D,C為條件屬性集合,D為決策屬性集合。
輸出:論域劃分U/ND(Rλα) ={V1,V2,V3,…,Vt}。
Step 1:i←1, j←1, t←1, V1←{ u1 }
Step 2:if ( i與|U|相等) 劃分完成退出
else 轉向Step 3
Step 3:i←i+1, j←1
Step 4:if ( μa(ui) 與μa(vj)相等) Vj←Vj∪{ui},轉向Step 2
else 轉向Step 5
Step 5:j←j+1
Step 6:if (j大于t) t←t+1,Vt←{ui},轉向Step 2
else 轉向Step 4
2 基于屬性依賴度的約簡算法
2.1 模糊粗糙集的上、下近似和屬性依賴度定義
根據基于模糊相似關系的論域劃分方法,可以得到屬性a∈A且在置信水平λ下對論域U的劃分U/ND(Rλα) ,其中不同的屬性可以采用不同的置信水平對論域進行劃分,那么屬性集A對論域U的劃分可以表示為:
如果用Fi表示式(3)中的U/ND(Rλiαi),那么式(3)可表示為:
2.2 基于屬性依賴度的約簡算法
基于屬性依賴度的約簡算法主要思想:首先令R為空集,依次把那些使γR(D)的增量達到最大的屬性添加到集合R中,直到γR(D)達到最大,輸出決策表的一個最小屬性約簡集合R。算法描述如下:
輸入:決策表四元組< U, A, V, f >,屬性依賴度RM(D),其中A=C∪D,M?哿C。
輸出:決策表的一個最小屬性約簡集合R。
Step 1:R←{ }, T←{ }, γbest(D)←0, γprev(D)←0
Step 2:T←R, γprev←γbest(D)
Step 3: , T←R∪{y}
Step 4:R←T, γbest(D)←γR∪(y)(D)
Step 5:if (γbest(D)與γprev(D)相等) 約簡完成退出
else 轉向Step 2
3 決策規則歸納算法
根據上面提出的粗糙-模糊集模型,進行決策規則歸納以獲取知識,具體步驟如下:
1) 利用Kohonen網絡自組織映射算法確定k個模糊劃分的中心mi,并采用三角隸屬度函數對連續屬性進行模糊化;
2) 根據基于模糊相似關系的論域劃分方法得到對整個論域的劃分;
3) 根據基于屬性依賴度的約簡算法得到條件屬性集的一個最小約簡集;
4) 刪除決策表中重復實例,歸納出決策規則。
4 實驗
為了驗證算法的有效性,將上述提出的基于粗糙-模糊集理論的知識獲取方法應用于如表1所示的決策表中,其中C={a1, a2, a3, a4},D=g0gggggg。
首先,對條件屬性集C四個連續屬性進行模糊化。利用Kohonen網絡自組織映射算法確定5個模糊劃分的中心mi,并采用三角隸屬度函數對連續屬性進行模糊化,其隸屬度函數如圖1和圖2所示。
其次,根據基于模糊相似關系的論域劃分方法得到對整個論域的劃分。令λ=0.8。
再次,根據基于屬性依賴度的約簡算法得到條件屬性集的一個最小約簡集。
γc(D)=5/6,而γ{a2,a3,a4}(D)=1/3,γ{a1,a3,a4}(D)=2/3,γ{a1,a2,a4}(D)=1/2,γ{a1,a2,a3}(D)=5/6,可以得到約簡集{a1, a2, a3}。
最后,刪除決策表中重復實例,歸納出決策規則。
1)IF 1.4 ≤ a1 ≤ 1.9 and 1.6 ≤ a2 ≤ 1.8 THEN d=1;
2)IF 1.4 ≤ a1 ≤ 1.9 and 2.1 ≤ a2 ≤ 2.6 and 1.01 ≤ a3 ≤ 1.10 THEN d=1;
3)IF 1.4 ≤ a1 ≤ 1.9 and 2.1 ≤ a2 ≤ 2.6 and a3 = 0.78 THEN d=2;
4)IF 2.2 ≤ a1 ≤ 2.7 and 2.1 ≤ a2 ≤ 2.6 THEN d=2;
5)IF 3.1 ≤ a1 ≤ 3.8 and 2.1 ≤ a2 ≤ 2.6 THEN d=3;
6)IF 2.2 ≤ a1 ≤ 2.7 and 3.5 ≤ a2 ≤ 3.9 THEN d=3;
7)IF 3.1 ≤ a1 ≤ 3.8 and 3.5 ≤ a2 ≤ 4.9 THEN d=4;
8)IF a1 = 4.9 and 3.5 ≤ a2 ≤ 3.9 and 0.42 ≤ a3 ≤ 0.56 THEN d=4。
5 結論
本文提出的基于粗糙-模糊集理論的知識獲取方法,是將粗糙集理論與模糊集理論相結合,先利用模糊集理論對決策表的連續屬性進行模糊化處理,以避免直接離散化帶來的信息丟失,再利用粗糙模糊集理論進行屬性約簡,進而獲取決策規則,該方法為解決連續屬性的規則獲取問題提供了一條有效途徑。
參考文獻:
[1] 張化光,徐悅,孫秋野.基于模糊粗糙集的系統連續變量離散化方法[J].東北大學學報(自然科學版),2008,(1):1-4.
[2] 吳山產,毛鋒,王文淵,等.基于粗糙集的兩種離散化算法的研究[J].計算機工程與應用,2004,40(26):68-69.
[3] 樊雷,雷英杰.基于直覺模糊粗糙集的一種知識獲取方法[J].計算機工程與應用,2008,44(4):39-41.
[4] WU Wei-zhi,ZHANG Wen-xiu,LI Huai-zu. Knowledge acquisition in incomplete fuzzy information systems via the rough set approach[J]. Expert Systems,2003,20(5):280-286.