摘 要:結合模糊聚類和粗糙集提出了一種基于精簡的模糊規則庫分類算法。對于數值型樣本數據,首先采用模糊聚類生成模糊規則庫,然后運用粗糙集理論對樣本屬性進行約簡,刪除冗余規則,即可得到精簡的模糊規則庫,以方便進行分類決策。通過對IRIS的仿真測試表明,本算法所產生的模糊規則不僅簡單易懂,而且分類效果很好。
關鍵詞:模糊規則; 模糊C均值聚類; 粗糙集
中圖法分類號:TP301.6文獻標識碼:A
文章編號:1001—3695(2007)02—0024—03
模糊邏輯可運用在分類問題上,基于If-Then規則的模糊系統可以對樣本進行分類[1,2]。與傳統的分類方法相比,模糊分類可以處理分類中的模糊性,以及數據的不精確性和不完整性[3]。目前提出的模糊分類方法很多,包括Tz Ping基于α截集的分類方法[4],V.Ravi基于MTA的分類方法[5],G.G.Yen結合ILFN和GA的方法[6],I.Requena的Constructive方法[7]等。這些方法存在規則的沖突性,或表達知識不夠精細,或算法實現復雜。一般來說,基于If-Then規則的模糊系統有兩個基本的要求:①易理解性,要求規則數盡可能少,規則前件結構簡單,操作方便。②精確性高,要求系統具有較高的精度,分類效果好[7]。正是出于這兩方面的考慮,本文結合模糊聚類和粗糙集理論提出了一種新的基于模糊規則的分類方法。首先,對樣本數據,運用模糊C均值(Fuzzy C-Mean,FCM)聚類算法分類別對各維分量聚類,得到聚類中心值矩陣,然后確定模糊語言值及其模糊子集,并產生初始的模糊規則庫,最后運用粗糙集理論對模糊規則庫進行簡化,得到精簡的規則庫。
1 模糊C均值聚類生成模糊規則庫
1.3 生成模糊規則庫
通過第1.2節聚類得到的規則前件部分是用數值型數據表示的,對于決策來說很難理解,需要將其轉換為模糊隸屬度函數及語言標志值來表示,如第一條規則應為
其中Ai,1,1(i=1,…,n)為語言標志值對應的模糊集合,具有明確的隸屬度函數。初始模糊規則庫的生成由如下算法實現,包括四個步驟:
(1)確定模糊隸屬度函數的類型和語言標志值的數量H。隸屬度函數可以采用任何類型,本文采用高斯型。語言標志值的數量也就是劃分的模糊子集個數,可以將所有樣本屬性值統一為一個論域進行模糊劃分,也可以將每個屬性值分別進行獨立的模糊劃分,本文采用的是將所有樣本屬性值統一為一個論域進行模糊劃分, 語言標志值的數量越多,模糊劃分越精細。
(2)計算每個模糊子集的參數。由于采用的是高斯型隸屬度函數,因此只需計算每個模糊子集的中心和標準差。
2 粗糙集理論簡化模糊規則庫
粗糙集(Rough Set)理論是由波蘭數學家Z.Pawlak提出的一種處理不完整性、不確定性問題的數學工具[8,9]。它從新的角度定義知識,把知識看作是關于等價類的劃分,從而將知識和分類緊密聯系起來。粗糙集理論的主要特點是它僅利用數據本身提供的信息,而無須其他先驗知識。目前它已被成功地應用于模式識別、機器學習、決策支持和數據挖掘等領域[10]。
決策表是一種特殊而重要的知識表達系統,多數決策問題均可以用決策表形式來表達。決策表也是一種分類,其中的決策屬性相當于分類中的類屬性。但是由于應用領域不同,因此兩者的側重點也有所區別。分類問題主要關注于對樣本的完整覆蓋,以及在保持分類能力不變的前提下盡量得到一個優化的規則集;而決策問題關注的是怎樣以盡量少的規則和屬性來得到一個完整的決策規則集。因此,對決策表的處理主要是對其進行簡化和最小化,簡化既包括對屬性集的簡化,也包括對屬性值的簡化和冗余規則的刪除,最小化在本文中被定義為決策集中的規則數目最少。
可辨識矩陣將知識表中所有有關屬性區分的信息均濃縮在一個矩陣中。根據可辨識矩陣可應用辨識函數實現屬性約簡。辨識函數定義為Δ=∏(i, j)∈U×U∑CD(i, j),其中∑代表“∨”,∏代表“∧”。通過辨識函數可以方便地得到屬性集的簡化和核。
根據可辨識矩陣的定義可知,當兩個樣本的決策屬性取值相同時,它們所對應的可辨識矩陣元素的取值為0;當兩個樣本的決策屬性不同且可以通過某些條件屬性的取值不同加以區分時,它們所對應的可辨識矩陣元素的取值為這兩個樣本屬性值不同的條件屬性集合,即可以區分這兩個樣本的條件屬性集合;當兩個樣本發生沖突時,即所有的條件屬性取值相同而決策屬性的取值不同時,則它們所對應的可辨識矩陣中的元素取值為空集。顯然,可辨識矩陣元素中是否包含空集元素,可以作為判定決策表系統中是否包含不相容(沖突)規則的依
3 對IRIS的仿真實驗
IRIS數據集包含有150個樣本,是三類植物(Setosa,Versicolour,Virginica) 用四個生長屬性(Sepal Length,Sepal Width,Petal Length,Petal Width)來進行分類,每類植物有50個樣本。為方便試驗,我們將Setosa,Versicolour,Virginica記為Class1,Class2,Class3;生長屬性Sepal Length,Sepal Width,Petal Length,Petal Width記為Feature1,Feature2,Feature3,Feature4,每類取前25個樣本作為訓練數據。
按照第1.2節對每類樣本各維屬性進行聚類,取Mi, j=2(1≤i≤4,1≤j≤3),得到的聚類中心矩陣如表1所示。
將四個屬性值作為同一個論域,采用高斯型隸屬度函數劃分為九個模糊子集,按照1.3中步驟(2),各個隸屬度函數的對應的語言值極其中心如表2所示。
表3的模糊規則庫相當于粗糙集中的決策表,前件的四個屬性是條件屬性,后件的類別是決策屬性,應用可辨識矩陣得到表3的簡化表,即精簡的模糊規則庫,如表4所示。
根據得到的規則集及表1就可對訓練樣本及測試樣本進行分類,當待分樣本的前件部分沒有規則與其相匹配時,計算其屬性值在相近規則中屬性的模糊集合隸屬度之和,與最大者對應規則的類別即為待分樣本的類別。最后訓練樣本和測試樣本的分類正確率為97.33%,96%,達到了滿意的分類效果。
4 結論
模糊聚類作為一種無監督的分類,使類中的對象具有較大的相似性,而不同類的對象具有較小的相似性。而粗糙集以不可分辨的關系為基礎,研究的是不同類中對象組成的集合的關系,可以對構成對象的屬性進行約簡。本文結合模糊聚類和粗糙集提出了一種基于精簡的模糊規則庫的分類算法,對樣本數據、模糊C均值(FCM)聚類算法分門別類地進行各維分量聚類,得到初始的模糊規則庫,并運用粗糙集理論得到精簡的規則庫。對IRIS的仿真實驗表明,該算法實現簡單,得到的模糊規則庫在保持較高精度的前提下,規則數少,規則前件結構簡單,操作方便。
本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。