顧曉清 王士同
1(江南大學數字媒體學院 江蘇無錫 214122)2 (常州大學信息科學與工程學院 江蘇常州 213164) (czxqgu@163.com)
知識嵌入的貝葉斯MA型模糊系統
顧曉清1,2王士同1
1(江南大學數字媒體學院 江蘇無錫 214122)2(常州大學信息科學與工程學院 江蘇常州 213164) (czxqgu@163.com)
模糊系統的獨特優勢在于其高度的可解釋性,然而傳統的基于聚類的模糊系統往往需要使用輸入空間的全部特征且常出現模糊集交叉的現象,系統的可解釋性不高;此外,此類模糊系統對高維數據處理時還會因使用大量的特征而使規則過于復雜.針對此問題,探討了一種知識嵌入的貝葉斯MA型模糊系統(knowledge embedded Bayesian Mamdan-Assilan type fuzzy system, KE-B-MA).首先,KE-B-MA使用DC(don’t care)方法進行知識嵌入的模糊集劃分,對模糊隸屬度函數中心和輸入空間特征的選擇進行有效指導,其獲得的規則可對應于不同的特征空間.其次,KE-B-MA基于貝葉斯推理使用馬爾可夫蒙特卡洛(Markov chain Monte Carlo, MCMC)方法對模糊規則的前后件參數同時學習,所得結果為全局最優解.實驗結果表明:與一些經典模糊系統相比,KE-B-MA具有令人滿意的分類性能且具有更強的可解釋性和清晰性.
分類;貝葉斯推理;Mamdan-Assilan型模糊系統;知識嵌入;馬爾可夫鏈蒙特卡洛方法
目前,基于規則的模糊系統已成功地應用于系統建模、模式識別和圖像處理等領域[1-5].模糊系統與其他人工智能方法的主要區別在于:1)模糊系統具備不確定和模糊信息的處理能力,能夠將自然語言直接轉譯成與人類推理機制相似的模糊規則;2)模糊系統不僅具有強大的學習能力,其構建的模糊規則還具有高度的可解釋性,而這一特性是其他人工智能方法所不具備的.
廣泛使用的提取模糊規則的方法主要可分為3類:
1) 通過對輸入空間的固定劃分或基于網格的空間劃分方法來獲取模糊規則[6-8],其優點是空間的模糊劃分清晰度高,但在對高維數據進行訓練時,會因采用大量的特征而使其規則變得過于復雜.假設使用均勻5網格的方法對輸入空間的每一維進行模糊劃分,對于特征數是n的數據集而言,最終提取的模糊規則數為5n.為此,進化算法和自我評價學習算法[9-11]常用于模糊規則的結構簡化.
2) 使用支持向量機(support vector machine,SVM)技術[12-13],將每一個支持向量作為一條模糊規則.SVM技術遵循結構風險最小化原則,能夠最大限度地減少模型的泛化誤差,然而支持向量的數量通常是很大的,尤其是對于復雜的分類任務,因此這類方法設計得到的模糊規則也易出現規模較大且易冗余的情況.為此,研究者提出了一系列的刪減準則用于模糊規則的約減[14].
3) 使用聚類算法,模糊規則的個數等于聚類的個數.文獻[15-16]中,模糊規則的前件參數則使用自適應模糊聚類算法獲得,模糊規則的后件參數則使用SVM的方法獲得;文獻[17]使用密度聚類對模糊系統的結構進行初始化;文獻[18-20]使用經典的模糊C均值聚類(fuzzy c-means, FCM)算法來獲得輸入空間的模糊劃分,并使用Ho-Kashyap算法得到模糊規則的后件參數;文獻[21]利用FCM聚類算法確定模糊規則的前件參數后,基于極大極小概率學習理論產生了一種有分類可靠性保證的模糊分類器.雖然近幾年基于聚類的模糊系統得到了一定的發展,但這類方法普遍存在2點不足:
1) 模糊空間的劃分通過聚類算法獲得,通常情況下不能保證所得的聚類中心,即模糊集中心具有可解釋性,得到的模糊集往往存在過度的交叉或重疊現象,模糊劃分的清晰性自然得不到保證.
2) 模糊規則前件對應于輸入空間的所有特征,在處理高維數據時,每條規則所對應模糊集的數量大大增加,模糊規則前件則變得愈加復雜,規則的可解釋性也必然大大下降.
針對上述不足,本文提出了全新的知識嵌入的貝葉斯MA型模糊系統(knowledge embedded Bayesian Mamdan-Assilan type fuzzy system, KE-B-MA).鑒于MA(Mamdan-Assilan)型模糊系統的簡單性和受到廣泛應用等特點,本文將其作為研究對象.首先,通過DC方法(don’t care approach)實現對模糊隸屬中心和輸入空間特征的選擇,其獲得的模糊劃分物理意義明顯且有效降低所構建系統的復雜性.其次,引入貝葉斯概率框架并使用馬爾可夫鏈蒙特卡洛(Markov chain Monte Carlo, MCMC)方法構造一條馬爾可夫鏈,同時對模糊規則的前件和后件參數進行學習,保證獲得參數具有全局最優值.因而,本文所提方法能夠在保證模糊規則的可解釋性的同時兼顧模糊系統分類準確度.
1.1 MA型模糊系統基本概念
經典模糊系統可分為3類[22-23]:Mamdan型模型、Takagi-Sugeno-Kang型模型和Generalized Fuzzy型模型.其中,Mamdan型模糊系統由于其輸出的簡潔性,使得構造的模糊規則后件參數具有較高的可解釋性受到較多關注.MA型模糊系統的第k個模糊規則的表示為[20]
fk(x)=vk,
其中,k=1,2,…,K,每一條規則都有對應的輸入向量x=(x1,x2,…,xd)T,并把輸入空間的模糊子集Ak?d投影到輸出空間的模糊集fk(x).式(1)中d是樣本的特征數,K是模糊規則數,and是模糊合取操作為第i維輸入在第k條模糊規則中對應的模糊子集,令μk(x)為第k條規則對應的模糊隸屬度函數,若采用高斯型隸屬函數,則其可以表示為
其中,參數cki和δki分別是隸屬函數的中心和方差.在經過一系列的操作及去模糊化處理之后,可得MA型模糊系統的實值輸出:



Fig. 1 The cluster based TSK fuzzy classifier’s parameter learning mechanism圖1 基于聚類算法的模糊系統參數學習的示意圖
1.2 基于模糊聚類和SVM技術的MA型模糊系統
設給定樣本X=(x1,x2,…,xN)和對應的標簽Y=(y1,y2,…,yN),其中yi∈{-1,+1},1≤i≤N.傳統基于模糊聚類的模糊系統參數學習方法如圖1所示,模糊系統的規則前件參數可以直接通過模糊聚類算法的學習獲得.由于模糊C均值聚類FCM[24]所獲得的空間劃分具有模糊性,且具有實現簡單和有效的優點,其被廣泛應用于模糊系統規則前件參數的學習中.此時,式(2)中的隸屬度函數中心ck=(ck1,ck2,…,ckd)T為聚類中心,方差δk=(δk1,δk2,…,δkd)T可計算得到:
其中,uj k為輸入向量xj=(xj1,xj2,…,xjd)T隸屬于第k類的隸屬度,尺度參數h為一正常數.

s.t.yi(VTφi+b)≥1-ξi,
ξi≥0,i=1,2,…,N.
其中,后件參數V=(v1,v2,…,vK)T,C′是正則化參數.
通過最優化理論,式(6)可轉化為對偶問題:
由此可得后件參數的全局最優解:
最終,對于任意給定的樣本x,MA型模糊系統的實值輸出為
其中,偏移量b可通過求解式(7)獲得.
值得注意的是,偏移量b可以看作是除K條模糊規則之外的第K+1條規則,其形式為

針對第1節分析的傳統基于聚類的模糊系統的缺陷,本文探討了一種知識嵌入的貝葉斯MA型模糊系統,即KE-B-MA的構建方法.KE-B-MA模糊系統的工作原理和參數學習示意圖如圖2所示.1)KE-B-MA使用DC方法給出系統對應的模糊隸屬度函數中心和每條規則使用的輸入空間特征;2)構造用于模糊規則前件和后件參數同時學習的概率模型框架;3)使用MCMC方法來估計模型的最大后驗概率,得到模型參數的全局最優解.對比圖1和圖2可知,傳統基于聚類的模糊系統前件和后件參數的學習是相對獨立的,一旦模糊規則的前件參數通過聚類算法確定后,在隨后的模糊規則后件參數學習過程中不能更改.然而聚類方法的本質是按照某種相似程度的度量來完成輸入空間的劃分,其無法考量模糊系統中輸入空間和輸出空間之間的聯系.KE-B-MA從貝葉斯推理的角度建立輸入空間和輸出空間之間的聯系,保證了在復雜問題中所得模糊系統的分類準確度.

Fig. 2 System diagram of the KE-B-MA and parameter learning mechanism圖2 KE-B-MA工作原理和參數學習示意圖
2.1 KE-B-MA中模糊規則構建
日常生活和生產活動中通常積累有大量的專家經驗,把這些有用的專家經驗嵌入到模糊系統中能起到提高模糊規則可解釋性的作用.如在糖尿病患者的診斷系統中,胰島素釋放曲線常作為一個特征進行考察.胰島素釋放曲線一般可分為:胰島素分泌正常型、胰島素分泌不足型、胰島素分泌增多型和胰島素釋放障礙型4種.在這一特征進行模糊劃分時,如果按照4種胰島素釋放類型的平均數值進行預先設定可得4個具有可解釋性的模糊隸屬中心.
根據這一思路,KE-B-MA模糊系統使用知識嵌入的DC方法[25-26]對每條規則使用的輸入空間特征和模糊隸屬度函數中心進行選擇.DC方法在模糊規則每一維上定義5個高斯型隸屬度函數并賦予了其各自的語意標簽:very low,low,medium,high,very high,分別用數字1~5表示.隸屬度函數中心相應地設定為(0,0.25,0.5,0.75,1);而DC則用來表示特征在規則中不被選擇.以下給出KE-B-MA模糊系統對應的模糊規則示例:表1是使用DC方法在樣本維度為5的數據集上設置的知識嵌入矩陣.其中第1條規則選擇的輸入特征(和對應的隸屬度函數中心)分別是第1維(0),第2維(0.25)和第5維(0.75),而第3維和第4維不選擇;第2條規則上選擇的輸入特征(和對應的隸屬度函數中心)分別是第1(0.25)、第3(0.5)、第4(0)和第5維(1)、第2維不選擇.DC方法中的知識嵌入矩陣在實際應用中往往按照專家經驗人為設定.

Table 1 A Knowledge Embedded Matrix in DC Approach表1 DC方法中知識嵌入矩陣示例
由于篇幅所限,以下給出第1條模糊規則的IF語句部分的格式:
ifx1is very low andx2is low andx3
is “don’t care” andx4is “don’t
care” andx5is high,
進一步,該模糊規則的if語句部分可以簡潔地寫為
ifx1is very low andx2is
low andx5is high,
顯然,與經典MA型模糊規則相比,本文所用模糊規則具有2個特點:1)if語句部分保證模糊劃分的清晰性;2)允許每條模糊規則的輸入空間不同,即使用非連續的隸屬度函數,這樣既縮短了規則前件對應于輸入向量的特征數,又可使每條規則從不同的視角進行推理,增強了模糊系統的可解釋性.
2.2 KE-B-MA模糊系統構建
當使用知識嵌入的DC方法預設了模糊隸屬度函數的中心C=(c1,c2,…,cK)T和各規則的輸入空間特征,KE-B-MA模糊系統中待求的前件參數是模糊隸屬度函數的方差δ=(δ1,δ2,…,δK)T.值得注意的是,每一條規則的方差δk與中心ck在同一輸入空間下.此外,由式(2)(5)(7)可知,δk的值與模糊聚類的隸屬度un k(1≤n≤N,1≤k≤K)有關,un k表示樣本xn與第k個聚類中心ck的劃分關系.因此,求解δ的問題就轉化為求解模糊劃分矩陣U的問題,加上待求的模糊規則后件參數V=(v1,v2,…,vK)T,KE-B-MA模糊系統中需同時學習的模糊規則前件和后件參數為U和V.
根據貝葉斯理論,KE-B-MA模糊系統中數據和各參數的聯合似然估計可以寫為
p(X,U,C,Y,V)=
p(X|U,C,Y,V)p(U|C,Y,V)p(C,V,Y),


對式(13)取負對數,可得:
-lg(p(X|U,C,Y,V))=
式(14)等號右邊第1項與FCM聚類的目標函數相同,用來保證在聚類中心固定的情況下得到X合理的模糊劃分.假設模糊劃分矩陣U的先驗分布p(U|C,Y,V)只與聚類中心C有關,即p(U|C,Y,V)等價于p(U|C),同時不同樣本所屬的模糊隸屬度之間相互獨立,則先驗分布p(U|C,Y,V)可以定義為


本文所提KE-B-MA假設先驗分布p(C,V,Y)服從指數分布,形式為
其中,函數f(C,yn,V)的定義為


KE-B-MA假設先驗分布p(Y)為常數.將式(13)(15)(17)相乘,得到KE-B-MA的數據和參數的聯合分布,其形式為
通過對式(19)取對數,可得KE-B-MA目標函數:

從式(20)可以看出,KE-B-MA將模糊規則前件和后件參數的學習融入到一個概率模型中,當模型的聯合分布達到MAP值時,參數{U,V}可同時得到最優解.
2.3 模糊規則前件和后件參數的學習策略
為了得到參數{U,V}的全局最優解,如圖2所示,本文使用蒙特卡洛(MCMC)方法[28]來求解式(19)的MAP值.具體地,本文通過MH(Metropolis-Hastings)采樣算法構造一條滿足一定后驗分布且平穩分布的Markov鏈.該Markov鏈的第t次迭代的步驟如下:

其中,參數α=(α1,α2,…,αK)決定了Dirichlet分布的形狀,當αk值越接近于0,產生的un k值趨于二值化(0或1);當αk值在1附近時,產生的un k值具有模糊性;隨著αk值的繼續增大,產生的un k值趨向于均勻分布.實驗中,由于數據分布的未知性,α參數設為α=1K.


其中,

概率au的計算方法可寫為
其中,函數Unif(0,1)產生一個在[0,1]范圍內均勻分布的隨機數.


5) 計算第t次迭代后件V(t+1)和當前后件V*

6) 更新U和V的MAP值{U*,V*}
在Markov鏈第t次迭代的最后,進行p(X,U(t+1),C,Y,V(t+1))與p(X,U*,C,Y,V*)值的比較,值大者成為當前新的MAP值{U*,V*},即:
通過重復上述步驟,當迭代次數足夠大時,可以保證得到的參數{U*,V*}是全局收斂.
2.4 KE-B-MA算法描述和算法分析
根據2.2節利用MCMC理論構造Markov鏈求解{U*,V*}的敘述,本節給出KE-B-MA模糊系統學習算法.
算法1. KE-B-MA算法.
輸入:訓練樣本X和樣本標簽Y、知識嵌入矩陣、模糊指數m、規則數K、正則化參數C′、隸屬函數尺度參數h、Markov鏈最大迭代次數tmax;
輸出:KE-B-MA模糊系統的模糊規則和決策函數.

步驟1. 設置iter=1;
步驟2. 設置iterationU=1;

步驟4. 根據式(22)計算接受概率au;

步驟6.iterationU=iterationU+1;
步驟7. 如果iterationU≤N,轉到步驟3;

步驟9. 根據式(19)分別計算p(X,U(t+1),C,Y,V(t+1))和p(X,U*,C,Y,V*);
如果p(X,U(t+1),C,Y,V(t+1))>p(X,U*,C,Y,V*),那么U*=U(t+1),V*=V(t+1);
步驟10.iter=iter+1;如果iter 步驟11. 使用式(5)計算規則前件參數δ,并得到模糊規則; 步驟12. 由式(9)得到系統的決策函數. 通過對算法1的分析可知,算法1的時間復雜度主要有2部分構成:條件概率p(xn,un|C,Y,V)(式(15))和后件參數V(式(7))的計算,時間復雜度分別是O(Kdk)和O(N3),其中dk為第k條規則的輸入向量的特征數.因此,算法1的時間復雜度小于等于O(tmax(NKd+KN3)).可見,算法1運行的時間效率與樣本的容量和結構有關,大部分情況下數據集的維數d與樣本容量N之間存在d?N2的關系,因此,算法1執行時間復雜度近似為O(tmaxKN3),即等于求解后件參數對應的二次規劃所需的時間.為了在一定程度上提高算法的執行效率,可以采用許多成熟的快速算法來提高二次規劃的求解速度,例如SMO(sequential minimal optimization)[29]和parallel mixture[30]等,其執行效率在樣本容量為N時分別能夠達到O(N2)和O(N).本文采用SMO算法來求解后件參數. MH采樣算法的全局收斂性在文獻[28]中得到證明,根據隨機游走的策略,無論其參數的初值如何設置,算法最終一定收斂于平穩分布.而本文提出的KE-B-MA模糊系統在采用MH采樣算法的同時,引入了計算模糊規則后件參數的SVM算法,其QP解法也可保證獲得結果的全局收斂性.因此,算法1得到的KE-B-MA的前件和后件參數是全局最優解. 3.1 實驗設置 為了驗證本文方法的有效性,本節將分別通過人工合成數據集以及UCI標準數據庫數據對KE-B-MA算法進行分析與驗證.有關實驗數據的詳細描述分別于3.2節和3.3節給出.此外,與KE-B-MA進行比較的算法包括4種典型的基于聚類的模糊系統:FCM-IRLS[20],FCM-SVM-FS[16](模糊系統前件參數學習使用FCM聚類)和L2-TSK-FS[31],以及經典分類算法SVM.在本文實驗部分,各調節參數的設置采取5重交叉驗證法來選取最優值,參數的詳細設置如表2所示.所有算法在Matlab2010b環境下實現,SVM算法由LIBSVM軟件實現,采用L1-SVM的形式. Table 2 Definition and Settings of the Related Parameters for All Algorithms 為對各算法的性能進行全面比較,實驗采用4個評價指標:1)分類精度和方差;2)模糊系統的規則數和SVM的支持向量數;3)各模糊系統規則中包含的特征數;4)各算法所對應模型的變量數.SVM包含的變量數為L+L(s+1)+1,其中L表示支持向量數,s表示樣本的維數;L2-TSK-FS包含的變量數為2Kd+K(d+1),K表示模糊規則數,d表示模糊規則對應輸入空間的維數;FCM-SVM-FS和KE-B-MA包含的變量數為2Kd+K+1;FCM-IRLS包含的變量數為2Kd+K. 3.2 人工數據集實驗 人工數據集由500個10維在[0,1]之間均勻分布的隨機數x構成.每個樣本對應的類標簽定義為y=sgn(x1+x2+…+x10). 為了驗證KE-B-MA中基于貝葉斯理論的前件后件參數同時學習策略的有效性,本節實驗中5重交叉驗證的每一折中知識嵌入矩陣通過隨機選擇樣本特征和隨機選擇語義標簽的方式獲得.KE-B-MA中知識嵌入矩陣中各元素的選擇原則是:模糊集應覆蓋輸入空間所有的特征.實驗比較了KE-B-MA與其他4種對比算法的分類平均準確率和標準差、規則數、規則包含的特征數和模型包含的變量數4個指標,結果如圖3所示(最佳結果用黑體標出).其中,SVs表示SVM獲得的支持向量數. Table 3 Accuracy Performance Comparison of Several Algorithms on the Artificial Dataset表3 各種算法在人工數據集上的性能比較 SVs: Support vectors Fig. 3 Performance comparison between KE-B-MA,FCM-SVM-FS,FCM-IRIS and L2-TSK-FS on the artificial dataset圖3 KE-B-MA,FCM-SVM-FS,FCM-IRIS,L2-TSK-FS在人工集上的性能比較 由表3和圖3可以看出: 1) 本文方法與實驗4種對比算法相比,在人工數據集上取得了相當的分類性能,KE-B-MA的分類準確度僅比最佳分類效果低0.01%. 2) FCM-IRLS,FCM-SVM-FS,L2-TSK-FS模糊系統采用樣本的全部10個特征來構造模糊規則,而KE-B-MA構造的模糊規則通過知識嵌入矩陣只使用了5.8個特征,說明KE-B-MA雖然沒有使用樣本的全部特征,但通過規則前件和后件共同學習的策略能夠充分考慮輸入空間和輸出空間之間的內在聯系,保證了模糊系統的分類精確度.這一點是FCM-IRLS,FCM-SVM-FS,L2-TSK-FS不具備的. 3) 表3的最后一行比較了實驗中5種算法各自模型中的變量數,顯然KE-B-MA模糊系統具有絕對的優勢,其模型中的變量數遠小于另外4種算法. 4) 對于模糊系統而言,模糊規則的可解釋性不僅與模糊規則數有關,同時也與規則在輸入空間的劃分清晰度有關.KE-B-MA中通過使用知識嵌入矩陣設定了語義清晰的模糊隸屬度函數中心,保證了輸入空間的劃分清晰度,這一優點也是實驗中其他3種模糊系統所不具備的. 為了對KE-B-MA所得模糊規則這一特性有更直觀的了解,下面給出了實驗中設定的知識嵌入矩陣和最佳分類精度時得到的模糊規則,分別如表4和圖4所示. Table 4 The Knowledge Embedded Matrix Corresponding to Eight Fuzzy Rules in One Running Time on the Artificial Dataset表4 某次運行時人工集上產生的8條模糊規則對應的知識嵌入矩陣 Fig. 4 Fuzzy membership functions obtained by KE-B-MA by using the knowledge embedded matrix in table 4圖4 KE-B-MA模糊系統根據表4知識嵌入矩陣得到的模糊隸屬度函數 圖4所示規則對應的后件參數為V=(0.9731,0.8931,1.2387,1.7321,-1.2971,-1.8662,-07582,-0.9265)T.由于篇幅所限,下面給出所得第1條模糊規則的形式: R1:ifx1is very high andx2is low andx4is medium andx6is very low andx7is medium andx9is very high,thenv1=0.9731. 3.3 UCI數據集實驗 本節通過5個真實的UCI機器學習庫[32]中的數據集來驗證KE-B-MA的性能:Pima Indians’ Diabetis(Diabetis)數據集、Breast Cancer(Breast)數據集、Liver數據集、Image Segmentation(Image)數據集和Ringnorm數據集.Diabetis數據集共有768個數據樣本,每個樣本有8個特征,數據集分為糖尿病類和正常類,樣本數分別為500和268.Breast共有288個數據樣本,其中屬于乳腺癌類樣本85個,屬于良性乳腺癌類樣本201個,每個樣本有9個特征.Liver數據集共有345個數據樣本,包含肺部異常類樣本145個和正常類樣本200個,每個樣本有6個特征.Image數據集為圖像分割測試數據集,共有2 10個數據樣本,含18個特征,其中正類1 320個樣本,負類990個樣本.Ringnorm數據集包含 7 400個樣本,其特征數為20 維,正類和負類樣本分別為3 364和3 736個.實驗中5個UCI集的數據均歸一化至[0,1]范圍內.本節實驗中知識矩陣的建立借助于F-score方法[33],優先選擇F-score值較大的特征,并確保模糊集覆蓋輸入空間所有的特征.需要說明的是,實際應用中,知識嵌入矩陣常通過事先積累的專家經驗獲得. 表5給出了5種分類算法在UCI數據集上的實驗結果.與人工數據集實驗類似,實驗比較了KE-B-MA與3種對比算法在規則數{2,3,…,20}范圍內分類精確度、規則包含的特征數和模型包含的變量數這3個指標,結果如圖5所示. Table 5 Performance Comparisons on UCI Datasets with Different Algorithms表5 各種算法在UCI數據集上的性能比較 SVs:Support vector Fig. 5 Performances comparison between KE-B-MA,FCM-SVM-FS FCM-IRIS and L2-TSK-FS on Ringnorm dataset圖5 KE-B-MA,FCM-SVM-FS,FCM-IRIS,L2-TSK-FS在Ringnorm集上的性能比較 從這些實驗結果,我們可以看出: 1) UCI數據集上獲得的實驗結果與人工數據集的實驗結果是一致的.由于使用了知識嵌入矩陣實現了模糊隸屬度函數中心和規則特征的選擇,可以保證得到的模糊規則具有高度的可解釋性,同時使用基于貝葉斯理論的前件和后件同時學習的策略,保證了所得模型參數的全局最優解,并建立起輸入空間和輸出空間的內在聯系,保證了分類器的分類精度,且結果偏差不大,較為穩定. 2) 從圖5可以看出,當設定的模糊規則數較小時(K<4),KE-B-MA的性能略遜于其他3種模糊系統,當設定的模糊規則數逐漸增大時,KE-B-MA的性能快速提升,5個UCI數據集上除了Liver數據集上分類準確度略差于FCM-IRLS,另4個UCI數據集上的分類準確度在4種模糊系統中是最優的.究其原因在于:KE-B-MA構造的每條模糊規則的輸入特征不同,在規則數過小時不足以映射完整的輸入空間,但是一旦模糊規則數增加到合適值,KE-B-MA能獲得較之經典模糊系統更好或可比的分類性能.同時,雖然FCM-SVM-FS,FCM-IRIS,L2-TSK-FS模糊系統在規則數過小時分類性能略優于KE-B-MA,但此時的分類精度也低于其最高值,從獲得優良分類效果的角度看,此時的規則數不會被最終選擇.而FCM-SVM-FS,FCM-IRIS,L2-TSK-FS在UCI數據集上獲得最佳分類性能時模型的變量數和規則的復雜程度遠大于KE-B-MA的變量數和規則的復雜度,也再次說明了KE-B-MA得到的模型規則具有高度的可解釋性. 3.4 參數敏感性實驗 本文所提KE-B-MA實現需要協調的實驗參數有:K,m,h,C′,其中K為模糊規則數,C′為結構化風險正則化參數,h為隸屬函數尺度參數,m為模糊指數.模糊規則數K的取值與樣本的分布有關,在基于聚類的模糊系統中,選擇合適的模糊規則數常用2種方法: 1) 借助于Xie-Beni指數[34]、Mountain potential指數[35]等來確定,但這種方法本質上只是從聚類的角度對輸入空間進行劃分,沒有考慮模糊系統輸入空間和輸出空間之間的聯系,應用在模糊系統中往往效果不佳; 2) 通過手動設定的方式來確定模糊規則數,也是本文所用方法.KE-B-MA為了保證所得規則具有高度的可解釋性使用知識嵌入矩陣對模糊規則的特征和隸屬度函數中心進行選擇,在這種情況下,通過交叉驗證策略對模糊規則數K進行尋優是合適的. 本節重點評價KE-B-MA中m,h,C′這3個參數對分類精度的影響,實驗使用人工集(Artificial dataset),Liver和Ringnorm數據集作為實驗數據,模糊規則數分別固定為8,10,7條,另外采用固定其他參數尋優的方法,圖6~8分別顯示了上述3個參數所提方法的性能影響曲線. Fig. 6 Parameter m sensitivity analysis on three datasets圖6 參數m的敏感性實驗 Fig. 7 Parameter h sensitivity analysis on three datasets圖7 參數h的敏感性實驗 Fig. 8 Parameter C′ sensitivity analysis on three datasets圖8 參數C′的敏感性實驗 由此可得3個結論: 1) KE-B-MA中模糊指數m的作用等同于FCM聚類中的作用,m在FCM中必須設置為大于1,否則得不到模糊隸屬度的解析解,但在KE-B-MA中m在理論上可以取任何值,甚至為負值.根據文獻[36]對模糊指數的物理意義解釋,本文設定m的調節區間是m∈{1.1,1.5,2,2.5,3}.由圖6可以出,KE-B-MA的分類精度對m值較敏感.因此,通過交叉驗證策略對參數m進行尋優是合理的. 2) 尺度參數h對KE-B-MA的分類性能起著相對溫和的影響.從圖7可以看出,在h的設定區間內,KE-B-MA在3個實驗數據集上分類效果的最高值與最低值的變化幅度不超過4%.同時,正如我們熟知的,尺度參數h的設置對模糊規則的清晰性和可解釋性起到了重要的影響,因此,對該參數的獲取也應使用交叉驗證的方法. 3) KE-B-MA中模糊規則后件的,學習基于典型的SVM模型,所有對正則化參數C′具有較強的敏感性,C′在一定范圍內的不同取值明顯影響所提方法的泛化性能,且C′的取值與數據集的分布有關,這也進一步說明了對C′尋優的重要性. 本文使用貝葉斯概率模型提出了一種新的MA型模糊系統,即KE-B-MA模糊系統.KE-B-MA運用DC方法實現對模糊規則的特征和隸屬度函數中心進行選擇,保證了模糊劃分的清晰性和有效降低了所建系統的復雜性,解決了傳統基于聚類的模糊系統可解釋性不高,且需要數據的全部特征來構造模糊規則易造成規則繁雜的問題.KE-B-MA運用MH采樣構建了一個Markov鏈實現模糊規則前件和后件參數的同時學習,保證了所得結果的全局最優解.這些特性是傳統的基于聚類的模糊系統所不具備的.通過人工數據和真實數據集的仿真實驗,結果亦表明了本文算法的分類性能較之傳統方法相當,但獲得的模糊規則更具可解釋性.應當指出,目前本文算法仍存在一些不足之處,例如對KE-B-MA模糊系統能否有效解決大樣本等問題沒有進行深入探討,當數據容量極大時,從MH采樣和二次規劃求解角度而言,KE-B-MA仍面臨進一步提高實用性的挑戰,這將作為我們下階段的研究重點. [1]Huo Weigang, Shao Xiuli. A fuzzy associative classification method based on multi-objective evolutionary algorithm[J]. Journal of Computer Research and Development, 2011, 48(4): 567-575 (in Chinese)(霍緯綱, 邵秀麗. 一種基于多目標進化算法的模糊關聯分類方法[J]. 計算機研究與發展, 2011, 48(4): 567-575) [2]Sanz J, Fernández A, Bustince H, et al. IVTURS: A linguistic fuzzy rule-based classification system based on a new interval-valued fuzzy reasoning method with tuning and rule selection[J]. IEEE Trans on Fuzzy Systems, 2013, 21 (3): 399-411 [3]Juang C F, Hsiao C M, Hsu C H. Hierarchical cluster-based multispecies particle-swarm optimization for fuzzy-system optimization[J]. IEEE Trans on Fuzzy Systems, 2010, 18(1): 14-26 [4]Alcalá R, Alcala-Fdez J, Casillas J, et al. Local identification of prototypes for genetic learning of accurate TSK fuzzy rule-based systems[J]. International Journal of Intelligent Systems, 2007, 22(9): 909-941 [5]Lughofer E, Buchtala O, Reliable all-pairs evolving fuzzy classifiers[J]. IEEE Trans on Fuzzy Systems, 2013, 21(4): 625-641 [6]Fazzolari M, Alcalá R, Nojima Y, et al. A review of the application of multiobjective evolutionary fuzzy systems: Current status and further directions[J]. IEEE Trans on Fuzzy Systems, 2013, 21(1): 45-65 [7]Ishibuchi H, Yamamoto T. Fuzzy rule selection by multi-objective genetic local search algorithms and rule evaluation measures in data mining[J]. Fuzzy Sets and Systems, 2004, 141(1): 59- 88 [8]Derrac J, Verbiest N, García S, et al. On the use of evolutionary feature selection for improving fuzzy rough set based prototype selection[J]. Soft Computing, 2013, 17(2): 223-238 [9]Alcala-Fdez J, Alcalá R, Herrera F. A fuzzy association rule-based classification model for high-dimensional problems with genetic rule selection and lateral tuning[J]. IEEE Trans on Fuzzy Systems, 2011, 19(5): 857-872 [10]Chen Yicheng, Pal N R, Chung I. An integrated mechanism for feature selection and fuzzy rule extraction for classification[J]. IEEE Trans on Fuzzy System, 2012, 20(4): 683-698 [11]Chen Yixin, Wang J Z. Support vector learning for fuzzy rule-based classification systems[J]. IEEE Trans on Fuzzy System, 2003, 11 (6): 716-728 [12]Chiang J H, Hao P Y. Support vector learning mechanism for fuzzy rule-based modeling: A new approach[J]. IEEE Trans on Fuzzy Systems, 2004, 12 (1): 1-12 [13]Juang C F, Chen G C. A TS fuzzy system learned through a support vector machine in principal component space for real-time object detection[J]. IEEE Trans on Industrial Electronics, 2012, 59(8): 3309-3320 [14]Lin C T, Yeh C M, Liang S F, et al. Support-vector-based fuzzy neural network for pattern classification[J]. IEEE Trans on Fuzzy Systems, 2006, 14 (1): 31-41 [15]Juang C F, Chiu S H, Shiu S J. Fuzzy system learned through fuzzy clustering and support vector machine for human skin color segmentation[J]. IEEE Trans on System, Man and Cybernetics-Part A: Systems and Humans, 2007, 37(6): 1077-1087 [16]Cheng W, Juang C. An incremental support vector machine-trained TS -type fuzzy system for online classification problems[J]. Fuzzy Sets and Systems, 2011(163): 24-44 [17]Pan Weimin, He Jun. Neuro-fuzzy system modeling with density-based clustering[J]. Journal of Computer Research and Development, 2010, 47(11): 1986-1992 (in Chinese)(潘維民, 何駿. 基于密度聚類的神經模糊系統建模算法[J]. 計算機研究與發展, 2010, 47(11): 1986-1992) [18]Leski J M. Anε-margin nonlinear classifier based on fuzzy if-then rules[J]. IEEE Trans on System, Man and Cybernetics, Part B: Cybernetics, 2004, 34(1): 68-76 [19]Leski J M. TSK-fuzzy modeling based onε-insensitive learning[J]. IEEE Trans on Fuzzy System, 2005, 13(2): 181-193 [20]Leski J M. Fuzzy (c+p)—means clustering and its application to a fuzzy rule-based classifier: Towards good generalization and good interpretability[J]. IEEE Trans on Fuzzy System, 2015, 23(4): 802-812 [21]Deng Zhaohong, Cao Longbing, Jiang Yizhang, et al. Minimax probability TSK fuzzy system classifier: A more transparent and highly interpretable classification model[J]. IEEE Trans on Fuzzy System, 2015, 23(4): 813-826 [22]Deng Zhaohong, Jiang Yizhang, Chung F L, et al. Knowledge-leverage based fuzzy system and its modeling[J]. IEEE Trans on Fuzzy System, 2013, 21(4): 597-609 [23]Azeem M F, Hanmandlu M, Ahmad N. Generalization of adaptive neural-fuzzy inference systems[J]. IEEE Trans on Neural Networks, 2000, 11(6): 1332-1346 [24]Bezdek J C. Pattern Recognition with Fuzzy Objective Function Algorithms[M]. Amsterdam, Netherlands: Kluwer Academic Publishers, 1981 [25]Dehzangi O, Zolghadri M, Taheri S, et al. On equivalence of FIS and ELM for interpretable rule-based knowledge representation[J]. IEEE Trans on Neural Networks and Learning Systems, 2015, 26(7): 1417-1430 [26]Lan Y, Soh Y C, Huang G B. Two-stage extreme learning machine for regression[J]. Neurocomputing, 2010, 73(16): 3028-3038 [27]Glenn T C, Zare A, Gader P D. Bayesian fuzzy clustering[J]. IEEE Trans on Fuzzy System, 2015, 23(5): 1545-1561 [28]Robert C, Casella G. Monte Carlo Statistical Methods[M]. Berlin: Springer, 2005 [29]Chang C C, Lin C J. LIBSVM: A library for support vector machines[EB/OL]. 2001 [2015-09-28]. http://www.csie.ntu.edu.tw/~cjlin/libsvm [30]Collobert R, Bengio S, Bengio Y. A parallel mixture of SVMs for very large scale problems[J]. Neural Computation, 2002, 14 (5): 1105-1114 [31]Deng Zhaohong, Choi K S, Chung F L, et al. Scalable TSK fuzzy modeling for very large datasets using minimal-enclosing-ball approximation[J]. IEEE Trans on Fuzzy Systems, 2011, 19(2): 210-226 [32]Bache K, Lichman M. UCI database[EB/OL]. 2013 [2015-09-28]. http://www.ics.uci.edu/%20mlearn/ MLRepository.html [33]Chen Y W, Lin C J. Feature Extraction: Foundations and Applications[M]. Berlin: Springer, 2007 [34]Xie Xiaoliang, Beni G. A validity measure for fuzzy clustering[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 1991, 13(4): 841-846 [35]Mezquida E T, Rubio A, Sánchez-Palomares O. Evaluation of the potential index model to predict habitat suitability of forest species: The potential distribution of mountain pine (pinus uncinata) in the Iberian peninsula[J]. European Journal of Forest Research, 2010, 129(1): 133-140 [36]Pal N R, Bezdek J C. On cluster validity for the fuzzyc-means model[J]. IEEE Trans on Fuzzy Systems, 1995, 3(3): 370-379 Knowledge Embedded Bayesian MA Fuzzy System Gu Xiaoqing1,2and Wang Shitong1 1(School of Digital Media, Jiangnan University, Wuxi, Jiangsu 214122)2(School of Information Science and Engineering, Changzhou University, Changzhou, Jiangsu 213164) The most distinctive characteristic of fuzzy system is its high interpretability. But the fuzzy rules obtained by classical cluster based fuzzy systems commonly need to cover all features of input space and often overlap each other. Specially, when facing the high-dimension problem, the fuzzy rules often become more sophisticated because of too much features involved in antecedent parameters. In order to overcome these shortcomings, based on the Bayesian inference framework, knowledge embedded Bayesian Mamdan-Assilan type fuzzy system (KE-B-MA) is proposed by focusing on the Mamdan-Assilan (MA) type fuzzy system. First, the DC (don’t care) approach is incorporated into the selection of fuzzy membership centers and features of input space. Second, in order to enhance the classification performance of obtained fuzzy systems, KE-B-MA learns both antecedent and consequent parameter of fuzzy rules simultaneously by a Markov chain Monte Carlo (MCMC) method, and the obtained parameters can be guaranteed to be global optimal solutions. The experimental results on a synthetic dataset and several UCI machine datasets show that the classification accuracy of KE-B-MA is comparable to several classical fuzzy systems with distinctive ability of providing explicit knowledge in the form of interpretable fuzzy rules. Rather than being rivals, fuzziness in KE-B-MA and probability can be well incorporated. classification; Bayesian inference; Mamdan-Assilan type fuzzy system; knowledge embedded; Markov chain Monte Carlo (MCMC) method Gu Xiaoqing, born in 1981. PhD candidate and lecturer. Her main research interests include pattern recognition and machine learning. Wang Shitong, born in 1964. Professor and PhD supervisor. His main research interests include artificial intelligence, neuro-fuzzy systems, pattern recognition, and image processing. 2016-01-05; 2016-10-10 國家自然科學基金項目(61572236,61502058,61572085);江蘇省自然科學基金項目(BK20160187);中央高校基本科研業務費專項資金項目(JUSRP51614A);江蘇省高校自然科學基金項目(15KJB520002) This work was supported by the National Natural Science Foundation of China (61572236, 61502058, 61572085), the Natural Science Foundation of Jiangsu Province of China (BK20160187), the Fundamental Research Funds for the Central Universities (JUSRP51614A), and the Natural Science Foundation of Jiangsu Higher Education Institutions (15KJB520002). TP18; TP391.43 實驗研究










4 總 結

