路 濤1, 梁智超2, 索明亮34
(1.空軍裝備部外場保障局,北京 100843; 2.復雜航空系統仿真實驗室,北京 100076;3.北京航空航天大學可靠性與系統工程學院,北京 100191; 4.可靠性與環境工程技術重點實驗室,北京 100191)
復雜裝備的誕生是工業技術快速發展的必然結果,隨之而來的是對復雜裝備的健康管理問題。模型方法對此已經不再適用,隨著智能時代的到來以及裝備數據的不間斷采集和存儲,數據驅動的健康管理技術是維護復雜裝備的有效手段之一,業已取得了較為豐碩的成果[1-5]。但是,如何有效挖掘數據背后隱藏的有價值信息,如何降低基于數據驅動故障診斷的風險,是數據驅動故障診斷所面臨的重要挑戰。
對于數據驅動故障診斷而言,診斷知識的獲取是其瓶頸問題,具體包括敏感數據選取、診斷規則的提取。其中,敏感數據選取又包括數據的清洗預處理、屬性子集的選擇。本文重點圍繞屬性子集選擇和診斷知識獲取兩方面問題開展研究。
屬性選擇方法可大致分為3個類別[6]:過濾式方法(Filter)、封裝式方法(Wrapper)和嵌入式方法(Embedded)。其中,封裝式方法和嵌入式方法更傾向于得到符合學習機的結果,但可能存在過擬合問題。而過濾式方法則具有更好的泛化能力和快速性。對于故障診斷問題而言,選取相對最優的屬性子集以提高診斷的準確率是篩選屬性選擇方法的一個重要標準。
另一方面,基于數據診斷知識的獲取包括統計分析、閾值判斷、包絡分析和模糊規則等方法。對于強耦合復雜化的數據而言,常規方法已不再適應未來發展[1]。有效刻畫知識內涵,得到符合自然認知易于解釋的診斷規則是故障診斷的發展方向之一。
綜合上述分析,本文基于模糊貝葉斯風險模型(Fuzzy Bayes Risk Model,FBR)和T-S模糊模型實現數據的知識獲取和診斷決策。其中,貝葉斯風險模型以風險最小化原則提取屬性子集,旨在最大程度地降低診斷風險;T-S模糊模型利用分段線性化思想,以線性函數無限逼近復雜非線性的數據知識。最后,以C-MAPSS發動機實驗數據為研究對象,驗證本文診斷方法的有效性。
1.1.1 基本理論
定義1:(貝葉斯風險模型)[7]給定一個決策系統DS={U,C∪D,V,I},U(U={x1,x2,…,xm})為論域,C(C={c1,c2,…,cn})為條件屬性,D(D={d1,d2,…,dK})為決策屬性,V為值域,I為上述屬性之間的映射函數。對于關于條件屬性c∈C的任意樣本xi∈U,通過某種度量方式可能將其劃分到D中的任意決策類別,但是根據信息函數I該樣本屬于確定的決策類dk∈D,即樣本xi的名義決策類為dk。因此,關于c的樣本xi歸屬于dk的貝葉斯風險表示為
(1)

從式(1)可以看出,損失函數和概率影響貝葉斯風險的結果。其中,損失函數考慮了條件屬性的分布情況,用于估計樣本被錯分的損失;概率則源自于條件屬性和決策屬性之間的關系。因此,貝葉斯函數充分地考慮了數據的分布情況和屬性間的耦合關系,可全面地挖掘數據背后隱藏的有價值信息。
常用的損失函數為0-1模型,或借助領域專家或大量統計實驗得到損失函數。但上述方法不能有效評估決策中的真實損失,或在實際應用中受到了限制。文獻[7]通過分析數據分布特性,給出了一種基于高斯核的損失函數。
定義2:(高斯核損失函數)給定一個決策系統DS={U,C∪D},c∈C,D={d1,d2,…,dK},對于U中的任意樣本xi,其名義決策類為dk,利用某種度量得到的可能決策類為dj,其中,dj,dk∈D。則xi在c下的高斯核損失函數定義為
(2)
式中,μk是關于c的樣本集屬于dk的期望;σk為當前數據分布的標準差。
對于定義2,有以下3點解釋:
① 如果樣本被劃分到自己的名義決策類中,即k=j,則其損失為0;
② 如果樣本越靠近其分布內的期望,則該樣本的錯分損失越大;
③ 如果標準差為0,則當前分布內所有樣本的損失為1,這意味著當前分布內所有樣本均等。
定義3:(模糊鄰域)在決策系統DS={U,C∪D}中,給定任意樣本xi∈U和條件屬性c∈C,xi在條件屬性c下的模糊鄰域Nc(xi)定義為
Nc(xi)={xj|xj∈U,fc(xi,xj)≥δ}
(3)
式中,δ為鄰域閾值;f(·,·)為模糊相似度,即
(4)
式中,m為U中樣本個數(m>1);MD(·,·)為馬氏距離,表示為
(5)
式中,“-1”為求逆運算,上標T為轉置運算符。
對于式(4)的模糊關系,顯然有以下屬性成立:
①f(xi,xi)=1;
②f(xi,xj)=f(xj,xi);
③ 0 定義4:(分類概率)給定一個決策系統DS={U,C∪D},對于條件屬性c∈C下的任意樣本xi∈U,其模糊鄰域為N(xi)={x1,x2,…,xm},對應的決策類別集合為N(d)={d1,d2,…,dp},N(d)?D。則樣本xi劃分到決策類dj∈N(d)的概率為 (6) 式中,dj為樣本xi的名義決策類。 對于式(6),顯然有0≤Pc(dj|xi)≤1成立。其中,若Pc(dj|xi)=0成立,則當且僅當以下3個條件同時成立:① 鄰域閾值δ=0;②f(xi,xk)=0;③ 在模糊鄰域N(xi)中有且只有xk屬于dj。另一方面,如果樣本xi的名義決策類為dj,則Pc(dj|xi)≠0。 上述貝葉斯風險模型中考慮了樣本之間的模糊關系,基于模糊相似性得到了樣本的分類概率。因此,該貝葉斯風險模型可稱為模糊貝葉斯風險模型。 定義5:(模糊貝葉斯總風險)給定決策系統DS={U,C∪D},屬性子集B(B?C)關于決策屬性D的總風險表示為: (7) 1.1.2 屬性子集選擇與賦權 定理1:給定決策系統DS={U,C∪D},B1?B2?C,給定鄰域閾值δ,則有: ①fB1(xi,xj)≥fB2(xi,xj); ③RB1≥RB2。 該定理相關證明可參見文獻[8]和文獻[9]。該定理體現了FBR模型的單調性,因此可依據該定理設計啟發式前向貪心屬性子集選擇算法,篩選出一個具有相對最小決策風險的屬性子集。所設計的屬性子集選擇算法如圖1所示。 圖1 基于FBR的前向貪心屬性子集選擇算法 定義6:(T-S模糊模型)給定決策系統DS={U,C∪D},C={c1,c2,…,cn},D={d1,d2,…,dK}。給定測試樣本X={x1,x2,…,xn},對于其中任意條件屬性ci∈C下的測試樣本xi∈X,其中T-S模糊規則Rci可表示為: Rci:IFxiinA,THEN Yci(D|xi)={yci(d1|xi),yci(d2|xi),…,yci(dK|xi)}T ={a1xi+b1,a2xi+b2,…,aKxi+bK}T 式中,A為論域U下的某個區間;ak,bk為后件規則參數,k=1,2,…,K。 由此可得測試樣本X基于此T-S模糊模型的輸出矩陣為 Y(X)=(Yc1(D|x1),Yc2(D|x2),…,Ycn(D|xn)) (8) (9) 上述T-S模糊模型與傳統的T-S模糊模型區別在于,將樣本分配至每個條件屬性,然后計算其對應于每個決策類別的模糊函數,從而得到相應的模糊輸出矩陣。 該模糊模型與傳統T-S模糊模型一樣,具有兩個難點:① 規則個數的確定問題;② 后件規則參數的確定問題。針對不同的研究對象,規則數往往是不同的。通常情況下,依靠專家經驗獲取規則個數。而后件規則參數的確定則依賴于線性分段個數(即規則個數)和擬合手法,常用的擬合方法為最小二乘法。在擬合手法一定的情況下,規則個數的變化將直接影響T-S模糊模型輸出結果的可靠性。另一方面,在獲取擬合依據時所采用的擬合基準也是建立T-S模糊模型的一個重要因素。本文提出的模糊貝葉斯風險模型利用高斯核模糊鄰域關系衡量樣本隸屬于決策類的可能性,反映了樣本相對于決策類別的隸屬關系。因此,本文以FBR中的模糊分類概率為擬合基準。 定義7:(模糊分類概率矩陣)給定決策系統DS={U,C∪D},根據式(6)可得任意樣本xi∈U基于條件屬性B?C在決策類別dk∈D的分類概率為PB(dk|xi),則該論域基于B在決策屬性D下的模糊分類概率矩陣定義為 (10) 根據上述理論可設計基于模糊貝葉斯風險和T-S模糊的診斷模型如圖2所示。 圖2 基于FBR和T-S模糊的故障診斷模型 圖2中的初始數據集DS又可稱為訓練數據集,用于訓練該診斷模型生成知識庫,測試數據X中的樣本個數等于屬性子集中屬性個數,且與選擇的屬性一一對應。在訓練生成知識庫的過程中,3個步驟是遞階進行的,首先利用FBR從訓練數據集DS中選取屬性子集以節省存儲空間并提高計算效率,然后利用屬性子集選擇過程生成的條件屬性風險值確定屬性權重,并將此期間得到的模糊分類概率分配給T-S模糊模型完成模糊規則提取。在訓練過程得到的屬性子集、屬性權重、模糊規則前件和后件組成知識庫,用于診斷。在給定測試數據后,依據生成的知識庫得到的決策結果是概率形式的,即得到測試數據被劃分到各個決策類別的概率大小。根據概率形式的決策結果即可排序得到最終決策。 以NASA發布的商用模塊化航空推進系統仿真(C-MAPSS)實驗數據[10]為研究對象,驗證所提診斷模型的有效性。C-MAPSS數據集共包含4個子集,分別為FD001,FD002,FD003和FD004,包括多臺相同型號發動機在不同工況和故障模式下的利用21個傳感器采集的數據。為保證實驗數據的可用性,本文選取單工況下的數據集為研究對象,即FD001和FD003。由于每組數據集內的發動機型號相近,所選取的發動機型號對實驗驗證沒有影響。所以,分別選取FD001中編號21(FD001-21)和FD003中編號16(FD003-16)的發動機數據。以FD001-21中3#和7#傳感數據為例,得到其擬合分布情況如圖3、圖4所示??梢钥闯?,在模糊貝葉斯風險模型中應用的高斯核函數適用于C-MAPSS數據。 數據標簽是標定數據類別的標準,根據文獻[11]的建議,利用線性分段函數方法獲取數據標簽。圖5、圖6所示為以FD001-21中4#傳感器訓練數據和FD003-16中14#傳感器訓練數據為例,說明標簽的生成結果。其中,標簽中“0”代表正常狀態,“1”代表異常狀態。 圖3 FD001-21傳感3數據分布情況 圖4 FD001-21傳感7數據分布情況 圖5 FD001-21中4#傳感器訓練數據 圖6 FD003-16中14#傳感器訓練數據 為驗證所提診斷模型的有效性,選取一些常用和最新的屬性選擇方法與FBR模型做對比。包括ReliefF[12]、mRMR(Min-Redundancy Max-Relevance)[13]、FDAF(Fisher Discriminate Analysis F-score)[14]、DRJMIM(Dynamic Relevance and Joint Mutual Information Maximization)[15]和NRS(Neighborhood Rough Set)[16]。其中,ReliefF和mRMR為成熟且常用的屬性子集選擇方法,FDAF和DRJMIM為最新的屬性選擇方法,NRS為經典的基于粗糙集的啟發式選擇方法。值得注意的是,除NRS和FDAF外,其他方法需要預先指定所需選擇的屬性個數,而FDAF在屬性選擇時借助了支持向量機迭代搜索最優的屬性集合。所以,為了更有效、公平地對比驗證,按照文獻[17]給出的建議,其他方法所選擇的屬性個數等于NRS方法所得到的個數。DRJMIM在處理數據前需要對原始數據進行離散化,因此為保證離散化對DRJMIM方法的影響最小,本文選取表現相對優異的SMDNS(Supervised and Multivariate Discretization Algorithm)離散化方法[18]協助DRJMIM完成屬性賦權,其參數根據文獻[18]的建議選取為0.8。按照文獻[16]的建議,NRS的鄰域半徑選擇為0.2,本文FBR的鄰域閾值為0.7。為保證對比的可靠性,在應用各個模型進行診斷時,所有權重均依據FBR得到。 為驗證結果準確度,依據如下的診斷準確率公式: (11) 式中,Nr為正確結果,Nall為所有的診斷結果。 以FD001-21中訓練數據為例,演示本文所提方法的計算過程。 在FD001-21訓練數據中,包含21個條件屬性(傳感器數據采集點)和195組樣本集。在屬性子集選擇過程中,首先將屬性子集置空,然后依次加入候選的條件屬性,根據模糊貝葉斯風險理論可計算各個條件屬性的風險為83.0769,57.2818,56.9003,51.8188,83.0769,82.1658,52.6400,64.3436,44.2004,83.0769,49.5547,50.1624,66.6539,44.0804,57.2911,83.0769,56.9316,83.0769,83.0769,57.4249,54.5914。通過上述風險結果可以看出,風險最小的條件屬性為14,風險值為44.0804。因此,屬性14將被第一個放入屬性選擇的子集中。然后,依次將剩余條件屬性和當前的屬性子集(由已選擇的條件屬性14構成)結合,重新計算組合屬性集的風險值。如此遍歷執行,直至風險值不再降低,則輸出所有已選擇的條件屬性。對于FD001-21的訓練數據,得到的屬性子集由條件屬性14、3、7、17、11、9、13、4、2、12、8組成。則對應的屬性權重可計算為0.0973,0.0891,0.0918,0.0891,0.0938,0.0973,0.0828,0.0923,0.0888,0.0934,0.0843。 在計算模糊貝葉斯風險時,生成的模糊概率則組成屬性子集的概率矩陣,然后根據樣本的區間劃分,生成T-S模糊規則前件和后件。由于條件屬性個數較多,且規則個數較多,不便給出數值結果。以FD001-21中4#傳感器訓練數據和FD003-16中14#傳感器訓練數據為基礎,利用模糊貝葉斯和T-S模糊模型得到二者的模糊規則分段函數可表示為如圖7、圖8所示結果。其中,規則個數為15。 對比圖7、圖8中數據實際分布情況,可以看出,對于正常和異常狀態區分明顯的數據區間,會得到區分明顯的隸屬度函數。相反,兩種狀態區分不明顯的數據區間會存在隸屬度狀態交疊區域。這符合人們的一般認知,證明所提取的模糊規則是合理的。 圖7 FD001-21中4#傳感器訓練數據生成的T-S模糊規則 圖8 FD003-16中14#傳感器訓練數據生成的T-S模糊規則 對于FD001-21和FD003-16發動機訓練數據,各個方法得到的屬性子集及依據屬性子集和本文T-S模糊模型得到的診斷結果如表1、表2所示。 表1 FD001-21屬性子集選擇結果及診斷準確率 表2 FD003-16屬性子集選擇結果及診斷準確率 表1、表2所示結果表明,本文所提的診斷模型得到的診斷準確率最高,其次為NRS模型,而ReliefF、FDAF和DRJMIM相對較差。因為FBR模型是基于貝葉斯風險最小化原則利用啟發式貪心搜索思路尋找相對最優特征子集,并充分考慮了數據之間的模糊關系,因此得到了較為準確的診斷決策結果。NRS基于粗糙空間劃分思想,以鄰域為基本粒子,利用屬性和數據的依賴度實現屬性子集選擇,也是較為充分地考慮了空間數據的特征關系。ReliefF為原始的Filter型屬性選擇方法,屬性選擇思想簡單明了,但無法深層次挖掘數據特性。mRMR和DRJMIM均為基于信息論的屬性選擇方法,但DRJMIM很大程度上依賴于數據離散化方法,使得其不能得到理想的決策結果。FDAF是F-score的改進版本,其屬性選擇本質上還需要依賴于分類算法的復雜,沒有分類算法的幫助,導致其不能選取相對最優的屬性子集。另外,與依據原始數據得到的診斷結果對比可以看出,合理地篩選用于診斷的傳感器數據,可降低數據冗余度,提高診斷準確率。 針對數據驅動故障診斷中知識獲取和診斷決策問題,提出了一種基于模糊貝葉斯風險和T-S模糊模型的故障診斷方法。利用模糊貝葉斯風險模型提取相對最優屬性子集,并利用其生成的概率分布得到T-S模糊規則,實現數據驅動的故障診斷。通過C-MAPSS發動機故障診斷問題,與不同屬性子集選擇方法進行了對比研究。實驗結果表明,本文所提診斷方法得到的結果準確率最高,診斷準確率均超過了0.95,適用于復雜裝備的數據驅動故障診斷。 值得注意的是,知識獲取的速度是數據挖掘研究的另一個重點方向,本文未對此進行研究和分析。在未來的研究工作中,可基于本文所提診斷方法,提高其數據挖掘的速度。另一方面,本文所提方法有兩個參數需要人工設置,即FBR中的鄰域半徑和T-S模糊規則個數。其中,鄰域半徑決定了空間粒子劃分的精細程度,模糊規則個數則決定了對復雜系統知識的擬合程度。實際上,可以借助分類器和優化算法從訓練數據中得到較優的參數組合,以提高模型的自動化實踐水平。


1.2 T-S模糊模型

1.3 診斷模型建立

2 數值實驗與結果分析
2.1 實驗設置




2.2 診斷過程及結果分析




3 結論