盧俊杰,黃金泉,魯 峰
南京航空航天大學 能源與動力學院 江蘇省航空動力系統(tǒng)重點實驗室,南京210016
隨著現(xiàn)代航空工業(yè)的不斷發(fā)展,航空發(fā)動機的性能也越來越高,但由于其日益復雜的結構設計,各種故障的發(fā)生率也在不斷上升。相比于其他機械設備,航空發(fā)動機有著故障量高、調(diào)整復雜、維護量大的特點[1],相關統(tǒng)計資料表明,航空發(fā)動機故障引起的飛行事故占比高達40%以上[2]。因此,航空發(fā)動機故障診斷方法的研究尤為重要。由于工作負荷大、工作狀態(tài)切換頻繁、工作環(huán)境惡劣等特性,航空發(fā)動機的故障機制和故障表現(xiàn)也呈現(xiàn)復雜化、多樣化的特點[3]。為了提高航空發(fā)動機的飛行安全性以及降低維護成本,國內(nèi)外相關研究機構一直將及時、準確、高效地進行航空發(fā)動機故障診斷作為研究的重點與熱點。航空發(fā)動機的氣路系統(tǒng)是發(fā)動機的核心系統(tǒng),氣路系統(tǒng)故障一般分為部件故障和傳感器故障[4]。根據(jù)測量到的氣路參數(shù)對氣路系統(tǒng)進行故障診斷,快速且準確地實現(xiàn)故障定位,對于提高發(fā)動機安全性與可靠性,由定期維修轉變?yōu)橐暻榫S修,以降低維護費用有巨大的技術支持[5]。
模式識別是航空發(fā)動機氣路故障診斷的主要內(nèi)容之一,即根據(jù)數(shù)學方法對含有故障信息的數(shù)據(jù)自動進行處理和識別,提取有效的診斷規(guī)則,從而對故障樣本進行聚類或者分類[6]。通過監(jiān)測與采集反映發(fā)動機運行狀態(tài)的信號,并進行處理,然后根據(jù)模式識別方法對數(shù)據(jù)之中蘊含的能夠反映氣路系統(tǒng)運行狀態(tài)的特征信息進行辨識,從而可以判斷出航空發(fā)動機氣路系統(tǒng)的運行狀態(tài)。如果發(fā)生了氣路故障,則可以對故障類別與部位等信息進行判斷,為維修決策提供指導。在航空發(fā)動機故障診斷領域,模式識別方法得到了廣泛的研究,主要分為有監(jiān)督和無監(jiān)督的方法。有監(jiān)督的方法主要有神經(jīng)網(wǎng)絡、支持向量機、貝葉斯分類和決策樹等[7]。曹惠玲[8]將支持向量機應用于機械故障診斷中,但支持向量機需要先標記訓練樣本并進行迭代訓練,計算時間較長。劉永建[9]運用改進的神經(jīng)網(wǎng)絡對發(fā)動機故障進行診斷,但神經(jīng)網(wǎng)絡易于陷入局部最優(yōu)解,并且網(wǎng)絡訓練時間過長。徐賓剛等人[10]提出了在故障信號不完整情況下基于貝葉斯方法的轉子故障推理診斷。這些有監(jiān)督的方法需要通過對訓練樣本的學習才能在測試集上實現(xiàn)較為準確的分類,并且需要提前指定訓練樣本的標簽信息[11],另外分類的準確率很大程度上受訓練樣本規(guī)模、分布等影響。
模式識別的另一重要分支就是無監(jiān)督的聚類,即在一種特定相似度量的基礎上對數(shù)據(jù)進行劃分的過程,其被廣泛應用于市場分析、人臉識別、信息安全等方面[12]。在聚類過程中沒有任何關于數(shù)據(jù)結構或者標簽的先驗知識,通過提取樣本特征數(shù)據(jù)相似程度信息,使同一聚類的樣本盡可能相似,以及不同聚類的樣本盡可能相異。近年來各種聚類方法在航空發(fā)動機故障診斷中也得到了較多應用。Liu 等人[13]提出了一種基于K 均值聚類的航空發(fā)動機數(shù)據(jù)處理方法,取得了良好的效果。鄧貝貝[14]通過小波聚類算法進行航空發(fā)動機的故障診斷,驗證了該方法在航空發(fā)動機轉子系統(tǒng)故障診斷中的優(yōu)越性。劉建勛[15]提出一種利用征兆與故障間的模糊性關系的模糊C 均值聚類算法,對航空發(fā)動機轉子部件故障進行了診斷。K 均值聚類是應用最廣泛的聚類方法,通過不斷迭代求解各聚類中心,在凸性數(shù)據(jù)集上往往能夠達到很好的效果[16]。但是K 均值聚類算法不能有效應用樣本特征離散程度信息,導致聚類邊緣樣本容易被誤聚類。
針對傳統(tǒng)K 均值聚類算法的不足,本文提出了似然K 均值聚類算法,通過考慮樣本每一維特征的離散程度信息,分別計算樣本屬于某一聚類的似然概率,有效提高了K 均值聚類算法的準確率。并將似然K 均值聚類算法應用于渦扇發(fā)動機氣路部件故障以及傳感器故障的模式識別,驗證了該算法在渦扇發(fā)動機故障模式識別中的實用性和有效性。
聚類過程就是指將相似對象聚集成同一組或者同一類的過程,目的是使聚類內(nèi)部盡可能緊湊,不同類類間盡可能分開。為此,MacQueen 提出了K 均值聚類方法[17],本章回顧傳統(tǒng)的K 均值聚類算法,并針對其不足提出似然K 均值聚類算法。

隨機選取k 個初始聚類中心后,K-means 的主要過程為交替進行樣本集合的更新與聚類中心的更新。
樣本集合更新即根據(jù)最小歐式距離準則,將每個樣本聚類到最近的聚類中心,其更新公式為:

假設第i類樣本Xi的聚類中心為μi,Xi中樣本數(shù)目為ni,則聚類中心的更新公式為:

不斷重復以上的交替更新過程,直到標準測度函數(shù)收斂,一般采用均方差作為聚類測度函數(shù),其形式為:

一般而言,J 能夠反映類中樣本圍繞聚類中心的緊密程度,較小的J 通常能夠表明類中樣本具有較高的相似性。
K 均值聚類算法是被廣泛研究與應用的聚類算法,在凸性聚類問題中往往有較好的效果。但是由于未能考慮樣本特征離散程度信息,導致聚類邊緣樣本容易誤分類,且算法易于陷入局部最優(yōu)解,聚類準確率較低。
給定所有樣本集合X 及類別數(shù)k,K 均值聚類算法如下:
步驟1 采用輪盤賭算法,在整個樣本集X 中隨機選取k個樣本作為初始聚類中心
步驟2 對于每個樣本x,分別計算其到k 個聚類中心的歐式距離
步驟3 根據(jù)式(2)更新樣本集合
步驟4 根據(jù)式(3)更新聚類中心
步驟5 判斷式(4)中的測度函數(shù)J 是否收斂,若未收斂且未到最大迭代次數(shù),則轉至步驟2。否則結束算法,k個樣本集合則為聚類結果。
在傳統(tǒng)K 均值聚類算法中,樣本集合的更新完全按照最小歐式距離的原則來進行,每個聚類中心的影響力被認為是平等的,樣本特征更靠近哪個聚類中心便被歸為該類。但實際問題中不同類別的特征數(shù)據(jù)往往有不同的離散程度,此時傳統(tǒng)K均值聚類方法中的樣本集合更新方式則不合理,例如在圖1 所表示的平面二分類聚類問題中,第一類的聚類中心為μ1=(0.9,0.9),第二類的聚類中心為μ2=(-1,-1),假設存在樣本x=(0,0),按照傳統(tǒng)K 均值聚類的準則,則樣本x 應該被歸為聚類中心更近的第一類。觀察圖中兩個維度特征的分布情況,樣本x 顯然應該歸入第二類。由于K 均值聚類未考慮樣本特征的離散程度,在不同聚類的樣本特征離散程度差異較大時,K 均值聚類方法的聚類準確率較低。

圖1 平面二分類聚類問題
針對K 均值聚類方法不能處理樣本特征離散程度的缺點,本文提出了似然K 均值聚類方法,根據(jù)樣本屬于每個類的似然概率來進行樣本集合更新。假設第i聚類樣本的第j維度特征的方差為σij,其計算如下:

則樣本x 屬于聚類Xi的似然概率P( x ∈ Xi)可以通過以下兩式求取:

按照如下的最大似然概率原則進行樣本集合更新:

采用如下似然概率誤差平方和形式作為似然K 均值聚類算法的概率測度函數(shù),其形式為:

給定所有樣本集合X 及類別數(shù)k,似然K 均值聚類算法如下:
步驟1 采用輪盤賭算法,在整個樣本集X 中隨機選取k個樣本作為初始聚類中心
步驟2 對于每個樣本x,根據(jù)式(6)、(7)分別計算其屬于k個聚類中心的似然概率
步驟3 根據(jù)式(8)更新樣本集合
步驟4 根據(jù)式(3)更新聚類中心
步驟5 判斷式(9)中的測度函數(shù)JP是否收斂,若未收斂且未到最大迭代次數(shù),則轉至步驟2。否則結束算法,k個樣本集合則為聚類結果。


根據(jù)似然K 均值聚類算法的步驟,對于有n個樣本的聚類問題,似然K 均值聚類算法所需的計算量與n成正比,所以其計算復雜度為O(n),與傳統(tǒng)的K 均值聚類算法計算復雜度在同一量級。
為驗證本文提出的似然K 均值聚類算法在處理樣本特征離散程度信息方面的有效性及其相對于傳統(tǒng)K均值算法的優(yōu)越性。本章對似然K 均值聚類及傳統(tǒng)K均值聚類算法在兩個人造數(shù)據(jù)集和4 個基準數(shù)據(jù)集上進行了對比實驗。實驗的硬件環(huán)境為1 臺PC 機(CPU主頻為2.50 GHz,內(nèi)存2 GB),軟件環(huán)境為Matlab7.0。
為了檢驗似然K 均值聚類算法是否能夠通過利用樣本特征離散程度信息來提高聚類準確率,采用隨機方式生成具有不同離散程度的三中心聚類數(shù)據(jù)集和雙圓環(huán)聚類數(shù)據(jù)集。圖2和圖3分別給出了K 均值聚類算法和似然K 均值聚類算法在三中心聚類數(shù)據(jù)集上的聚類效果。由圖2 可以看出,K 均值聚類算法雖然能夠大致將樣本分為三類,但是由于未能利用樣本特征離散程度信息,在靠近聚類邊緣部分,有較多明顯應該屬于第一類和第二類的樣本被錯誤分入了第三類。由圖3 可以看出,似然K 均值聚類算法可以很好地將樣本分為三簇,聚類邊界清晰,幾乎沒有被錯誤聚類的樣本。對于第一類和第二類中靠近聚類邊緣的樣本,沒有出現(xiàn)被錯誤分入第三類的情況。

圖2 K均值聚類算法在人造三中心聚類數(shù)據(jù)集上效果

圖3 似然K均值聚類算法在人造三中心聚類數(shù)據(jù)集上效果
圖4 和圖5分別給出了K 均值聚類算法和似然K 均值聚類算法在雙圓環(huán)聚類數(shù)據(jù)集上的聚類效果。由圖4可以看出,K 均值聚類算法雖然能夠大致將樣本聚類為內(nèi)外圓環(huán),但是由于未能利用樣本特征離散程度信息,在靠近聚類邊緣部分,有較多明顯應該屬于第一類的樣本被錯誤分入了第二類。由圖5 可以看出,似然K 均值聚類算法可以很好地將樣本分為內(nèi)外兩個圓環(huán)狀簇,聚類邊界清晰,幾乎沒有被錯誤聚類的樣本。對于第一類中靠近聚類邊緣的樣本,沒有出現(xiàn)被錯誤分入第二類的情況。

圖4 K均值聚類算法在人造雙圓環(huán)聚類數(shù)據(jù)集上效果

圖5 似然K均值聚類算法在人造雙圓環(huán)聚類數(shù)據(jù)集上效果
通過這兩組人造數(shù)據(jù)集的驗證,可以清晰看出似然K 均值聚類算法在處理具有不同離散程度樣本時的優(yōu)越性,但這兩個數(shù)據(jù)集中樣本的不同離散程度是人為設置的,為了進一步驗證改進算法的優(yōu)越性,還需要在更有說服力的真實聚類問題的基準數(shù)據(jù)集上開展對比實驗。
為驗證似然K 均值聚類算法在真實問題中的普適性與優(yōu)越性,選取了4 個基準聚類數(shù)據(jù)集進行實驗,表1給出了基準數(shù)據(jù)集的詳細信息,包括各數(shù)據(jù)集的類別數(shù)、特征維數(shù)、總樣本數(shù)。Iris、Wine 及Seeds 聚類數(shù)據(jù)集從UCI下載[18],Yeast數(shù)據(jù)集從Mulan數(shù)據(jù)庫下載[19]。

表1 聚類基準數(shù)據(jù)集詳細信息
表2 給出了K 均值方法及似然K 均值方法在基準數(shù)據(jù)集中性能比較,從表中可以看出,在每一個數(shù)據(jù)集中,似然K 均值算法的錯誤聚類數(shù)均比K 均值的聚類數(shù)要少,因此聚類準確率更高。對于一些樣本特征離散程度差距較大的數(shù)據(jù)集,似然均值聚類算法對聚類準確率的提升效果尤其明顯。例如Iris 數(shù)據(jù)集,圖6 給出了在該數(shù)據(jù)集中兩種聚類方法的效果比較,由圖中可以看出,似然K 均值算法可以有效地減少誤分類點的個數(shù)。

表2 兩種聚類方法在基準數(shù)據(jù)集中性能比較

圖6 K 均值方法及似然K 均值方法在Iris數(shù)據(jù)集中聚類效果比較
航空發(fā)動機是影響飛行安全問題的重要因素,氣路系統(tǒng)是航空發(fā)動機的核心系統(tǒng)與故障高發(fā)系統(tǒng)。通過故障診斷技術,及早發(fā)現(xiàn)航空發(fā)動機氣路系統(tǒng)的故障,對保障飛行安全,降低航空發(fā)動機的維護成本,提高航空產(chǎn)業(yè)的效益有著重要的意義[20]。本文通過將似然K 均值聚類方法應用到渦扇發(fā)動機的氣路部件故障和傳感器故障的模式識別之中,并對傳統(tǒng)K 均值聚類算法所得到的實驗結果進行對比,以驗證似然K 均值聚類算法在航空發(fā)動機異常狀態(tài)監(jiān)控中的實用性和有效性。
渦扇發(fā)動機氣路旋轉部件主要有:風扇、壓氣機和高低壓渦輪。假設渦扇發(fā)動機的四個旋轉部件故障,每個部件均考慮輕度故障以及重度故障兩種情況。旋轉部件故障程度一般通過效率系數(shù)和流量系數(shù)使標準部件特性圖的變形效果來刻畫,每種部件故障情況的平均效率系數(shù)以及平均流量系數(shù)在表3 中給出。表3 同時給出了K 均值方法及似然K 均值方法在發(fā)動機部件故障聚類中性能比較,由表中可以看出,總體而言,似然K 均值方法對各類部件故障的錯誤聚類數(shù)更少,準確率更高。

表3 兩種聚類方法在發(fā)動機部件故障聚類中性能比較
渦扇發(fā)動機氣路主要傳感器包括高低壓轉速傳感器和各旋轉部件出口截面溫度壓力傳感器,選取10 種故障模式,每種故障模式選取50個聚類樣本。圖7給出了K 均值方法及似然K 均值方法在發(fā)動機傳感器故障聚類中效果比較,由圖中可以看出,似然K 均值算法可以有效減少誤分類點的個數(shù)。對于共計500 個聚類樣本,K 均值算法的誤聚類數(shù)為30,似然K 均值算法的誤聚類數(shù)為11,似然K 均值算法能夠有效減少誤聚類數(shù),提高聚類準確率。

圖7 K均值方法及似然K均值方法在發(fā)動機傳感器故障聚類中效果比較
本文分析了當前航空發(fā)動機氣路故障診斷的現(xiàn)狀,針對傳統(tǒng)K 均值聚類方法不能處理渦扇發(fā)動機聚類問題中樣本特征離散程度信息的不足,提出了一種以最大似然概率為聚類準則的似然K 均值聚類算法。并在人造數(shù)據(jù)集上驗證了該算法在處理樣本特征離散程度信息方面的優(yōu)越性,在基準聚類數(shù)據(jù)集上驗證了該算法對現(xiàn)實問題的普適性與有效性。最后將其應用在了渦扇發(fā)動機氣路部件故障和傳感器故障的模式識別問題中,有效提高了渦扇發(fā)動機氣路故障診斷中聚類問題的準確率,對快速有效地實現(xiàn)渦扇發(fā)動機異常狀態(tài)監(jiān)控有著重要意義。