李 元,姚宗禹
(沈陽化工大學信息工程學院,遼寧 沈陽 110142)
面對不斷變化的市場需求,現代工業產品的生產過程往往采用多模態的生產模式。為了提高過程系統運行的安全性和可靠性以及保證化學工程工藝系統中的產品質量,針對多模態過程的過程監控和故障檢測具有巨大的學術研究價值[1-5]。特別是基于數據驅動的故障檢測方法引起了越來越多的關注,如主成分分析(PCA)[6-7]、偏最小二乘法(PLS)[8-9]、典型相關分析(CCA)[10]等。
主成分分析(PCA)是目前常用的多元統計故障檢測方法。PCA利用了過程變量之間相關性將原始測量數據空間分解為主成分空間與殘差空間,應用統計量 Hotelling’s T2和SPE作為相應的檢測指標。然而,對于具有非線性多模態的工業過程,PCA假定過程是線性以及統計量T2和SPE要求過程數據服從單模態高斯分布而使其性能降低。針對非線性問題,通過在PCA中引入核技術,將非線性低維數據映射到高維空間,使其高維空間數據中存在線性關系。雖然,基于核的方法在非線性特征提取中優于基于線性的方法。但是,若參數設置不當,核方法的故障檢測性能就無法得到保證。此外,計算核函數耗時較長,影響對實時檢測的需求[11-12]。張[13]等提出了一種基于等距離映射(Isometric Mapping,ISOMAP)的故障檢測方法。該方法用等距離映射進行非線性降維,采用自適應準則選取鄰域參數,能夠有效地挖掘過程的非線性特征。但是當流形曲率較大時,流形上的測地距離估計會產生較大的誤差,導致嵌入結果產生變形。Zhang[14-16]等提出了基于PPA(Principal Polynomial Analysis,PPA)的故障檢測方法,將PCA中的線性主元分量換成一組靈活的曲線主多項式分量,能夠很好的描述過程數據中的非線性結構,但是由于其統計量的選擇而在多模態過程中限制了其檢測效果。針對多模態問題,K-means方法近年來被廣泛應用[17]。該方法首先假定k個初始聚類中心,采用計算樣本與聚類中心之間的距離來進行數據分類,使用分類數據集的均值作為新的聚類中心。然而該方法對過程數據集中包含的噪聲和異常值非常敏感,初始聚類中心的選擇不當極易出現局部最優解。MA[18-19]等提出了一種局部近鄰標準化方法通過建立樣本的近鄰數據集,并使用近鄰集的均值和標準差對當前樣本進行標準化,夠將多模態數據融合為單模態數據,消除過程數據的多模態特征。但是,當標準化時所用的近鄰集來自不同的模態,標準化過程會出現偏差。
針對過程數據的多模態和非線性的特征,提出了改進的局部近鄰標準化和主多項式分析結合的過程故障檢測方法ILNS-PPA。首先將原始多模態數據經過 ILNS的處理以消除數據中多模態特征,然后對標準化后的數據應用主多項式分析(PPA)建立故障檢測模型,計算其檢測統計量來進行故障檢測。ILNS-PPA不僅具備PPA處理數據非線性的能力,還繼承了ILNS能夠將多模態數據融合為單模態數據的優勢,可以有效地對具有非線性多模態的工業過程進行故障檢測。
數據標準化常用的方法Z-score是采用數據全局均值和標準差進行處理,對數據進行平移和縮放使得數據的中心平移到新坐標系的原點,但是該方法沒有考慮多模態數據分布的不同,在數據中包含多個模態分布時,經過該方法處理后,數據中包含的多模態特征仍然存在,使用該方法處理后的數據沒有消除其多模態特征[20]。然而,在實際的生產過程中,數據的模態情況很難確定,因此MA[18]提出了局部近鄰標準化的方法。但是需要注意的是,該方法并不會改變數據內部的分布特征。
對樣本xi在訓練樣本X中尋找其前k近鄰樣本集N(xi),對近鄰集N(xi)計算其均值mean(N(xi))和方差std(N(xi)),利用式(1)進行標準化。
(1)
(2)

對待檢測的新樣本xnew標準化時,從X中確定前k個近鄰,組成近鄰樣本M(xi),標準化得到
(3)
其中,mean(M(xi))表示樣本xnew在訓練樣本中近鄰集均值,std(M(xi))表示其近鄰集標準差。

(4)
首先尋找第一近鄰樣本,再對第一近鄰樣本所屬模態尋找前k近鄰樣本集。避免了直接選取前k近鄰時出現模態跨越的問題,這種方法有效處理了多模態數據中故障數據發生在模態之間的情況。ILNS方法能夠有效的降低多模態數據中心漂移和方差差異明顯對后續故障檢測方法帶來的不利影響,能夠將多模態數據融合為單模態數據,消除過程數據的多模態特征。
假設訓練數據X為m個測量變量,n個訓練樣本,PPA對原始數據進行如下分解
(5)
(6)

(7)
Vp=[νp,1,νp,2,…,νp,N]
(8)

(9)
其中V+表示V偽逆。
PPA使用一種計算主多項式成分的順序算法。在每一步的計算中,計算出最佳投影數據的向量。通過使用一組主多項式成分從過程數據中學習數據的低維表示,將PCA中的直線主成分更換為曲線的主多項式成分,可以更好的捕捉過程變量的非線性特征。
為了擴展PPA方法在多模態工業數據下的檢測性能,本文提出了一種基于ILNS-PPA 的故障檢測和診斷方法,其方法故障檢測和診斷策略如下:
(10)
(11)

(12)
其中ΛPPA∈Rρ×ρ表示對角元素為主多項式分量的方差的對角矩陣。PPA的SPE統計量定義如下
(13)

(14)

故障檢測的兩個階段:
a)離線建模
1)獲取正常工業過程數據作為訓練數據集X;

5)分別在主多項式分量空間和殘差空間計算統計量T2與SPE;
7)保存訓練模型中所獲得的參數ep,Ep,Wp和νp;
b)在線檢測


4)將上步求得的統計量與離線建模步驟中的控制限進行對比,若T2與SPE任一統計量超過其對應的控制限,則認為該樣本為故障樣本。

圖1 ILNS-PPA故障檢測步驟
根據仿真需求提出一組非線性系統多模態數值例子,其主要模型由式(15)組成
(15)
其中e1~e3是服從均值為0,標準差為0.01的高斯分布的3個獨立的白噪聲。s1和s2為系統控制變量,通過改變s1和s2用來對系統的模式進行調整,以此產生多模態數值例子,給出兩個模態的數據代表不同工況分別如式(12)和式(13)所示
(16)
(17)
使用上式中的參數在每個模態下產生400個正常數據構成訓練樣本。通過在不同模態的樣本中添加擾動引入兩種不同故障來證明本文提出的方法能夠解決多模態非線性問題,具體操作如下:
1)在模態1的情況下,對變量x1從第201個樣本至400個樣本上添加0.2(k-200)來引入斜坡故障;
2)在模態2的情況下,對變量x3從第201個樣本至400個樣本上添加幅值25%的階躍故障。
接下來使用上面所提到的數值例子分別應用PCA、PPA和ILNS-PPA這三種方法進行建模分析。在PCA中,通過85%累計貢獻率確定主元個數為2,并且將PPA和ILNS-PPA中的主多項式成分設置為2,ILNS-PPA中選取第一近鄰樣本之后再在第一近鄰樣本所屬模態找局部近鄰的個數k設為50。三種方法對該數值例子的檢測效果如圖4所示,圖2為故障變量x2和x3的原始樣本散點分布圖,可以明顯看出原始數據中的多模態特性,且多模態數據不滿足PCA和PPA方法中T2和SPE統計量對過程數據分布的假設,因此從圖4(a)和圖4(b)中可以看出PCA和PPA這兩種方法的檢測率較低。然而ILNS方法在盡量避免近鄰不屬于同一個模態選取問題,通過尋找樣本第一近鄰的前k個局部近鄰數據集,使用局部的信息對樣本進行標準化,將多模態數據縮放至的各個模態的中心,由圖3可以看出ILNS方法能夠有效的將多模態數據近似融合為高斯分布的單一模態,滿足兩種統計量的假設條件,ILNS方法能夠有效地將故障數據成功的分離,并且因為PPA能夠有效的處理非線性問題,建立較為準確地檢測模型,所以本文所提ILNS-PPA方法具有非常理想檢測效果。

圖2 原始樣本故障變量散點圖

圖3 ILNS處理后的故障變量散點圖

圖4 三種方法對數值例子的檢測結果
田納西-伊斯曼過程由伊士曼化學品公司創建的檢驗過程系統工程中故障檢測和診斷方法效率的工業基準過程[22]。本文仿真使用的為TE過程生產模式1和3,在正常操作條件下,用包含960個訓練數據建立了模型。測試數據包含一組21個不同的過程故障,這些故障被引入到過程中,即在前160個樣品中正常運行,然后從樣品161到最后發生故障,即對應800個故障樣本。
下面將使用TE過程中的21個故障對本文所提出的ILNS-PPA檢測方法進行有效性研究,在PCA中,通過85%累計貢獻率確定主元個數為28;將PPA和ILNS-PPA中的主多項式空間設置為2,主多項式的冪設為3;ILNS-PPA中尋找樣本第一近鄰的前k個局部近鄰的個數k設為100;監控統計量的控制限均設置為99%。由圖5看,原始數據變量間的多模態結構十分明顯,經過ILNS方法處理將將多模態數據近似融合為服從高斯分布的單模態數據,消除過程數據的多模態特征。其結果如圖6所示。

圖5 多模態TE過程變量散點圖及對應分布

圖6 經過ILNS處理后的多模態TE過程變量散點圖及對應分布
表1中列出了基于PCA、PPA和ILNS-PPA方法分別在TE過程的21種故障中所得出的檢測結果。從表1中可以明顯看出,本文所提出的方法能夠有效監控多模態TE過程中大多數故障。

表1 三種方法的故障檢測率
由表(1)可知,本文所提出的方法與傳統的PCA、PPA相比,在故障2,10,11,18,19在檢測效果上有極大的改善,而在故障1,4,6,8,13這三種方法均有良好的檢測性能,其故障檢測率均高于85%。三種方法對故障10的檢測結果如圖7所示,檢測采樣數從0到960和961到1920別為工作模式1和3條件下采集的觀測樣本,可以很明顯的看出由于樣本多模態特征的影響,PCA和PPA的兩種故障檢測統計量大多數都在控制限之下。主要是因為這兩種檢測方法采用的是全局建模的方式,然而這種建模方式并不能夠有效的描述多模態工業數據,需要將多模態數據進行相應的處理。傳統的單一檢測模型會受到多模態中心不一致與方差差異明顯特征的影響,使檢測建立的模型描述范圍擴大,對工業過程中的隨機故障不敏感,所以PCA和PPA的檢測效果并不好。故障19是一種未知的故障,三種方法的檢測效果如圖8所示,可以明顯看出PCA和PPA這兩種方法模態1的故障均未有效的檢測出,這是因為兩個模態的方差差異明顯,PCA和PPA方法構建的控制限受其影響較大。而本文提出的方法經國ILNS處理后樣本數據近似服從高斯分布,同時ILNS方法不僅能夠盡量避免近鄰不屬于同一個模態選取問題,通過尋找樣本第一近鄰的前k個局部近鄰數據集,使用每個樣本局部近鄰集的均值和方差代替了全局建模信息處理得到的均值和方差從而消除了過程數據中的多模態特征,為PPA的檢測提供數據基礎,因此該方法有良好的故障檢測效果。

圖7 三種檢測方法的故障10檢測結果

圖8 三種檢測方法的故障19檢測結果
本文提出了一種基于ILNS-PPA的故障檢測算法,通過ILNS方法去除數據中的多模態結構,再使用PPA方法尋找一條曲線的主多項式分量擬合數據中的非線性結構,本文通過一組非線性數值例子和田納西-伊斯曼多模態過程進行仿真分析,仿真結果證明了基于ILNS-PPA方法的故障檢測算法的有效性與優越性。