李 元 張軼男
(沈陽化工大學信息工程學院 遼寧 沈陽 110142)
生產過程的實時監控是提高工業設備生產效率、確保工業過程長期穩定運行的必要解決方案[1]。目前基于模型、專家系統和數據驅動的方法是學術界常用的幾種過程監控方法[2]。其中:基于模型的方法需要獲得精確的系統模型;基于專家系統的方法需要利用豐富的經驗知識;基于數據驅動的方法僅需要獲得由歷史數據構建的模型即可進行故障檢測。因此基于數據驅動的多模態監控技術已在工業領域引起了研究人員的廣泛關注[3-4]。
主元分析法為應用廣泛的故障檢測方法之一,主要通過將原始數據投影到正交子空間中實現降維,以達到對高維特征數據預處理的目的。而變量間的相關關系可以解釋為特征空間中信息的重疊,PCA通過減少主成分數量降低變量間的相關程度,從而盡可能多地保留原始變量的主要信息[5-6]。由于PCA通常用于處理單模態的過程數據,但是在多模態的工業過程中,PCA對數據的全局建模處理會導致過程數據中的重要信息丟失。因此在多模態的過程中,PCA不能表現其特有優勢[7]。此外,PCA處理過程數據時需要數據滿足線性假設,因此PCA在非線性工業過程中的應用同樣有所受限[8]。針對非線性問題,核主元分析方法(Kernel Principal Component Analysis,KPCA)被引入到過程故障檢測中,KPCA通過引入核函數,將非線性低維數據映射到高維空間中,使高維空間數據存在線性關系,然后再使用PCA在特征空間中進行監控。當樣本容量過大時,核映射使KPCA的計算量增加且核函數的參數不易選取[9-12]。除此之外,Zhang等[13]提出了基于主多項式分析(Principal Polynomial Analysis,PPA)的故障檢測方法。PPA是PCA的一種非線性擴展,通過構造一組靈活的主多項式分量來描述過程數據的非線性結構,從而達到消除非線性特征的目的[14-15]。由于PPA與KPCA仍然使用T2和SPE為統計量進行過程故障檢測,因此對于多模態過程的故障檢測PPA與KPCA的檢測效果仍然具有局限性。
針對多模態問題,He等[16]提出了基于K近鄰的故障檢測(Fault Detection based on K Nearest Neighbors,FD-KNN)方法。FD-KNN方法主要通過檢索計算每個樣本與其K最近鄰之間的距離分布狀況,來判斷樣本數據是否為故障樣本,從而降低數據非線性與多模態特征對故障檢測的影響。該方法對于大尺度故障具有良好的檢測能力,但FD-KNN存在計算量大的缺陷[17-18]。Ma等[19]提出了一種局部近鄰標準化(Local Neighborhood Standardization,LNS)方法。通過搜索每個樣本間的K最近鄰集,使樣本在經過近鄰集的標準化處理后消除了數據中的多模態結構,但當故障來自多個模態之間時,故障樣本的近鄰集會出現跨越多個模態的情況,難以實現故障樣本與正常樣本的分離與檢測[20-21]。針對上述LNS的問題,馮立偉等[22]提出雙局部近鄰標準化(Double Local Neighborhood Standardization,DLNS)方法。該方法在每個樣本近鄰集的基礎上再次構建其近鄰,使樣本在經過近鄰集的標準化處理后達到消除樣本數據的多模態特征的目的。當故障樣本位于多個模態之間時,對數據尋找雙層局部近鄰集且經過標準化處理后,故障樣本能有效地偏離正常樣本的范圍,避免了近鄰集同時存在于多個模態的缺點。
復雜的實際工業過程中往往同時具有非線性與多模態特征,因此針對包含非線性與多模態特征的工業過程故障檢測問題,本文提出一種將雙局部近鄰標準化與主多項式分析相結合的DLNS-PPA故障檢測方法。首先搜索多模態數據的雙層局部近鄰集,然后利用近鄰集信息對樣本進行標準化處理,最后通過PPA進行故障檢測。DLNS-PPA方法不僅具有DLNS處理多模態數據的能力,而且還能通過PPA有效消除非線性結構,從而可以有效地提升多模態工業過程的故障檢測率。
主多項式分析(PPA)是PCA的一種非線性擴展,通過使用多項式函數擬合數據各維度間的非線性特征,使用曲線分量對過程數據的最大方差方向進行建模。在PPA離線建模階段,假設訓練樣本X∈Rd×N為d個測量變量和N個訓練樣本,PPA對原始數據X的分解如下:
(1)
(2)

主多項式參數如下:
(3)
Vp=[vp,1,vp,2,…,vp,N]
(4)

(5)
式中:?表示偽逆操作。
在線故障檢測階段中,PPA使用統計量T2和SPE監測主多項式子空間(Principal Polynomial Components,PPCs)和殘差子空間的對應變化。獲得觀測數據xnew∈Rd時,利用訓練集樣本可將其投影到相應的PPC成分子空間和殘差空間上。根據式(1)和式(2),可以得到第p步的主多項式得分anew為:
(6)
(7)

(8)
式中:ΛPPA∈Rρ×ρ為對稱矩陣其對角元素為主多項式成分的方差。PPA的SPE統計量如下:
(9)

(10)

(11)
(12)
式中:T2和SPE分別服從F分布和χ2分布,F分布的自由度為r和N-r,χ2分布的自由度為h;將訓練數據SPE統計量的均值和方差記為a和b;α為置信水平[13]。
由于復雜的工業過程數據具有多模態特征,同時傳統的T2和SPE統計量要求過程數據服從單一模態高斯分布,因此在多模態工業過程中PPA的檢測性能有所降低。
傳統的LNS雖然能降低多模態數據中心漂移對后續故障檢測帶來的影響,但當近鄰集中數據同時位于多個模態之間時,其近鄰集方差變化顯著,同時導致經過LNS處理后故障樣本會混入正常樣本集中,無法有效將故障樣本與正常樣本分離出來。所以對樣本進行標準化時,為了避免其近鄰集的樣本來自不同模態,基于雙局部近鄰標準化的方法被提出。
假設原始數據為X,DLNS首先對每個樣本xi構建前k近鄰集N(xi):
(13)

(14)
利用式(15)對樣本進行標準化處理:
(15)


DLNS-PPA方法的具體計算過程如下。
離線建模:
(1) 獲得正常的訓練樣本集X。

(4) 對獲得的新訓練集數據進行構造PPA模型,得到主多項式分量和殘差分量。
(5) 計算主多項式分量和殘差分量的統計量T2和SPE。
(6) 根據統計量T2和SPE的分布式確定控制限CLT2和CLSPE。
在線檢測:
(1) 獲取測試樣本集Xnew。
(4) 將T2和SPE分別與各自的控制限CLT2和CLSPE比較,若有任一個統計量超過對應控制限,則可以將樣本x判斷為故障樣本,反之則為正常樣本。
DLNS-PPA故障檢測步驟如圖1所示。

圖1 DLNS-PPA故障檢測步驟
本文使用了文獻[23]中提出的數值仿真過程,用以說明該方法在多模態與非線性過程中特征提取與故障檢測方面的有效性,該非線性過程如下:
(16)
(17)
(18)
式中:e1-e5為服從[0,0.01]正態分布的高斯噪聲;s1、s2為系統的主要控制變量,通過改變s1和s2對系統的調節方式,產生多模態數值例子。利用上述模型在每個模態中生成200個正常數據用來構建訓練樣本,并在不同模態下分別引入不同的故障樣本。在模態1中,變量x2從樣本101到樣本200之間添加0.2(i-100)的斜坡故障。在模態2中,變量x5從樣本101到樣本200之間添加一個振幅為25%的階躍故障。
首先,應用傳統的PCA在數值過程中進行故障檢測,根據85%的累計貢獻率來確定PCA的主元個數為2。然后采用99%的控制限對檢測過程進行監控,檢測結果如圖2(a)所示。圖3所示為PCA方法中前兩個模態的主元散點分布圖,可以明顯看出多模態特征包含在PCA的主元空間中,具有多模態特征的過程數據存在方差和均值差異較大的缺陷,因此PCA方法的檢測率較低。

(a) PCA

(b) PPA

(c) DLNS-PPA圖2 三種方法對數值例子的檢測結果

圖3 多模態散點圖
接下來使用PPA方法在本數值過程中進行故障檢測,由交叉驗證獲得主多項式個數為2,采用99%的控制限對檢測過程進行監控,檢測結果如圖2(b)所示。雖然PPA方法是一種能有效解決非線性問題的方法,但PPA的T2與SPE統計量的檢測方式與PCA類似,所以受多模態數據特征的影響,PPA方法的檢測率也相對較低。
最后用本文方法在本數值過程中進行故障檢測,同樣通過交叉驗證獲得主多項式個數為2,首先使用DLNS方法處理本數值例子中的數據,其中:k選為10;K選為9。然后采用99%的控制限對檢測過程進行監控,檢測結果如圖2(c)所示。DLNS-PPA方法的檢測率明顯高于其他的對比方法,由圖4可知,經過DLNS-PPA方法處理后,兩個模態的數據融合為單一模態的數據,由于DLNS方法可以消除數據的多中心結構和方差差異較大的影響,能有效避免近鄰集中的樣本所屬模態不同的問題,因此DLNS-PPA方法具有較高的故障檢測率。三種方法的檢測結果如表1所示,可以看出,DLNS-PPA方法T2與SPE的檢測率明顯提高。

圖4 樣本散點圖

表1 數值例子檢測率(%)
本文所應用的TE數據來源于依斯曼化學品公司創建的田納西-伊斯曼生產過程。TE數據基于實際工業過程,因此被廣泛應用于傳統數據驅動的建模及過程監控等研究中。TE過程主要包括反應器、冷凝器、汽液分離器、循環壓縮機和產品汽提器這5個主要的操作單元。TE過程中總共有12個操作變量與41個監測變量。為了模擬正常的過程變化,在仿真過程中引入了21種故障[24]。
下面使用本文所提出的DLNS-PPA方法對TE過程中的21個故障進行檢測研究。其中PCA的主元個數由85%的累計貢獻率獲得,據此所求得的PCA主元個數為28;通過交叉驗證確定PPA的主多項式空間設為2,冪值設為2;DLNS-PPA方法的主多項式空間和主多項式參數與PPA方法的參數相同,所規定的近鄰集k個數為150,第二層近鄰集個數K為100。監測統計量的控制限設置為99%,表2中包含了基于PCA、PPA和DLNS-PPA方法對TE過程中的21種故障的檢測結果,最高的故障檢測率用粗體顯示。由于基于DLNS-PPA的統計量變化要比基于PCA和基于PPA的統計量變化更加顯著,因此基于DLNS-PPA的檢測方法對故障更加敏感。從表2中可以明顯得知,與其他監控統計數據相比,本文所提出的DLNS-PPA方法提供了多模態TE過程中大部分故障的最佳監控效果。

表2 三種方法的檢測率匯總表

續表2
可以看出,PCA和PPA對故障10和故障19均具有較低的檢測率,本節將DLNS-PPA對故障10與故障19進行檢測,并與PCA及PPA方法進行對比,可以發現本文方法對故障10及故障19有良好的檢測性。對于故障10而言,基于PCA和PPA不同故障檢測方法的檢測率低于50%,而本文方法的檢測率可達90%。在1 922個樣本中,采樣數從0到961和從962到1 922分別為兩個模態的采樣數據,由于PCA和PPA方法更適合用于描述單模態的工業數據,因此對于多模態工業數據不能具有良好的檢測性能,由圖5(a)和圖5(b)可以看出,PCA方法及PPA方法的統計量大多數在其控制限之下,其檢測性較差。

(a) PCA

(b) PPA

(c) DLNS-PPA圖5 三種方法的故障10檢測圖
同理,對于故障19而言,基于PCA和PPA的不同故障檢測策略的檢測率低于60%,而本文方法的故障檢測率可達100%。由圖6(a)和圖6(b)可以明顯看出,使用PCA和PPA的檢測方法,故障樣本未能有效地被檢測出。這是由于多模態的數據方差差異明顯導致,因此對這兩種方法的故障樣本檢測造成較大的影響。

(a) PCA

(c) DLNS-PPA圖6 三種方法的故障19檢測圖
而本文方法中,數據經過DLNS的處理后,能夠使數據更好地服從多元高斯分布,消除了多模態特征帶來的影響,所以再進行PPA檢測會使故障樣本的檢測率顯著提高。將DLNS-PPA方法的統計量檢測圖分別與PCA、PPA方法的檢測圖進行對比,通過圖5(c)與圖6(c)可以明顯看出本文方法的檢測優勢。
本文提出雙局部近鄰標準化與主多項式分析(DLNS-PPA)的故障檢測方法。首先通過DLNS方法解決具有多模態特征的數據近鄰集中樣本所屬模態不同的問題,可以使樣本數據成功融合為單個模態且服從多元高斯分布。然后使用PPA方法消除了過程數據的非線性結構,從而克服了PPA在多模態結構中的局限性。本文通過非線性數值例子和田納西-伊斯曼多模態過程證明了基于DLNS-PPA方法在故障檢測中的有效性。
由于本文中的雙局部近鄰集的構建需要事先調節近鄰的參數,因此如何在無先驗知識的過程中如何設置合適的參數為下一步的研究目標。