王琨,侍洪波,譚帥,宋冰,陶陽
(華東理工大學能源化工過程智能制造教育部重點實驗室,上海 200237)
在現代工業過程中,系統規模越來越大,流程也越來越復雜[1-2],一旦故障發生,不僅會影響生產效率,甚至會造成重大的安全事故。同時,隨著傳感器技術、實時存儲技術和信息管理系統的發展[3],大量在線和離線數據更易被獲取和存儲[4-5]。因此,為了保證工業過程的生產安全,數據驅動的過程監測和控制技術越來越受關注[6],多元統計過程監控(multivariate statistical process monitoring,MSPM)方法作為數據驅動過程監控方法的典型代表,得到了廣泛的研究[7]。目前常用的MSPM 方法有主成分分析(principal component analysis,PCA)、偏 最 小 二 乘(partial least squares,PLS)、獨立主元分析(independent component analysis,ICA)等,這些方法對過程數據進行降維[8-11]并基于提取的特征信息建立模型。然而,這些方法僅考慮樣本間的全局特性,并沒有關注局部包含的結構關系,這將忽略隱藏在高維空間中的更多信息。
近年來,基于流形學習的方法得到快速發展[12],拉普拉斯特征映射(Laplacian eigenmaps,LE)[13]、局部線性嵌入(locally linear embedding,LLE)[14]和等距映射(isometric feature mapping,ISOMAP)[15]等非線性流形學習算法被提出,這些方法可以從高維采樣數據中揭示低維流形結構以實現維數的約簡,但運算成本高且得到的投影僅在訓練數據上定義。He 等[16]提出局部保持投影(locality preserving projections,LPP),它作為一種線性流形學習算法,對LE 算法進行線性近似,不僅保留了諸如LE、LLE 非線性算法的數據屬性,還可以被定義在環繞空間的任何地方,而不僅限于訓練數據中。He 等[17]進一步提出鄰域保持嵌入(neighborhood preserving embedding,NPE),也是通過鄰域近似線性表示得到投影矩陣,但目標函數表示為最小化重構誤差,目前也成功應用于故障檢測領域[18-21]。但無論是關注全局結構信息的典型多元統計方法還是關注局部結構信息的流形學習方法,它們都基于數據樣本獨立分布的假設建立靜態模型,忽略了樣本在連續時間采集過程中的相關性[22]。
在實際工業中,變量可能受到噪聲等干擾使其在穩態值附近波動,該過程便具有動態行為特征。Ku 等[23]提出動態主成分分析算法(dynamic PCA,DPCA),通過加入時間延遲因子的方法來表示模型中的動態行為,利用時間窗將連續時間的樣本依次排列,形成增廣矩陣作為模型訓練的輸入。Li 等[24]提出動態鄰域保持嵌入(dynamic neighborhood preserving embedding,DNPE)算法將原始數據矩陣轉換為增廣數據,既保留了NPE 算法的優勢又克服了無法考慮時序相關性的問題,然后利用LSSVM 方法實現對數據的多類評價。趙小強等[25]提出GSFAGNPE 算法,通過計算順序相關矩陣,對過程變量的特性進行評估,劃分為動態子空間和過程子空間,根據得到的混合模型指標實現過程監控。但是,這些算法廣泛關注的是樣本的全局時間特性,并沒有充分挖掘局部時間特性。
針對全局結構信息無法準確反映樣本間關系和時序相關性未被考慮兩個問題,本文在傳統NPE算法基礎上提出一種新的數據降維和特征提取方法——LTDCNPE 算法,它使用一種全新的方式選擇近鄰樣本來對原始樣本進行重構。不同于大部分算法單純使用歐氏距離的大小來選擇鄰域,很多距離小的樣本可能時間尺度上相隔較遠,導致鄰域中選擇了時間上關系很小但距離相隔很近的樣本,這在一定程度上會影響特征的提取。LTDCNPE 算法同時兼顧時序相關性和局部空間結構信息,任意選取一個樣本作為中心點,根據樣本時間上的相關性大小選定一個長度固定的時間窗,再利用中心點與時間窗內其他每個采樣點之間的時間關系和二者之間的距離,來構造更加合理的鄰域選擇標準,并將時間關系作為近鄰樣本的權值,來提高系統的故障檢測精度。本文將LTDCNPE 算法用于工業過程的故障檢測,分別在特征空間中構造T2統計量和在殘差空間中構造SPE統計量來進行檢測。最后利用數值例子和TE 仿真過程對該方法的有效性進行實驗驗證。

NPE 算法根據樣本之間的歐氏距離選擇鄰域來對中心樣本進行重構,但是在化工過程中,一段時間內的連續樣本之間具有時序相關性[26]。傳統的NPE 方法僅考慮樣本間的空間關系,忽略了樣本間的時序關系,使得檢測效果變差。因此,本文將提出的LTDCNPE 算法用于化工過程故障檢測,希望在一個時間窗內通過同時考慮時間和空間上的局部性來進行鄰域挑選,并利用時差為近鄰樣本賦權,進而提取更為合理的特征。
2.1.1 挑選鄰域 在選擇鄰域前,LTDCNPE 算法先對選擇的范圍進行了預縮減,根據連續過程樣本間的時序相關性尋找一個長度為L的時間窗,保證范圍內的樣本包含大部分主要信息。具體地,以給定數據集X=[x1,x2,…,xN]∈RD×N的任一樣本xi為中心劃取時間窗,得到時間維度上的縮減鄰域。時間窗大小可以通過過程變量平方和的自相關來確定[27],這樣當時間距離大于確定的時間窗長度時,相關性可以被忽略。
但通過時間窗得到的縮減鄰域所包含的樣本并非全部適合重構xi,需要在此基礎上利用式(5)反映鄰域樣本與xi在局部時間和空間上的差異,選取與xi更相關的k個近鄰點。第j個鄰域樣本xj與xi的差異Bi,j計算方式如式(5)所示。

LTDCNPE算法中的局部時差由式(7)體現。


具體地,在xi和xj選定以后,時間項Ti,j的分子值也隨即確定,當xi和xj分別與周圍的近鄰樣本點在時間相關上越緊密,也即Ti,j的兩個分母值越小,Ti,j整體數值也會越小,表示由兩個集群所表示的xi和xj在時間上也就越疏遠。
對照以上分析,將圖1中的中心樣本及其鄰域投影到時間軸上,此時的示意圖如圖2(a)所示。當考慮了鄰域樣本的局部時序關系后,該算法將圖2(a)中距離中心樣本近而時間相隔較遠的樣本剔除,并選擇在時間和空間兩種約束下更為緊密的近鄰樣本,如圖2(b)所示,可以看出T的數值變化對樣本間局部時間的刻畫是合理的。

圖1 僅考慮空間距離的樣本分布Fig.1 Sample distribution considering only spatial distance

圖2 時間投影上的樣本分布Fig.2 The sample distribution on the time projection
2.1.2 鄰域加權 當在時間窗中根據Bi,j選擇出k個近鄰樣本之后,樣本xi對應的局部時差樣本個數由原來的L個變為k個,Ti,j的表示改為Ti,s(s=1,…,k)。xi的k個 近 鄰 為{xs|s= 1,2,…,k}。對 時 間約束矩陣進行歸一化處理,如式(8)所示。

式中,zi,s表示對樣本xi的第s個近鄰樣本加權后的向量;?是克羅內克積。
2.1.3 計算權值系數矩陣和映射矩陣 利用時間
關系為近鄰樣本加權后,按式(10)求解使重構誤差最小的權值系數矩陣W。

為了提高故障檢測模型在化工過程中的監控效果,本文使用提出的LTDCNPE 算法獲得投影矩陣A,從新樣本xnew∈RD1中提取出具有時間和空間局部特性的特征向量ynew∈Rd1。隨后,采用HotellingT2統計量以及SPE 統計量來進行故障檢測,計算公式為

式中,xk(k= 1,2,…,N)是x的采樣點;h為帶寬,這里的核函數一般選用高斯函數。
基于LTDCNPE 算法進行離線建模和在線監控的具體實施步驟如下。
離線建模階段:
(1) 以正常數據X∈RD×N作為訓練數據,采用z-score方法進行數據預處理;
(2) 利用式(6)、式(7)計算樣本間的空間約束Di,j和時間約束Ti,j;
(3)式(5)計算得到的局部差異Bi,j作為選擇xi鄰域的標準,并選取最小的前k個樣本作為重構樣本;
(4) 利用式(8)、式(9)得到歸一化后的時間約束Pi,s作為權值和加權后的近鄰樣本zi,s;
(5) 根據最小化公式式(10)獲得權值系數矩陣W,并利用式(11)求解前m個最小特征值對應的特征向量,得到特征映射矩陣A;
(6) 根據式(13)計算訓練數據的T2和SPE 統計量,并使用KDE方法估計統計量的控制限。
在線監控階段:
(1) 獲取新樣本xnew,利用正常樣本下求得的均值和方差對其進行標準化處理;
(2)利用離線建模步驟(5)獲得的特征映射矩陣A對xnew進行線性降維;
(3)計算新樣本的T2和SPE統計量,將其與控制限進行對比,判斷是否為故障樣本。
為了說明LTDCNPE 算法的有效性,本文使用數值例子和TE仿真實驗進行故障檢測,并將所提出算法的性能與經典算法PCA、NPE 及其時間相關的衍生算法DNPE[24,30-31]進行了比較。
本文采用Ku 等[23]提出的多元動態過程來驗證所提方法的有效性:

測試集中各算法的漏報率(miss alarm rate,MAR)總結在表2中,用粗體數值表示檢測結果的最優值。由表2 可以看出當故障1 發生時,PCA 算法和NPE 算法的T2有很多漏報,而DNPE 算法和LTDCNPE 算法的兩個統計量漏報率都相對較低,且LTDCNPE算法的T2漏報率僅有0.33,效果更好。在故障2 中,四種方法的結果相差不大,但是LTDCNPE 算法仍然保持最低的T2漏報率。以上結果表明對時序系統進行監控時,LTDCNPE 算法更加合理地考慮了連續數據間的時間關聯。

表1 過程故障描述Table 1 Process fault description

表2 數值例子的漏報率Table 2 MAR in case study
圖3 是四種方法針對故障1 數據的二維投影結果??梢钥闯觯瑘D3(a)~(c)的故障樣本投影后有接近一半超過橢圓控制限,使正常樣本和故障樣本在二維投影平面上大量重疊,無法進行區分。而LTDCNPE 算法可以通過橢圓形的控制限將測試數據中的正常數據和故障數據很好地分開,兩部分數據幾乎沒有重疊,表明數據中的時間序列在低維空間中得到了較好的保留和利用,從而提高了映射空間的質量。圖4 是四種方法針對故障1 數據的控制圖。其中,圖4(a)、(b)的T2漏報率明顯偏高,圖4(c)、4(d)的T2及SPE 統計量明顯高于控制限,但當故障剛發生時,LTDCNPE 的T2統計量可以更早發現故障,從而減少漏報率。

圖3 數值例子故障1的T2檢測結果Fig.3 T2 results of fault 1 in case study

圖4 數值例子故障1的控制圖Fig.4 Control diagram of fault 1 in case study
TE過程是對實際工業過程的模擬,該平臺廣泛應用于控制技術和監測方法的開發、研究和評價[1,10,32-33]。該工藝過程包括反應器、冷凝器、壓縮機、分離器和汽提塔5 個主要生產單元[34],8 種成分,22個連續過程變量,19個成分變量,12個控制變量,21 種故障。由于實際過程中的攪拌速率和成分變量很難實時采集,因此選用剩余的33個變量作為監控的連續過程變量。故障4為反應器冷卻水入口溫度的一個階躍變化,但在實際中相當于過程中的干擾而非故障;故障3、9、15的數據在均值方差和高階矩上均沒有可以被觀測到的變化[35],難以檢測且對監測過程影響較小,因此本文選取剩余的17種故障進行在線檢測。在此基礎上,采集正常工作模式下的960個樣本作為訓練數據,各種故障均在第161個樣本引入并收集960個樣本作為訓練樣本。
在設置實驗參數時將所有算法統計量的置信度設置為α= 99%,每個算法的低維空間維度以及時間尺度應保持一致??紤]到PCA 通過采用85%的方差貢獻率來確定降維的維度,因此實驗中LTDCNPE、DNPE、NPE 算法所選擇的主元個數為d=14。由于訓練數據是TE 過程穩態運行時所采集的正常數據,不存在工況切換問題,所以時間窗長度為固定值L=44,由過程變量平方和的自相關來確定。根據文獻[36],仍延續LLE 算法提出的參數準則,為保證降維數量小于近鄰樣本數k并且L=2k,實驗選擇的近鄰樣本數量為k=22。在確定時間權重T的步驟中,選取的鄰域尺度l=7。
為了更加全面地對比LTDCNPE 算法和其他算法在實際中的有效性和可行性,本節不僅使用漏報率來對TE 過程的17 種故障數據進行故障部分的檢測,還利用誤報率(fault alarm rate,FAR)來檢驗不同算法對正常數據的效果。在表3 中,誤報率均寫在括號內。根據表中數據可以看出,LTDCNPE 算法總體上提供了較低的漏報率。對于容易檢測的故障,四種算法的結果均能得到令人滿意的結果;對于初始階段難于檢測的故障10、16、19、20,三種對比方法的漏報率均很高,在實際應用中無法提供可靠的報警,而LTDCNPE 算法的漏報率仍能保持較低數值。從誤報率角度來看,PCA 的誤報率相對其他三種方法偏高一點,其他三種方法的誤報率相差不大,整體上數值都比較低,說明對正常數據有較好的檢測效果。

表3 TE過程17種故障的漏報率和誤報率Table 3 MAR and FAR of 17 faults in TE process
因此,綜合測試數據的漏報率和誤報率可以看出,LTDCNPE 法在故障檢測過程中具有更佳的效果。與僅考慮空間結構關系的傳統算法PCA 和原始NPE算法相比,LTDCNPE算法明顯降低檢測的漏報率,與處理全局時序過程的DNPE 算法進行對比,LTDCNPE 算法的效果也更為顯著,保留了更多的數據特征。
為了更直觀地表明LTDCNPE 算法的優勢,圖5和圖6 展示了故障5、故障10 兩種典型故障的檢測結果。故障5是冷凝器冷卻水的入口溫度產生的階躍變化。該故障的顯著影響是引起冷凝器冷卻水流量的階躍變化。當故障發生時,從冷凝器出口到汽/液分離器的流速增加,導致汽/液分離器的溫度升高,并使分離器冷卻水出口溫度也升高[37]。但是控制回路能夠補償這個變化,并使分離器中的溫度返回到設置點。由圖5可以看出PCA算法和NPE算法雖然在故障初始階段能及時地反映出故障,但隨著過程的推進,統計量又逐漸降低到控制限以下,而此時過程中的故障仍然存在,所以無法持續進行故障的監測。這表明一旦忽略了實際過程中的時序特性,無論使用全局數據還是利用局部信息建立模型,都無法實時反映過程的真實狀態。而四種方法的SPE統計量都是先超限持續一段時間后又回到正常,這與33個變量特征提取和變換時被賦予的權重大小有關。對于故障5中先發生異常后恢復至原始狀態的變量,其對應的權重較大,而保持穩定的變量以及一直保持故障狀態的變量所對應的權重在大多情況下數值較小,保留的信息較少,使得這部分變量的信息被掩蓋在了可恢復正常變量的信息中。所以最終SPE統計量的變化也符合這個變化趨勢,使SPE數值最終回到正常范圍內,無法很好區分正常和故障時候的數據。

圖5 故障5的TE過程檢測結果Fig.5 Monitoring results of the Tennessee Eastman process for fault 5

圖6 故障10的TE過程檢測結果Fig.6 Monitoring results of the Tennessee Eastman process for fault 10
故障10為一種隨機故障,過程中的某些變量在不同時刻隨機進行變化,檢測結果如圖6 所示。在故障發生的初期,圖6(d)中的T2統計量可以快速捕捉過程的變化并一直具備報警趨勢,結果符合實際生產需求。另外三種方法不僅初期無法做出報警,而且大部分時間無法有效檢測出故障,存在較高的漏報率。相比于PCA 算法和NPE 算法,DNPE 算法雖然使漏報率稍微降低,但仍不能正確表征過程的真實工作情況。
由數值例子實驗結果可以看出,LTDCNPE 算法可以有效識別階躍故障和隨機故障,并且相比于其他方法,具有更高的準確率。由TE平臺的實驗結果可以看出,PCA算法使用全局數據建立的模型無法實時地反映過程的真實狀態;NPE算法作為一種較為原始的利用局部信息進行建模的方法,忽略了實際過程擁有的時序特性;DNPE 算法構建增廣向量,通過消除輸入變量的相關性來考慮樣本的自相關性,但它仍未很好地捕捉到數據間的時變。LTDCNPE算法克服了以上算法的缺點,可以同時提取數據中的局部結構和時序信息,對各類故障均能夠做出反應,快速捕捉過程的變化,結果符合實際生產需求。
本文提出一種基于LTDCNPE 算法的工業過程故障檢測方法,通過關注局部時差和局部幾何結構,克服了傳統PCA 算法和NPE 算法僅考慮不同樣本空間距離的缺點,改進了DNPE 算法提取時間特征的方式。LTDCNPE 算法使用一種新的鄰域選擇方法,從時間和空間角度進行考慮,挑選出更加合適的近鄰樣本對原始樣本進行重構,并利用它們的時序差異為近鄰樣本進行加權,盡可能保留原始數據的結構關系,降低信息的丟失程度。通過對比PCA、NPE、DNPE、LTDCNPE 算法在數值例子和TE仿真實驗中的結果,可以看出LTDCNPE 算法挑選的時序特征更加合理,并且其在降維和檢測效果上的表現也得到了驗證。
符 號 說 明
A——特征映射矩陣,A∈RD×d
B——局部時間空間差異矩陣,B∈RN×k
D——空間約束矩陣,D∈RN×k
D——輸入變量數
d——降維后的維數
E——最小化重構誤差
h——帶寬
I——單位矩陣,I∈RN×N
K( · )——核函數
k——構造鄰域連接圖所需的近鄰樣本數
L——樣本具有時序相關性的時間窗長度
l——鄰域尺度
m——選取的特征值數量
N——輸入樣本數
P——歸一化的時間約束矩陣,P∈RN×k
p( · )——密度函數
T——時間約束矩陣,T∈RN×k
t1,t2,t3——鄰域中近鄰樣本與中心樣本之間的采樣時差
t( · )——樣本對應的采樣時間
W——最優權值系數矩陣,W∈RN×N
X——輸入矩陣,X∈RD×N
xnew——新樣本,xnew∈RD×l
Y——特征矩陣,Y∈Rd×N
ynew——新樣本對應的特征向量,ynew∈Rd×l
z——近鄰樣本加權后的矩陣,z ∈RN×k
Λ——Y的樣本協方差矩陣,Λ∈Rd×d
上角標
q——鄰域中樣本的近鄰樣本序號
下角標
i——輸入樣本序號
j——構造鄰域連接圖的樣本序號
s——重新選取的構造鄰域連接圖的樣本序號