徐靜,王振雷,王昕
(1 華東理工大學化工過程先進控制和優化技術教育部重點實驗室,上海200237; 2 上海交通大學電工與電子技術中心,上海200240)
隨著現代工業的快速發展和生產規模的日益擴大,生產安全問題越來越受到人們的關注和重視。過程監控能夠在故障發生前及時檢測到異常并發出警報,極大地規避了發生故障的風險,已經成為工業過程中必不可少的一環。加之自動化和數據采集等技術的不斷發展,工業過程中的大量歷史數據被記錄并保存下來,對這些數據進行一系列處理后可以很好地檢驗工業過程的運行狀態,這推動了多變量統計過程監控(multi-variate statistical process monitoring,MSPM)技術的發展。與精確的數學模型不同,MSPM 不依賴過程機制,在處理復雜過程時更加靈活[1-3]。有很多經典的MSPM 方法,如主成分分析(PCA)[4-5]、獨立主成分分析(ICA)[6]、Fisher判別分析(FDA)[7]等,具有很好的監控性能,因此在過程監控中被廣泛應用,但這些算法的局限在于只能保持數據的全局結構,對于數據局部結構的保持往往容易被忽略[8]。因此,流形學習的方法發展了起來,一些代表性的算法如鄰域保持嵌入(NPE)[9]和局部保留投影(LPP)算法[10-11]等在過程監控中都具有良好的性能。但這些算法不能很好地保留數據的全局結構[12]。
數據降維后保留數據的全局特性和局部特性同等重要[13]。為了兼顧數據的全局和局部結構,Tong等[14]針對過程數據的全局和局部結構在某些異常情況下可能會發生變化的問題,提出了多流形投影(multi-manifold projection,MMP)算法,分別設計全局圖和局部圖來表征數據的全局結構和局部結構。Zhang等[15]結合PCA 和LPP算法的優點,構造雙目標函數,提出全局-局部結構分析(global-local structure analysis,GLSA)的故障檢測方法。
這些算法能夠在線性過程監控中取得良好的監控效果,但不能很好地保持過程變量之間的非線性相關結構[16]。為了解決這個問題,研究者提出了一些基于非線性的過程監控的方法。Lee 等[17]將線性PCA 方法拓展至非線性領域,提出核PCA 方法。Zhang 等[18]提出一種基于增強核熵成分分析方法來實現非線性化工過程監控。Luo 等[19]提出了核全局局部結構保持算法,作為全局局部結構保持的非線性推廣。然而,這些方法主要都是通過核映射來處理過程數據的非線性特征,核映射將過程變量之間的非線性關系在高維特征空間中線性化。用于核映射的核函數類型決定特征空間的維數。大多數情況下,會使用徑向基核函數進行無限階映射來提供足夠多的冗余,而這種冗余會造成后續使用降維方法降維時計算復雜度更高,即使對于一個樣本數量相對較少的數據其計算成本也可能激增。對于復雜的工業過程,過程變量維度相對較高,很可能因為復雜度過高而不利于后續計算[20-22]。
為解決傳統基于核映射提取非線性特征的性能受限于核函數類型以及參數選取的問題,本文提出一種非線性動態全局局部保留投影(NDGLPP)的化工過程監控方法,該方法可以設置迭代次數,根據具體的問題設置非線性映射的階數,避免了無限階非線性映射。首先引入時間窗來消除過程變量的自相關性,使用全局局部保留投影算法進行降維,以此保留動態數據的全局局部結構,接著通過構造多項式映射來處理過程變量的非線性特性,然后對前述過程進行迭代實現高階非線性映射,進而構造出NDGLPP 模型并建立相應的統計量進行檢測,最后將該方法用于乙烯精餾過程和Tennessee Eastman(TE)過程故障檢測,驗證算法的有效性。
全局局部保留投影算法旨在數據降維時兼顧全局和局部結構。全局結構保留過程數據的外部形狀,而局部結構則保留它們的內部關系。設經過標準化處理后的輸入樣本X ={x1,x2,…,xn},xi∈RD(D表示輸入樣本維度,n表示樣本個數)。
全局結構通過保持數據點的最大方差方向來保留,其目標函數如下:

LPP的目標是在降維過程中保持數據的局部拓撲結構,其目標函數如式(2)所示:

式中,yi和yj是映射到低維空間的向量,W 是n × n 階關系矩陣,wij是矩陣中的元素,它代表樣本點xi和xj之間的近鄰關系。
結合PCA 和LPP 算法的優點,引入GLPP 算法來兼顧全局信息和局部信息,GLPP 的目標函數定義如下:

式(3)將轉換為式(4)所示的特征值分解問題:

通過求解M 前d 個最大的特征值λ1,λ2,…,λd所對應的特征向量a1,a2,…,ad,即投影矩陣A =[a1,a2,…,ad],可得低維映射空間:

為了更直觀地說明CPM[23]的推導過程,可以先用一個簡單的二階多項式映射式來展示CPM方法:

由式(6)可以看出,原本2 維的數據經過映射之后維度增加到5。若推廣到L維數據矩陣,經過映射之后維度則增加到J維:

實際上,在進行式(6)映射之前還需要使用降維方法將數據映射到低維空間減少數據矩陣的維度。設輸入樣本X ={x1,x2,…,xn},xi∈RD是經過歸一化后的數據集(D 表示輸入樣本維度,n 表示樣本個數)。CPM過程實現如下:
(1)使用式(4)將數據矩陣X 進行第一次降維,降到d維(d <D),降維后的矩陣為Z(0)。
(2)對Z(0)建立二次多項式映射,得到映射后的數據樣本gi(0)∈Rd(d+3)/2。

對以上兩個步驟通過以下方式進一步迭代獲得高階非線性映射。

當k ≥1時,使用GLPP算法降維:

其中,A(k)為矩陣G(k - 1)使用GLPP 算法降維得到的投影矩陣。
對Z(k)建立二階多項式映射:

設定迭代次數k,綜上所述,具體的CPM 算法流程圖如圖1所示。

圖1 CPM算法流程圖Fig.1 Flow chart of CPM algorithm
工業過程中的數據是動態變化的,過程變量之間存在時間序列上的自相關性。將原始矩陣擴展成動態矩陣可以很好地表征樣本點之間的自相關性。對于給定的窗口長度h,擴展矩陣的結構如下:

其中,Dh = D × h,是動態擴展矩陣的維度。
建立動態矩陣后,首先采用GLPP 方法對數據進行降維,再對降維后的數據進行二次多項式映射。最后對兩個步驟迭代獲得高階非線性映射,詳細過程見1.2節內容。
模型建立好之后,構建NDGLPP統計模型,每一次迭代之后,SPE和T2計算如下:


最終,基于NDGLPP 的過程監控統計模型可以由式(16)、式(17)得到。

在本研究中,SPE 和T2的控制限通過核密度估計(KDE)來求取,設置窗口長度h 為2[24]。CPM 方法可以根據具體的問題設置非線性映射的階數,即由用戶指定非線性映射K 的階數,對應階數的迭代次數為log2K。
NDGLPP 方法分為離線建模和在線監控兩個階段。具體步驟如下,其中步驟(1)~步驟(4)對應離線建模階段,步驟(5)~步驟(8)對應在線監控階段。
(1)對采集到的正常工況下的數據進行標準化處理;
(2)對標準化后的數據構造動態擴展矩陣;
(3)基于構造的動態擴展矩陣使用CPM 處理過程數據的非線性特性,得到NDGLPP模型;
(4)建立模型的SPE和T2統計并求取控制限;
(5)在線采樣數據使用離線過程中的均值和方差進行標準化;
(6)基于標準化后的在線采樣數據構造動態擴展矩陣;
(7)建立動態擴展矩陣的NDGLPP 模型進行投影;
(8)計算在線采樣數據的T2和SPE 并判斷是否超出控制限,如果超限則報警,否則返回步驟(5)。
NDGLPP故障檢測流程圖如圖2所示。

圖2 NDGLPP故障檢測流程圖Fig.2 Flow chart of NDGLPP fault detection
本節以某企業的乙烯精餾塔作為研究對象,將本文的方法應用到乙烯精餾塔的故障檢測中。第二個仿真應用的是TE過程故障檢測,對本文所提的方法進行評估。

圖3 乙烯精餾塔系統工藝流程圖Fig.3 Process flow chart of ethylene distillation column system
精餾是一種廣泛應用于化工生產過程中的傳質工藝。它利用混合材料中各組分揮發性的差異,即相同溫度下各組分的飽和蒸氣壓差異來分離其組分,高揮發性組分稱為輕組分,低揮發性組分稱為重組分。精餾塔由蒸餾塔、冷卻塔、再沸器、回流罐、回流泵組成[25-27]。圖3為乙烯精餾塔系統工藝流程圖,來自乙烯干燥器的物料在乙烯精餾塔DA402中進行乙烯和乙烷的分割。該塔的熱源由2℃級的丙烯通過塔釜再沸器和裂解氣通過中間再沸器提供。該塔的回流由塔頂冷凝系統提供。合格的乙烯產品從DA402 塔第九板以液相采出,在FFRC-425A 的控制下依靠液位差送入乙烯產品貯罐。從DA402 塔側線抽出一股液態乙烯/乙烷料作為綠油洗滌塔的洗滌液。在DA402 塔中,第一至第八塊塔板起到第二脫甲烷塔的作用,進一步分離出甲烷和氫氣等輕組分。
乙烯精餾塔的過程變量之間存在較大的非線性、慣性和滯后的特性,精餾塔內部分布不平衡,容易受到一些隨機干擾因素的影響,這使得精餾塔故障檢測的研究具有挑戰性。為了有效地利用原料和能源,增加裝置的經濟效益,本文充分考慮乙烯精餾塔生產的過程數據的非線性動態特點,使用本文提出的NDGLPP 算法,對乙烯精餾塔進行故障檢測,將現場采集到的乙烯精餾塔裝置正常工況下1100組樣本數據作為訓練數據,每個樣本包括32個變量。訓練完成后,利用在線數據作為測試數據進行驗證,其中前230個樣本是正常工況下的數據集,第231 到第1100 個樣本是故障數據,使用GLPP 和NDPCA 作為對比算法,圖4 所示為乙烯精餾塔過程數據監測結果。
本文采用檢測率和誤報率衡量所提方法的性能。故障檢測率(fault detection rate,FDR)是指檢測出來的故障樣本數占總故障樣本數的比值。故障誤報率(fault alarm rate,FAR)是指正常數據中誤報的樣本個數占正常數據的比值。從圖中可以看出所提方法運用在乙烯精餾塔裝置的故障檢測具有較高的檢測率和較低的誤報率,從檢測結果來看也是如此,對工業現場具有重要的指導意義。GLPP、NDPCA 和NDGLPP 算法在乙烯精餾過程中的故障檢測率和誤報率如表2所示。
Tennessee Eastman(TE)過程[28-30]廣泛應用于故障檢測過程中。TE 過程變量之間的相互作用是高度非線性的,且具有很強的自相關性。因此本文可以用TE 過程作為案例研究來驗證所提方法的有效性。TE 過程可以產生21 種不同的故障模式。每一種故障模式可以產生一個測試數據集,每個測試集包含52 個觀測變量和960 個觀測值,其中前160 個是正常工況下的數據集,第161 到第960 個是故障數據。平均每3 min采集一個數據。

圖4 乙烯精餾塔過程數據監測結果Fig.4 Monitoring results of ethylene distillation column process data

表2 GLPP、NDPCA和NDGLPP算法在乙烯精餾過程中的故障檢測率和誤報率Table 2 Fault detection rate and false alarm rate of GLPP,NDPCA and NDGLPP algorithm in ethylene distillation process
為了驗證所提方法的非線性動態性效果,本文使用基礎的GLPP 方法以及文獻[23]所提的NDPCA 和該論文列出的DPCA、DKPCA 進行對比。該文選擇前15 個故障進行檢測,因此本文也將檢測前15 個故障作為比較。
故障15是黏滯類型的故障,過程變量描述為冷凝水冷卻水閥門。圖5 為故障15 所有方法的過程監控圖。從圖中可以看出,DPCA 和DKPCA 算法在有故障的情況下幾乎檢測不到故障的存在,GLPP算法檢測效果也不理想,NDPCA 對故障表現更敏銳,能在800 左右的采樣點處檢測到故障,NDGLPP算法的檢測效果更優,NDGLPP的SPE統計量在550個樣本點之后就可以檢測到故障,相比NDPCA可以更早地檢測到故障的發生,檢測率也相對更高。

圖5 故障15所有方法的過程監控圖Fig.5 Process monitoring diagram for all methods in failure 15

表3 TE過程故障檢測率Table 3 Fault detection rate of TE process
表3 為TE 過程故障檢測率,列出了GLPP、DPCA、DKPCA、NDPCA、NDGLPP 方法統計量的檢測率。從表中可以看出,GLPP 無法處理過程變量的非線性和動態性相關,因此相較于所提方法檢測率較低;DPCA 由于無法處理過程變量之間的非線性相關,檢測率相對最低;DKPCA 使用了核函數處理過程變量之間的非線性,檢測的性能有所提高,但使用核函數在建模時存在過多的冗余,使得其在處理故障情況時泛化能力較差;NDPCA 和本文提出的NDGLPP 算法具有類似級別的檢測能力,但本文提出的算法檢測率要更優于NDPCA,在所有比較的方法中提供了最佳的過程監控性能。針對故障4、故障10 和故障15,所提算法的檢測率都有顯著提高。尤其對于故障15 使用DPCA、DKPCA 算法幾乎檢測不到故障,NDPCA 算法有了一定的提升,NDGLPP 算法的檢測率在此基礎上又有了進一步的提升。
本文針對傳統的基于核方法提取非線性特性時性能受限于核函數和核參數選取的不足,提出一種非線性動態全局局部保留投影(NDGLPP)故障檢測方法。該方法基于構造多項式映射方法進行非線性映射,以保留潛在變量之間的非線性結構,既可以根據具體的問題設置非線性映射的階數,也沒有參數調優的過程。首先使用DGLPP 方法構造目標函數得到投影矩陣,然后對降維后的樣本建立二次多項式映射,得到映射后的數據樣本,迭代這兩個步驟來增加非線性映射的階數,最后將所提方法應用到乙烯精餾實際過程和TE過程故障檢測中,驗證了NDGLPP 方法在非線性過程故障檢測中的有效性。