王小卉
(嶺南師范學(xué)院機(jī)電工程學(xué)院 湛江 524048)
隨著現(xiàn)代化工廠生產(chǎn)的不斷發(fā)展和科學(xué)技術(shù)的進(jìn)步,生產(chǎn)設(shè)備的生產(chǎn)效率越來(lái)越高,機(jī)械結(jié)構(gòu)也日趨復(fù)雜,因此現(xiàn)代工廠中的控制對(duì)象普遍具有慣性大、非線性、強(qiáng)耦合和延時(shí)高的特點(diǎn)[1]。
對(duì)于實(shí)際的過(guò)程控制系統(tǒng)而言,很難建立精確的數(shù)學(xué)模型[2];而基于定性經(jīng)驗(yàn)知識(shí)的方法需要很多復(fù)雜高深的專業(yè)知識(shí)和期累積的經(jīng)驗(yàn),這超出了一般工程師所掌握的范圍[3~4]。因此,基于數(shù)據(jù)的故障檢測(cè)方法也越來(lái)越受到關(guān)注。
在過(guò)去的幾十年里,許多多元統(tǒng)計(jì)過(guò)程監(jiān)控的方法[5~7],例如主成分分析法、因子分析法、獨(dú)立成分分析法等得到了發(fā)展,這些方法進(jìn)行故障檢測(cè)主要包括以下幾個(gè)主要步驟。
1)采集系統(tǒng)正常運(yùn)行過(guò)程的數(shù)據(jù);
2)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和降維,通過(guò)一定的置信參數(shù)計(jì)算距離測(cè)度和設(shè)置一個(gè)合理的閾值;
3)在同一系統(tǒng)中采集一組新的測(cè)試數(shù)據(jù),計(jì)算新的距離測(cè)度,判斷其是否發(fā)生故障;
4)計(jì)算每個(gè)監(jiān)控變量對(duì)故障的貢獻(xiàn)值;
5)鑒別出導(dǎo)致故障發(fā)生的根源。
在多元統(tǒng)計(jì)過(guò)程監(jiān)控中應(yīng)用最廣泛的為PCA,經(jīng)過(guò)幾十年的發(fā)展,已經(jīng)取得了一些突出的成果。PCA的主要思想是在特征空間中尋找一組新的變量來(lái)降低原始數(shù)據(jù)空間的維數(shù),從而從大量的過(guò)程數(shù)據(jù)中獲得有用的信息。例如,2017年,張志振等人利用基于神經(jīng)網(wǎng)絡(luò)主元分析方法(PCA)對(duì)工業(yè)中的間歇過(guò)程進(jìn)行故障診斷[8]。同年,杜振寧等采用小波包分解和PCA的結(jié)合方法解決傳統(tǒng)特征提取方法在非線性特征提取和非線性關(guān)系可視上不足的缺點(diǎn)[9]。
但這些降維方法都存在著一個(gè)通用的問(wèn)題,即這些算法在降維的過(guò)程中是利用數(shù)據(jù)的全局信息進(jìn)行降維,不僅使得算法對(duì)異常點(diǎn)很敏感,而且忽略了數(shù)據(jù)點(diǎn)之間的局部鄰域結(jié)構(gòu)信息,使得監(jiān)測(cè)效果降低。
因此,本文采用一種流形學(xué)習(xí)降維算法-LPP,將其用于工業(yè)過(guò)程的故障監(jiān)測(cè)。
PCA算法的目的是尋找一組正交基底,使得在新的特征空間里主成分方差最大,并且主成分之間兩兩正交。假設(shè)一個(gè)已經(jīng)去中心化后的數(shù)據(jù)集其中 n 表示數(shù)據(jù)集的樣本數(shù),m表示數(shù)據(jù)集的變量個(gè)數(shù),即系統(tǒng)的維數(shù),去中心化后的數(shù)據(jù)集Z的均值為0,方差為1,目的是消除不同量綱對(duì)結(jié)果造成的影響。PCA是用來(lái)尋找一個(gè)正交矩陣P∈Rn×l,其中l(wèi)<m,其轉(zhuǎn)換方程可以表示為



則式(2)可以簡(jiǎn)化為

其中C表示協(xié)方差矩陣,為了滿足正交基底的模為1,以及方便算法的運(yùn)算,對(duì)目標(biāo)函數(shù)加上一個(gè)約束條件

那么這個(gè)最優(yōu)化問(wèn)題同樣可以轉(zhuǎn)化為求解式(6)的廣義特征值問(wèn)題。

當(dāng)?shù)谝恢鞒煞智蠼獬鰜?lái)后,其他主成分的求解過(guò)程同式(2)~(6)。有關(guān)PCA算法的具體介紹可以參考文獻(xiàn)[10~12]。從PCA算法的求解過(guò)程來(lái)看,降維后的數(shù)據(jù)是通過(guò)全局分布方差最大來(lái)得到的,忽略了數(shù)據(jù)的局部結(jié)構(gòu)特征。
LPP算法主要是通過(guò)線性近似LE(Laplacian Eigenmaps),算法的本質(zhì)是一種流形學(xué)習(xí)方法,其思想是對(duì)數(shù)據(jù)進(jìn)行特征降維的同時(shí),保持?jǐn)?shù)據(jù)的局部結(jié)構(gòu)特征不變,即在高維空間中相距較近的點(diǎn)映射在低維空間中也相距較近,在高維空間中相距較遠(yuǎn)的點(diǎn)映射后在低維空間中也相距較遠(yuǎn)[13]。
假設(shè)一個(gè)去中心化后的數(shù)據(jù)集 X={x1,x2,…,xn}∈Rm×n。LPP的目的是尋求一個(gè)投影轉(zhuǎn)換矩陣A,使得高維空間中的數(shù)據(jù)集X映射到相對(duì)較低的特征空間F∈Rd×n,其中d<m,其轉(zhuǎn)換方程可以表示為

其中,Y表示投影后的數(shù)據(jù)集,并且Y={y1,y2,…,yn}∈Rd×n,A是轉(zhuǎn)換矩陣,利用轉(zhuǎn)換矩陣 A投影后的數(shù)據(jù)集滿足下列公式:

其中,J表示該目標(biāo)函數(shù),W∈Rn×n是一個(gè)權(quán)值矩陣,它代表了兩個(gè)樣本點(diǎn) yi與 yj之間的關(guān)系,該權(quán)值矩陣的元素可以通過(guò)式(9)來(lái)確定:

其中,t表示熱核參數(shù),t>0。從式(9)權(quán)值矩陣W可以看出,對(duì)于兩個(gè)相距較遠(yuǎn)的樣本點(diǎn)其權(quán)值矩陣值為0,兩樣本點(diǎn)相距越近,其相應(yīng)的權(quán)值矩陣越大,投影后的數(shù)據(jù)點(diǎn)也越近,這樣就可以達(dá)到保留樣本的局部領(lǐng)域結(jié)構(gòu),則式(8)可以寫成:

其中,D∈Rn×n是一個(gè)對(duì)角矩陣,其對(duì)角元素L=D-W 為拉普拉斯矩陣,該矩陣的目的是最優(yōu)化式(10)的解,并且為了防止0向解,引入一個(gè)約束條件:

則目標(biāo)函數(shù)式(10)可以寫成:

那么這個(gè)最優(yōu)化問(wèn)題同樣也可以轉(zhuǎn)化為一個(gè)求解式(12)的廣義特征值問(wèn)題:

讓?duì)薸∈R,1≤i≤m表示特征值分解后得到的特征值,βi∈Rm,1≤i≤m表示特征值對(duì)應(yīng)的特征向量,則前d個(gè)最小非零特征值對(duì)應(yīng)的特征向量組成了投影轉(zhuǎn)換矩陣A:

轉(zhuǎn)換矩陣A確定后,就可以得到投影后的數(shù)據(jù)集Y。通過(guò)LPP算法的數(shù)學(xué)原理過(guò)程來(lái)看,高維空間中的數(shù)據(jù)集X可以轉(zhuǎn)化到低維特征空間中,并且通過(guò)式(9)的熱核參數(shù)W使得降維后的數(shù)據(jù)集依然能夠保持高維空間中的局部領(lǐng)域結(jié)構(gòu)。
為了比較兩種算法在降維過(guò)程中的具體表現(xiàn),在2.4節(jié)將用一個(gè)簡(jiǎn)單的數(shù)學(xué)仿真模型對(duì)兩種算法進(jìn)行對(duì)比。
當(dāng)利用正常數(shù)據(jù)訓(xùn)練出模型后,就可以用多變量統(tǒng)計(jì)過(guò)程控制圖對(duì)數(shù)據(jù)進(jìn)行監(jiān)控。目前,使用最多的是平方預(yù)測(cè)誤差(SPE)圖、HotelingT2圖。其中,T2統(tǒng)計(jì)量是度量數(shù)據(jù)模型主空間波動(dòng)幅度的指標(biāo),SPE統(tǒng)計(jì)量是度量數(shù)據(jù)模型的殘差子空間的指標(biāo)。這兩種統(tǒng)計(jì)量已在多種復(fù)雜的工業(yè)過(guò)程中得到應(yīng)用。
T2統(tǒng)計(jì)量是模型主分量的標(biāo)準(zhǔn)平方和,表示單個(gè)時(shí)刻上檢測(cè)數(shù)據(jù)樣本偏離正常模型的程度。假設(shè)LPP算法中,對(duì)第i個(gè)時(shí)刻投影后的變量向量yi∈R1×n的T2統(tǒng)計(jì)量定義為

其中,yi是由LPP算法投影后的d個(gè)元素組成的向量。顯然,T2統(tǒng)計(jì)量是由多個(gè)變量累計(jì)的標(biāo)量,主要是投影后的模型變量模的波動(dòng)反映多變量變化的情況。
T2統(tǒng)計(jì)量的控制限可以利用F分布按下式進(jìn)行計(jì)算。

其中,n是樣本的個(gè)數(shù),k是自由度,即系統(tǒng)的維數(shù),α是檢驗(yàn)水平,F(xiàn)k,n-1,α是對(duì)應(yīng)檢驗(yàn)水平為α,自由度為k,n-1條件下的F分布的臨界值。
SPE統(tǒng)計(jì)量描述的是測(cè)量數(shù)據(jù)投影后的殘差子空間變量偏離正常模型變量的程度,則第i個(gè)時(shí)刻的SPE統(tǒng)計(jì)量可以被定義:

其中,yi是正常數(shù)據(jù)投影后的變量向量,yi_new是測(cè)試數(shù)據(jù)投影后的變量向量。當(dāng)檢測(cè)水平為α?xí)r,SPE控制限可以被寫成:

其中

λj表示特征值分解后得到的特征值,Cα?xí)r正太分布置信度為α的統(tǒng)計(jì)。當(dāng)兩個(gè)統(tǒng)計(jì)量以及相應(yīng)的控制限被計(jì)算出來(lái)后,SPE和T2統(tǒng)計(jì)量判斷故障發(fā)生的規(guī)則如下:

假設(shè)一個(gè)三維系統(tǒng)的變量分布情況如圖1所示。

圖1 數(shù)據(jù)分布圖
用PCA以及LPP算法分別對(duì)這種類型的數(shù)據(jù)進(jìn)行降維,結(jié)果如圖2以及圖3所示。
從圖3可以看出,幾種顏色類別的點(diǎn)與原數(shù)據(jù)空間中的點(diǎn)分布情況一致,保留了原有數(shù)據(jù)空間中的局部領(lǐng)域結(jié)構(gòu),高維空間中相距較遠(yuǎn)的點(diǎn)在低維空間中依然相距最遠(yuǎn)。因此,LPP算法的降維效果比傳統(tǒng)的PCA算法更加優(yōu)越。

圖2 PCA降維結(jié)果圖

圖3 LPP降維結(jié)果圖
為了檢驗(yàn)LPP算法檢測(cè)能力,本章將該種方法應(yīng)用于TEP仿真平臺(tái)進(jìn)行驗(yàn)證,通過(guò)在故障檢測(cè)率(FDR)和檢測(cè)延時(shí)(DL)兩個(gè)方面和PCA算法的綜合比較,來(lái)判斷所采用的方法的實(shí)用性。
TEP是一個(gè)真實(shí)化工廠的仿真程序,被廣泛應(yīng)用于控制與監(jiān)控研究,它是一種典型的流程工業(yè)過(guò)程,有關(guān)TEP的運(yùn)行模式以及生產(chǎn)工藝可以參考文獻(xiàn)[14]。圖4顯示了TEP的五個(gè)主要單元的工藝流程圖,即反應(yīng)器、冷凝器、壓縮機(jī)、分離器和汽提器。整個(gè)過(guò)程總共產(chǎn)生8個(gè)成分,分別表示為A、B、C、D、E、F、G和H。TEP有大量的監(jiān)控變量,整個(gè)系統(tǒng)中含有12個(gè)操作變量和41個(gè)測(cè)量變量。操作變量可看作系統(tǒng)輸入,測(cè)量變量可看作系統(tǒng)輸出。在進(jìn)行故障檢測(cè)相關(guān)研究時(shí),未加入故障的TEP已經(jīng)加入了使系統(tǒng)穩(wěn)定的閉環(huán)控制策略,亦即帶有一定的穩(wěn)定裕度。
在TEP的仿真系統(tǒng)中總共采集了53維數(shù)據(jù),由于其中有3個(gè)操作變量是常數(shù),因此本文只選擇了其余的9個(gè)操作變量,如表1所示。另外的41個(gè)測(cè)量變量中包含22個(gè)連續(xù)過(guò)程測(cè)量以及19個(gè)成分監(jiān)控變量,有關(guān)這些測(cè)量變量的具體含義可以參考文獻(xiàn)[15],并且在該文獻(xiàn)中介紹了仿真系統(tǒng)中有21中不同的類型的故障,在這些故障中,故障6是唯一一個(gè)導(dǎo)致系統(tǒng)停機(jī)的,因此只能采集系統(tǒng)運(yùn)行的部分?jǐn)?shù)據(jù)。

圖4 TEP過(guò)程工藝圖

表1 操作變量
在本次仿真實(shí)驗(yàn)中,總共采集了960組數(shù)據(jù),采樣間隔為1s,系統(tǒng)在160s時(shí)引入相應(yīng)的故障。由于故障6導(dǎo)致系統(tǒng)停機(jī),最終只采集到550組數(shù)據(jù),并且其中前500組數(shù)據(jù)是正常數(shù)據(jù)。
為了驗(yàn)證LPP算法的檢測(cè)能力,比較2種過(guò)程檢測(cè)方法對(duì)于TEP的21個(gè)故障的統(tǒng)計(jì)量檢測(cè)率(FDR)以及檢測(cè)檢測(cè)延時(shí)個(gè)數(shù)(DL),兩個(gè)檢測(cè)指標(biāo)的計(jì)算公式可以表示為

在計(jì)算FDR時(shí),N是全部故障數(shù)據(jù)樣本的數(shù)量,下載的數(shù)據(jù)中有960組數(shù)據(jù)樣本,其中有800組故障數(shù)據(jù),因此N為800,n是被算法正確檢測(cè)到的故障樣本數(shù)量。在計(jì)算DL時(shí),L是系統(tǒng)引入故障的數(shù)據(jù)點(diǎn),在本章中,系統(tǒng)在第160個(gè)樣本開(kāi)始引入故障,因此L為160,l是第一次檢測(cè)到故障的樣本點(diǎn)。故障檢測(cè)要求是檢測(cè)算法具有較高的檢測(cè)率和較低的延時(shí)檢測(cè)個(gè)數(shù)。最終兩種算法的檢測(cè)結(jié)果如表2所示,同時(shí),表2給出了兩種算法的故障延時(shí)檢測(cè)個(gè)數(shù),表中對(duì)于檢測(cè)率高的值進(jìn)行加黑加粗處理。

表2 TEP檢測(cè)算法的檢測(cè)效果比較
從表2可知,在21種故障中可以看出,故障3、9和15兩種算法的檢測(cè)能力都很低,因?yàn)檫@三種故障發(fā)生時(shí),系統(tǒng)變量基本沒(méi)有發(fā)生變化,因此多元統(tǒng)計(jì)方法都很難檢測(cè)到這些故障。此外,LPP算法對(duì)于絕大多數(shù)故障的檢測(cè)率均高于PCA,并且在保證具有較高的檢測(cè)率外,算法的檢測(cè)延時(shí)也很低,說(shuō)明了LPP算法對(duì)于故障更加敏感。值得注意的是,故障5和12,LPP算法的檢測(cè)效果是明顯高于PCA的。圖5、6、7和8分別給出了兩種方法對(duì)于TEP故障5和故障12的檢測(cè)結(jié)果。
故障5為冷卻水入口溫度的階躍變化,該變量由于控制回路的補(bǔ)償作用,即系統(tǒng)存在著負(fù)反饋環(huán)節(jié),過(guò)程會(huì)進(jìn)行動(dòng)態(tài)的調(diào)節(jié)。從圖5可以看出,PCA算法在采樣361個(gè)數(shù)據(jù)點(diǎn)后,由于系統(tǒng)的控制補(bǔ)償作用,整個(gè)過(guò)程會(huì)恢復(fù)至正常狀態(tài),但是實(shí)際過(guò)程中,故障5是依然存在的。

圖5 TEP:PCA對(duì)于故障5的檢測(cè)結(jié)果

圖6 TEP:LPP對(duì)于故障5的檢測(cè)結(jié)果

圖7 TEP:PCA對(duì)于故障12的檢測(cè)結(jié)果
從圖6可以看出,LPP算法的T2統(tǒng)計(jì)量是夠完全能夠檢測(cè)出來(lái)的,即通過(guò)LPP降維后的主空間變量變化程度是依然超過(guò)了閾值的,即使在殘差子空間中的SPE統(tǒng)計(jì)量在最后同樣下降到閾值以下,但依然從T2統(tǒng)計(jì)量認(rèn)為故障是發(fā)生的。
故障12是因?yàn)槔淠鞯倪M(jìn)口冷卻水溫度產(chǎn)生了一個(gè)隨機(jī)變化的影響,因?yàn)闇囟仁且粋€(gè)延時(shí)性很強(qiáng)的變量加上隨機(jī)變化的不確定性,當(dāng)故障發(fā)生時(shí),系統(tǒng)整體可能會(huì)維持正常運(yùn)行一段時(shí)間,并且系統(tǒng)變量變化不定。從圖7可以看出,PCA方法在進(jìn)行檢測(cè)時(shí),檢測(cè)量的值在很多時(shí)間段是來(lái)回變化的,故最終的檢測(cè)率不高。但從圖8可以看出,雖然LPP算法的統(tǒng)計(jì)量同樣存在來(lái)回波動(dòng)的情形,但整體的值是沒(méi)有低于閾值的。因此,LPP算法的檢測(cè)性能是更加優(yōu)于PCA方法的。

圖8 TEP:LPP對(duì)于故障5的檢測(cè)結(jié)果
本文針對(duì)傳統(tǒng)的降維算法如PCA算法,在降維過(guò)程中存在著丟失數(shù)據(jù)的局部鄰域信息的問(wèn)題,采用一種流形算法-LPP對(duì)工業(yè)工程數(shù)據(jù)進(jìn)行檢測(cè)。首先從數(shù)學(xué)原理以及簡(jiǎn)單的數(shù)學(xué)模型對(duì)兩種算法進(jìn)行了比較分析,得出LPP算法不僅可以同PCA算法一樣對(duì)數(shù)據(jù)進(jìn)行降維,而且還能夠保持?jǐn)?shù)據(jù)的局部領(lǐng)域結(jié)構(gòu)信息,最后將兩種方法在傳統(tǒng)的TEP上進(jìn)行驗(yàn)證。
實(shí)驗(yàn)結(jié)果表明,LPP算法具有更高得檢測(cè)率以及更低得延時(shí)檢測(cè),檢測(cè)性能是優(yōu)于PCA算法的。