薄翠梅,韓曉春,易輝,李?。暇┕I大學電氣工程與控制科學學院,江蘇 南京 211816)
?
基于聚類選擇k近鄰的LLE算法及故障檢測
薄翠梅,韓曉春,易輝,李俊
(南京工業大學電氣工程與控制科學學院,江蘇 南京 211816)
摘要:針對化工過程在多種運行模式下多種流形結構具有不同最優近鄰數問題,提出了基于聚類選擇k近鄰的局部線性嵌入(LLE)過程監控方法。使用LLE算法提取高維數據的低維子流形,通過局部線性回歸得到高維數據空間到特征空間的映射矩陣;選擇Silhouette指標作為聚類有效性指標評估嵌入空間樣本信息的相似性,進而確定最優近鄰數,根據映射矩陣構建故障監控統計量及其控制限,進行故障檢測。最后將所提算法與其他經典算法應用于TE化工過程對比分析,驗證了算法的有效性。
關鍵詞:局部線性嵌入;最近鄰數;子流形;故障檢測;聚類指標
2015-12-24收到初稿,2016-01-06收到修改稿。
聯系人及第一作者:薄翠梅(1973—),女,教授。
現代化工過程中存在強非線性、強耦合性和多模態等特性,使得過程數據不能直接反映其運行狀態,需要提取有效數據進行分析[1]。傳統的線性降維算法,如PCA[2],保持了數據集的全局距離結構不變,不能保持非線性數據結構的內在流形?;诤撕瘮档姆蔷€性降維算法,如KPCA[3],采用核函數將數據映射到非線性空間,增加了計算復雜度?;诹餍蔚姆蔷€性降維算法,如等距映射(ISOMAP)[4]、局部線性嵌入(LLE)[5]、鄰域保持嵌入(NPE)[6]等,通過保持數據的幾何結構,發現嵌入在高維數據中的低維特征,引起了廣泛的關注。
在LLE算法[7]中,需要人為設定兩個自由參數,即嵌入空間的維數d和最近鄰個數k,其中后者的選擇對嵌入結果和映射質量有很大影響[8]。在故障診斷過程中,由于故障類別的多樣性,原始數據集在空間中呈間斷性分布[9],在用k近鄰構建鄰域圖時,如果數據集的近鄰數選取不當,將導致投影到低維空間的故障信息不能保持原始數據的幾何結構的完整性[10]。當k較小時,數據將會被分割成多個較小的鄰域而無法反映數據連續的局部幾何特征,k較大時,會將不相關的數據點劃分到一個鄰域內[11]。
本文針對非線性化工過程中數據類型的多樣性,提出了基于聚類算法選擇最近鄰數k的LLE算法,并將其應用到故障檢測中。
局部線性嵌入算法是流形學習算法中非線性降維算法,其基本思想是采用局部線性化方法,構建局部線性超平面,將高維數據空間映射到低維空間中,保持局部流形結構不變,通過相互重疊的局部鄰域信息來表達整體集合性質[12]。
不同類別模式的數據位于不同的流形結構上,當選擇相同的近鄰數時,其降維的效果不同[13]。本文對Swiss Roll、Sphere、Twin Peaks數據集及當k取不同值時進行LLE降維后的投影流形進行仿真研究,如圖1所示。圖1(a)為Swiss Roll數據集及當k= 6,16,20時,通過LLE降維后的投影流形,圖1(b)為Sphere數據集及當k = 2,6,16時的投影流形,圖1(c)為Twin Peaks數據集及當k = 6,16,20時的投影流形。從圖中可以看出,當k分別為16、6、20時,Swiss Roll、Sphere、Twin Peaks的降維效果最好。
1.1 局部線性嵌入算法

圖1 人工數據集及其LLE降維Fig.1 Artificial datasets and projection performed LLE algorithm
(1)構造鄰域連接圖:對于每個樣本點,采用歐式距離確定它k個近鄰。
(2)重構權值矩陣W:在每個樣本點及它的鄰域點之間重構權向量,使誤差函數ε(Wi)達到最小。

如果xj不屬于xi的近鄰,則。
(3)計算嵌入矩陣:通過權值矩陣W使損失函數ε(Y)最小化計算嵌入矩陣Y。損失函數及其約束條件為

1.2 LLE投影
局部線性嵌入算法不能直接將高維數據空間投影到低維空間中,新的樣本數據要通過映射矩陣投影到低維空間中。映射矩陣可以通過求解線性平方回歸問題得到[15]

其中1≤ j≤ d,yi是低維空間的嵌入坐標,yij是yi的第j個變量。

新的樣本數據xnew可以通過ynew= Axnew計算新的嵌入坐標ynew。
1.3 基于聚類算法選擇k近鄰
針對不同數據結構最優近鄰數不同的問題,將選擇k近鄰數看作選取最優聚類數[16]。根據系統模型的聚類有效性指標確定最優聚類結果所對應的聚類數目,即最佳聚類數kopt[17]。Silhouette指標反映了聚類結構的類內緊密性和類間分離性。

圖2 故障4的監控結果Fig.2 Monitoring results of fault 4
Silhouette指標Sil可以表示如下

所有樣本的平均Silhouette指標值越大表示聚類質量越好,其最大值對應的類數為最佳聚類數,即kopt可以通過式(6)確定

式中,N為所有樣本的個數,Ni是類別i中訓練樣本的個數,。
2.1 構造故障監控統計量
將LLE算法應用到故障監控中,分別對低維數據空間的特征空間和殘差空間構造T2和Q統計量[18],T2和Q統計量的定義公式為


式中,ynew為觀測數據xnew在LLE空間的投影,可以通過ynew= Axnew計算得到;S是正常狀態下嵌入矩陣Y的協方差矩陣,即T/(N 1)=? S Y Y。T2和Q統計量的控制限為

式中,F( d , N? d , α )為自由度為d和N? d置信水平為α的F分布。λ為協方差矩陣S的特征值,cα是正態分布在檢驗水平為α下的臨界值。當或者Q> Qucl時,檢測故障發生。
2.2 故障檢測步驟

圖3 故障5的監控結果Fig.3 Monitoring results of fault 5
利用監控統計量對故障數據集的特征空間和殘差空間進行在線監控。
2.2.1 離線建模
(1)選擇最優聚類數k的搜索范圍[kmin, kmax],其中kmin= 2,kmax= int(N ),確定固有維數d,并設Sil= 0。
(2)對數據樣本X進行標準化處理,根據LLE算法計算嵌入矩陣Y和投影矩陣A。
(3)對故障觀測數據集X'進行標準化處理,根據Y'= AX'計算其嵌入坐標Y'。
(4)根據式(5)計算Y'所有樣本Silhouette指標Sil。
2.2.2 在線檢測
(1)確定kopt,根據正常數據的均值和方差對Xnew進行標準化處理。
(2)采用LLE算法進行特征提取及投影。
(3)計算T2和Q統計量,判斷是否超過其相應的控制限。
Tennessee-Eastman(TE)[19]過程是一個實際工藝流程的標準測試過程,運行代碼和故障數據來源于http://depts.washington.edu/control/LARRY/TE/down load.html#Topics。本文選取40個測量變量和12個操作變量用于過程監控,將所提算法與PCA、KPCA 和LLE算法相對比,采用方差貢獻度確定主元個數,設定方差貢獻率為0.85。在LLE模型中,設定近鄰個數選為k = 33,低維特征空間的維數為d= 14,統計量置信度為0.99[20]。
圖2和圖3分別繪出了這4種方法對故障4、5的監控圖。故障4和5分別為反應器和冷凝器冷卻水入口溫度階躍擾動。從這3個故障監控圖中可以看出所提算法的檢測得到了非常明顯的提升,特別是特征空間上的T2統計量與其他算法相對比具有較好的監控效果。

表1 TE過程故障數據集的誤報率Table 1 False alarm rate of fault database in TE process
本文將這4種算法對TE過程的21種故障進行了測試,采用誤報率作為故障檢測效果的評價標準,計算了TE過程的21種故障的誤報率,結果見表1。從表中可以看出,對于故障4、5、8、9、10、19、20、21,與其他3種算法相對比,本文所提算法具有更好的檢測效果。針對每一個故障,誤報率最低的值用粗體表示,所提算法的最優檢測率最多,而且T2統計量的平均誤報率(average)及排除故障3、9、15之后的平均誤報率(average*)在這4種算法中最小,說明檢測效果較好。
復雜化工過程具有多種的運行模式,不同流形的數據樣本結構具有不同的最優近鄰數,本文根據不同的數據類型,把選擇k近鄰數看作選取最優聚類數,根據聚類有效性指標計算合適的聚類數,通過映射矩陣降到低維空間,構建T2和Q統計量模型進行故障監控。在TE化工過程采用4種過程監控方法進行對比,結果表明所提算法比其他算法具有更好的故障檢測性能。
References
[1] 王健, 馮健, 韓志艷. 基于流形學習的局部保持PCA算法在故障檢測中的應用 [J]. 控制與決策, 2013, 28 (5): 683-687. DOI:10.13195/ j.cd.2013.05.46.wangj.025.
WANG J, FENG J, HAN Z Y. Locally preserving PCA method based on manifold learning and its application in fault detection [J]. Control and Decision, 2013, 28 (5): 683-687. DOI: 10.13195/j.cd.2013.05.46. wangj.025.
[2] 王晶, 劉莉, 曹柳林, 等. 基于核Fisher包絡分析的間歇過程故障診斷 [J]. 化工學報, 2014, 65 (4): 1317-1326. DOI: 10.3969/j.issn.0438-1157.2014.04.023.
WANG J, LIU L, CAO L L, et al. Fault diagnosis based on kernel Fisher envelope surface for batch processes [J]. CIESC Journal, 2014, 65 (4): 1317-1326. DOI: 10.3969/j.issn.0438-1157.2014.04.023.
[3] JIANG Q C, YAN X F. Nonlinear plant-wide process monitoring using MI-spectral clustering and Bayesian inference- based multiblock KPCA [J]. Journal of Process Control, 2015, 32 (1): 38-50. DOI: 10.1016/j.jprocont.2015.04.014
[4] 張妮, 田學民, 蔡連芳. 基于RISOMAP的非線性過程故障檢測方法 [J]. 化工學報, 2013, 64 (6): 2125-2130. DOI: 10.3969/j.issn.0438-1157.2013.06.031.
ZHANG N, TIAN X M, CAI L F. Non-linear process fault detection method based on RISOMAP [J]. CIESC Journal, 2013, 64 (6): 2125-2130. DOI: 10.3969/j.issn.0438-1157.2013.06.031.
[5] YANG X F, GOH A, QIU A Q. Locally linear diffeomorphic metric embedding (LLDME) for surface-based anatomical shape modeling [J]. Neuroimage, 2011, 56 (1): 149-161. 10.1016/j.neuroimage.2011.01.069.
[6] MIAO A M, GE Z Q, SONG Z H, et al. Nonlocal structure constrained neighborhood preserving embedding model and Its application for fault detection [J]. Chemometrics and Intelligent Laboratory Systems, 2015, 142: 184-196. DOI:10.1016/j.chemolab. 2015.01.010.
[7] JING C, YANG L. Locally linear embedding: a survey [J]. Artificial Intelligence Review, 2011, 36 (1): 29-48. DOI: 10.1007/s10462-010-9200-z.
[8] SHAN R F, CAI W S, SHAO X G. Variable selection based on locally linear embedding mapping for near-infrared spectral analysis [J]. Chemometrics and Intelligent Laboratory Systems, 2014, 131: 31-36. DOI:10.1016/j.chemolab.2013.12.002.
[9] SLUBAN B, LAVRA? N. Relating ensemble diversity and performance: a study in class noise detection [J]. Neurocomputing, 2015, 160: 120-131. DOI: 10.1016/j.neucom.2014.10.086.
[10] XIE X X, HU J Z, XU F Y, et al. A fault diagnosis method using multi-manifold learning based on locally linear embedding [J]. Chinese Journal of Mechanical Engineering, 2013, 49 (11): 79-83. DOI: 10.3901/JME.2013.11.079.
[11] ANDRéS á-M, JULIANA V-A, GENARO D-S, et al. Global and local choice of the number of nearest neighbors in locally linear embedding [J]. Pattern Recognition Letters, 2011, 32 (16): 2171-2177. DOI: 10.1016/j.patrec.2011.05.011.
[12] WANG J. Real local-linearity preserving embedding [J]. Neurocomputing, 2014, 136 (20): 7-13. DOI: 10.1016/j.neucom.2014. 01.040.
[13] HETTIARACHCHI R, PETERS J F. Multi-manifold LLE learning in pattern recognition [J]. Pattern Recognition, 2015, 48 (9): 2947-2960. DOI: 10.1016/j.patcog.2015.04.003.
[14] 馬玉鑫, 王夢靈, 侍洪波. 基于局部線性嵌入算法的化工過程故障檢測 [J]. 化工學報, 2012, 63 (7): 2121-2127. DOI: 10.3969/j.issn. 0438-1157.2012.07.018.
MA Y X, WANG M L, SHI H B. Fault detection for chemical process based on locally linear embedding [J]. CIESC Journal, 2012, 63 (7): 2121-2127. DOI: 10.3969/j.issn.0438-1157. 2012.07.018.
[15] LI B W, ZHANG Y. Supervised locally linear embedding projection (SLLEP) for machinery fault diagnosis [J]. Mechanical Systems and Signal Processing, 2011, 25 (8): 3125-3134. DOI: 10.1016/j.ymssp. 2011.05.001.
[16] 周世兵, 徐振源, 唐旭清. 新的k均值算法最佳聚類數確定方法[J]. 計算機工程與應用, 2010, 46 (16): 27-31. DOI: 10.3778/j.issn.1002-8331.2010.16.008.
ZHOU S B, XU Z Y, TANG X Q. New method for determining optimal number of clusters in k-means clustering algorithm [J]. Computer Engineering and Applications, 2010, 46 (16): 27-31. DOI: 10.3778/j.issn.1002-8331.2010.16.008.
[17] ZHOU C Y, CHEN Y Q. Improving nearest neighbor classification with cam weighted distance [J]. Pattern Recognition, 2006, 39 (4): 635-645. DOI: 10.1016/j.patcog.2005.09.004.
[18] SAKTHIVEL N R, NAIR B B, ELANGOVAN M, et al. Full length article: comparison of dimensionality reduction techniques for the fault diagnosis of mono block centrifugal pump using vibration signals [J]. Engineering Science and Technology, 2014, 17 (1): 30-38. DOI: 10.1016/j.jestch.2014.02.005.
[19] CHEN H H, TI?O P, YAO X. Cognitive fault diagnosis in Tennessee Eastman process using learning in the model space [J]. Computers and Chemical Engineering, 2014, 67: 33-42. DOI: 10.1016/j.compchemeng. 2014.03. 015.
[20] 宋冰, 馬玉鑫, 方永鋒, 等. 基于LSNPE 算法的化工過程故障檢測 [J]. 化工學報, 2014, 65 (2): 620-627. DOI: 10.3969/j.issn.0438-1157.2014.02.036.
SONG B, MA Y X, FANG Y F, et al. Fault detection for chemical process based on LSNPE method [J]. CIESC Journal, 2014, 65 (2): 620-627. DOI: 10.3969/j.issn.0438-1157.2014.02.036.
研究論文
Received date: 2015-12-24.
Foundation item: supported by the National Natural Science Foundation of China (61203020, 61503181) and the Natural Science Foundation of Jiangsu Province (BK20141461, BK20140953).
Neighborhood selection of LLE based on cluster for fault detection
BO Cuimei, HAN Xiaochun, YI Hui, LI Jun
(College of Electrical Engineering and Control Sciences, Nanjing Tech University, Nanjing 211816, Jiangsu, China)
Abstract:In the process of chemical engineering, multiple manifold structures has different optimal number of nearest neighborhood under various operating modes. Locally linear embedding (LLE) algorithm based on clustering to select the nearest neighborhood is proposed for nonlinear monitoring. LLE algorithm was performed for dimensionality reduction and extract the available information in high-dimensional data. The mapping matrix from data space to feature space was obtained by local linear regression. The Silhouette index was selected as the clustering validity index to estimate the similarity between the embedded sample information, and further determine the optimal number of neighbors. Process monitoring statistics and its control limits were built based on the mapping matrix. Finally, the feasibility and efficiency of the proposed method were illustrated through the Tennessee Eastman process.
Key words:locally linear embedding; the number of nearest neighbor; sub-manifold; fault detection; clustering index
DOI:10.11949/j.issn.0438-1157.20151963
中圖分類號:TP 277
文獻標志碼:A
文章編號:0438—1157(2016)03—0925—06
基金項目:國家自然科學基金項目(61203020,61503181);江蘇省自然科學基金項目(BK20141461,BK20140953)。
Corresponding author:Prof. BO Cuimei, lj_bcm@163.com