張聰,朱永生,楊敏燕,任智軍,閆柯,洪軍
(西安交通大學現代設計及轉子軸承系統教育部重點實驗室,710049,西安)
近年來,隨著復雜機電裝備自動化程度和信息集成度的日益提高,設備運行狀態數據量激增,數據驅動的異常檢測方法成為工業領域設備及零部件狀態識別新趨勢,為解決傳統異常檢測方法經驗依賴性強、準確率低、誤判漏檢率高等問題提供了有效途徑[1]。
以汽輪機、風電裝備等典型轉子系統為例,作為一種零部件間高度關聯、高度耦合的分布式復雜系統,其運行過程中各測點振動、溫度、壓力等信息要素共同構成了轉子系統中復雜且普遍存在的耦合關系[2]。同時,系統配備的分布式控制系統(DCS)、汽輪機監測系統(TSI)和數據采集與監視控制系統(SCADA)等所采集的數據,表現出多源、海量、異常缺乏、無標簽等特點[3],給復雜系統的異常檢測及故障診斷帶來了極大的挑戰。在復雜機電裝備異常檢測及故障診斷方面,劉國斌利用汽輪機DCS數據,提出了基于多傳感器信息融合的神經網絡方法,并開展了汽輪機故障診斷研究[4]。Niklas等針對風電機組SCADA系統監測數據,提出了一種基于自動編碼器模型,通過重構所有輸入信號,實現了對風電機組各組件的異常檢測[5]。趙洪山等提出了一種基于風電機組主軸承SCADA狀態監測數據逐層編碼網絡的深度學習方法[6],利用受限玻爾茲曼機逐層智能學習主軸承樣本數據蘊含的特定規則,進而實現狀態識別。劉超等基于風電機SCADA數據,提出了一種用于風力渦輪機狀態的無監督異常檢測方法,應用時空模式網絡(STPN)來提取系統中變量的時空特征,然后使用基于能量的受限玻爾茲曼機(RBM)進行異常檢測[7]。
上述研究均未考慮系統各監測變量間存在的復雜耦合關系,局限于利用單一變量或多變量簡單疊加進行異常檢測或故障識別,對系統運行狀態敏感性低,計算結果的可靠性難以滿足工業時序數據異常檢測的需求。針對上述問題,杜海峰等利用網絡表示故障數據結構,以壓縮機組故障樣本作為網絡節點,不同樣本間的相似性度量作為邊,構建復雜網絡,通過網絡結構反映故障狀態及其特征,通過對網絡社群結構特性及模塊性指標進行分析,建立了系統狀態劃分準則,實現了對系統故障的有效診斷[8]。姜洪權等通過對田納西-伊斯曼(TE)化工系統進行抽象,并構建復雜網絡,基于網絡最短路徑長度定義系統脆性系數,從而實現對復雜系統結構脆弱性的評價[9]。Wang等采用有限穿越可視圖的方式構建復雜機電系統網絡模型,并基于度分布等復雜網絡統計特性,定義網絡差異度系數,從而識別機電系統的[10]不同狀態。馮龍飛等提出了一種基于去趨勢交叉分析-網絡結構熵(DCCA-NSEn)的復雜機電系統多變量耦合網絡建模與狀態評估的方法[11],構建了反映多變量耦合關系的加權網絡模型,分析耦合關系網絡的結構熵,實現異常狀態檢測。以上方法考慮了系統的整體性和監測數據間存在的復雜耦合關系,但多采用人為提取特征指標的方式進行異常狀態檢測和故障識別,依賴經驗性強。
針對上述方法的不足,結合復雜機電裝備各部件關聯性強、監測點位多、變量耦合關系繁雜的特點,本文提出了一種基于多變量耦合網絡與變分圖自編碼器的異常檢測方法。該方法首先基于海量多源傳感器正常監測數據,構建復雜系統多變量耦合關系網絡,深度挖掘系統變量間的關聯關系,提升復雜設備狀態感知的敏感性;其次,建立變分圖自編碼器模型,以變量間耦合關系為輸入,自適應提取關系特征,實現多源數據與系統狀態的非線性映射,提升復雜裝備狀態識別能力;最后,以變分圖自編碼器模型的重建概率作為指標,判斷機電系統運行狀態。
針對復雜機械系統監測數據多源、海量、異常缺乏、無標簽等特點,建立基于多變量耦合網絡與變分圖自編碼器的異常檢測方法,主要由耦合網絡構建及變分圖自編碼器構建兩部分組成。其中,前者基于去趨勢互相關分析(DCCA)[12],結合監測變量非線性、非平穩性及長程相關性等特性,對系統任意兩變量間的關聯關系進行定量分析,得到系統變量間耦合關系矩陣;后者基于變分圖自編碼器建立多變量耦合關系重構模型,自適應提取蘊藏在關系矩陣中的機械設備狀態特性,使用重建概率作為異常分數,通過訓練確定重建概率閾值,實現設備運行狀態異常檢測。
1.1.1 去趨勢互相關分析 對于系統監測變量相互耦合、眾多繁雜,且具有非平穩、非線性的特點,目前基于物理或數學模型的耦合關系分析方法已不適用,因此本文采用基于非平穩非線性序列的DCCA方法,通過計算序列去趨勢協方差以最小化外部趨勢,進而實現序列間相關性的分析。DCCA方法的主要流程如下[13]。

(1)


圖1 集成序列劃分過程
(3)計算所有區域對應的去趨勢協方差
(2)
(3)
(4)重復上述分析流程,得到在不同標度時對應的波動函數,當兩個序列具有明顯的長相關性時,去趨勢協方差函數與標度n滿足
Fdcca(n)~nh
(4)
(5)
式中:h為DCCA標度指數,即兩序列間耦合特征,衡量兩序列間的耦合強度;Rdcca為去趨勢互相關函數。
1.1.2 系統多變量耦合關系網絡構建 基于去趨勢互相關分析,可以得到兩變量之間相關關系,而復雜機電設備監測點位眾多、監測量豐富,可以同時獲得多維時間序列。因此,利用去趨勢互相關分析可以構建多變量間的相關關系,深度挖掘復雜系統的耦合形態。系統多變量耦合關系網絡構建流程如下。
(1)以窗口寬度T截取監測系統各變量時序數據,構建m維等長時間序列集合X={x1,x2,x3,…,xm},其中xm表示第m維監測變量,基于DCCA分析分別計算集合中兩兩變量之間的標度指數
h11=Rdcca(x1,x1),
h12=Rdcca(x1,x2),…,hmm=Rdcca(xm,xm)
式中:hmm為兩變量間的DCCA標度指數。
(2)按照DCCA標度指數下標進行排列,得到DCCA標度指數對稱方陣,用A表示
(6)
式中:hij為變量xi和xj的DCCA標度指數。
(3)以長度為T的時間序列X作為節點,以DCCA標度系數對稱矩陣A為邊,構建耦合關系網絡,如圖10所示,網絡表示為G=(X,A)。
1.2.1 變分圖自編碼器構建 由于變量本身及相互間耦合關系的復雜性,系統變量的屬性發生改變,關系網絡G表現出典型的非結構化,該類型數據也稱圖結構數據,因此傳統的針對結構化數據開發的深度學習模型不再適用。變分圖自編碼器是一種將變分自編碼器遷移到圖領域的無監督學習方法[14],以圖結構數據作為輸入,學習圖的潛在表示,從而實現圖的重構,如圖2所示。

μ—均值;σ—方差;Z—潛在向量;X—節點特征;A—鄰接矩陣;q—后驗分布;p—先驗分布;Fgcn,σ、Fgcn,μ—均值和方差的圖卷積函數。
在變分圖自編碼器中,給定節點特征X和鄰接矩陣A,首先通過圖卷積網絡GCN學習數據分布,并從該分布中采樣得到潛在向量Z,從而學習圖的潛在表示,以充分考慮到樣本潛在空間的可變性,擴展模型的表現力,這個過程稱為編碼。利用潛在向量Z通過內積重構出原始圖,這個過程稱為解碼。編碼和解碼的詳細過程描述如下。
(1)編碼過程。給定系統多變量關系網絡G,首先利用圖卷積網絡學習其所屬分布,本文采用兩層GCN作為編碼器學習目標分布,并采樣得到潛在向量Z。圖卷積網絡的結構如圖3所示。

圖3 圖卷積網絡結構
模型假設目標為高斯分布,可以唯一地由二階矩確定,因此在變分圖自編碼模型中利用GCN來計算目標分布的均值和方差
(7)
(8)
μ=Fgcn(X,A)
(9)
logσ=Fgcn,σ(X,A)
(10)

Fgcn,μ和Fgcn,σ分別為均值和方差的GCN函數,共享第1層參數W0,第2層參數W1不共享,使用下標區分。
通過均值和方差確定G(X,A)的后驗分布g(Z|X,A)
(11)
(12)
式中:zi為潛在向量Z的元素。
(2)解碼過程。從編碼器獲取的分布中采樣得到的潛在變量內積作為解碼器,激活函數通常選用Sigmoid,通過計算概率實現重構,過程表示為
(13)
(14)
(3)模型學習。變分圖自編碼器希望重構圖與原始圖盡可能相似的同時,GCN計算的分布與標準高斯分布盡可能相似。因此,損失函數由交叉熵和KL散度H兩部分構成,交叉熵用于衡量自編碼器的重構相似性,H用于衡量兩個分布之間的相似性

(15)
通過執行重參數化技巧[15]和批量梯度下降,完成異常檢測模型訓練。
1.2.2 基于重建概率的異常檢測 變分圖自編碼器計算從學習到的分布中產生原始數據的概率,稱為重建概率R,計算公式如下
R=Eq(Z|X,A)[logp(A|Z)]
(16)
通過分析重建概率的變化趨勢或突變程度,實現對系統的異常檢測??紤]到系統正常運行狀態下重建概率較大,且具有較小的波動性,采用指數加權移動平均值[16]設定閾值,具有較高的敏感性,可有效檢測重建概率的波動過程。
指數加權移動平均值(EWMA)的統計量為
lt=λR+(1-λ)lt-1
(17)
式中:t為時間;λ為歷史R對當前EWMA統計量的權重,λ∈(0,1],基于研究分析該過程中取λ=0.2;l0為某段監測時間內R的均值。
EWMA統計量的均值和方差可通過下式確定
μlt=μR
(18)
(19)
系統的EWMA控制圖基于時間t的下限函數為
(20)
式中:μR為訓練集重建概率R的均值;σR為訓練集R的標準差;ns為采樣長度;z取2。
從式(20)可以看出,當t增大時,(1-λ)2t將收斂到0,下限將穩定到一個固定值,因此使用下式計算該固定值作為閾值
(21)
當測試樣本的重建概率Rt 本文所提異常檢測方法,通過建立系統不同傳感器產生的多維度多狀態監測變量間的耦合關系網絡,挖掘多維時間序列間的相關關系。進一步引入變分圖自編碼器,使用正常數據訓練模型,能夠提取耦合關系網絡的重要特征,并確定重建概率閾值,使用重建概率作為異常分數從而實現半監督的異常檢測,算法流程如圖4所示。 圖4 基于耦合網絡的VGAE異常檢測流程圖 所提異常檢測方法主要步驟如下。 (1)數據歸一化。DCS系統所采集的數據數量級各異,會給分析系統狀態帶來較大影響,因而需對監測數據進行歸一化處理,公式如下 (22) (2)基于歷史正常數據的系統多變量耦合網絡構建。選取合適的窗口寬度T和步長S,以窗口寬度T截取時間序列X={x1,x2,x3,…,xm},按照1.1方法計算兩兩變量之間的DCCA標度指數,以步長S進行滑動,得出一系列DCCA標度系數對稱矩陣,完成系統多變量間的耦合關系網絡構建。 (3)基于變分圖自編碼器的異常檢測模型構建。利用正常數據建立的耦合關系網絡訓練變分圖自編碼器,模型學習輸入樣本分布的均值和方差參數,并計算重建概率和EWMA閾值。 (4)異常檢測模型應用。使用實時監測數據作為測試樣本,構建耦合關系網絡,輸入訓練階段訓練好的模型得到測試樣本重建概率,當測試樣本的重建概率Rt 采用某火力發電廠汽輪機組轉子系統DCS多源監測數據,對所提異常檢測方法進行驗證,并對方法中關鍵參數進行研究,為方法的應用提供理論指導。 該轉子系統DCS多源監測數據共包含33組時間序列,涵蓋振動、溫度、壓力等多種物理量。由于各物理量所在測點存在冗余,剔除同一類型傳感器同一位置不同測點的監測變量;同時由于DCS系統所采集的振動數據采樣率低,無法準確反映設備狀態,在進行多源數據融合時將其剔除,最終保留其中17組狀態變量進行轉子系統運行狀態識別。所選變量的詳細信息如表1所示,各變量所在測點位置如圖5所示。 表1 汽輪機轉子系統監測變量表 A—主油泵;B—高壓缸;C—中壓缸;D—低壓缸;E—低壓缸;F—聯軸冷卻器;G—發電機;H—集電環;0~16—含義見表1。 該轉子系統于2017年5月12日出現異常,經過緊急維修,系統又持續運行24 d,之后進行了停機檢修,恢復至正常狀態。因此,本文選取該轉子系統2月10日至6月18日的監測數據進行相關驗證。 2.2.1 評價指標 在進行異常檢測或故障診斷時,不希望模型將設備正常狀態判斷為異常狀態(假陰性)或將異常狀態判斷為正常狀態(假陽性)。傳統的準確率是對模型總體性能的衡量,不能凸顯異常檢測對假陰性以及假陽性的關注。因此,本文選用接受者操作特征曲線下面積[17]作為評價指標,衡量模型的有效性,稱為AUC概率。接受者操作特征曲線(ROC)橫坐標為假陽率,縱坐標為真陽率,模型的性能越好所對應的假陽率越低,真陽率越高,即其曲線下面積越大。通過混淆矩陣對檢測結果進行分類,如表2所示。 表2 混淆矩陣 根據混淆矩陣可以計算得假陽率FPR和真陽率TPR為 (23) (24) 2.2.2 模型參數設置 本文所提異常檢測方法共有3個參數,分別為時序數據截取窗口寬度T,時序數據截取窗口滑動長度S,以及變分圖自編碼器嵌入維數D。其中,時序數據截取窗口滑動長度S決定著所提方法的最小檢測間隔時間,為及時發現轉子系統異常狀態,選擇每次滑動10個數據點進行檢測,即每隔10 min進行一次系統運行狀態的識別;時序數據截取窗口寬度T決定著去趨勢互相關分析中兩變量的長度,對分析兩變量間的相關關系至關重要。本文考慮火電廠的日工作特性,選取720、1 440、2 160、2 880的數據長度進行對照分析,對照結果如圖6所示。選擇每次截取24 h數據(每隔1 min采集一個數據點,截取數據量為1 440)以生成所需多變量耦合關系數據效果最佳;變分圖自編碼器嵌入維數D決定著變分圖自編碼器的特征提取能力,維度太低特征提取能力不足,維度太高容易出現過擬合問題,因此需對該參數進行尋優。 圖6 不同窗口寬度T的平均性能 以火電廠汽輪機轉子系統2017年2月至4月的正常狀態數據為訓練樣本,訓練本文提出的異常檢測模型;以5月至7月既包含正常狀態又包含異常狀態的數據為驗證集,驗證訓練好的異常檢測模型。按照文獻[18]中的方式初始化權重,使用Adam[19]訓練200次迭代,學習率設為0.01。變分圖自編碼器嵌入維數D對模型性能影響規律如圖7所示。從圖7可以發現,當變分圖自編碼器嵌入維數為32時,本文方法獲得了最佳性能,因此后續均以32作為變分圖自編碼器的嵌入維數。 圖7 不同嵌入維度的平均性能 2.2.3 汽輪機運行狀態檢測結果 以2.2.2節所述參數設置及實驗方案,對本文方法的檢測效果展開研究。本文方法以模型重建概率為指標判斷設備的運行狀態,利用式(6)得到多變量耦合網絡,進而根據式(9)~(14)對模型進行訓練,僅使用正常數據訓練時,模型的重建概率及所對應閾值分別由式(16)和式(21)計算得出,計算結果如圖8所示。從圖中可以看出,隨設備運行狀態的波動,模型重建概率也隨之波動,但均高于對應閾值,因此模型判斷此時設備處于正常狀態。利用測試數據對該模型進行驗證,同樣根據式(16),得到模型在測試數據集上的重建概率如圖9所示。當設備運行處于正常狀態時,監測數據的重建概率在閾值以上波動;當設備異常時,即5月12日,監測數據的重建概率發生突變,之后的24 d內重構概率均處于EWMA閾值以下;當設備大修之后,監測數據的重構概率逐漸恢復,意味著轉子系統正常運行。 圖8 訓練集重建概率R及EWMA閾值控制圖 圖9 測試集重建概率R及EWMA閾值控制圖 耦合關系網絡作為本文方法的關鍵,一方面可以挖掘復雜監測系統各監測變量的關聯關系,擺脫傳統方法僅對單一數據進行建模,檢測靈敏度低的困境;另一方面又可以為變分自編碼器提供良好的輸入,便于建立數據與狀態的映射關系。利用2.2.2節的時序數據截取窗口寬度T和時序數據截取窗口滑動長度S,分析轉子系統正常狀態和異常狀態下的耦合網絡,結果如圖10所示。圖中數字節點表示汽輪機轉子系統監測變量,節點間的連線代表DCCA矩陣各元素的值,表征兩變量間耦合關系大小,節點間無連線說明兩變量間無耦合。當設備均處于正常(或異常)狀態時,各時刻耦合網絡存在差異性(橫向比較),說明單純依靠數值判斷無法準確確定設備的運行狀態,仍需進一步提取耦合關系特征進行狀態識別;當設備由正常狀態轉為異常狀態時,監測變量耦合關系發生了較狀態內部差異更為顯著的變化。例如,當設備處于正常狀態,變量0、變量12、變量15與其他變量均沒有關聯關系;當設備處于異常狀態時,變量0、變量12、變量15與其他變量產生了關聯關系,說明耦合關系網絡能夠很好地捕捉設備狀態變化。 (a)正常狀態下耦合關系網絡 2.2.4 方法對比 為驗證本文方法的先進性,本節引入5種常用的無監督學習模型進行對比,模型分別為圖自編碼器(GAE)[14]、卷積變分自編碼器(CVAE)[21]、卷積自編碼器(CAE)[20]、變分自編碼器(VAE)[6]以及自編碼器(AE)[5]。由于5種模型的輸入特性不同,因此上述5種模型的輸入分別對應為原始狀態向量、原始狀態向量、耦合關系矩陣、耦合關系矩陣、原始狀態向量+耦合關系矩陣。此外,構建多變量間的耦合關系除可采用去趨勢互相關分析外,文獻[14]還提出基于圖結構數據的0和1鄰接矩陣建立變量間的關聯關系,但其只能定性表征節點間的相關關系,本文也將對其進行比較。為了避免實驗中的隨機性,每組實驗重復5次,平均結果如圖11所示,其中A和X作為模型的輸入,分別表示鄰接矩陣和特征矩陣。 從圖11可以看出,本文所提方法異常檢測結果優于其他方法或輸入的檢測結果。由圖11a可以看出,包含變量及變量間關聯關系的方法檢測準確率明顯高于僅含一種輸入的方法,變分圖自編碼器因引入圖卷積網絡作為編碼層,實現對圖數據的特征提取,效果明顯優于傳統方法,且變分圖自編碼模型的特征提取能力優于基于重建誤差的圖自編碼器。由圖11b可以看出,相較于文獻[14]所提利用鄰接矩陣表示變量間相關關系,去趨勢互相關分析通過計算兩兩變量間的去趨勢互相關進而構成耦合網絡,定量表征了復雜系統多源狀態間的耦合性,能夠更加準確地表示變量間的耦合關系。 (a)算法 本文提出了一種基于多變量耦合網絡的變分圖自編碼模型,實現汽輪機轉子系統異常檢測。針對汽輪機組多維多態監測數據,采用去趨勢互相關分析(DCCA)方法,對多維變量間的相關關系進行定量分析,構建系統多變量耦合關系網絡;進一步建立變分圖自編碼模型,對系統多變量耦合關系網絡進行節點嵌入和特征提取。模型使用圖卷積網絡學習輸入數據的分布,采樣獲得其潛在表示,實現耦合網絡的重構,采用重建概率作為異常分數,通過正常狀態的耦合網絡訓練所得模型,對測試數據進行異常檢測。 實驗結果表明:與人為建立多變量耦合關系網絡特征指標進行異常檢測的方法相比,本文方法通過建立變分圖自編碼模型,自適應提取耦合網絡的深層特征,減少了人為因素和先驗知識的影響,檢測結果更客觀準確;與直接使用原始多維狀態變量作為模型輸入的深度學習方法相比,本文方法通過建立多維變量間的耦合關系,能更準確地挖掘機組出現異常前狀態參數間相關關系的變化。該方法可應用于工程實際中汽輪機組轉子系統狀態異常檢測。1.3 基于DCCA-VGAE的異常檢測方法

2 實例驗證
2.1 數據描述


2.2 汽輪機運行狀態檢測結果分析







3 結 論