陳 寧,何 新,吳智群
(西安熱工研究院有限公司,陜西 西安 710054)
隨著火電廠智能化改造的推廣,各種機器學(xué)習(xí)算法廣泛應(yīng)用在生產(chǎn)現(xiàn)場。數(shù)據(jù)清洗作為其流程中不可或缺的第一環(huán),是對分散控制系統(tǒng)(DCS)測點監(jiān)測原始數(shù)據(jù)的處理,一般包括對異常點剔除、對缺失點擬合、對含噪數(shù)據(jù)序列降噪和整體關(guān)聯(lián)性的排查等,即盡可能地剔除各種干擾,保證其干凈且可靠,這樣才能使算法應(yīng)用結(jié)果更加準確可靠。
火電機組主要由燃燒系統(tǒng)、汽水系統(tǒng)、電氣系統(tǒng)和控制系統(tǒng)4大單元組成,生產(chǎn)流程中伴隨著燃料化學(xué)能、蒸汽熱能、機械能及電能之間頻繁轉(zhuǎn)換。從發(fā)電側(cè)來看,火電機組關(guān)聯(lián)龐雜的大型機電設(shè)備,宏觀上可認為是一個分布式的復(fù)雜機電系統(tǒng)[1]。機組DCS測點得到的監(jiān)測序列,受復(fù)雜工況的影響夾雜著各種噪聲,使其看似無規(guī)則,實則卻是非線性確定性系統(tǒng)產(chǎn)生的隨機性波動,經(jīng)Poincare截面法定性分析,認定是具有混沌特性的一維時間序列[2]。對于混沌時間序列的處理通常要放到相空間中進行[3],相空間重構(gòu)技術(shù)(phase space reconstruction,PSR)能夠有效重建拓撲意義上等價的原動力系統(tǒng)高維相空間,根據(jù)Takens等人提出嵌入定理,m維嵌入相空間與原d維混沌時間序列間的約束條件為m≥2d+10[4],結(jié)合混沌吸引子的低維特性,原機電系統(tǒng)大多是低維動力學(xué)系統(tǒng),產(chǎn)生的有用信號通常局限在低于d維的子空間[5],而噪聲信號則借由高維動力學(xué)系統(tǒng)區(qū)別于有用信號,分布在高于d維的子空間。降噪處理就是通過降維使位于高維空間中的噪聲信號被剔除,僅保留低維空間上的有用信號。現(xiàn)有的非線性降維方法主要有核方法和流形學(xué)習(xí)方法,前者用核函數(shù)進行內(nèi)積運算,后者在流形中尋找嵌入[6-7]。考慮到“樣本外”(out of sample)問題,許多流形學(xué)者開始使用從高維到低維的線性映射[8-9],局部保持投影(locality preserving projection,LPP)建立在將拉普拉斯特征映射線性化的基礎(chǔ)上,但這又會引入混沌時間序列在流形中的非線性特性無法保留、鄰域內(nèi)最小化局部相似度后投影重合等問題[10]。
為此,本文采用余弦距離推導(dǎo)歐拉表示代替歐氏距離,并在投影時加入正交條件,旨在借鑒核函數(shù)降維方法保留原始數(shù)據(jù)流形中的非線性特性,通過分散臨近點投影解決鄰域內(nèi)投影過密集問題,消除它們之間的信息冗余,同時又能兼顧局部和全局的幾何特性[11-14],幾乎不需要先驗知識。采用洛倫茲信號(加入噪聲)進行仿真實驗,結(jié)合不同工況下火電機組DCS測點信號進行實例驗證,并與小波降噪、局部保持投影降噪比較,通過分析信噪比(SNR)、最大Lyapunov指數(shù)、頻譜及相圖證明本文降噪算法的泛化性和優(yōu)越性,套用到磨煤機狀態(tài)分析算法進行數(shù)據(jù)清洗證明其即時性和精確性。
對于流形M上n維原始數(shù)據(jù)集X=[x1,x2, …,xm]∈Rm×n,其中xi∈Rn是第i個n維原始數(shù)據(jù),局部保持投影就是通過一個投影方向矩陣Al×n,把n維原始數(shù)據(jù)集(高維)映射為l維子空間(低維,l?n)Y=[y1,y2, …,yl]∈Rl×n,使得yi=ATxi[15]。首先構(gòu)造一個稀疏、對稱的權(quán)重矩陣Wij:
接著最小化目標函數(shù)S(A):
可簡化為:
約束條件tr(ATXDXTA)=1,利用拉格朗日乘子法求最小值:
對于任意給定的2個向量xi、xj∈Rn,它們之間的余弦距離定義為:
式中:xi(k)、xj(k)分別代表向量xi、xj的第k個分量。 在歐拉表示下轉(zhuǎn)換為歐幾里得距離形式[17-19]:
坐標延遲法通過嵌入維數(shù)m和時間延遲τ來構(gòu)造一維時間序列{x(n)}的m維相空間矢量:
時間延遲τ可以通過互信息法來選取,如果τ值選取的太小,則會使得相空間中坐標分量上過于接近,造成各種距離上難以區(qū)分地相似,過密集被當作堆疊或是冗余做修正處理;如果τ值選取太大,便會使得相空間中坐標分量上分割開來,毫無相關(guān)性可言,丟失原始一維時間序列的混沌特性。由信息論可知,對于時間序列X=[x1,x2, …,xm]和Y=[y1,y2, …,ym],其信息熵可表示為:
結(jié)合互信息函數(shù)I(X,Y)=H(x)-H(X|Y)可推得I(X,Y)為:
套用到一維時間序列中{x(n)}及其延遲序列{x(n+τ)}中,顯然互信息是關(guān)于τ的函數(shù)其值越小所表達的含義是二者在鄰域內(nèi)最大程度地不相關(guān),于是選取任意小區(qū)間中讓I(X,Y)達到極小值時對應(yīng)的τ值作為延遲時間。
嵌入維數(shù)m可以通過偽最近鄰點改進的Cao方法選取,如果m值選取的太小,混沌吸引子會產(chǎn)生堆疊甚至自相交,與原始吸引子在拓撲意義上相去甚遠;如果m值選取的太大,各種混沌不變量會相應(yīng)地增大計算復(fù)雜度,同時放大噪聲的影響,丟失部分原始混沌時間序列的幾何特性[12]。將m維中最近鄰點距離與m+1維進行比較:
在理想化的情況下,一維時間序列隨著嵌入維數(shù)m的增大,E(m+1)/E(m)總能在達到飽和后趨于平穩(wěn)從而得到最佳嵌入維數(shù)m的取值,然而在實際混沌時間序列下需要加入補充判斷準則E*(m):
混沌時間序列內(nèi)部相關(guān)性會使E*(m+1)/E*(m)隨嵌入維數(shù)m產(chǎn)生變化,便于確認是否達到飽和。
使用余弦距離的歐拉表示替代歐氏距離會涉及復(fù)數(shù)域,且在投影時加入了正交條件,故局部保持投影中求取目標函數(shù)最小值S(A)min及對應(yīng)投影方向矩陣應(yīng)作相應(yīng)改動:
約束條件為i≠j時
本文降噪算法流程如圖1所示。
由圖1可見,降噪算法具體步驟為:
步驟1將重構(gòu)的混沌時間序列m維相空間中向量映射到歐拉表示的復(fù)雜空間中去,記為。
步驟2利用式(1)及(6)求出權(quán)重矩陣W。
步驟3通過定義對角矩陣代入L=D-W計算拉普拉斯矩陣L。
步驟4選取矩陣最小特征a1值λ1所對應(yīng)的特征向量a1作為投影方向向量,迭代出矩陣再次從最小特征值λ2入手求出其特征向量a2作為投影方向向量[14,17],重復(fù)上述步驟,依次類推直至得出投影方向矩陣A。
步驟5完成嵌入yi=ATxi實現(xiàn)降維。
洛倫茲系統(tǒng)是典型的混沌動力學(xué)系統(tǒng),可用來仿真混沌時間序列進行降噪實驗[13],在加入高斯白噪聲后分別使用小波降噪、局部保持投影和本文算法實現(xiàn)降噪,通過比較分析時域波形、相空間軌跡及信噪比(ξSNR)來驗證降噪效果。
洛倫茲方程為:
分析圖2—圖5,通過對比時域波形與相空間軌跡可以看出:小波降噪使得含有噪聲的洛倫茲信號變得平整,相空間軌跡也在一定程度上得以修復(fù),高頻噪聲雖有消除,但仍舊含有部分低頻噪聲;使用局部保持投影進行降噪后,相空間整體流形結(jié)構(gòu)上修復(fù)較好,卻損失了原系統(tǒng)內(nèi)的非線性特性且沒能有效抑制高頻部分噪聲;本文算法降噪后相空間整體流形結(jié)構(gòu)基本上與原混沌動力學(xué)系統(tǒng)相符,非線性特性也有所保留,對低頻和高頻部分的噪聲均實現(xiàn)了有效抑制,緩和了局部保持投影線性降維過程中的過密集問題。
表1為不同降噪方法降噪效果對比。采用信噪比ξSNR及均方誤差σMSE2個指標來定量衡量3種算法降噪的效果。其中,信噪比反應(yīng)了消除噪聲還原有用信號的能力,信噪比越大有用信號相對噪聲強度來說占比越高;均方誤差表征了對原動力學(xué)系統(tǒng)流形的修復(fù)能力,均方誤差越小整體流形結(jié)構(gòu)越平穩(wěn)。由表1可見:小波降噪側(cè)重于消除高頻部分噪聲,對系統(tǒng)的流形結(jié)構(gòu)沒有較好的修復(fù)作用;局部保持投影在降維過程中剔除了高維空間中的噪聲,僅保留低維空間上的有用信號,可以有效平整混沌動力學(xué)系統(tǒng)的流形結(jié)構(gòu),卻無法抑制高頻部分噪聲,原系統(tǒng)內(nèi)的非線性特性也沒能保留,在ξSNR= 15 dB的環(huán)境中降噪表現(xiàn)甚至略遜于傳統(tǒng)的小波方法;而本文方法借鑒了核函數(shù)降維特點,對非線性特性加以保留,且通過新的距離定義分散臨近點投影,保持局部和全局的幾何特性,降噪效果在流形和頻域上均有提高。

表1 不同降噪方法降噪效果對比 Tab.1 Comparison of SNR values before and after noise reduction for different noise reduction methods
采用華能某電廠600 MW發(fā)電機組DCS監(jiān)測數(shù)據(jù)驗證算法的泛化性與有效性,選取不同工況測點數(shù)據(jù)(表2):工況1為機組負荷372.95 MW,主蒸汽溫度為538.11 ℃;工況2為機組負荷為 536.27 MW,主蒸汽壓力為25.71 MPa;工況3為機組負荷223.31 MW,小汽輪機A軸向位移0.06 mm;工況4為機組負荷468.18 MW,脹差3.96 mm。

表2 DCS采集監(jiān)測序列 Tab.2 DCS collecting and monitoring sequence
分別用小波降噪、局部保持投影和本文方法進行降噪處理,對比相空間二維相圖、低頻及高頻域降噪效果,選取混沌特性較為顯著的工況3測點時間序列信號降噪處理前后情況進行展示(圖6)。在相空間重構(gòu)階段由互信息法得出τ=4,Cao方法得出嵌入維數(shù)后向下取值得到最大整數(shù)m=6。在降維階段利用G-P法計算關(guān)聯(lián)維數(shù)直到下降變緩?fù)V沟罱K得出本征維數(shù)達到最佳降噪效果。
Lyapunov指數(shù)通常只需要簡化為計算最大Lyapunov指數(shù)就可以用來表征一個動力學(xué)系統(tǒng)的混沌特性,在對初值敏感的前提下,Lyapunov指數(shù)通過衡量相空間中運動軌跡的指數(shù)式離散描述混沌特性,混沌吸引子在此基礎(chǔ)上不斷折疊發(fā)散,形成復(fù)雜結(jié)構(gòu)。選取最大Lyapunov指數(shù)作為定量研究相空間混沌不變量的指標,其值為正數(shù)表示序列具有混沌性,其值越大,代表著混沌特性越強烈。圖7為DCS信號經(jīng)過不同方法降噪前后的最大Lyapunov指數(shù),圖8為工況3測點經(jīng)過不同方法降噪前后的頻譜圖,圖9為經(jīng)不同方法降噪前后的信噪比。由圖8可見,原始信號在低頻段內(nèi)15 Hz附近及36.4 Hz處有較為明顯的噪聲分布,高頻段內(nèi)212.9 Hz處存在噪聲分布。
對比3種方法降噪后的頻譜:小波降噪屬于帶通濾波,能過濾掉高頻噪聲,但對于低頻噪聲則效果微弱且會對有用信號產(chǎn)生抑制效果;而局部保持投影更注重對整體動力學(xué)流形結(jié)構(gòu)的修復(fù),有一定的去噪能力,但同樣對有用信號產(chǎn)生了負面的抑制效果,甚至未有效消除高頻段內(nèi)212.9 Hz處噪聲;本文方法不僅能消除高頻噪聲,還會在處理低頻噪聲時一定程度上保留更多的有用信號,這一結(jié)論也在圖9中對信噪比的定量計算得到印證。
局部放大圖6,觀察二維相圖整體流形結(jié)構(gòu)的平整程度和對原動力學(xué)系統(tǒng)的修復(fù)能力,結(jié)合圖7中通過最大Lyapunov指數(shù)定量對比的混沌特性(包括非線性、內(nèi)隨機性等),不難看出傳統(tǒng)的小波降噪幾乎不具備流形學(xué)上的修復(fù)能力;局部保持投影已經(jīng)能有效讓結(jié)構(gòu)雜亂無章的相空間一定程度上變得清晰平整,對原動力學(xué)系統(tǒng)流形結(jié)構(gòu)起到修復(fù)作用;而本文方法進一步讓相空間軌跡變得光滑,并保留了原本混沌時間監(jiān)測序列內(nèi)在特性(如非線性等)。整體而言,本文降噪方法在頻域及流形上,不僅能夠較好地修復(fù)相空間整體流形結(jié)構(gòu),使其變得清晰、平整、光滑,在過濾掉高、低頻噪聲的同時還能更多地保留有用信號及非線性特性。
對珠海某熱電公司磨煤機狀態(tài)分析時采用 長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)。選取數(shù)據(jù)樣本 103 680組,按照10折交叉驗證完成模型的訓(xùn)練與測試,直接使用原始數(shù)據(jù)D0、清洗工具箱處理數(shù)據(jù)D1及本文降噪算法處理數(shù)據(jù)D23種情況下以準確率及耗時作為指標評價。圖10和圖11分別為不同數(shù)據(jù)清洗方法時模型準確度和耗時對比。由圖10和圖11可見,增加數(shù)據(jù)清洗環(huán)節(jié)使訓(xùn)練的LSTM神經(jīng)網(wǎng)絡(luò)在預(yù)測準確率上有較顯著提升,本文降噪算法進行數(shù)據(jù)清洗又比通過清洗工具箱清洗數(shù)據(jù)得到神經(jīng)網(wǎng)絡(luò)模型準確度更高,模型運算速度更快。
本文在局部保持投影算法對DCS數(shù)據(jù)進行降維去噪的基礎(chǔ)上,采用余弦距離推導(dǎo)出歐拉表示替代歐氏距離,并在投影時加入正交條件,旨在借鑒核函數(shù)降維方法保留原始數(shù)據(jù)流形中的非線性特性,通過分散臨近點投影解決鄰域內(nèi)投影過密集問題,消除信息冗余。將本文算法與傳統(tǒng)小波降噪、局部保持投影進行對比分析,從流形和頻域兩方面驗證效果。仿真和實際應(yīng)用結(jié)果表明,本文算法能夠較好地修復(fù)相空間整體流形結(jié)構(gòu),還原混沌動力學(xué)系統(tǒng)的拓撲結(jié)構(gòu),對低頻和高頻部分的噪聲均實現(xiàn)了有效抑制且能夠保留原始信號非線性特性,從預(yù)測結(jié)果的準確率和耗時兩方面證明了本文降噪算法在數(shù)據(jù)清洗時的優(yōu)越性。