朱 謹 石春華 王馥莉
(江蘇省徐州市水利局 徐州 221000)
基于特征統計量的城市排水泵站設備狀態監測算法研究
朱 謹 石春華 王馥莉
(江蘇省徐州市水利局 徐州 221000)
圍繞城市排水泵站設備健康狀態診斷問題,提出了基于特征統計量的設備狀態判決方法,通過計算設備運行噪聲的MFCC特征參數,計算出其均值和方差兩個統計量,形成一維的特征向量,利用短時模糊C均值聚類算法實現測試樣本狀態的匯聚與判別。由于僅存儲特征統計量,大大降低存儲樣本維數,提高了判決速度,為泵站設備運行狀態的在線監測提供了一種有效監測算法。
排水泵站 健康診斷 特征統計量 聚類算法
城市排水泵站是城市的基礎設施,也是污水處理的最前沿單位。隨著城市排水泵站數量不斷增加,如何使水泵最大限度發揮功效,延長水泵使用壽命,降低事后的維修保養費用,成為一個迫切需要考慮的問題。
基于支持向量機的泵站設備狀態監測方法,可以實現設備運行狀態的判決,達到了預期的分類效果。但是支持向量機在分類時是將所有特征參數作為輸入向量進行類型判決,運算量較大。尤其是隨著機器的運行,模式庫存儲的特征向量的維數急劇增加,增加了判決時間。本文圍繞城市排水泵站設備狀態監測問題,研究了城市排水泵站設備運行狀態判別方法,研究了基于特征統計量的設備狀態判決方法,通過計算的MFCC特征參數,計算出其均值和方差兩個統計量,形成一維的特征向量,利用短時模糊C均值聚類算法實現測試樣本狀態的匯聚與判別。由于僅存儲特征統計量,大大降低存儲樣本維數,提高了判決速度。
圖1所示為某泵站水泵運行聲音測試信號,根據水泵運行狀態,將測試信號進行分段處理。整段信號共分割為6小段,其對應類別為:x1—啟動,x2—平穩運行(高速),x3—平穩運行(高速),x4—變頻調速,x5—平穩運行(低速),x6—停機。其中平穩運行(高速)分為2段,因此屬于同一類,可以一段作為樣本(訓練)序列,一段作為測試序列,驗證算法的優劣性。在音頻信號以及分割后的6小段時域波形如圖1所示。圖中,橫坐標為時間,單位為s,縱坐標為測量信號幅值。在進行二元模式分類時,可以將x2、x3作為正常狀態信號,x1、x4、x5、x6作為故障狀態信號。
選取x1與x2作為訓練序列,其中x1為故障狀態,x2為正常狀態,計算其MFCC系數。2.1數據分幀
為了簡單起見,每256個數據分一幀,幀移為80,每幀計算一組MFCC數據,共24個,相當于每80個數據計算一組MFCC數據。實際分析時限定分析數據長度為30s,這樣約得到16531組MFCC系數。可以每5s給一個判據結果,相應系數為2750組。直接以MFCC系數作為測試樣本進行后續判別,由于樣本數巨大,運算復雜。
2.2 MFCC系數的樣本分布
在大樣本下,每一個MFCC系數分布滿足正態分布,并且正常與故障兩種狀態樣本分布情況具有明顯的異同,因此可以將其統計特性作為特征向量,作為下一步測試的基礎。
2.3 計算MFCC系數的矩陣和方差
計算每一個MFCC系數的均值與方差,這樣形成24個均值與24個方差,并將均值和方差組成一維的特征向量,其中均值在前,方差在后,正常與故障各組成一個向量。如:
X1=[μ1,…μ24,σ1,…σ24](故障向量)
X2=[μ'1,…μ'24,σ'1,…σ'24](正常向量)

圖1 某泵站水泵運行聲音測試信號及其分段圖
這樣,模式庫中存放的就是兩個一維的特征向量(或數組),而不再是16531組MFCC系數(以樣本長度30s計算),尤其是模式庫更新時,模式庫的長度也不再變化,后續計算量將大大降低。

圖2 基于模糊聚類的城市排水泵站設備狀態監測流程圖

圖3 不同測試序列的分類結果圖
短時模糊C均值聚類算法是在模糊C均值聚類算法(FuzzyC-meansAlgorithm,FCMA)上先對測量數據按幀分段,對每一分段信號選取特征參數進行空間映射,然后針對映射后的空間序列應用模糊C均值聚類算法進行模式分類。算法描述如下:
3.1 設備信息流分幀和特征參數空間映射
將測試時間序列按幀分段,對每一段先求MFCC系數,然后計算平均值和標準差,進行特征參數空間映射,形成一個由M個指標來描述的特征向量,即:

為了便于對指標數據進行分析比較,同時避免數據過小指標被淹沒,將各指標正則化,即:

這樣,便得到正規化矩陣X=(x'ij)N×M。正規化矩陣的每一行被看作分類對象在指標集上的模糊集合,即:

3.2 樣本集構建和參數初始化
構建測試樣本集 X={xl,x2,…xN},樣本數為 N,聚類數為C(2≤C≤N),迭代次數k=1。現在要將樣本集X劃分為C類,記為Xl,X2,…XC。選擇C個初始聚類中心,記為m1(k),m2(k)…mC(k)。
3.3 計算所有樣本與各聚類中心的距離,形成模態束定義目標函數

其中:U=[uji]為模糊分類矩陣;uji∈[0,1],為樣本xj對第i類樣本集的隸屬度;m∈[0,∞)是加權指數;dji=||xj-mi(k)||為樣本xj到第i類樣本中心的距離。J(U,V)表示了各個樣本到聚類中心的加權距離平方和,權重是樣本xj到第i類樣本隸屬度的m次方。
聚類準則是實現目標函數J(U,V)的最小值。為了求得最佳隸屬函數uji,構造拉格朗日函數L(λ,uji)

按最小距離原則將樣本xj進行聚類,若d(xj,ml(k)

3.4 更新模態束,重新計算聚類中心mi(k+1)

3.5 若存在i∈{l,2,…C},有mi(k+1)≠mi(k),則k=k+1,進入第(3)步,否則聚類結束。
基于模糊聚類的城市排水泵站設備狀態監測流程如圖2所示。
實際分析時限定分析數據長度為30s,以5s為單位進行分割,計算出一個特征向量,并與樣本庫進行對比,并給出一個判據結果。
圖3顯示了測試序列x3、x4、x5、x6的分類結果。由圖可見,每一種測試序列都實現了正確分類。
本文提出了一種基于特征統計量的設備狀態判決方法。通過計算的MFCC特征參數,計算出其均值和方差兩個統計量,形成一維的特征向量,利用短時模糊C均值聚類算法實現測試樣本狀態的匯聚與判別。由于僅存儲特征統計量,大大降低存儲樣本維數,提高了判決速度■