基于多尺度特征提取的風機音頻信號故障診斷方法研究*

2023-02-13 05:58:20孫啟濤羅智孫魯納納

機電工程 2023年1期

關鍵詞：特征提取分類特征

孫啟濤,羅智孫,梁好,魯納納

(明陽智慧能源集團股份公司,廣東中山 528436)

0 引言

風能作為一種清潔的可再生能源,近幾年來發展尤為迅猛。風力發電機組作為將風能轉化為電能的重要工具,由于其本身結構的復雜性,發生故障的概率大大增加。

現階段,風電機組傳動鏈部件故障診斷技術主要是基于振動信號監測原理的方法,基于聲音信號的故障診斷應用相對較少。

振動監測傳感器需要在被測部件表面放置,對測點位置要求比較高,并且價格昂貴;相對來說,聲音信號的診斷方式具有非接觸、成本低的優點,是一種經濟實惠的信號采集方式,因此,進行基于音頻信號的故障診斷研究是非常有意義的。

目前,已有很多基于聲音信號的機械故障診斷研究。付國梓等人[1]提出了一種自適應噪聲的完全集合經驗模態分解方法,改善了集合經驗模態分解的模態混疊;為解決傳統多尺度熵中粗粒時間序列長度不一致和數據缺失的問題,提出了平滑粗粒化處理的改進多尺度熵,采用該方法可根據齒輪箱運行的聲音信號識別出故障。劉少康等人[2]提出了一種改進局部均值分解方法,將音頻信號的調頻調幅成分分離出來,并根據掩膜信號可抑制模態混疊的特點,采用二分法在幅值加權平均頻率的1～1.5倍范圍內搜索掩膜信號頻率,同時利用掩膜信號與局部均值分解方法多次結合的循環迭代方式,成功抑制了模態混疊現象,并診斷出了齒輪箱復合故障。蔣沁宇[3]針對在強高斯噪聲環境下,設備振聲信號的頻譜特征質量易受影響導致故障分類精度差的問題,研究了基于頻譜優化特征和支持向量機的故障分類算法,在基于低階矩譜故障特征和頻譜圖的基礎上,進一步提取了頻譜圖局部波動特征;利用區分度和魯棒性更強的設備故障特征,提高了在低信噪比條件下故障分類的精度。

上述方法在音頻信號模式分類領域雖取得了不錯的效果,但依然具有一定的局限性。如工程上風機傳動鏈大部件運行時噪音成分比較復雜,進行頻譜或包絡譜分析時,各類噪音頻率混雜在故障特征頻率范圍附近,不利于故障特征的提取;此外,在噪音音源和頻率未知的情況下,使用降噪算法進行降噪,其效果也極難度量,降噪效果太強必然會損失音頻中的故障特征信息,反之故障特征頻率又易被噪音頻率所掩蓋。

筆者提出一種基于多尺度特征提取的音頻信號故障診斷方法,即從時域、頻域和倒譜域等多個尺度對音頻信號進行特征提取,得到多維復合特征矩陣后進行一系列數據處理;然后，使用支持向量機分類預估器對其進行分類,并在此基礎上使用粒子群算法進行優化;最后，通過實驗,對該方法在風機傳動鏈部件音頻故障診斷與模式識別上的準確性進行驗證。

1 數據采集及預處理

數據是分析工作的基礎。在對音頻信號數據進行分析前,首先需確保采集到有效的數據。在采集過程中需做到統一標準,以減小各方面因素影響而產生的誤差。

音頻數據采集系統拓撲圖如圖1所示。

圖1 音頻數據采集系統拓撲圖

圖1中,音頻數據采集使用的是拾音器,為單通道采集,采樣頻率為48 kHz。

選擇風機傳動鏈各部件測點,固定好拾音器,拾音器通過適配器連接支持以太網供電的交換機,交換機給拾音器供電,并將各測點拾音器采集的聲音信號通過環網交換機傳輸到工控機,在工控機上使用采集軟件對采集信號進行解碼壓縮并存儲,得到一系列mp3文件。采集到風機音頻數據后,需要對雜亂的數據進行一系列的數據清洗工作,以便后續的特征提取。

筆者先將音頻mp3文件轉換為數字信號,為確保采集數據的有效性,對音頻數字信號提取均方根、裕度和峭度等時域指標,使用異常檢測算法對數據進行清洗,篩除異常數據,只保留有效數據;之后再對有效數據進行預處理。

預處理過程主要包括4個步驟,分別為:預加重、分幀、加窗和轉速匹配。其中,預加重處理主要是為了補償高頻分量的損失[4];分幀則是為了更方便地對音頻數據進行局部批量處理。分幀時,每幀信號需包含部件至少一個轉動周期,且幀移不能超過幀長的二分之一[5]。由于信號的非周期截斷,會導致頻譜在整個頻帶內發生嚴重的拖尾現象,導致非常嚴重的誤差,稱為泄漏[6],為了使分幀后的每幀信號依然滿足連續性,減少截斷效應的影響,需要將每幀數據都乘以一個窗函數,即加窗處理;通過分析矩形窗、漢明窗和漢寧窗3種窗函數的頻率響應幅度特性可知,漢明窗的主瓣最寬,旁瓣高度最低,能有效克服音頻頻域中的泄漏現象,具有更平滑的低通特性[7],因此筆者使用的是漢明窗。

在對音頻信號預加重、分幀和加窗后,需要將風機監控數據中的發電機轉速信息提取出來,按照采集的各個音頻的時間刻度標記每幀數據對應的發電機轉速,用于對局部音頻信號分析時根據發電機轉速篩選對應工況。同時,根據所采集風機對應部件狀態是否正常或故障,添加相應的狀態標簽,以便后續對數據進行分類訓練。

2 多尺度特征提取

在音頻識別領域,對于音頻的特征提取極為重要。根據聲音信號的特點,分別從時域、頻域、倒譜域等對其進行全方面、多尺度的特征提取,綜合進行分析,再對提取的特征進行降維,以便于篩選出有效特征,提升所建模型的分類性能。

2.1 時域特征

2.1.1 短時平均過零率

短時平均過零率是音頻時域信號分析中的一種特征參數,其數學意義是每幀信號通過零值的次數。它在區分清音和濁音信號時具有很好的效果:若過零率高,則代表清音,若過零率低,則是濁音[8]。

其計算公式如下:

(1)

式中：yi(n)—分幀后第i幀音頻第n個點的信號幅值，m；L—幀長；n—每幀的點序數；sgn—符號函數。

其中，sgn符號函數的定義為：

(2)

式中：x—音頻信號的振幅，m。

2.1.2 短時能量

短時能量是音頻信號強弱程度的度量參數，代表的是信號幅值的變換[9]。與短時平均過零率一樣，短時能量同樣可以用于區分清音和濁音，表征每幀信號能量大小隨時間的變化，是語音信號的一個重要時域特征。

其計算公式如下：

(3)

式中：E—短時能量，kg/s2；yi(n)—分幀后第i幀音頻信號；L—幀長；n—每幀的點序數。

2.2 頻域特征

短時功率譜密度是一種頻域內信號特征參數,它將時域信號轉換到頻域,定義為單位頻帶內的信號功率,直觀展示了信號方差與頻率的函數關系。因此,可借此分析出信號在哪些頻率范圍內數據的變化波動較大[10]。

2.3 倒譜域特征

2.3.1 梅爾倒譜系數

梅爾倒譜系數(Mel frequency cepstrum coefficient,MFCC)特征是一種感知頻域倒譜系數,它基于人類的聽覺機理,在Mel標度頻率域中從低頻到高頻按照臨界帶寬的大小由密到疏安排一組共H個三角帶通濾波器群組[11]。濾波器組的個數和臨界帶的個數需相近,一般取22～26,文中取H=24。

Mel標度頻域中的三角濾波器排列如圖2所示。

圖2 Mel標度頻率域中從密到疏的三角濾波器群組

筆者對輸入信號預處理后進行傅里葉變換,然后通過該濾波器群組,并計算每個濾波器組輸出的對數能量,再經過離散余弦變換即可求出MFCC系數。

MFCC特征計算公式如下:

(4)

式中：S—Mel濾波器能量，kg/s2；下標i—幀序數；h—Mel濾波器(共有H個)的序數；n—離散余弦變換后的譜線。

由于MFCC特征不依賴于信號的性質,對輸入信號不做任何的假設和限制,又利用了聽覺模型的研究成果[12]。因此,MFCC特征與基于聲道模型的LPCC特征相比具備更強的魯棒性,并且更加符合人耳的聽覺特性,當信噪比較低時仍然具有較強的識別能力[13]。

標準的MFCC倒譜系數只反映了音頻信號的靜態特性,為了獲取更多的信息,筆者對靜態特征求差分,得到了其動態特性,通過將動、靜態特征結合分析,有效提高對音頻信號的識別性能。

2.3.2 線性預測倒譜系數

線性預測倒譜系數(linear prediction cepstrum coe-fficient, LPCC)是線性預測系數在倒譜域的表示,線性預測編碼是一種很重要的編碼方法。

其原理是:根據音頻信號樣點間的相關性,使用過去的樣本點可預測現在或未來的樣本點,即一個音頻信號的抽樣能用過去若干個音頻信號抽樣的線性組合來逼近,并通過使實際音頻信號抽樣值和線性預測抽樣值之間的誤差在均方準則下達到最小值來求解預測系數[14]。該預測系數同樣也反映了音頻信號的特征,因此可用于音頻的模式識別。

2.4 多維復合特征矩陣

為了提高風機傳動鏈部件音頻識別故障的能力,筆者分別提取上述時域、頻域、倒譜域3個尺度的特征,并將特征參數組合成復合特征矩陣。

提取音頻的短時過零率作為特征矩陣的第1列,短時能量作為第2列,短時功率譜密度作為第3列;使用24個Mel三角濾波器,得到24列MFCC系數,并求其對應的一階差分參數作為動態特征,最后的MFCC特征共48列,作為復合特征矩陣的第4～51列;LPCC系數矩陣,共48列,作為特征矩陣的第52到99列,加上部件名稱和實時發電機轉速,多維復合特征矩陣共101列,其中,部件名稱和實時轉速只用于模型訓練前的數據篩選,并不參與模型的訓練。

2.5 特征分析及降維

由于基于多尺度特征提取的復合特征矩陣維度較高,必然會造成特征冗余問題。為確定所提取特征的有效性,筆者對各特征進行相關性分析,從而篩選出可區分出機組正常狀態和故障狀態的有用特征。通過相關性分析,得到4個較為明顯能區分機組正常和故障的特征,分別為短時過零率、短時能量、第7列MFCC系數和第10列LPCC系數。

筆者篩選發電機轉速在1 700 r/min～1 800 r/min區間范圍內的正常機組與故障機組的主軸測點的特征數據。

各特征分布的散點圖如圖3所示。

圖3 正常機組與故障機組各特征散點分布圖

由圖3中各子圖可觀察到:正常機組和故障機組提取的部分特征存在一定的差異,并且由圖3(d)子圖可觀察出,正常機組和故障機組的第10列LPCC系數值差異較為明顯,側面驗證了筆者所提取特征的有效性。

利用上述特征可實現對正常機組和故障機組的狀態劃分,為下一步音頻信號的數據分類、模式識別提供了可靠依據。

分析出部分正常與故障樣本數據差異性較強的特征后,需要對多維特征矩陣降維處理,以去除特征矩陣中的冗余特征。特征降維不僅可以提升分類的性能,還能盡量避免分類過程中的過擬合現象。

特征降維中使用最為廣泛的方法是主成分分析法(principal components analysis,PCA),筆者選用PCA法對音頻數據特征矩陣進行降維時,設定保留90%的信息,特征矩陣的維度從原有99列經重構后變為25列。

3 PSO-SVM分類預估器

在進行數據預處理、多尺度特征提取、特征降維后,筆者通過下文實驗過程對各類分類算法的粗略對比,選用支持向量機對數據進行分類,并建立其模型。基于多尺度特征提取的SVM預測模型即是把風機健康狀態問題轉化為對相關特征向量的分類問題,通過對風機每幀數據分類,并根據分類的結果最終評估出風機部件的狀態。

SVM是機器學習中的一種有監督的學習模型,經常被用于進行模式識別、分類(異常值檢測)以及回歸分析。由于它具有唯一的全局最優解和出色的學習能力,在解決小樣本、非線性、高維化等問題具備優良的性能,并且能滿足風機故障特征的隨機性、時變性、非線性等特點[15],在模式識別、聚類分析、機械故障預測、信號處理等領域得到了廣泛的應用。

SVM進行數據分類的基本思想[16]是:將采集得到的音頻信號數據映射到高維特征空間,構造一個超平面對數據進行分割,并在這個高維空間內進行最優化處理,尋找到間隔最大的超平面,從而達到最佳的分類效果。

SVM對于核函數參數的選擇非常敏感,為獲得適應度更佳的模型,需要對其參數(C,gamma)進行調整優化。C為懲罰系數,定義為對誤差的寬容度;gamma為核函數影響系數,表示單個樣本對于整個超平面的影響大小[17]。在優化參數C和gamma時,使用粒子群優化算法,尋求最優的粒子點作為SVM的C和gamma。

粒子群(PSO)算法是一種啟發式全局搜索算法,它從隨機解出發,利用適應度來評價解的質量,通過初始化一群隨機粒子,所有粒子具有位置和速度兩個屬性,每一次迭代過程中,粒子通過粒子本身尋求的最優解和整個種群當前尋找的最優解全局極值進行更新。

基于多尺度特征提取的PSO-SVM音頻故障診斷算法流程圖,如圖4所示。

圖4 基于多尺度特征提取的PSO-SVM算法流程圖

4 實驗及結果分析

為了驗證所提改進SVM算法在音頻數據分類上的性能,筆者使用上述音頻采集系統,對某風場兩臺2.0 MW雙饋式風電機組主軸音頻數據進行測量(其中一臺為正常,另一臺為主軸前軸承重度磨損,視為故障)。

風機主軸測點拾音器安裝位置如圖5所示。

圖5 風機內部主軸前后軸測點拾音器安裝位置

圖5中,筆者分別在風機主軸前后軸測點安裝拾音器,采集主軸音頻,結合兩測點音頻信號進行分析。

拾音器為網絡拾音器,采樣頻率設置為48 000 Hz,尺寸為85 mm×85 mm×24 mm,拾音范圍半徑為1.5 m,工作環境溫度為:-40 ℃～75 ℃,最大可采集聲壓為120 dB,滿足機艙內音頻采集的條件。

由于現場風機內部設備安裝較為分散,因此文中所使用采集裝置在實驗室內安裝圖如圖6所示。

圖6 實驗室內實驗裝置圖

圖6中,拾音器固定在被測部件表面,連接轉換器,轉換器再連接交換機并利用交換機對拾音器供電,同時使用穩壓電源對交換機進行供電,交換機主要安裝在機艙柜內;利用風機上下通訊光纖將交換機與工控機相連,在工控機上用采集軟件進行音頻的采集及存儲,工控機安裝在塔基柜內。

筆者按照上述流程進行預處理、特征提取和轉速篩選后,得到多維復合特征矩陣,經降維后對數據集采樣,抽取2 000幀數據訓練模型。其中,正負樣本比例為1 ∶1,訓練集與測試集比例為4 ∶1。

筆者首先分別使用現有幾種常用機器學習算法—如K近鄰(K-nearest neighbors,KNN)、高斯樸素貝葉斯(Gaussian naive Bayes,GNB)、決策樹(decisiontree,DT)與隨機森林(random forest,RF)進行模型的訓練,通過將這幾種算法的分類結果與支持向量機分類結果進行粗略對比,以驗證SVM分類預估器的性能。其中,SVM還使用了3種核函數進行分類效果對比,分別是線性核(linear kernel,LK)、高斯核(Gaussian kernel,GK)以及多項式核(polynomial kernel,PK)。

為保證對比的公平性,幾種算法的參數設置應該統一,即使用不同核函數進行SVM分類時選擇相同的懲罰系數C,決策樹與隨機森林的樹深應設置成相同的值。

各類機器學習算法分類性能對比如表1所示。

表1 各類機器學習算法分類性能的粗略對比

由表1的對比結果可知:各類機器學習算法中,在只考慮精度要求時,使用高斯核的支持向量機分類算法訓練的模型精度最高,其次是隨機森林法。

綜合考慮模型的精度和訓練所需要的時間,筆者使用高斯核非線性SVM預估器對音頻數據進行分類。

使用高斯核非線性SVM分類預估器對測試集400個樣本預測結果,如圖7所示。

圖7 高斯核非線性SVM分類預測效果圖

為驗證所提取的多尺度復合特征魯棒性強、不易受其他噪聲信號干擾的特點,筆者依然使用上述2 000幀數據,對該數據集添加不同類型的噪聲(分別為高斯噪聲、椒鹽噪聲和拉普拉斯噪聲),劃分數據集后,再使用SVM分類預估器,對加入不同噪聲后的數據集進行分類,并對比添加噪聲前后的分類情況。

添加不同噪聲前后預測結果如表2所示。

表2 添加噪聲前后預測精度對比

由表2可知:給復合特征矩陣添加各類不同噪聲信號干擾,SVM預估器分類的準確性會有所下降,但依然保持著較高的分類準確性,測試分類誤差下降的幅度低于5%。該結果從側面證實了筆者所提取的特征具備一定魯棒性,不易受噪音信號的干擾。

為了進一步提升SVM的分類精度,需要對模型進行調參。高斯核SVM需要調整的主要參數有懲罰系數C和核函數系數gamma。在進行參數調優時,由于根據經驗選取的參數具有一定的盲目性,使用暴力網格化搜索得到最優解的方法計算所需時間成本又相對較高,因此,筆者選擇PSO優化算法進行高斯核SVM預估器參數空間內的迭代尋優。

經PSO優化后與使用其他參數確定方法的對比如表3所示。

表3 不同SVM參數選擇方法比較

由表3可知:使用粒子群算法進行SVM的參數優化,相較于使用經驗參數的方法,模型分類的精度得到提升,可達到98%;與網格化暴力搜索相比,搜索到全局最優解的時間不足它的一半,在計算精度與計算性能達到了巧妙的平衡,摒棄了SVM參數選擇的盲目性,在綜合考慮模型分類精度與訓練時間的情況下具備一定優勢。

不同種群規模尋優性能對比如圖8所示。

圖8 不同種群規模的粒子群尋優迭代次數與精度關系圖

由圖8可知:通過設定合理的粒子群參數如種群規模等,尋優速度還能進一步得到提升,當種群規模為100時,迭代次數為17時,便搜索到了全局最優解。相比種群規模為50和150的情況,顯然優化性能更好。

為了驗證筆者所提基于多尺度特征提取的PSO-SVM風機音頻分類方法的泛化性能,除上述兩臺機組外,筆者再選取從不同風場采集的兩臺同型號機組的音頻主軸測點數據(其中一臺為正常機組,另一臺主軸有中等點蝕,視為故障機組)。

所選用4臺機組中,其中2臺故障機組的故障損傷狀態如圖9所示。

圖9 風機傳動鏈主軸部件故障損傷狀態圖

筆者將所采集的各個機組的音頻數據進行前文中預處理、轉速篩選、特征提取、特征降維等步驟,得到了機組的特征矩陣,使用其中同個風場采集兩臺機組數據抽樣提取了正、負樣本各1 000幀進行模型的訓練后,先使用同風場采集的用于模型訓練數據集之外的數據進行了模型的準確性校驗,再使用從不同風場采集到的正常及故障機組的數據集進行了泛化性能驗證,利用改進模型進行了預測,并根據預測結果,對各臺機組主軸部件的狀態進行了評估。

其中,風機1和風機2為用于模型訓練的機組,風機3和風機4為其他風場同型號機組采集數據。健康狀態評估的閾值設置在65%,在保證數據量足夠的情況下,正常數據占比若大于該閾值,則視為正常,小于該閾值則視為故障[18]。

模型預測效果及健康狀態評估結果如表4所示。

表4 模型預測效果及評估

由表4中結果可知:該分類預測模型對幾臺風機主軸部件的健康狀態評估結果與機組實際狀態吻合,并且風機2相對于風機4異常數據占比更大,而實際情況中風機2的故障相較于風機4也更為嚴重。

因此,通過該實驗進一步證實了所建分類模型的準確性與泛化性,并且若根據風機分類結果的異常數據占比來進行部件健康狀態程度的劃分,其結果也具備一定參考性。

5 結束語

在研究基于風機傳動鏈大部件音頻信號故障診斷方法過程中,筆者提出了一種基于多尺度特征提取的PSO-SVM故障診斷方法,即在對音頻信號進行預處理和數據清洗后,從時域、頻域、倒譜域等多尺度進行了特征提取,并利用所提取的特征矩陣,使用PSO-SVM分類預估器建模并對數據進行了分類,實現了風機傳動鏈大部件的故障診斷與狀態評估。

筆者通過使用多個風場的多臺風機采集的音頻數據進行了對照組實驗。研究結果表明:

(1)在對風機傳動鏈大部件音頻信號進行診斷時,基于PSO-SVM的分類算法具有分類精度高、適應度強的特點,并且具備一定泛化性能;

(2)對音頻信號進行多尺度特征提取,使特征矩陣不易受噪聲信號干擾,具有魯棒性強的優點。

在后續的研究工作中,筆者將重點研究各類仿生算法對SVM進行參數空間內的尋優效果,以期獲得更快的收斂速度和更好的分類性能,同時需要采集更多的故障樣本,并對故障類型進行進一步細分,以實現不同類型故障的精準定位。