倪澤行 王琇峰 徐 波 李 睿
西安交通大學機械工程學院,西安,710049
隨著傳感器和測試技術的進步,現代監測與診斷系統在許多領域得到了迅速的發展[1]?,F代監測手段是通過建立傳感器網絡收集狀態監測信號以反映機械制造設備的運行狀況,但由于待監測設備數量大、設備測點多、采樣頻率高、設備服役周期長,運行狀況監測系統獲取了海量的監測數據,推動機械設備健康監測領域進入了“大數據”時代[2]。然而,由于環境變化、傳感器故障、人為干擾、電氣故障等原因,數據的準確性和完整性被嚴重削弱,從而使監測指標突變,造成系統“誤判”及維護策略制定不當[3]。因此,如何準確識別機械裝備運行過程中的劣質監測數據對提高機械裝備健康評估準確性具有重要意義。
機械裝備全壽命監測數據主要為設備正常狀態數據、設備退化數據、異常數據以及不能正常表征設備狀態的劣質數據[4]。設備的退化多滿足“浴盆曲線”,在設備正常階段,監測數據的統計特性較為一致,多呈現為平穩特性。然而,隨著設備出現退化,信號逐漸呈現為高階平穩,而劣質數據也多表現為非平穩特性[5]。為了有效區分劣質數據與設備的狀態數據,基于距離[6-7]、基于聚類[8-9]和基于統計特征[10]的異常數據檢測方法被大量研究。其中,基于統計特征的檢測方式因魯棒性好、計算效率高等優點而被廣泛接受。
基于統計特征的檢測方法主要是通過數據的分布特點進行閾值識別。DUDAR等[11]用正態分布對金融數據的異常點進行識別。SREEVIDYA[12]總結了基于統計的異常檢測技術在異常數據識別方面的應用,指出數據集的分布模型能識別概率較低的異常點。STEFANIAK等[13]選擇合適的數據分布和統計參數,進行多維數據分析,以確定有效的識別機器及其部件狀態的閾值。上述研究假設這些數據均滿足特定的分布,通常情況下,不同的監測趨勢數據分布是不確定的,而基于非參數化方法的異常檢測無需事先假設數據的統計模型,而是基于數據集本身統計特性確定數據分布特征。JABLONSKI等[4]對比分析了正態分布、威布爾分布、極值分布及核密度估計在氣體壓縮機監測過程中異常數據的識別能力,發現核密度估計在數據流異常時識別準確率最高。值得注意的是,核密度估計的精度主要取決于帶寬的選擇,不同的帶寬獲得的分布特點不同,其閾值也不同。
為了自適應選擇帶寬,李國慶等[14]采用漸進積分誤差法為擴散核函數選取自適應最優帶寬,提高了光伏出力模型的局部適應性。CHEN等[15]提出了自適應加權局部在線密度估計,實現核密度帶寬的自適應選擇。牛文鐵等[16]采用四叉樹算法實現了自適應帶寬核密度估計。上述方法為帶寬的自適應選擇提供了不同的思路,其核心都是通過不同優化算法得到最優的帶寬序列。然而,這些優化算法同樣存在先驗參數選擇問題。盡管優化算法給出了參數選取的經驗公式,但參數不合理同樣會導致估計偏差[17]。
本文針對上述問題提出了一種基于局部均值誤差最小的自適應核密度估計方法,并應用于旋轉機械劣質監測數據識別。該方法通過對監測時域信號的頻域積分后的峭度指標進行統計分析,根據局部均值誤差最小的準則優化帶寬,實現最優帶寬選擇,從而獲得最符合數據分布的概率密度曲線。最后根據95%的置信區間進行閾值選擇,并采用工程數據驗證所提方法的有效性。
旋轉機械監測劣質數據識別的核心是通過設置有效的閾值對不能正常表征設備退化的劣質數據進行識別。閾值設置對監測的影響如圖1所示。若閾值設定過高,則會將異常點判定為正常,造成劣質數據識別不全;若閾值過低,則容易將正常數據標記為異常樣本,造成監測的誤報。因此只有合理設定閾值,才能準確識別劣質數據。

圖1 閾值設置示意圖Fig.1 Schematic diagram of threshold setting
基于概率密度的劣質數據識別方法流程如圖2所示,主要步驟如下:
(1)根據現有的歷史監測數據,計算對劣質數據具有高敏感性的監測指標,最大限度實現劣質數據識別;
(2)根據上述計算所得指標獲得相應的統計分布規律;
(3)選用合適的分布函數對統計分布規律進行擬合,以分布函數的95%置信區間對應的邊界作為劣質數據判定閾值。若該監測指標超出閾值則認為該采集樣本數據為劣質數據,反之正常。

圖2 劣質數據識別策略Fig.2 Exceptional data identification policies
核密度估計基于非參數擬合方法,在數據分布先驗知識未知的情況下實現參數分布的最優擬合,構建數據分布模型。
核密度估計基于經驗密度函數提出,設X1,X2,…,Xn是數據集X中的樣本,x1,x2,…,xn是對應樣本的觀測值,則在數據對應的頻率分布直方圖中,滿足
(1)

頻率分布直方圖中,區間內的樣本數越多,對應區間的概率密度越大。
在經驗密度函數的基礎上構造以樣本觀測值x為中心、區間長度h為直徑的鄰域,用樣本觀測值落入鄰域的個數估計觀測值x對應的概率密度。設函數K(x)符合密度函數特性,即
(2)
則可以將函數K(x)稱為核函數,一般情況下選擇高斯分布函數。基于核函數構建觀測值分布的核密度可表示為
(3)
根據式(3),可以利用核密度函數對歷史已知數據觀測值分布特征進行擬合,從而獲得當前數據集觀測值分布模型。值得注意的是,不同帶寬h的選擇直接影響分布的擬合效果,h過大會使估計結果過于平滑,掩蓋數據結構,h過小會產生過多的數據噪聲[18]。通常情況下,我們希望的是數據密集點處采用小帶寬,而數據分布稀疏的地方采用大帶寬。
為了識別監測過程的異常數據,本文提出了一種基于自適應核概率密度估計的劣質監測數據識別方法。該方法通過對采集的機械信號進行指標計算,然后針對該指標進行核密度估計,最后將95%的置信度進行閾值劃分,從而進行異常指標識別。由圖3可知,具體步驟如下:
(1)根據監測的歷史樣本數據進行異常指標計算。針對旋轉機械常見的異常數據類型,如零點漂移、局部噪聲等,通過對信號進行頻域積分處理即可將突變特征轉變為沖擊特征,計算積分的峭度指標:

圖3 所提方法流程Fig.3 The flow of the proposed method

(4)

假設x(t)經傅里葉變換為A(ω),則
(5)
式中,Δf為頻率分辨率;H(ω)為開關函數,當fd<ωΔf (2)基于自適應高斯核密度估計的積分峭度指標統計分析。本方法采用高斯核密度函數: (6) 式中,s為監測指標序列的元素,s=Ki。 選擇不同帶寬優化整個觀察樣本間隔估計的擬合優度。用可變帶寬wt估計的峰值速率由下式給出: (7) 可變帶寬wt作為在局部間隔內優化的帶寬。在這種方法中,wt用于局部優化的區間長度調節函數的形狀,從而獲得最優的擬合優度。為了選擇用于局部優化的區間長度,在t時刻引入局部MISE準則: (8) 減去與w的選擇無關的項,引入t時刻的局部成本函數: (9) 為了實現自適應帶寬的選擇,引入了局部MISE進行不同帶寬的選擇,其估計成本函數為 (10) p,q=1,2,…,N (11) 式中,N為監測指標的數量,即采集的數據組數。 (12) 則考慮可變帶寬的損失函數可以描述為 (13) (3)根據步驟(2)獲得概率分布函數,計算95%置信度的邊界線作為異常數據的報警閾值。 下面通過車橋耐久試驗的全壽命數據對提出的方法進行分析及驗證。 車橋疲勞試驗臺如圖4所示,試驗臺有3個驅動電機,其中一端與車橋的輸入端相連,用于動力驅動,其他兩端與車橋的輪邊相連,用于負載。為了監測車橋傳動鏈的健康狀態,通常在橋殼及軸承座處添加振動加速度傳感器,傳感器為CTC公司的AC103。參照車橋坐標系建立測試系統坐標系,設定如下:Z軸沿車橋輸入軸軸向并平行于試驗臺面,X軸沿車橋輸入軸徑向并平行于臺面,Y軸垂直于X、Z軸。采樣頻率為3886 Hz,每2 min采集一組數據,每組采樣30 s。 圖4 車橋疲勞試驗臺Fig.4 Axle fatigue test bench 某次車橋耐久試驗的開箱結果如圖5所示,車橋輸入圓錐齒輪的齒頂處存在明顯的剝落。 圖5 圓錐齒輪剝落Fig.5 The peeling off of bevel gear 輸入端軸承座測點的振動加速度有效值監測趨勢如圖6所示??梢园l現,早期監測指標較為平穩,而368 min(第184組)數據出現拐點,指標明顯呈上升趨勢,其中在平穩階段出現了明顯的異常點。觀察該指標對應的原始信號發現,造成指標突變的主要原因是采集的數據質量缺失,主要表現為零點漂移及局部噪聲,如圖7所示。 圖6 監測趨勢Fig.6 Monitoring trends (a)零點漂移 (b)局部噪聲圖7 信號時域特征Fig.7 Time-domain characteristics of signals 采用本文提出的指標分別對劣質監測數據、正常數據及故障數據進行分析,結果如圖8所示。圖8中,頻域積分處理過的零點漂移及局部噪聲信號均表現為非平穩特性,時域信號中均出現明顯的局部沖擊;而正常及故障狀態的振動加速度信號經過頻域積分處理后仍表現出較好的循環平穩特性。經過頻域積分處理的峭度指標趨勢如圖9所示,正常數據及退化數據的峭度指標均在3左右,且較為集中。同時,存在9個數據點明顯偏離且與圖6識別的劣質數據相吻合。因此,提出的指標能夠較好地區分劣質數據與反映軸承狀態的數據。 (a)零點漂移 (b)局部噪聲 (c)正常信號 (d)故障信號圖8 頻域積分時域圖Fig.8 Time domain diagram of frequencydomain integration 圖9 頻域積分后的峭度指標趨勢圖Fig.9 Trend chart of frequency domain integralkurtosis index 為了自適應獲取劣質數據,采用統計學方法進行閾值選取。分別采用固定帶寬核密度估計及本文提出的可自適應帶寬核密度估計對指標進行統計分析,其中基于固定帶寬估計的帶寬為0.5。此外,對比分析采用基于四叉樹分割算法的自適應帶寬算法[16],分割的區域參數來自文獻[16]的經驗公式。采用95%置信區間進行閾值劃分。 圖10為不同方法對數據分布的估計結果。圖10a中,統計的峭度指標主要集中在2左右,3種方法在[5,25]區間的高斯核密度估計分布較為接近。而在[5,25]區間中,提出的方法估計結果與頻率分布直方圖的更為接近。固定帶寬估計方法無法兼顧不同稀疏程度的分布結果。相比于提出的方法,基于四叉樹分割的自適應帶寬的核密度估計在[5, 25]區間分布更為平滑,局部特性差,主要是由于其帶寬在該區間普遍大于提出的方法。由于峭度指標不小于0,下邊界為0,根據95%的置信區間制定上邊界閾值,如表1所示。 (a)概率密度分布 (b)帶寬 (c)累積概率圖10 不同方法對數據分布的統計Fig.10 Data distribution estimation of different methods 表1 閾值設定(95%置信區間) 根據表1給出的閾值設定,對原始數據頻域積分峭度進行異常組識別,識別結果如圖11所示。固定帶寬及提出的方法均能有效識別劣質數據,而基于四叉樹分割算法的核密度估計方法出現了一組漏判。值得注意的是,固定帶寬核密度估計方法確定閾值與退化數據較為接近,極易誤判。 圖11 原始數據識別結果Fig.11 Identification results of original data 圖12 軸承滾動體剝落Fig.12 Spalling of bearing rolling body 圖13 劣質數據識別結果Fig.13 Identification results of poor quality data 采用同一測試臺架,在相同測試工況下對相同型號的車橋進行振動狀態監測。該試驗的最終結果為軸承滾動體剝落,如圖12所示。采用上述方法對監測數據進行數據質量評估,通過峭度指標及信號時域分析,發現采集的658組數據中的5組存在明顯的質量問題。上述提出的閾值在劣質數據識別時的結果如圖13所示。圖13中,提出的方法準確識別了所有的劣質數據。固定帶寬的核密度估計方法識別的閾值過小,導致374組后出現大量的誤判問題。而基于四叉樹分割算法的自適應核密度估計方法出現了1組漏判,而漏判的值與閾值較為接近。結合圖10a可以發現,基于四叉樹分割的方法在[5,25]區間估計的概率密度較為平滑,與條形圖分布有所區別,推測分割區域參數選擇不合理是導致基于四叉樹分割算法出現漏判的原因[17]。采用混淆矩陣[19]的指標對結果進行評估,如圖14所示,自適應核密度估計方法均有較好的估計效果,且在同型號設備劣質數據識別中具有較好的泛化能力。 圖14 統計分析Fig.14 The statistical analysis (1)本文提出的頻域積分峭度指標對旋轉機械劣質監測數據具有較好的識別能力,尤其是對具有零點漂移的時序數據。 (2)提出了基于自適應帶寬核密度估計的異常監測數據識別方法。相比于固定帶寬的核密度估計以及基于四叉樹分割算法的自適應核密度估計算法,提出的方法能夠自適應地擬合監測指標的分布情況,采用95%置信區間能夠很好地識別異常數據,且對同型號設備的異常數據識別具有較好的泛化能力。 (3)本文提出的基于統計分布的閾值制定方法依賴于數據分布的完備性,后續將進一步深入分析研究。

3 試驗驗證
3.1 試驗條件及參數


3.2 指標提取








3.3 閾值制定





3.4 數據驗證



4 結論