李漢漢
(廣東青創環境檢測有限公司,廣東 江門 529000)
水質自動監測儀可以實現水質的自動實時監測,檢測基本水質參數和各種重金屬的濃度,將連續的自動采樣技術與云技術相結合,將監測的水質結果自動回傳到云服務器,解決了人工采樣在采樣頻率和采樣強度方面進行實時監測的困難。但是水質自動檢測儀設備需要進行定期的故障檢測,以便維護設備的正常工作。
在設備的故障檢測研究過程中,有以傅里葉變換為代表的信號處理方式,通過提取時域特征來檢測設備出現故障的部件[1],但是只使用傅里葉變換的信號處理方式會出現信號損失等問題,進一步影響檢測的精度。韓金鵬[2]采用粒子群算法優化隨機森林,結合LightGBM(Light Gradient Boosting Machine)設計了一種故障檢測方法,主要運用了隨機森林用于特征選擇的思想。張建永[3]在物聯網環境系統中采用BP神經網絡,提出了一種物聯網系統故障診斷方案[4]。由以上的研究方法中可以得知,數據挖掘方式的故障檢測方案可以提高預測分類和故障分類的準確率,基于數據挖掘的故障監測方案逐漸成為研究的主流方向。
本方案將對振動數據進行分析,以識別故障部件。水質自動檢測儀的常見故障主要有:蠕動泵損壞、多通道閥漏液、光電計量器損壞、外接泵堵塞、高壓閥漏氣和測量室損壞。
在實際環境中,水質自動監測儀的數據可能會有一些雜亂的無效數據,或者有些數據丟失,這都會對診斷和預測模型的建立產生影響[5],因此收集到監測數據,需要進行預處理。本研究中使用的數據是由NREL提供的,共同目標是提高監測儀的總體可靠性。本研究中使用的監測儀額定功率為750 kW,數據在高頻(即40 kHz)下采樣,并在受控測試條件下記錄10 min。
首先,通過計算Jerk來確定振動對不同傳感器位置的影響?!癑erk”被定義為加速度的變化速率。數學上,Jerk近似表示如式(1)所示:
(1)
使用10 min過程中12 個振動傳感器數據的平均Jerk值,初始40 kHz數據的平均間隔超過15 s。對振動波形進行統計分析,計算了如RMS、CF和峰度(Ku)等指標。
從傳感器AN4獲得的數據在頻域內進行了分析,快速傅里葉變換(FFT)已被用來產生振動的頻譜。頻譜顯示位于給定頻率的振幅部分(以g表示),在高速軸上測量的基線光譜如圖1所示。
圖1展示了在36.45 Hz下的低能量(<0.035 g)成分,由于HSS包含高達20 kHz的光譜,因此只顯示低頻分量(即0~100 Hz),以更好地說明信號功率。

圖1 正常狀態的基線頻譜
圖2顯示了整個測試運行(第1~10 min)的功率譜趨勢,該功率譜在不斷增加,表明了故障的進展情況。

圖2 振幅的趨勢
基于可用的數據,開發了4 種場景。方案1稱為單參數預測模型,其中加速度值是目標輸出,而輸入參數包括歷史加速度值。在場景2 中,來自AN4 以外的傳感器的數據被用作輸入來預測AN4的加速度。場景3 和場景4 與場景1 和場景2 相同,除了Jerk是目標輸出。統計指標(即平均值、最大值、標準差、波峰因子、峰度、RMS、間隙因子)也被包含在輸入參數中,以預測目標輸出。為了降低數據集的維數,將初始高頻數據(即40 kHz)轉換為10 Hz的數據。對于每個模型,80%的數據點用于構建模型,然后在接下來的10%上進行測試,利用在測試數據集上證明最佳結果的算法對最后10%的數據進行預測。
采用不同的參數選擇算法來識別預測水質監測儀振動的相關參數,本方案選擇提升樹(Boosting Tree)、Relief Attribute(k=10)和子集評估器3種算法進行分析[6~8]。增強樹算法根據誤差的平方和生成參數排序,并在輸入參數的每次分割處計算,計算所有分割的誤差的平均平方和,具有最佳分割的參數值為1,以此類推。在提升樹算法中,參數的相對影響采用公式(2)進行計算:
(2)
符號AANi表示神經網絡預測加速度,而JANi表示神經網路預測Jerk,i是傳感器位置下標。對于單參數模型(即場景1和場景3),(t-k)表示目標輸出的歷史值,k表示時間指數。利用參數選擇算法生成的參數集,輸入參數包括目標輸出的存儲器參數和在AN4 以外的傳感器位置記錄的參數。針對場景1~4的數據的初始維度為60,使用參數選擇算法,將場景1、2、3和4的維數分別降至14、16、18和18。
由于各種傳感器之間的功能關系是未知的,因此對具有不同參數設置的多層感知器(MLP)進行了優化,以獲得4 種模型的最佳網絡。不同的神經網絡被用于訓練,而隱藏單元的數量在5~25 個之間變化。分析了隱藏節點和輸出節點的激活函數,即Tanh、指數節點、恒等式和邏輯節點。在本研究中,用了絕對誤差(AE)、平均絕對誤差(MAE)、相對誤差(RE)和平均相對誤差(MRE)等指標來選擇最佳的神經網絡,相關指標計算公式如下。

(3)
(4)
(5)
(6)
分析了神經網絡訓練算法,如梯度下降(GD)、共軛梯度(CG)和徑向基函數(RBF)。加速度數據(場景1)用于評估這些神經網絡訓練算法的性能。測試表明,相比于其他神經網絡算法,BFGS-NN(Broyden-Fletcher-Goldfarb-Shanno)算法與實際輸出具有更高的相關性[9~11]。
與GD、CG和RBF神經網絡等算法相比,BFGS神經網絡在MAE方面分別提高了17.39%、12.63%和17.7%。而在MRE方面,分別提高了16.6%、12.22%和17.00%。這就證明了使用BFGS作為神經網絡算法來構建模型的合理性[12]。
BFGS使用一種近似搜索方案來提高計算速度并實現全局收斂,它包括以下四個基本步驟:①設置搜索方向;②沿著搜索方向確定步長;③更新Hessian矩陣;④使用指定的標準檢查收斂速度。
通過改變神經元數量、隱藏激活函數和輸出激活函數,隨機選擇100 個神經網絡。所有100 個NNs都采用BFGS算法進行訓練、。該過程重復5 次,每次迭代時選擇最佳的NN,使用測試數據進行性能比較。在隱藏層和輸出層中具有Tanh函數的MLP14-5-1 最適合場景1。以Tanh為例的MLP16-18-1,Tanh作為隱藏激活函數,邏輯函數作為輸出激活,最適合場景2。對于基于Jerk數據的模型,以Tanh和指數函數分別為隱藏函數的MLP18-22-1 最適合場景3;而以指數和身份函數為隱藏和輸出激活的MLP18-22-1適用于場景4。
Jerk模型中的神經網絡比基于加速數據的模型產生更好的結果。這說明Jerk更適合于構建不同時間戳下的預測模型。在Jerk模型中,模型4的結果優于模型3,說明了其他傳感器在預測振動中的重要性[13]。
使用性能最好的神經網絡模型(MLP-18-22-1)進行預測,該模型使用來自傳感器位置AN1-AN3和AN5-AN12的數據來預測Jerk(由傳感器AN4測量)[14]。因為本研究中使用的數據記錄時間很短(例如,10 min),Jerk預測15 個時間戳,數據間隔為0.1 s采樣。MAE的范圍在0.021~0.345 之間,而MRE的范圍為5.21%~8.32%(圖3)。

圖3 不同時間戳的MAE值和MRE值
圖3顯示了15個時間戳的MAE和MRE值,MAE和MRE的值隨著時間的推移而增加。前期預測的結果離散度較小,而在后期的時間戳預測中,結果離散度較大[15]。圖3所示的結果表明,所提出的方法能夠準確預測對部件故障影響最大的Jerk值。
本文提出了一種識別和預測水質監測儀故障的方法。利用Jerk和加速數據,用數據挖掘算法生成模型?;趩蝹€傳感器(AN4)和多個傳感器(AN1-AN3和AN5-AN12)的數據,分析了4 種不同的模型,單個傳感器模型假設只安裝了一個傳感器,而多個傳感器模型預測了選定的傳動系位置的振動。使用Jerk數據開發的數據挖掘模型(場景3和4)比基于加速數據(場景1和2)生成的模型具有更好的精度,利用基于多個傳感器數據開發的模型(方案4)進行Jerk預測,使用BFGS學習方法的神經網絡的性能優于CG、GD和RBF等算法。BFGS神經網絡模型準確預測了不同時間間隔的Jerk,MAE在0.021~0.345范圍內,MRE在5.21%~8.32%范圍內。