李亞群,包云,韓霈然,楊建偉,陳中雷
(1.北京經緯信息技術有限公司,北京 100081;2.中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081;3.北京交通大學 交通運輸學院,北京 100044;4.中國鐵路北京局集團有限公司 工務部,北京 100860)
高速鐵路災害監測系統(簡稱:災害監測系統)實時監測鐵路沿線風、雪、雨等自然災害及異物侵限,當監測值超過報警預警閾值時進行報警和預警,發生異物侵限和地震報警時,進行緊急處置,保障列車運行安全[1-2]。災害監測系統為高速列車在災害性天氣和突發事件下的運行發揮了重要的安全技術保障作用。災害監測系統由現場監測設備和中心系統組成,現場監測設備包括風速風向計、雨量計、雪深計、數據傳輸單元等現場采集設備和監控單元,部署于鐵路沿線接觸網桿、基站等處所;中心系統包括信息處理平臺、監測業務終端、網絡設備、網絡安全設備,時間同步設備及其軟件等,部署于鐵路局機房。災害監測系統構成復雜,任何一個環節均可能導致系統故障的產生。
目前,已開展的高速鐵路災害監測故障、可靠性分析工作中,張翠兵[3]運用故障樹分析法對異物侵限監測子系統故障進行了分析;周紹華[4]重點對異物侵限監測子系統產生紅光帶故障處置措施進行了研究;劉巖、李曉宇等人[5-6]對災害監測系統可靠性進行了研究;王嬌嬌等人[7]對災害監測系統脫離監控故障數據進行了分析,并提出了改進措施與建議;周小明[8]對滬寧城際災害監測系統電源故障進行了分析;李亞群等人[9-10]對監控單元設備可靠性進行了試驗研究,并建立了時齊泊松過程模型對異物侵限監測系統可靠性進行了試驗。以上研究多是對災害監測系統故障、可靠性的分析,而關于災害監測系統故障診斷方法的研究尚不多見。開展災害監測系統故障診斷方法研究,可及時解決災害監測系統出現的問題,降低故障影響程度。目前,常用的故障診斷方法有回歸分析、神經網絡、支持向量機、隨機森林等算法[11-13],本文結合災害監測系統設備狀態及故障監測數據特點,采用隨機森林算法對災害監測系統進行故障診斷,輔助故障快速定位和處置。
災害監測系統是一個復雜的系統,設備管理涉及多個專業,包括工務、電務、信息等;設備類型多、環節多、管理部門多,一旦發生故障,排查困難,各部門協調工作量大,嚴重時會影響線路正常運行。災害監測系統設備管理分工,如圖1 所示。

圖1 高速鐵路災害監測系統設備管理分工
(1)信息專業設備有鐵路局集團公司中心系統軟/硬件設備,包括信息處理平臺、監測業務終端、網絡設備和網絡安全設備,時間同步設備等;
(2)信號專業設備有監控單元至信號機房之間的電纜、電務段監測維護終端及信號系統側的災害監測系統接口設備;
(3)通信專業設備有監控單元及配套網絡設備、現場采集設備至監控單元之間的光纜或電纜、災害監測系統專用配電箱、通信段監測維護終端等;
(4)工務專業設備有現場采集設備、工務段監測維護終端等;
(5)供電專業設備有監控單元端子排(不含)至變電系統之間的設備。
目前,災害監測系統對設備狀態監測的數據是離散的,監測設備是否正常工作一般采用0 或1 變量表示,因此,無法采用回歸分析方法開展對設備狀態的分析。本研究基于失效模式與影響分析(FMEA,Failure Mode and Effects Analysis)對設備故障數據進行分析,在此基礎上,研究設備故障診斷的方法。根據對災害監測系統故障的調研結果,構建了基于FMEA 的災害監測系統故障分析表,故障分析表包含12 類設備,45 種故障原因。以監控單元為例,基于FMEA 的監控單元故障分析,如圖2 所示。

圖2 基于FMEA 的設備監控單元故障分析
監控單元故障分為嚴重故障和一般故障。嚴重故障會導致監測點失效,需派人進行人工值守并安排天窗點維修,一般故障需等待天窗點維修。
本文采用隨機森林算法對災害監測系統進行設備故障診斷。其原理為:采用Bootstrap 重抽樣方法[14]從原始樣本中抽取多個樣本,對每一個樣本建立分類和回歸樹(CART,Classification And Regression Tree)(統稱:決策樹),將這些決策樹進行整合,構成隨機森林模型。基于隨機森林算法的災害監測系統故障診斷流程,如圖3 所示。

圖3 基于隨機森林算法的災害監測系統故障診斷流程
(1)對災害監測系統故障數據進行預處理,通過設備狀態、故障數據、故障表現和故障原因,結合故障分析表進行故障分析。其中,災害監測系統故障原因是決策類別,故障現象是特征屬性。
(2)通過Bootstrap 重抽樣方法抽取災害監測系統故障數據。采用訓練節點分裂規則對故障現象進行排序,得到各個節點的特征屬性;再根據特征屬性的不同值,從該節點向下分支,選擇最優決策樹(分支)個數,最終構成故障診斷隨機森林模型。
(3)采用構成的隨機森林模型對新的故障數據進行分類和診斷,得出故障原因,輔助設備管理部門快速定位故障。
本研究共收集到多條線路災害監測系統故障樣本403 條,將所有數據的70% 作為訓練集,其余30%作為測試集,采用python 編程語言構建基于隨機森林算法的災害監測系統故障診斷模型,同時,設計基于傳統決策樹(C4.5 決策樹)算法的災害監測系統故障診斷模型,將其作為對比方案。診斷結果,如表1 所示。由表1 可知,基于隨機森林算法的故障診斷效果明顯優于基于C4.5 決策樹算法的故障診斷效果,可減少人工排查設備故障的工作量,提高工作效率。

表1 故障綜合診斷結果
對災害監測系統具體構成部分進行故障診斷,以監控單元和風采集設備的故障診斷為例,獲得監控單元樣本225 條,故障原因10 種,故障表現13 類;風采集設備樣本59 條,故障原因11 種,故障表現4 類。對監控單元和風采集設備2 個數據集的分類器個數進行判斷,以監控單元的數據為例,基于訓練集構建的決策樹個數與判斷準確率關系,如圖4 所示,可以看出,最優決策樹棵數在10 以內達到最優的準確性,基于此,構建災害監測系統故障診斷隨機森林模型。

圖4 監控單元隨機森林決策樹個數與判斷準確率關系
對監控單元和風采集設備的基于隨機森林算法和基于C4.5 決策樹算法的故障診斷方法分別進行k折交叉驗證,即將全部樣本劃分成k個大小相等的樣本子集,依次遍歷這k個子集,每次把當前子集作為驗證集,其余所有樣本作為訓練集,進行模型的評估,評估結果如圖5 所示,從圖5 中可以看出,隨機森林算法的表現明顯優于C4.5 決策樹算法,診斷結果如表2 和表3 所示。

表2 監控單元故障診斷結果

表3 風采集設備故障診斷結果

圖5 監控單元和風采集設備故障診斷k 折交叉驗證結果
由表2、表3 可以看出,對災害監測系統構成局部設備故障的診斷效果優于對系統整體故障的診斷,原因在于災害監測系統故障成因和現象復雜,一個故障現象可能由多種原因導致,如災害監測系統脫離監控故障,可能是由網絡、硬件故障(電源、服務器、終端等)、軟件故障等多種原因導致[7];一個故障原因也可能出現多個故障現象,如風速風向計故障可能導致設備故障報警、監測終端無采集數據等;而風采集設備的故障及故障原因相對系統整體故障成因和現象較簡單。
針對災害監測系統故障診斷問題,構建了基于FMEA 的災害監測系統故障分析表;在此基礎上,提出了基于隨機森林算法的災害監測系統故障診斷方法。
(1)實際數據分析表明,基于隨機森林算法的災害監測系統故障診斷方法對系統故障的診斷準確率為67.3%,優于基于傳統決策樹的故障診斷準確率(48.5%);
(2)基于隨機森林算法的災害監測系統故障診斷方法對監控單元和風采集設備的診斷準確率為80.6%和86.7%,優于基于傳統決策樹的故障診斷準確率(48.2%和66.4%);
(3)基于隨機森林算法的災害監測系統故障診斷方法可有效提高災害監測系統設備故障診斷準確率,有助于災害監測系統設備故障的快速定位和處置,大幅減少人工排查設備故障的工作量,為災害監測系統的運營維護提供技術支持。