高金山,李銀生
2016 年3 月,中國鐵路總公司(現國鐵集團)頒布了《高速鐵路接觸網運行維修規則》,規范了高速鐵路接觸網運行維修管理,明確了高速鐵路接觸網運行維修管理、修程修制、機構設置與職責、技術質量管理等相關要求,規定了高速鐵路接觸網運行管理、檢測與診斷分析、質量評價與鑒定、設備狀態界定和維修等應遵循的相關管理和技術標準等。目前,高速鐵路接觸網檢修是通過檢測監測手段發現接觸網系統實際運行狀態出現的不允許偏差或故障后對其進行必要修復,恢復正常功能,以及通過精確檢測、調整修理,恢復設備標準狀態。本質上,這種維修策略依然是狀態檢測、故障維修的方法,并不能提前預測故障何時發生,仍不是真正意義上的基于接觸網運行過程數據的預防性維修。因此,在保證接觸網安全性的前提下,運用故障預測方法預先發現接觸網故障征兆,進而實現接觸網的狀態維修,達到科學合理的健康管理目的,這無疑對接觸網維修具有更加重要的意義,從而為高速鐵路的安全可靠運行提供保障。
20 世紀末,故障預測、健康管理、視情維修等技術率先在航空航天、武器裝備、電子產品等領域得到應用,如電子產品機上測試(BIT)、發動機健康監控(EHM)、結構健康監控(SHM)等。近年來,將這一理論與技術統稱為故障預測與健康管理(Prognostics and Health Management,PHM),即利用先進傳感器的集成,并借助多種算法和智能模型來預測、監控和管理系統的健康狀態,使系統通過診斷自身的健康狀況,在事故發生前預測故障,并給出最佳維修策略。在高速鐵路供電系統中應用PHM 技術的意義在于可以提高供電設備的可靠性、安全性和可維護性,全面降低供電系統全壽命周期成本[1]。
鐵路供電故障預測與健康管理(PHM)系統是以大數據技術為核心,以供電管理信息系統、6C數據中心數據、SCADA 系統為支撐,按照國鐵集團-鐵路局-供電段三級管理架構進行設計和建設的供電設備大數據分析管理平臺[2~4]。運用分布式挖掘和深度學習技術從數據中抽取健康特征,分域分段評估牽引供電系統的服役狀態并預測其變化趨勢,給出對應的維修策略[5];通過對典型零部件性態的長期跟蹤,實現供電設備零部件的故障預測及剩余壽命估計,最終形成一套從系統到零部件的鐵路供電系統閉環健康管理體系[6~8]。
鐵路供電故障預測與健康管理系統平臺的主要設計原則:
(1)整體性。牽引供電設備故障預測與健康管理(PHM)系統以鐵路局為基本建設單位,整體部署、統籌規劃、分步實施。
(2)規范性。系統設計應符合鐵路行業和信息化建設的國際國內標準,內部模塊間接口和對外接口設計均應遵循標準化和規范化原則。
(3)擴展性。系統能夠根據高速鐵路建設的發展,方便靈活地進行擴展,全面兼容并方便地與其他相關系統進行互聯互通、信息共享。
(4)可靠性。無論是軟、硬件配置,還是產品的性能,系統均滿足高可靠性、高安全性的要求。
(5)可維護性。系統具備高可維護性,降低維護難度和維護成本。
(6)安全性。既考慮信息資源的充分共享,也考慮信息的保護和隔離;在各個層次對訪問進行控制,設置嚴格的操作權限;充分利用日志系統、健全的備份和恢復策略增強系統的安全性。
根據鐵路供電設施生產運行維修管理的業務需求,結合目前國內外故障預測與健康管理技術發展情況,鐵路供電設備故障預測與健康管理系統充分利用信息技術的最新發展成果,設計系統技術框架,構建鐵路供電設備故障預測與健康管理大數據平臺技術體系。
鐵路供電故障預測與健康管理系統架構如圖1所示。

圖1 鐵路供電故障預測與健康管理(PHM)系統架構
鐵路供電故障預測與健康管理系統技術體系自下而上主要由5 個層級構成:
(1)基礎設施層。包含存儲資源、計算資源、網絡資源、安全資源等,主要提供基礎服務。
(2)云平臺層。云平臺層主要基于私有云平臺(OpenStack),包含主機管理、集群管理、存儲、監控、網絡等資源,主要提供云服務。
(3)大數據基礎平臺層。主要為接觸網運營維護的海量數據處理提供支撐,自下而上分為數據采集整合層、數據存儲層、數據計算層和數據分析層。數據采集整合層包含實時數據、分布式消息隊列、數據/服務總線Kafka、數據抽取工具Kettle、定制數據抽取Flume-Agent、文件上傳SFTP Over FastDFS、日志文件匯聚Flume 等數據采集整合工具;數據存儲層包含分布式數據庫MongoDB、分布式文件系統 FastDFS、全文檢索系統 Elastic Search 等存儲系統,主要提供非結構化數據、結構化數據的存儲;數據計算層包含流計算 Flink Streaming、批量計算Fline SQL 等計算平臺,主要提供分布式計算引擎;數據分析層包含基礎算法庫、機器學習算法庫、分析模型、挖掘建模設計工具(Python 語言/API、Flink ML)等分析挖掘模型、分析挖掘算法、分析挖掘工具。
(4)平臺服務層。包含計算(即席查詢、高并發數據檢索)、分析(機器學習挖掘、實時數據、時間窗口統計、數據分布、統計探索、離線統計分析)、展現(數據可視化、GIS 展現)等應用服務。
(5)業務應用層。包含接觸網故障預測與健康管理系統和變電故障預測與健康管理系統。
2.2.1 云計算與大數據技術
接觸網智能運行健康管理系統的基礎設施層主要包括為其提供計算能力、存儲能力和網絡交互能力的各種物理設備,可通過云計算技術將基礎設施整合到統一的資源池中,為接觸網PHM 系統和牽引變電PHM 系統提供超大規模的計算能力和高可靠性的業務保障。同時,云計算技術支持的高可擴展性也可根據接觸網PHM 系統和牽引變電PHM 系統的實際需求進行動態伸縮,節省用戶投資。基于云計算技術的接觸網信息化系統基礎設施體系如圖2 所示。

圖2 基于云計算技術的接觸網信息化系統基礎設施體系
大數據技術主要為鐵路供電生產運行的海量數據處理提供軟件平臺支持,提供數據預處理(數據的辨析、抽取、清洗)、數據存儲及管理(標稱、序數和量化數據的集中或分布式存儲和管理)、數據分析及挖掘(關聯分析、統計分析、貝葉斯網絡和馬爾科夫決策)、數據呈現(圖表可視化、三維顯示)等大數據處理和分析功能接口,為PHM 應用功能提供數據分析的底層處理能力。基于大數據技術的鐵路供電數據處理支撐體系如圖3 所示。

圖3 基于大數據技術的鐵路供電數據處理支撐體系
2.2.2 復雜數據的編碼
數據編碼是計算機處理的關鍵。由于計算機處理的數據信息十分龐雜,為了便于使用和記憶,通常需對加工處理的對象進行編碼,用一個編碼符號代表一條信息或一串數據。對數據進行編碼在計算機的管理中非常重要,可以方便地進行信息分類、校核、合計、檢索等操作。通過數據編碼實現對整個系統數據的統一定義,建議建立標準編碼體系,為大數據分析和決策提供支持。
2.2.3 大數據GIS 技術
接觸網生產運維過程中產生的大數據采用傳統GIS 無法直接管理和分析,需基于IT 大數據技術通過復雜的編程才能實現,無疑增加了分析和挖掘的難度。在GIS 平臺軟件里增加對帶位置信息的大數據進行存儲、索引、管理和分析的功能,降低了大數據空間分析難度,使用戶免于編程或較少編程,即可以管理和分析空間大數據,這就是大數據GIS 技術,如圖4 所示。

圖4 大數據GIS 技術框架
大數據GIS 技術是對空間大數據進行包括存儲、索引、管理、分析和可視化在內的一系列技術的總稱,而不是只解決某個環節的問題。
2.2.4 應用功能可視化呈現支持
鐵路供電故障預測與健康管理系統的最終目的是提供高效便捷的運維管理工具,因此在系統的功能設計上應綜合考慮使用者對接觸網和變電設施的管理需求。
本方案利用可視化技術綜合呈現牽引供電各類設備運行態勢,以及維護管理體系的管理狀態。系統利用儀表盤、圖表、線路拓撲等形式,體現設備的各類運行指標、故障預測告警以及設備的健康狀況,使用者可快速準確了解管理對象的即時狀態,實現對整個牽引供電系統的宏觀監視,同時通過多種方式提供靈活方便的細節數據查看、查詢手段,對各類技術指標和管理數據進行查詢和統計;系統還應提供與郵件系統、短信功能的接口,以方便將管理信息實時推送給相關運維人員。
另外,鐵路供電故障預測與健康管理平臺提供強大的需求定制特性,支持運維人員根據變化的需求定制特定管理應用和監控視圖,滿足運維人員的個性化管理需求。
3.1.1 健康指標綜合評價
接觸網系統可信性是可靠性、可用性和可維修性的統稱,是在役接觸網系統的長期工作特性,其直接決定著接觸網系統的運行質量,因此定義可靠性、可用性、可維修性為接觸網系統評價的一級指標,在一級指標下再分別定義各自的二級指標。
健康指標綜合評價針對接觸網系統當前服役狀態,綜合考慮質量評價、質量鑒定、系統可用性、系統可維修性等二級指標,評估接觸網系統狀態,判斷在役接觸網狀態所處等級,即健康狀態、功能降低狀態、不能工作狀態。
3.1.2 缺陷變化規律分析
缺陷變化規律分析是在指定的線路內,不同的運行工況與環境參數條件下,分析接觸網系統表征參數異常、零部件及設備故障等缺陷統計量隨時間變化的規律,運維部門通過揭示的規律,有針對性地安排臨時修、綜合修等維修層次上的維修活動,明確重點關注的維修單元。
3.1.3 故障預測
通過對檢測監測數據、故障數據、運行工況與外部環境等歷史數據的挖掘分析,揭示接觸網系統表征參數異常、零部件故障及原因、運行工況等因果關系,揭示零部件故障發生、傳播、影響規律。在限定的時間區間內,根據運行工況、外部環境以及已發現的零部件故障或參數異常等信息,推斷所關注的設備及零部件發生故障的概率,然后根據預測的概率大小并考慮故障引發弓網事故的可能性,明確特定范圍內預防性維修時的檢查重點。
3.1.4 維修前剩余時間估計
根據接觸網綜合修維修周期內接觸網系統可靠性、可用性以及臨時修等信息,估計系統健康狀態、功能降低狀態(如亞健康、輕度病態、中度病態等)的駐留時間,預測接觸網系統維修前剩余時間,即接觸網系統處于當前可用狀態至系統必須進行維修時的總工作持續時間,使運營管理部門可根據估計的維修前剩余時間調整維修策略。
3.1.5 維修決策
系統能夠根據分析功能提供的結果,給出應用的維修層次、維修活動、維修單元,自動形成綜合修、精測精修的修前評估和修后評價報告。
3.2.1 設備健康綜合評價
牽引變電健康評估是對供電設備及牽引變電所、分區所、開閉所、AT 所設備當前服役狀態進行衡量。健康評估功能針對的主要供電設備包括牽引變壓器、斷路器、開關柜、隔離開關、避雷器等。通過對能夠反映設備健康狀態的性能指標進行加權求和,得到設備的健康分值;同時,對變電所內不同設備的健康分值進行加權求和,得到變電所的健康分值。健康分值反映設備的健康狀態,設備及變電所健康狀態可分為正常、注意、異常、嚴重異常和失效5 個等級。健康評估可按固定周期自動評估,也可人為手動觸發評估,系統能給出健康狀態變化趨勢,并對歷史健康評估結果進行統計分析。
3.2.2 故障診斷及故障預警
故障診斷功能的主要對象包括牽引變壓器、斷路器、開關柜、隔離開關、避雷器等。通過分析、處理各供電設備在線監測數據、離線檢測數據,利用智能算法或專家診斷系統判斷設備當前的故障類型和(或)故障位置和(或)故障時間和(或)故障原因等。同時,故障診斷功能可根據變電所內各保護動作信息、斷路器分合狀態,利用先進推理模型,判斷牽引供電系統的故障設備。故障診斷可按固定周期自動診斷,也可人為手動觸發診斷,能對歷史故障診斷結果進行統計分析,統計每類故障類型的占比、發生次數、發生時間等,并計算各供電設備的故障率、平均無故障時間等指標。
故障預警功能的主要對象包括牽引變壓器、斷路器、開關柜、隔離開關、避雷器等。綜合供電設備在線監測數據和離線檢測數據的變化情況,分析設備狀態變化趨勢,在設備故障的潛伏期或早期及時發現故障隱患,識別可能的故障類型及嚴重程度;綜合判斷故障發展變化趨勢,在故障后果表現之前及時進行故障預警。故障預警可按固定周期自動進行預警計算,也可人為手動觸發預警計算,并將歷史故障預警結果與供電設備實際狀態進行對比分析。
3.2.3 設備剩余可運行時間預測
綜合考慮設備性能衰退、服役環境、人為維修活動等因素,并利用供電設備在線監測數據、離線檢測數據以及歷史故障與檢修信息,對設備的可靠性及風險進行分析評估,得到供電設備及變電所的相關可靠性指標及風險指標。設備的可靠性指標表征設備的可靠運行性能,風險評估指標表征設備故障后果造成的損失嚴重程度。通過給出可靠性指標及風險指標的變化趨勢并結合歷史評估結果進行統計分析,實現剩余可運行時間預測。
3.2.4 維修決策
根據設備當前的健康狀態,以全壽命周期內檢修成本最低和系統整體可靠性最高為優化目標,通過優化綜合檢修周期和維修方式獲得最優維修方案。優化調整綜合檢修周期、維修方式、人員配備、計劃維修次數等,從而減少維修人力、費用,減少計劃性檢查,降低故障率,提高系統可靠性。
為保障高速鐵路安全、可靠、高效運營,提出鐵路供電故障預測與健康管理大數據平臺方案,涵蓋針對高速鐵路接觸網和牽引變電所的PHM 技術方案,在多時空尺度上分別實現對接觸網和變電設備的故障預測,健康管理,全生命周期可靠性、可用性和可維修性的可視化分析、風險評估,以及維修決策優化。該平臺以業務流程梳理為基礎,以健康管理需求為中心,以標準規范建設為前提,運用移動計算、大數據、數據編碼、可視化等技術,構建技術先進、體系完整、業務規范、流程合理的鐵路供電故障預測和健康管理系統,實現運維方案最優化、運維管理一體化、決策科學化、運行安全化,從而為確保高速鐵路運行安全和提高運營管理水平提供強有力的技術支撐與保障。