楊 晨
(中國鐵道科學(xué)研究院集團有限公司 電子計算技術(shù)研究所,北京100081)
故障管理是動車組運維檢修的重要環(huán)節(jié),隨著動車組數(shù)量的不斷增加,如何對故障數(shù)據(jù)進行有效運用,描述動車組及其部件的安全規(guī)律和服役狀態(tài)已成為重要的研究課題。同時,動車組健康管理、動車組修程修制優(yōu)化和動車組數(shù)字化精準維修等業(yè)務(wù)的開展,要求故障管理系統(tǒng)能夠快速、準確、及時地完成故障發(fā)生時相關(guān)信息的采集、處理和傳遞,全面提高故障分析水平[1]。
目前,運行于鐵路單位的故障管理系統(tǒng)包括動車組管理信息系統(tǒng)(EMIS,EMU Management Information System)、動車組車載信息無線傳輸系統(tǒng)(WTDS,Wireless Transmit Device System)、動車組運行故障動態(tài)圖像檢測系統(tǒng)(TEDS,Trouble of moving EMU Detection System)、動車組滾動軸承故障軌邊聲學(xué)診斷系統(tǒng)(TADS,Trackside Acoustic Detection System)及各單位自建的故障管理系統(tǒng)等[2-5]。其中,EMIS已基本實現(xiàn)了對多源故障的匯集,并對故障進行了有效地閉環(huán)管理,但其更側(cè)重于對故障處理結(jié)果的記錄,并未對故障相關(guān)數(shù)據(jù)進行全面運用,也無法對動車組及其部件的安全規(guī)律分析提供行之有效的決策支持。
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,尤其是大數(shù)據(jù)、人工智能和機器學(xué)習方面的發(fā)展,為積累的歷史故障數(shù)據(jù)帶來了新的利用價值[6-7]。可利用數(shù)據(jù)挖掘和分析技術(shù),為動車組健康管理及動車組修程修制優(yōu)化提
供切實可行的實施方向。基于此,本文依托動車組安全大數(shù)據(jù)平臺,以動車組故障管理為核心,對動車組運用檢修相關(guān)數(shù)據(jù)進行采集和存儲,設(shè)計了動車組安全規(guī)律分析系統(tǒng)的架構(gòu)和功能,提出了系統(tǒng)中采用的關(guān)鍵技術(shù)。系統(tǒng)的建設(shè)可以為動車組運維管理人員提供有效的管理工具和輔助決策支持。
本文從動車組海量運用、監(jiān)測及故障數(shù)據(jù)出發(fā),研究多源數(shù)據(jù)的傳輸、存儲、處理和分析技術(shù)。通過動車組安全規(guī)律分析系統(tǒng)的建設(shè),準確地描述動車組運行過程中各種因素對動車組及其部件的失效規(guī)律和服役狀態(tài)的影響,輔助動車組的運行、維護和費用控制等決策的制定,提高動車組數(shù)字化精準維修水平,促進動車組設(shè)計、制造和維修技術(shù)的改進。
動車組安全規(guī)律分析系統(tǒng)依托動車組安全大數(shù)據(jù)平臺,系統(tǒng)整體架構(gòu)分為數(shù)據(jù)源、平臺層、應(yīng)用層和用戶層,如圖1所示。

圖1 系統(tǒng)總體架構(gòu)
(1)數(shù)據(jù)源:負責提供動車組及其部件的故障信息。
(2)平臺層:主要完成對數(shù)據(jù)源產(chǎn)生的動車組故障、動態(tài)履歷、線路工務(wù)和檢測監(jiān)測等數(shù)據(jù)進行自動抽取、存儲和匯集,并利用大數(shù)據(jù)技術(shù)提供的即時檢索服務(wù)、實時數(shù)據(jù)分發(fā)和共享服務(wù),提升跨業(yè)務(wù)領(lǐng)域的數(shù)據(jù)挖掘能力,對海量的故障相關(guān)數(shù)據(jù)開展分析,為系統(tǒng)應(yīng)用提供數(shù)據(jù)支持。
(3)應(yīng)用層:對相關(guān)數(shù)據(jù)進行分析,為用戶層提供動車組安全規(guī)律,發(fā)現(xiàn)動車組運行中的薄弱環(huán)節(jié)。
(4)用戶層:通過動車組安全規(guī)律指導(dǎo)動車組安全生產(chǎn),提高動車組故障分析能力和安全管理水平。
系統(tǒng)綜合利用分布式存儲、分布式計算、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘等技術(shù),滿足多用戶、高并發(fā)和高可用的需求,集“易用性、伸縮性、開放性”于一體,同時,采用統(tǒng)一的應(yīng)用開發(fā)框架,定義標準的軟件開發(fā)測試規(guī)范、安全管理規(guī)范和運維規(guī)范,實現(xiàn)基于云化、分布式和服務(wù)化的技術(shù)架構(gòu),如圖2所示。

圖2 系統(tǒng)技術(shù)架構(gòu)
系統(tǒng)技術(shù)架構(gòu)自底向上劃分為基礎(chǔ)設(shè)施層、平臺層、接口層和前端展示層。
1.3.1基礎(chǔ)設(shè)施層
基礎(chǔ)設(shè)施層通過虛擬化資源池,對基礎(chǔ)計算、存儲、網(wǎng)絡(luò)資源進行池化和虛擬化,為上層應(yīng)用與服務(wù)提供統(tǒng)一硬件資源調(diào)度和監(jiān)控管理,支持按需分配與彈性擴展,并通過標準化接口向上層提供計算、存儲等基礎(chǔ)服務(wù),提高信息技術(shù)(IT,Information Technology)資源的易用性、敏捷性。通過服務(wù)器集群,實現(xiàn)海量數(shù)據(jù)的存儲與計算,緩解資源壓力,提升服務(wù)器整體性能。通過高穩(wěn)定、高帶寬的網(wǎng)絡(luò)鏈路,實現(xiàn)網(wǎng)絡(luò)資源的高吞吐、高可用、低延時。
1.3.2平臺層
(1)數(shù)據(jù)平臺層面向數(shù)據(jù)處理關(guān)鍵技術(shù),通過數(shù)據(jù)采集工具、分布式消息隊列、分布式文件系統(tǒng)、資源調(diào)度和平臺管理工具等多種手段,實現(xiàn)數(shù)據(jù)采集、數(shù)據(jù)抽取、數(shù)據(jù)存儲和數(shù)據(jù)分析挖掘;通過分布式協(xié)調(diào)調(diào)度服務(wù)實現(xiàn)數(shù)據(jù)平臺的高效、穩(wěn)定運行;通過可視化管理界面,為數(shù)據(jù)平臺核心組件及整體環(huán)境提供性能展示、配置和預(yù)警功能。
(2)集成平臺層通過關(guān)系型數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫、安全認證及報表組件等,提供服務(wù)運行環(huán)境與模型管理,實現(xiàn)中間件服務(wù),面向應(yīng)用開發(fā),提供安全可靠的平臺支撐。通過基于內(nèi)存鍵值對的分布式內(nèi)存數(shù)據(jù)庫查詢方法,實現(xiàn)對大規(guī)模并發(fā)、高速數(shù)據(jù)訪問計算、實時數(shù)據(jù)處理等方面的高性能快速響應(yīng);通過身份認證確認操作者身份和資源訪問權(quán)限;采用不同的數(shù)據(jù)加密策略實現(xiàn)數(shù)據(jù)安全保障;通過報表組件實現(xiàn)動車組故障統(tǒng)計分析功能。
1.3.3服務(wù)層
服務(wù)層通過統(tǒng)一認證、統(tǒng)一接口服務(wù)及數(shù)據(jù)集成服務(wù)等,實現(xiàn)前端應(yīng)用的服務(wù)集成。通過統(tǒng)一認證為用戶提供不同強度的安全認證手段和單點登錄門戶;通過統(tǒng)一接口服務(wù)實現(xiàn)負載均衡、緩存、日志、限流限額功能;通過數(shù)據(jù)集成服務(wù)對外提供標準、統(tǒng)一、規(guī)范的業(yè)務(wù)接口,實現(xiàn)應(yīng)用功能。
1.3.4前端展示層
前端采用基于HTML、CSS和JavaScript的Bootstrap框架,提供HTML與CSS規(guī)范,結(jié)合各類前端JS控件、報表控件,實現(xiàn)Web前端的簡潔、快速、高效開發(fā),面向用戶實際需要,提供可視化分析結(jié)果。
(1)動車組總體安全規(guī)律分析
以動車組運行故障數(shù)據(jù)為主,根據(jù)車型(批次)、走行公里、配屬、檢修歷史、故障發(fā)生時車組的高級修程、輪次、交路和區(qū)段等多個維度,建立不同維度動車組安全規(guī)律演化模型,對不同車型(批次)及系統(tǒng)進行基礎(chǔ)性安全規(guī)律分析。
(2)動車組慣性故障分析
慣性故障指動車組經(jīng)常性發(fā)生的故障,慣性故障的分析能夠發(fā)現(xiàn)故障頻發(fā)事件,通過更深入的分析,幫助查找設(shè)計、運用檢修過程中的缺陷和問題,有利于動車組技術(shù)的不斷優(yōu)化迭代。不同車型慣性故障字典不完全相同,但有“血緣關(guān)系”的動車組故障字典高度相似,針對動車組的慣性故障,描述并展示動車組慣性故障發(fā)生規(guī)律。
標志性事件指對動車組運用檢修產(chǎn)生較大影響的事件,如動車組提速、修程修制改革等,分別提取標志性事件發(fā)生前后的動車組故障數(shù)據(jù),從單位、車型(批次)等維度,對動車組發(fā)生標志性事件的前后進行安全規(guī)律的綜合對比分析,從數(shù)據(jù)分析結(jié)果反映該事件對動車組安全的影響。
高速鐵路具有地域跨度大、速度快、里程長和始末時間短等特點,不同線路條件、不同天氣均會對動車組故障產(chǎn)生影響。提取動車組開行、交路和天氣信息建立站站氣象信息庫,基于站站氣象信息庫對不同交路、不同城市、不同天氣環(huán)境因素對動車組各安全規(guī)律進行分析,主要包括基于線路的動車組安全規(guī)律分析、基于天氣(溫濕度、晴雨雪等)及多維環(huán)境因素的動車組安全規(guī)律分析。
針對故障數(shù)據(jù)及安全規(guī)律模型,對動車組及部件的運用檢修提出視情維修和預(yù)防性維修策略,達到降低維修成本的目的。
(1)動車組運用建議
針對運行數(shù)據(jù)、部件故障數(shù)據(jù)和部件更換數(shù)據(jù)等,分析動車組運用檢修內(nèi)容和運用開行需求,構(gòu)建運用方案優(yōu)化模型,輔助提升動車組運營品質(zhì),提出動車組運用建議。
(2)動車組精準維修建議
匯總?cè)穭榆嚱M及部件的故障歷史、檢修歷史情況,以車型、部件和檢修項目等為維度,考慮動車組維修時機、維修間隔及維修成本等要素,在保障車輛可靠性的同時降低維修費用,提高檢修效率,給出精準維修建議。
(3)動車組設(shè)計制造建議
發(fā)現(xiàn)批次、部件等設(shè)計和產(chǎn)品優(yōu)化改進功能點,及時反饋給動車組及零部件造修企業(yè)進行深入研究,從設(shè)計制造角度實現(xiàn)動車組的改進和創(chuàng)新,提升乘客體驗和動車組運營效率。
動車組安全規(guī)律分析需要采集大量故障數(shù)據(jù),包含圖片、聲音資源,而這些圖片和聲音的存儲多數(shù)是小文件,且大多數(shù)文件大小在幾十KB以內(nèi)。如果使用以GFS、HDFS為代表的適用于流式訪問大文件的分布式存儲系統(tǒng)存儲圖片,在元數(shù)據(jù)膨脹的情況下擴展性和性能方面均存在嚴重問題[8]。系統(tǒng)采用基于HDFS的Hbase作為簡單結(jié)構(gòu)化數(shù)據(jù)分布式存儲方式,用于存儲海量圖片小文件,并具有系統(tǒng)層小文件合并、全局命名空間等多種優(yōu)勢。
將各系統(tǒng)數(shù)據(jù)采集至大數(shù)據(jù)平臺后,需要將原始數(shù)據(jù)進行清洗、轉(zhuǎn)換,采用除噪、補缺失值和除冗余值的方法對數(shù)據(jù)進行預(yù)處理,并按照主題域存放各類數(shù)據(jù),形成可供分析的數(shù)據(jù)集。在動車組制造運用領(lǐng)域,需要針對設(shè)計、工藝、制造和維修等不同維度的需求對數(shù)據(jù)進行拆解。在動車組運維業(yè)務(wù)領(lǐng)域,主要包括基于功能分類的結(jié)構(gòu)和基于部件裝配的結(jié)構(gòu),兩者相互對應(yīng),可互相轉(zhuǎn)化。為便于數(shù)據(jù)使用,在數(shù)據(jù)處理過程中,應(yīng)為各類數(shù)據(jù)創(chuàng)建便于統(tǒng)計分析的各類索引。
在安全規(guī)律分析過程中,需要使用大數(shù)據(jù)機器學(xué)習技術(shù)對安全規(guī)律模型進行訓(xùn)練與驗證,動車組安全大數(shù)據(jù)平臺為各類算法、模型的開發(fā)和運行、海量數(shù)據(jù)的分析存儲提供環(huán)境支撐。在模型中采用了各種機器學(xué)習算法,如差分整合移動平均自回歸模型、決策樹、支持向量機和隨機森林等,并采用準確率、精確度和召回率等統(tǒng)計指標對模型結(jié)果進行驗證。
目前,動車組故障規(guī)律分析系統(tǒng)已經(jīng)研發(fā)完成,并以CRH380系列動車組為例,對CRH380系列動車組開行以來的數(shù)據(jù)進行特征提取與選擇、時間序列預(yù)測、關(guān)聯(lián)分析等,用可視化應(yīng)用功能實現(xiàn)、驗證、固化了各類安全規(guī)律分析成果,全方位地描述了CRH380動車組上線以來的安全服役狀態(tài)。CRH380系列動車組作為當前應(yīng)用最廣泛、運行地域最廣、涉及用戶單位最多、線路最多的動車組,其安全規(guī)律分析對于保證中國高鐵運營安全、降低運用維修成本、提高運用檢修效率等都具有重要意義。
本文依托動車組安全大數(shù)據(jù)平臺建立動車組安全規(guī)律分析系統(tǒng),并介紹了系統(tǒng)架構(gòu)、功能組成、關(guān)鍵技術(shù),同時以CRH380動車組為例開展驗證,取得了良好的效果。下一步,系統(tǒng)將擴大數(shù)據(jù)范圍,對動車組安全規(guī)律分析方法和預(yù)測模型在其他型號動車組和典型線路開展驗證和應(yīng)用工作,全面提升動車組安全管理水平。