楊懷志,吳艷華,程智博
(1.京滬高速鐵路股份有限公司,北京 100038;2.中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081)
工務設備是鐵路運輸的基礎,其狀態直接關系鐵路運輸的安全與效率。隨著我國高速鐵路(簡稱:高鐵)運營里程不斷增長,運輸部門對工務設備的檢測、維修、養護、安全管理提出更高的要求。高鐵工務專業已積累海量設備相關狀態數據,利用大數據技術搭建高鐵數據資產匯集平臺,從高速鐵路公司戰略決策和管理角度出發,統籌工務專業需求開展大數據應用,挖掘鐵路業務數據隱藏關系及規律,為支持高速鐵路設備精細化管理和企業高效化運營提供強有力的技術手段[1];從各級站段及工區維修及管理角度出發,提出匯集工務設備屬性、檢查數據、維修動態、歷史情況、實時狀態等相關信息并進行綜合分析,科學合理地制定維修及實施計劃,指導工務設備維修管理工作,輔助落實科學修、準確修、精確修理念。
近10年來,大數據技術在歐美國家鐵路得到了較為廣泛的應用,主要應用領域為設施設備的狀態監測與維護,運營管理、乘務運用等方面也得到了一定的應用。德國鐵路通過規劃建設統一的數據中心平臺,實現了對經營狀況、設備故障分析等精益分析功能在內的數據綜合應用平臺[2];美國貨運鐵路啟動了“資產健康戰略計劃”(AHSI,Asset Health Strategic Initiative),AHSI擬編輯和分析由各個鐵路公司分別收集和存儲的大量數據,并由此解決行業內最關鍵的鐵路設備管理與維護問題[3];瑞典鐵路大量獲取軌道狀態檢測數據,以評估基礎設施的整體狀態[4]。通過借鑒國外大數據應用經驗,結合我國鐵路工務設備需求,建立基于鐵路數據服務平臺的資產匯集平臺[5],將工務相關結構化及非結構化數據全面匯集,提出工務大數據應用總體框架,并研究關鍵技術,根據實際需求開展典型應用,對于實現設備健康狀態評估、故障預測及維修決策等功能具有重要意義。
隨著大數據時代的到來,數據已逐漸成為企業和公司的核心資產。高速鐵路公司雖然工務專業數據資源豐富,但大多數據存在來源不同、形式不同且雜亂無章等問題,并且包括結構化數據和非結構化數據。該部分數據尚未被有序地整合,也未按照統一的標準化規范和流程進行數據關聯、清洗、處理等,某些數據甚至從未被應用過,反而增加存儲、服務器等成本。
以京滬高速鐵路工務設備數據為例,可歸納為如下幾類:
(1)動態檢測數據:包括動檢數據、車載式線路檢查儀數據、便攜式線路檢查儀數據;
(2)靜態檢查及維修數據:人工檢查記錄、檢修計劃落實、軌檢小車、鋼軌淺表層病害分析等數據;
(3)監測數據:精測網與變形監測數據、鋼軌探傷數據、橋梁PHM數據、軌道精調、單點監測數據、二型板和軌道結構監測數據等;
(3)問題庫:設備病害庫(動態、靜態)數據、周邊問題巡查庫數據;
(4)臺賬及履歷:更改大修數據、基礎設施臺賬、裝備和備品備件進出庫記錄等;
(5)規章標準:國家標準、行業標準、標準性技術文件、作業方案及作業指導書等。
將以上類別數據,結合現有信息系統及相關數據管理現狀,具體描述如表1所示。

表1 京滬高鐵工務設備數據現狀
通過大數據手段掌握高速鐵路全線構筑物和設備的狀態,及時分析發現可能出現的問題,保證線路設備條件處于最佳狀態,持續保持運營期管理技術的領先水平,已成為高速鐵路運營管理中亟待解決的關鍵問題。根據各專業業務需要,整合各系統資源及數據,同時開展大數據綜合應用分析,推進高速鐵路運維決策支持系統研究,實現設備健康狀態評估、故障預測及維修決策等功能具有重要意義。在高速鐵路工務數據管理現狀下,分析高速鐵路工務大數據應用需求如下:
(1)高鐵示范站段及下屬車間調研數據的需求。了解工務設備維修管理相關數據應用與管理現狀,調研現有主要數據存儲位置(站段/車間)、管理單位、管理方式、更新周期、使用情況等,分析數據接入方式等,為工務數據匯集奠定基礎。
(2)建立標準規范的高鐵工務數據模型的需求。高鐵工務設備管理需要掌握工務專業基礎數據,根據這些數據形成標準規范的數據模型,為日常檢修維護等提供全面、精準的數據支持。
(3)搭建高鐵數據資產匯集平臺的需求。根據邏輯模型,分層次、分類別將匯集數據進行組織,需要實現數據的全景展示,并需要從專業角度對結構化數據和非結構化數據分別管理,并支持相應檢索功能。
(4)探索工務典型設備壽命周期規律應用的需求。需要基于匯集平臺開展探索工務典型設備壽命周期管理應用,如更改、大修及專項整治應用、沉降觀測分析、二型板溫度分析等。
高速鐵路數據資產管理平臺,是鐵路數據服務平臺的核心組成部分,重點集中于數據采集、管理、治理、展現等部分功能。平臺以工務管理和應用分析為突破口,以維修管理決策分析為核心,建立工務設備相關大數據應用,集成工務專業部門的動態檢測數據、靜態檢查及維修數據、監測數據、問題庫數據等,運用數據集成、數據治理、數據脫敏、數據同步、可視化等關鍵技術,逐步實現數據采集、數據目錄管理、數據治理、數據共享等功能,形成更改大修、沉降觀測、二型板溫度分析等應用,為高鐵公司、路局等系統用戶提供相關決策支持和服務,其總體框架如圖1所示。

圖1 工務大數據應用總體框架
按照既定數據分類,展現平臺中所存儲和管理的所有結構化和非結構化數據;根據數據表、字段名稱和類型搜索系統所有結構化數據的元數據;根據關鍵字搜索非結構化的文檔型數據,并需要提供元數據血緣分析、影響分析等。主要包括數據采集系統、數據目錄系統、數據治理系統等,具體功能如圖2所示。

圖2 高鐵數據資產匯集平臺功能架構
2.4.1 數據的清洗治理
從數據質量、元數據、數據標準等方面實現數據采集到數據使用全過程治理[6]。支持自動檢驗采集數據的值域分布,根據分布情況自動發現異常數據,并向數據提供者發送郵件說明數據異常情況。平臺支持數據自動加密、脫敏,在不改變數據分布情況、復合編碼規則的情況下,生成不影響業務分析的虛假數據。該種方式既能保護數據安全,又能支持業務分析。在數據存儲方面,支持行、列混合存儲,支持40倍以上高倍率壓縮存儲數據。
開展各類數據的清洗治理,包括結構化數據的梳理、清洗、歸一、關聯等,非結構化數據(人工記錄、規章制度、標準庫、作業指導書等)的格式轉換、錄入、檢索等,如圖3所示。

圖3 數據接入的清洗與治理
2.4.2 非結構化文件全文檢索
平臺使用Elasticsearch、ORC、自然語言處理等技術處理非結構化關鍵字檢索。其中,采用ORC識別圖像文件轉換為文字、使用自然語言處理對查詢關鍵詞進行分詞、語義分析;采用Elasticsearch進行分布式文件檢索[7],以支持.doc、.pdf、.txt、JSON、XML以及其他多種格式文件的全文檢索,檢索結果使用OpenOffice插件可在網頁端直接預覽、下載。
2.4.3 權限管理
Kerberos是Hadoop生態系中應用最廣的集中式統一用戶認證管理框架,Kerberos提供一個集中式的身份驗證服務器,各種后臺服務并不直接認證用戶的身份,而是通過kerberos第三方服務來認證[8,9]。用戶的身份和密碼信息在Kerberos服務框架中統一管理。平臺使用該后臺服務,無需管理用戶身份和密碼信息,使用企業代碼加代碼命名用戶名,實現從路局到站段、不同路局間的權限分隔。
2.4.4 數據標簽
平臺使用模式識別技術,基于數據表、元數據、采樣數據進行建模[10],自動生成標簽,通過標簽挖掘數據表之間的關聯關系,分析數據表間的相似度;同時能夠根據標簽,快速了解數據類型、數據來源、數據內容等。
在分析基于數據服務平臺的高速鐵路工務大數據應用總體方案相關功能及技術后,結合京滬高速鐵路公司的管理現狀,開展京滬高鐵工務設備大數據應用。
基于大數據應用的發展過程規律,前期重點關注于數據的采集、治理、展現等功能,因此基于鐵路數據服務平臺,結合工務大數據應用的具體需求,研發京滬高鐵數據資產匯集平臺。基于業務現狀,建立高鐵工務數據目錄,實現數據資源統一分類管理;實現元數據管理、血緣分析、關聯分析等功能,展現數據量、數據記錄數等;實現數據地圖,全景展示平臺中所存儲和管理的所有結構化和非結構化工務數據;基于平臺開展數據清洗、治理,規范數據結構。平臺示例如圖4~圖6所示。

圖4 京滬高鐵數據資產匯集平臺首頁

圖5 結構化數據表的檢索

圖6 非結構化文檔的全文檢索
3.2.1 軌檢小車分析應用
根據匯集平臺中的軌檢小車數據為例,從超限等級類別進行統計,包括作業驗收、經常保養、臨時補修、嚴重臨時補修數目,采用餅狀圖直觀展示各項超限等級類別占比,且支持數據詳情查看;同時對各項檢查項目類別占比以樹形圖進行展示,可看出軌道變化率及軌距檢查項目占比較大,并對不同車間及工區檢查項目總數進行統計,如圖7所示。
3.2.2 動態檢測綜合分析應用
將便攜式線路檢查儀、車載式線路檢查儀、TQI數據進行綜合分析,不同日期的各項檢測值的密集程度,能夠間接反映該里程處的軌道平順性,用以指導計劃檢修及更改大修等作業。該分析應用中,支持選擇線名、行別、添乘時間、自定義里程、自定義合并區間等功能,如圖8所示。

圖7 軌檢小車分析應用

圖8 動態檢測綜合分析應用
基于鐵路數據服務平臺,在綜合分析高鐵工務數據及系統現狀后,提出面向全生命周期管理的工務設備數據匯集和治理方案,并搭建高速鐵路數據資產匯集平臺,根據匯集數據開展大數據分析應用,探索工務設備規律,為高鐵的科學化管理和決策提供支撐。下一步應根據匯集數據開展綜合性應用分析,同時結合不同算法為高鐵提供更加精準的決策支持。