劉其韜
(中國鐵路哈爾濱局集團有限公司 數據分析中心,哈爾濱150001)
數據分析是企業生產經營活動的重要環節,隨著大數據技術不斷發展和普及,數據分析被賦予了更深刻的內涵和更寬廣的外延。在現代企業中,數據挖掘正在推動著企業資源的深度開發,使其價值更充分地得以發掘。近年來,國電、中移動、京東等大型國企和物流電商先后組建了數據分析專業機構,大數據分析技術在精準營銷定位[1]、設備運維監測[2]、運輸路徑優化[3]等方面的應用取得明顯效益。
目前,鐵路大數據應用已經起步,但由于鐵路系統作業規律復雜,設備技術密集多樣,建立數據分析體系的難度較大。在當前條件下,如何建立具有鐵路企業特點的數據分析能力體系,是現階段的一個重要課題。
大數據技術發展至今,無論是理論模型還是實際解決方案,基本上形成了一種數據分析體系的典型模式[4],如圖1所示。
1.2.1 數據處理能力
包括數據存儲、計算、傳輸所必需的硬件軟件資源,例如存儲設備、計算設備、網絡設備,以及支持大數據應用所必需的虛擬化、云計算等相關技術。

圖1 數據分析體系典型模式
1.2.2 分析工具能力
包含兩方面內容:(1)工具本身,如基本統計工具、數據處理組件、建模評估及可視化工具,應有可靠性能和完善功能,并形成組合;(2)應用工具的能力,主體是人,能夠根據數據或業務需要,敏銳、靈活地選擇適用的工具和方案,避免在工具選擇上走彎路。
1.2.3 業務融合能力
(1)專業與信息技術的融合:在數據分析領域,業務的驅動和主導格外重要,數據分析的結果也一定要作用到業務事件上才有意義和價值。分析人員不僅要具備豐富的專業知識和經驗,而且還要長于數據觀察,具備運用數據發現問題、解決問題的能力;(2)專業與專業之間的關聯:在鐵路局集團公司層面,高度垂直分工的管理機制造成專業分工過細,客觀上造成專業之間數據交流融合不足,在融合不同專業數據的基礎上做好數據挖掘,可為鐵路生產經營管理發掘出更多價值的信息資源;(3)不同專業的目標趨同:實現局部與整體的協調,如何把專業間博弈轉化為合作來破除壁壘是實現跨專業數據分析的前提,涉及深層次問題,也觸及環境文化氛圍[5]。
1.2.4 數據治理能力
數據治理包含數據管理運用相關的制度、標準、管理、監控等內容,以及支持數據共享的相關標準和提供共享渠道的數據服務平臺,可提供完善的數據安全、隱私保護體系的數據安全保障能力,具備數據管理機制的執行落實能力。
1.2.5 數據思維能力
數據思維的概念比較寬泛,對企業而言包括如下主要內容:(1)對數據具敏銳的洞察能力,善于從數據變化中總結發現規律[6];(2)能運用數據和邏輯來描述現象;(3)善于建立數據關聯;(4)善于從業務需求出發來收集和使用數據,或依據業務判斷進行數據運用。
數據思維能力是對人的素質要求,是對從事相關工作的人員的業務素質與數據素養的綜合考量。
作為人的要素,應該把主體擴至團隊,數據分析大多都是合作活動,團隊素質包括業務素質、技術能力、創新能力、數據思維意識及團隊合作能力。
(1)標準體系,作為數據分析的基礎,決定著未來數據共享難易程度,各專業不僅要建立自身的標準體系,還要服從于企業整體的標準體系;(2)數據管理制度體系,逐步建立并不斷完善覆蓋數據生命周期的相關法規和流程;(3)數據安全保障,包括保障機制和管理及技術手段,以及網絡安全防控體系、應急處理機制等;(4)數據共享機制,包括相關的規定與規范、共享渠道和特定規則,如數據共享方式和標準。
(1)業務知識及經驗,作為數據挖掘的驅動力,業務知識儲備和實踐經驗是尋找發現規律的前提條件,讓團隊不斷地掌握運輸現場實際情況,保持知識結構的先進性,以適應鐵路生產需要;(2)技術工具運用能力,靈活而有效地運用各種工具進行數據處理和分析,達到理想的應用效果;(3)業務與技術的有效結合,本文中兩個分析案例將體現這種結合;根據選定的業務課題,選擇恰當的工具進行研究,開展初步規律探究之后,通過進一步學習和修正,形成完整的技術路徑;(4)設備保障,除了基礎存儲、計算資源之外,應形成企業級設備平臺保障體系,數據分析平臺只是其基礎與核心,隨著業務拓展,與ERP、物聯網、地理信息平臺、各類業務應用系統的銜接都是必然選擇;此外,還必須具備保證數據安全的技術手段。
在開展一些跨領域、跨專業、跨部門的數據分析時,最好由一個機構負責組織,以統籌數據、算力、人力等資源,有利于消除本位因素,保證客觀公正和目標集中。此外,根據業務需要和企業管理現實,也可對該機構賦予數據管理職能,將其作為信息化專業管理的有機組成部分。
環境文化是軟實力的一個重要內容,針對鐵路局數據分析體系的建設,這種文化主要有3個要點:(1)尊重規律,避免先入為主形成結論,應以數據分析結果為導向;(2)要有大局觀,企業內部組織能夠圍繞整體目標去組織資源、采取行動,而不是僅圍繞小團體和局部領域的目標開展行動;(3)崇尚創新,在開展數據挖掘、探索規律的初期,往往沒有既定目標,結論也多是未知的,數據挖掘活動離不開手段方法的創新,形成鼓勵創新、容忍失敗的氛圍十分必要。
(1)確立并遵循自下而上的基本建設路徑,做好頂層設計;(2)根據現實需要,開展具體項目進行檢驗和示范應用;(3)采取遞進方式投入配套基礎設施,并根據需要適度進行超前建設;(4)統籌推進,把各種能力和要素按各自的規律做好建設和培育,以期在特定的階段發揮作用,促進良性發展。
中國鐵路哈爾濱局集團有限公司(簡稱:哈局)于2018年部署了鐵路數據服務平臺(RDSP),利用既有的虛擬化資源作為基礎軟件平臺,包括應用門戶管理、數據采集、數據資產、數據安全、數據治理、腳本開發、數據分析套件、數據倉庫、可視化套件等,具備批處理、內存計算、流計算等多種計算引擎,提供內置的數據挖掘組件及可視化報表,供用戶開展自助數據分析[7]。
經過近半年的籌備,哈局數據分析中心于2019年4 月成立,以檢測監測數據為切入點,機構組建整合了軌道、信號、接觸網動態檢測業務,并對機務、車輛、工務、電務、供電行車設備的數據開展分析調研,服務安全生產的同時,打造數據分析能力,致力于發現各領域數據的內在規律。在開展既有動態檢測工作的同時,在數據分析利用方面進行了探索。目前已編制檢測月報輔助工具,開展了一些數據分析實驗。
以下兩個實踐案例,分別在鐵路運輸生產的不同領域采用不同的思路和方法,其分析過程和結果體現鐵路系統的生產特點,具有一定代表性。
3.3.1 鐵路固定設備動態檢測數據的常規分析
常規分析要滿足不同視角對既有數據的觀察。鑒于鐵路系統業務分析需求的復雜性,二維視角無法滿足多方面需要,因此結合基本的數據分析業務,運用數據立方體來處理數據,不僅適用于當前的動態檢測,也可以在各業務領域應用。簡而言之,就是在數據庫上建立數據立方體的邏輯結構,用以加工和存儲數據,不同的切片形成報表;在此基礎上,實現基本的查詢與處理平臺,支持上卷和下卷,提供交互式查詢和自助報表,結合合理的安全策略設置,還可以將其推送至移動終端。
鐵路固定設備的動態檢測數據一般包括優良率、缺陷數量、扣分情況、綜合評價指標等,這些數據具有時間和空間屬性,可構成包含時間度量、空間度量、內容度量的三維數據立方體。在把握維度需求的基礎上,編寫程序導入檢測數據切片,提供圖形化分析結果。
以鐵路工務系統軌道檢測數據為例:(1)按照內容度量(優良率、缺陷數量、平均公里超限、平均扣分、TQI等),運用工具進行切分;(2)在每個維度下,再按空間度量(段別、線別、車間別)進行鉆取和卷取;(3)按檢測時間排列,進行趨勢分析和規律分析。展示界面見圖2及圖3,細節缺陷數據的多維度切片分析見圖4。
分析工具投入使用后,一次性導入數據,在不同維度上對數據進行切片,便于專業部門從不同維度上進行數據分析,發現問題。同時,報告生成時間由過去近半個月縮短到2~3個工作日,效率和時效性明顯改善。隨著體系建設的不斷深入,此類報表最終將演化為互動式的數據交換平臺。

圖2 工務軌道質量檢測數據按空間及管理維度的分析切片

圖3 工務軌道質量檢測數據按時間、空間及管理維度的分析切片

圖4 工務軌道質量檢測細節缺陷數據多維度綜合分析
3.3.2 機車輪緣磨耗的數據挖掘探索
數據、業務需要、平臺是數據挖掘不可缺少的三個要素。模型訓練、關聯能力是數據分析的核心能力和競爭力,也最有挑戰性和探索性[8]。依托既有的數據資源,從業務需求入手,形成假設,利用平臺計算資源,開展建模、訓練、糾正和驗證,從而找出內在規律,這也可視為一種簡單的模型訓練或者機器學習,對專業化分工的企業而言,是一種很好的訓練方式,能夠形成具有普遍適用性的工具和方法[9]。
在鐵路機務專業開展了基于機車輪緣磨耗情況的數據挖掘實驗。以輪對自動檢測棚記錄的輪緣磨耗數據為對象,對輪緣磨耗的影響因素進行分析,以期找出潛在規律,輔助機務段優化車輪鏇修時機,在確保安全的前提下,為節約成本提供依據。
從機務專業角度判斷,輪緣磨耗主要在機車通過曲線運行時發生,一般認為與曲線的長度和半徑均有關系,但其中的內在規律一直未能量化。為此,提取三棵樹機務段管內哈爾濱地區機車輪對檢測棚在2019年4月10日—7月10日期間的輪緣數據作為分析對象。(1)依據輪緣力公式和LKJ 數據,編寫曲線當量計算器,對各機車牽引區段的曲線進行當量化處理;(2)將各區段曲線當量與在此期間各機車擔當車次的走行路徑相結合,形成各車次曲線當量;(3)將各車次曲線當量加權平均,對統計期間各機車每兩次入庫之間的輪緣磨耗量進行切分,得到各車次輪緣磨耗數據9792條,作為訓練數據;(4)運用多元線性回歸方法,建立客運內燃機車輪緣水平磨耗的數學模型如下:

式中:Wf為輪緣水平磨耗量(mm),R為線路曲線半徑(m),L為曲線長度(m)。
經數學方法檢驗,檢驗結果見圖5,該模型擬合優度為0.89,具有較高的可信度。

圖5 輪緣水平磨耗預測模型擬合度檢驗結果
為進一步驗證模型有效性,提取哈爾濱地區在7月11—31日期間的入庫機車輪緣數據進行驗證。由于統計時間段較短、數據量少,對檢測設備誤差影響較大。為此,選取其中5臺擔當本務且記錄在10條以上的機車,對各機車在統計期間所擔當各車次的途徑曲線進行當量化處理,而后代入模型,再將所得數據與實際磨耗量做對比,得到結果見表1。
從分析結果看,五臺機車累計磨耗值與模型預測值的差異分布在-0.07mm 至0.05mm 之間,在輪緣檢測精度按0.1mm 掌握的情況下,模型基本可滿足使用要求。以上分析雖與精準分析尚有差距,并且由于數據量不足,沒有進行模型的繼續優化,但從實驗角度,完成了一個典型的數據挖掘研究過程。

表1 機車實際磨耗與模型預測值的差異對比
在鐵路局集團公司當前條件下,對數據分析的理論和方法進行初步探討。數據分析方法的應用能夠為鐵路企業帶來切實的安全收益和經濟效益;同時,數據分析體系在建設過程中也面臨著一些無法回避的難題,諸如數據來源困難、數據質量不理想、政策支持不足、跨專業融合困難、專業人員缺乏等。這些問題的根源可能觸及鐵路企業的組織、管理、文化等深層次內容。在大數據應用推廣的道路上,這些問題是必須面對的矛盾,將隨著發展的深入得到解決,解決這些問題的理想途徑是,在推進能力體系建設的過程中同步做好統籌規劃。
隨著信息技術的不斷發展,以及管理方式的不斷改進,數據分析的前景將日益廣闊,必將在科學管理與決策支持上釋放出巨大威力。