劉 婷,謝孟霞,王 婷,張 琦
(中國鐵路哈爾濱局集團有限公司信息技術所,哈爾濱 150006)
數據是一種資產,也是一種生產要素,可以提供強大的決策力,隨著時間的沉淀,最終會成為海量的、高增長率的、多樣化的信息資產。在大數據的分析與應用盛行的時代,大數據技術已經深入到各行各業之中,其地位也在日益凸顯。在大數據戰略的背景下,吹響了加快發展數字經濟、建設數字中國的號角。標志著大數據正式成為我國戰略規劃的核心任務之一,研究和發展大數據技術已經成為必然趨勢[1]。
鐵路貨運是我國交通行業的重要組成部分。隨著貨運組織改革的不斷推進,中國國家鐵路集團有限公司已相繼推廣了貨運電子商務、調度、現車及貨票等主干貨物運輸支撐信息管理系統,目前已累積大量數據。據初步統計,國鐵集團及各鐵路局集團公司存儲的數據總量已達到10 PB的數據級[2],且各類數據增量很快,所以中國鐵路貨運正處于大數據時代。
1.1.1 貨運系統的建設過程中,各管理系統比較獨立
隨著信息化的不斷建設,哈爾濱局集團公司已完成了貨運電子商務系統、東北快運系統、貨票系統及貨運站系統等貨運業務系統推廣工作。首先,在這些系統陸續推廣與使用后,每天會產生大量業務數據,但是各系統之間耦合度不高,大部分數據只在系統內部進行分析,缺少橫向綜合對比,這直接限制了系統發揮更大的作用,對于數據背后的價值不能進行深入地挖掘。其次,數據共享備份不夠,如果各業務系統出現故障,將會產生數據二義問題。最后,特別是數據字典需要多方提供,不能避免數據有沖突,所以需要加強統一管理維護。因此,需要將各信息系統的數據進行集中整合,才能更好地服務于鐵路貨運業務。
1.1.2 數據源錄入不夠準確
數據是業務分析和指揮決策的基礎,如果基礎數據不準確將嚴重影響數據的分析結果,因此數據的準確性對大數據平臺的應用效果起到重要作用。目前,由于鐵路貨運中各個系統的基礎數據均是由車站人工錄入,在錄入數據的過程中,數據標準化程度不高,影響數據質量。同時在錄入過程中也存在數據不一致和數據不準確的問題,這會直接導致后續對數據的操作及得出的結論失去意義。
1.1.3 數據分析技術能力不足
數據分析是一個清理、轉換、進行數據建模的過程,從而得出結論并支持決策。目前數據分析統計仍采用傳統的手工統計或數據庫技術,而使用數據處理技術進行大數據的應用分析缺少專用技術與工具的支撐,數據的可用性不強、時效性低,對決策不能提供很好的數據支持。
1.1.4 鐵路貨運數據共享模式不成熟
數據共享的目的是為了提高信息的利用率,減少“信息孤島”效應。在數據采集、整合等方面也會節約一定的成本。但是由于目前各部門之間的合作模式不清晰,有些鐵路業務數據是不愿意提供的,從而加大了數據采集的難度。因此,如何達成不同部門之間的合作共贏模式成為了數據融合的先決條件。通過有效的措施促進數據融合,從而形成覆蓋更大領域的數據集合,全面深化大數據的應用范圍,真正地為各項決策提供數據支持。
1.2.1 做好數據質量保障工作
數據的質量決定著大數據平臺的效果,做好數據質量的保障工作是發揮大數據平臺作用的前提。首先,通過考核制度提高操作人員的技術水平,盡可能保證數據在錄入階段的準確性。避免因為初始數據的錯誤錄入而導致后續操作失效的問題發生。其次,在數據交換過程中需要完善的制度標準,明確交換機制及雙方責任,有效地執行數據交換標準。最后,可以通過開發適合公司的數據管理系統,在采集數據后對數據進行有效清洗并做到規范化,為后期數據挖掘和分析提供更高質量的可信數據。
1.2.2 建立數據倉庫
數據倉庫是用于數據管理的工具,構建數據倉庫可以提供一個支持決策分析的環境,從不同的數據源中獲取數據、組織數據,進而更加有效地進行業務決策。將目前與鐵路貨運相關的生產系統中的數據進行提取與清洗,并存儲到數據倉庫中,在經過篩選處理可以提高數據的價值。
1.2.3 數據安全治理
在數據采集、處理和共享等方面都存在安全威脅,在大數據時代確保敏感數據的安全性尤為重要。鐵路貨運大數據平臺存儲與處理不同安全級別的數據,在數據共享的同時會帶來更多的安全隱患,所以需要建立一套完善的、覆蓋數據整個生命周期的數據安全保障體系。同時可以通過大數據平臺安全評估體系,來進一步確保數據安全。
建立鐵路貨運大數據平臺首先要梳理出現有的數據資源,明確大數據平臺的應用主題,對于梳理好的數據經過數據治理后加載到大數據平臺,通過大數據平臺應用層進行分析和綜合展示,提供有效信息、支持決策[3]。建立鐵路貨運大數據平臺主要分為建立數據采集層、數據傳輸層、數據存儲層、數據分析層及數據展示層5個層面,如圖1所示。

圖1 鐵路貨運大數據平臺架構
鐵路貨運大數據主要分為鐵路綜合辦公網生產數據和互聯網類數據2種。貨運電子商務系統、東北快運系統、貨運調度系統、貨運計劃系統、現車系統、貨運站系統及貨票系統是鐵路內部數據的主要數據源。鐵路是運輸服務型企業,需要時刻關注政府的發展規劃,客戶的需求與反饋意見,以及經濟政策和市場動態等多方面信息,還需要掌握公路、水路價格及相關運量數據,這些互聯網類的數據對鐵路貨運業務拓展也起到指導性作用,可以為集團公司后期的決策分析提供支持。
通過網絡爬蟲技術獲取萬維網數據,同時為了提高抓取性能,加快抓取速度,貨運大數據平臺采用Java多線程技術,并行處理多個URL連接,從而實現快速且高效的信息采集;同時采用廣度優先策略,以分層的方式進行網頁抓取,可以大大降低服務器的內存消耗。
數據傳輸層包括鐵路綜合辦公網及互聯網。內網與外網間采用鐵路安全平臺進行阻隔,確?;ヂ摼W數據安全傳輸到內網進行使用,有效保護鐵路內部辦公網絡的安全。集團公司與各貨運站段之間數據傳輸則采用鐵路辦公網作為網絡載體。
由于鐵路貨運業務系統中的數據都是格式化數據,均以關系型數據庫的方式進行存儲,主要數據庫產品為Oracle數據庫。目前鐵路貨運業務也存在一些檢測類的輔助系統,其數據是以音頻或視頻等形式存儲的,這部分數據量較大,且不適合存儲到數據庫中,因此這部分數據需要采用分布式文件系統(HDFS)方式進行存儲。而對于互聯網獲取的數據需要通過專業軟件產品(如Sqoop等),將數據轉化為文件方式進行存儲。
由于大數據數據類型分為結構化數據和非結構化數據2種類型,所以數據分析層分為結構化數據分析與非結構化數據分析。
結構化數據是經過處理后并加載到關系型數據庫中的數據,而結構化數據分析已經是一種逐漸趨于成熟的技術[4]。在鐵路貨運業務中,結構化數據分析可以通過各生產系統建設的數據倉庫進行研究。例如分析數據量龐大的電子運單數據時,可以采用數據倉庫的聯機分析處理(OLAP),OLAP作為一種多維查詢和分析工具,不但提高了查詢速度,使數據庫中大量數據得到有效地利用,同時也降低了服務器的性能損耗,如圖2所示。

圖2 OLAP架構
非結構化數據是音頻、視頻和圖片等文件,非結構化數據是不滿足任何預定義模式的數據,可以加載到NoSQL等非關系型數據庫中。通過傳統的數據分析技術是不足以處理這類數據的。非結構化分析基于Hadoop、Spark等框架進行研究。其中對于分布式數據處理的抽象層次不高時,采用Hadoop分布式文件系統對數據存儲并處理;Hadoop分布式文件系統(HDFS)是Hadoop應用中一個最主要的分布式存儲系統。一個HDFS集群主要由1個元數據管理節點(NameNode)和很多個數據節點(DataNode)組成:NameNode管理文件系統的元數據,而DataNode存儲了實際的數據。而對于需要使用機器學習及批處理等技術時,則使用Spark框架。主要采用的算法包括回歸分析、統計分析、神經網絡、支持向量機及深度學習等基礎算法,如圖3所示。

圖3 Hadoop分布式文件系統(HDFS)架構
目前在數據展示方面應用較多的工具是潤乾報表,通過潤乾報表可以根據自己的需求制定復雜的報表并進行數據分析。可以通過引入ECharts等第三方圖庫進行特色展示。基于html5 Canvas的ECharts是一個純Javascript圖表庫,兼容大部分瀏覽器。ECharts可以提供更直觀、更生動的數據可視化圖表,并且支持交互和個性化定制,滿足個性化需求。具有豐富的可視化類型,通過散點圖、折線圖、柱狀圖、餅圖、雷達圖、K線圖、熱力圖、漏斗圖和儀表圖的形式進行數據展示。此外ECharts提供了動態類型切換功能,讓用戶可以根據需要切換相應的圖表類型和堆疊狀態。同時也可以通過平臺本身的數據展示模塊進行數據動態的、實時的重繪操作。
大數據平臺的建設并不是一蹴而就的,需要不斷地探索與修正。大數據平臺的實施步驟主要分為以下幾部分。
業務分析主要包括對貨運業務流程和需求的分析、確定數據源,通過對用戶需求的調研明確分析目標和思路,確定要導入哪些數據、要得到哪些信息,從而確保數據分析有效進行。貨物運輸是鐵路行業的核心支柱產業,在市場經營領域圍繞貨運業務,通過搜集貨票數據、貨運電子商務系統計劃數據及更多貨運系統的數據,可以進行貨運業務額盈虧分析。通過對用戶行為的大數據分析可以進一步提高市場營銷能力。
數據規劃包括通過對業務調研進行統一編碼并確認,盤點已有數據資產,完善數據管理標準有效進行數據規范等,加快數據資源的整合共享[5]。
通過對原始數據進行分析,建立實體模型、建立數據庫邏輯模型等來完成邏輯模型的設計。集團公司的大數據平臺仍然處于探索階段,初期應采取全開源架構,隨著研究的不斷深入再考慮更成熟的商業方案。在完成邏輯模型的設計后將其轉換為物理模型,并進行壓力測試與性能測試,提出優化方案。
圍繞著已經明確的項目意圖和商業目標讓大數據真正地應用起來,通過數據挖掘得到有商用價值的信息為鐵路貨運業務提供數據服務與決策支持。
鐵路貨運大數據平臺的建設是一個不斷探索的過程。不僅需要分析鐵路貨運業務需求,形成鐵路貨運大數據的建設規劃,也需要借鑒其他領域的大數據項目。經歷不斷的驗證、修正、實施,來逐漸完成大數據平臺的建設。鐵路貨運大數據平臺將成為重要的資產數據、提供數據服務、通過預測分析能力支持哈爾濱局集團公司的各項決策。構建適合哈局貨運業務發展的大數據平臺,將提高挖掘貨運數據價值的能力,成為貨運業務增收的重要手段。鐵路貨運大數據方面的研究成果也可以逐步延伸到集團公司經營、生產、安全等領域,充分利用大數據技術,發揮其在提高效率、提高效益、優化服務、保障安全方面的作用,是集團公司在新時期的必然選擇。