劉 敏,馬小寧,戚小玉,劉彥軍,武 威
(中國鐵道科學研究院集團有限公司 鐵路大數據研究與應用創新中心,北京 100081)
隨著云計算、物聯網技術的發展,一個大規模生產、分享和利用數據的時代已經來臨,大數據廣泛服務于金融、醫療、商務、政務、電信、零售業等行業,并發揮著越來越重要的作用[1-2]。大數據時代的來臨為大規模數據的綜合處理帶來了機遇和挑戰,同時也為大規模、高維度、非結構化數據的可視化分析技術帶來了新的契機[3-4]。根據數據的時間信息、空間信息等特性,利用圖表、數據流、地圖、網絡、知識圖譜、思維導圖等合適的可視化表現形式,加之色彩、角度、位置、長度、方向、形狀等維度的渲染,將復雜、晦澀的數據直觀地展現出來,以方便用戶高效理解數據,挖掘數據潛在的規律和價值。
數據可視化技術廣泛應用于醫療服務、食品安全、城市交通、氣象預警、人口普查、股票、金融等各行各業[5-7]。中國鐵路經過多年信息化建設,累積了豐富的數據資源,數據體量大、類型龐雜、變化速度快,海量的結構化數據和非結構化數據給數據治理、存儲、分析等帶來挑戰。通過鐵路數據服務平臺建設,構建了具有多源異構數據集成、多類型數據存儲、全領域數據共享、智能分析及可視化展示功能的一站式平臺。介于鐵路數據大、雜、廣等特點及數據邏輯的復雜程度,單靠傳統的圖表方式進行分析展示是遠遠不夠的,需要借助數據治理技術和轉換、分析、挖掘等一系列復雜數據加工過程,輔助進行直觀有效的可視化展示。因此,對鐵路數據服務平臺的數據進行可視化呈現具有十分重要的意義。
管理駕駛艙用可視化的方式直觀地顯示各項指標,設計下鉆查詢方式,實現對各類指標的精細化管理和深層次分析,以形象化、直觀化、具體化的數據展現形式反映企業核心業務的運行狀態,是一個為企業或部門領導層提供一站式決策支持的系統。本文設計實現的鐵路數據服務平臺綜合管理駕駛艙是集數據服務平臺構建理念、資產普查、資產概覽、共享服務、分析應用、運維管理于一體的可視化全景視圖,為領導決策和定向提升平臺服務水平提供依據。
鐵路數據服務平臺提供面向全數據類型的數據接入、存儲及計算,對鐵路各業務領域數據資源進行集成整合,改變了各系統間信息孤島的現象,形成數據資源的全景視圖,實現數據資源的精細化管理,提供數據綜合分析能力。平臺支撐鐵路各領域大數據分析應用的開展,盤活數據資產,深挖數據價值,為提升鐵路生產經營能力、客戶服務能力和開放共享能力提供支撐[8]。
鐵路數據服務平臺匯集鐵路運輸生產過程中的海量數據,形成數據資產目錄,提供統一的數據服務,包括基礎數據管理、數據集成平臺、數據共享平臺、大數據存儲與分析平臺4個部分。
數據集成、共享、存儲與分析平臺3者之間為緊耦合關系。數據集成平臺從既有業務系統抽取數據后提供給數據共享平臺,數據共享平臺將數據匯總分類后提供給大數據存儲與分析平臺進行挖掘、分析及各類應用,最終展現給用戶。數據集成、共享、存儲與分析平臺與基礎數據管理之間是松耦合關系。基礎數據管理為以上3種服務提供統一的主數據、地理信息及元數據服務。
本文設計開發的鐵路數據服務平臺綜合管理駕駛艙主要實現上述4個部分數據流向的動態監控以及平臺與用戶之間的多流程、多維度的可視化交互。
綜合管理駕駛艙將數據固有的高維、復雜、海量等性質通過交互可視化手段,以高效、易于理解的方式把數據的多維屬性全面直觀地展示出來[9-10],降低了數據挖掘、分析、展示的難度,同時也加深了用戶對數據的理解,可用于指導鐵路數據服務平臺的實際工作。綜合管理駕駛艙,采用總—分結構,即一個主視圖和多個分視圖的可視化形式。
本文基于鐵路數據服務平臺設計綜合管理駕駛艙模型,面向鐵路大數據的匯集和存儲,整合數據治理、共享、挖掘與分析、運維等技術,實現對鐵路大數據的一體化、綜合性的可視化管理。同時,對基礎設施環境安全提供統一管理,加強平臺數據的安全性防護。綜合運用獨特的布局、色彩、圖表、動畫效果,在真實還原平臺構建的全流程和功能的前提下,以數據流的形式,可視化展示平臺設計理念以及平臺的典型功能特征。綜合管理駕駛艙由4部分構成,總體框架如圖1所示。

圖1 綜合管理駕駛艙總體框架圖
綜合管理駕駛艙的主視圖綜合運用可視化技術展示了平臺提供服務的能力,從既有的各業務系統采集數據,為各系統提供數據分析、共享服務,同時又為大數據應用系統提供支撐,包含資產普查、資產概覽、共享服務、分析應用、運維管理等模塊,駕駛艙主視圖如圖2所示。
2.2.1 資產普查
資產普查即對鐵路各行業系統進行數據資產調研,統計數據的體量和類型,基于數據屬性種類多、結構復雜、數據量龐大等特點,從微觀和宏觀2個層面對數據進行歸類和量化,從不同維度,不同時空深入了解數據。從數據類型來看,掌握結構化數據中表的個數、字段數、數據存量以及非結構化數據中音視頻、文檔、圖片等數據類型個數和存量;從數據業務場景來看,系統對業務領域、主管部門、部署層級、部署網絡等關鍵業務指標進行交叉分析;從數據體量來看,系統掌握不同結構類型和業務場景的數據信息的大小,方便制定數據存取方式和傳輸策略。基于上述信息,系統通過可視化圖表,生動形象的反映資產普查情況和各類數據之間潛在的關聯關系,有效的梳理鐵路數據現狀,實現鐵路數據服務平臺數據匯集目標。資產普查展示頁面如圖3所示。

圖2 數據服務平臺綜合管理駕駛艙–主視圖

圖3 數據服務平臺綜合管理駕駛艙–資產普查
2.2.2 資產概覽
針對不同數據源、不同數據類型研發相應的數據傳輸通道,對數據進行實時或離線采集,在采集過程中進行數據清洗、過濾和篩選操作,實現數據接入的可配置、可管理和易操作性,進而形成數據資產,同時對資產進行分類,形成數據資產目錄。系統對資產分類及主要量化指標進行可視化展示,直觀呈現各類型數據占比和各維度數據總量變化趨勢,將靜態的死數據變為活信息,用以構建鐵路企業級的數據資產體系,使數據之間的層次與關聯一目了然。資產概覽展示頁面如圖4所示。

圖4 數據服務平臺綜合管理駕駛艙–資產概覽
2.2.3 共享服務
鐵路數據服務平臺擁有豐富的數據資產,可針對不同用戶生成不同的數據共享策略,提供不同的接口服務,在保證數據安全和隱私的前提下,從數據的共享情況、用戶使用情況、接口調用情況及系統應用情況等多維度視角出發,運用可視化技術和手段,展示平臺數據共享情況,直觀的看到共享數據的規律和特征,針對性提升數據共享服務的速度和效率,提高平臺的數據管理能力和數據共享能力。共享服務展示頁面如圖5所示。

圖5 數據服務平臺綜合管理駕駛艙–共享服務
2.2.4 分析應用
鐵路數據服務平臺作為一站式數據服務平臺,擁有海量的數據資源和數據服務能力,需要為不同業務領域的不同應用場景提供數據服務。駕駛艙集成多領域的多類型場景,構建包括統計分析、多維分析、挖掘算法庫、數據挖掘工具等模塊的數據分析模型,對海量數據進行分析和預測,形成有效的數據分析案例。
(1)通過分析貨運計量安全監測系統中的軌道衡相關數據,分析其左右偏載、前后偏重與時間、速度、總重等變量的關聯關系,實現超偏載情況的預警和超偏載運行規律的趨勢預測;
(2)通過車、機、工、電、輛等各專業設備、人員的安全相關數據,構建鐵路安全大數據應用,實現針對性設備維護、超前性設備預警和精準性人員管控;
(3)通過電務專業各類檢測監測、故障預警等數據,實現設備綜合監測、全壽命周期管理、故障智能診斷、運維綜合分析、電務作業卡控、應急調度指揮、設備故障預測與健康管理、車地閉環分析等基于數據的綜合應用功能。
駕駛艙基于海量數據服務于不同業務場景,構建多元數據分析模型,利用可視化綜合大屏的形式展示各案例分析應用成果,實時追蹤數據流向,體現數據價值。分析應用展示頁面如圖6所示。

圖6 數據服務平臺綜合管理駕駛艙–分析應用
2.2.5 運維管理
駕駛艙采用三維可視化技術,對集群的機架和物理服務器進行位置信息和狀態信息的全方位空間展示,實現故障快速定位和診斷,對集群安全態勢進行實時預警;研究影響平臺穩定運行的各項參數和配置,對影響集群運行的關鍵指標進行實時監控;關注平臺用戶使用情況,實時監控PV、UV量值變化,對現有租戶和用戶數進行多維度的統計分析,保證數據的準確性和時效性,以便及時分析客戶流失率和增長率,增強用戶體驗。運維管理展示頁面如圖7所示。
可視化,即用區別于文字、表格等形式的更直觀、更富沖擊性的方式展示數據背后的規律和價值[11]。本文在平臺運行環境下,運用Web可視化技術,基于vue.js的前端開發框架、Hadoop和MapReduce的大數據處理方法,利用可視化圖形庫,結合echarts、highcharts、dataV等可視化組件,研發鐵路大數據可視化交互產品。其核心是基于平臺整體框架和構建原則,綜合運用大數據分析技術、計算機圖形學、圖像和視頻處理技術、地理信息、人機交互技術等,將數據服務平臺的整體架構及實施流程和后臺運營手段用直觀可識別的形式展示出來,便于用戶和管理者快速洞悉平臺海量數據和應用背后有價值的信息和知識,從而為平臺的管理和運維等工作提供輔助決策支持。

圖7 數據服務平臺綜合管理駕駛艙–運維管理
平臺匯集鐵路各專業、各業務部門的海量數據,實現了數據融合與信息共享,根據不同的數據類型制定不同的存取策略。平臺數據從數據結構而言,可分為結構化數據、半結構化數據和非結構化數據。
(1)從傳統關系型數據庫、ftp文件傳輸、HDFS分布式文件系統、Kafka消息隊列、ES等多種數據源中采集數據,根據業務需求確定數據采集的周期和方式,建立實時、離線或定時數據采集任務。
(2)數據采集可使用一個或多個目標源,選擇HDFS為源數據倉庫,把數據清洗、轉換后存儲至Hive、Impala、HBase等數據庫或者ES搜索服務器中,為方便快速查詢,根據業務需求合理制定Hive表或者Impala表的分區策略、優化HBase的Rowkey設計,以及ES的分區和索引設計。
(3)在數據可視化顯示時,采用Restful風格的接口形式,客戶端通過Ajax異步請求數據,用雙方約定的方式定位數據資源,如采用URL方式,在Http的請求下,語句格式形如GET http://…/rdsp/screen/ajaxRequest/newLeftClassifyPie,獲得前后端約定好的數據類型的數據。
駕駛艙前后端數據的簡明交互流程如圖8所示。

圖8 駕駛艙數據交互示意圖
各類數據用約定好的數據格式進行數據交換,以JSON為例,它是一種語法簡單、輕量級的數據交換格式,有很強的兼容性,支持C、C++、PHP、Python等各種語言,便于服務端解析。JSON格式如下:

(4)服務端通過解析Http請求的內容,將獲取到的JSON格式的數據在Web動態圖表中進行顯示,并同步刷新。實現在不刷新整個頁面的情況下,采用JSON格式的數據輸出方式,不斷從服務器端獲取數據,同步分模塊更新,提升數據傳輸效率,實現數據近似實時可視化展現。
可視化技術是大數據分析的重要方法,也是大數據時代能夠高效傳遞信息的媒介。本文設計并實現了鐵路數據服務平臺的可視化綜合管理駕駛艙,對鐵路數據服務平臺從數據普查、采集、治理、存儲、共享、分析、應用的全流程進行了展示。針對鐵路行業大數據,數據量大、類型多、維度高、來源廣、各領域交叉復雜等特點,利用可視化技術實現了平臺多種數據處理能力和用戶對信息感知能力的深度耦合,為及時掌握平臺的數據資源和運維情況提供方便、快捷、高效的一體化工具,實現鐵路數據服務平臺多個應用與功能的綜合可視化交互展現。