李仕旺,潘 躍,呂曉艷
(中國鐵道科學研究院 電子計算技術研究所,北京 100081)
數據可視化技術研究及其在鐵路中的應用
李仕旺,潘 躍,呂曉艷
(中國鐵道科學研究院 電子計算技術研究所,北京 100081)
在大數據時代背景下,數據的復雜性越來越高,需要數據可視化技術將不可見現象轉變為可見的圖形符號,因此數據可視化的角色越來越重要。本文從數據可視化技術的概念和技術特點入手,對數據可視化技術進行研究,將其成功應用于中國鐵路客票發售與預訂系統(以下簡稱鐵路客票系統)的數據分析與展現中,并對未來數據可視化技術在相關領域的應用進行了展望和探討,進一步證實數據可視化應用技術是呈現和解釋大規模數據的關鍵核心和發展方向。
大數據;數據可視化;鐵路客票系統;鐵路數據
數據可視化技術的起源可以追溯到20世紀中期,即計算機圖形學時代和數據可視化發展的萌芽時期,人們就開始研究如何在計算機中表示圖形;而到了20世紀80年代后期,科學計算的可視化才被提出并逐漸發展起來。科學計算可視化(Visualization in Scientific Computing)的誕生為數據可視化奠定重要基礎,數據可視化(Data Visualization)是信息圖形、信息可視化、科學可視化和統計圖形的結合體,實現了科學可視化與信息可視化領域的統一。數據可視化所研究的內容是數據的視覺表現形式,也是運用計算機圖形學和圖像處理等技術,通過對數據集的可視化設計,將數據轉換為圖形或圖像展現出來并進行交互處理的技術。通過數據可視化可以清晰有效地傳達和溝通信息,從數據中發掘隱含的規律和趨勢,為輔助決策提供堅實的基礎。
數據可視化是對大型數據集的可視化,隨著計算機技術的快速發展,計算機圖形處理能力越來越強,使得人們在表現數據的時候不再局限于通過觀察關系型數據來分析數據信息。數據可視化技術可以借助計算機的強大處理能力、計算機圖形學算法和可視化算法將大量的數據集轉化為靜態或者動態圖像呈現給人們并具有一定的人機交互,是分析、挖掘數據,尋找數據間的關系或者數據規律趨勢的最佳工具。
可視化是數據的圖形化表示形式,數據可視化技術能夠將大量復雜的信息通過圖表的方式使之一目了然地解釋出來,并有效地突出核心數據,方便用戶快速洞察問題所在。數據可視化技術主要有以下3大特點:
(1)與用戶的交互性強。一般情況下用戶都是信息傳播中的接受者,而強交互性特點將改變這一局面,在管理和開發數據上用戶可以很方便地以交互式的操作進行。
(2)數據顯示的多維性。針對多維數據進行可視化分析,將每一維數據的值進行分類、排序、組合和顯示,從而看到表示對象或事件的數據的多個屬性或變量。
(3)最直觀的可視性特點。數據的顯示方式有多種,可以用圖像、曲線、二維圖形、三維體和動畫來等顯示,并可對其模式和相互關系進行可視化分析。
數據可視化技術的交互性、多維性、可視性特性為數據可視化技術的實現奠定了理論基礎,數據可視化技術通過對數據的預處理、映射、繪制和顯示4步來實現,從而能夠通過視覺來理解多維數據上的復雜模式。在進行數據可視化的過程中使用到了描述數據可視化相應的關鍵技術,主要分為以下3點:
(1)數據預處理技術。原始數據大多是來自平面文件或者是關系型數據庫中的數據,因此需要對它們進行數據格式化和標準化,通過數據的變換然后對其進行壓縮、解壓縮處理,使數據更易于存儲和讀取。針對不同的可視化方法和內容,為了滿足可視化要求,需要對原始數據做進一步的變換處理。處理方法包括數據規范化處理、濾波處理、平滑處理、網格重新劃分、坐標變換、幾何變換、線性變換、分割與邊緣檢測、特征檢測增強、提取查色表操縱和特征映射等。
(2)數據映射技術。映射就是將數據按幾何畫法或者幾何投影的方式表示出來,它完成了數據的建模,是可視化技術的關鍵。在可視化處理的數據類型上,僅在鐵路客票數據上也是千差萬別,需要多種映射技術。應用圖形中可識別的變量是驗證維數的基準;為了匹配數據的范圍,需要使用縮放比例和偏移量等相關技術來處理;使用衍生值(殘差、logs)法是強調變化突出主題的利器;通過隨機抖動區分重疊,通過投影技術來取得統計量;對于高維信息,其中的隱藏關系較多,則需要使用多視圖來進行處理。
(3)繪制和顯示技術。可視化數據顯示就是將集合數據轉換成圖像,并安裝用戶的指定格式進行輸出,最終實現人機交互。使用者為了更好的理解數據含義,對呈現數據內容方式上必須是簡潔易懂、強調突出、省時高效。如何高效地提供數據可視化服務是數據可視化技術的終極目標,通過可視化技術來開發相應的可視化工具或平臺。在傳統可視化顯示技術上有柱形圖、折線圖、餅圖、面積圖、股價圖和雷達圖等,目前流行的還有地圖數據可視化,三維立體圖、和弦圖、單詞云圖和人際關系圖等。在可視化技術上有基于投影的技術、面向像素的技術、基于圖標的技術、基于層次和圖形的技術、3D技術、動態和交互技術等。
數據可視化技術的意義在于如何分析所獲得的大量、多維和復雜的數據,提供直覺的、可交互的可視化環境,使用者可以靈敏地獲得相關信息,由此可見發展數據可視化技術的意義十分重大。主要體現在以下幾點:
(1)在每天的生產系統上,數據量是非常龐大的,數據可視化技術能夠加快數據的處理速度,使數據得到有效利用。
(2)實現人機交互,可視化技術改變了文字或數字等信息的呈現方式,使用者能夠更容易地觀察到傳統方法難以發現的現象和規律。
(3)在科學計算上更方便地對計算過程實現引導和控制,數據可視化為計算機輔助提供技術手段,為計算機輔助協同設計打下了基礎。
(4)可視化技術簡化了人工處理數據制作圖表的流程,用戶可以方便地以交互的方式管理和開發數據。
(5)可視化技術將數據的多個屬性或變量進行處理,并可對其模式和相互關系進行可視化分析,為管理者提供輔助決策的基礎。
目前鐵路客票系統中的各業務基礎數據是分散建立、獨立運行的,但彼此之間都存在著一定的相互關系。在進行鐵路客運業務和售票組織策略決策的時候,往往需要對客票數據進行統計分析,但由于業務數據相對分散,因此要從客票數據中提取有用的數據一般都是通過數據庫查詢語言、大數據處理等手段來獲取,效率相對較低。隨著鐵路市場化改革的推進,鐵路客票數據量更加龐大、維度更加復雜,為了提高使用效率,需要對客票數據進行分析處理,將不同業務的數據區分處理,并通過數據可視化技術對客票數據進行處理和展現。鐵路客票數據可視化研究能夠讓鐵路客票數據更加直觀,為客運業務的輔助決策提供參考依據。通過研究可視化技術,進行鐵路客票數據的可視化,使用可視化技術抽取客票數據,將客票數據賦予表現力,使客運業務人員能夠直觀感受到數據,并能輕易發現問題。
3.1 時間趨勢可視化
在鐵路客票系統中,時間序列數據無處不在。如每天售票情況、旅客發送情況等。在時間數據中,用戶最普遍想要得到的是從數據中發現趨勢,是在上升還是在下降,是否存在周期性循環規律。要從中找出這些變化,就需要超越單個數據點,縱觀全局。例如,圖1是鐵路客票系統手機渠道一段時間內的售出折線圖,從圖表上看,手機購票的效果是比較積極的,總體呈上升趨勢;但是如果只觀察當前圖表的一部分數據,也會有一定的周期性規律,結論也會因此而不一樣。

圖1 鐵路客票手機渠道售出趨勢圖
盡管我們都希望了解全局情況,但是關注細節同樣也很有價值,數據值的異常點、不規則區段、劇烈上升/下降的數據點(排除異常數據),這些地方也是應該給予重點關注的地方;高屋建瓴,了解整個事件的背景,對甄別細節有幫助作用。
3.2 比例數據可視化
關于比例最受關注的是數據的總體分布,通過比例來呈現各部分和與其他部分的相對關系。餅圖是較為傳統的圖表之一,它作為一個整體,把它切成楔形,每一個部分代表一個整體,需要注意的是餅圖需要有良好的數據組織基礎,并且盡量不要將一個餅圖分成太多的部分。餅圖的設計應該是直觀、清晰的,而且能夠讓注意力集中在要表現的重點,在實現上有2種方式:(1)將最大的2部分分別按順時針和逆時針旋轉,其他部分在下面;(2)順時針從小到大排序,圖2就是鐵路客票系統各渠道售票比例圖的2種顯示方式。

圖2 鐵路客票系統各渠道售出比例餅圖
3.3 單詞云數據可視化
單詞云(wordle)是一種數據可視化的形式,在數據處理上需要進行分類處理、歸并同義格式轉換等。單詞云使用單詞進行繪圖,每個單詞具有一定的權值,單詞的大小由這些權值來決定;然后再對單詞在指定的展現區域上進行空間隨機排序從而構成單詞云。圖3是某時段用戶乘車的熱門區間,文字字體越大說明該區間越熱門,需求越旺盛。讀者能夠由此快速找出重點區段,例如北京-北戴河、北京西-成都等,效果一目了然。
3.4 客票席位數據可視化
在客票系統業務上,描述具體席位的特征、狀態等信息的數據構成席位數據,席位數據的匯總信息構成運能,運能信息是客票系統進行客運統計的基礎指標信息。對席位信息的可視化實現是進行客運營銷分析的有力武器,通過可視化技術實現對列車席位狀態的描述,列車的開行情況描述(客座率、收入率等)。以旅客列車客座率為例,客座率是列車運營效率的指標,采用可視化技術表現客座率可以直觀地了解鐵路運力和線路資源使用情況,圖4則是鐵路客票系統列車客座率的可視化效果。

圖4 鐵路客票系統列車客座率儀表盤
圖4的圖表類型是儀表盤,儀表盤可以反映各指標的完成情況,同時也可以作為監控系統各部分使用情況的手段,例如實時查詢操作系統后臺各部分的CPU使用率、內存利用率和日志空間狀態等。
3.5 售票數據可視化
客票售票數據記為存根,它是鐵路客票系統每個席位售出的原始憑證,進行退票、結帳、財務清算、運輸統計和營銷分析的基本依據。通過可視化技術對售票情況、旅客發送量情況等進行分析,對了解鐵路客票系統的運行情況具有重大意義,圖5是鐵路客票系統旅客發送量可視化分析圖。

圖5 鐵路客票系統旅客發送量可視化分析圖
圖5是基于地圖的熱力圖,地圖可視化是將地理數據轉換成可視的形態,顯示突出數據特征。對于熱力圖來說,使用的顏色不需要太花,從而給數據增加不可承受之重,熱力圖中采用統一色系是較好的設計方案。
在輔助決策方面,通過可視化分析現有鐵路的運營數據,挖掘客流與地域、季節、節日、天氣等因素的關系,可以清晰地分析鐵路的布局與市場潛在用戶,充分發揮自身的優勢,總結出具有可行性的輔助決策方案,促使鐵路的整體建設更加完善。在鐵路建設背后,高新技術是基礎,對目標受眾的精準數據分析(其中包括旅客成份、出行習慣、出行規律、年齡分布等)具有很大的應用空間。通過可視數據挖掘方法,對鐵路數據進行探索性分析,并將結果用可視化方法予以呈現,進而形成鐵路建設方面的指導意見。
在運營方面,可以為高效調度和安全保障提供服務。列車調度需要精準預測未來某一段時間的客流量,為列車的調度提供合適的參考,在這一方面可視化數據分析體現出了其他工具所無法比擬的優勢。鐵路作為一種特殊的行業,需要一些精準的信息,線路上的很多傳感器產生的數據并不僅是讓鐵路相關人員了解目前的狀態,還可以利用可視化技術把這些數據變活,有的放矢地指導相關的工作人員仔細檢查列車和線路狀態,及早規避可能出現的問題,為鐵路的正常運營提供監控和預警。
[1] 韓麗娜. 數據可視化技術及其應用展望[J]. 煤礦現代化,2005(6):39-40.
[2] 張 浩,郭 燦. 數據可視化技術應用趨勢與分類研究[J].軟件導刊,2012(5):169-172.
[3] 王媛媛,丁 毅,孫媛媛, 等. 數據可視化技術的實現方法研究[J]. 現代電子技術,2007(4):71-74.
[4] 任永功,于 戈. 數據可視化技術的研究與進展[J]. 現代電子技術,2004(21):92-96.
[5] Julie Steele,Noah lliinsky. 數據可視化之美[M]. 北京:機械工業出版社,2011.
[6] 陳 為,長 嵩,魯愛東. 數據可視化的基本原理與方法[M].北京:科學出版社,2013.
責任編輯 方 圓
Data visualization technology and its application in railway
LI Shiwang, PAN Yue, LV Xiaoyan
( Institute of Computing Technologies, China Academy of Railway Sciences, Beijing 100081, China )
In the era of big data, the data was more and more complicated, data visualization technology was required in order to make the invisible phenomena into the visible graphic symbol, and data visualization played an increasingly important role. This paper researched on the data visualization technology from its concept and technical characteristics. The visualization technology was successfully applied to the China Railway Ticketing and Reservation System. The future applications of railway data with data visualization technology were discussed. Data visualization technology was the key of presentation and interpretation large-scale data.
big data; data visualization; Railway Ticketing and Reservation System; railway data
U293.22∶TP39
A
1005-8451(2015)10-0023-04
2015-03-04
李仕旺,研究實習員;潘 躍,助理研究員。