宋海瑞 廖必凱

摘 ?要: 把數據倉庫、數據挖掘和可視化等大數據研究的關鍵技術應用到機場綜合管理數據庫建設中。利用數據倉庫、數據挖掘和可視化等大數據研究的關鍵技術,實現機場在建設綜合管理數據庫過程中,各類型海量數據處理、數據倉庫建設、數據的分析及價值發現。進而為機場建設綜合管理數據庫提供了設計方案。
關鍵詞: 大數據; 機場; 數據倉庫; 數據挖掘; 可視化
中圖分類號:TP392 ? ? ? ? ?文獻標志碼:A ? ? 文章編號:1006-8228(2015)07-36-03
Research on the application of Big data in construction of airport management database
Song Hairui, Liao Bikai
(The Second Research Institute of CAAC, Chengdu, Sichuan 610041, China)
Abstract: Applying the key technology of Big data research, i.e. data warehouse, data mining and visualization, etc. in the construction of airport comprehensive management database, use these key technologies to realize the various types of massive data processing, data warehouse building, data analysis and value found. And then, provide the design scheme for the construction of airport comprehensive management database.
Key words: Big data; airport management; data warehouse; data mining; visualization
0 引言
目前,國內大部分機場已建設了各類業務信息系統,這些系統基本能滿足機場運行和管理層面的業務需求。如何利用現有的手段和技術水平更好地整合利用這些系統運行多年產生的各類歷史業務數據并發掘其潛在價值,進而為機場改進決策,提高服務質量,增加運營收益是大部分國內機場在建設機場綜合管理數據庫過程中面臨的主要問題[1]。當前,大數據技術、數據倉庫技術以及數據挖掘技術在很多領域的成熟應用為機場綜合管理數據庫建設提供了技術支撐和實現途徑。
1 大數據綜述
大數據是繼云計算,物聯網之后 IT產業又一次顛覆性的技術革命,對國家治理模式,企業決策,組織和業務流程,以及個人生活方式等都將產生巨大影響。大數據挖掘和應用可創造出超萬億美元的價值,是未來IT領域最大的市場機遇之一。
大數據不是一種新技術,也不是一種新產品,而是一種新現象和新思想,是近來研究的一個技術熱點。大數據具有四個主要特點:數據種類繁多、數據體量巨大、價值密度低、處理速度快。因此傳統的數據庫時代的數據處理方式已經遠遠不能滿足大數據時代的數據處理要求,這就需要用新的數據思維和技術來應對[2]。
大數據技術是一系列收集、存儲、管理、處理、分析、共享和可視化技術的集合。適用于大數據的關鍵技術包括數據分布技術、任務分解技術、數據挖掘技術、數據倉庫技術、可視化技術等。數據分布技術和任務分解技術是Hadoop的核心思想。數據挖掘技術是結合統計數據和機器學習,使用數據庫管理技術從大型數據集中提取有用信息和知識的技術。數據挖掘的工具及方式包括回歸、分類、關聯分析、演化分析、聚類分析、序列模式等。大數據研究中典型的數據倉庫技術包括Greenplum、Hive、Big Table的分布式數據庫系統和HBase的非關系型數據庫系統。可視化技術是通過創建圖片、圖表或動畫等展示大數據分析的結果。典型的可視化技術包括標簽云及Clustergram技術等。
2 機場運行面臨的數據處理的挑戰
隨著互聯網技術的不斷發展,數據本身就是資產。云計算為數據資產提供了保管、訪問的場所和渠道,但如何盤活數據資產,使其為企業決策乃至個人生活服務,是大數據的核心議題。目前,國內主要機場普遍采用以機場運行數據庫為核心的建設模式,該模式以航班信息為主要信息源,以中間件平臺為基礎,實現信息集成系統、離港系統、航班顯示系統、廣播系統等生產系統的數據交互以及旅客服務類系統、機場及航站樓的設備設施保障系統的協同運作。基于機場的運行模式,數據產生于航班保障和旅客服務的各個方面,如航班信息數據、業務處理數據、行李數據、旅客服務類數據、設備設施監測數據、物流數據、交通樞紐的運力及車位數據、商業服務數據、財務辦公類數據等海量的數據[3]。
在大數據時代,“數據海量、知識匱乏”是大數據時代多數企業的通病。雖然機場在日常運行管理中會產生大量的運營數據,然而大部分機場的運行數據庫僅僅實現航班數據的實時處理,無法深入挖掘出隱藏在海量數據背后潛在的價值。因此建立機場綜合管理數據庫,應用大數據技術實現對機場數據的綜合管理以及深入挖掘是十分必要的。
3 構建方案
構建機場綜合管理數據倉庫涉及海量數據信息,既有大量航班實時運行數據,又有海量的歷史數據。數據倉庫的建設應該支持機場綜合分析管理的各個方面,包括航班運行分析及管理、旅客服務質量分析及管理、設備設施運行效率分析及管理、決策支持分析、規劃及招商分析等。經過重新設計的數據倉庫可以根據不同的主題設計不同的屬性集,從而減少數據處理量,針對不同的主題數據庫可以采取粗糙集的屬性歸約算法刪除數據中的冗余信息,得到精簡的數據集,然后將決策樹所表示的數據集表示為分類規則知識并儲存在規則知識庫中。系統數據流程為采集各種數據庫中的各類數據,重整結構和調整數據后歸類存放在數據倉庫中,然后由多維分析工具多層次分類成有效信息,與知識庫、方法庫、模型庫、數據挖掘工具有機結合,最后通過可視化工具將分析結果呈現給用戶。
4 總體架構
根據機場的特點,綜合管理數據倉庫,其體系結構如圖1所示。從圖1中可以看出,數據倉庫的總體架構共分五部分:數據源、數據處理、綜合管理數據庫、數據分析提取以及數據可視化[4]。
4.1 數據源層
在機場航班運行過程中將涉及到多方面的數據源,如航班數據、旅客數據、行李數據、設備設施監控數據、物流數據、行政辦公類數據、安全數據、商業數據等等。還涉及到很多外部數據源,如天氣數據、空管數據、航空公司數據、商業運行數據、互聯網數據等。這些數據源有些是歷史數據,有些是實時運行數據,它們存儲在不同區域不同部門的異構數據庫中。
4.2 數據處理
數據處理是對一個存儲區,裝載維度表和事實表,為輸出到數據集市做好準備。由于數據源數據內容往往交叉,所以需要按照互動性對觀測數據進行分類,數據大致分為兩類:結構化數據和非結構化數據。同時,由于原始數據中有噪聲數據、冗余數據及缺失數據等問題,需要對數據進行處理,通過轉換、凈化和標準化處理后,數據被重新組織成面向主題的、一致的數據,置入數據倉庫之中。
4.3 綜合管理數據庫
數據倉庫實現對預測主題和信息的存儲與綜合。預測執行完成后的結果存儲在數據倉庫中,形成決策信息庫。如航班運行分析管理,就可以把大量的航班運行數據、設備設施監控數據存入到數據倉庫中,和其他已存入數據倉庫的數據信息進行綜合分析,得出航班保障過程中最優的設備設施運行及管理方案。該方案可根據航班情況按需分配登機橋、通道、照明、空調、扶梯等設備設施,從而提高設備/設施的利用率,降低航班運行保障成本。引入數據集市是因為通過將數據倉庫和數據集市分離的方法,可以使數據倉庫集中精力解決數據整合和清理等問題,而數據集市則致力于為特定的決策過程提供服務。數據倉庫在數據源和直接面對決策支持過程的數據集市之間形成了一個緩沖,數據集市可以面向一個優良的數據倉庫來建設,數據源的變化可以不直接影響到數據集市。
4.4 數據分析提取
經過數據處理后的數據可以通過聯機分析處理技術(OLAP)來支撐復雜的決策分析過程。聯機分析處理基于數據集合中的信息,運用航班運行規律開發相關的模型庫、知識庫、進行聯機數學運算和數據加工處理,并提供靈活、交互式的統計、趨勢分析和預測,為機場管理部門提供輔助決策[5]。鑒于機場的特點,可以把數據分類成實時性數據和非實時性數據。通過搭建云計算平臺采用MapReduce技術、Hadoop技術對數據進行處理[6]。數據挖掘工具從數據倉庫中挖掘的知識形成知識庫。知識庫是領域知識,用于進行知識推理實現定性分析輔助決策。模型庫和方法庫為決策問題提供定量分析(模型計算)和輔助決策信息。方法庫由預測方法字典和方法算法類庫組成。模型庫由預測模型字典、模型參數字典和模型存儲庫組成。OLAP(聯機分析處理)與模型庫、方法庫、知識庫進行信息交互,與圖形用戶界面進行多次對話完成預測分析過程。
4.5 數據可視化
建設數據倉庫和對數據進行挖掘的最終目的是讓機場管理人員能夠方便地使用這一集成的決策支持環境,以獲取有價值的信息,從而能對未來航班保障、旅客服務等做出迅捷準確的判斷,進而制定相應的對策。因此,界面友好、功能強大的可視化工具也需要被集成到總體架構中。機場綜合管理數據庫匯總了各種數據源的數據,存儲了海量的非結構化數據。數據應用的復雜性不僅體現在數據樣本本身,更體現在多源異構和數據的動態交互方面。因此,需要利用人工智能、視覺智能技術等改變數據處理和知識提煉方式,通過輔助圖像分析以及人機推理技術,開發面向各種任務的處理快速、可定制的視覺分析軟件。通過視覺分析軟件的應用,讓分布在不同部門的機場用戶可以根據具體需求進行數據分析,得到有價值的可視化信息。
5 總結及展望
目前,國內機場特別是大型機場,在運營過程中積累了大量的運營數據,由于過去缺乏有效的技術手段,大量的歷史數據并未得到有效利用。大數據技術日趨成熟,因此,機場運營管理數據庫建設過程中完全可以利用大數據技術,運用數據挖掘等工具對海量的運營數據進行價值發現,實現機場的業務增值及服務質量提升。如在旅客服務方面,可以改變傳統的被動式服務方式,利用大數據技術提前分析掌握旅客需求,使服務前移,為旅客提供個性化的服務;如在航班業務方面,可以利用大數據技術對所保障航班的資源配置、人員配置情況進行深入分析,挖掘保障合約、機型、到場時間與地面服務、資源配置以及人員排班的潛在規律,從而為航班保障計劃的優化提供數據支撐;如在應對航班延誤等突發情況,可以用大數據對歷史航班延誤情況進行深入分析,根據不同原因制定有效的應對措施,延誤發生時利用大數據技術及時掌握旅客的微博、微信等輿情,從而盡早的啟動應急預案。
通過以上分析可知,大數據在機場領域有著良好的應用前景,尤其是國內一些大型機場正在進行綜合管理數據庫的建設,這也為大數據在機場領域的應用提供了很好的契機。但是,在大數據應用層面,相關研究仍然在很大程度上集中在以“云計算”為核心的大數據相關計算機技術與軟件的開發上[7]。如何把大數據研究應用于實際的學科領域,特別是機場領域,目前仍處于理論階段。由于具體條件的限制,本文只是從總體上對大數據技術在機場綜合管理數據庫建設過程中的應用進行了探討和分析,提出了設計方案,為將來大數據在機場的實際應用提供參考。
參考文獻:
[1] 孫召利.大數據在民航領域應用的初步研究[J].空運商務,2014.345:
11-15
[2] 盧建昌,樊圍國.大數據時代下數據挖掘技術在電力企業中的應用[J].
廣東電力,2014.27(9):88-94
[3] 周建忠.機場應用大數據初探[J].交通企業管理,2014.9:68-70
[4] 虞健飛,朱家元,張恒喜.數據倉庫設計過程研究[J].計算機工程,
2003.29(19):146-169
[5] 吉根林,趙斌.面向大數據的時空數據挖掘綜述[J].南京師大學報(自
然科學版),2014.37(1):1-7
[6] 嚴霄鳳,張德馨.大數據研究[J].計算機技術與發展,2013.23(4):
168-172
[7] 孟小峰,慈祥.大數據管理:概念、技術與挑戰[J].計算機研究與發展,
2013.50(1):146-169