李凡
摘 要 目前長江海事局現有的數十個信息系統在支撐傳統海事業務中扮演著重要的角色,但是隨著時代的發展越來越暴露出很多問題,如:系統之間接口繁雜,信息孤島,各系統之間數據不一致,無法支持智能化安全監管、船舶防污、人命救助等業務。通過大數據的技術,打通數據孤島,建立業務分析預測模型,對現有海事信息系統進行智能化改造,可以全面提升海事局的各項業務的速度和質量。
關鍵詞 數據清洗 數據挖掘 關聯分析
1航運船舶大數據研究的意義
國家海事部門2011年組織編制了《海事信息系統頂層設計》,提出了“一個目標、二個模型、四套體系”,即海事信息化總體發展目標,信息系統和基礎設施的架構模型,以及標準規范、管理控制、規章制度和組織體系,以指導海事未來一段時期的信息化建設。在“大數據”管理時代,這一切將發生改變。基于數據的“事實”將會成為決策的重要依據。
海事管理涉及人、船、環境等多個方面,其中船舶的管理是其中的一大重點。目前,海事局已經建立了完善的船舶登記系統和船舶動態管理系統,用于收集和管理船舶的基本情況和安全管理狀況,包含船舶基本數據、登記注冊信息、安全檢查、事故、行政處罰、重點跟蹤及協查船舶等分類管理信息。在“大數據”時代,經過專業化的處理,每一艘船的信息都將詳盡地記錄在案。對于船舶的管理,更多是基于計算機系統對數據分析后得出的“客觀判斷”,讓“事實”成為真正的“決策人”。隨著長江海事局數據資源中心的建成并投入使用,海事業務系統信息孤島的問題基本得到解決,為海事數據的大數據分析和挖掘奠定了堅實的基礎。
2航運船舶大數據研究的目標
對海事數據進行清洗、整合,抽取幾個關鍵維度,建模分析,預測船舶是否違章。把建立的模型應用到業務系統:通過實時抽取業務系統數據,實時預測船舶違章狀態并提供報表展示。
3航運船舶大數據研究的方法
3.1理論依據
實施大數據戰略意味著管理模式的轉變,從經驗思維過渡到數據思維。經驗思維是以個人知識和經驗為中心的管理,強調個體的作用。數據思維則以客觀數據為基礎,通過對數據抽取、清洗、整合、建模、分析和可視化,形成決策信息和知識。所以,數據,特別是海量大數據,對于海事管理意義重大。
數據對于管理模式的提升分為三個層次(如圖1所示):
第一層:報表。這是對部門的數據進行分析匯總,制作業務所需要的各種報表。由于數據的采集范圍所限,報表層的大數據分析,體現的是局部信息;
第二層:數據倉庫/商業智能。這是對全海事各個部門的數據進行統一歸類,抽取,清洗和集成,形成企業統一數據中心。基于數據中心,開發商業智能應用,包括多維分析、企業儀表盤,即席查詢報表等;由于數據倉庫是企業全部數據的整合,它所展示的是整體信息;
第三層:數據挖掘。這是根據歷史業務數據建立挖掘模型,包括客戶分類模型、精準營銷模型、客戶購買決策判斷模型、客戶流失預警模型等。建立好的模型用于對當前客戶進行實時預測分析,給管理者提供一個預知未來的能力。
3.2大數據平臺系統部署架構圖
工作流程:
(1)大數據開發工程師了解客戶業務,整理需求,設計大數據解決方案;
(2)大數據開發工程師使用客戶端,根據設計方案開發數據處理流程;
(3)數據處理流程通過“后臺服務”推送到“引擎服務”;
(4)“引擎服務”對數據處理流程進行翻譯,把翻譯的結果推送到“計算集群”;
(5)“計算集群”申請計算資源,執行翻譯結果。
(6)如果執行過程中需要抽取網頁/微博數據,則請求“抽取服務”獲取對應數據。
(7)如果需要其他類型數據,則直接從“數據源”請求數據;
(8)“計算集群”對數據處理分析的結果以推送到“報表服務”,由報表服務渲染成可視化報表;
(9)最終用戶通過筆記本,手機或其他終端設備訪問報表服務,獲取分析報告。
系統配置清單:
3.3系統功能架構圖
海事大數據平臺包括5個子模塊:數據抽取、數據整合、數據中心、建模分析和報表展示。新平臺提供10多種不同的數據接口,可以抽取任意的業務數據,包括海事外部的數據,比如新浪微博和網頁等。抽取來的數據輸入到分布式整合引擎,進行數據的清洗、過濾、整合。其目的是解決數據質量問題,把最終清洗整合好的高質量業務數據,統一導入一個分布式的大數據中心,實現數據的長時間永久保存。基于大數據中心可以建立各種挖掘分析模型。挖掘分析的結果,通過可視化的方式展示給最終用戶。
整個大數據平臺為可視化環境(IDE),工程師可以通過一個可視化的工具對各個模塊進行配置和管理。
整個大數據平臺的功能,運行在高性能分布式的計算集群上。
3.4數據抽取子模塊
數據抽取子模塊用于從海事的各個業務系統中抽取數據。抽取上來的數據通過接口自動導入到數據整合子模塊,進而對業務數據進行過濾、清洗、變換和集成。
抽取功能通過可視化組件的形式在敏捷大數據IDE中提供。抽取功能也提供了http和webservice接口,用于和第三方應用的整合。
3.5數據整合子模塊
該模塊用于對抽取來的原始業務數據進行過濾、清洗、變換和集成。業務數據在被整合的過程中,逐步解決多種數據質量問題:
數據不一致:比如同一個船員的手機號碼,在不同系統中不同。數據不一致,將導致最終的報表可能數據有沖突,影響運營和決策;解決數據不一致問題,一般是先確定業務規則,然后在數據整合系統中實現該業務邏輯。
數據丟失:多種原因可能導致數據丟失,比如個人隱私,像船舶AIS狀態。采用敏捷大數據有多種數據擬合模型,可以用于對缺失的數據進行推測補充。
數據孤島:來源于不同業務系統的數據其目的并不是為分析設計。使用大數據技術建立360度的業務模型,比如客戶畫像,依賴海事全局的大數據中心。該大數據中心整合了各個業務部門、各個業務流程、各個渠道的數據。
3.6數據中心子模塊
數據中心子模塊以敏捷大數據平臺本身的數據存儲系統為核心搭建。它是一個分布式的大數據存儲系統,可用于GB、TB、PB級的海量數據存儲和高效讀取檢索。和傳統關系型數據庫對比,其存儲能力幾乎無限,可以通過集群低成本快速水平擴充。同時,它可以對分析,建模,報表,以及第三方系統提供高性能查詢接口。億級記錄,實時查詢可控制在秒級。
3.7建模分析子模塊
建模分析子模塊主要是數據挖掘模型支持,包括聚類、分類、回歸、支持向量機等10多種不同的數據挖掘模型。這些挖掘模型可用于解決各種海事大數據分析模型,這些模型同樣也是通過可視化組件的形式提供:
4航運船舶大數據研究的結論
4.1事故關聯分析
關聯分析,即利用關聯規則進行數據挖掘。關聯規則是指幾種事物之間存在的因果關系。例如在船舶碰撞事故中,瞭望不當和疲勞之間的相關性就是一種關聯規則。關聯分析的目的是挖掘隱藏在數據間的相互關系,它能發現數據庫中形如“90%的碰撞中,當了望不當時,值班人員總是處于疲勞狀態之類的知識”。
關聯規則挖掘旨在建立數據項間潛在相互關系的模型,并用規則的形式表示出來。其中支持度 是關聯規則中的一個重要概念, 表示包含某個事務在數據庫中所占的比例。
內河航線固定,事故與其發生河段存在著很大的相關性, 海事管理部門的經驗性的分析主要是集中在幾個重點航段中的海事發生率。但數據挖掘技術的優勢可以通過多個數據分析主題的關聯, 在更高層次上對數據進行泛化, 從而得出優于個人經驗的相關結論。通過對海事事故進行關聯分析,確定導致事故的客觀或主管因素,從而可以制定有針對性的預防和救治措施,以預防事故發生。
4.2事故聚類分析
聚類分析屬于探索性的數據分析方法。通常,我們利用聚類分析將看似無序的對象進行分組、歸類,以達到更好地理解研究對象的目的。聚類結果要求組內對象相似性較高,組間對象相似性較低。聚類分析把海事事故自動分組,再對每一分組進行關聯查詢,特征化,即可得到該組事故的關鍵特征。由此,可以判斷導致特定類型事故發生的主要因素,從而可以制定有針對性的預防和救治措施,以預防事故發生。
4.3船舶航行軌跡聚類分析
通過提取船舶AIS數據,采用KMeans聚類技術對船舶的航行軌跡進行刻畫和自動分組,并以形象的可視化形式進行展示見圖5。
·航道預警分析
·在船舶密度達到一定閾值時,系統報警,預防事故發生。
·分析航道使用率
·分析航道使用密度和事故的關聯性
·最繁忙航道
·航道使用情況隨時間、季節、水文、氣象等變化
4.4河道交通流量預測
通過測試,完全實現了預先設定的測試目標,基本驗證了敏捷大數據技術在海事當中應用的價值和可能性,為正式立項和推廣奠定了堅實的基礎。通過對AIS、簽證、違章的數據清洗整合,克服了數據存儲方式導致的抽取耗時高、數據質量、海事業務知識積累不足的困難。通過抽取幾個維度的信息,建立了一個能對運行船舶是否違章進行實時預測的模型。
5未來展望
5.1建立船舶完整數據鏈
打通各個業務系統的數據,消除信息孤島.整合AIS軌跡、簽證、違章、船員、貨物等各個業務系統及外部數據,建立一個全方位的船舶信息中心。實現船舶監管的立體化。
5.2通過數據挖掘提升監管介入
通過對海事數據建模分析,提高對違章、事故的防范能力,通過數據預測結果,優化監管流程、監管介入時間及地點,精準監管,提高監管效率。
5.3數據輔助決策
通過大數據中心的建立,對各個業務進行建模分析,優化流程,輔助決策。改變以往的憑經驗、拍腦袋的主觀決策方式,尋求通過數據層次的支持來輔助決策的方式。
參考文獻
[1] 刁瑩. 用數學建模方法評價存儲系統性能[D].哈爾濱:哈爾濱工程大學,2013.
[2] 符青云.面向大規模流媒體服務的高性能存儲系統研究[D].成都:電子科技大學,2009.
[3] 王玉林.多節點容錯存儲系統的數據與緩存組織研究[D].成都:電子科技大學,2010.
[4] 羅東健.大規模存儲系統高可靠性關鍵技術研究[D].武漢:華中科技大學,2011.
[5] 劉洋. 層次混合存儲系統中緩存和預取技術研究[D].武漢:華中科技大學,2013.
[6] 任崇廣.面向海量數據處理領域的云計算及其關鍵技術研究[D].南京:南京理工大學,2013.
[7] Pavlo,A. et. al. A Comparison of Approaches to Large-Scale Data Analysis[D].In Proc. of ACM SIGMOD, 2009.
[8] Chaiken,R. et. al. Scope: Easy and Efficient Parallel Processing of Massive Data Sets[D].In Proc. of VLDB, 2008.