趙卓寧 李湘 舒紅平 何文春 孫超
(1 成都信息工程大學,成都 610225;2 國家氣象信息中心,北京 100081;3 中國氣象局-成都信息工程大學氣象軟件工程聯合實驗室,北京 100081)
氣象大數據資源匯交是氣象主題相關的數據采集、吸納、存儲的過程,是氣象大數據產品和服務輸出的前序環節,目的是確保氣象相關數據得到長期保藏、有序共享和廣泛應用。數據匯交過程中采集、加工、存儲和共享等業務作業環節,將改變資料結構、資產數量和資源品質,推進數據服務共享、資源價值再生和領域知識涌現等。隨著大數據技術在各行業深入應用,推動了行業信息資源供給的流動性,跨行業、跨部門的信息資源匯交業務日益增多,數據資產供給交易、數據服務價值評估、數據產品協同生產等業務級評估需求日益旺盛。統籌管控數據匯交業務,依賴于對作業各環節業務處理狀態和資源品質的跟蹤和評估。傳統海量、實時匯交業務多數基于專用業務監控功能,面向大數據匯交則需拓展適用于跨行業、跨部門數據匯交的監控功能,并可視化分析業務處理過程及結果[1],為持續改進的數據匯交過程提供信息反饋,這對完善氣象大數據平臺建設和應用開發具有重要的支撐作用。
氣象大數據資源是以氣象為主題的廣義氣象信息資源,具有跨行業、跨領域、跨部門、多學科交叉的主題特征,包涵氣象相關的科學、工程、技術、業務、服務、組織、人員等領域的信息資源。以氣象科學專業知識服務系統(http://k.data.cma.cn/)為例,截止2017年3月16日,已累積數據條目140758條,涉及氣象基礎數據、氣象數據產品、專業文獻、院士專家、科研機構、科研報告、標準規范、氣象專利、氣象百科、新聞資訊等10大類數據。
根據氣象行業標準《氣象資料分類與編碼》(QX/T 102-2009)氣象信息資源有14大類,即地面、高空、輻射、海洋、農業氣象和生態氣象、大氣成分、衛星、雷達、氣象災害、數值預報產品、歷史氣候代用、科學試驗和考察、氣象服務產品和其他資料。國內氣象資料主要通過全國地面寬帶網、大院骨干網等國內通信系統收集。其中,地面氣象寬帶網收集省級上行資料,大院骨干網收集國家級業務單位資料。這些氣象資料匯交所形成的氣象資料和氣象服務產品,通過CMACast衛星廣播、實時數據推送、數據庫接口訪問(API)、國家級氣象業務內網(http://idata.cma)、中國氣象數據網(http://data.cma.cn)等五種方式,向國家級業務單位、省級業務單位以及其他企事業單位用戶和社會公眾用戶提供服務,日均數據服務量已達TB級。
氣象大數據資源包括氣象行業內的氣象信息資源和來自網絡的其他行業數據資源。氣象大數據資源匯交是氣象大數據處理的一部分,由加工、元數據和存儲三部分組成(圖1)。實線表示氣象業務數據流,將來自氣象觀測的數據經采集、傳輸、加工、存儲和服務形成氣象產品的過程。虛線表示其他行業數據流,將行業外部數據源經通信網絡接收或前置機采集后,加載到數據倉庫或各類存儲中,再經面向主題的場景加工,形成氣象大數據產品的過程。
氣象大數據信息資源數據采集范圍和服務對象具有跨行業跨部門、跨領域的擴展性,導致氣象大數據資源匯交具有過程復雜性:1)接入的數據來源差異大,預處理工作量復雜,數據接入的方式多樣,包括前置機、網頁爬取、數據接口輸入、通信系統接入、應用系統輸入、手工輸入等;2)氣象元數據在數據匯交中的分類標注作用有限,需要拓展和引入涉及其他領域的元數據定義;3)大數據匯交包括從外部進入內部的匯入,以及從內部向外部的匯出,其中匯入數據形式零散、類型繁雜,匯出數據主題明確但維度和關聯復雜。
氣象大數據匯交就是將“匯交資源”變成“氣象大數據資料”的過程。氣象大數據匯交的對象模型(圖2)是對這一過程中所涉及的客觀實體關系進行的靜態描述,是可視化分析的模型基礎[2-3]。從匯交業務視角看,氣象大數據匯交的對象模型由匯交資源和氣象大數據匯交兩個業務領域組成。
1.3.1匯交資源
匯交資源描述了以“匯交資料”對象為中心的對象關系圖譜。描述了“數據生產者”從其“業務系統”中提供多個“數據包”的匯交資源結構。一個“數據生產者”擁有多個“業務系統”,每個業務系統提供多個“數據源”,每個“數據源”包含“設備”、 “數據員”信息,每個“數據源”可提供多個“數據包”。一個 “數據包”由多個“匯交資料”組成,“數據包”是進行數據匯交時發送和接收數據的基本單位。一個“匯交憑證”中包含了多個“數據包”,即一次數據匯交中可以涉及多個“數據包”。
“匯交資料”是一種“氣象資料”,也是一種“行業資料”,都可以統稱為“資料”,具備“資料”的所有屬性。“氣象資料”的類型由“氣象資料類型”定義描述,“行業資料”由“行業資料類型”定義描述。“氣象服務”、“模式數據”都是一種“產品”,而“產品”、“國外資料”都可用“匯交資料”所具備的屬性來描述。一個“匯交資料”由多個“要素”組成,這些“要素”繼承了“常規氣象要素”的特征,也可能繼承了“公路交通要素”、“軌道交通”、“閃電定位”等要素的特征,也可以按“要素模板”拓展自定義特征。所有這些“要素”特征都可以統一用“資料要素”這個領域描述。
1.3.2氣象大數據匯交
氣象大數據匯交描述了“匯交資料”經匯交處理后存儲為“氣象大數據資料”的數據組織結構與關系。
一個“匯交項目”包含多次“匯交任務”,一次“匯交任務”對應多條“匯交記錄”,一條“匯交記錄”的詳細情況由多條“匯交日志”記錄描述。一個“匯交工具”執行多次匯交就對應多條“匯交記錄”,一次匯交可能由多個“匯交工具”協同執行,因此,“匯交工具”和“匯交記錄”是多對多的關系,這種關系可由“匯交日志”詳細記錄。

圖2 氣象大數據匯交的對象模型Fig. 2 The object model of meteorological big data collection
一種“氣象大數據資料”是“氣象大數據目錄”中的一種“元數據”。其中“元數據”就是依據氣象行業標準《氣象資料分類與編碼》(QX/T 102-2009)定義的14大類氣象信息資源的分類與編碼信息。
一個“氣象大數據資料”的數據存放可以通過CIMISS接口,入庫到CIMISS系統中,并記錄“匯交入庫”。也可以單獨在“氣象大數據存儲”中存儲,并標記存儲所屬的“信息系統”。
“匯交日志”是“匯交任務”、“匯交工具”、“匯交資料”三個對象經過匯交業務處理后,建立的可追溯的關系對象,記錄了根據 “匯交任務”復用“匯交工具”對“匯交資料”的處理過程。
氣象大數據資源匯交中各數據包從數據源采集,被分解為匯交資料后,經檢查、規范化后吸納,按氣象大數據目錄重新編碼后存儲為氣象大數據資源。匯交分析關注數據包在數據源、匯交資料、氣象大數據資料這三種資料狀態時的結構、質量,以及全程處理過程中的質量和效率。因此,多維分析是匯交可視化分析的特點,分析維度主要包括基本維度、數據源維度、匯交資料維度、氣象大數據維度,匯交任務維度[4]。
基本維度包含時間、空間,數據源維度包含行業、數據生產者、業務系統、設備、數據員、數據包。匯交資料維度包含氣象資料、行業資料、國外資料、產品、服務、要素。氣象大數據維度包含元數據、氣象大數據目錄、存儲、信息系統。匯交任務維度包含匯交階段、匯交任務、匯交項目、匯交工具。
匯交可視化監控主要面向數據匯交采集、吸納和存儲這三個業務環節上,在匯交業務處理發生的事前、事中和事后的全過程,有關流量、質量和效率的監測指標,具體如表1所示。

表1 氣象大數據匯交可視化分析主要指標Table 1 The main indexes of meteorological big data collection visualization analysis
2.2.1流量指標
流量指標主要用于監測匯交處理過程的進度。流量指標是有關采集數據包、吸納匯交資料和存儲氣象大數據資源這三類匯交業務處理過程中,對應處理的事前、事中和事后的量化指標有數據包數據的預估量、在線處理量和完成量。
2.2.2質量指標
質量指標主要用于監測匯交處理過程中有關數據安全、數據業務質量、數據異常、資料規范化、存儲有效性等的性能。
采集階段主要對上報的數據包進行數據安全、業務質量和數據異常的監測。以病毒檢出率指標反饋數據安全,以空報率、漏報率指標反饋數據包業務質量,以數據包異常率反應上報數據傳輸情況。
吸納階段將數據包解包為匯交資料的過程中,需要按氣象大數據的元數據進行分類提取,并按氣象大數據目錄生成匯交任務。采用集對理論[5]構建評估數據包中的數據規范性的指標,設元數據、氣象大數據目錄的編碼規范為數據標準集合A,數據包中已存在的各類數據編碼規范視為集合B,則集合A和B組成集對。設某數據包共有N種數據,其中符合集合A標準的數據類型有S種,不在集合A標準中的數據類型有P種,其余的F=N-S-P個數據類型既不相對立,又不為集合A和B共同具有。則S/N為資料同一度,用于表示符合集合A標準的可匯交資料,資料同一度反應數據包按元數據解包和按氣象大數據目錄生成匯交任務的比例;P/N為資料對立度,用于表示不能使用集合A標準進行轉化的數據包,資料對立度指標有利于區分新類型數據資料。F/N為資料差異度,指部分符合集合A標準的數據包,資料差異度指標有利于識別可再細分數據的數據包。
存儲階段將執行吸納階段所生成的匯交任務,這些任務將按項目提交給不同的匯交工具進行處理。對每個匯交工具存儲過程進行監測,主要包括存儲前可用接口數、存儲中可用存儲量、存儲結束后的有效存儲率。
2.2.3效率指標
效率指標關注匯交業務的關鍵環節的執行情況。采集階段關注事前的延遲上報數據的逾期時間,事中數據包的傳輸速率以及進度,事后單位時間內采集業務完成的數據量。吸納階段關注事前數據包解包為匯交資料的實時解包時間,事中形成資料同一度評價所需要的質量實時審核時間,事后單位時間內匯交資料的處理量。存儲階段關注事前向存儲系統的請求時間,以及事中存儲過程中的實時讀寫時間,事后存儲處理的單位時間處理量。
除了以上三類匯交可視化監控指標外,也可以按不同維度組合對相關業務對象進行計數、平均等匯總處理,以形成對匯交業務處理對象的總體量化指標,與各分析維度一起組成氣象大數據匯交多維分析數據包(表2),可用于支持氣象大數據匯交業務的數據倉庫構建。

表2 氣象大數據匯交多維分析數據包Table 2 Multidimensional analysis data packets for meteorological big data collection visualization analysis
氣象大數據匯交分析數據是在采集、吸納和存儲過程中,由大數據匯交任務調度程序審核、記錄和匯總而形成的,支持面向過程、面向數據、面向服務、面向行業、面向部門等主題分析,通過多種視圖組合,以面向業務對象的方式,借助人眼的感知能力和人腦智能對數據進行交互的可視表達,支持分析任務驅動的時序分析、關聯分析或聚類分析。
氣象大數據匯交可視化分析設計框架(圖3)自頂向下分為應用設計層、業務設計層、服務設計層和匯交設計層,支持從匯交業務流程到匯交可視化分析的處理流程和加工設計。

圖3 氣象大數據匯交可視化分析設計框架Fig. 3 A design framework for visualization analysis of meteorological big data
應用設計層解決匯交業務過程在系統中的模型映射和業務分析關鍵場景識別的問題。支持業務主管人員根據現實業務及需求按采集、吸納和存儲三階段建立業務流程模型,根據不同業務人員業務監控需求面向不同的主題分析定義匯交可視化分析場景。
業務設計層解決匯交過程可視化設計、匯交分析視圖設計的環境和工具問題。支持業務技術人員以類似spss clementine12數據流建模的方式,根據業務流程來定義氣象大數據包的匯交全生命周期過程,并在各業務過程的關鍵環節上,以類似Tableau 10的方式提供“對象—結構—質量”、“對象—結構—效率”、“對象—結構—流量”等樣式,根據分析場景來定義多維分析視圖。
服務設計層解決業務處理邏輯和業務分析邏輯范疇內的業務加工和數據匯總的任務單元組合問題。該層提供類似SOA服務裝配的工具,支持業務技術人員完成業務單元封裝、業務服務接口發布,支持業務分析人員按匯交指標定義業務數據匯總接口。
匯交設計層解決氣象大數據包的采集、傳輸、加工、存儲、審計等數據處理環節上工具調用、日志存儲和數據提交等,該層提供了構件化設計工具,以支持對氣象大數據資源匯交每一任務單元的具體實現。
氣象大數據資源匯交分析是典型的多維數據分析,需要強大的匯交數據匯總配置工具和匯交分析視圖設計工具支持,這些工具的技術選型依賴于氣象大數據資源匯交可視化分析場景的需求。氣象大數據主題分析的內容決定了場景可視化的形式,典型的氣象大數據資源匯交可視化分析場景有以下四類。
面向過程主題分析是在基本維度的基礎上,以匯交任務維度的匯交階段為主,可從數據源維度上考核匯交資料或氣象大數據在流程、質量或效率上的指標。分析主場景以桑基圖展示各匯交階段,基于時序的數據包中各成分在匯交過程中的轉化情況。
面向數據的主題分析是在基本維度的基礎上,以氣象大數據維度的元數據為主,可考核各數據源維度上的匯交資料轉化為氣象大數據的流程、質量或效率。分析主場景以樹圖展示各類氣象資料通過元數據規范化識別并歸入氣象大數據目錄的吸納情況。
跨行業、跨部門、跨系統的主題分析是在基本維度基礎上,以數據源維度中行業、數據生產者、業務系統三種情況為主,可考核匯交資料維和氣象大數據維度上同一度、差異度和對立度等指標,以解析相關行業、部門和系統的數據質量。分析主場景以旭日圖展示各數據的細分溯源、數據具體構成以及存儲情況。
面向服務的主題分析是在基本維度基礎上,對匯交日志數據進行時序顯著性、空間顯著性、關聯關系等深度分析,通過構建數據資源業務價值評估指標,進行相應的服務價值評估。分析主場景以時間序列、地圖等為背景,采用點、線、面的不同標識來呈現其顯著性和關聯性。
現有數據可視化技術為可視化分析提供了豐富的表現形式,但在氣象大數據資源匯交這類過程復雜性的可視化分析領域中,主要挑戰來自于業務對象關系、業務觀測指標、數據描述維度、應用分析場景的復雜性,但卻是決定可視化內容的關鍵。本文結合氣象大數據資源匯交的業務過程,匯交資料與氣象大數據間匯交的內在規范性聯系,構建了氣象大數據資源匯交的數據模型、監控指標、分析設計框架和分析場景,解決了氣象大數據資源匯交可視化多維分析的一些基礎性問題,但可視化分析效果還需結合可視化技術,在構建集成的、實時的、交互式的氣象大數據資源匯交全景工具中改進。
[1]霍亮, 朝樂門. 可視化方法及其在信息分析中的應用. 情報理論與實踐, 2017, 40(4): 111-116.
[2]任利敬, 趙正旭, 徐騫. 三維地圖式可視化大數據. 測繪與空間地理信息, 2017, 40(2): 63-65.
[3]楊彥波, 劉濱, 祁明月. 信息可視化研究綜述. 河北科技大學學報,2014, 35(1): 91-102.
[4]洪文學, 王金甲. 可視化和可視化分析學. 燕山大學學報, 2010,34(2): 95-99, 105.
[5]趙克勤,集對分析及其初步應用[M]. 浙江科學技術出版社 , 2000.
Advances in Meteorological Science and Technology2018年1期