王沛東,侯 靈,孫周軍,江銘諾,周嘉健
(1.廣東省氣象探測數(shù)據(jù)中心,廣東 廣州 510080;2.廣東省氣象公共服務(wù)中心,廣東 廣州 510080)
氣象數(shù)據(jù)是一切氣象業(yè)務(wù)、科研和服務(wù)的基礎(chǔ)和源頭,其中歷史數(shù)據(jù)資料更是對一個地區(qū)特定歷史時期天氣、氣候狀況的觀測記載,對于氣候?qū)W、天氣學(xué)等氣象科學(xué)領(lǐng)域的研究與應(yīng)用具有重要的現(xiàn)實意義和寶貴的使用價值。
廣東省歷史氣象報表文件是各氣象臺站將實時觀測的氣象數(shù)據(jù)根據(jù)特定格式按月、按年生成的報表文件,這些文件記錄了地面、輻射、大氣成分、高空等觀測值和統(tǒng)計值,經(jīng)人工審核后進入廣東省歷史氣象檔案進行歸檔。主要包括地面氣象小時觀測月報數(shù)據(jù)文件(A文件、A0文件、A6文件)、廣東區(qū)域站地面氣象小時觀測月報數(shù)據(jù)文件(DG文件)、地面氣象分鐘觀測月報數(shù)據(jù)文件(J文件)、地面氣象年報數(shù)據(jù)文件(Y文件)、輻射氣象小時觀測月報數(shù)據(jù)文件(R文件)、酸雨日值月報數(shù)據(jù)文件(S文件)、高空氣象探測月報數(shù)據(jù)文件(G文件)。該數(shù)據(jù)作為人工審核后的歷史數(shù)據(jù),具有比一般歷史數(shù)據(jù)更高的數(shù)據(jù)質(zhì)量,對歷史氣象研究有著頗高價值。
而在本省當(dāng)前業(yè)務(wù)中,對此類數(shù)據(jù)的應(yīng)用較少,已經(jīng)實現(xiàn)數(shù)據(jù)庫存儲的基本上也只有地面小時觀測月報,對于其他種類、其他時間尺度的報表數(shù)據(jù)還沒有充分利用起來。因此,本工作在充分搜集各類歷史氣象報表文件及其數(shù)據(jù)格式規(guī)范[1-4]的基礎(chǔ)之上,對這些文件進行分類解析,將文件信息提取寫入到本省數(shù)據(jù)庫,建立了廣東省審核氣象歷史資料專題庫數(shù)據(jù)集,并通過本省的一體化數(shù)據(jù)訪問平臺服務(wù)于用戶。
同時,由于該數(shù)據(jù)集是一種歷史檔案資料,具有很高的保密性,通過一體化數(shù)據(jù)訪問平臺對該數(shù)據(jù)集進行了訪問權(quán)限的控制,只有被授權(quán)的用戶才可使用。
廣東省審核氣象歷史資料專題庫數(shù)據(jù)集的建設(shè)和數(shù)據(jù)服務(wù)流程如圖1所示。首先由全省各氣象觀測站點進行實時觀測,將采集到的數(shù)據(jù)以數(shù)據(jù)文件或數(shù)據(jù)流的方式傳輸?shù)绞〖壨ㄐ畔到y(tǒng)進行分發(fā),其中有一路數(shù)據(jù)會進入到MDOS系統(tǒng)(氣象資料業(yè)務(wù)系統(tǒng))進行質(zhì)量控制,質(zhì)控算法會將疑誤數(shù)據(jù)標(biāo)記出來,省級審核人員會加以人工審核判斷,將結(jié)果返回至氣象臺站進行確認(rèn)或訂正,訂正完畢后將重新發(fā)送更正數(shù)據(jù)至省級服務(wù)器作為實時觀測數(shù)據(jù)供用戶使用[5]。到每月或每年結(jié)束,各氣象臺站會根據(jù)上月或上年的觀測數(shù)據(jù)進行記錄或統(tǒng)計,按照全國通用的標(biāo)準(zhǔn)格式生成月報表、年報表文件,經(jīng)人工審核檢查后上傳至省級氣象審核部門,省級審核員會對文件格式和內(nèi)容進行再次人工審核,確認(rèn)無誤后進行歷史氣象歸檔。本業(yè)務(wù)對這些報表文件進行統(tǒng)一收集并推送到解碼服務(wù)器進行分類解碼,將數(shù)據(jù)寫入到MySQL數(shù)據(jù)庫進行統(tǒng)一存儲,通過實時歷史一體化數(shù)據(jù)訪問平臺(IDEA接口平臺)進行統(tǒng)一數(shù)據(jù)管理,并通過該平臺與數(shù)據(jù)庫的交互接口提供給全省各氣象業(yè)務(wù)和科研用戶使用。

圖1 廣東省審核氣象歷史資料專題庫數(shù)據(jù)集的建設(shè)和數(shù)據(jù)服務(wù)流程示意圖
基于各類歷史氣象報表的格式規(guī)范和文件內(nèi)容[1-4],在MySQL數(shù)據(jù)庫中設(shè)計并建立數(shù)據(jù)表,以資料時間+站號作為主鍵和唯一索引,將大數(shù)據(jù)量的小時和分鐘級別的數(shù)據(jù)按照時間和站號進行分庫分表,減輕數(shù)據(jù)訪問壓力,提高數(shù)據(jù)讀寫速率。
采用C/S架構(gòu),使用Java語言,基于開源的Apache Mina框架開發(fā)的基于文件傳輸協(xié)議的氣象數(shù)據(jù)流式處理平臺,定義了數(shù)據(jù)流從到達、觸發(fā)解碼、觸發(fā)持久化、觸發(fā)處理完成或失敗的整個業(yè)務(wù)流程接口,能夠?qū)⑻幚砗蟮臄?shù)據(jù)進行分類存儲,還能支持以插件方式進行多種資料解碼的擴展。
軟件的技術(shù)功能:①FTP服務(wù)。軟件啟動后會自動搭建FTP服務(wù),IP地址為軟件部署服務(wù)器的地址,而端口號、賬號、密碼可通過配置文件設(shè)置。②多線程數(shù)據(jù)解析。對多路上傳的文件進行多線程解析,提高解碼速度。③多線程數(shù)據(jù)持久化。對多并發(fā)數(shù)據(jù)解析過程進行多線程持久化處理,提高結(jié)果的存儲效率。
在該軟件基礎(chǔ)上進行二次開發(fā),即根據(jù)各類歷史氣象報表文件的格式內(nèi)容及設(shè)計好的數(shù)據(jù)表,編寫插件式解碼程序完成后部署在一臺服務(wù)器上,一鍵運行即可,只需將數(shù)據(jù)文件以FTP的方式傳輸至該服務(wù)器,就能完成數(shù)據(jù)的快速解碼和入庫存儲。主要的邏輯流程如圖2所示。

圖2 數(shù)據(jù)處理平臺解碼入庫流程示意圖
廣東省氣象局一體化數(shù)據(jù)訪問平臺(IDEA平臺)是一個包括了海量氣象行業(yè)的實時、歷史數(shù)據(jù)的,涵蓋了氣象、旅游、交通、水利、水文、環(huán)保、海事、漁業(yè)等多部門的,融合了豐富的地球多圈層氣象科研資料的數(shù)據(jù)訪問平臺。平臺通過通用接口、圖形接口、格點接口等數(shù)據(jù)接口將不同類型和格式的資料提供給全省氣象部門的用戶。其中通用數(shù)據(jù)接口實現(xiàn)與關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)進行交互,從而將結(jié)構(gòu)化數(shù)據(jù)便捷地提供給用戶。
本業(yè)務(wù)在IDEA平臺上對應(yīng)的資料分類里配置了若干通用的數(shù)據(jù)接口,用戶可通過時間、站號、行政區(qū)劃(省、市、縣)等信息對數(shù)據(jù)進行檢索和下載。同時利用平臺的賬戶權(quán)限管理機制,以白名單的方式對用戶可訪問的接口進行授權(quán),保證數(shù)據(jù)的安全性,實現(xiàn)數(shù)據(jù)的合理化管理和服務(wù)。
廣東省審核氣象歷史資料專題庫數(shù)據(jù)集由主要幾類歷史氣象報表文件(A、A0、A6、DG、J、Y、R、S、G文件)解析所得,目前資料一共有4大類、8小種,涵蓋了從分鐘尺度到年尺度的長時間歷史序列的多個氣象要素觀測值或統(tǒng)計值,所有資料中用到的時間統(tǒng)一為世界時,其中高空觀測時次為每日00:00和12:00,資料的類別、名稱、來源、時間和頻率、站點范圍等說明信息如表1所示。其中需要說明的是,國家地面自動氣象站歷史小時數(shù)據(jù)的來源——地面氣象小時觀測月報經(jīng)過多年演變,歷經(jīng)3種格式:2004年之前為A0和A62這種文件,其中A6文件的要素為A0文件的補充,兩者共同組成了2004年以前的小時觀測月報;2004年演變?yōu)锳文件,之后一直沿用至今。

表1 廣東省審核氣象歷史資料專題庫數(shù)據(jù)集說明信息
高準(zhǔn)確性。廣東省審核氣象歷史資料專題庫數(shù)據(jù)集的數(shù)據(jù)源是人工審核后的月報表、年報表文件,相當(dāng)于是在MDOS系統(tǒng)質(zhì)控的基礎(chǔ)上再加入人工審核的“自動+人工”雙重機制,這些報表會進入氣象歷史檔案,因此具有更高的準(zhǔn)確性。
高系統(tǒng)性和高完整性。本省原來的長時間序列的歷史數(shù)據(jù)多集中于地面小時資料,其余類別相對較少,而本數(shù)據(jù)集包含了地面、輻射、酸雨、高空等多種類,分鐘、小時、日、月、年等多時間尺度的數(shù)據(jù)信息,具有更加系統(tǒng)和更加完整的特點。
數(shù)據(jù)調(diào)用。一體化數(shù)據(jù)訪問平臺提供http和webservice方式供用戶調(diào)用數(shù)據(jù),只需將地址和參數(shù)按照一定格式拼接成URL和XML,即可在開發(fā)應(yīng)用中使用,并且可指定數(shù)據(jù)的返回格式(html、txt、xml、json、suffer、csv、arff等)。
數(shù)據(jù)下載。一體化數(shù)據(jù)訪問平臺提供了數(shù)據(jù)下載工具,使用時只需選擇對應(yīng)的數(shù)據(jù)接口,設(shè)置相關(guān)參數(shù)(如時間、站號、行政區(qū)劃等),選擇數(shù)據(jù)格式(html、txt、xml、json、suffer、csv、arff等)和存放路徑即可。
廣東省審核氣象歷史資料專題庫數(shù)據(jù)集因其高準(zhǔn)確性、高系統(tǒng)性和高完整性的特點,可廣泛應(yīng)用于氣候分析、歷史天氣過程分析、生態(tài)環(huán)境氣象研究、歷史格點實況數(shù)據(jù)檢驗、歷史數(shù)據(jù)質(zhì)控回算等氣象業(yè)務(wù)和科研領(lǐng)域,尤其是在數(shù)據(jù)檢驗中可作為檢驗真值數(shù)據(jù),有著很高的應(yīng)用價值。
本文介紹了廣東省審核氣象歷史資料專題庫數(shù)據(jù)集的來源背景、業(yè)務(wù)流程、建設(shè)技術(shù),并且對該數(shù)據(jù)集的使用進行了說明,主要總結(jié)如下:①廣東省審核氣象歷史資料專題庫數(shù)據(jù)集來源于7種由各氣象臺站將實時觀測的氣象數(shù)據(jù)根據(jù)特定格式按月、按年生成并經(jīng)人工審核后的報表文件。②該數(shù)據(jù)集主要是經(jīng)過臺站觀測、MDOS質(zhì)控、疑誤反饋、報表制作、人工審核、數(shù)據(jù)解析、存儲管理、數(shù)據(jù)服務(wù)等8個業(yè)務(wù)過程而形成。③數(shù)據(jù)存儲使用MySQL數(shù)據(jù)庫;數(shù)據(jù)解碼程序采用C/S架構(gòu),使用Java語言,在基于文件傳輸協(xié)議的氣象數(shù)據(jù)流式處理平臺的基礎(chǔ)之上開發(fā);數(shù)據(jù)管理服務(wù)依托廣東省氣象局一體化數(shù)據(jù)訪問平臺實現(xiàn)。④該數(shù)據(jù)集一共有4大類、8小種,涵蓋了從分鐘尺度到年尺度的長時間歷史序列的多個氣象要素觀測值或統(tǒng)計值,可通過http、webservice或數(shù)據(jù)下載工具等多種方式獲取,由于其高準(zhǔn)確性、高系統(tǒng)性和高完整性,因此,可廣泛應(yīng)用于多個氣象業(yè)務(wù)和科研領(lǐng)域。
最后,需要說明的是,本工作成果只是建設(shè)了一套廣東省審核氣象歷史資料專題庫數(shù)據(jù)集,但還并沒有對該數(shù)據(jù)集進行深度、全面的評估和應(yīng)用,有關(guān)工作將在今后進一步展開,以期為該數(shù)據(jù)集的價值和影響力提供更多的支撐。