范邵華 余予 鞠曉慧 任芝花
(國家氣象信息中心,北京 100081)
氣象資料就是使用各種觀、探測手段獲取的關于大氣狀態、天氣氣候現象及其變化過程的記錄以及各類衍生記錄[1]。這些長期積累的氣象觀測資料是進行現代化氣象業務建設和深入開展氣候科學研究的基礎性關鍵資源,也為其他行業發展提供了重要的科學支撐。我國歷史氣象觀測資料數量龐大、種類繁多、格式多樣、記錄方式不統一,在2000年左右自動站建立以前,氣象資料多以紙質記錄為主,有以文字、數字、符號為主的觀測簿表、記錄報表,也有以曲線形式圖形記錄某段時間內氣象要素信息的自記紙類資料。在長期保管過程中,中國氣象局及各省市氣象檔案館保存的部分紙質氣象檔案已經出現紙張老化、變脆、破損、字跡模糊退化情況,因此亟需實現數字化。
所謂歷史氣象資料拯救和數字化就是使用多種技術修復資料載體,保留其信息記錄,以維護資料原貌[1],同時使用手工錄入或計算機軟、硬件技術將資料載體上的信息提取出來轉換為可編輯、可處理、符合一定格式和質量要求的數據文件并存儲在電子介質上,以便進行信息檢索利用、加工制作成數據產品提供數據服務[2]。這樣既可以保護資料原件,維持其歷史憑證價值,又能突破基于原有載體服務的局限性,極大提高了歷史氣象資料的應用效率。
在歷史氣象資料拯救與數字化實施過程中,為保證資料安全及數字化質量、節約成本,需遵循安全性、真實性、內容選擇、全程規范化管理等原則[3]。其中內容選擇原則即是因大批量資料載體數字化成本高昂,需根據保存狀況和資料利用需求,來確定數字化資料范圍和優先級,優先拯救破損嚴重、價值重大、用戶需求相對較多的歷史氣象資料,避免重復建設;而全程規范化管理是指由于歷史氣象資料具有種類繁多、數量巨大、格式繁雜等特點,工作流程復雜、產品質量控制困難,需制定詳盡的工作流程、技術標準規范來對數字化過程中的每個工作環節進行把控監管來保證各環節的質量、進度及與下一環節的順利銜接。
為貫徹上述基礎原則,多年來氣象資料數字化工作一般在中國氣象局預測減災司的統一規劃和組織領導下開展[2],由中國氣象局氣象檔案館作為牽頭單位聯合各省(區、市)氣象局資料業務部門共同建設,按照“統籌規劃、分工建設、統一標準、有效集成”的原則具體實施。作為數字化實施主體的中國氣象局檔案館、各省(區、市)氣象局需根據統一規劃確認數字化建設內容、制定具體實施方案;中國氣象局氣象檔案館除完成自身館藏的數字化任務外,還需要對各省定期匯交的氣象觀測記錄數字化成果進行收集、整理、集成建設和質量檢查、質量評估并統一歸檔管理,以確保數字化成果的完整性、準確性和可靠性并積極推動數字化成果轉化應用,為各業務科研單位及決策部門提供服務。
另由于我國省際間的數字化技術儲備差別較大,不太均衡,為加強監督管理保證數字化質量,近年來一般由國家級氣象資料技術人員聯合部分省級優秀資料專家共同組成全國歷史氣象資料數字化工作組或技術組,負責分區(如華北、西南等片區)進行數字化情況摸底預研,明確數字化任務的人、財、物需求,制定各類工作流程、技術規范,指導推動各省(區、市)氣象局標準、規范化地有序開展數字化工作。
20世紀70年代末以來,為滿足氣象資料處理電子化需求,我國開始初步投入人力、物力和財力探索進行氣象資料數字化工作[2],幾代氣象資料工作者的持續努力為我國氣象資料數字化工作打下了良好的基礎。回顧我國的氣象資料數字化發展進程,依據不同時期數字化技術發展水平、業務組織管理方式和數字化成果的數據量增速來綜合考量,氣象資料數字化建設大致可分為奠基、穩步推進和快速發展這三個階段。
1949年以后,我國開始建立統一的氣候資料報送制度,各省編制好各類氣象記錄報表定期報送到中央氣象局氣候資料室[2],但由于技術發展水平限制,直至20世紀70年代末我國才開啟氣象資料數字化進程。
1978年12月,中央氣象局業務處下發《全國基本站地面氣象資料信息化基本模式暫行規定》(中氣函[1978]第212號文,后編號為A0模式[4]),按此要求各省氣候資料室開始使用紙帶穿孔方法對1979年前紙質氣象記錄報表進行信息化,至1990年各省基本、基準站及一般站地面觀測月報表數字化全部完成。后續對這部分記載地面氣象觀測信息的紙帶資料又進行了重新整理和錄入,轉換成了A0文件歸檔保存和服務[2]。1978年—20世紀90年代中期成為歷史資料數字化的奠基階段
在此期間,數字化工作主要由中央氣象資料管理部門推動,以各省氣候資料室為執行主體,取得了一定成果。中國氣象局先后制定和頒發了國家基本站、一般站地面氣象記錄報表(A0文件)、國家基準站地面氣象記錄報表信息化格式(A1文件),為后續的氣象資料數字化發展奠定了基礎。
20世紀90年代中期至2008年期間,各省定期報送到中國氣象局氣象檔案館的主要紙質氣象報表見表1,氣溫、濕度、降水、風向風速等自記紙類氣象記錄只在省級氣象檔案館存檔,不進行匯交上報。
為有效實施數字化拯救與利用,中國氣象局氣象檔案館聯合部分省級氣候中心積極制定多種數字化格式[2,4](表1),這些格式涵蓋了常見的地面、高空、輻射、農業等氣象觀測記錄報表,保障了數字化工作的規范性實施,推動數字化標準建設進程。
另外,基本基準站降水自記紙的彩色圖形數字化處理也是本階段數字化工作的突出成果:2001年5月中國氣象局投入專項經費用于開展基本基準站降水自記紙數字化處理[2],中國氣象局氣象檔案館和廣東省氣候中心共同研究開發了一套自主產權的降水自記紙彩色圖形數字化處理系統[5],截至到2008年全國各省使用該軟件成功地完成了我國680個基本基準站1961—2000年降水自記圖形曲線跟蹤和坐標提取、數據轉換,相關成果已匯交到中國氣象局氣象檔案館歸檔服務。

表1 主要數字化格式制定與修訂Table 1 Digitizing formats and revisions of the main historical meteorological data
這一時期中國氣象局氣象檔案館還進行了部分館藏解放前氣象記錄月報表、海關月總簿、國外珍貴檔案的數字化拯救修復,并完成了1951—1990年高空風記錄月報表(高表-1)和高空壓溫濕記錄月報表(高表-2)的圖像掃描和數據錄入,氣候資料數字化數據量穩步上升。
2009年以來,隨著氣象業務和社會發展水平不斷提高,信息技術日新月異,現代化設備不斷更新換代為大批量紙質氣象資料檔案的數字化提供了可行的物質基礎;各界對時間序列長、空間和時間分辨率更高的氣象資料需求越來越迫切,氣象資料數字化工作得到了管理部門的持續關注和更多經費支持,采購專業數字化公司服務成為工作常態,緩解了資料技術人員短缺的壓力,采購服務后只需要少量技術人員監管其按照相關標準和規定要求在指定的場地和工期內完成數字化工作,并對數字化成果進行質量審核和整理集成,氣象資料數字化進入了高速發展的快車道。
目前我國歷史氣象資料拯救與數字化工作完成和計劃開展情況見表2,這些成果已在或將在氣象業務、科研和其他社會部門中廣泛應用,發揮重要的數據支撐作用。
歷史氣象觀測資料具有種類多、數據格式差異大、不同時期資料質量不均衡的特點,大部分采用人工謄錄方式記錄數據,其中早期解放前資料種類繁多、質量相對較差,而自記紙類圖形記錄較難整理提取。針對這些資料特點,采用單一的技術手段實現全部歷史氣象觀測資料的數字化十分困難,也不切合實際[6]。
目前氣象資料數字化工作中采用的主要技術包括:圖像掃描技術、數據錄入技術、圖形提取技術、數據集成和質檢技術。可根據現有技術發展水平和資料特點,按照業務需要的迫切性,以先易后難的順序綜合確定不同類型氣象資料的數字化技術路線。如手工抄寫謄錄的地面、高空、輻射和農氣常規報表,記錄內容延續性好,可人工錄入后采取強制人機校對方式,能保證識別數據的準確率[6];而自記紙類彩色圖形記錄目前只開展了降水自記紙的圖形提取,其過程主要為利用跡線色彩和深度差別及曲線變化特點將降水曲線從彩色背景圖像分辨凸顯出來[1],人機結合地進行曲線跟蹤,得到跡線特征點的坐標數據,完成降水曲線圖像到小時、分鐘級標準數據文件的轉換[7]。
圖像掃描技術是實現檔案原文存儲和檔案數字化轉換的途徑和手段之一。它的原理是利用掃描儀將檔案原件以圖像方式存儲在計算機內或其他存儲介質上。紙質氣象檔案的圖像掃描步驟和流程[1]主要有:
1)預處理。按照紙質氣象報表的卷冊詳細登記報表種類、站名、區站號、年、月、版面規格和數量,對破損或脆化厲害的應進行備注。裝訂成冊的自記紙需要拆分為單頁;解放前紙質檔案一般不拆分,破損檔案一般先修復再行掃描。報表或自記紙背面如有相關備注記錄要一起掃描,自記紙更應在掃描前進行換紙時間、訂正情況的預處理。
2)掃描設備的選擇。掃描設備的選擇取決于資料幅面和紙張狀況。紙質氣象檔案涉及的幅面大小一般為A3和A4,掃描設備可選用A3幅面平板掃描儀、非接觸式書刊掃描儀、滾筒式掃描儀等。

表2 氣象資料數字化目錄Table 2 Catalog of digitized meteorological data
3)掃描參數的設定。掃描參數根據紙質氣象檔案原件的質量狀況和應用需求來確定,主要包括掃描分辨率、色彩模式和存儲格式等。一般掃描分辨率設為150-300dpi,存儲為JPG格式。
4)掃描圖像后期處理。避免重張、傾斜、模糊等圖像質量問題,盡量去除掃描過程中造成的圖像雜點和臟點;進行圖像糾偏處理,以達到視覺上基本不感覺偏斜為準;按照技術標準規定對圖像進行正確命名等。
檔案數字化的主要技術途徑有兩種, 一是通過電腦鍵盤手工輸入, 二是基于電子圖形文件,利用光學字符識別技術(optical character recognition,OCR)進行數據提取[6]。目前,氣象檔案的數字化錄入主要使用的是手工鍵入形式。數據錄入的步驟和流程主要有:
1)制定數據錄入格式。為保證數據質量,方便數據錄入,針對各要素報表特點,統一制定數字化錄入格式。
2)數據錄入。嚴格按照錄入格式進行錄入處理,一般采取“兩遍錄入”的方式,以確保錄入數據和原始氣象檔案的一致性。
3)錄入數據文件校對。對數字化數據錄入文件應進行嚴格的校對檢查,包括程序檢查和人工審查兩部分,要求至少兩人各自獨立開展校對,稱為“兩校”。
圖形提取技術是從圖像中分離記錄著氣象數據的曲線信息的數字化技術,主要針對自記紙類氣象檔案。目前中國氣象局降水自記紙圖形數字化工作依托“降水自記紙數字化處理系統”進行。“降水自記紙數字化處理系統” 由王伯民等[5]開發,其文中給出的系統結構如圖1,數據流如圖2。
如圖1和圖2所示,降水自記紙圖形數字化的步驟和流程主要有:
1)自記紙預處理
包括降水自記紙完整性檢查、無降水或缺測自記紙的處理、命名正確性檢查等。
2)跡線數據提取
使用降水自記紙數字化處理系統提取降水自記紙數據,生成降水曲線數據文件。
3)數據轉換
使用降水自記紙數字化處理系統將降水曲線數據文件轉換為降水標準數據文件、分鐘降水文件和小時降水文件。

圖1 降水自記紙數字化處理系統結構[5]Fig. 1 The structure of processing system for precipitation record paper

圖2 降水自記紙數字化處理系統數據流和數據產品[5]Fig. 2 Digital flow and products of processing system for precipitation record paper
4)跡線跟蹤效果的檢驗
使用降水自記紙數字化處理系統的效果回放模塊和降水自記紙數字化成果質量檢查評估軟件對跡線跟蹤效果和形成的各類數據文件進行質量檢查。
5)降水數據產品制作
進行降水自記紙圖像文件數據集、降水曲線數據集、降水強度數據集(分鐘降水和小時降水數據)的制作。
該項技術也為風、溫等其他類型自記紙的數字化處理提供了開發思路,奠定了良好基礎。
即基于掃描圖像及錄入、圖形提取數據文件,按照《氣象資料分類與編碼》[8]及相應的數據集制作技術規范的要求進行數據集制作,編寫數據集說明文檔及元數據等。數字化成果按上述標準集成后要進行人機結合的質量檢查以進一步保障數據質量,具體如下:
1)完整性、規范性檢查
依據相關標準規定及數據清單對數據集產品進行完整性檢查,還要檢查文件是否規范存儲和文件命名是否正確;
2)質量檢查
掃描圖像的質量直接影響到資料數字化錄入或圖形提取的效果,因此必須對圖像文件進行嚴格的質量把關,保證數字化掃描圖像的清晰、完整、有序,圖片不能歪斜、顛倒、扭曲變形,黑邊與污點有條件盡量處理;
對于錄入數據也要開發軟件進行格式和質量檢查,不合格的及時返工;
自記紙圖形識別產品目前使用專用軟件進行曲線貼合度和數據處理質檢。
3)質量復查
通過隨機采樣或條件篩查的方式,按一定比例對結果進行復查,確保質量檢查效果。
4)編寫數據集評估報告,根據歸檔要求編寫數據集相關文檔。
20世紀70年代末以來,全國陸續完成地面氣象記錄月報表、高空風記錄月報表和高空壓溫濕記錄月報表的數字化,建立了中國第一批數字化基礎氣象資料集。又通過資料整編工作,形成了1951—1980年的氣候標準值產品,提供氣象業務科研應用。此后氣象輻射記錄月報表中輻射日值、小時值觀測記錄的錄入工作也相繼完成,形成輻射基礎資料集。上述3類基礎資料集在氣象事業發展過程中長期發揮著重要的支撐作用。
2011—2013年,國家氣象信息中心牽頭31省開展的“基礎資料專項工作”,對地面、高空、輻射基礎資料集中存在的數字化數據質量問題進行了系統檢測,使其完整性、可靠性和準確性進一步提升。在此基礎上,國家氣象信息中心已陸續研制完成基礎數據產品、氣候整編產品、均一化產品、網格化產品等4類22個氣象數據集(表3),滿足了用戶對不同時空分辨率數據的需求,也為預報預測、極端氣候監測、氣候變化檢測與評估、決策氣象服務及科學研究提供了重要的數據保障,促進氣象業務發展、獲得社會效益效果顯著。
由于在政治、環境、經濟上的特殊意義及其在科學上的不確定性,氣候變化一直是學術界的研究熱點之一。已有研究指出,過去100年特別是過去50年全球陸地表面氣溫比海洋表層水溫明顯升高,包括我國東北、華北、西北和青藏高原在內的亞洲中高緯地帶是氣候變暖最顯著的區域[9]。因此,對中國區域表面氣溫的長期變化趨勢進行監測和檢測,成為氣候變化領域的一項重要基礎性工作,這不僅可為我國氣候變化監測業務提供理論和方法支持,也為國家制定應對氣候變化策略和行動方案提供決策依據。
長年代的氣候序列是研究和深入認識氣候變化趨勢和規律的基礎。為進一步推動珍貴歷史氣象觀測資料的應用,挖掘早期器測資料的科學價值,國家氣象信息中心在全國范圍內選取有代表性的60個城市,對1949年以前及20世紀50年代初期觀測記錄檔案中降水和氣溫數據進行了手工錄入,初步形成60個主要城市降水氣溫數字化資料。圖3為1840—2010年北京1月、7月月平均氣溫逐年變化,其中1950年之前數據均為解放前和解放初期氣象觀測資料數字化成果。盡管1950年前序列出現了數次中斷,但這些寶貴的觀測資料仍是氣候變化研究不可或缺的重要組成部分。

表3 基于地面、高空、輻射基礎資料數字化成果研制的數據產品Table 3 Table 3 The datasets based on historical meteorological data digitizing

圖3 北京1月、7月月平均氣溫逐年變化(1840—2010年)Fig. 3 Annual variation of monthly mean temperature in Beijing for 1840-2010: (a) January; (b) July
基于上述數字化成果,曹麗娟等[10]利用數據質量控制、序列插補以及均一化等技術,完成了我國中東部地區18個城市的地面月平均氣溫均一化序列的構建,并為國際同行所公認。研究表明,1909—2010年我國中東部地區增溫趨勢為1.52 ℃/100a。
長期以來地面臺站人工定時觀測降水量(20—08時、08—20時)是氣象業務科研中使用最廣泛、最準確的降水資料。但隨著極端降水事件、暴雨洪澇災害研究、海綿城市建設等的深入研究,對更高時間分辨率降水資料的需求越來越突出。通過整合氣象觀測報表錄入數據、降水自記跡線提取數據等數字化成果,形成了一套虹吸式和自記式翻斗雨量計小時資料集。將上述自記儀器觀測資料與自動氣象站觀測資料銜接,國家氣象信息中心完成了“中國國家級地面氣象站逐小時降水數據集”的研制[11],并在國家氣候中心東亞季風監測、全國氣候影響評價和《重要氣候信息》編制等業務工作中發揮了重要作用,氣候中心還基于此數據集編制出版了《中國極端降水氣候圖集》。
風對于地球上的熱量和水汽的水平輸送起著很重要的作用,它既是氣候模式的重要輸入參數,也是大氣污染物擴散模型中的必要參量,同時風能也是一種資源。此外,在橋梁、高層建筑等設計中,需要考慮當地的風場和風頻次分布等,作為設計依據以保證建筑安全。因此,長序列逐小時風向風速觀測資料不僅是氣候分析和大氣環境研究中不可缺少的要素,也為其他行業如風電、光電和建筑設計等提供了重要的科學支撐。2016年國家氣象信息中心基于報表數字化錄入的2400余個國家站建站至自動站正式運行前一年的地面風自記觀測數據,與2001年以來自動站小時風數據進行拼接整合,完成包括日界、方式位、風向表示法等方面的格式統一,并對數據進行多項格式檢查。在借鑒以往質量控制技術基礎上,針對小時風向風速數據制定了質量控制方案,包括氣候界限值檢查、時間一致性檢查、內部一致性檢查等,完成“中國逐小時風數據集”研制,并通過中國氣象局業務內網向全國氣象部門和大院業務科研單位正式發布。趙煜飛等[12]基于該數據集,對青藏高原地區各季節風速日變化進行了分析,結果表明春季風速最大。青藏高原東部、西部地區分別在16、14時風速最大,且東部地區16時風速明顯大于西部地區14時風速。
30多年來,隨著現代氣象業務快速發展,氣象資料數字化也經歷了從無到有,并不斷發展創新的歷程,取得了較豐富的數字化成果并得到廣泛應用。目前正在開展的一般站降水自記紙圖形數字化工作采用了創新性的業務流程,將過去每年定期匯交、依靠人力手工審核的傳統流程轉變為按月及時匯交和人機結合的近實時審核,提前數月更早地介入數字化現場有效地實施全程監管,提升數字化成果質量和服務時效。同時國家氣象信息中心正探索提升歷史氣象資料數字化產品在線管理和服務能力,選取全國1951年以來地面、高空、輻射、農氣等4大類19小類常用歷史氣候資料報表(約2700萬頁,數據量超過10 TB),試建了基于國家氣象業務內網(http://idata.cma/)的氣候資料數字化圖像在線查詢、檢索服務專欄。
但由于歷史氣象資料載體和記錄狀況的繁雜性、技術發展成熟度制約、數字化人才缺乏等種種因素,數字化工作與其他氣象業務相比在現代化水平方面還存在著較大差距。“十三五”氣象信息系統發展規劃現代化目標明確提出,要提高數字化氣象資料在線管理服務率,更便捷、高效、全面地提供長年代氣候背景數據產品。信息中心計劃依托現代信息技術,安全、科學、高質量地進行氣象資料數字化拯救和產品研發,在已推出的國家級氣象觀測站降水、風要素長序列逐小時數據產品外,進一步加強氣溫、氣壓、相對濕度等常規要素的長年代歷史觀測數字化成果轉化和產品研制;同時推動數字化業務收集、質量檢查、整合集成、歸檔存儲、安全備份、在線管理服務一系列全流程標準化規范化建設,保障數字化質量,積極響應用戶需求不斷豐富數字化成果服務內容、改進服務方式,持續提升用戶體驗以滿足氣象預報預測研究、應對氣候變化能力建設、決策服務分析、預防災害風險及其他業務科研領域方方面面的需求。
[1]臧海佳, 吳顯中, 李星玉, 等. 氣象資料拯救指南. 推薦性行標. QX/T 201-2013.
[2]吳忠義. 中國氣候資料工作概況. 北京: 氣象出版社, 2005.
[3]臧海佳, 吳顯中. 氣象記錄檔案數字化工作實踐與分析. 中國檔案,2008(5): 34-36.
[4]中國氣象局預測減災司. 常規氣象資料信息化模式文本匯編. 北京: 氣象出版社, 2001.
[5]王伯民, 呂勇平, 張強. 降水自記紙彩色掃描數字化處理系統. 應用氣象學報, 2004, 15(16): 737-744.
[6]蘭平, 臧海佳. 歷史紙質氣象檔案數字化技術策略初步分析. 應用氣象學報, 2006, 17(4): 478-482.
[7]王伯民. 彩色掃描圖形數字化處理技術的研究─氣象歷史檔案拯救技術探索之一. 應用氣象學報, 2003, 14(6): 763-768.
[8]熊安元, 王伯民, 王穎, 等. 氣象資料分類與編碼. 推薦性行標. QX/T 102-2009.
[9]任國玉, 任玉玉, 李慶祥, 等. 全球陸地表面氣溫變化研究現狀、問題和展望. 地球科學進展, 2014, 29(8): 934-946.
[10]Cao L, Zhao P, Yan Z, et al. Instrumental temperature series in eastern and central China back to the nineteenth century. J Geophys Res, 2013, 118: 8197–8207.
[11]張強, 趙煜飛, 范邵華. 中國國家級氣象臺站小時降水數據集研制. 暴雨災害, 2016, 35(2): 182-186.
[12]趙煜飛, 張強, 余予, 等. 中國小時風速數據集研制及在青藏高原地區的應用. 高原氣象, 2017, 36(4): 930-938.
Advances in Meteorological Science and Technology2018年1期