吳道航 劉江順 吳添圓
(中山市氣象局 廣東省中山市 528400)
中山市氣候站高效的工作,采集到了比以前更多的氣象數據,但是氣候站觀測數據不僅數據量龐大,而且數據格式差異大,且由于氣候站運行方式為全日時工作方式,數據采集以及傳輸受到電力、通信條件和觀測環境等因素的限制,數據質量一直是資料使用人員和業務管理者關注的話題。
目前,氣候站存在數據量大,數據格式不統一,測量數據不相關等現象,比較明顯的有“數據不完整”、“異常數據”等現象,限制了氣候站在中山市氣象業務中的進一步應用。氣象站數據質量控制是氣象數據應用的預處理,其特點是:數據量大,系統結構復雜,系統模型不固定。針對中山市氣候站觀測的各氣象要素數據格式特點,設計和實現其數據質量控制程序,能有效提高數據可用性,確保氣候站觀測數據質量的有效性,利于氣象從業人員使用。
中山市氣候站采集每分鐘的數據,數據量大,人工對其進行數據質量控制工作量大且容易出錯,現使用python 編程讀取自動氣候站數據、設置了對應的要素標識,進行界限值檢查(檢查要素值是否在其測量允許值范圍之內)、時間一致性檢查(大氣中的有些觀測數據與時間顯著相關,具有良好的時間一致性,將此類數據與其時間上前、后的測值相比較,來判斷其數據是否發生異常)等數據質量控制,最后再入庫,如圖1 所示。
針對入庫的數據,讀取整點數據,將其和新型自動氣象站的氣溫、氣壓、風向、風速作對比分析,對對比結果進行分析研究。分析其相關性、顯著性檢驗,檢驗自動氣候站與新型自動氣象站差值遵從正太分布,通過擬合曲線可視化。
定義綜合質控碼,如0 代表數據正確,1 代表數據可疑,2 代表數據錯誤。為方便使用,為各氣象觀測要素、統計值要素設置了對應的符號,對應著觀測要素符號標識表。做出數據質量控制方法和符號,如質控方法為界限值檢查,對應符號為f1(e),并添加備注f1(e)為該方法的QC 碼,e 為要素。在氣溫、氣壓、風數據界限值檢查、時間一致性檢查算法上,給出質控方法、算法、QC方法質控碼、備注,做成檢查算法表。使用python 編程語言,PYCHARM 作為編程環境,ANACONDA 作為管理項目庫環境。在讀取單個TXT 文件時先做異常處理,去除雙行為兩個英文字符的行,同時去除數據缺少的行。
在讀取文件過程中,找前一分鐘溫度和前一小時溫度,并對其作界限值檢查、時間一致性檢查等數據質量控制,并對進行數據質量控制的數據標記數據質控控制碼,如圖2 所示。
因文件數據量大,需讀取廠家文件夾下的所有TXT 文件, 為防止列表過長,每4 個文件插入一次,并清零列表。最終,經過數據質量控制入庫。將錯誤數據、缺測數據依據前十分鐘數據、后十分鐘數據、內插法等方法補全氣候站溫度數據。同理,氣壓的數據處理同上。

圖1:數據質量控制程序

圖2:時間一致性檢查
氣候站與新型自動站氣溫和氣壓的相關性較好,氣溫相關系數為1.0,氣壓相關系數為0.99,均通過0.01 的顯著性檢查。小時氣溫差值的頻數分布如圖3 所示,小時氣壓差值的頻數分布如圖4 所示。
在顯著水平0.05 下(氣象上常取),檢驗氣候站與新型自動站氣溫差值、氣壓差值遵從正態分布。記偏度系數g1,峰度系數g2,計算公式如下:

式中m2, m3, m4分別為二階、三階、四階中心矩,k 階中心矩表示為:

氣溫計算結果如下:


圖3:小時氣溫差值的頻數分布

圖4:小時氣壓差值的頻數分布
|g1|>0.074,|g2|>0.5384,則拒絕假設,認為氣候站與新型自動站氣溫差值不遵從正態分布。氣候站與新型自動站氣溫差值的偏度系數為正,分布圖形的頂峰偏右,峰度系數為正,表示分布圖形坡度較陡。
氣壓計算結果如下:

|g1|>0.075,|g2|>0.576,則拒絕假設,認為氣候站與新型自動站時數氣壓差值不遵從正態分布。氣候站與新型自動站氣壓差值的偏度系數為負,分布圖形的頂峰偏左,峰度系數為正,表示分布圖形坡度較陡。
氣候站數據經過數據質量控制程序進行數據格式讀取、數據預處理、界限值檢查、時間一致性檢查后再入庫,再對錯誤數據、疑誤數據進行處理,保證數據的完整性。將質控后的氣候站數據和新型自動站數據進行對比分析,相關性較好,確保氣候站觀測數據質量的有效性,利于氣象從業人員使用。