鞠曉慧 , 馬楠, 王妍, 范宇琛
(1. 國家氣象信息中心, 北京 100081; 2. 青島星科瑞升信息科技有限公司, 青島 266590; 3. 山東大學電氣工程學院, 濟南 250061)
地面自記紙類氣象資料記錄了風、降水、溫度、濕度以及氣壓等氣象參數隨時間的變化,是寶貴的客觀表征天氣和氣候變化的實測基礎資料[1]。氣象信息對于開發利用風能資源、預防極端天氣災害、城市建設、環境保護以及精細化氣象預報等天氣課題的研究具有重要意義。
自20世紀60年代,全國2 400多個氣象站使用降水、風、氣溫等各類自記儀器進行小時乃至分鐘尺度的氣象要素觀測,共積累了40多年約2 000多萬頁的風自記紙[2]。由于存儲時間長,許多紙質資料會出現氧化、破損現象,導致許多珍貴氣象資料無法使用[3-4]。另外,紙質檔案的使用往往不夠靈活和方便,已經無法滿足當前研究人員系統地了解和應用這些寶貴資源的需求[5]。因此,氣象資料數字化處理對氣象歷史資料的永久存儲和高效使用具有至關重要的意義。
圖像處理和模式識別技術的發展為降水、風等氣象要素自記紙提供了有效的數字化處理手段。全國氣象研究學者對氣象資料數字化展開了大量的研究。王伯民等[6-7]、Ju等[8]研究了降水自記紙跡線識別技術,研制了降水自記紙彩色掃描數字化處理系統并應用于全國降水自記紙曲線數據提取,建立了中國地面氣象站長序列、高質量的分鐘和小時降水文件數據集[9]。賀美萍[10]、馬寧等[11]對溫度自記紙數字化處理展開了研究,實現了氣溫自記紙曲線數據的提取。岑瑤[12]研究了圖像處理技術在氣壓自記紙數字化方面的應用。全國EL型電接風向風速數字化自動記錄與處理工作也已經開展,并取得了較好的效果。李亞麗等[2]應用基于最大類間方差法算法改進的Canny圖像邊緣檢測方法設計開發了EL型電接風自記紙跡線數據提取軟件系統。趙曉莉等[1]結合人工整理風向自記紙方法和數字圖像處理技術,提出了一種 EL型電接風向風速自記紙數字化風向識別方法應用于EL 型電接風自記紙數字化處理。薛改萍等[13]通過圖像掃描技術和風自記紙數字化處理,完成了西藏風自記紙數字化。目前,針對氣象資料跡線的提取都是基于傳統的跡線跟蹤和提取算法,然而,由于存儲時間長, 保管條件差, 紙質氣象資料已經出現不同程度的紙張變質、跡線變淡 (模糊 )或者墨跡暈染。另外,不同氣象觀測儀器跡線記錄方式也不同。達因型風自記紙記錄了24 h內風向風速變化信息,是一種較為復雜的氣象跡線,風向風速曲線呈無規律變化,傳統的圖像分割和跡線提取算法依賴局部或單一的圖像特征,無法有效提取復雜背景中的跡線信息。
針對以上問題,現提出一種基于深度學習的氣象資料跡線自動識別方法。該方法通過構建高質量的跡線數據集,利用語義分割網絡結合多尺度信息,分割復雜背景中的跡線,實現氣象資料跡線自動的和高精度的識別。根據《地面氣象觀測規范》[14],將氣象信息轉換為標準氣象數據,建立歷史長序列氣象資料數據集。
所提出的基于深度學習的氣象資料跡線識別算法包括圖像預處理、跡線網格定位、跡線分割和跡線量化計算。邊緣梯度模板匹配算法被用于準確定位和提取氣象資料跡線網格。U-net[15]語義分割網絡通過自動提取不同尺度的光譜和空間特征準確分割跡線。最后根據氣象標準,量化跡線信息,生成標準氣象數據。算法流程如圖1所示。

圖1 氣象資料跡線識別算法流程Fig.1 Algorithm flow of dyne-wind self-recording paper wind direction and wind speed extraction
由于掃描人員的操作不規范等因素,紙質氣象資料在掃描過程中,會出現掃描圖像傾斜,傾斜圖像會給跡線識別結果帶來誤差,因此對紙質氣象資料數字化處理前首先要進行圖像傾斜校正。利用氣象資料自記紙的網格豎線特征進行傾斜校正。首先提取網格二值圖像,在網格二值結果的基礎上,利用霍夫變換定位圖像中的豎線。統計網格豎線的傾斜角度均值與垂直方向的角度差作為傾斜角度,利用仿射變換技術實現傾斜圖像的角度校正。
氣象資料網格線是時刻與跡線的刻度標記線,網格線的精確定位是跡線準確轉換為標準數據的重要前提。為保證網格跡線的精準定位,采用基于邊緣梯度特征的模板匹配算法[16]提取網格線。該方法結合邊緣信息和多級特征進行目標匹配,定位精度可以達到像素級別,且該方法對目標的不均勻亮度變化,目標的部分遮擋,目標存在角度旋轉等因素具有良好的魯棒性,可以滿足氣象自記紙網格定位與提取的功能與性能要求。
氣象自記紙中每一刻度數對應一條刻度線,選取網格邊緣的時刻數字作為匹配模板,并記錄這些特征字符與網格端點的相對位置坐標。通過對模板圖像進行旋轉、縮放以及金字塔下采樣,生成一系列不同旋轉角度和金字塔層數的模板。依據Canny算法的原理[17],首先,提取模板圖像邊緣點,計算邊緣點在的x、y方向的梯度值以及總的梯度值;其次保存邊緣點對應的x、y梯度,通過梯度強度歸一化處理以消除光照不均的影響;最后,將邊緣點坐標轉換為相對于重心的相對坐標,將目標圖像與模板進行匹配獲取網格位置信息。字符匹配過程中,個別匹配度較低的字符結果舍棄,用相鄰匹配度較高的字符插值計算代替,根據字符與網格端點的相對位置,計算得到所有網格線的端點,提取出網格。圖2中綠色網格為達因型風自記紙網格線提取結果。
利用彩色方式掃描得到的氣象自記紙圖像為彩色,在進行跡線跟蹤前將跡線分割出來是獲取氣象跡線信息的重要基礎。傳統的圖像二值化方法大多利用圖像的顏色信息,通過設置閾值來獲取二值圖像。然而,由于氣象自記紙的記錄方式以及存檔時間長,自記紙存在墨跡暈染、人工整理的鉛筆痕跡、筆尖滴墨等問題,給傳統方法準確地獲取二值圖像帶來了挑戰。其中大量相同顏色的墨跡暈染問題是主要難點。近年來,深度學習方法在圖像分類、目標檢測、圖像識別等領域取得了突破性成功并被廣泛使用。為了更精準地分割跡線,設計了基于深度學習的氣象資料跡線提取方法,利用卷積神經網絡強大的特征提取和分析能力,結合多尺度特征,實現跡線的準確分割。該方法不再局限于單一的圖像特征,充分挖掘圖像的顏色、紋理、形狀等光譜與空間幾何信息,相對于手工設計特征更全面、更精準。選擇U-Net網絡作為跡線分割的骨干網絡,基于U-net網絡的跡線分割主要包括構建訓練數據集和深度神經網絡訓練。
1.3.1 構建訓練數據集
U-Net模型可以實現對目標的端對端提取,高質量的訓練樣本是精確提取目標區域的關鍵。為保證訓練數據集的多樣性和豐富性,在選擇樣本時應考慮到不同的時間和空間分布,選擇的數據應涵蓋不同的年份、不同的地區。同時氣象跡線的種類也應盡可能全面。最后,通過人工標注的方式,獲得訓練數據對應的像素級標簽。圖3為達因型風自記紙風向風速跡線訓練圖像和標簽示例。
1.3.2 深度神經網絡訓練
采用語義分割網絡U-net作為骨干網絡提取跡線二值圖像。如圖4所示,整個網絡分為左右兩部分。左半部分包含5個卷積模塊和4個池化層。其中每個卷積模塊包含兩個卷積層,卷積核的大小為3×3,每個卷積模塊的卷積核數分別為32、64、128、256、512。

圖2 達因型風自記紙網格線提取Fig.2 Extraction of grid lines from dyne wind self-recording paper

圖3 風向風速跡線圖像和標簽Fig.3 Wind direction and speed curves images and labels

圖4 跡線分割網絡Fig.4 Curves segmentation network
池化層采用最大池化操作,不斷縮小圖像分辨率。輸入圖像的大小為560×560×3,經過卷積層和池化層之后,特征圖大小為35×35×512。 右半部分包含4個卷積模塊、4個上采樣層和一個卷積核為1×1的卷積層。上采樣層采用2倍上采樣,右半部分逐步修復特征圖像的細節和空間維度。該網絡還使用了跳躍連接,即每上采樣一次,就以拼接的方式將左右兩側中特征圖進行特征融合,結合淺層與深層的信息,從而更好地恢復目標的細節[18]。
氣象自記紙跡線分割后,需要根據風、溫度、降水等相應參數的氣象行業標準,將圖像中跡線位置信息轉化為具有實際意義的氣象標準數值。
選擇達因型風自記紙風向風速跡線進行跡線識別實驗測試與分析。達因型風自記紙記錄了24 h內風向風速變化信息,其圖像如圖5所示??梢郧宄^察出以下特點。
(1)整體上,自記紙分為風向風速兩部分,上部為風速部分,下部為風向部分。
(2)風向風速跡線呈現無規律變化趨勢。達因型風自記紙中的網格標線為橙色,其中豎線為時間刻度,相鄰兩條時刻線間的時長為1 h。
(3)網格橫線為風速風向刻度,風速相鄰刻度間的風速差為1m/s,風向5條水平網格線表示風向方位,由上至下分別為北、西、南、東、北。
(4)風向風速信息為達因型風記錄儀筆尖畫出的藍色跡線所在網格中位置表示,其中風速線為一條連續的跡線,風向部分為兩條跡線。

圖5 達因風自記紙掃描圖像Fig.5 Scanned image of dyne-wind self-recording paper
為了保證訓練樣本的豐富性和多樣性,考慮省份、站點、時間等因素,選取了120張達因風自記紙圖像作為訓練數據,這些圖像包含了不同顏色、面積和趨勢的風向風速跡線。為了使深度神經網絡具有更好的學習特征,減弱其他新的干擾,將原始圖像裁剪為風向和風速兩部分,分別對風向和風速進行跡線提取。由于整個風向和風速線圖像尺寸較大,考慮到硬件設施和計算效率,需要將風向和風速線圖像裁切成較小的圖像進行訓練。然而風向和風速隨時間變化,風向和風速圖像高度是隨機的,這為訓練圖像大小的確定帶來了不確定,因此綜合風向風速圖像高度,確定訓練圖像大小為560×560像素,將不同高度的風向風速圖像統一重采樣到與訓練圖像相同的高度,同時也保留風向風速跡線的完整特征。120張數據對于神經網絡訓練是遠遠不夠的,因此將重采樣后120張達因型風向風速圖像在寬度上交叉裁剪獲得3 000多張不同顏色和不同背景下的風向和風速跡線訓練圖像。
使用Python語言,以TensorFlow為后端的Keras深度學習平臺作為訓練環境,對達因風自記紙風向風速跡線數據集進行測試。在實驗過程,訓練數據為75%,驗證數據為25%,使用Adam優化器。訓練參數學習率為0.000 1,每批訓練數據量為8,學習次數為100次。根據驗證精度保存最優模型。根據訓練精度和損失值,當訓練次數達到100次時,學習已經趨于穩定,并獲得了很高的訓練精度和模型驗證精度。
考慮到數據的復雜性和多樣性,選擇了不同站點和不同年份(1971—1978年),并且具有不同跡線顏色、面積和走勢的達因風自記紙數據進行測試和驗證,取得了良好的風向風速跡線提取結果。圖6和圖7分別為風向風速跡線提取結果,其中第一列和第三列為風向風速跡線,第二列和第四列為跡線識別結果。由于墨跡和存檔時間的不同,達因風跡線表現為紫色、藍色、淡紫、深紫等顏色,同時跡線呈現無規律性,具有不同走勢和面積。另外,風向風速跡線背景中存在鉛筆字符、大片墨跡暈染等干擾,這些因素嚴重影響跡線的準確提取。根據圖6和圖7的結果,可以看出,不同顏色、不同趨勢風向風速跡線都能被很好地分割出來。根據幾何形狀信息,大量的墨跡和污點被去除,顏色接近的鉛筆字符也會被區分出來,這表明該方法對不同背景下的復雜風向風速跡線提取具有良好的普適性?;赨-net網絡的達因型風自記紙風向風速跡線分割與原始跡線具有高度的一致性,為后續風向風速的量化計算提供了高精度結果。
為了驗證達因型風自記紙風向風速自動提取方法的有效性和可靠性,根據風向風速跡線量化規則,對不同年份的達因風自記紙跡線進行了量化計算和精度驗證。選擇57 825和57 741氣象站點3 200多張達因風自記紙數據,將風向風速整點時刻量化計算結果與人工整理的A6結果對比,獲得風向風速計算精度。驗證時采用整點10 min風速、風向與小時風數據集、定時風速、風向比較,規則如下:當風速小于3.0 m/s時,誤差小于0.4 m/s;當風速為3.0~7.0 m/s時,誤差小于0.7 m/s;當風速大于7.0 m/s時,誤差小于驗證風速的10%。A6數據中的風向表示為16個方位信息,在進行精度驗證時,自動識別風向結果與A6風向相差不大于一個風向方位時認為自動提取結果正確。表1和表2分別為57825和57741站點1971—1978年風向風速與A6文件對比精度。結果表明,本文算法的風向風速跡線整體識別精度達95%及以上,與A6參考文件具有較小誤差。

圖6 風速跡線提取結果Fig.6 Wind speed extraction results

圖7 風向跡線提取結果Fig.7 Wind direction extraction results

表1 57825站點不同年份風向風速跡線提取精度Table 1 Recognition accuracy of wind direction and speed curves in different years of 57825 station

表2 57741站點不同年份風向風速跡線提取精度Table 2 Recognition accuracy of wind direction and speed curves in different years of 57741 station
利用數字圖像處理技術和深度學習算法實現了氣象資料跡線自動識別。基于邊緣特征的模板匹配算法實現氣象自記紙網格的定位與提取,深度神經網絡U-net提取有效特征,除去大片墨跡暈染和鉛筆字符干擾信息,高精度分割跡線。根據跡線二值圖像和氣象行業標準,量化計算跡線,轉換為標準氣象數據。通過對達因型風自記紙風向風速跡線識別和驗證,本文算法風向跡線平均識別正確率達95%,風速跡線平均識別正確率達95.5%,表明所提出的深度學習氣象資料跡線自動識別算法高度還原了氣象跡線信息。該方法適用于風、降水、溫度、氣壓等跡線數字化提取業務化處理。氣象資料跡線自動識別大大減少了氣象行業數字化建設工作量和人工成本,為氣象服務和研究提供了有力的支撐。