白宇航 曹亮 程海林 江明哲
(成都信息工程大學軟件工程學院 四川省成都市 610000)
雷電具有破壞性、隨機性等特點,應對隨機性是雷電預警產品防范雷電災害的主動預防目標。閃電定位儀、大氣電場儀和多普勒雷達作為雷電監測重要的手段和數據來源,在監測雷電時都具有一定局限性,通常需要對多種雷電監測數據加以綜合處理,融合形成局部雷電活動的時空分布特征,用以推斷出雷電落區、時間、強度等特征[1]。
隨著大量雷電監測設備投入使用,雷電監測大數據時代已到來,高精度雷電識別與監測能力已形成,但利用雷電監測大數據提升雷電預警的精度和時效性還相對滯后。鑒于閃電定位記錄雷電歷史時空位置、大氣電場測量電場強度、雷達回波識別雷暴單體并推測出其運動路徑之間存在的相關性,以雷暴單體為跟蹤單元,本文提出了一種多模型融合的雷電預警產品生成技術,高并發處理雷電監測大數據,實現多個雷暴單體時空分布特征的識別和可視化,對提高雷電預警產品的時效性和可用性具有切實的業務意義。
雷暴是伴有雷電、暴雨等現象的局地強對流天氣。三種方式可監測雷暴單體,形成臨近預警信息:
(1)閃電定位數據監測,將1 小時閃電定位數據格點化處理為逐6 分鐘、空間分辨率1km*1km 閃電次數格點場,采用密度聚類算法識別閃電密集區域,高密度聚類簇對應雷暴單體。
(2)大氣電場數據監測,以電場強度、波動范圍、波動頻率為特征,采用決策樹模型對雷暴是否發生雷電進行判識。
(3)雷達回波監測,常見的有TITAN 算法,它是一種識別和追蹤雷暴的方法主要利用三維或二維的雷達資料來完成對雷電的預警,包括雷暴單體識別算法和雷暴單體追蹤算法。三種雷電監測數據處理模型的優缺點如表1 所示。
多源融合雷電預警產品生成模型,融合了上述三個模型。首先由雷達回波監測處理模型加載雷暴初始場,然后由另外兩個模型輸出的三維閃電定位、大氣電場強度,雷暴單體進行校驗與訂正,最后基于訂正后的雷電落區結果,重新規劃雷暴路徑,并生成未來1小時逐6 分鐘雷電變化預警信息,模型框架如圖1 所示。

圖1:多源融合雷電預警模型框架
Spark MLlib 是Spark 的機器學習庫,具有高效、快速、可擴展等特性。在Spark Application 運行環境中,通過啟動SparkContext,構建DAG(Directed Acyclic Graph,有向無環圖)調度程序。按多模型融合的運行調度邏輯編輯DAG,可實現對雷電監測大數據的綜合分析處理。
(1)閃電定位數據密度聚類算法。基于閃電資料的雷達單體外推包含中心點計算、半徑計算和線性擬合,步驟如下:第一步,求中心點。利用公式(1)計算各樣本點經緯度的平均值,x,y 分別表示各個點的經度和緯度。

第二步,計算區域半徑及線性擬合。采用最小二乘法擬合橢圓公式(2),a 表示長軸半徑,b 表示短軸半徑,c 為焦距。按最小化約束條件以最小化距離誤差。

輸入過去1 小時三維閃電數據,輸出①落區質心、長軸半徑、短軸半徑;②1km*1km 格點雷電等級;時間分辨率:未來1 小時逐6 分鐘;空間分辨率:1km*1km。
(2)大氣電場數據決策樹算法。以電場預警狀態、電場強度、波動范圍、波動頻率為雷暴天氣大氣電場特征,結合大氣電場儀生成的基于電場強度的預警信息,綜合強度、范圍、頻率等特征建立分類模型。設電場強度閾值為X;波動范圍閾值為Y;波動頻率閾值為Z。

表1:三種雷電監測數據處理模型的優缺點
調用Spark MLlib 庫中DecisionTree 決策樹模型的trainClassifier方法,訓練大氣電場數據模型,獲得如下決策樹,圖2。
大氣電場預警模型輸入過去1 小時大氣電場儀監測資料。大氣電場儀空間分辨率低,與雷達及閃電定位模型格點化產品不一致,按站點輸出未來1 小時、15km*15km 的大氣電場儀所在格點的雷電等級。
(3)雷達回波TITAN 算法。一種利用二維或三維雷達資料識別和追蹤雷暴的方法,包括雷暴單體識別算法和雷暴單體追蹤算法。

圖2:大氣電場決策樹模型

圖3:多模型融合的雷電預警產品生成

圖4:綜合預警分析產品

圖5:閃電定位預警分析產品

圖6:大氣電場預警分析產品

圖7:雷達預警分析產品
對雷達組合反射率、回波頂高和垂直累積液態水含量預處理,得到1km*1km 的二維網格數據,其中每個格點對應一條訓練數據。使用Spark MLlib 中LabeledPoint 結構組裝格點數據,調用Spark MLlib 中決策樹算法庫,訓練歷史數據獲得相應閾值和分類規則。當多個雷暴單體被識別后,對相鄰時次識別結果使用Munkres 算法進行優化匹配,追蹤分析評估雷暴單體最可能運動路徑。得到最優路徑后,調用Spark MLlib 中LinearRegressionWithSGD 類的train()方法訓練,預測雷暴下一時刻運動位置。其中,線性回歸模型方程可表達為:

式中,x 是模型參數的集合,w 為模型參數對應的權重系數的集合。
模型輸入前1 小時雷達組合反射率、回波頂高和垂直累積液體水含量產品,輸出未來1 小時逐6 分鐘、1km*1km 格點雷電等級、落區質心、半徑。
基于閃電定位數據、大氣電場數據、雷達回波數據,采用落區識別、追蹤和外推算法,集成多種數據,建立多模型融合的雷電預警模型,模型輸出獲得雷電落區、時間、強度及雷電運動趨勢產品。
圖3 所示,實現多模型融合的雷電預警產品生成,首先加載雷達回波初始場,由TITAN 算法模型生成格點產品,然后由OPTICS聚類算法生成的閃電定位預警模型對格點產品標記、訂正,以識別直徑15km 范圍內有無雷暴單體。如果有雷暴單體,采用由大氣電場數據訓練所得的決策樹模型訂正,生成該時次每個格點預警產品,包括雷電落區、半徑以及強度等信息。最后,在雷電預警調度程序控制下,重新擬合所有時次的雷暴路徑,預測下一時刻雷暴出現的位置。其中,行訂正采用線性加權平均法,見公式(4)。

式中:
R--每個格點發生閃電的概率;
wi--各預警模型的權重;
ri--利用某種預警模型計算獲得的每個格點雷電發生的概率;
n --參與計算的預警模型種類數。
本文中n=3,即三種模型r 為每種預警模型的輸出結果。閃電定位相關模型權重為0.25,大氣電場相關模型權重為0.15,雷達回波相關模型權重為0.6。
雷電預警產品具有產品簇特點,在生成雷電預警產品時(圖4),應保留閃電定位(圖5)、大氣電場(圖6)和雷達(圖7)等相關預警分析產品。雷電預警產品是時空數字化產品,采用WebGIS技術適于可視化加載、選取、查詢和定位雷電預警信息,標識雷電風險范圍。根據雷電風險等級標準,對雷電預警產品設定視覺編碼。即,黃色:6 小時內可能發生雷電活動。橙色:2 小時內發生雷電活動的可能性很大,或者已經收到雷電影響,且可能持續。紅色:2 小時內發生雷電活動的可能性非常大,或者已經有強烈的雷電活動發生,且可能持續。圓圈:雷暴單體。箭頭:雷暴單體運動路徑。
本文針對有效利用雷電監測大數據,并行處理和協同來自不同雷電監測設備的數據,提出了一種基于Spark MLlib 的多模型融合的雷電預警產品生成方法,探討了模型訓練、產品生成調度和產品可視化的實現技術。同時,多模型融合的線性加權平均法中權重值與算法本地化密切相關,需要采用當地數據利用機器訓練動態調整權重系數以保證模型融合效果。