葉寬, 周愷, 張睿哲, 蔡瀛淼, 李鴻瑞
(1.國網北京市電力公司電力科學研究院, 北京 100075; 2. 北京微芯感知科技有限公司, 北京 100080)
當前利用高分辨率遙感衛星監控火災的研究比較盛行,其原理為利用光譜中指定波段的亮溫值來反演地表溫度,進而識別出火點[1]。但人口密集、經濟發達的大城市存在顯著的熱島效應,造成衛星火點中偽火點較多。另一方面,雖然國家森林防火部門會提前一天發出森林火險等級的預警訊息。但氣象是一個變化過程,結合實時氣象條件進行火險研判將有助于集中有限的社會資源進行火災防控。
當前國內學者更多借助計算機人工智能技術來確定火災的影響因素。吳鑫等[2]采用基于密度的聚類方法并結合地表類型分析衛星火點數據后發現,偽林火中農用火源占52.9%,發生時間集中在農耕期間;城市固定火源占44.7%,發生時間集中在夏季。白冰等[3]利用神經網絡模型擬合了氣象因子與衛星火點的關聯性,來開展東北地區農民燃燒秸稈行為的預測研究,其研究發現濕度與火點間的關聯性最高。賈南等[4]利用隨機森林模型在葡萄牙Montesinho公園森林火災數據上進行了火災預測實驗,在驗證了模型有效性的同時也指出濕度對火災發生概率的重要影響。Zhao等[5]利用海拔、坡向、地形濕度指數、坡度、距離公路和人口密集區的距離、歸一化植被指數和溫度等對嶗山林區火災發生概率影響較大的因子構建森林火險模型,該火險圖能夠明確研究出各區域的火險等級,與MODIS火災異常點數據進行對比,風險圖的精度為76.65%。Liu等[6]選取中國北方兩大草原地區(錫林郭勒和呼倫貝爾)作為研究區,從草地燃料、火氣候、可達性、人文社會經濟等5個方面提取具有代表性的指標,然后利用遷移學習方法建立草地火災指標與草地火災風險程度的映射關系,最后,利用遷移學習方法對呼倫貝爾草原的火災風險進行了評估,遷移學習方法的預測精度達到87.5%。
國外方面,研究者多采用大數據融合的思想,通過多維度關聯分析來研判火險。Martina等[7]從地理信息系統中抽取地表類型等諸多要素,結合氣象環境及人類活動分析森林火災危害程度,其研究反映了人類活動加劇了環境的惡化,間接促進了火災的發生。Naderpour等[8]提出了一種基于深度神經網絡模型的火災風險評估框架,從地形、形態、氣候、人為、社會和物理等不同背景中選擇了36個對森林火災風險有重要貢獻的關鍵指標作為模型的輸入,模型精度高達90%以上。Colak等[9]利用地表溫度變化和現場氣象觀測數據對研究區域火災風險進行評估,研究發現,地面溫度和濕度是火災危險的最重要指標。Dongwoo[10]基于溫度、濕度、風速和區域4個輸入變量建立了基于人工神經網絡和決策樹的火災預測模型,其研究發現天氣條件與火災具有強關聯性。Rositsa等[11]考慮火災引起的類型及火情特點來建立指標,其研究依賴森林可燃性和歷史火災情況評估森林火險,該研究也說明人口密度越大的區域,發生森林火災的概率也越大。綜合上述研究,火災監控需將人類活動和氣象因子結合起來,不能孤立地進行火災研判。對此,現一方面,結合地表類型、衛星火點、地面監測點的煙塵濃度及氣象因子4種數據源,采用相應的機器學習模型來綜合研判各區域的火險程度;另一方面,從氣象因子與火災的強關聯性來預測特定氣象條件下火災發生的概率;最后,綜合2項評估值來識別高風險區域。
當山火發生時,煙塵濃度往往會出現異常值。但從煙塵來源角度看,某些人為活動造成的煙塵顆粒濃度值暴漲會比自然現象對人類的影響更大,例如燒荒或工廠加排工業廢氣。同時,空氣中煙塵顆粒濃度又隨著氣象條件的變化而變化,地表植被的茂密程度也會影響煙塵顆粒的吸附程度。古金霞等[12]指出京津冀區域顆粒物質量濃度的月分布呈V字形規律,顆粒物質量濃度冬季最高,秋季和春季次之,夏季最低。因此在不考慮各區域煙塵濃度變化規律的前提下,僅靠設定濃度閾值的方法難以有效發現煙塵監測指標中的異常值。基于Loess的季節趨勢分解方法(seasonal-trend decomposition procedure based on Loess,STL)是一種時序分解算法[13],可以將原始信號分解出趨勢量(趨勢性)、季節量(周期性)及剩余量(不規則性),即
Y=Tv+Sv+Rv
(1)
式(1)中:Y為實際信號值;Tv為趨勢量;Sv為季節量;Rv為剩余量。趨勢性維度體現了季節更替及地區人口增加等因素造成的排放趨勢性變化。周期性維度體現了人為規律性活動產生的煙塵指標值。不規則性維度體現了特殊天氣如沙塵暴、強風、暴雨及重大火災事故等帶來的突發性變化。
STL原理是通過魯棒局部加權回歸對時間序列進行平滑處理,以便對原始時間序列進行分解。魯棒局部加權回歸用于解決數據平滑問題,通過擬合一條趨勢線,并以該趨勢線作為基準對數據進行平滑處理[14]。流程如下。
步驟1對一組數據中每一個觀測點xi,以xi為中心選取窗口寬度。
步驟2由權值函數定義區間內觀測點xi的權重,權重函數定義為

(2)
步驟3利用最小二乘法對觀測點xi計算回歸系數的估計值,最后得到觀測點xi的擬合值。

(3)

步驟4令ei為擬合值和實際值的差值,S為|ei|的中位數,為降低擬合誤差,原權重B(xi)的修正系數δk為

(4)
在每一個觀測點xi處用δkB(xi)替換原來的權值B(xi),然后利用最小二乘法進行多項式擬合,計算出新的擬合值。
步驟5重復步驟3和步驟4,直到循環結束,得到最終的擬合值。

內循環流程如下。





外循環主要用于調節內循環中步驟2和步驟6中LOWESS回歸中的權重,令
δv= 6median(|Rv|)
(5)

(6)
式中:δv為數據點的權重,內循環步驟2和步驟6做LOWESS回歸時需要乘以外循環計算得到的δv,從而減少剩余量對信號分解的影響。
對采用STL分解后得到的煙塵濃度不規則維度值正態化后,需進行Z-Score標準化處理,公式為

(7)
式(7)中:x為不規則維度值;E(x)為不規則維度值的均值;σ(x)為不規則維度值的標準差。若不規則維度值大于3倍標準差,則說明該異常值出現的概率小于0.5%,屬于小概率事件。對2018年12月—2019年9月北京地區70起森林火災進行煙塵濃度異常檢測后,發現利用STL方法可以從不規則性維度發現43起森林火災,火災占比為61.4%。如果從煙塵濃度實際監測值的數據分布來發現異常值時僅能識別出31起森林火災,火災占比為44.3%。STL方法未能識別出的森林火災,主要是持續時間較短的林火。可見基于STL模型可有效地識別出煙塵濃度異常的區域。
遙感衛星可以有效發現地面火點,盡管大城市的熱島效應會造成火點誤判。但熱島效應的形成原因中人類有規律的活動是不可忽視的因素。分析數據來源于美國航空航天局網站提供的2018年4月—2021年7月北京地區的MODIS和NPP VIIRS衛星火點數據[15]。火點數據屬性包括采樣時間、火點經度及緯度,如圖1所示。不考慮地表類型時,北京7月每周內衛星火點分布呈現出周末出現火點記錄的概率高于工作日的特點。按地表類型看,周末林區出現火點的概率也高于工作日。結合7月是多雨季節的特點,說明周末出現的衛星火點很大程度源于人們的外出活動。由于火災多源于人類活動,因此利用衛星火點數據可以更好地分析出人們的活動特點來提升火災預警程度。

圖1 北京7月份衛星火點分布特點Fig.1 Fire distribution of Beijing from satellites in July
采用基于密度的噪聲應用空間聚類(density-based spatial clustering of applications with noise,DBSCAN)算法按衛星火點數據中提供的經緯度坐標對火點聚集區域進行時空分析。DBSCAN算法是一種基于密度的聚類方法[16],可將密度稠密區域的點聚集到一個類簇中。該方法需要設置聚類半徑eps和最小近鄰數minPts兩個參數[17]。
步驟1統計未被標記類簇的目標樣本點在聚類半徑eps內的樣本點數neighbor_num,同時目標樣本點被標記為“已訪問過”的點。
步驟2如果neighbor_num大于等于minPts,則判定目標樣本點與掃描到的鄰居點存在“同一類簇”關系。
步驟3選擇鄰居節點中沒有標記為“已訪問過”的樣本點作為下一個目標樣本點,重復步驟1~步驟3,直到所有點都被標記為“已訪問過”的點為止。
步驟4利用樣本點間是否存在“同一類簇”關系進行類簇合并。若有樣本點沒能劃分到類簇中,則認定其為異常點。
采用的DBSCAN算法的聚類半徑eps設置為1 km,聚類范圍內的近鄰點數minPts需滿足至少5個。對2018年4月—2021年7月827條位于北京林區內的衛星火點記錄聚類后(同一天不同衛星識別出的同一位置的火點需去重),得到表1所示的火點聚集區域。這些火點聚集區域呈現出年或日維度的連續性。因此在火災易發的季節,需對市民活躍的山林區域賦予高火險權重,孤立型火點區域賦予中等火險權重。
氣象因素是引起火災的重要條件。利用Python實現的極限梯度提升(extreme gradient boosting,XGBoost)模型分析氣象因子與森林火災間的關聯性,進而研判煙塵濃度異常區域發生森林火災的概率。XGBoost模型采用集成提升方法解決分類問題,即通過構建多個決策樹模型來對數據集進行預測。原理上是每一個決策樹模型都是基于前一個決策樹模型的預測誤差進行學習來擬合出當前模型的最優參數,從而提升模型組合在整個數據集上的預測效果[18]。XGBoost模型在擬合非線性問題時體現出很好的效果[19-20]。

表1 衛星火點聚集區域特點Table 1 Characteristics of clusters for fire from satellites
實驗數據采用葡萄牙Montesinho森林公園提供的2000—2003年的火情數據[21]。葡萄牙5—10月為旱季,夏秋兩季也因此發生森林火災次數最多。火災數據中,夏季共發生火災125次,火災占比為46.3%;秋季共發生火災102次,火災占比為37.8%。實驗抽取數據中月份、每周的日期編號、FFMC(細小可燃物濕度碼)、DMC(粗腐殖質濕度碼)、DC(干旱碼)、ISI(初始蔓延指數)、溫度、相對濕度、平均風速及日降雨量10個屬性。將247條未發生火災的記錄作為負例樣本,當燃燒面積較大時空氣污染程度會較嚴重,因此將燃燒面積超過15 hm2的69條記錄作為正例樣本。隨機抽取樣本集合中75%的樣本作為訓練樣本,剩余樣本作為測試樣本。數據預處理階段,根據葡萄牙季節特點,每年3—5月為春季,6—8月為夏季,9—11月為秋季,12月—次年2月為冬季,將月份屬性轉換為季節屬性。同時將每周的日期編號轉化為周末和工作日兩種日期類型值。最后采用熱獨編碼處理季節屬性和日期類型屬性。
模型的輸入變量如表2所示,進行10次模型訓練和測試后,測試樣本正確分類的準確率均值為78%,可見模型的擬合效果在接受范圍內。由表2模型特征重要性的均值可推測當煙塵顆粒濃度較大時,FFMC、DMC、DC、風速及是否工作日5個指標與火災間有較強的相關性。

表2 模型的特征重要性Table 2 Feature importance of the model
FFMC反映細小可燃物含水率與氣象因子的關系,并指示地表火的引燃和擴散蔓延的潛力,值越大森林火險的等級越高。FFMC指標的計算公式[22]為

(8)
式(8)中:m0為前一天的細小燃料可燃率。
DMC反映半腐殖質可燃物含水率與氣象因子的關系,并指示雷擊火的引燃和半腐殖質在林火中被消耗的潛力。DMC指標的計算公式[22]為

(9)
式(9)中:M0為前一天地表可燃率的含水率。
DC反映了季節性干旱對森林植被的影響。DC指標的計算公式[22]為

(10)
式(10)中:Q0為前一天干旱碼的濕度當量。
FFMC、DMC及DC指標是一個連續計算的過程,后一天的結果依賴前一天的值,因此需設定3個指標的初始值,FFMC初值為85、DMC初值為6,DC初值為15[22]。風速對火勢的蔓延有助力作用。ISI用來評估火災蔓延等級,由FFMC和風速計算得到。考慮到特征間的關聯性,針對國網北京電科院提供的70起北京山火案例,僅抽取火災當天的FFMC、DMC、DC、火災時段的風速、溫度及濕度6個特征維度訓練XGBoost模型,來評估不同氣象條件下發生山火的概率。
若發現某區域的煙塵濃度值出現異常時,綜合該區域人類活動及氣象條件計算火災概率的公式為
FRi=Wif(Xi)
(11)
式(11)中:FRi為煙塵濃度異常區域i的火災概率;Wi為根據區域i衛星歷史火點聚類情況設置的區域風險權重值;f(Xi)為利用XGBoost模型根據氣象因子計算出來的火災概率;Xi對應區域i的FFMC、DMC、DC、風速、溫度及濕度值。若林區i屬于市民活躍的區域,則權重Wi設置為1;若歷史上該區域未出現過衛星火點,則Wi設置為0.5;若出現孤立型衛星火點的區域,則對應的權重值設置為0.8。
由圖2可知,北京林區2019—2020年有198個衛星火點出現在了煙塵濃度異常的區域,利用式(11)計算相關區域的火險概率后,可以過濾掉90個火災概率低于0.5的火點數據。結合圖3所示的北京地表類型分布圖,人口密集區域產生的偽火點將會在一定程度上被有效過濾,這將有助于巡防人員集中有限力量抵達煙塵濃度異常區域進行處置。

圖2 衛星火點火險評估效果Fig.2 Risk evaluation performance of fire from satellites

圖3 北京地表類型Fig.3 Categories of the surface in Beijing
從多源數據融合視角來綜合評估森林火險程度。提出的方法結合了人類活動特點和氣象條件來篩選出高風險的區域。考慮到火災與空氣質量間的關聯,該方法首次引入了煙塵顆粒濃度數據來發現可疑區域。由于煙塵顆粒濃度異常檢測方法受煙塵監測點分布位置和靈敏度的限制,后續工作會嘗試融合其他能夠反映火災特性的數據源,同時降低沙塵暴等極端天氣對煙塵濃度異常檢測算法的影響。