劉 宇,楚博策,高 峰,鄧 越
(1.中國電子科技集團公司航天信息應用技術重點實驗室,河北 石家莊 050081;2.北京師范大學 地理科學學部,北京 100875)
PM2.5是指空氣動力學當量直徑≤2.5 μm的顆粒物,其在空氣中的濃度越高,則意味著空氣污染越嚴重。已經有研究指出,人體某些病癥的發生概率與人在污染空氣中的暴露時間呈正相關[1-2]。隨著近年來中國北方霧霾天氣的頻繁發生,尤其是京津冀地區,社會對PM2.5的分布情況越來越關注[3]。地面PM2.5濃度的監測及實時公布已經成為環境領域的重要內容。傳統的PM2.5監測方式是地面站點監測,“十二五”以來,已經在全國建立了空氣質量監測網,但是監測站點基本上集中在城市地區,且全國總共只有1 497個監測站點。站點數量嚴重不足以及空間分布不均導致難以在面尺度上進行全國PM2.5監測[4]。
低分辨率遙感能夠獲得大范圍的大氣觀測信息,且擁有較高的時間分辨率,能夠滿足對PM2.5進行時間和空間上的連續觀測,所以近些年已有很多研究人員使用遙感進行不同地區的PM2.5反演[5-7]。根據PM2.5反演方法的差異,可以將這些PM2.5反演模型分為2類:基于模擬和基于衛星觀測數據的模型。基于模擬的模型通常使用全球化學傳輸模型來刻畫氣象因子和氣溶膠對PM2.5濃度的影響效應,然后將建立的模型應用到衛星觀測數據,來反演PM2.5濃度[8-9]。該類模型的缺點是對數據要求較高,且化學傳輸模型需要較多的參數設定。基于衛星觀測數據的模型是遙感領域較為通用的模型,其基本原理是基于PM2.5濃度和氣溶膠光學厚度(AOD)間的統計關系。該模型是遙感領域較為常用的方法,優點是所需數據教少,且方法簡單[10]。利用地理加權回歸算法建立MODIS AOD數據與PM2.5濃度的統計關系,并考慮氣象因子在模型中的有效性,該模型的精度明顯優于多元線性回歸模型[11],Ma等[12]則同時考慮了氣象因子和土地利用情況對PM2.5反演的影響。楊麗娟等[13]認為雖然氣象因子和土地利用情況等參數對AOD和PM2.5間的模型建立有積極影響,但氣象因子的變化較復雜,會導致AOD和PM2.5濃度間呈現明顯的日差異關系,故建立了包含固定效應和隨機效應的日校正模型。考慮到PM2.5和AOD數據間具有時空變異的統計特性后,有研究人員嘗試使用2層統計模型來分別對PM2.5-AOD在時間和空間上的變異進行建模[14-16]。半經驗模型是另外一種較常用的PM2.5反演模型,該模型考慮的因子與上述模型并無差別,只是一般使用指數函數形式進行氣象因子和PM2.5間的回歸[7,17-18]。
傳統的回歸模型能夠通過有限樣本刻畫簡單的映射關系,但實際應用中,數據量的增加會給回歸模型帶來巨大挑戰。當因變量與自變量間是復雜的非線性映射關系時,如PM2.5濃度與氣象因子、AOD間呈難以簡單描述的非線性關系,傳統的回歸模型很難對樣本進行準確建模[19]。而深度神經網絡(DNN)能夠有效學習樣本中的復雜非線性映射關系,對噪聲數據有較好的魯棒性,非常適用于PM2.5反演的建模。
京津冀地區是我國霧霾發生最頻繁以及最嚴重的區域,監測京津冀地區及其周邊PM2.5的時空分布可為環境部門提供決策支撐。當前,使用深度學習進行PM2.5反演建模的研究還很少;為此,本文使用MODIS AOD數據,并結合氣象同化資料,利用DNN挖掘PM2.5和氣象因子、AOD間的非線性關系,構建PM2.5反演模型,并依此分析PM2.5的時空分布模式。
京津冀地區是我國空氣污染最嚴重的地區之一,根據環保部的數據顯示,2016年京津冀區域大氣優良天數比例為56.8%,比全國平均天數比例低22%。京津冀大氣污染嚴重的原因主要有2個:其一,京津冀地區是重化工業集中的重要區域,集中了多種廢氣、廢水排放,從而直接影響大氣質量的產業,其中以鋼鐵產業為主,包括船舶、水泥等重污染產業;其二,京津冀地區地形復雜,西鄰太行山脈、北靠燕山山脈、東鄰渤海,再考慮到京津冀地區的海陸風轉換情況,京津冀地區的大氣污染物難以疏散[20]。
隨著社會對大氣污染問題的重視程度逐漸提高,國家相繼出臺了若干細則進行京津冀地區的大氣污染整治。為及時評估大氣污染整治情況,有必要及時對京津冀地區PM2.5的時空分布進行長期監測。
本文使用的數據包括2015年中國環境監測總站發布的PM2.5站點數據、MODIS AOD氣溶膠產品數據以及再分析氣象資料MERRA-2。
1.2.1 PM2.5站點數據
2013年開始,中國環境監測總站在全國338個地級以上城市設置空氣質量監測站點1 436個,“十二五”期間,又建成了農村區域空氣質量監測站點61個。目前,中國環境監測總站實時公布1 497個監測站點的監測數據(包括PM2.5、PM10、NO2、SO2、O3、CO濃度)。該數據為遙感反演面尺度的PM2.5濃度提供了數據基礎。
由于單一省份內空氣質量監測站點數量較少,且地理分布不均勻,會導致深度學習樣本過少,故本研究使用包括北京市、天津市、河北省及其周邊共9個省市的空氣質量監測站點數據,以增加樣本數量。提取2015年1月1日—12月31日的PM2.5逐小時數據,并求取10—11時的PM2.5濃度平均值,以對應MODIS上午的過境時間10:30。
1.2.2 MODIS AOD產品
MOD/MYD04(MODIS Terra/Aqua Aerosol)產品是NASA發布的Level 2級氣溶膠產品,用來獲取全球海洋和陸地的大氣氣溶膠光學特性(如AOD等)。在之前的Collection 5中,NASA僅提供了10 km分辨率的氣溶膠產品,而在最新的Collection 6中,NASA提供了3 km分辨率的氣溶膠產品。本文使用2015年每天的MOD/MYD AOD產品,空間分辨率為3 km。
Terra星過境時間大約在10:30,Aqua星過境時間大約在13:30,故MOD04 AOD產品和MYD04 AOD產品分別對應的是10:30和13:30的AOD數據。由于該產品中部分像素值缺失,故本文使用回歸方式對缺失值進行補充[21]:將每天的MOD04 AOD和MYD04 AOD數據進行線性回歸,然后利用該回歸方程進行MOD04 AOD缺失值的補充。
1.2.3 氣象數據MERRA-2
本文使用NASA發布的MERRA-2再分析產品,該產品使用GEOS-5同化系統生成,空間分辨率為0.625°×0.5°,包括自1981年至今的氣象再分析資料。提取京津唐地區2015年每日10時的地表氣壓、2 m高相對濕度、2 m高氣溫數據,行星邊界層高度數據以及地表風速數據用于本研究的建模(GMAO,2015)。
將以上數據處理為時間和空間上統一的數據集。首先,將AOD數據和氣象數據重投影到地理坐標系下,分辨率為0.03°;然后,提取對應空氣質量監測站點位置的AOD和氣象數據,考慮到空氣質量監測站點和其他數據間的地理定位誤差,使用3×3窗口像元平均值為對應空氣質量監測站點的AOD和氣象數據。最后,刪除無觀測值記錄,共得到32 753條記錄用來發展PM2.5反演模型,每條記錄包括PM2.5濃度、AOD、相對濕度RH、地表氣壓SP、氣溫T、行星邊界層高度PBLH及地表風速SWS。
PM2.5濃度天數呈伽馬分布如圖1所示,污染主要集中在低于100 μg/m3的區域,PM2.5濃度高的天數非常少,濃度極高的天數趨近于0。不均衡的樣本分布會導致DNN模型訓練的時候難以捕獲PM2.5高值區的特征[22],故需要對樣本進行均衡化處理。

圖1 2015年研究區內所有空氣質量監測站點每日10時PM2.5濃度天數分布Fig.1 Daily distribution of PM2.5 concentrations at 10 a.m.observed by all air quality monitoring systems in the study region in 2015
本文使用傳統的重復過采樣方法進行樣本均衡化。假設樣本集中PM值為i的天數為Ni,首先確定Ni的最大值Nmax,然后將Ni小于Nmax的樣本復制至Nmax個,使PM濃度值呈均勻分布。
將均衡化的樣本按照0.9∶0.1的比例劃分為訓練樣本與檢驗樣本;根據訓練樣本與檢驗樣本不斷調整DNN的結構參數,包括隱藏層數量和每層的節點數量,得到的最優結構如圖2所示。該DNN共有8個隱藏層,每層的隱藏節點個數分別為39,31,27,21,15,11,7,3。

圖2 擬合效果最優的深度神經網絡結構Fig.2 Structure of DNN obtaining optimal fitting result
作為對比,使用式(1)的半經驗回歸模型對樣本進行回歸驗[18]:
ln(PM2.5)=β0+βAODln(AOD)+βPBLHln(PBLH)+
βRHln(RH)+βTln(T)。
(1)
對該模型的評估指標包括相關系數r(PM2.5真實值與模型值間的相關系數)、平均絕對誤差MAE以及平均相對誤差MRE。
由于AOD數據缺失,導致DNN反演得到的PM2.5分布也是缺失的,本文采用點面融合模型對PM2.5的時空分布進行插值[21]。空氣質量監測站點的PM2.5濃度數據不包含空間特征,但其反映的時序規律是準確的,而DNN反演的PM2.5濃度數據則包含部分準確的空間特征;點面融合模型結合了站點插值數據與DNN反演數據的優點,該模型假設站點插值PM2.5數據在不同日期間的差值與DNN反演的PM2.5數據在相同日期間的差值相同,具體方法為:
Vi,j,t1-Vi,j,t2=Mi,j,t1-Mi,j,t2,
(2)
式中,i,j代表像素位置(行、列值);t代表時間(天);V為DNN反演的PM2.5濃度數據;M為PM2.5站點插值數據。假設Vi,j,t1為PM2.5濃度缺失值,Vi,j,t2為時間上距離Vi,j,t1最近的有效值,則其差值與PM2.5濃度在站點插值數據中的差是相同的。
原始樣本數量為32 753個,經過樣本均衡化后的樣本數量為148 330個。對原始樣本同樣按照0.9∶0.1的比例進行DNN的訓練和檢驗,得到擬合效果最優的網絡結構與圖2相同。作為均衡化樣本的對比,表1列出了原始樣本與均衡化樣本的擬合結果。

表1 DNN模型對原始樣本與均衡化樣本擬合效果對比Tab.1 Comparison between fitting result for original samples and balanced samples separately on DNN model
原始樣本的擬合相關系數0.43遠低于均衡化樣本的擬合精度0.94;同時由于原始樣本分布過于集中,導致訓練樣本集與檢驗樣本集的擬合效果相差較大,訓練樣本集的擬合相關系數為0.68,而檢驗樣本集的擬合相關系數僅為0.43。原始樣本與均衡化樣本擬合結果的MAE差異不大,但由于原始樣本分布過于集中,其訓練樣本集與檢驗樣本集的MAE差異更大;原始樣本中訓練樣本集與檢驗樣本集擬合結果的MRE差異巨大,達到20.6%。
作為對比,均衡化樣本的擬合結果遠遠優于原始樣本,同時訓練樣本和檢驗樣本在模型擬合精度上差異也明顯優于原始樣本,MAE差異僅為0.5 μg/m3,MRE差異僅為0.3%,故樣本均衡化明顯提高了DNN模型的魯棒性和PM2.5反演時的精度。
使用圖2的DNN模型分別對訓練樣本集和檢驗樣本集進行擬合,擬合結果如圖3所示。對訓練樣本集而言,真實PM2.5濃度與模型預測的PM2.5濃度間的相關系數為0.944,平均絕對偏差為24.5 μg/m3,平均相對偏差為25.9%;對于檢驗樣本集而言,真實PM2.5濃度與模型預測的PM2.5濃度間的相關系數為0.94,平均絕對偏差為25.0 μg/m3,平均相對偏差為26.2%,DNN對訓練樣本集和檢驗樣本集的回歸散點圖如圖3所示。

(a) 訓練樣本集的擬合結果
半經驗回歸模型對訓練樣本集和驗證樣本集的集合結果如表2所示,回歸相關系數僅為0.18,遠低于DNN模型的0.94;平均絕對誤差和平均相對誤差也遠高于DNN模型的結果。

表2 半經驗回歸模型對原始樣本與均衡化樣本擬合效果對比Tab.2 Comparison between fitting result for original samples and balanced samples separately onsemi-empirical model
利用點面融合算法,可以得到每天上午10:30空間分辨率為0.03°的PM2.5時空分布;考慮到在氣象條件不發生較大變化的情況下,PM2.5濃度不會發生劇烈變化,故上午10:30的PM2.5濃度可以一定程度上代表全天的PM2.5濃度。本文假定每日10:30的PM2.5濃度為日均PM2.5濃度,全月每日10:30的平均PM2.5濃度為月均PM2.5濃度,全年每日10:30的平均PM2.5濃度為年均PM2.5濃度。
DNN反演得到的月均PM2.5時空分布如圖4所示。

圖4 DNN模型反演的京津冀地區2015年月均PM2.5濃度時空分布圖Fig.4 Spatiotemporal distribution of average PM2.5 concentration monthly in Beijing-Tianjin-Hebei area retrieved by DNN model
從時間上看,PM2.5濃度較高的月份主要集中在屬于冬季的12月、1月和2月,這與實際情況相符,每年冬季由于京津冀地區供暖的需求,煤炭燃燒會向大氣輸送大量污染物,同時,受蒙古西伯利亞高壓控制,大氣污染物不易擴散;PM2.5濃度最低的月份為9月。
PM2.5濃度年均地理分布如圖5所示。PM2.5濃度較高的地區集中在北京市中部以南地區,太行山東部,與實際情況相符,受到地形因素影響,京津冀地區西側毗鄰太行山,北京北部山地環繞,導致大氣污染物難以擴散;京津冀北部空氣質量為優良狀況。

(a) 空氣質量監測站點插值數據 (b) DNN模型反演數據圖5 PM2.5年平均空間分布Fig.5 Annual average geographical distribution of PM2.5 concentration
作為京津冀地區空氣污染嚴重且最受關注的城市,北京市與石家莊市PM2.5濃度的逐日波動如圖6所示。

(a) 北京市
對于北京市,DNN反演的11、12月份PM2.5濃度與空氣質量監測站點數據一致性很好,但其他日期的數據間存在系統偏差;對于石家莊市,DNN反演的全年PM2.5濃度與空氣質量監測站點間數據一致性都很好。北京市全年的空氣污染波動頻率較均勻,PM2.5濃度峰值主要分布在冬季,最高值可達589 μg/m3;12月份的空氣污染頻率略低于其他月份,但大氣污染的持續時間長于其他月份,年平均PM2.5濃度為107.3 μg/m3。石家莊市呈現出與北京市相同的空氣污染波動模式,PM2.5濃度峰值同樣主要分布在冬季,但峰值395 μg/m3低于北京市,但年平均PM2.5濃度110.5 μg/m3略高于北京市;同時,石家莊市冬季高污染的頻率也高于北京市。
本文使用MODIS AOD數據及MERRA2氣象再分析資料構建了PM2.5濃度反演的DNN模型,驗證了該模型在PM2.5濃度反演方面的效果,通過樣本均衡化的方法提高了DNN在反演PM2.5濃度時的精度,并用此模型反演了2015年京津冀地區的PM2.5濃度時空分布。最后,通過月均PM2.5濃度空間分布、年均PM2.5濃度空間分布及北京市與石家莊市PM2.5日波動情況進行了初步分析。得到相關結論:① 樣本均衡化增加了PM2.5高值的樣本數量,使得樣本分布更加均一,有效地將DNN的擬合相關系數由0.43提高到了0.94,且增加了DNN模型的魯棒性。DNN模型對PM2.5濃度站點數據的擬合相關系數分別為0.944和0.94,平均絕對誤差和平均相對誤差分別為25.0 μg/m3,26.2%,完全能滿足對京津冀地區大氣污染監測的需要。② 京津冀地區的大氣污染主要分布在中南部,且中南部的污染程度遠高于北部地區;2015年,京津冀地區大氣污染最嚴重的時間為冬季,夏季的PM2.5濃度最低,北京市與石家莊市PM2.5濃度峰值均分布在冬季;北京市與石家莊市12月份的空氣污染頻率略低于其他月份,但大氣污染的持續時間長于其他月份。