王英,冉進業,張今,楊鑫,張浩
(1 西南大學化學化工學院,重慶 400715;2 西南大學計算機與信息科學學院,重慶 400715;3 重慶理工大學化學化工學院,重慶 400054)
目前,PM濃度預測方法包括基于大氣化學反應和傳質模型的機理方法和數據驅動的統計方法。PM微觀形成過程涉及復雜的氣-固相界面非均相化學反應和氣-液、氣-固傳質過程,宏觀上受本地積累、區域傳輸和二次轉化的共同影響。前體與大氣邊界層氣象要素雙向協同機制導致我國重點區域PM重污染成霾速度快、污染峰值高、階段性變化明顯,給機理模型的建立帶來了巨大困難。在PM重污染形成機理尚未十分明晰的情況下,數據驅動方法中的機器學習模型可利用環境大數據推斷PM本地積累、區域傳輸和二次轉化強度,模擬霧霾重污染時空演化規律,建立較為準確的重污染形成機制代理模型。常用的機器學習模型有多元線性回歸(multivariate linear regression model, MLR)、 隨 機 森 林 (random forest,RF)、 支 持 向 量 機(support vector machine,SVM)、隱馬爾可夫模型(hidden Markov model,HMM)以及人工神經網絡(artificial neural network,ANN)等。相對上述傳統統計模型,以卷積神經網絡(convolutional neural networks,CNN)和遞歸神經網絡(recurrent neural network,RNN)為代表的深度學習模型可使用多重非線性變換構成的復合處理層對數據進行高層抽象,在圖像和語音識別方面取得了突破性進展。然而,傳統RNN 在處理濃度變化巨大的霧霾重污染時間序列數據時往往無法連接關鍵信息,導致較大的預測誤差。與傳統RNN 相比,長短期記憶網絡(long short-term memory,LSTM)通過增加隱含狀態不僅可以解決傳統RNN 梯度爆炸與梯度消失問題,同時可以提取時間序列的長期依賴關系,目前被廣泛用于空氣污染濃度預測領域。
精確預測霧霾重污染事件中PM濃度的最終目標是采取有效措施最大限度消除污染帶來的社會和經濟影響,對此需要較好解釋PM濃度影響因素的相關參數與目標PM濃度的關系,因此采用的數據驅動預測模型參數可解釋性尤為重要。LSTM 雖具有較好的預測效果,但是模型參數的可解釋性欠佳;而MLR 模型可以較好解釋輸入變量與目標變量之間的關系。因此,為有效解釋LSTM提取的時間序列深度特征并獲取各變量對未來PM濃度的影響,本文提出了深度時間序列特征融合模型(long short-term memory and multivariate linear regression,LSTM-MLR)。該模型通過LSTM分別提取NO、SO等空氣污染物的濃度以及相對濕度、風速等氣象因素的復雜信息;使用MLR 融合深度學習模型提取的時間序列深度特征,構建空氣污染物的濃度、氣象因素與未來PM濃度之間的函數關系進而簡化預測背后的推理過程。通過MLR 模型參數的正負與絕對值大小表示當前污染物濃度、氣象因子與未來霧霾濃度之間的相關性和貢獻度,從而可以較好解釋輸入變量與目標霧霾濃度之間的關系。
汾渭平原包括山西省、陜西省和河南省共11個地級市,全面靜風率為35%,冬季靜風率高達45%。因其地理地形、氣象條件、產業布局和能源結構等原因,區域內污染物排放強度持續累積,多個城市在全國重點城市空氣質量排名倒數,霧霾污染防控壓力較大。在汾渭平原城市群中,西安是最具區域影響力和國際知名度的城市。因此,本文使用所提出的深度時間序列特征融合模型(LSTMMLR)對西安市2015年1月至2020年3月共6個供暖季霧霾重污染事件中的PM濃度進行3~24h 預測,以實現對霧霾重污染的準確預測并為其采取消峰降速緊急措施提供數據支撐。
LSTM 通過在隱藏層中加入記憶單元來控制時間序列數據的記憶信息,使用3 個門結構(遺忘門、輸入門、輸出門)在隱藏層的不同單元之間進行信息傳輸,從而控制歷史信息和當前信息的記憶和遺忘程度,其網絡的結構如圖1所示。
圖1中,是式(1)的sigmoid函數,輸出為介于0 和1 之間的值。0 表示“全部不通過”,1 表示“全部通過”,通過式(2)中的雙曲正切函數來克服梯度消失的問題,其輸入和輸出見式(3)~式(8)。

圖1 LSTM結構

式 中,、、、為 輸 入 權 重;、、、為偏置;下角標為當前時間;下角標-1為先前時間;為輸入;為輸出;為單元狀態。
MLR 研究因變量與多個自變量(解釋變量)之間的依存關系,常用于數據序列的預測及分類研究。模型的一般形式如式(9)所示。
2.3 兩組治療前后SF-36分值比較 治療前兩組SF-36分值對比,差異無統計學意義(P>0.05);治療2周后兩組SF-36分值均較治療前有所提高,且觀察組高于對照組,差異有統計學意義(P<0.05)。見表4。

式中,為常數;,,…,a為回歸系數,回歸系數的正負性代表該解釋變量對因變量的正負相關性,絕對值大小代表該解釋變量對因變量的貢獻度。
為提高PM預測精度和模型可解釋性,使用具有不同超參數結構的LSTM單元提取時間序列輸入的深度特征,通過逐步線性回歸篩選LSTM提取的時間序列特征(圖2):①分別對LSTM輸出的各個特征進行-檢驗以驗證LSTM 輸出與PM濃度之間的線性關系是否顯著;②根據顯著程度由高到低對LSTM輸出特征進行排序;③按特征順序依次進行-檢驗,觀察對應的-value值是否小于0.05,否則刪除該變量繼續進行-檢驗直至每一個變量的-value 值均小于0.05;④利用MLR 對篩選后時間序列深度特征數據進行融合,預測未來3h、6h、12h和24h的PM濃度。

圖2 LSTM-MLR特征融合
本文所用數據為2015年1月—2020年3月西安市13 個國控站點的空氣質量監測數據和西安咸陽國際機場氣象監測數據。西安地處關中平原,南方被秦嶺山脈阻隔,北方有黃土高原,西北部為秦嶺與黃土高原結合部,東部為潼關與黃河形成的通風口,地形較為復雜,冬季靜風頻率較高。主導氣候為溫帶季風氣候區和亞熱帶季風氣候,冬季供暖期霧霾污染嚴重。作為省會城市,西安城市建成區面積505km,城區人口超出800 萬,2020 全年GDP 10020.39億元。
西安市13 個空氣質量數據監測站點設在高壓開關廠、興慶小區、紡織城、小寨、市人民體育場、高新西區、經開區、長安區、閻良區、臨潼區、草灘、曲江文化產業集團以及廣運潭,包括PM、PM、CO、NO、SO、O濃度數據,每小時記錄1次;除去缺失數據,每個站點可用數據超過47000h,其中空氣重污染樣本占6.39%。氣象監測數據來源于西安咸陽國際機場氣象監測點,每3h記錄1次。
由于LSTM對包含缺失值的時間序列處理效果不佳,本文使用西安13 個空氣質量監測站點的PM平均濃度作為LSTM 輸入時間序列的標簽值,并根據式(10)對缺失值進行線性插值補充。

式中,(?)為目標時間序列;為缺失值范圍之前最后一個正常數據的時間戳;為缺失數據的持續時間;為缺失數據的序列號,且-1≥≥1。為了去除數據噪聲,利用均值平滑法將-3:時刻霧霾濃度均值作為時刻的濃度;通過最小最大化標準法進行歸一化,見式(11)。

采用如圖3所示的滑動窗口的方式對數據進行標注:輸入時間序列長度為滑動窗口長度(36h);間隔長度為Δ,本文設置為3h、6h、12h 和24h,標簽為時間序列樣本的目標值。最后,以11月1日至次年3月31日為供暖季,2015—2018年4個供暖季共12984h 數據作為訓練集;2018—2019 年供暖季共3624h 作為驗證集;2019—2020 年供暖季共3648h作為測試集。

圖3 滑動窗口示例圖
采用如下7種評價指標來評價模型的性能,見式(12)~式(18)。
平均相對誤差(mean relative error,MAPE)

平均絕對誤差(mean absolute error,MAE)

均方根誤差(root mean square error,RMSE)

式中,y為第個觀測數據;?為第個預測值;?ˉ為預測平均值;ˉ為觀測數據平均值;為樣本總數;為重污染樣本的正確預測個數;為所有重污染樣本觀測個數;為模型預測為重污染樣本個數。
LSTM-MLR 初始模型輸入包括歷史PM、PM、CO、NO、SO、O、水平能見度(VV)、大氣溫度(Temp)、露點溫度()、海平面大氣壓()、氣象站大氣壓()、風速(WS)、相對濕度(RH)、風向(WD)共14 個變量,模型輸出為未來3h、6h、12h或24h的PM濃度預測值。通過模型顯著性檢驗篩選特征,結果見表1:在不同預測步長模型中,所有輸入變量的-value均小于0.05,即在=0.05 水平上顯著,說明各個變量對目標PM濃度影響程度顯著。各變量與因變量之間的相關系數同時反映了輸入變量與待預測PM濃度時間序列的相關程度。本文使用相同變量組合輸入比較模型,對不同時間間隔的PM濃度進行預測。由于LSTM 復雜性較高,篩選變量可有效降低LSTM-MLR 模型參數:預測步長為3h 的LSTMMLR 模型參數個數降低33.97%;預測步長為24h時,模型參數降低16.82%。

表1 LSTM-MLR特征選擇結果與依據
為證明LSTM-MLR 模型的先進性,建立了具有相同輸入變量的RF、支持向量回歸(support vector regression,SVR)、MLR、LSTM_PM、多變量LSTM(M_LSTM)和LSTM-RF(long short-term memory and random forest) 并 使 用MAPE、MAE、RMSE 和衡量模型對PM濃度的預測精度,其中,LSTM-RF表示以RF形式替換LSTM-MLR模型中MLR 形式作為特征融合層輸出最終PM濃度預測值,LSTM_PM表示LSTM 中的輸入變量只包含PM濃度,其他方法均是和LSTM-MLR 使用相同的多變量。LSTM-MLR、LSTM-RF、M_LSTM、LSTM_PM、MLR、SVR 及RF 的運算時間見表2。在離線訓練過程中,LSTM-MLR 的運算時間同其余模型存在較大差異,比如,同M_LSTM與LSTMRF相比分別降低了25.75%與44.17%;在單樣本在線預測過程中,LSTM-MLR 與其余模型的預測速度差異較小,均在1s內完成單樣本在線預測。7類模型在預測步長為12h 時對某霧霾重污染事件中PM濃度的預測結果如圖4所示。當預測步長分別為3h、6h、12h 和24h 時,各模型MAPE、MAE、RMSE、R見表3,最優結果用粗體標出。由表3可知,在預測間隔為3h、6h、12h時,LSTM-MLR預測精度最高。在預測間隔為24h時,MLR模型的誤差最小,但與LSTM-MLR模型相差不大。

表3 不同預測步長時模型全濃度范圍內的預測誤差比較

圖4 預測步長為12h的各個模型對某霧霾重污染事件中PM2.5濃度預測結果

表2 模型在離線訓練和在線預測階段的運算時間差異
為進一步研究LSTM-MLR 對霧霾重污染的預測準確率,本文計算了7 類模型對PM濃度高于150μg/m樣本的準確識別率等指標,包括MAPE、MAE、RMSE、R、TPR、FAR 以及SI,計算結果見表4,最優結果用粗體標出。當預測步長為3h、6h、12h 和24h 時,LSTM-MLR 模 型 的MAPE、MAE、RMSE 都明顯小于MLR 與M_LSTM,R大于MLR 與M_LSTM,表明使用不同超參數LSTM 分別提取輸入變量的深度時間序列特征有利于提高模型預測性能。在不同的特征融合方式中,以多元線性回歸為特征融合層的LSTM-MLR 在3~24h 預測步長中的MAPE、MAE、RMSE 和R全面優于以隨機森林為特征融合層的LSTM-RF。當輸入變量相同時,LSTM-MLR 模型在3~24h 預測步長中的誤差均大幅低于RF 和SVR。相比輸入變量只包括PM時間序列的LSTM_PM,LSTM-MLR 模型的預測性能在預測步長為3~24h 時全面占優,說明增加PM前體和氣象因素有利于提高PM濃度預測性能。TPR、FAR 和SI 可反映不同模型對PM重污染樣本的預測性能:當預測步長為3h 時,LSTMMLR 與M_LSTM 相比對重污染樣本的預測能力不占優勢;當預測步長為6~24h 時,LSTM-MLR 對重污染樣本的準確預報率及成功因子大幅度領先于其他方法,不同步長TPR 分別比M_LSTM 高7.15%、41.13% 和31.73%。根據不同方法的MAPE、MAE、RMSE、R、TPR、FAR 和SI 在3~24h預測步長的分布狀況,可認為LSTM-MLR模型對PM重污染樣本識別性能最佳,可實現對PM重污染的準確預警。表5顯示不同預測步長LSTMMLR 模型評價矩陣在訓練集、驗證集和測試集無明顯降低,說明該模型具有較好的泛化能力。

表4 PM2.5濃度高于150μg/m3時不同模型的預測結果

表5 不同的預測步長LSTM-MLR模型在訓練集/驗證集/測試集中的表現
LSTR-MLR不僅有較高的預測性能,還具有良好的參數可解釋性。表6 為4 個預測步長LSTMMLR 模型特征融合層中PM自身特征、前體特征和氣象條件特征的對應模型參數。其中,“—”同表1中的“—”含義一致,表示在特征融合時舍棄了該變量。為準確反映不同變量對目標PM濃度的影響,本文在特征融合部分取消權值之和為1的約束條件,通過參數正負反映變量對目標PM濃度的積極/消極影響,通過參數在絕對值之和所占比率反映各個變量對目標PM濃度的影響,從而為后續的霧霾治理措施提供一定的參考價值。表6顯示LSTM-MLR 預測步長從3h 增加至24h 時,目標PM濃度的主要影響因素及其影響力均發生了較大變化:當對PM濃度進行3h與6h的臨近預測時,模型的所有輸入對目標PM濃度均有促進作用;當預測步長增加至12h與24h,SO濃度變化特征與目標PM濃度變化呈負相關。SO為二次霧霾污染的主要前體,硫酸鹽與可揮發有機物之間的非均相反應為霧霾爆發性增長的主要原因。原因可能是汾渭平原作為我國重要的重工業發展聚集區,煤炭消費占一次能源消費近90%,遠高于京津冀和長三角地區;焦化與鋼鐵產業的大宗原料及產品運輸80%依賴于公路運輸。煤炭消費產生大量硫氧化物等,公路運輸中大貨車尾氣排放大量氮氧化物等,二者均為霧霾污染物的前體。在霧霾重污染應急措施中,停工減產能夠較快得到嚴格落實,而公路運輸中大型貨車運力控制存在滯后,導致SO濃度下降趨勢早于NO濃度降低趨勢,因此在模型中呈現負相關性。

表6 不同預測步長時LSTM-MLR模型融合層參數
預測步長為3h 時,影響目標PM濃度最大的前體為NO,氣象因素為風向和局部大氣壓;其中,前體貢獻占比為5.23%,氣象因子占比為13.88%,當前PM影響力高達80.89%。預測步長為6h時,前體影響力提升至11.63%,當前PM濃度影響力降低至57.55%,天氣因素的影響力為前體濃度影響的2.65 倍。當預測步長提升至12h 時,SO減排的影響力開始體現,較高的高空溫度形成的逆溫層成為氣象條件中的主導影響因素(16.16%)。預測步長為24h時,當前PM濃度的貢獻率降至16.34%,前體濃度影響提高至29.43%,氣象因子中的主要影響變量為局部氣壓、風速和可見度;各個因子貢獻率的變化表明停工限產等減排措施的效果隨時間變化逐漸增強,應至少提前24h開始實行。重污染過程中氣象因素的影響力始終大幅度高于前體濃度的影響力,說明汾渭平原的基礎排放量遠高于環境容量,靜穩高濕的不利天氣因素容易導致二次PM生成速率大幅提高,最終造成空氣重污染。
由于汾渭平原供暖季節空氣重污染發生頻次高,社會影響大,本文針對重污染監測數據的多源異構性、時間序列的非平穩和多尺度特性提出了基于深度時間序列特征融合的空氣重污染演變過程預測模型(LSTM-MLR)。該模型利用汾渭平原重點城市西安市的數據,通過多個不同超參數結構的LSTM 提取前體與氣象因素的長時間依賴關系,利用MLR 進行特征融合實現對西安市PM濃度的臨近預測,并根據融合層參數計算不同輸入變量的對重污染過程中霧霾濃度的影響。結果表明,LSTMMLR 模 型 相 對RF、SVR、MLR、LSTM_PM、M_LSTM、LSTM-RF 在PM濃度預測精度及重污染預警準確率兩方面均為最優。此外,相比其他模型,LSTM-MLR 兼具高預測精度和參數可解釋性,即在PM重污染樣本中具有最高識別準確率的同時可以量化模型輸入與目標PM濃度之間的關系。
然而,LSTM-MLR 模型輸入數據特征與LSTM最優超參數的關系尚未明確,輸入變量無法實現長度的自適應調節。因此,匹配輸入數據特征與LSTM 超參數結構,通過構建周期、趨勢、步進和隨機特征優化模型結構是未來的主要改進方向。