張 波,宋國君
大規模空氣質量監測數據缺失處理方法實證研究
張 波,宋國君*
(中國人民大學環境學院,北京 100872)
基于2016年1月至2021年7月的全國1654個國控監測點小時級的6種污染物空氣質量監測數據,研究缺失值處理方法、效果及其影響.模擬實驗表明交替最小二乘下的低秩矩陣插補算法相比于其他缺失值處理方法擁有更小的均方根誤差、平均百分比誤差,更高的相關系數和更快的運算速度,在大規模數據集上性能更優.實證分析表明應用文本方法得到的插補值是有效且合理的,缺失值插補前后污染物濃度評估值會有±10%以內的變化,插補后的數據集更加準確和完備.本文建議在基于空氣質量監測數據研究時應先采用本文中的缺失數據處理方法,對監測數據中存在的缺失數據進行插補,提高研究所使用監測數據的完整性,保證相關計算結果的準確性和有效性.
監測數據;大數據處理;缺失值處理;矩陣填充;實證研究
我國2016年實施的《環境空氣質量標準 (GB3095)》(簡稱“標準”)中對污染物監測數據的有效性做出明確規定,一天24h中有至少20h以上數據時,計算SO2、NO2、CO、PM2.5和PM10的日均濃度值才是有效日均數據,O3監測數據則要求每連續8h中至少有6h數據時才為有效數據.但在監測設備的日常運行中,由于某些不可預期因素(如服務器宕機、網絡中斷、設備故障等)導致監測數據缺失.目前國家公開發布的空氣質量監測數據以小時數據為最小顆粒度,小時數據缺失會對后續日均值、月均值、年度均值、超標率、二級標準天數等指標的計算造成直接影響.2018年生態環境部印發的《城市環境空氣質量排名技術規定》[1](簡稱“規定”)中指出SO2、NO2、PM2.5、PM10的評價濃度為日均濃度,O3的評價濃度為日最大8h平均值的90%分位數,CO的評價濃度為日均濃度的95%分位數,不符合有效性規定的數據不能參與計算,為空氣質量監測數據的計算提供了標準.大規模空氣質量監測數據是進行污染物時空分布規律研究的基礎數據,目前大部分研究均基于中國環境監測總站發布的連續在線監測數據[2-8],數據的缺失和不同的缺失處理方法會對研究結果產生一定影響[9],但空氣質量監測數據中數據缺失的影響究竟有多大,使用何種缺失處理方法更加可靠,這方面的研究還非常有限,因而研究如何更加客觀、科學的處理大規模環境監測數據中缺失問題具有重要的現實應用價值.
目前國內有關環境監測數據缺失問題的研究主要集中在制度建設和管理規范方面,如建立外場監測和實驗室分析的兩級質量保證體系[10],通過開展專項質控工作提升監測數據質量[11],加強對生態環境監測機構的監管提升數據質量[12],通過建立從業人員監管制度確保數據質量[13],以及對國外經驗的總結和借鑒[14],這些研究從體制機制的角度研究如何提升監測數據質量,但缺少對具體現實具體問題的探討,尤其是存在大規模數據缺失情況下該如何處理,用什么方法處理,處理后的影響如何等問題還鮮有研究.國際上環境監測數據的缺失問題一直以來都是研究者非常關注的問題之一,很多缺失值處理方法也被應用于空氣質量監測數據處理和研究中,如最近鄰算法[15]、EM算法[16]、線性回歸[17]、簡單插補[18-20]、多重插補[18,21]、最小核范數[22]和低秩矩陣插補[23-24]等,多方法對比研究[21,24]發現多重插補方法和低秩矩陣方法在數據缺失較大的情況下更有優勢,能夠產生偏差更小的插補值來替代缺失值.以往研究對象面向的是少數監測站點和較短數據序列,現實中由于監測手段快速改進,空氣質量監測數據已經出現爆發式增加,監測點數量和數量量都達到很大規模,如何處理海量環境數據中的缺失問題,已經成為越來越需要密切關注的問題.本文基于全國空氣質量國控點的小時級監測數據,利用低秩矩陣插補方法處理海量監測數據中大量缺失的問題,該方法在保證插補精度的同時能夠大幅度降低大規模數據處理所需時間,得到的插補值服具有較高有效性.
在缺失值處理方法中,簡單插補和最近鄰算法方法最簡單,但處理效果較差,EM算法只適用于分布為多元正態分布的數據,線性回歸、多重插補雖然效果較好但計算量巨大,無法適用于大規模缺失處理.本文使用交替最小二乘下的低秩矩陣插補(Low Rank SVD via Alternating Least Square, softImpute- ALS)[25]算法,其是在低秩矩陣插補方法[26-27]基礎上為解決大規模數據集處理而提出的.低秩矩陣插補方法最初在Netflix競賽中被提出,用于插補電影評分矩陣中的缺失值,實現電影推薦的目的,因為其在大規模數據集上的優異性能而備受關注.
基本思想是在原始存在缺失值的矩陣基礎上進行重建,即對矩陣中的缺失值進行填充,并保證填充后的完整矩陣與原始矩陣的秩相同.給定數據集,且中存在缺失值,由已觀測值的下標構成集合W,那么softImpute-ALS算法的目標是求解以下優化問題:


步驟1,初始化矩陣=,其中′r為隨機生成且列正交,′r為單位矩陣.初始化矩陣=,其中′r=0.
步驟2,固定矩陣,通過優化式(2)來更新矩陣,

步驟3,固定矩陣,在第二步中交換矩陣和,使用同樣的方法更新矩陣和矩陣.
步驟4,重復步驟2和步驟3,直到達到收斂條件.
步驟5,計算=′,并對矩陣進行SVD分解,有=R.最終輸出結果、?和,=diag[(1-)+,…,(-)+],以及填充后的矩陣*.
本文研究數據來自中國環境監測總站實時發布的全國367個城市,1654個國控監測點自2016年1月1日到2021年7月31日的6種空氣污染物小時濃度監測數據,共計48912h,理論上如果每個監測點的每種污染物在每個小時都有監測數據的話,那么監測數據總量為4.2億條,但由于各種原因導致數據出現缺失(即空值),缺失數據總計814萬條.本文將缺失數據總量除以理論數據總量定義為數據缺失率,那么國控點監測數據的總體缺失率為19.3‰.數據中不同污染物缺失率并不相同,SO2缺失率為9.6‰,NO2為10.9‰,CO為13.1‰,O3為14.4‰,PM2.5為15.3‰,PM10為52.4‰,PM10缺失率最高,而SO2缺失率最低.
不同監測點的缺失情況存在很大差異(表1),以PM2.5為例,缺失最嚴重的監測點的缺失率達到331.7‰,即三分之一的數據因各種原因缺失,致使監測點數據有效性大打折扣,在使用該數據進行分析時,可能會導致較大誤差.因而有關部門在使用空氣質量監測數據時,會對監測數據進行校驗,但當前大部分研究中所使用的公開數據集往往是未經過校驗處理的,其中就存在大量缺失值,缺失值對相關計算結果的影信息響究竟有多大,還沒有被深入討論.

表1 不同污染物的監測點數據缺失統計(‰)
數據缺失的內在機理可以劃分3種類型[28],分別是完全隨機缺失(MCAR)、隨機缺失(MAR)和非隨機缺失(MNAR).其中MAR相比于MCAR更加常見和符合現實,也是缺失值處理方法最主要的研究對象.MAR指僅在某個特定的組內缺失值是隨機產生的,而不同組之間不一定是隨機的.對應到空氣質量數據的缺失機制,由于不同污染物缺失率不同,不同監測點的缺失率也有很大差異,顯然污染物缺失并不是完全隨機的,而僅在特定監測點和污染物條件下是可以視作是隨機缺失的.此外,空氣質量是連續在線監測模式,如果因設備故障而導致數據缺失的話,數據往往會連續缺失一定時段直到設備故障排除.表2顯示,三分之二左右的缺失間隔僅為1,說明大部分情況下缺失值是偶然出現.但也有三分之一左右的缺失間隔大于1,缺失在10h以上的情況占比達到3%以上,這很可能是出現明顯的設備故障,需要一定的維修時間.其中PM2.5最大連續缺失200h,PM10最大連續缺失196h,SO2最大連續缺失192h,NO2最大連續缺失197h,O3最大連續缺失189h,CO最大連續缺失191h.研究表明隨著缺失間隔的增大,使用簡單缺失值處理方法(如均值填充等)的有效性不斷下降[29-30],更加需要有效方法來處理大規模缺失的情況,而softImpute-ALS方法在嚴重缺失的情況也能有很好的插補性能[25],因而適用于處理空氣質量監測中的缺失值.

表2 不同污染物缺失間隔占比(%)
為考察softImpute-ALS方法在大規模缺失數據集上的優劣,需要構造相應數據集,并計算各種缺失值處理方法在不同評估指標上的表現.因此,本文通過以下模擬方案生成算法評估數據集.方案包括四個步驟:(1)抽取可能產生缺失的污染物,抽取概率為不同污染物的缺失值數量占全部缺失值數量的比例;(2)抽取可能產生缺失的監測點,抽取概率為污染物下,監測點缺失值數量占全部該污染物全部缺失值數量的比例;(3)隨機抽取可能產生缺失的時間點,即該時刻開始出現缺失值;(4)抽取產生缺失的間隔長度,抽取概率為表2中缺失間隔對應的占比;(5)記錄缺失值的下標(,,,),并將原始數據中相同下標的數據標記為缺失值.通過以上四個步驟,在模擬真實缺失機制前提下,本文生成得到兩份數據集,一份為原始數據集,一份是標記了缺失值的數據集.接下來,本文對數據集運用不同缺失值方法,通過考察其還原數據集的程度來評估方法的優劣.
使用的評估指標有均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)和皮爾遜相關系數().RMSE指標用于測度缺失值和插補值之間絕對偏差的大小,RMSE越小說明插補值約接近原始值.MAPE指標用于測度缺失值和插補值之間相對誤差的大小,MAPE可以比較消除量綱后偏差的大小.指標用于測度變量間線性相關關系,指標值介于-1到1之間,越大說明缺失值與插補值之間相關性越高,二者擬合效果越好.不妨令模擬數據中觀測值下標集合為W,則缺失值下標構成的集合是W的補集記為Wc,為原始的模擬數據,為缺失值填充后的數據,為缺失值數量,則評估指標的具體計算公式為:



選擇簡單填充、線性插值、向前填充、最近鄰插補、EM插補、多重插補方法作為對比,比較這些方法和softImpute-ALS在相同數據集上,模擬真實缺失機制下在RMSE、MAPE、和運算時間(time)上的表現.重復實驗10次,最終結果為10次實驗的平均值,實驗使用平臺配置為2.2GHz的CPU和16G DDR3內存,實驗結果如表3所示(1)softImpute-ALS插補后的值在RMSE、MAPE兩個指標上均表現最小,說明softImpute-ALS能夠更加準確的插補缺失值,同時softImpute-ALS的插補值與真實值有更高的相關性,其他方法中只有最近鄰填充能夠與softImpute-ALS方法在準確度方面更為接近.(2)時間消耗方面,softImpute-ALS對不同污染染處理時間介于160~180s之間,雖然相比于簡單填充、線性插值和向前填充耗時顯著增加,但相比最近鄰方法無疑有巨大的優勢,最近鄰方法處理每種污染的用時在3h左右,是softImpute-ALS的70倍以上.實驗表明softImpute-ALS方法相比于其他方法有更好的準確度,并且處理時間可控,因而softImpute-ALS方法在處理大規模缺失數據方面具有顯著的優勢.

表3 不同缺失值插補方法比較
“規定”中指出“SO2、NO2、PM10、PM2.5的評價濃度為評價時段內日均濃度的平均值,O3的評價濃度為評價時段內日最大8h平均值的第90百分數,CO的評價濃度為評價時段內日均濃度的第95百分位數”的計算方法,同時指出城市的日均濃度首先要“計算各監測點位日均濃度,然后計算算數平均值得到城市日均濃度,再由此計算你評價時段內城市均值或特定百分位數”.各監測點位的日均濃度由該日24h監測值求平均而得,在“標準”中規定每日至少有20h的平均濃度值”才能計算24h均值,否則該日數據無效.
依據以上標準,統計每個監測點每日濃度并判斷其有效性,然后計算每個城市平均濃度及其有效性.研究發現,從2016年1月1日至2021年7月31日共計2038d,監測點有效天數最大是O-3的1892d,意味著該監測點有多達146d未滿足有效性要求.同時,整體上有超過50%左右的監測點數據有效時間介于1655~1840d之間,無效時間在198~383d之間(表4),可見由于存在大量缺失值,導致數據有效時間顯著減少,每日污染濃度的分析結果可能存在較大偏差.“規定”中并未指明在城市某個或某幾個監測點當日數據無效情況下,如何計算該城市當日污染物平均濃度,而只是籠統的給出“當任何一項污染物不滿足上述有效性規定且任何一項污染物濃度超過二級標準限值時,以城市當日污染物濃度最高點位的數據”的規定,這樣以“最大值”替代的處理方式對于研究污染物時空分布顯然并不適用,更加合理的方式是利用模型算法對缺失值進行準確的估計.

表4 全部國控監測點不同污染物監測數據有效時間統計
由于“規定”中沒有明確給出監測點當日數據無效的處理方法,當監測點當日數據無效時,分2種情況分別討論.第1種情況,如果一個城市當日有一個或多個監測點數據無效,則當日該城市數據也無效;第2種情況,如果監測點當日數據無效,則取該監測點當日濃度最高值作為當日有效數據.在這2種情況下,缺失值均對后續當日城市污染物濃度的計算均會產生重大影響.
在第1種情況下,以生態環境部發布的《2021年8月全國城市空氣質量報告》[31]中空氣質量相對較差的20個城市為例,分析這些城市由于數據缺失導致的無效數據問題.表5顯示,在過去5年多中,這20個城市各種污染物平均每年的無效時間約為60d,即有將近兩個月的時間按照“規定”是無效數據,以濟南市PM10為例,無效時間更是達到881d,年均160d,無效時間的比例遠超按小時統計的1%~5%的數據缺失率,其主要原因是每個監測點每日須滿足大于等于20個有效監測數據.即使按照規定中日最大濃度替代日均值濃度的方法,也意味著這些城市每年有將近2個月的時間使用日最高濃度進行排名計算.

表5 空氣質量排名后20城市的數據無效時間統計
在第2種情況下,污染物濃度在一天內存在很大的波動,造成最大濃度與平均濃度之間有很大差異,最大濃度無法反映真實情況.以濟南市機床二廠監測點2021年2月3日為例,當日有效監測數據恰為19個,小于20個有效監測數據的要求,缺失14:00、16:00、17:00、18:00和19:00這5個小時監測數據.圖1顯示一天內不同時點污染物濃度存在很大差異,該監測點PM2.5最大濃度123mg/m3,19個小時平均值為81mg/m3,相差52%,PM10最大濃度214mg/m3,19小時平均值153mg/m3,相差40%,SO2最大濃度55mg/m3,19小時平均值20mg/m3,相差172%,NO2最大濃度69mg/m3,19小時平均值40mg/m3,相差75%, O3最大濃度87mg/m3,19小時平均值59mg/m3,相差47%,CO最大濃度1.3mg/m3,19小時平均濃度0.9mg/m3,相差41%.“規定”中的“最大濃度替代”與實際情況存在很大差異,不能反應污染物的真實濃度,僅僅是在計算層面對缺失數據進行懲罰性處理.當存在某些不可抗拒因素導致數據缺失時,這樣的處理方法并不合理,而應當采取更科學和可靠的插補方法,最大程度近似或還原真實值.

應用softImpute-ALS方法對全國國控點空氣質量數據進行缺失值的插補處理,未驗證插補值的有效性,為與上文保持一致,選取濟南市機床二廠和科干所兩個監測點來驗證插補值的有效性.具體方法是分別計算兩個監測點每種污染物在剔除缺失值后的數據、插補值數據、插補缺失值后的數據這3個數據集上的相關系數,并且繪制散點圖(圖2)來分析插補值的有效性與合理性,即如果2個監測點在3個數據集的相關系數比較接近,則說明插補值也符合原有數據規律,插補方法是有效的.
由圖2可見,插補值與剔除缺失的數據在污染物相關關系上是一致的,插補前兩個監測點PM2.5的相關系數是0.93,插補后的相關系數是0.94,缺失值處理方法得到的插補值也服從監測點間相關的規律.此外計算濟南市其他任意2個監測點之間在3個數據集上的相關系數,均得到大于0.9的相關系數.
應用softImpute-ALS方法對全國國控點空氣質量數據進行缺失值的插補處理,并依據“規定”中城市濃度計算標準,分析缺失值插補后的城市濃度值和排名的變化情況.以2021年7月為例,分別對168個城市分別計算PM2.5,PM10,SO2,NO2,CO-95%分位數,O38h-90%分位數的濃度值及其排名.生態環境部在發布城市空氣質量排名時會對監測數據進行校驗,校驗后數據質量要優于實時監測數據,但校驗后數據并未公開發布,本文實證分析部分基于中國環境監測總站實時在線監測數據,僅用于分析缺失值處理方法對計算結果的影響,說明在使用公開空氣質量監測數據時對缺失值處理的必要性.

4.4.1 全國城市PM2.5濃度缺失值插補前后計算結果 20個城市中有18個相同的城市,說明缺失值插補前后排名總體上一致,但局部排名有明顯的變化.主要原因是2021年7月所有城市PM2.5月度均值總體較低,并且不同城市的監測值相差非常小,即計算值的微小變化會導致排名的較大變化.缺失高濃度監測值會顯著提升城市排名,而缺失低濃度監測值會顯著降低城市排名,此時缺失值的處理方法會對城市排名產生關鍵影響.
表6顯示,不同城市缺失率顯著不同,最高缺失率5.2%,最低缺失率0.8%,而“規定”中并沒有明確監測點小時監測數據缺失處理方法,只是給出“以城市污染物濃度最高點位的數據,統計當日污染物濃度排名”,這樣的處理方式是不合理的,也沒有考慮污染物在一天的周期性變化特征.使用合理插補方法后,PM2.5月度濃度均值變化在-7.8%~ 10.1%之間,基于公開在線監測數據進行研究時,應當采取合理、可靠的缺失值處理方法對缺失值進行插補,減少缺失值對最終計算結果的影響.

表6 缺失值插補前后城市PM2.5排名比較
注:(1)原排序中相同序號按照城市出現前后的倒序排列;(2)插補前后變動計算公式為:(插補后-插補前)/插補前.
4.4.2 全國城市PM10濃度缺失值插補前后計算結果 排名后20城市中有16個相同城市,PM10缺失率從0.9%~6.0%之間,排名變化較大的是石家莊市,PM10的月度均值從47mg/m3下降至44mg/m3,從原排名163名上升至152名,上升11名,而運城市的PM10的月度均值從42mg/m3上升至45mg/m3,排名也從150名下降至157名.

表7 缺失值插補前后城市PM10排名比較
注: (1)原排序中相同序號按照城市出現前后的倒序排名;(2)插補前后變動計算公式為:(插補后-插補前)/插補前
4.4.3 全國城市SO2濃度缺失值插補前后計算結果 排名的后20城市全部相同,SO2缺失率從1.4%~ 5.5%之間.由于SO2月度均值差異較大,插補后排名與原排名的最后7名次序均相同,但在之后排名次序顯著不同,即當污染物月度均值有較大差異時,缺失值插補對排名影響較小,但如果污染物月度均值比較接近時,缺失值插補會顯著影響排名情況.
4.4.4 全國城市NO2濃度缺失值插補前后計算結果 排名后20城市中有17個相同城市,NO2缺失率為1.2%~5.4%之間.與SO2排名類似,NO2月度均值差異較大,插補后排名與原排名的最后5名次序均相同,其他城市的排名情況均有所變化,但排名上升和下降幅度較小.

表8 缺失值插補前后城市SO2排名比較
注:(1)原排序中相同序號按照城市出現前后的倒序排名;(2)插補前后變動計算公式為:(插補后-插補前)/插補前

表9 缺失值插補前后城市NO2排名比較
注:(1)原排序中相同序號按照城市出現前后的倒序排名;(2)插補前后變動計算公式為:(插補后-插補前)/插補前.

表10 缺失值插補前后城市CO日均值95%分位數排名比較
注:(1)原排序中相同序號按照城市出現前后的倒序排名;(2)插補前后變動計算公式為:(插補后-插補前)/插補前.

表11 缺失值插補前后城市O3日最大8h90%分位數排名比較
注:(1)原排序中相同序號按照城市出現前后的倒序排名;(2)插補前后變動計算公式為:(插補后-插補前)/插補前.
4.4.5 全國城市CO日均值95%分位數和O3日最大8h 90%分位數 通過CO日均值95%分位數(表10)與O3日最大8h 90%分位數(表11)的排名比較,在數值較為接近時,城市排名會受到缺失值的顯著影響,缺失值如何處理將直接影響城市排名前后次序.新余、承德、唐山、運城和忻州這5個城市CO日均值在插補前后變動均超過10%,其中運城和忻州的分別從插值前的157名和151名,在插值后變為138名和121名,提升20和30名,可見缺失值對城市評價濃度具有顯著影響.
研究表明數據缺失會對計算結果造成顯著影響程度,尤其是進行日尺度和城市尺度的統計分析,本研究對于提升監測數據完整率和分析結果準確率方面具有一定的現實意義.基于softImpute-ALS方法,對2016年以來的全國國控點小時級的大規模監測數據進行缺失值插補處理,模擬實驗表明本文所使用方法能夠得到較好的估計值,RMSE、MAPE和相關系數均優于其他缺失值常規處理方法,同時缺失值估計過程具有較快的處理速度.實證分析結果表明,缺失值插補前后6種污染物評價濃度會有±10%左右的變化,同時監測點的缺失值數量越多,缺失值插補前后濃度的計算值變化也越大,越有必要進行缺失值處理.建議在基于公開的大規模空氣質量監測數據進行空氣質量研究時,首先應采用softImpute-ALS方法對監測數據進行缺失值處理,得到更加準確的估計值,提升監測數據完整率,最大程度減少缺失值可能導致的結果有偏問題,提升相關研究結果的準確性和可靠性.
[1] 中華人民共和國生態環境部.城市環境空氣質量排名技術規定[R]. 2018.
Ministry of Ecology and Environmental of People's Republic of China. Technical regulations for air quality ranking of cities[R]. 2018.
[2] Deng Q, Yang K, Luo Y. Spatiotemporal patterns of PM2.5in the Beijing–Tianjin–Hebei region during 2013~2016 [J]. Geology, Ecology, and Landscapes, 2017,1(2):95-103.
[3] Li L, Wu A H, Cheng I, et al. Spatiotemporal estimation of historical PM2.5concentrations using PM10, meteorological variables, and spatial effect [J]. Atmospheric Environment, 2017,166:182-191.
[4] Hu M, Wang Y, Wang S, et al. Spatial-temporal heterogeneity of air pollution and its relationship with meteorological factors in the Pearl River Delta, China [J]. Atmospheric Environment, 2021,254:118415.
[5] Li L, Zhang J, Meng X, et al. Estimation of PM2.5concentrations at a high spatiotemporal resolution using constrained mixed-effect bagging models with MAIAC aerosol optical depth [J]. Remote Sensing of Environment, 2018,217:573-586.
[6] Shen Y, Zhang l, Fang X, et al. Spatiotemporal patterns of recent PM2.5concentrations over typical urban agglomerations in China [J]. Science of the Total Environment, 2019,655:13-26.
[7] Zhao S, Yin D, Yu Y, et al. PM2.5and O3pollution during 2015~2019 over 367 Chinese cities: Spatiotemporal variations, meteorological and topographical impacts [J]. Environmental Pollution, 2020,264:114694.
[8] Li K, Jacob D J, Liao H, et al. A two-pollutant strategy for improving ozone and particulate air quality in China [J]. Nature Geoscience, 2019, 12(11):906-910.
[9] Liu J, Li W, Wu J. A framework for delineating the regional boundaries of PM2.5pollution: A case study of China [J]. Environmental Pollution, 2018,235:642-651.
[10] 張 烴,董樹屏,滕 曼,等.區域大型環境空氣綜合觀測中外場觀測與實驗室分析數據質量控制研究[J]. 環境科學研究, 2019,32(10): 1664-1671.
Zhang T, Dong S P, Teng M, et al. Quality assurance of field observation and laboratory analysis in regional large scale ambient air joint monitoring campaigns [J]. Research of Environmental Sciences, 2019,32(10):1664-1671.
[11] 師耀龍,呂怡兵,肖建軍.夏季重大活動期間O3監測數據質量提升方法研究[J]. 中國環境監測, 2020,36(2):10-14.
Shi Y L, Lyu Y B, Xiao J J. Data quality control method of ozone monitoring during the guarantee for major events in summer [J]. Environmental Monitoring in China, 2020,36(2):10-14.
[12] 師耀龍,陳傳忠,魏俊山,等.加強生態環境監測機構監督管理的思考與分析[J]. 環境保護, 2018,46(23):56-60.
Shi Yao-long, Chen Chuan-zhong, Wei Jun-shan, et al. The current situation and problem analysis of environmental monitoring organizations' supervision and administration [J]. Environmental Protection, 2018,46(23):56-60.
[13] 劉 媛,彭 溶,張 馳,等.環境監測從業人員監管制度研究[J]. 環境保護, 2018,46(18):33-35.
Liu Y, Peng R, Zhang C, et al. Research on supervision system of environmental monitoring practitioners [J]. Environmental Protection, 2018,46(18):33-35.
[14] 師耀龍,楊 婧,柴文軒,等.美國環境空氣監測數據質量核查工作的經驗與啟示[J]. 中國環境監測, 2017,33(3):8-14.
Shi Y L, Yang J, Chai W X, et al. Experience and illumination of data quality assessment system for ambient air monitoring in the United States [J]. Environmental Monitoring in China, 2017,33(3):8-14.
[15] Rumaling M I, Chee F pien, Dayou J, et al. Missing value imputation for PM10concentration in Sabah using nearest neighbour method (NNM) and expectation-maximization (EM) algorithm [J]. Asian Journal of Atmospheric Environment, 2020,14:62-72.
[16] Junger W L, Ponce D E Leon A. Imputation of missing data in time series for air pollutants [J]. Atmospheric Environment, 2015,102:96- 104.
[17] Larsen L C, Shah M. A context-intensive approach to imputation of missing values in data sets from networks of environmental monitors [J]. Journal of the Air & Waste Management Association (1995), 2016,66(1):38-52.
[18] Junninen H, Niska H, Tuppurainen K, et al. Methods for imputation of missing values in air quality data sets [J]. Atmospheric Environment, 2004,38(18):2895-2907.
[19] Hadeed S J, O’rourke M K, Burgess J L, et al. Imputation methods for addressing missing data in short-term monitoring of air pollutants [J]. Science of The Total Environment, 2020,730:139140.
[20] Real C, ángel Fernández J, Aboal J R, et al. Substituting missing data in compositional analysis [J]. Environmental Pollution, 2011,159(10): 2797-2800.
[21] Gómez-Carracedo M P, Andrade J M, López-Mahía P, et al. A practical comparison of single and multiple imputation methods to handle complex missing data in air quality datasets [J]. Chemometrics and Intelligent Laboratory Systems, 2014,134:23-33.
[22] Chen X, Xiao Y. A novel method for air quality data imputation by nuclear norm minimization [J]. Journal of Sensors, 2018,2018: e7465026.
[23] Moshenberg S, Lerner U, Fishbain B. Spectral methods for imputation of missing air quality data [J]. Environmental Systems Research, 2015,4(1):26.
[24] Liu X, Wang X, Zou L, et al. Spatial imputation for air pollutants data sets via low rank matrix completion algorithm [J]. Environment International, 2020,139:105713.
[25] Hastie T, Mazumder R, Lee J D, et al. Matrix completion and low-rank SVD via fast alternating least squares [J]. 36.
[26] Candès E J, Recht B. Exact matrix completion via convex optimization [J]. Foundations of Computational Mathematics, 2009, 9(6):717.
[27] Candès E J, Tao T. The power of convex relaxation: near-optimal matrix completion [J]. IEEE Transactions on Information Theory, 2010,56(5):2053-2080.
[28] Buuren S van. Flexible imputation of missing data [M]. 2nd edition. Boca Raton: Chapman and Hall/CRC, 2018.
[29] Liu Y, Dillon T, Yu W, et al. Missing value imputation for industrial IoT sensor data with large gaps [J]. IEEE Internet of Things Journal, 2020,7(8):6855-6867.
[30] Velasco-Gallego C, Lazakis I. A novel framework for imputing large gaps of missing values from time series sensor data of marine machinery systems [J]. Ships and Offshore Structures, 2021,10.1080/ 17445302.2021.1943850.
[31] 中華人民共和國生態環境部.2021年8月全國城市空氣質量報告[R]. 2021.
Ministry of Ecology and Environmental of People's Republic of China. Air quality reports for cities in China[R]. 2021,8
致謝:本研究受中國人民大學“雙一流”跨學科重大創新規劃平臺—生態文明跨學科交叉平臺支持.
Research on the missing value methods for large-scale online air quality monitoring data.
ZHANG Bo, SONG Guo-jun*
(School of Environment and Natural Resources, Renmin University of China, Beijing 100872, China)., 2022,42(5):2078~2087
Large scale online air quality monitoring data is the basis for air quality research, but there were lots of missing data in large scale online data. In this study, we compared several methods that dealing with the missing values and its impact on the city’s ranking of air quality base on the hourly monitoring data of 1654monitoring sites in China from 1Jan, 2016 to 31July, 2021 of 6types of air pollutants. The simulation results showed that Low Rank SVD via Alternating Least Square had smaller mean squared error, mean absolute percentage error and higher correlation coefficient compared with other traditional methods. The empirical results showed there would be 10% difference before imputation and after imputation for the missing value. The ranking would not change due to the imputation when the air quality assessed value vary greatly, and would change a lot when the assessed value was very close. The study suggested to impute missing value by using the method in this study when analysis the large-scale online air quality monitoring data.
monitoring data;big data;missing value;low rank matrix;empirical research
X323
A
1000-6923(2022)05-2078-10
張 波(1986-),男,內蒙古包頭人,講師,博士,研究方向為環境統計與建模.發表論文10余篇.
2021-10-12
中國人民大學科學研究基金(中央高校基本科研業務費專項資金資助)項目成果(22XNF016)
* 責任作者, 教授, songguojun@ruc.edu.cn