摘 要:空氣污染對人類的健康和環境有重要影響,對空氣質量進行管理可以有效預防空氣污染對人類健康和環境造成的危害。細微顆粒物(PM2.5)在空氣質量數據中對環境質量的影響最大,因此對其防控具有重要意義。由于劃分防治區域是實施防控的重要前提,因此文章針對重慶市主城區17個監測站點的 PM2.5日均濃度數據,在采用7種插補方法修復 PM2.5缺失數據的基礎上,分析其時空分布特征,并利用函數型聚類方法(Functional Nonnegative Ma? trix Factorization,FNMF)合理地劃分PM2.5防治區域,進一步分析重慶市不同區域的空氣質量特征。研究結果表明,重慶市主城區可劃分為3類PM2.5防治區域,且各區域冬季污染嚴重,空間分布與城區經濟發展相關,呈現出由北向南污染愈發嚴重的趨勢。
關鍵詞:PM2.5;最優插補;函數型聚類;防治區域
中圖分類號:X821""""""""""""" 文獻標志碼:A
0 引言
近年來,隨著工業化與城市化進程的加快,空氣污染問題日益嚴重,其中細微顆粒物(PM2.5)是主要空氣污染物之一。PM2.5具有細粒徑、長時間懸浮在空氣中的特點,會對人體健康造成傷害[1-3],導致呼吸系統和心血管系統疾病等。2012年發布的《環境空氣質量標準》[4]首次將 PM2.5濃度作為限制目標。而在重慶市主城區這一人口密集、工業污染源眾多的地區,PM2.5的濃度和分布情況顯得復雜多變。因此,合理劃分重慶市主城區防治區域,制定相應的防治策略和措施,對于改善空氣質量、保護人民健康具有重要意義。
2016年施行的《中華人民共和國大氣污染防治法》確立以城市為責任主體的空氣質量管理體系。研究表明,PM2.5污染物存在顯著的區域性特征。熊桂洪等[5]采用探索性空間數據分析法劃分重慶市大氣污染重點區域防控單元;楊麗麗等[6]基于系統聚類分析對甘肅省14個市州的空氣質量數據劃分環境空氣質量預報區域;張波等[7]基于PM2.5數據,對關中5市采用空間聚類進行空氣污染區域劃分;徐愛蘭等[8]提出基于 K-means 聚類算法,并對南通市空氣質量監測站點進行區域劃分;張會濤等[9]利用 K- means 聚類對武漢市8個站點PM2.5數據進行聚類分析;牛玉芾[10]對中國空氣污染的空間集聚特征及區域性差異進行了研究;項程程和柴曼[11]基于PM2.5數據對遼寧城市進行了聚類分區,并將遼寧城市劃分為4種類型;陳楊等[12]采用4種不同的聚類方法,由聚類結果提出可將中國各城市劃分為8個PM2.5防治區域;黃迪[13]基于時空數據進行了大氣污染區域劃分;薛安和耿恩澤[14]基于復雜網絡對中國城市PM2.5區域進行了劃分。
上述研究采用聚類方法劃分區域時,沒有考慮到 PM2.5數據本身所具有的曲線特征。隨著采集手段的進步,實時監測的數據往往呈現連續、動態的函數型特征,這種數據被稱為函數型數據(Function? al Data Analysis,FDA)[15]。因此可借助函數型數據分析方法對空氣質量變化特征進行研究。近年來,學者們在函數型聚類分析方面獲得了一些研究成果。Abraham 和 Cornillon[16]通過 B 樣條擬合函數并用K-means 聚類對模型系數進行分類;Ignaccolo 等[17] 基于函數型數據,提出了一種對空氣質量曲線的聚類方法,并對意大利北部城市空氣污染相似性進行了研究;Meng 等[18]定義了一種帶有導數信息的函數型 K-means 聚類算法,研究了中國重點城市的空氣質量變化特征。與傳統聚類方法相比,函數型聚類方法幾何解釋更直觀,具有更強的適用性。
基于上述分析,文章考慮到PM2.5數據的曲線特征,利用函數型聚類方法(Functional Nonnegative Ma? trix Factorization,FNMF)[19]對重慶市主城區的 PM2.5 數據進行防治區域劃分。首先,采用7種插補方法進行缺失插補,并以均方根誤差(Root Mean Square Error,RMSE)為評價指標選取最優插補結果補全 PM2.5數據;其次,分析 PM2.5數據的時空變化特征;最后,利用 FNMF 算法劃分 PM2.5污染防治區域,以期為重慶市主城區大氣污染的防范與治理提供依據。
1 數據與研究方法
1.1 數據插補及評價指標
以2020年6月10日—2022年5月25日重慶市主城區17個站點(監測站點包括:重慶茶園、重慶新山村、重慶南坪、重慶龍洲灣、重慶歇臺子、重慶魚新街、重慶白市驛、重慶唐家沱、重慶空港、重慶天生、重慶龍井灣、重慶兩路、重慶上清寺、重慶虎溪、重慶禮嘉、重慶縉云山、重慶蔡家)的PM2.5日均濃度數據為研究對象,數據來源于中國空氣質量在線監測分析平臺(https://www.aqistudy.cn/),并對采集到的數據進行了缺失插補。重慶市主城區17個站點 PM2.5日均濃度數據缺失值個數及缺失率見表1。
從表1中可發現重慶縉云山的PM2.5日均濃度數 據出現大量缺失,缺失值個數最多,其余站點缺失 值個數大都在10~20個;同時可以計算得到重慶市 主城區17個站點總的缺失值個數為468個,總缺失 率約為3.9%,重慶南坪、重慶歇臺子及重慶縉云山3 個站點的缺失率均高于總缺失率。
表1呈現出重慶市主城區PM2.5數據缺失值分布 較為均勻,各個站點均存在缺失的情況,需要進行 缺失數據插補。采用均值插補、K 近鄰算法(KNearest Neighbor,KNN)[20] 、隨機森林[21] 、多重插補[22] 、 拉格朗日插值法、期望最大(Expectation Maximiza? tion,EM)算法[23] 及回歸插補7種插補方法。其中,在 進行KNN插補時,選取鄰近K值為3進行插補。同 時,使用RMSE作為評估指標。
RMSE指標用于測度缺失值和插補值之間絕對 偏差的大小,該值越小說明插補值越接近于真實 值。該評估指標的具體計算公式如下:
式中:假設訓練集為Ω,對訓練集Ω隨機缺失后構成的集合記為M,X 為原始的數據(由于缺失的原始數據為空值,在計算時以0來計算),F 為通過插補方法插補缺失數據集后得到的數據,m 為缺失值數量,基于7種插補方法計算得到的 RMSE 結果見表2,其中KNN 插補表現為最優。
通過表2的結果,選取 RMSE 值最小的插補方法(即KNN 插補,K=3)進行插補,并基于此插補方法獲得完整數據進行分析。
1.2 函數型聚類方法
函數型數據聚類分析需要先將數據從離散數據轉化為函數型數據,即將離散的數據點擬合為光滑的函數,這時需要用基函數對數據進行修勻,即光滑處理。根據曲線擬合步驟是否獨立于聚類過程,可以把函數型聚類方法分為“一步法”與“多步法”,文章選用 FNMF[19]的“一步法”。下面給出 FN? MF 算法的模型及算法偽代碼。
FNMF 算法模型為
式中:α為正則化參數,Φ為B-樣條基矩陣,Dd為 d 階差分矩陣,引入懲罰項 DdU F(2)是為了防止過擬合。只限制系數矩陣 V≥0,使方法適用于混合數據。由式(2)可知原始的可觀測數據矩陣 Y 可以用ΦUVT 來近似表示。ΦU 可以看作是新的基函數矩陣,V相當于新的系數矩陣,因此,原來對于矩陣Y 聚類的問題轉化為對矩陣V進行聚類的問題。
式(2)采用乘性迭代方法,利用 Karush-Kuhn- Tuker(KKT)條件和拉格朗日乘子法求解出 U 和 V 的更新規則,FNMF 算法的偽代碼見算法1。
2 重慶市主城區PM2.5數據時空特征分析
根據世界衛生組織(World Health Organization, WHO)空氣質量指南[24]的規定(PM2.5<35,說明空氣質量非常好,對人體沒有什么危害;35<PM2.5<75,代表空氣質量為良好;PM2.5>75,表明環境受到了嚴重污染),對插補后的PM2.5數據取完整的一個年度數據(即2021年1月1日—2021年12月31日)進行時空分布特征分析。
圖1顯示出采用 KNN 最近鄰插補后的 PM2.5濃度月均值及月超標天數。從圖1中可以看出,PM2.5 月均值數據高值主要集中在1月、2月、11月及12月,呈現出兩頭重、中間輕的數據特征,同時有著季節性的污染變化規律,冬季高夏季低。呈現此變化規律的主要原因是冬季重慶市氣溫低,氣流交換及擴散能力減弱,大氣污染物輸送受到抑制。夏季重慶市氣溫較高,氣流交換及擴散能力增強,有利于污染物的擴散遷移,而且夏季多降雨,對污染物也起到稀釋沖刷的作用。此外,重慶市主城區一年內 PM2.5超標時長有一個多月,超標日期主要在1月、2月、11月和12月,其中1月和12月最為集中。3月—10月期間無PM2.5濃度超標日,重慶市主城區的PM2.5濃度小,空氣質量較好。
重慶市主城區17個空氣質量檢測站點的基本 信息[25]包括站點名稱及功能區類別見表3。表3 重慶市主城區空氣質量監測站特征
重慶市主城區17個站點2021年1月1日—2021年12月31日的空氣質量各級別天數及比例,按照功能區類別進行劃分,見表4。從表中可以看出,2021年全年重慶市主城區大部分站點測得的PM2.5濃度低,空氣質量好。結合站點功能區類別進行分析,可以發現:重慶縉云山站點位于縉云山自然保護區,其空氣質量級別最好,一年內環境呈現嚴重污染的日期只有2 d,占比0.55%;其次是重慶龍井灣,嚴重污染日期占全年的3.01%;空氣呈現嚴重污染時間最多的是重慶歇臺子,屬于居商文教混合區,空氣污染最為嚴重。
3重慶市主城區PM2.5防治區域劃分
對插補后的數據進行曲線擬合,結果如圖2所示。由圖2各站點擬合曲線可以看出對重慶市主城區17個站點的PM2.5插補后的數據具有明顯的函數型特征,適合采用函數型聚類分析方法進行研究。
利用 FNMF 算法對重慶市主城區17個站點的 PM2.5的數據進行聚類,分類結果見表5。
為了研究PM2.5的空間變化特征,以重慶市主城區為地圖,采用ArcGIS 10.2軟件,將表5的聚類結果反映在重慶市主城區的空間地圖上,如圖3所示。
圖3呈現出重慶市主城區17個站點的 PM2.5濃度值地理位置由北向南逐從優變為嚴重污染。分析可得,其中位于主城區的PM2.5監測站點主要集中在重慶市主城區的西南部。結合表3、表5及圖3分析,位于南岸區的南坪、渝中區的歇臺子位于重慶市主城區中心區域,人口密度高,交通流量大,PM2.5濃度較高,位于第3類;而新山村位于大渡口區,該區域屬于工業區,重工業,曾以生產鋼鐵出名,因此該站點的PM2.5濃度高。同時,由圖3可以看出,重慶市主城區的17個監測站點大都集中在主城區的中西部,因此得到的聚類結果對于中西部地區來說,可信度更高,誤差更小,而對于城區的東部、北部和南部誤差相對比較大。
4結論
空氣污染作為環境問題之一,對人類健康和經濟發展都帶來了嚴重影響。文章以重慶市主城區17個站點PM2.5的日均濃度為研究對象,基于PM2.5函數型數據的特點,采用函數型聚類方法將重慶市主城區大致分為3類,劃分的類具有較好的解釋性,研究結果表明:從季節規律來看,重慶市主城區在全年呈現出冬季PM2.5污染最重,不僅濃度高,且PM2.5超標日也主要集中在冬季,主要原因在于冬季風速小、大氣擴散條件差。從空間分布來看,根據 PM2.5日均濃度的差異,可將重慶市主城區17個站點采用函數型聚類方法聚為3類。第1類站點和第2類站點的13個站點在冬季PM2.5日均濃度達到100 mg/m3以上,代表空氣受到了嚴重污染。這也與重慶市主城區的經濟現狀有關,重慶市有很多的重工業企業,且由于重慶市主城區本身是工業城市的特點,除了主城區渝中區之外,其他每個區都有工業企業,重工業企業的存在會造成空氣污染。
參考文獻:
[1] Chen F,Chen Z. Cost of economic growth:Air pollution and health expenditure[J]. Science of the Total Envi? ronment,2021,755(P1):142543.
[2] Liu W,Xu Z,Yang T. Health effects of air pollution in China[J]. International Journal Environmental Research Public Health,2018, 15(7):1471.
[3] 張雨夢,錢鵬,查書平.南京市一次大氣污染事件時空演化特征及影響因素[J].南通大學學報(自然科學版), 2018, 17(4):48-55.
[4] 柴發合.解讀《環境空氣質量標準》[J].大眾標準化,2012(10):12-15.
[5] 熊桂洪,丁俊傑,余家燕,等.重慶市大氣污染重點區域防控單元劃分研究[J].環境科學與管理,2022,47(7):123-128.
[6] 楊麗麗,楊燕萍,王莉娜,等.基于聚類分析法劃分環境空氣質量預報區域[J].綠色科技,2021,23(6):75-77.
[7] 張波,宋國君,周芳.基于PM2.5監測點空間聚類的關中五市空氣污染區域識別[J].環境科學學報,2021,41(3):797-805.
[8] 徐愛蘭,朱晏民,孫強,等.基于 K-means 劃分區域的深度學習空氣質量預報[J].南通大學學報(自然科學版), 2021,20(3):49-56.
[9] 張會濤, 田瑛澤,劉保雙,等.武漢市 PM2.5化學組分時空分布及聚類分析[J].環境科學,2019,40(11):4764-4773.
[10]牛玉芾.中國空氣污染的空間集聚特征及區域性差異研究[D].北京:中國地質大學(北京),2019.
[11]項程程,柴曼.遼寧城市PM2.5時空變化聚類及其氣象影響特征[J].氣象與環境學報,2019,35(1):35-44.
[12]陳楊,單春艷, 白志鵬,等.基于系統聚類方法劃分中國 PM2.5防治區域[J].中國環境監測,2017,33(6):138-145.
[13]黃迪.基于時空數據的大氣污染區域劃分[D].北京:北京郵電大學,2016.
[14]薛安,耿恩澤.基于復雜網絡的中國城市PM2.5區域劃分[J].應用基礎與工程科學學報,2015,23(S1):68-78.
[15] Ramsay J O. When the data are functions[J]. Psy? chometrika,1982,47(4):379-396.
[16] Abraham C,Cornillon P A. Unsupervised curve clus? tering using B-Splines[J]. Scandinavian Journal of Sta? tistics,2003,30(3):581-595.
[17] Ignaccolo R,Ghigo S,Giovenali E. Analysis of air quali? ty monitoring networks by functional clustering[J]. En? vironmetrics,2008, 19(7):672-686.
[18] Meng Y,Liang J,Cao F,et al. A new distance with deriva? tive information for functional K-means clustering algo? rithm[J]. Information Sciences,2018,463:166-185.
[19]高海燕,黃恒君,王宇辰.基于非負矩陣分解的函數型聚類算法[J].統計研究,2020,37(8):91-103.
[20] García- Laencina J P,Sancho- Gómez J,Figueiras- Vidal R A,et al. K nearest neighbours with mutual informa? tion for simultaneous classification and missing data im? putation[J]. Neurocomputing,2008,72(7):1483-1493.
[21] Breiman L. Random forests[J]. Machine Learning,2001, 45:5-32.
[22] Allison P D. Multiple imputation for missing :A cau?""""" tionary tale[J]. Sociological Methods amp; Research,2000,28(3):301-309.
[23] Dempster A P,Laird N M,Rubin D B. Maximum like? lihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society. Series B(Meth? odological), 1997,39(1):1-22.
[24]王作元,王昕,曹吉生.空氣質量準則[M].北京:人民衛生出版社,2003.
[25]劉永林,孫啟民,鐘明洋,等.重慶市主城區 PM2.5時空分布特征[J].環境科學,2016,37(4):1219-1229.
Based on Functional Clustering Division of PM2.5 Prevention and Control Areasin the Main Urban Area of Chongqing
CHENG Wanwan, ZHAO Fangfang
(School of Statistics and Data Science, Lanzhou University of Finance and Economics, Lanzhou Gansu 730020, China)
Abstract: Air pollution has an important impact on human health and the environment.Air quality management can effectively prevent the harm caused by air pollution to human health and the environment. Fine particulate mat ? ter(PM2.5)has the greatest impact on environmental quality in air quality data, so it is of great significance for its prevention and control. Because the division of prevention and control areas is an important prerequisite for the im ? plementation of prevention and control, so this article focuses on the daily average concentration data of PM2.5 from 17 monitoring stations in the main urban area of Chongqing. On the basis of using 7 interpolation methods to repair missing PM2.5 data, the spatial-temporal distribution characteristics are analyzed, and Functional Nonnegative Ma ? trix Factorization(FNMF)was used to reasonably divide PM2.5 prevention and control areas,and further analyze the air quality characteristics of different regions in Chongqing. The research results indicate that the main urban area of Chongqing can be divided into three types of PM2.5 prevention and control areas, and the pollution in each area is serious in winter,and the spatial distribution is related to the economic development of the urban area, showing a trend of increasing pollution from north to south.
Keywords: PM2.5; optimal interpolation; functional clustering; prevention and control areas