蔣澤坤 陳炫輪


◆摘? 要:在全球?qū)Νh(huán)境問題越發(fā)重視的大背景下,采用有序樣本聚類將北京市2013年12月到2021年6月的91份空氣質(zhì)量指數(shù)(AQI)劃分為七個等級,并采用集對分析構(gòu)造集對權(quán)重配合馬爾科夫鏈對未來的空氣質(zhì)量指數(shù)進(jìn)行區(qū)間預(yù)測,比精準(zhǔn)性的數(shù)值預(yù)測更具有可信度,可以為相關(guān)部門制定計劃提供依據(jù)。
◆關(guān)鍵詞:有序聚類;馬爾科夫鏈;集對分析;空氣質(zhì)量指數(shù)(AQI)
一、文獻(xiàn)綜述
空氣質(zhì)量作為與人類健康息息相關(guān)的自然因素,對其進(jìn)行研究具有十分重要的意義。目前對于空氣質(zhì)量的研究主要集中在兩個主要方面:探究空氣污染成因和污染物質(zhì)濃度的準(zhǔn)確性數(shù)值預(yù)測。
探究空氣污染成因。Tofful Luca采集城郊地區(qū)獨立住戶室內(nèi)外的PM2.5濃度,探討了室內(nèi)外污染源對生活環(huán)境中顆粒物化學(xué)組成的影響。
污染物質(zhì)濃度的準(zhǔn)確性數(shù)值預(yù)測。Chae Sangwon將插值應(yīng)用于空氣質(zhì)量和天氣數(shù)據(jù),然后使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)預(yù)測PM濃度。并據(jù)此提出了一個實時預(yù)測模型,可以預(yù)測空氣中的顆粒物(PM)的濃度。
二、研究方法和數(shù)據(jù)來源
2.1有序樣本聚類
有序樣本聚類有別于常見的聚類分析方法,通常的聚類方法是依據(jù)樣本特征的相似度或者距離,按照一定的分類標(biāo)準(zhǔn)將樣本劃分到若干個類別中。有序樣本聚類獨有的特點是在樣品順序不被打亂的前提下進(jìn)行分類,適用于對不能打亂順序的客觀現(xiàn)象進(jìn)行聚類分析。
2.2集對分析
集對是聯(lián)系數(shù)學(xué)中的一個基本概念,指兩個有一定關(guān)聯(lián)的集合做組成的一個新的系統(tǒng)。
2.3馬爾科夫鏈
馬爾科夫鏈的基本特性就是無后效性,其直觀解釋就是現(xiàn)象未來得狀態(tài)只依賴于現(xiàn)在,而與過去的狀態(tài)無關(guān)。自然界中的現(xiàn)象總是呈現(xiàn)為隨機過程,而馬爾科夫鏈就被廣泛的運用到隨機過程的建模當(dāng)中,如天氣預(yù)報、運籌決策、安全科學(xué)、統(tǒng)計物理及計算機科學(xué)等領(lǐng)域中。
2.4數(shù)據(jù)來源
本文所使用的數(shù)據(jù)均來自于杭州真氣科技公司的真氣網(wǎng),真氣網(wǎng)是一個空氣質(zhì)量情況監(jiān)測平臺,具體數(shù)據(jù)為北京市2013年12月份到2021年6月份的月度空氣質(zhì)量指數(shù)(AQI)。
三、實證分析
3.1 有序樣本聚類的實現(xiàn)
本文進(jìn)將北京市2013年12月到2021年6月這91個月的空氣質(zhì)量指數(shù)按從大到小的順序進(jìn)行排列,借助R軟件繪出了有序聚類的損失函數(shù)L[b(n,k)]與分類數(shù)k的關(guān)系圖像,可知當(dāng)把這91份空氣質(zhì)量指數(shù)按從小到大順序排列分為6類時,其損失函數(shù)值最小。分類結(jié)果如表1所示。
3.2 馬爾科夫性檢驗
無后效性是馬爾科夫鏈最基本的特性,同樣也是隨機過程進(jìn)行馬爾科夫建模的前提條件,只有滿足無后效性這一特性,才能使用馬爾科夫鏈的相關(guān)理論。根據(jù)計算卡方統(tǒng)計量[χ][2]=45.794,當(dāng)給定顯著性水平[α]=0.05時,查找卡方分布表可得[χ][a2][](m-1)[2][]=[χ][0.05][2](25)=37.652<[χ2]=45.794所以北京市空氣質(zhì)量指數(shù)序列滿足無后效性。
3.3 空氣質(zhì)量預(yù)測
對空氣質(zhì)量這種自然界中存在著很大的不確定性的隨機過程,精準(zhǔn)性的數(shù)值預(yù)測往往缺乏一定的可信度和說服力,如果根據(jù)狀態(tài)空間劃分現(xiàn)象,進(jìn)而對預(yù)測期目標(biāo)現(xiàn)象所處的狀態(tài)空間進(jìn)行預(yù)測,則往往更加可靠且對各種決策的制定具有很重要的參考價值。
對北京市這91個月份的空氣質(zhì)量指數(shù),按照時間順序以及不同的滯時步長統(tǒng)計其狀態(tài)轉(zhuǎn)移情況,即可得到相應(yīng)滯時步長的狀態(tài)轉(zhuǎn)移頻數(shù)矩陣和對應(yīng)的狀態(tài)頻率轉(zhuǎn)移矩陣。要預(yù)測2021年7月份的空氣質(zhì)量所處的狀態(tài)區(qū)間,本文選取最大滯時為5的5個時點,即2021年2月到2021年6月這5個月份進(jìn)行加權(quán)的馬爾科夫鏈預(yù)測,表2即加權(quán)馬爾科夫鏈的預(yù)測過程。
根據(jù)表2中集對加權(quán)的結(jié)果各個狀態(tài)的概率值中的最大值對應(yīng)狀態(tài)4,根據(jù)表1可以得知2021年7月的空氣質(zhì)量指數(shù)的取值范圍為113≤x<137。根據(jù)國家對空氣質(zhì)量指數(shù)的級別劃分,此范圍處于輕度污染狀態(tài)。
四、結(jié)論
空氣質(zhì)量情況作為自然界的隨機過程具有很強的隨機性,所以目標(biāo)現(xiàn)象的準(zhǔn)確性數(shù)值預(yù)測相對于狀態(tài)空間范圍的預(yù)測往往缺乏一定的可信度,而狀態(tài)空間范圍的預(yù)測結(jié)果在提高可信度的同時也能為研究者和相關(guān)單位、人員的決策提供可靠理論依據(jù)。本文所采用的基于有序聚類的加權(quán)馬爾科夫鏈,根據(jù)有序聚類的損失函數(shù)來判斷,最為合理的分類數(shù)并以此作為加權(quán)馬爾科夫鏈的狀態(tài)空間劃分標(biāo)準(zhǔn),提高了狀態(tài)劃分的科學(xué)性。
參考文獻(xiàn)
[1]伍艷清.2017~2020年高明區(qū)春節(jié)及元宵期間空氣質(zhì)量分析研究[J].廣東化工,2021,48(12):146-147.
作者簡介
蔣澤坤(1997-),男,安徽亳州人,碩士研究生,主要研究方向大數(shù)據(jù)分析。