陳星燦 徐冰

摘要:在對2017年A地地區氣象數據進行對比分析后發現影響A地地區霾等級的主要因素有以下七個:氣溫、氣壓、相對濕度、露點溫度、地面U風、地面V風以及PM2.5濃度。上述的七項主要因素是影響A地區霾等級的屬性特征,將霾的等級劃分當作標志量,以此來構建樣本集合,再用KNN數據挖掘算法來構建劃分霾等級的預報分類器,從而進行試驗。得到如下結論:當K=3時該分類器的預報效果最佳,準確度高達88.2%。基于該算法構建的KNN模型預報無霾時準確度很高,達91.8%,且對于霧霾的空報率也較低,但對霾等級的預報精確度還有待改善。
關鍵詞:數據挖掘;KNN;霾;預報
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)09-0003-02
霾的定義簡而言之就是在空氣中懸浮的微粒,這些微粒主要由煙、塵等物質形成,在區域空氣中形成渾濁現象,空氣中的能見度低于10千米。隨著城市和工業的不斷發展霧霾現象日益頻繁,嚴重影響著人們的生產生活活動。因此,對霾等級的預報也尤為重要。根據相關研究數據可知,氣候因素在很大程度上能夠影響到霾的發生。從近年來對霾進行預報的方式來看,主要有兩種預報方式:數值預報和模式輸出統計預報。在運用數值預報方法進行計算時,方法通過對大氣污染和大氣氣象要素的變化過程進行模擬。但此類方法受不確定因素較多,在日常業務化預報中有較大的局限。在查閱陳亦君、毛宇清、鄭峰等人做的相關實驗的基礎上,得出以下結論:氣溶膠的濃度嚴重影響著霾程度的大小。但是,目前同時采用數值天氣預報模式和環境模式的兩類輸出結果的相關試驗研究還較少。因此,在本次研究中,為了更好地對霾等級進行預測,將數值天氣預報模式和環境模式這樣兩種方法結合在一起,從而能夠保證霾預報模型能夠實時對霾進行動態預報,并采用KNN數據挖掘算法對霾等級進行分類。
為了保證研究結果真實可靠,在本次研究中將A地作為研究的對象,將2017年A地13個區的資料作為研究數據,其中包括這個13個區的溫度、氣壓、濕度、風以及能見度、PM2.5含量等氣象要素,要買數據采取的數據頻為3h/次。
隨著科技的發展,數據挖掘算法也廣泛應用于氣象學中。本文在調研黃穎等實驗的基礎上決定使用KNN數據挖掘算法。KNN是一種非參數化監督算法,又叫作“K近鄰算法"。在KNN數據挖掘算法下,對不同對象的分類處理主要根據對象間不同特征值的距離進行劃分,一直在這種算法下,能夠保持挖掘結果的精準度高、受異常數值的影響。
當前數值天氣預報解釋仍廣泛采用建立回歸預報方程的方法,但由于大氣運動具有混沌性和非線性特征,因此采用回歸方程的方法較為復雜。KNN算法的思路是:根據客觀性、規律性,其結果也應具有相似性。數值天氣預報解釋使用到KNN算法時,直接以歷史天氣個例樣本做訓練集,并將天氣學預報思路和數值預報結果進行融合,就可避開建立回歸預報方程帶來的弊端。
1 實驗分析
1.1 KNN中屬性變量選取
根據上面的分析,充分證明了能見度變化的復雜性。通過每個因素分別于可見度進行了相關性分析可知,對能見度影響最大的因素是風速和風向,因此KNN分類集中將風分解u、v兩個分量。除了濕度和能見度以外,氣溫和氣壓也是能夠代表氣候情況的兩個因素,特別是對空氣活動和天氣系統的檢測發揮非常重要的作用,因此也被選入到訓練屬性集中。
1.2 K參數的選取
KNN算法的準確度很大程度上受K值的影響。一般來講,K值的選取一般為大小適中的奇數。交叉驗證(Crossvalidation)又稱為循環估計法,它的操作過程是將樣本整體分化為較小的子集,對每一個自己進行分別驗證。通常采用先分析一個子集,再用其他子集進行驗證。交叉驗證通常用來評估統計分析、訓練數據的數據集的泛化能力。本文的K值由交叉驗證方式來確定。表2給出了K分別取3、5和7時的分類準確率。結果表明:當K=3、5或7時,交叉檢驗準確率均在80%以上,且K=3時的分類準確率明顯高于K=5或7時的結果。因此,本文中的KNN模型的K值選為3。
1.3 KNN分類器的準確率分析
在表3中,詳細地展示了運用KNN分類器對霾進行分類交叉檢驗后的結果。由表可知:
(1)當無霾時,預報準確率高達91.8%;輕微霾漏報率為6.9%,其他霾概等級漏報率均<1%。
(2)當輕微霾時,空報率為16.1%,預報正確率達67.4%,輕度霾漏報率為11.2%,中、重度霾漏報率均<5%。
(3)當輕度霾時,空報率為4.7%,預報正確率為59.8%。中、重度霾漏報率分別為10.4%和3.7%。
(4)當中度霾時,空率僅為1.4%,預報正確率為53.4%,實況情況還要略低。
(5)當重度霾時,空報率為2.6%,預報正確率為60.4%。
結合以上觀點可以看出,KNN分類器的使用可靠性更高,在有霾情況下的空報率和漏報率很低,對霧霾登記的預報相對準確。雖然對于相鄰霾等級的區分仍存在誤差,但是誤差在可接受范圍內。因此所構建的KNN分類器具有較強的實用性。
2 基于KNN算法的實際業務預報系統
本研究使用Python編寫KNN算法來搭建霾等級預報系統。圖2所展示的是A地區的三個基本站在72小時內,每間隔三小時進行一次實況數據收集和霾預報。圖2a表示在25個觀測時次中,霾等級程度均各不相同,在最終預報出的19個時次中,對霧霾的有無進行預報準確率高達76%。而在B站點和C站點中,雖然能夠預測出有無霾,準確率分別為64%和84%,但實在對買等級進行化劃分時,精準度略有欠缺。
3 結論
本文研究了基于KNN算法的霾等級預報分級的方法,得到如下結論:
(1)溫度、氣壓、相對濕度、溫度、U風、V風以及PM2.5濃度等7變量構成了霾預報的KNN分類器的特征屬性,并且選霾的等級為標志項。
(2)根據KNN分類器分別K=3、5或7的實驗結果證明A地地區13個站點的交叉檢驗準確率分別:88.2%、85.8%、84.7%,K=3時的分類準確率較高。在對無霾天氣進行預報時準確率保持在91.8%,雖然存在漏報的概念,但是概率數據相對降低。
(3)由于監測資料的有限,訓練樣本集只選取了2017年的分析數據,在一定程度上影響了預報準確率。而且, 目前是將BREMPS的結果直接運用到了KNN霾分類算法預報中,預報的準確度存在一定風險,為了進一步提升KNN霾分類算法的預報準確度,會在日后的研究中通過對PM 2.5濃度資料不斷積累,達到一定程度后,可以運用在BREMPS的預報結果修正上。因此,未來對KNN霾分類算法KNN霾分類算法的準確率仍然有進一步提升的空間。
參考文獻:
[1] 溫榮坤.基于偏微積分分類數學模型的關聯挖掘改進技術[J/OL].現代電子技術,2018(13):95-99.
[2] 潘燕.關聯規則下的數據挖掘算法分析[J].信息記錄材料,2018(07):212-213.
[3] 米保全.數據挖掘技術在高職院校教學管理中的應用[J/OL].軟件導刊,2018(8):1-4.
[4] 嚴嘉維,張琛,李成蹊,等.基于Hadoop的可信計算平臺日志分析模型[J/OL].軟件導刊,2018.
[5] 孫金鑫.數據挖掘中的關聯規則的研究[J].智能計算機與應用,2018,8(03):132-135.
[6] 熊亞軍,徐敬,孫兆彬,等.基于數據挖掘算法和數值模擬技術的大氣污染減排效果評估[J/OL].環境科學學報,2019,39(1):116-125.
[7] 李博.APRIORI數據挖掘算法在商務智能中的應用[J].電腦迷,2018(07):155-156.
[8] 查道貴,許彩芳,楊秋菊.基于數據挖掘的民間藝術資料管理系統設計[J].長春師范大學學報,2018(06):101-106.
[9] 關翠玲.數據挖掘技術在高校思想政治教育中的運用[J].微型電腦應用,2018,34(06):50-52.
【通聯編輯:代影】