王敏亦 ,丁卉 ,徐銳 ,劉永紅
(1. 中山大學智能工程學院,廣東 廣州 510006;2. 廣東省交通環境智能監測與治理工程技術研究中心,廣東 廣州 510275;3. 廣東省智能交通系統重點實驗室,廣東 廣州 510275)
隨著居民生活水平的提升,我國汽車保有量呈現出大幅增長態勢,機動車污染已成為我國空氣污染的重要來源,是造成空氣污染的重要原因[1];同時氣象條件也在影響空氣質量的變化,可以使空氣污染物發生稀釋、擴散等結果[2]。因此,掌握影響道路交通范圍的空氣污染物濃度變化的定量關聯規則,可為大氣環境管理決策者合理制定政策和措施提供參考依據。
目前,對空氣污染物濃度變化的研究方法主要有:數值模型法、統計學法和機器算法[3]等。數值模型利用典型的AMRMOD[4]、WRF-Chem[5]和CMAQ[6]等模型,可以對不同空間尺度的大氣擴散和化學反應有較好的模擬結果。但是在實際模擬過程中,模型的建立較復雜,且模型對物理場景做了很多參數的理想設置,例如:道路移動源排放中污染源排放高度、線源寬度等及實際污染物排放數據的設置都有不確定性[7-8],因此這些模型對空氣污染物濃度變化模擬有一定的偏差。而統計學方法主要有相關性分析、線性回歸等方法,主要的研究有:Shi 等[9]利用去趨勢互相關分析法提出了新的指標“擁塞長度”,分析了成都市空氣污染物NO2與交通擁堵的關系,以冪函數成正相關的相關性;Vienneau 等[10]利用主成分分析、聚類分析,對歷史SO2濃度數據進行分析,界定了SO2不隨空間和時間變化的區域;張丹[11]研究了北京市空氣質量與機動車尾氣排放量關系,采用灰色關聯度的方法發現機動車尾氣污染物氮氧化物、PM10、SO2排放量與北京市PM10排放總量的關聯度最高。這些方法雖然可以定性及半定量地描述影響因素和空氣污染物之間的線性關系[12-14],但是對深層次及復雜系統的非線性關聯性分析會造成較大誤差。
近年來機器學習算法被應用于關聯分析、預測等任務中,并且表現出良好的性能[15-17]。目前對空氣污染物的主要研究有:李光強等[2]利用時空挖掘方法找到了氣象因素對空氣污染物濃度變化的關聯規則;Karatzas 等[18]基于主成分分析法找出影響臭氧的主要因素,再基于影響因素利用BP 神經網絡對希臘塞薩洛尼的臭氧進行了預測,表明了機器算法在對空氣污染建模中的重要作用;Sfetsos等[19]利用積極矩陣分解降維、K-means聚類方法發現氣象模式與PM10超標的關系等。
因此如何將道路交通流和氣象因素相結合,共同作用于空氣污染物的變化,就需要利用機器算法——新的數據挖掘技術[20-26],建立道路交通與氣象對空氣質量影響的綜合關聯因素分析系統,定量地表達聯動作用,引入支持度、置信度和提升度等評價參數對判別規則的重要性提供了量的依據,對于空氣質量預測具有重要的科學價值。基于此,本研究選取廣東省佛山市國家空氣質量監測站點(南海區氣象局)周邊1.5 km 半徑區域為實驗區域,監測2020 年5 月—2021 年3 月所有小時時間段內的實測數據,利用優化后的關聯規則算法,定量探究空氣質量監測站不同方位的道路交通流,在氣象因素的影響下,分析空氣污染物濃度變化的過程及敏感性因素,為實現區域污染聯防聯控和改善空氣質量提供決策依據和技術支持。
本文選取了佛山市國家空氣質量監測站點(南海區氣象局)周邊1.5 km 半徑區域為研究范圍(圖1),紅色標志為空氣質量監測站點,路網內道路分別是:海三路、桂瀾路、南海大道北、佛平二路,可從圖1中查看到道路在空氣質量監測站點的方位,分布在東南西北;而監測站點到各道路的垂直距離從大到小排序是:佛平二路<海三路<桂瀾路<南海大道北。這四條道路均是城市主干道,道路交通流量較大,承載著城市區域內客貨運交通,以交通功能為主。

圖1 佛山市南海區氣象局空氣質量監測站點及周邊道路分布圖
研究收集了佛山市國家空氣質量監測站點(南海區氣象局)周邊1.5 km半徑區域,2020年5月—2021 年3 月所有小時時間段內的監測數據,主要包括空氣質量監測站點內路網的信息數據(道路類型、道路長度等)、道路交通流量數據(卡口點位、方向等)、氣象數據(風速、風向、濕度、溫度和氣壓)和空氣質量數據(NO2濃度)。首先進行所有數據的預處理,即對各類監測數據進行無效數據和錯誤數據去除處理,最終處理后的數據共有4 974條。
基于關聯規則分析,要在數據的取值范圍內設定若干個離散的劃分點,將取值范圍劃分為一些離散化的區間,最后用不同的符號代表落在每個子區間中的數據值。本研究利用統一權重法將各類數據進行區間等級劃分,根據數據的取值范圍,盡可能將每個區間離散的數量保持一致。將篩選后的數據按照表1 中的等級劃分進行符號轉化,為算法挖掘關聯規則提供事務項集,數據存儲如表2 所示。其中,字母符號區分各類屬性數據,字母符號后的數字代表各類數據的等級劃分。

表1 數據等級表

表2 數據事務項集
關聯規則是反映一個事物與其他事物之間的相互依存性和關聯性,是數據挖掘的一個重要技術,用于從大量數據中挖掘出有價值的數據項之間的相關關系[27-28]。Apriori 算法是常用的用于挖掘出數據關聯規則的算法,它用來找出數據值中頻繁出現的數據集合[29-34]。
利用Apriori算法找到最大的K項頻繁集。預先設定兩個重要的參數指標:
Apriori 算法采用了逐層迭代的方法,主要流程包括:首先對數據庫中的每個項計數,產生C1候選集,根據預設的最小支持度,得出L1頻繁項集的集合,再將頻繁項集L1的各個項連接,得到C2候選集,剪枝得到L2頻繁項集的集合,以此類推,迭代下去,直到無法找到頻繁(K+1)項集為止,對應的頻繁項集的LK集合即為算法的輸出結果。
從算法的流程可以看出,Apriori 算法每輪迭代都要掃描數據集,因此在數據集很大,數據種類很多的時候,算法效率很低。
3.2.1 結構的改進
傳統Apriori 算法每得到一次頻繁項集,需要掃描一次數據庫。針對算法計算效率低的問題,對算法結構進行了改進。
將原算法頻繁1 項集L1中的元素兩兩連接組合,得到候選集C2,為得到頻繁2 項集,需要第二次掃描原數據庫中的所有元素,對候選集C2中所有可能出現的項集求支持度。但是原數據庫中有一些元素(樣本)是無用的,不包含任何頻繁項集。因此我們將第二次掃描數據庫改變為對頻繁1 項集L1里的元素進行掃描(頻繁1項集L1的數量級遠比原數據庫的數量級少)。通過連接L1中的元素得到候選集C2,并對候選集C2中的元素組合進行支持度計算,再次與預設的最小支持度比較,剪枝得到頻繁2項集L2,依次循環操作,為得到頻繁K+1 項集,只需對上一候選集CK中的元素進行支持度計算。改進后的算法隨著高階頻繁K項集的數量越來越少,計算效率得到了很大程度的提高。
3.2.2 衡量指標的改進
傳統Apriori 算法得到的關聯規則,即使在達到最小置信度的要求下,得到的某些強關聯規則仍然是沒有規律可循的。雖然置信度可以衡量規則的可靠性,但是在關聯結果中發現,只考慮置信度是欠缺的。例如共100 條數據,A出現了60 次,B出現了80 次,A和B一起出現了40 次。那A和B一起出現的概率就是40%,在有A的前提下,B出現的概率是67%,而沒有A的前提下,B出現的概率是80%,這表明因為A的存在會降低B的概率,那A和B是沒有關聯的,因此只考慮置信度是無用的。為了在原算法的基礎上實現關聯規則挖掘效果的改進,本研究在改變掃描結構的同時,加入了新的衡量指標,從而使得算法能夠輸出更有價值的關聯規則。
因此改進算法引入的新指標是“提升度”:反映A出現對B出現的概率產生了多大的影響,計算公式為:
(1) 當lift=1 時,表明A和B沒有關系;(2) 當lift>1時,表明A和B是正相關;(3)當lift<1時,表明A和B是負相關。當lift>1時,出現的關聯規則還是冗余的。因此本研究設置的最小提升度為3(在一般數據挖掘中只有當提升度大于3才能保證關聯規則是有價值的)。
3.2.3 關聯規則的篩選
關聯規則的篩選條件:用數學模型表示y=f(x1,……,n),x1,……,n是影響因素,y是影響結果。關林規則的形式為A→B,A為前項,B為后項,原算法得到的關聯規則前項與后項是不區分影響因素和影響結果,因此結果處理較復雜。基于此篩選條件為:保留后項只有影響結果的規則,基于置信度和提升度一致的前提下,從前項低維(三維)到前項高維(四維)比較,如果前項低維(三維)包含的元素為x1、x2、x3,后項為y1,置信度為c1,提升度為l1,前項從三維上升到四維時,包含的元素分別為x1、x2、x3、x4,后項為y1,置信度為c1,提升度為l1,這是發現四維前項只增加x4,對后項、置信度和提升度都沒有變化,說明對y1真正產生影響的因素只有x1、x2、x3,因此需要刪除四維,只保留三維。
改進后的算法的主要步驟為:(1) 加載數據集TID1,……,n里面每一個元素,存為Database D;(2) 對數據庫掃描,并對每個元素項進行計數,得到候選集C1。根據預先設置的最小支持度,對候選集C1進行剪枝,保留大于最小支持度的元素,得到頻繁1 項集L1;(3) 對頻繁L1進行連接,得到候選集C'1。這時掃描數據集C'1,對候選集C'1里面的元素進行計數得到候選集C'2,接著對C'2剪枝,得到頻繁2項集L'2……;(4) 依次往下執行操作,重復剪枝、連接,直到找到頻繁(K+1)項集L'K+1;(5) 引入上一段增加的兩個指標進行規則篩選,當前項低維包含的元素可以概括所有的影響因子,只需保留低維規則。主要流程如圖2所示。

圖2 改進后算法的流程圖
根據改進的關聯規則算法,設置最小支持度、最小置信度和最小提升度剔除無意義數據和篩選出強關聯規則。在對算法進行多次調整參數,發現支持度不大于0.1%時,重點關注的NO2處于高濃度等級的三維強關聯規則穩定在一條,因此設定最小支持度為0.1%,最小置信度為0.85,最小提升度為3。
多維關聯規則的挖掘從二維關聯規則上升至高維關聯規則如圖3所示,其中二維關聯規則例如{[氣壓P1、風速W2]≥[NO2(N1)],92%},代表低等級氣壓和中等風速的組合,對NO2處于低等級產生92%概率的影響,三維關聯規則例如{[道路1 的交通流Q1、氣壓P1、風速W2]≥[NO2(N1)],91%},四維關聯規則例如{[道路1 的交通流Q1、道路2 的交通流Q2、濕度R1、風速W3]≥[NO2(N2)],95%}。若不設置參數限制,挖掘得到的關聯規則中,二維關聯規則的組合共有269 856個,三維關聯規則的組合共629 664 個,四維關聯規則的組合共944 496 個。根據改進后的算法,設置限制性參數得到的強關聯規則發現,NO2為低、中、高濃度時的強關聯規則分別為13條、13條、21條。

圖3 多維關聯規則的挖掘
基于Apriori 算法得出的關聯規則,篩選出后項為NO2的關聯結果。通過對強關聯規則結果分析得到:當NO2處于低濃度值N1時,三維關聯規則當中包含所有的影響因素,不需要對更高維的關聯規則進行分析;而NO2處于偏高濃度時,生成的是四維關聯規則且包含所有的影響因素。但是這些規則中存在較多無效關聯規則,根據3.2 節對算法的改進:當后項為同一等級的對象且置信度相同時,低維關聯規則的前項向高維關聯規則遞增時,增加的其他因素,并沒有導致置信度發生變化,則剔除高維關聯規則,保留低維關聯規則。
3.4.1 NO2低濃度等級的強關聯規則
表3 為NO2濃度處于低濃度值(濃度低于20 μg/m3)時的強關聯規則,共13 條,具體的強關聯規則所構的交通物理場景如圖4 所示。從表3 可知,編號1~2中的二維強關聯規則直接表明氣象因素中的氣壓、風速、風向和氣溫對NO2的作用度最高,此時的氣壓小于1 006 hPa、風速大于2 m/s 及氣溫大于28 ℃,置信度都達到了100%;基于二維強關聯規則加入其他影響因素,到三維強關聯規則可以進一步發現:氣壓(P)都處于最低等級、風速(W)和氣溫(T)都處于高等級,同時風向多處于X3(西南風)。

圖4 NO2低濃度值時各影響因素所構交通物理場景

表3 交通流、氣象與NO2低濃度的強關聯規則
從編號3~13 可知,加入道路交通流信息和方位信息,在氣象條件的影響下,所得的置信度偏差較小,可以表明氣象因素對空氣污染物的影響較大。進一步分析編號3~5 可得,海三路(A)位于空氣質量監測站的正北方,雖然此時的道路流量處于最高等級(A4),小時流量超過了1 085 輛,由于道路處于下風向(X3)、氣壓較低(P1,小于1 006 hPa)、風速較高(W2,1~2 m/s)和氣溫較高(T3,大于28 ℃),不會導致NO2濃度的升高,置信度的范圍在97.11%~100%。編號6 表明,佛平二路(B)位于空氣質量監測站的正南方,因為此時的道路流量較低(B1,小時車流量低于376 輛),車流量較低時大部分出現在凌晨,且氣象條件較好,NO2濃度也處于較低等級。編號7 表明,南海大道(C)位于空氣質量監測站的正西方,且距離監測站點較遠,雖然道路流量處于中等水平,在低氣壓,距離遠的條件下,NO2的濃度也不會升高。從編號9~13 發現,桂瀾路位于空氣質量監測站的正東方,隨著道路流量逐漸增加,也并沒有導致NO2的濃度等級的變化,主要是因為溫度高、風速快,對空氣污染物的擴散更快,然而置信度從100% 降到了90.34%,可見交通流量的增加也會影響NO2濃度的變化。
3.4.2 NO2中濃度等級的強關聯規則
表4 為NO2濃度處于中濃度值時(濃度范圍在[20,45]μg/m3)的強關聯規則,共13 條,部分強關聯規則所構的交通物理場景如圖5 所示。編號1~2 中的三維強關聯規則同表3 的二維強關聯規則相似,同樣表明道路流量有所上升,但是在氣壓、風速、氣溫的影響下,NO2的濃度也不會有太大的變化。從三維影響因素上升到四維影響因素可以進一步發現:風向(X)較3.4.1 節有所轉變、氣壓(P)上升至中等級(1 006 hPa<P2≤1 015 hPa)和風速(W)基本保持不變。

圖5 NO2中等濃度值時各影響因素所構交通物理場景

表4 交通流、氣象與NO2中高濃度的強關聯規則
進一步分析可知,編號3~4表明,風向轉變為東北風(X1)時,海三路(A,小時交通流的范圍在[876,1 085])處于上風向、在氣溫較低(T1,低于21.2 ℃)和相鄰道路為高交通流的影響下,NO2濃度逐漸升高;隨著高風速(W3)的推導作用,雖然NO2濃度級別沒有改變,但是置信度從100%下降至90.91%,說明此時的溫度的作用較風速影響更大。隨著海三路(A)的車流量繼續增加,從編號5~6 可知,伴隨其他道路交通流的匯入,在高風速和高溫度的作用下,也可以加快污染物的擴散。
編號7~13 表明,當NO2濃度上升至N3 級別時(濃度范圍在[29,45]μg/m3),風速在慢慢下降,而此時各條道路都處于上風向,隨著道路交通流增大且氣壓達到最高(P3<1 015 hPa),使得NO2的濃度也在慢慢上升。其中置信度也存在差異,例如編號12~13,確定道路交通流不變時,風速下降(低于2 m/s)、濕度增加(高于66%)、從高氣壓轉變為西北風(X4)時,污染物NO2的濃度置信度從88.74%升至100%,表明雖然道路在風的下風向,但是此時風速較小,導致污染物濃度也會增加。
3.4.3 NO2高濃度等級的強關聯規則
表5 為NO2濃度處于高濃度值時(濃度大于45 μg/m3)的強關聯規則,共21條,部分具體強關聯規則所構的交通物理場景如圖6 所示。氣壓(P)與3.4.2節的(N3)的現象相同,而風速(W)較3.4.2節的下降至最低(W1,低于1 m/s)等級。從編號2~12可知,隨著各條道路交通流的疊加,氣溫和風速都處于較低水平時,空氣擴散能力差,從而導致NO2處于較高等級。加入風向后,從編號13~21發現,因為各條道路都處于上風向,同時氣象條件較差,也會導致NO2處于較高等級。

圖6 NO2高濃度值時各影響因素所構交通物理場景

表5 交通流、氣象與NO2高濃度的強關聯規則
從編號4~5、7~8、9~10 發現置信度有一定的偏差,當道路交通流一致、溫度都為低溫時,將低風速(低于1 m/s)轉變為中等氣壓(1 006<P2≤1 015 hPa),發現置信度從100%降至88.72%,此時對NO2較敏感的因素是較低的風速;而當道路交通流一致、較低風速時,將低氣溫轉變為較高氣壓,發現置信度從90.91%升至100%,此時說明對NO2較敏感的因素是較高的氣壓。將兩種現象結合,結果與上一段的現象一致。
基于以上對空氣污染物各等級劃分所得的強關聯規則可得出:影響NO2濃度變化的主要因素是風速、溫度和氣壓。因此將關聯規則所得影響較大因素與空氣污染物在SPSS 軟件中進行線性擬合(圖7)。并利用皮爾遜相關系數進行判定各因素與空氣污染物的相關程度,得到的系數分別為:I(風速)=-0.27、I(溫度)=-0.3、I(氣壓)=0.27、I(濕度)=-0.034。

圖7 氣象條件與NO2濃度的線性關系
計算結果發現風速、溫度與NO2呈負相關、氣壓與NO2呈正相關、濕度與NO2的關系不明顯,該結論與關聯規則算法得出的結果相同。
(1) 基于傳統的Apriori算法計算效率較低,改進后的算法效率有明顯的提升,且加入參數“提升度”和對關聯規則結果的篩選方法,改進后的結果更加可靠。
(2) 從NO2的濃度等級變化來看,影響空氣污染物濃度變化的主要關聯因素是風速、溫度和氣壓,隨著風速和溫度的降低,NO2濃度在逐漸增加;而氣壓與污染物濃度成正相關;濕度與污染物的關系不太明顯。且發現NO2濃度級別沒有改變,但是改變某個氣象因素,置信度會發生變化,說明這個氣象因素對NO2的影響更大。
(3) 道路交通流對空氣污染物的影響,需要考慮道路的方位、距離和風向等因素。當道路交通流較大且位于下風向時,在氣象條件較好的情況下,也不會導致污染物迅速上升;當道路交通流不大且位于上風向時,伴隨著較差的氣象條件,也會導致污染物逐漸累積。
(4) 為驗證關聯算法得到的影響空氣污染物NO2濃度變化較大的影響因素,將這些數據與NO2濃度數據進行線性擬合并計算皮爾遜相關系數,所得結果與關聯規則算法的結論一致。表明基于改進的Apriori算法在關聯規則挖掘方面具有較高的準確性,也提高了關聯性分析的效率。
(5) 本研究主要是對道路總交通流做關聯分析,未考慮交通流的車隊結構,而NO2在夜間的主要來源是重性柴油車排放的NOx,因此在未來的研究當中,基于本研究需要拓展更多的影響因素,包括車隊結構(車型組成、排放標準)等因素。