























摘要:隨著我國人民生活水平和汽車制造技術水平的快速提升,社會汽車保有量迅速增長,然而汽車排放的有害物質(CO、HC、NO)引發(fā)的城市大氣污染問題也日益嚴重。目前,遙感檢測技術在檢測汽車尾氣含量時容易受到天氣影響,導致取樣數(shù)據(jù)不準確等問題,給汽車監(jiān)管部門的精準執(zhí)法帶來了較大困難。文章利用遙感檢測儀對汽車尾氣數(shù)據(jù)進行采集,研究了精準預測汽車排放有害物質(CO、HC、NO)數(shù)據(jù)的方案,提出了W-Gea算法,實現(xiàn)了對汽車尾氣數(shù)據(jù)的精準預測。
關鍵詞:W-Gea;汽車尾氣;預測算法;增強梯度
中圖分類號:TP312 文獻標志碼:A
0 引言
目前,基于遙感檢測技術的方法被廣泛用于汽車尾氣排放污染物含量的檢測,但存在一定的缺陷,在實際檢測過程中非常容易受到天氣的影響,從而導致檢測到的單個汽車尾氣排放數(shù)據(jù)中存在大量的異常和殘缺數(shù)據(jù)[1]。本文針對含有大量異常、殘缺的原始尾氣數(shù)據(jù)(CO、HC、NO)不能直接進行汽車尾氣監(jiān)測的問題,研究出精準的預測算法,以對這些異常、殘缺數(shù)據(jù)進行精準預測。
1 數(shù)據(jù)獲取
本文利用獲取到的完整汽車尾氣數(shù)據(jù)集進行汽車尾氣含量預測研究。遙感尾氣監(jiān)測系統(tǒng)基本原理如圖1所示。
將遙感尾氣檢測設備安裝在接近汽車排氣管的尾部,被測汽車按照平時正常行駛狀態(tài)分別在不同天氣(雨天、陰天、多云、晴天)下以不同的車速(10、30 km/h)行駛2 km,分別在20天里每天進行10次重復采集,獲取汽車尾氣數(shù)據(jù)結果(CO、HC、NO)。記錄10輛汽車的車牌號、車主信息、汽車速度、車身長度、車輛質量、汽車排量、是否有汽車催化轉化器和當天溫度信息。
2 汽車尾氣含量預測算法
2.1 加權增強梯度算法
一般的集成回歸樹的原理如圖2所示,基本思想是通過不斷地添加一個新的回歸樹,通過特征樹的分裂重新生長一棵樹。每次增加一棵新的回歸樹,本質是通過特征屬性去訓練學習這棵樹對應的新函數(shù),目的是將前一棵樹訓練學習完的殘差放到下一棵樹對應的函數(shù)中去繼續(xù)訓練學習,這樣通過不斷的迭代、不斷的訓練學習使得最后的預測值更加接近真實值。當在設定空間完成K棵樹的訓練學習后,就會得到最終的預測值。最終的預測值是將要預測樣本的特征值隨機地對應到每棵樹的某個葉子節(jié)點上,經(jīng)過迭代、訓練、學習后將每棵樹上對應同一樣本特征的葉子節(jié)點上的數(shù)加在一起得到的值。
結合梯度提升樹和對權重自行選擇2種方法的高效融合實現(xiàn)加權增強梯度算法(Weighted Gradient Enhancement Algorithm,W-Gea)[2]。W-Gea對具有規(guī)律結構化的數(shù)據(jù)有著很強的建模能力,可以對數(shù)據(jù)的特征進行自行選擇,不易發(fā)生數(shù)據(jù)過度擬合的情況,并且支持多線程并行處理。本節(jié)利用獲取的汽車尾氣數(shù)據(jù)建立W-Gea的預測模型。針對給出的訓練學習的樣本數(shù)據(jù)集,W-Gea算法通過加強學習去迭代、訓練、學習每次增加的回歸樹,并自行對影響遙感檢測技術檢測的不穩(wěn)定因素進行加權處理。
模型的輸入包括通過遙感檢測技術獲取的汽車尾氣中完整的CO、HC、NO含量(單位:g/km)、汽車速度、車身長度、汽車質量、汽車排量、燒然是否有催化轉化器、當天溫度。模型的標準輸出包括基于遙感檢測技術檢測的異常、殘缺汽車尾氣中CO、HC、NO的預測含量。
2.1.1 預測函數(shù)
W-Gea的預測函數(shù)P(x)為:
其中,yi為預測值,f(x)為回歸樹對應的函數(shù),η為f(x)的設定空間,q(x)為樣本x對應到回歸樹某個葉子節(jié)點上的特征值,w為該葉子節(jié)點的預測值,wq(x)為第k棵回歸樹對應函數(shù)fk對樣本的預測值。
2.1.2 目標損失函數(shù)
W-Gea的目標損失函數(shù)L(P)為:
W-Gea在第t次迭代后的預測值為前t-1次迭代后的預測值與第t棵回歸樹的預測值之和,得:
y(t)i=y(t-1)i+ft(xi)(5)
目標損失函數(shù)為:
對目標函數(shù)L在yt-1i處進行泰勒展開式展開,可得:
其中,對一階梯度gi,二階梯度hi有:
對公式(7)進一步化簡得:
將:
帶入公式(10),可得化簡后的目標函數(shù):
定義一棵樹上的每個葉子節(jié)點上的特征值集合為:
Ij={i|q(xi)=j}(13)
目標損失函數(shù)轉化為一個一元二次函數(shù):
進一步化簡得:
其中
令公式(14)中目標損失函數(shù)L(t)1的導數(shù)為0,可得L(t)1的最小值,則該葉子節(jié)點最終的預測值:
L(t)1的最小值為:
進而通過不斷列舉出每棵樹的不同結構,并根據(jù)公式w*j迭代學習后確定最優(yōu)回歸樹結構。但是回歸樹的葉子可無限增加,因此窮舉法不現(xiàn)實。W-Gea設計時加入了貪心算法,利用貪心算法去分割已經(jīng)存在的每棵樹的葉子節(jié)點,這樣就可避免窮舉法去增加不同結構的樹。每一個葉子節(jié)點在進行分割前和分割后的增益為:
基于上述函數(shù)思想,對9個維度的輸入數(shù)據(jù)分別乘上平均權重作為W-Gea模型的輸入,權重計算公式為:
最后,選擇分割前與分割后增益Gain最大的葉子節(jié)點進行貪心算法的分割,定義最開始回歸樹的值為0,通過不斷分割、學習、迭代確定最終K棵回歸樹 的最優(yōu)結構,從而確立了W-Gea算法的模型,對汽車尾氣數(shù)據(jù)進行預測。
2.2 實驗結果與分析
本文將獲取的汽車尾氣完整數(shù)據(jù)作為驗證數(shù)據(jù)集,對獲取的汽車尾氣完整數(shù)據(jù)進行人為刪除部分數(shù)據(jù),將處理得到的數(shù)據(jù)集作為尾氣預測數(shù)據(jù)集。在尾氣預測數(shù)據(jù)集上訓練預測模型,確定體現(xiàn)算法相對準確的4個指標:平均方根偏差(Mean Root Deviation,MRD)、相關系數(shù)R、擬合度(Degree of Fitting,DF)和平均絕對偏差(Mean Absolute Deviation,MAD)。MRD、R、DF和MAD指標定義如下:
CO尾氣含量預測如圖3和表1所示。
HC尾氣含量預測如圖4和表2所示。
NO尾氣含量預測如圖5和表3所示。
從實驗結果可以看出:W-Gea的尾氣含量預測算法準確性最好。在對CO、HC和NO尾氣含量預測時,相關系數(shù)R分別為0.87、0.85、0.86高于0.75、0.73、0.71(XGBoost)和0.64、0.70、0.66 (MLP)。從預測結果可以看出:對汽車尾氣污染物CO、HC、NO進行預測時,W-Gea算法的測試指標R和DF都高于XGBoost方法與MLP方法[3-4],其測試誤差MRD和MAD也最小,對CO、HC、NO的預測得到了相同的結論。
從圖3、圖4與圖5中的W-Gea曲線與真實值曲線比較可知,W-Gea的汽車尾氣含量預測的結果與真實的汽車尾氣數(shù)據(jù)結果幾乎重合,得出該算法模型對汽車尾氣測試樣本中汽車尾氣含量的預測結果更接近于真實值。因此,在基于不同測試指標對遙感技術檢測到的汽車尾氣中大量的異常數(shù)據(jù)、殘缺數(shù)據(jù)進行預測的表現(xiàn),可得W-Gea的尾氣含量預測算法模型與XGBoost方法和MLP方法相比,對汽車尾氣數(shù)據(jù)的預測效果具有更好的準確性。
3 結語
本文針對遙感檢測技術檢測汽車尾氣排放污染物數(shù)值時,檢測結果易受到天氣環(huán)境影響而得到異常、殘缺數(shù)值的問題,利用經(jīng)過處理得到的汽車尾氣測試數(shù)據(jù)集,建立本文中W-Gea的尾氣含量預測算法模型,對汽車尾氣排放的真實水平進行預測,并通過實驗證明W-Gea模型預測的準確度高于XGBoost算法和MLP方法。
參考文獻
[1]石于.我國機動車尾氣排放控制現(xiàn)狀與對策[J].智能城市應用,2022(1):70-72.
[2]LUCA P D,NICOLA F.Energy consumption forecasts by gradient boosting regression trees[J].Mathematics,2023(5):1068.
[3]陳玉敏,魏陽,常政威,等.基于遙感數(shù)據(jù)和XGBoost算法的31個城市NO2、CO2濃度比率變化特征[J].地球科學與環(huán)境學報,2023(6):1355-1367.
[4]崔立卿,王勝男,袁海范,等.基于神經(jīng)網(wǎng)絡MLP和RBF的全社會用電量預測研究[J].電力大數(shù)據(jù),2023(9):31-39.
Research on accurate prediction of automobile exhaust data based on W-Gea algorithm
Abstract: With the continuous improvement of people’s living standard and the rapid improvement of automobile manufacturing technology in China, the number of vehicles in the society has grown rapidly, but the urban air pollution problem caused by harmful substances (CO, HC, NO) emitted by vehicles is also becoming more and more serious. At present, remote sensing detection technology is easy to be affected by weather when detecting automobile exhaust content, resulting in inaccurate sampling data and other problems, which brings great difficulties to accurate law enforcement by automobile regulators. In this paper, the remote sensing detector is used to collect the vehicle exhaust data, and the accurate prediction scheme of the vehicle emission harmful substances (CO, HC, NO) is studied, and the W-Gea algorithm is proposed to realize the accurate prediction of the vehicle exhaust data.
Key words: W-Gea; automobile exhaust; prediction algorithm; gradient enhancement