999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于隨機森林的公路隧道CO氣體濃度預測模型

2022-11-01 06:34:52張志剛徐瑩張錦秋韓秀杰閆尉深
科學技術與工程 2022年26期
關鍵詞:特征模型

張志剛, 徐瑩, 張錦秋, 韓秀杰, 閆尉深

(1.河北省高速公路延崇籌建處, 張家口 075400; 2.河北工業大學土木與交通學院, 天津 300401)

隧道是公路交通網絡的重要組成部分。公路隧道的建設有效地減少了道路病害、保護自然環境,提高了公路交通的運輸效率。由于狹長的隧道空間不利于污染物的及時擴散,車輛排放的污染物不僅限制了隧道的建設規模,還影響隧道的運營成本、駕駛安全性和司乘人員的健康[1-2]。

一氧化碳(CO)是車輛排放污染物的主要成分,對人體健康影響最大。輕則會造成人體反應、記憶力等機能障礙;重則危害人體血液循環系統。現行公路隧道的通風控制多依據污染物監測結果實施,數據反饋的時滯性和通風控制的滯后性導致隧道內污染物濃度無法得到及時、有效的控制,極易造成隧道內污染物的積聚,從而影響人員健康和行車安全。因此,提前預知隧道內CO濃度值及其變化趨勢,對隧道內CO濃度控制及隧道通風控制方案的制定十分必要。

隧道內車輛排放CO濃度受諸多因素影響,如交通量、車速、風速。已有眾多學者對這些影響因素進行了研究[3-5]。陳雷[6]通過實驗研究得出:無豎井縱向通風隧道越長,隧道末端CO濃度越大。雨天情況下隧道內CO氣體濃度較高[7]。付偉等[8]通過物理與數學模型得出交通量與隧道長度、交通量與高程、隧道入口風速與高程對CO氣體濃度的關系。《公路隧道通風設計細則》JTG/T D70/2-02—2014[9]中給出的CO排放量經驗計算公式考慮了多種因素的影響。但計算公式將車速、風速等作為定值參數計算,難以作為隧道內CO氣體濃度控制的依據。此外,部分學者對各因素作用下的隧道內污染氣體濃度的分布特征進行了廣泛研究,總結了污染氣體濃度沿隧道長度的分布規律[10-11]。然而,污染氣體濃度的粗略計算和定性的污染氣體濃度分布規律難以作為隧道前饋式通風系統精確控制的依據,不利于實現隧道的節能環保運行。

隨著機器學習的發展和推廣,越來越多的學者將其應用于空氣污染物濃度的預測研究[12-13]。機器學習在非線性數據處理與預測方面優勢突出,Grivas 等[14]建立了基于時間和氣象數據的PM10人工神經網絡預測模型,模型預測結果的決定系數(R2)介于0.50~0.67。孫寶磊[15]基于污染物濃度監測數據,建立了SO2、NO2、O3、CO、PM10、PM2.56種污染物的BP (back propagation) 神經網絡預測模型。王黎明等[16]提出了基于距離相關系數和支持向量機回歸的PM2.5濃度預測模型。董紅召等[17]利用空氣污染物監測數據和車輛抓拍識別數據,構建了基于CART (classification and regression tree) 回歸樹的氮氧化物(NOx)濃度預測模型。構建準確、高效的隧道內污染氣體濃度預測機器學習模型,實現污染氣體濃度的實時預測,可為隧道通風系統的精準控制提供依據,有利于實現隧道前饋式通風系統的節能環保。

隨機森林是一種靈活性高的機器學習算法,能夠處理高維度數據、模型泛化能力強、訓練速度快,廣泛應用于交通運輸[18]、水質監測[19]、電力系統預警[20]等領域,且性能突出。為準確、快速地預測隧道內CO氣體濃度,降低CO氣體對人員健康的危害、保證隧道營運的安全和環保,現將隨機森林應用于隧道CO濃度預測研究中,并驗證預測模型的準確性,以實現多因素共同作用下的隧道內CO濃度的準確預測。首先,搜集隧道內CO濃度現場實測數據建立數據庫;其次,基于隨機森林算法構建隧道內CO濃度預測模型;最后,將構建的預測模型應用于3 300 m長隧道的CO氣體濃度預測,以驗證模型的預測性能。

1 數據收集與處理

1.1 數據收集

為充分考慮各因素對隧道內CO濃度預測的影響,本文研究結合文獻[4]的現場實測數據,將車流量、車速、風速作為主要輸入特征。為充分考慮隧道內污染物濃度分布的不均勻性,提高模型泛化性能,將污染物監測點位置作為輸入特征之一。文獻[4]中實測隧道長度為2 087 m;沿隧道設置5個監測點,監測點間的隧道長度分別為360、600、540、580 m,高度均為1.2 m;測試時間共120 min;數據集共120組數據,測試日期為2019年12月20日16:30—18:30,整體分析如表 1所示。測點位置被定義為距隧道出口距離與隧道長度的比值。交通量以小客車為標準車型折算為當量標準小客車,小型車折算系數為1,中型車折算系數為1.5,大型車折算系數為2.5,汽車列車折算系數為4.0[21]。

表1 樣本數據集分析Table 1 Statistics of the collecting database

1.2 數據處理

皮爾遜相關系數常用于度量兩個變量間的相關性,值介于-1~1。其中,-1表示完全負相關,0表示無關,1表示完全正相關。為了更好地了解各輸入特征間的相關關系,避免非必要特征導致的過擬合,并減小計算強度,本文對輸入特征進行皮爾遜相關性分析,計算結果如圖 1所示。由圖 1可以看出,各輸入特征間的皮爾遜相關系數絕對值均小于0.6,各特征間為弱相關關系,因此認為各輸入特征相互獨立且有意義。

圖1 各特征間的皮爾遜相關系數Fig.1 Pearson correlation coefficient of each pair input variables

處理數據缺失問題的常用方法為刪減法和填補法。由于樣本數據集數量的限制,本文采用填補法處理車速缺失數據,以減小數據缺失導致的預測誤差。車速缺失數據對應的隧道限制車速為40~80 km/h,故使用[40,60]區間內的隨機數填補缺失數據。

為避免數據透視差導致的模型精度虛高現象,在將樣本數據集輸入隨機森林模型前,首先進行訓練集和測試集數據的劃分,并設置數據集劃分隨機生成器種子。數據透視差是指在模型訓練過程中,由于每次劃分的數據集不同,多次運行后使機器學習算法學習到整個樣本數據,進而導致模型計算結果過于樂觀。隨機挑選數據集的70%作為訓練集數據,30%作為測試集數據;隨機生成器種子為42。

由表 1可知,數據集各特征值量級存在較大差異,為統一樣本數據的統計分布,提高預測模型的計算效率,采用如下公式對樣本數據集進行歸一化處理:

(1)

式(1)中:x*為歸一化后的樣本數據;xmean為樣本數據均值;xmax為樣本數據最大值;xmin為樣本數據最小值。

2 預測模型建立

2.1 隨機森林模型

圖2 隨機森林原理Fig.2 Simplified conceptual diagram of the RF method

(2)

式(2)中:x為輸入模型的自變量與因變量。

2.2 模型評價指標

(1)決定系數(R2),也稱擬合優度,反應自變數x對變數y變異的可解釋的百分比,進而判斷模型的解釋能力。決定系數越大,自變量引起的變動占總變動的百分比越高,自變量對因變量的解釋程度越高。

(2)均方根誤差(root mean square error, RMSE),也稱標準誤差,是觀測值和真實值的差的平方與觀測次數n的比值的平方根。均方根誤差能夠很好地反映測量的精密度。

決定系數和均方根誤差的計算公式為

(3)

(4)

2.3 模型參數確定

隨機森林是基于bagging框架的決策樹模型,故隨機森林的參數調節包括框架的參數擇優和決策樹的參數擇優。采用十折交叉驗證微調模型,設置30種參數組合,每種組合計算10次,組合的最優RMSE結果如圖 3所示,最小值RMSE為0.491 0。據此確定最優超參數n_estimators為100;bootstrap為False;max_features為4;其余參數為默認值。

圖3 每種試驗組合的最優RMSE Fig.3 The best RMSE versus each parameter combination test

3 預測結果與分析

3.1 模型預測結果分析

應用預處理完成的訓練集和測試集數據對模型其進行評估。模型的學習曲線如圖 4所示。由圖 4可知,隨著訓練集數量的增加,訓練曲線的R2平穩至接近1。測試曲線的R2變化較大,在初始的20次循環中,R2急劇上升至0.8;逐漸趨向于訓練集結果,并最終穩定于0.9左右。由此可知,CO濃度預測模型表現力好,無數據過擬合和欠擬合現象。

圖4 學習曲線Fig.4 Learning curve

訓練集和測試集數據應用于該預測模型的計算結果如圖 5所示,其中圖 5(a)為訓練集預測結果,圖 5(b)為測試集預測結果。由圖 5可以看出,基于該模型的CO濃度預測值與CO濃度實測值十分接近。預測模型在訓練集的平均絕對誤差和決定系數分別為0.187 1和0.990 7;測試集的平均絕對誤差和決定系數分別為0.497 4和0.943 7。由此可知,基于隧道內CO濃度影響因素構建隨機森林預測模型的整體擬合性能較高,能夠準確預測隧道內的CO濃度值。

圖5 預測模型計算結果Fig.5 Scatter plot of the predicted and actual pressures for full database

為進一步評估基于隨機森林的隧道內CO濃度預測模型性能,本文建立了隧道內CO濃度預測線性模型和支持向量機模型,并比較3種模型的預測性能,如表 2所示。線性回歸模型中訓練集和測試集的RMSE分別為0.817 4和1.044 6,R2分別為0.809 7和0.778 1;支持向量機模型中訓練集和測試集的RMSE分別為0.282 0和0.629 4,R2分別為0.977 3和0.919 4。RMSE值低說明預測值與真實值偏差小;R2高說明預測值與真實值接近,模型擬合效果好。由此可知,隨機森林模型的測試結果優于線性回歸模型和支持向量機模型。

表2 隨機森林和線性回歸模型性能比較Table 2 The performance comparison of random forest and linear regression

3.2 預測模型驗證

將構建的隧道內CO氣體濃度預測模型應用于3 300 m長公路隧道內CO氣體濃度預測,并將預測結果與實際CO氣體濃度值比較,進一步驗證預測模型的適用性。驗證集數據來源于整理文獻[4]中關于3 300 m長隧道的實測數據(共110組)。數據采集監測點為5個,間距為900、770、610、510 m,監測點高度為1.2 m。現場實測時間為2020年1月9日17:10—19:00。數據的統計方式與表 1相同,兩次隧道實測儀器相同。數據集分析如表 3所示。

將驗證集數據輸入特征按照式(1)進行歸一化處理后導入訓練好的CO預測模型,并將模型輸出結果與驗證集CO濃度真實值進行對比,結果如圖 6所示。驗證集的RMSE和R2分別為0.909 5和0.729 5, 劣于測試集數據計算結果。這是由兩組實測數據集的數據差異導致。兩組實測數據來自不同的隧道,表 1中數據源于隧道A,長2 087 m,單洞建筑限界寬度為13.25 m,限高為5 m,設計速度為80 km/h;表 3中數據源于隧道B,長3 300 m,單洞建筑限界寬度為8.5 m,限高為4 m,設計速度為50 km/h。表 1數據集中交通量和車速數據的標準差分別為52.97和4.94,而表 3驗證集數據中交通量和車速數據的標準差分別為32.78和14.71。兩組數據中交通量和車速數據的標準差相差約37.78%和197.78%,這使得預測模型在驗證集預測性能的表現稍差。此外,隧道A與隧道B所處地理位置存在差異,會導致環境中的CO氣體濃度略有不同,而實測數據為考慮隧道環境的CO氣體濃度,而CO氣體濃度預測模型是基于隧道A的測試數據建立,因此導致預測模型對隧道B內CO氣體濃度的計算誤差。

圖6 模型驗證結果Fig.6 Scatter plot of the predicted and actual pressures for validation database

表3 樣本數據集分析Table 3 Statistics of the collecting database

總體而言,基于2 087 m隧道現場實測數據建立的CO濃度預測模型能夠較為準確地預測CO濃度,模型泛化能力較強。

3.3 特征重要性分析

為進一步分析各輸入特征對隧道內CO濃度預測的影響,應用隨機森林對輸入特征的重要性進行分析,并采用基尼指數作為特征重要性評價指標。依據特征重要性評分結果將各特征依次排序,如圖 7所示。由圖 7可以看出,測點位置的重要性評分最高(0.593 34);其次是風速(0.330 14);車速和交通量的重要性評分分別為0.045 26和0.031 26。

圖7 特征重要性Fig.7 Feature importance

特長隧道內CO濃度監測點位置間距較大,不同監測點CO氣體濃度存在差異,致使隧道內CO氣體濃度分布不均勻。因此,測點位置對特長隧道CO氣體濃度預測有較大影響。圖 8為各輸入特征與CO濃度的散點圖,圖8中紅色線段為對應特征與CO濃度的關系曲線。由圖 8可以看出,測點位置與CO濃度的關系最為顯著[圖 8(a)];風速與CO濃度的關系擬合曲線[圖 8(b)]次之。隨著測點位置值的增大,隧道內CO濃度逐漸減小,即靠近隧道出口處,CO濃度值較大。此外,隧道內CO濃度值隨風速的增大逐漸減小。車速、交通量與CO濃度的關系難以通過數據散點圖總結[圖 8(c)和圖8(d)],因此,車速與交通量對隧道CO濃度的影響規律的總結應結合其他因素綜合考慮。

圖8 輸入特征與風速的關系Fig.8 Scatter plot of CO versus input variables

4 結論

(1)以公路隧道實測數據為基礎,建立了以交通量、車速、風速為主要輸入特征的特長隧道內CO氣體濃度預測模型。該模型在訓練集的RMSE和R2分別為0.187 1和0.990 7;測試集的RMSE和R2分別為0.497 4和0.943 7;預測結果優于線性模型和支持向量機模型。

(2)本文建立CO氣體濃度預測模型具有準確的預測性能和良好的泛化能力。預測模型應用于3 300 m長隧道內CO氣體濃度預測,預測結果與實際CO氣體濃度值比較顯示RMSE和R2分別為0.909 5和0.729 5。

(3)特征的重要性分析確定測點位置對隧道內CO濃度的影響最大,風速次之。隨著測點位置值的增大,隧道內CO濃度逐漸減小;靠近隧道出口處,CO濃度值較大。隧道內CO氣體濃度值隨風速的增大逐漸減小。

猜你喜歡
特征模型
一半模型
抓住特征巧觀察
重要模型『一線三等角』
新型冠狀病毒及其流行病學特征認識
重尾非線性自回歸模型自加權M-估計的漸近分布
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
3D打印中的模型分割與打包
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 国产资源免费观看| 亚洲国产系列| 国产成人凹凸视频在线| 无码AV高清毛片中国一级毛片| 4虎影视国产在线观看精品| 亚洲精品第一在线观看视频| 福利片91| 午夜国产理论| 日本午夜影院| 成人免费网站在线观看| 青草视频网站在线观看| 亚洲午夜久久久精品电影院| 久草性视频| 欲色天天综合网| 亚洲天堂久久新| 玖玖精品视频在线观看| 性喷潮久久久久久久久| 国内精品一区二区在线观看| 色屁屁一区二区三区视频国产| 成年网址网站在线观看| 伊人婷婷色香五月综合缴缴情| 69免费在线视频| 久久国产高潮流白浆免费观看| 免费三A级毛片视频| 国产91蝌蚪窝| 真人高潮娇喘嗯啊在线观看| 午夜性刺激在线观看免费| 国产午夜不卡| 国产AV无码专区亚洲A∨毛片| 国产精品v欧美| 亚洲国产日韩在线成人蜜芽| 日韩天堂网| 在线观看亚洲国产| 国产SUV精品一区二区| 伊人网址在线| 亚洲男人天堂网址| 日韩精品无码一级毛片免费| 日韩在线视频网站| 欧美一级夜夜爽www| 免费A级毛片无码无遮挡| 麻豆精品在线播放| 国产精品对白刺激| 国产在线精彩视频二区| 伊人久久婷婷五月综合97色| 国产欧美精品一区二区| 无码中文字幕乱码免费2| 欧洲成人免费视频| 直接黄91麻豆网站| 狠狠综合久久| 亚洲伊人久久精品影院| 沈阳少妇高潮在线| 99这里只有精品6| 欧美成人国产| 欧美成人综合视频| 99久久国产自偷自偷免费一区| 久久黄色视频影| 欧美成人免费| 91精品国产一区| 亚洲欧美国产视频| 久久精品这里只有精99品| 国产青青草视频| 色视频国产| 91亚洲精品第一| 国产一区二区三区在线精品专区| 香蕉eeww99国产精选播放| 2022精品国偷自产免费观看| 欧美日韩北条麻妃一区二区| 91在线无码精品秘九色APP| 亚洲二三区| 久久亚洲美女精品国产精品| 国产欧美日韩在线一区| 亚洲伊人天堂| 91福利一区二区三区| 最新加勒比隔壁人妻| 国产精品亚洲片在线va| 国产欧美日韩在线在线不卡视频| 久久这里只有精品国产99| 国产真实自在自线免费精品| 国产91透明丝袜美腿在线| 不卡午夜视频| 精品国产亚洲人成在线| 欧美激情视频二区|