基于機器學習的交通流參數(shù)異常數(shù)據(jù)處理模型研究

2021-05-11 07:27:42賈樹林胡江宇馬雙寶羅維平

武漢紡織大學學報 2021年2期

關(guān)鍵詞：模型

周博，賈樹林，胡江宇，馬雙寶, ，羅維平,

（1. 武漢紡織大學機械工程與自動化學院，湖北武漢 430200；2. 湖北省數(shù)字裝備重點實驗室，湖北武漢 430200）

隨著私家車占有量急劇上升，城市交通網(wǎng)絡所面臨的負荷也與日俱增。在公路及城市道路中使用不同類型交通探測器收集實時交通數(shù)據(jù)，以對交通流進行預測、實時交通誘導以及道路通行能力預測分析提供及時可靠的數(shù)據(jù)支撐[1]。探測器收集數(shù)據(jù)的過程中存在諸多噪音，如設備的磨損導致精度的降低、雨雪天氣對探頭的影響及設備供電異常等，會對收集到的交通流數(shù)據(jù)質(zhì)量產(chǎn)生一定的影響，因此需對收集的原始交通流數(shù)據(jù)進行故障數(shù)據(jù)的篩選修復。

針對交通流異常數(shù)據(jù)診斷，李琦等提出一種基于流量守恒定律的交通流數(shù)據(jù)質(zhì)量評價與控制方法[2]，可對異常值進行整體修復，但該方法具有較強地域局限性，魯棒性較低；苗旭等提出一種基于支持向量機模型的固定交通檢測器缺失數(shù)據(jù)綜合修復方法，可對交通流數(shù)據(jù)中缺失值進行填補[3]，但對于數(shù)據(jù)中存在的異常值未進一步處理；鮑東玉等人根據(jù)交通運行狀態(tài)的統(tǒng)計相似性進行了研究和對比，選擇了IQR法作為數(shù)據(jù)修復的方法[4]。綜合前期學者研究，針對交通流數(shù)據(jù)的修復研究較為分化，缺乏較為完整數(shù)據(jù)處理體系，且大多基于統(tǒng)計原理，模型遷移能力有待提高。針對上述問題，本文提出基于機器學習及線性回歸模型構(gòu)建出一種綜合數(shù)據(jù)清洗、奇異值、缺失值及異常值處理的交通流數(shù)據(jù)集成處理框架，對原始交通流數(shù)據(jù)進行有效性處理。

1 整體處理框架及數(shù)據(jù)來源

交通流數(shù)據(jù)主要包括速度、流量、時間占有率三個參數(shù)，數(shù)據(jù)采集過程中由于檢測設備故障及檢測環(huán)境對數(shù)據(jù)采集帶來的影響，交通流數(shù)據(jù)中存在的問題數(shù)據(jù)可分為缺失數(shù)據(jù)、重復數(shù)據(jù)、錯誤數(shù)據(jù)三大類，根據(jù)問題數(shù)據(jù)類型對其進行有效性處理，其整體流程如圖1 所示。本文所用數(shù)據(jù)來自蘭州2018年一月份城市及高速交通檢測器所采集原始數(shù)據(jù)集，采樣間隔為五分鐘，數(shù)據(jù)集來源于網(wǎng)絡數(shù)據(jù)庫。

圖1 數(shù)據(jù)有效性處理整體流程圖

2 異常數(shù)據(jù)清洗方法

2.1 奇異值處理

首先對三參數(shù)均為空值的數(shù)據(jù)及重復采樣的數(shù)據(jù)進行刪除，再通過三參數(shù)的基本關(guān)系對數(shù)據(jù)中的奇異值進行刪減。

對速度、流量、時間占有率三者關(guān)系進行相關(guān)性分析，當有車通過交通流數(shù)據(jù)采集器時三參數(shù)值均不為零；當無車通過采集器，三參數(shù)均為零；當車停在采集器邊時，速度及車流量為零，占有率為100%；根據(jù)此交通流機理，可得到交通流數(shù)據(jù)奇異值基礎(chǔ)篩選規(guī)則，如表1 所示（表中speed、occupancy、volume分別表示速度、時間占有率及流量）。

表1 交通流數(shù)據(jù)奇異值基礎(chǔ)篩選規(guī)則表

根據(jù)表1 所提供的基礎(chǔ)篩選規(guī)則可對原始數(shù)據(jù)中的奇異值進行初步篩選。

在交通流數(shù)據(jù)采集器的采樣間隔內(nèi)無車通過時，車輛服從泊松分布，其公式如式（1）所示。

其中p(x)為在采樣間隔內(nèi)通過采樣間隔的車輛的概率密度函數(shù)，m為間隔內(nèi)到達的平均車輛數(shù)，依據(jù)此在置信水平α下，交通流數(shù)據(jù)采集器采樣間隔內(nèi)有車輛到達的概率，即x＞0 的概率如式（2）所示。

由此可得m=?ln α，可通過設置置信水平α進一步以概率來判斷三參數(shù)均為零是否為異常值，即m ＞?ln α時，有1 ?α的概率不會出現(xiàn)volume 為零的情況。

針對時間占有率為零其他兩者不為零的數(shù)據(jù)，分析其原因可能是由于傳感器不靈敏導致，根據(jù)交通流三參數(shù)線性關(guān)系如式（3）所示：

根據(jù)式（4）輸入合理范圍內(nèi)的最大平均速度，平均有效車長及時間占有率即可得出最大流量閾值，并通過此篩選出奇異值。

2.2 基于隨機森林回歸模型缺失值處理

由于現(xiàn)有缺失數(shù)據(jù)插補方法主要包含單變量缺失值插補及多變量聯(lián)立缺失值差補兩大類，本數(shù)據(jù)集三參數(shù)均包含缺失值，為避免如均值填充、中值填充、上、下采樣等單變量缺失值方法所造成的數(shù)據(jù)原始分布改變及產(chǎn)生抽樣誤差，本文采用多變量聯(lián)立缺失值差補法對交通流數(shù)據(jù)集中缺失值進行填補。

通過對交通流三參數(shù)進行相關(guān)性分析，可以得到三參數(shù)相關(guān)性關(guān)系如表2 所示。

表2 速度、流量、時間占有率三參數(shù)相關(guān)性分析

由表2 中數(shù)據(jù)可知速度與時間占有率、流量與時間占有率之間具有較強的相關(guān)性，速度與流量之間具有中等相關(guān)性，因此，本文采用隨機森林回歸模型對速度、流量、時間占有率三個變量中缺失的數(shù)據(jù)進行缺失值填補。

隨機森林是一種主流的機器學習算法，其底層是一種基于決策樹的集成算法，由“Classification And Regression Tree（CART）”與“Bagging”方法結(jié)合而成，在建模過程中通過bootstrap 隨機抽樣的方法構(gòu)建樣本集以訓練模型，模型輸出結(jié)果是通過“投票”方式所決定的。由于其處理機制，隨機森林對噪音數(shù)據(jù)及缺失數(shù)據(jù)具有較好的容錯率，在處理高維數(shù)據(jù)時，能夠自主進行特征選擇，且抗過擬合的能力較強，魯棒性較高[5]。

在交通流數(shù)據(jù)中，由于速度、時間占有率及流量三參數(shù)均存在缺失值，可根據(jù)變量缺失量由少到多的順序?qū)ζ淙笔е颠M行填補。首先提取缺失數(shù)據(jù)最少的變量作為標簽，對其余變量中的缺失值進行均值填充后，構(gòu)建特征矩陣；其次對標簽缺失值進行預測填補；最后使用填補完成的變量補充進數(shù)據(jù)集，再次進行排序及標簽、特征矩陣構(gòu)建，對三參數(shù)進行循環(huán)填補后即可得到完整無缺失交通流數(shù)據(jù)集。

3 異常數(shù)據(jù)處理

3.1 基于孤立森林的異常值提取

在得到的完整交通流數(shù)據(jù)集后，通過繪制核密度圖觀察數(shù)據(jù)分布情況，如圖2 所示。

圖2 完整數(shù)據(jù)occupancy、speed、volume 三參數(shù)核密度圖

由圖2 可知三參數(shù)中均具有離群值，需對其進行異常值處理。首先采用箱線法對數(shù)據(jù)進行異常值分析。對經(jīng)過前期處理的交通流數(shù)據(jù)進行箱線法描述，其結(jié)果如圖3 所示。

圖3 交通流數(shù)據(jù)箱線法分析圖

由圖3 中數(shù)據(jù)可得，occupancy、speed、volume 三者均存在異常值。在speed 變量中存在較多偏大偏小數(shù)據(jù)，在volume 變量中存在少量偏大數(shù)據(jù)，在occupancy 中存在較多偏大數(shù)據(jù)。數(shù)據(jù)整體存在較多異常情況，因此需對數(shù)據(jù)進行進一步異常值處理。

本文采用Isolation Forest 算法對異常數(shù)據(jù)進行提取，由于Isolation Forest 模型是基于樹模型的集成模型，因此在構(gòu)建Isolation Forest 模型時首先需要通過數(shù)據(jù)訓練出m多個iTree，其步驟如下：

（1）對于給定數(shù)據(jù)集X，采用隨機抽樣法抽取D個子集放入根節(jié)點：

（2）從t個特征維度指定單個維度q，采用隨機原則產(chǎn)生切割點p：

（3）對數(shù)據(jù)空間通過切割點p生成的超平面劃分為兩個子空間，對于維度小與p的放入左子節(jié)點，大于的放入右子節(jié)點；

（4）遞歸（1）、（2）至iTreed 達到預定高低；

（5）循環(huán)所有步驟，至m個iTree 生成。

孤立森林生成后，將單個樣本輸入iTree，計算其平均高度，并對其進行歸一化處理，最后計算每個樣本的異常值分數(shù)，分數(shù)計算公式如式（5）所示。

對于捕捉到的異常值，Isolation Forest 算法所提供的接口可將異常值所對應的數(shù)據(jù)索引進行緩存，便于對異常值處理后對應地填回數(shù)據(jù)。通過將交通流數(shù)據(jù)傳入Isolation Forest 算法，得到的occupancy、speed、volume 三參數(shù)異常值數(shù)量如下表所示。

表3 速度、時間占有率及流量三參數(shù)異常值數(shù)量表

3.2 基于城市交通流參數(shù)的異常值填補模型

當交通流數(shù)據(jù)采集器采集到的數(shù)據(jù)中出現(xiàn)因硬件原因所造成的數(shù)據(jù)缺失的情況，可通過對交通流參數(shù)中兩兩之間構(gòu)建關(guān)系模型，并通過已有數(shù)據(jù)對硬件故障進行數(shù)據(jù)修復，以進一步保證交通數(shù)據(jù)系統(tǒng)的正常運行。

3.2.1 速度-時間占有率模型求解

通過前期對交通流參數(shù)中速度與時間占有率兩者關(guān)系進行分析得出兩者具有很強的線性關(guān)系，因此建立一元線性回歸的數(shù)學模型如式（7）所示：

式中s為交通流速度；m為時間占有率；c0、c1為回歸系數(shù)及常數(shù)；ε為隨機誤差。此外，對于系統(tǒng)隨機的誤差需服從服從正態(tài)分布，滿足如式（8）所示關(guān)系：

對于所構(gòu)建函數(shù)模型中的參數(shù)，可通過最小二乘法計算得出。最小二乘法是通過最小化誤差的平方和尋找參數(shù)的最佳匹配[5]。對于所構(gòu)建的線性回歸模型，需檢驗其可行性即準確率，其中包括回歸方程及回歸系數(shù)的顯著性檢驗、殘差分析等。對于有效的線性回歸模型，殘差應服從均值為0 的正態(tài)分布。對所得回歸模型進行相關(guān)可行性檢驗所得計算結(jié)果如表4 所示。

表4 速度—時間占有率模型回歸系數(shù)及顯著性檢驗結(jié)果

由表4 數(shù)據(jù)可知，對于所求變量之間存在線性關(guān)系，且線性回歸系數(shù)存在顯著意義。最終得到利用最小二乘法得到速度-時間占有率的線性回歸模型方程如式（9）所示。

3.2.2 流量-時間占有率模型求解

由流量-時間占有率散點圖可以看出，數(shù)據(jù)點分布呈非線性關(guān)系，根據(jù)假設構(gòu)建二元回歸方程。建立流量-時間占有率二次曲線回歸方程模型如式（10）所示：通

過線性變換m1=m2變換為二元線性模型為：

對構(gòu)建的流量-時間占有率線性回歸模型，輸入數(shù)據(jù)進行擬合，使用最小二乘法參數(shù)進行擬合估計，求解出其回歸模型，并對其進行相關(guān)性參數(shù)分析，其結(jié)果如表5 所示：

表5 流量—時間占有率模型回歸系數(shù)及顯著性檢驗結(jié)果

由表5 可知，經(jīng)過計算，F(xiàn) 檢驗的概率p 值小于0.05 即流量與時間占有率之間存在二元線性關(guān)系;T檢驗的概率p 值小于0.05，即回歸系數(shù)有顯著意義[6-8]。最終經(jīng)擬合檢驗得到的可行性流量-時間占有率模型如式(12)所示。

3.2.3 速度-流量模型求解

根據(jù)交通流三參數(shù)之間的相關(guān)性關(guān)系，對于速度-流量模型可聯(lián)立前期求出的流量-時間占有率及速度-時間占有率模型對其進行求解，其中時間占有率作為中間變量。

通過聯(lián)立式（9）及式（12）可得速度-流量模型如式（13）所示。

4 實驗結(jié)果及結(jié)論

在得到三參數(shù)對應模型后將提取出的異常值及其相關(guān)參數(shù)輸入模型，即可對異常數(shù)據(jù)進行預測，最終將所預測數(shù)據(jù)通過孤立森林模型中所保存的索引對數(shù)據(jù)進行替換，最終得到完整無缺失的數(shù)據(jù)集。

通過對數(shù)據(jù)集中異常值捕捉修正后，再次使用箱線法對數(shù)據(jù)整體進行觀測，其結(jié)果如圖4 所示。

圖4 修正后數(shù)據(jù)集箱線圖

由圖 4 中信息可知，經(jīng)過處理后的交通流數(shù)據(jù)集volume、occupancy 兩參數(shù)所有值均在正常閾值內(nèi)，基本為正確數(shù)據(jù)，但speed 參數(shù)中仍存在大量偏離最大閾值范圍的數(shù)，根據(jù)交通流三參數(shù)基本規(guī)律對speed、occupancy 兩參數(shù)進行散點圖描述如圖5 所示。

圖5 車速-時間占有率關(guān)系圖

由圖5 信息可得，車速出現(xiàn)明顯分段聚集，大致分為0～60km/h 及80～120km/h 兩個區(qū)間，但在兩個區(qū)間內(nèi)數(shù)據(jù)基本服從交通流參數(shù)關(guān)系，即速度與時間占有率成反比關(guān)系。分析出現(xiàn)區(qū)間分化的原因是由于數(shù)據(jù)集中所采集的數(shù)據(jù)來源包括城市公路及快車道（高架、高速等），由于不同車道中速度限制及車道寬度的影響所造成的速度分化情況。在城市內(nèi)道路中速度閾值大致為0～60km/h，在高架等快速車道速度閾值為80～120km/h，但在不同車道由散點圖可知數(shù)據(jù)基本服從交通流參數(shù)關(guān)系，故通過箱線圖表現(xiàn)出的速度異常值為正常數(shù)據(jù)。

對交通流數(shù)據(jù)的異常值進行判斷修復是提高交通流信息數(shù)據(jù)有效性的基礎(chǔ)，本文提出一種融合奇異值分析及孤立森林的交通流異常數(shù)據(jù)診斷方法，基于多元線性回歸算法的異常值修復方法，經(jīng)過實測數(shù)據(jù)檢驗，本文所構(gòu)建數(shù)據(jù)處理模型可在很大程度上提升數(shù)據(jù)利用率，保證了交通流數(shù)據(jù)的可靠性與有效性，在今后研究中可對實時的交通流數(shù)據(jù)輸出有效性方面進行改進。