周 博,賈樹林,胡江宇,馬雙寶, ,羅維平,
(1. 武漢紡織大學 機械工程與自動化學院,湖北 武漢 430200;2. 湖北省數(shù)字裝備重點實驗室,湖北 武漢 430200)
隨著私家車占有量急劇上升,城市交通網(wǎng)絡所面臨的負荷也與日俱增。在公路及城市道路中使用不同類型交通探測器收集實時交通數(shù)據(jù),以對交通流進行預測、實時交通誘導以及道路通行能力預測分析提供及時可靠的數(shù)據(jù)支撐[1]。探測器收集數(shù)據(jù)的過程中存在諸多噪音,如設備的磨損導致精度的降低、雨雪天氣對探頭的影響及設備供電異常等,會對收集到的交通流數(shù)據(jù)質(zhì)量產(chǎn)生一定的影響,因此需對收集的原始交通流數(shù)據(jù)進行故障數(shù)據(jù)的篩選修復。
針對交通流異常數(shù)據(jù)診斷,李琦等提出一種基于流量守恒定律的交通流數(shù)據(jù)質(zhì)量評價與控制方法[2],可對異常值進行整體修復,但該方法具有較強地域局限性,魯棒性較低;苗旭等提出一種基于支持向量機模型的固定交通檢測器缺失數(shù)據(jù)綜合修復方法,可對交通流數(shù)據(jù)中缺失值進行填補[3],但對于數(shù)據(jù)中存在的異常值未進一步處理;鮑東玉等人根據(jù)交通運行狀態(tài)的統(tǒng)計相似性進行了研究和對比,選擇了IQR法作為數(shù)據(jù)修復的方法[4]。綜合前期學者研究,針對交通流數(shù)據(jù)的修復研究較為分化,缺乏較為完整數(shù)據(jù)處理體系,且大多基于統(tǒng)計原理,模型遷移能力有待提高。針對上述問題,本文提出基于機器學習及線性回歸模型構(gòu)建出一種綜合數(shù)據(jù)清洗、奇異值、缺失值及異常值處理的交通流數(shù)據(jù)集成處理框架,對原始交通流數(shù)據(jù)進行有效性處理。
交通流數(shù)據(jù)主要包括速度、流量、時間占有率三個參數(shù),數(shù)據(jù)采集過程中由于檢測設備故障及檢測環(huán)境對數(shù)據(jù)采集帶來的影響,交通流數(shù)據(jù)中存在的問題數(shù)據(jù)可分為缺失數(shù)據(jù)、重復數(shù)據(jù)、錯誤數(shù)據(jù)三大類,根據(jù)問題數(shù)據(jù)類型對其進行有效性處理,其整體流程如圖1 所示。本文所用數(shù)據(jù)來自蘭州2018年一月份城市及高速交通檢測器所采集原始數(shù)據(jù)集,采樣間隔為五分鐘,數(shù)據(jù)集來源于網(wǎng)絡數(shù)據(jù)庫。

圖1 數(shù)據(jù)有效性處理整體流程圖
首先對三參數(shù)均為空值的數(shù)據(jù)及重復采樣的數(shù)據(jù)進行刪除,再通過三參數(shù)的基本關(guān)系對數(shù)據(jù)中的奇異值進行刪減。
對速度、流量、時間占有率三者關(guān)系進行相關(guān)性分析,當有車通過交通流數(shù)據(jù)采集器時三參數(shù)值均不為零;當無車通過采集器,三參數(shù)均為零;當車停在采集器邊時,速度及車流量為零,占有率為100%;根據(jù)此交通流機理,可得到交通流數(shù)據(jù)奇異值基礎(chǔ)篩選規(guī)則,如表1 所示(表中speed、occupancy、volume分別表示速度、時間占有率及流量)。

表1 交通流數(shù)據(jù)奇異值基礎(chǔ)篩選規(guī)則表
根據(jù)表1 所提供的基礎(chǔ)篩選規(guī)則可對原始數(shù)據(jù)中的奇異值進行初步篩選。
在交通流數(shù)據(jù)采集器的采樣間隔內(nèi)無車通過時,車輛服從泊松分布,其公式如式(1)所示。

其中p(x)為在采樣間隔內(nèi)通過采樣間隔的車輛的概率密度函數(shù),m為間隔內(nèi)到達的平均車輛數(shù),依據(jù)此在置信水平α下,交通流數(shù)據(jù)采集器采樣間隔內(nèi)有車輛到達的概率,即x>0 的概率如式(2)所示。

由此可得m=?ln α,可通過設置置信水平α進一步以概率來判斷三參數(shù)均為零是否為異常值,即m >?ln α時,有1 ?α的概率不會出現(xiàn)volume 為零的情況。
針對時間占有率為零其他兩者不為零的數(shù)據(jù),分析其原因可能是由于傳感器不靈敏導致,根據(jù)交通流三參數(shù)線性關(guān)系如式(3)所示:


根據(jù)式(4)輸入合理范圍內(nèi)的最大平均速度,平均有效車長及時間占有率即可得出最大流量閾值,并通過此篩選出奇異值。
由于現(xiàn)有缺失數(shù)據(jù)插補方法主要包含單變量缺失值插補及多變量聯(lián)立缺失值差補兩大類,本數(shù)據(jù)集三參數(shù)均包含缺失值,為避免如均值填充、中值填充、上、下采樣等單變量缺失值方法所造成的數(shù)據(jù)原始分布改變及產(chǎn)生抽樣誤差,本文采用多變量聯(lián)立缺失值差補法對交通流數(shù)據(jù)集中缺失值進行填補。
通過對交通流三參數(shù)進行相關(guān)性分析,可以得到三參數(shù)相關(guān)性關(guān)系如表2 所示。

表2 速度、流量、時間占有率三參數(shù)相關(guān)性分析
由表2 中數(shù)據(jù)可知速度與時間占有率、流量與時間占有率之間具有較強的相關(guān)性,速度與流量之間具有中等相關(guān)性,因此,本文采用隨機森林回歸模型對速度、流量、時間占有率三個變量中缺失的數(shù)據(jù)進行缺失值填補。
隨機森林是一種主流的機器學習算法,其底層是一種基于決策樹的集成算法,由“Classification And Regression Tree(CART)”與“Bagging”方法結(jié)合而成,在建模過程中通過bootstrap 隨機抽樣的方法構(gòu)建樣本集以訓練模型,模型輸出結(jié)果是通過“投票”方式所決定的。由于其處理機制,隨機森林對噪音數(shù)據(jù)及缺失數(shù)據(jù)具有較好的容錯率,在處理高維數(shù)據(jù)時,能夠自主進行特征選擇,且抗過擬合的能力較強,魯棒性較高[5]。
在交通流數(shù)據(jù)中,由于速度、時間占有率及流量三參數(shù)均存在缺失值,可根據(jù)變量缺失量由少到多的順序?qū)ζ淙笔е颠M行填補。首先提取缺失數(shù)據(jù)最少的變量作為標簽,對其余變量中的缺失值進行均值填充后,構(gòu)建特征矩陣;其次對標簽缺失值進行預測填補;最后使用填補完成的變量補充進數(shù)據(jù)集,再次進行排序及標簽、特征矩陣構(gòu)建,對三參數(shù)進行循環(huán)填補后即可得到完整無缺失交通流數(shù)據(jù)集。
在得到的完整交通流數(shù)據(jù)集后,通過繪制核密度圖觀察數(shù)據(jù)分布情況,如圖2 所示。

圖2 完整數(shù)據(jù)occupancy、speed、volume 三參數(shù)核密度圖
由圖2 可知三參數(shù)中均具有離群值,需對其進行異常值處理。首先采用箱線法對數(shù)據(jù)進行異常值分析。對經(jīng)過前期處理的交通流數(shù)據(jù)進行箱線法描述,其結(jié)果如圖3 所示。

圖3 交通流數(shù)據(jù)箱線法分析圖
由圖3 中數(shù)據(jù)可得,occupancy、speed、volume 三者均存在異常值。在speed 變量中存在較多偏大偏小數(shù)據(jù),在volume 變量中存在少量偏大數(shù)據(jù),在occupancy 中存在較多偏大數(shù)據(jù)。數(shù)據(jù)整體存在較多異常情況,因此需對數(shù)據(jù)進行進一步異常值處理。
本文采用Isolation Forest 算法對異常數(shù)據(jù)進行提取,由于Isolation Forest 模型是基于樹模型的集成模型,因此在構(gòu)建Isolation Forest 模型時首先需要通過數(shù)據(jù)訓練出m多個iTree,其步驟如下:
(1)對于給定數(shù)據(jù)集X,采用隨機抽樣法抽取D個子集放入根節(jié)點:

(2)從t個特征維度指定單個維度q,采用隨機原則產(chǎn)生切割點p:

(3)對數(shù)據(jù)空間通過切割點p生成的超平面劃分為兩個子空間,對于維度小與p的放入左子節(jié)點,大于的放入右子節(jié)點;
(4)遞歸(1)、(2)至iTreed 達到預定高低;
(5)循環(huán)所有步驟,至m個iTree 生成。
孤立森林生成后,將單個樣本輸入iTree,計算其平均高度,并對其進行歸一化處理,最后計算每個樣本的異常值分數(shù),分數(shù)計算公式如式(5)所示。

對于捕捉到的異常值,Isolation Forest 算法所提供的接口可將異常值所對應的數(shù)據(jù)索引進行緩存,便于對異常值處理后對應地填回數(shù)據(jù)。通過將交通流數(shù)據(jù)傳入Isolation Forest 算法,得到的occupancy、speed、volume 三參數(shù)異常值數(shù)量如下表所示。

表3 速度、時間占有率及流量三參數(shù)異常值數(shù)量表
當交通流數(shù)據(jù)采集器采集到的數(shù)據(jù)中出現(xiàn)因硬件原因所造成的數(shù)據(jù)缺失的情況,可通過對交通流參數(shù)中兩兩之間構(gòu)建關(guān)系模型,并通過已有數(shù)據(jù)對硬件故障進行數(shù)據(jù)修復,以進一步保證交通數(shù)據(jù)系統(tǒng)的正常運行。
3.2.1 速度-時間占有率模型求解
通過前期對交通流參數(shù)中速度與時間占有率兩者關(guān)系進行分析得出兩者具有很強的線性關(guān)系,因此建立一元線性回歸的數(shù)學模型如式(7)所示:

式中s為交通流速度;m為時間占有率;c0、c1為回歸系數(shù)及常數(shù);ε為隨機誤差。此外,對于系統(tǒng)隨機的誤差需服從服從正態(tài)分布,滿足如式(8)所示關(guān)系:

對于所構(gòu)建函數(shù)模型中的參數(shù),可通過最小二乘法計算得出。最小二乘法是通過最小化誤差的平方和尋找參數(shù)的最佳匹配[5]。對于所構(gòu)建的線性回歸模型,需檢驗其可行性即準確率,其中包括回歸方程及回歸系數(shù)的顯著性檢驗、殘差分析等。對于有效的線性回歸模型,殘差應服從均值為0 的正態(tài)分布。對所得回歸模型進行相關(guān)可行性檢驗所得計算結(jié)果如表4 所示。

表4 速度—時間占有率模型回歸系數(shù)及顯著性檢驗結(jié)果
由表4 數(shù)據(jù)可知,對于所求變量之間存在線性關(guān)系,且線性回歸系數(shù)存在顯著意義。最終得到利用最小二乘法得到速度-時間占有率的線性回歸模型方程如式(9)所示。

3.2.2 流量-時間占有率模型求解
由流量-時間占有率散點圖可以看出,數(shù)據(jù)點分布呈非線性關(guān)系,根據(jù)假設構(gòu)建二元回歸方程。建立流量-時間占有率二次曲線回歸方程模型如式(10)所示:通

過線性變換m1=m2變換為二元線性模型為:

對構(gòu)建的流量-時間占有率線性回歸模型,輸入數(shù)據(jù)進行擬合,使用最小二乘法參數(shù)進行擬合估計,求解出其回歸模型,并對其進行相關(guān)性參數(shù)分析,其結(jié)果如表5 所示:

表5 流量—時間占有率模型回歸系數(shù)及顯著性檢驗結(jié)果
由表5 可知,經(jīng)過計算,F(xiàn) 檢驗的概率p 值小于0.05 即流量與時間占有率之間存在二元線性關(guān)系;T檢驗的概率p 值小于0.05,即回歸系數(shù)有顯著意義[6-8]。最終經(jīng)擬合檢驗得到的可行性流量-時間占有率模型如式(12)所示。

3.2.3 速度-流量模型求解
根據(jù)交通流三參數(shù)之間的相關(guān)性關(guān)系,對于速度-流量模型可聯(lián)立前期求出的流量-時間占有率及速度-時間占有率模型對其進行求解,其中時間占有率作為中間變量。
通過聯(lián)立式(9)及式(12)可得速度-流量模型如式(13)所示。

在得到三參數(shù)對應模型后將提取出的異常值及其相關(guān)參數(shù)輸入模型,即可對異常數(shù)據(jù)進行預測,最終將所預測數(shù)據(jù)通過孤立森林模型中所保存的索引對數(shù)據(jù)進行替換,最終得到完整無缺失的數(shù)據(jù)集。
通過對數(shù)據(jù)集中異常值捕捉修正后,再次使用箱線法對數(shù)據(jù)整體進行觀測,其結(jié)果如圖4 所示。

圖4 修正后數(shù)據(jù)集箱線圖
由圖 4 中信息可知,經(jīng)過處理后的交通流數(shù)據(jù)集volume、occupancy 兩參數(shù)所有值均在正常閾值內(nèi),基本為正確數(shù)據(jù),但speed 參數(shù)中仍存在大量偏離最大閾值范圍的數(shù),根據(jù)交通流三參數(shù)基本規(guī)律對speed、occupancy 兩參數(shù)進行散點圖描述如圖5 所示。

圖5 車速-時間占有率關(guān)系圖
由圖5 信息可得,車速出現(xiàn)明顯分段聚集,大致分為0~60km/h 及80~120km/h 兩個區(qū)間,但在兩個區(qū)間內(nèi)數(shù)據(jù)基本服從交通流參數(shù)關(guān)系,即速度與時間占有率成反比關(guān)系。分析出現(xiàn)區(qū)間分化的原因是由于數(shù)據(jù)集中所采集的數(shù)據(jù)來源包括城市公路及快車道(高架、高速等),由于不同車道中速度限制及車道寬度的影響所造成的速度分化情況。在城市內(nèi)道路中速度閾值大致為0~60km/h,在高架等快速車道速度閾值為80~120km/h,但在不同車道由散點圖可知數(shù)據(jù)基本服從交通流參數(shù)關(guān)系,故通過箱線圖表現(xiàn)出的速度異常值為正常數(shù)據(jù)。
對交通流數(shù)據(jù)的異常值進行判斷修復是提高交通流信息數(shù)據(jù)有效性的基礎(chǔ),本文提出一種融合奇異值分析及孤立森林的交通流異常數(shù)據(jù)診斷方法,基于多元線性回歸算法的異常值修復方法,經(jīng)過實測數(shù)據(jù)檢驗,本文所構(gòu)建數(shù)據(jù)處理模型可在很大程度上提升數(shù)據(jù)利用率,保證了交通流數(shù)據(jù)的可靠性與有效性,在今后研究中可對實時的交通流數(shù)據(jù)輸出有效性方面進行改進。