999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的交通流參數(shù)異常數(shù)據(jù)處理模型研究

2021-05-11 07:27:42賈樹林胡江宇馬雙寶羅維平
武漢紡織大學學報 2021年2期
關(guān)鍵詞:模型

周 博,賈樹林,胡江宇,馬雙寶, ,羅維平,

(1. 武漢紡織大學 機械工程與自動化學院,湖北 武漢 430200;2. 湖北省數(shù)字裝備重點實驗室,湖北 武漢 430200)

隨著私家車占有量急劇上升,城市交通網(wǎng)絡所面臨的負荷也與日俱增。在公路及城市道路中使用不同類型交通探測器收集實時交通數(shù)據(jù),以對交通流進行預測、實時交通誘導以及道路通行能力預測分析提供及時可靠的數(shù)據(jù)支撐[1]。探測器收集數(shù)據(jù)的過程中存在諸多噪音,如設備的磨損導致精度的降低、雨雪天氣對探頭的影響及設備供電異常等,會對收集到的交通流數(shù)據(jù)質(zhì)量產(chǎn)生一定的影響,因此需對收集的原始交通流數(shù)據(jù)進行故障數(shù)據(jù)的篩選修復。

針對交通流異常數(shù)據(jù)診斷,李琦等提出一種基于流量守恒定律的交通流數(shù)據(jù)質(zhì)量評價與控制方法[2],可對異常值進行整體修復,但該方法具有較強地域局限性,魯棒性較低;苗旭等提出一種基于支持向量機模型的固定交通檢測器缺失數(shù)據(jù)綜合修復方法,可對交通流數(shù)據(jù)中缺失值進行填補[3],但對于數(shù)據(jù)中存在的異常值未進一步處理;鮑東玉等人根據(jù)交通運行狀態(tài)的統(tǒng)計相似性進行了研究和對比,選擇了IQR法作為數(shù)據(jù)修復的方法[4]。綜合前期學者研究,針對交通流數(shù)據(jù)的修復研究較為分化,缺乏較為完整數(shù)據(jù)處理體系,且大多基于統(tǒng)計原理,模型遷移能力有待提高。針對上述問題,本文提出基于機器學習及線性回歸模型構(gòu)建出一種綜合數(shù)據(jù)清洗、奇異值、缺失值及異常值處理的交通流數(shù)據(jù)集成處理框架,對原始交通流數(shù)據(jù)進行有效性處理。

1 整體處理框架及數(shù)據(jù)來源

交通流數(shù)據(jù)主要包括速度、流量、時間占有率三個參數(shù),數(shù)據(jù)采集過程中由于檢測設備故障及檢測環(huán)境對數(shù)據(jù)采集帶來的影響,交通流數(shù)據(jù)中存在的問題數(shù)據(jù)可分為缺失數(shù)據(jù)、重復數(shù)據(jù)、錯誤數(shù)據(jù)三大類,根據(jù)問題數(shù)據(jù)類型對其進行有效性處理,其整體流程如圖1 所示。本文所用數(shù)據(jù)來自蘭州2018年一月份城市及高速交通檢測器所采集原始數(shù)據(jù)集,采樣間隔為五分鐘,數(shù)據(jù)集來源于網(wǎng)絡數(shù)據(jù)庫。

圖1 數(shù)據(jù)有效性處理整體流程圖

2 異常數(shù)據(jù)清洗方法

2.1 奇異值處理

首先對三參數(shù)均為空值的數(shù)據(jù)及重復采樣的數(shù)據(jù)進行刪除,再通過三參數(shù)的基本關(guān)系對數(shù)據(jù)中的奇異值進行刪減。

對速度、流量、時間占有率三者關(guān)系進行相關(guān)性分析,當有車通過交通流數(shù)據(jù)采集器時三參數(shù)值均不為零;當無車通過采集器,三參數(shù)均為零;當車停在采集器邊時,速度及車流量為零,占有率為100%;根據(jù)此交通流機理,可得到交通流數(shù)據(jù)奇異值基礎(chǔ)篩選規(guī)則,如表1 所示(表中speed、occupancy、volume分別表示速度、時間占有率及流量)。

表1 交通流數(shù)據(jù)奇異值基礎(chǔ)篩選規(guī)則表

根據(jù)表1 所提供的基礎(chǔ)篩選規(guī)則可對原始數(shù)據(jù)中的奇異值進行初步篩選。

在交通流數(shù)據(jù)采集器的采樣間隔內(nèi)無車通過時,車輛服從泊松分布,其公式如式(1)所示。

其中p(x)為在采樣間隔內(nèi)通過采樣間隔的車輛的概率密度函數(shù),m為間隔內(nèi)到達的平均車輛數(shù),依據(jù)此在置信水平α下,交通流數(shù)據(jù)采集器采樣間隔內(nèi)有車輛到達的概率,即x>0 的概率如式(2)所示。

由此可得m=?ln α,可通過設置置信水平α進一步以概率來判斷三參數(shù)均為零是否為異常值,即m >?ln α時,有1 ?α的概率不會出現(xiàn)volume 為零的情況。

針對時間占有率為零其他兩者不為零的數(shù)據(jù),分析其原因可能是由于傳感器不靈敏導致,根據(jù)交通流三參數(shù)線性關(guān)系如式(3)所示:

根據(jù)式(4)輸入合理范圍內(nèi)的最大平均速度,平均有效車長及時間占有率即可得出最大流量閾值,并通過此篩選出奇異值。

2.2 基于隨機森林回歸模型缺失值處理

由于現(xiàn)有缺失數(shù)據(jù)插補方法主要包含單變量缺失值插補及多變量聯(lián)立缺失值差補兩大類,本數(shù)據(jù)集三參數(shù)均包含缺失值,為避免如均值填充、中值填充、上、下采樣等單變量缺失值方法所造成的數(shù)據(jù)原始分布改變及產(chǎn)生抽樣誤差,本文采用多變量聯(lián)立缺失值差補法對交通流數(shù)據(jù)集中缺失值進行填補。

通過對交通流三參數(shù)進行相關(guān)性分析,可以得到三參數(shù)相關(guān)性關(guān)系如表2 所示。

表2 速度、流量、時間占有率三參數(shù)相關(guān)性分析

由表2 中數(shù)據(jù)可知速度與時間占有率、流量與時間占有率之間具有較強的相關(guān)性,速度與流量之間具有中等相關(guān)性,因此,本文采用隨機森林回歸模型對速度、流量、時間占有率三個變量中缺失的數(shù)據(jù)進行缺失值填補。

隨機森林是一種主流的機器學習算法,其底層是一種基于決策樹的集成算法,由“Classification And Regression Tree(CART)”與“Bagging”方法結(jié)合而成,在建模過程中通過bootstrap 隨機抽樣的方法構(gòu)建樣本集以訓練模型,模型輸出結(jié)果是通過“投票”方式所決定的。由于其處理機制,隨機森林對噪音數(shù)據(jù)及缺失數(shù)據(jù)具有較好的容錯率,在處理高維數(shù)據(jù)時,能夠自主進行特征選擇,且抗過擬合的能力較強,魯棒性較高[5]。

在交通流數(shù)據(jù)中,由于速度、時間占有率及流量三參數(shù)均存在缺失值,可根據(jù)變量缺失量由少到多的順序?qū)ζ淙笔е颠M行填補。首先提取缺失數(shù)據(jù)最少的變量作為標簽,對其余變量中的缺失值進行均值填充后,構(gòu)建特征矩陣;其次對標簽缺失值進行預測填補;最后使用填補完成的變量補充進數(shù)據(jù)集,再次進行排序及標簽、特征矩陣構(gòu)建,對三參數(shù)進行循環(huán)填補后即可得到完整無缺失交通流數(shù)據(jù)集。

3 異常數(shù)據(jù)處理

3.1 基于孤立森林的異常值提取

在得到的完整交通流數(shù)據(jù)集后,通過繪制核密度圖觀察數(shù)據(jù)分布情況,如圖2 所示。

圖2 完整數(shù)據(jù)occupancy、speed、volume 三參數(shù)核密度圖

由圖2 可知三參數(shù)中均具有離群值,需對其進行異常值處理。首先采用箱線法對數(shù)據(jù)進行異常值分析。對經(jīng)過前期處理的交通流數(shù)據(jù)進行箱線法描述,其結(jié)果如圖3 所示。

圖3 交通流數(shù)據(jù)箱線法分析圖

由圖3 中數(shù)據(jù)可得,occupancy、speed、volume 三者均存在異常值。在speed 變量中存在較多偏大偏小數(shù)據(jù),在volume 變量中存在少量偏大數(shù)據(jù),在occupancy 中存在較多偏大數(shù)據(jù)。數(shù)據(jù)整體存在較多異常情況,因此需對數(shù)據(jù)進行進一步異常值處理。

本文采用Isolation Forest 算法對異常數(shù)據(jù)進行提取,由于Isolation Forest 模型是基于樹模型的集成模型,因此在構(gòu)建Isolation Forest 模型時首先需要通過數(shù)據(jù)訓練出m多個iTree,其步驟如下:

(1)對于給定數(shù)據(jù)集X,采用隨機抽樣法抽取D個子集放入根節(jié)點:

(2)從t個特征維度指定單個維度q,采用隨機原則產(chǎn)生切割點p:

(3)對數(shù)據(jù)空間通過切割點p生成的超平面劃分為兩個子空間,對于維度小與p的放入左子節(jié)點,大于的放入右子節(jié)點;

(4)遞歸(1)、(2)至iTreed 達到預定高低;

(5)循環(huán)所有步驟,至m個iTree 生成。

孤立森林生成后,將單個樣本輸入iTree,計算其平均高度,并對其進行歸一化處理,最后計算每個樣本的異常值分數(shù),分數(shù)計算公式如式(5)所示。

對于捕捉到的異常值,Isolation Forest 算法所提供的接口可將異常值所對應的數(shù)據(jù)索引進行緩存,便于對異常值處理后對應地填回數(shù)據(jù)。通過將交通流數(shù)據(jù)傳入Isolation Forest 算法,得到的occupancy、speed、volume 三參數(shù)異常值數(shù)量如下表所示。

表3 速度、時間占有率及流量三參數(shù)異常值數(shù)量表

3.2 基于城市交通流參數(shù)的異常值填補模型

當交通流數(shù)據(jù)采集器采集到的數(shù)據(jù)中出現(xiàn)因硬件原因所造成的數(shù)據(jù)缺失的情況,可通過對交通流參數(shù)中兩兩之間構(gòu)建關(guān)系模型,并通過已有數(shù)據(jù)對硬件故障進行數(shù)據(jù)修復,以進一步保證交通數(shù)據(jù)系統(tǒng)的正常運行。

3.2.1 速度-時間占有率模型求解

通過前期對交通流參數(shù)中速度與時間占有率兩者關(guān)系進行分析得出兩者具有很強的線性關(guān)系,因此建立一元線性回歸的數(shù)學模型如式(7)所示:

式中s為交通流速度;m為時間占有率;c0、c1為回歸系數(shù)及常數(shù);ε為隨機誤差。此外,對于系統(tǒng)隨機的誤差需服從服從正態(tài)分布,滿足如式(8)所示關(guān)系:

對于所構(gòu)建函數(shù)模型中的參數(shù),可通過最小二乘法計算得出。最小二乘法是通過最小化誤差的平方和尋找參數(shù)的最佳匹配[5]。對于所構(gòu)建的線性回歸模型,需檢驗其可行性即準確率,其中包括回歸方程及回歸系數(shù)的顯著性檢驗、殘差分析等。對于有效的線性回歸模型,殘差應服從均值為0 的正態(tài)分布。對所得回歸模型進行相關(guān)可行性檢驗所得計算結(jié)果如表4 所示。

表4 速度—時間占有率模型回歸系數(shù)及顯著性檢驗結(jié)果

由表4 數(shù)據(jù)可知,對于所求變量之間存在線性關(guān)系,且線性回歸系數(shù)存在顯著意義。最終得到利用最小二乘法得到速度-時間占有率的線性回歸模型方程如式(9)所示。

3.2.2 流量-時間占有率模型求解

由流量-時間占有率散點圖可以看出,數(shù)據(jù)點分布呈非線性關(guān)系,根據(jù)假設構(gòu)建二元回歸方程。建立流量-時間占有率二次曲線回歸方程模型如式(10)所示:通

過線性變換m1=m2變換為二元線性模型為:

對構(gòu)建的流量-時間占有率線性回歸模型,輸入數(shù)據(jù)進行擬合,使用最小二乘法參數(shù)進行擬合估計,求解出其回歸模型,并對其進行相關(guān)性參數(shù)分析,其結(jié)果如表5 所示:

表5 流量—時間占有率模型回歸系數(shù)及顯著性檢驗結(jié)果

由表5 可知,經(jīng)過計算,F(xiàn) 檢驗的概率p 值小于0.05 即流量與時間占有率之間存在二元線性關(guān)系;T檢驗的概率p 值小于0.05,即回歸系數(shù)有顯著意義[6-8]。最終經(jīng)擬合檢驗得到的可行性流量-時間占有率模型如式(12)所示。

3.2.3 速度-流量模型求解

根據(jù)交通流三參數(shù)之間的相關(guān)性關(guān)系,對于速度-流量模型可聯(lián)立前期求出的流量-時間占有率及速度-時間占有率模型對其進行求解,其中時間占有率作為中間變量。

通過聯(lián)立式(9)及式(12)可得速度-流量模型如式(13)所示。

4 實驗結(jié)果及結(jié)論

在得到三參數(shù)對應模型后將提取出的異常值及其相關(guān)參數(shù)輸入模型,即可對異常數(shù)據(jù)進行預測,最終將所預測數(shù)據(jù)通過孤立森林模型中所保存的索引對數(shù)據(jù)進行替換,最終得到完整無缺失的數(shù)據(jù)集。

通過對數(shù)據(jù)集中異常值捕捉修正后,再次使用箱線法對數(shù)據(jù)整體進行觀測,其結(jié)果如圖4 所示。

圖4 修正后數(shù)據(jù)集箱線圖

由圖 4 中信息可知,經(jīng)過處理后的交通流數(shù)據(jù)集volume、occupancy 兩參數(shù)所有值均在正常閾值內(nèi),基本為正確數(shù)據(jù),但speed 參數(shù)中仍存在大量偏離最大閾值范圍的數(shù),根據(jù)交通流三參數(shù)基本規(guī)律對speed、occupancy 兩參數(shù)進行散點圖描述如圖5 所示。

圖5 車速-時間占有率關(guān)系圖

由圖5 信息可得,車速出現(xiàn)明顯分段聚集,大致分為0~60km/h 及80~120km/h 兩個區(qū)間,但在兩個區(qū)間內(nèi)數(shù)據(jù)基本服從交通流參數(shù)關(guān)系,即速度與時間占有率成反比關(guān)系。分析出現(xiàn)區(qū)間分化的原因是由于數(shù)據(jù)集中所采集的數(shù)據(jù)來源包括城市公路及快車道(高架、高速等),由于不同車道中速度限制及車道寬度的影響所造成的速度分化情況。在城市內(nèi)道路中速度閾值大致為0~60km/h,在高架等快速車道速度閾值為80~120km/h,但在不同車道由散點圖可知數(shù)據(jù)基本服從交通流參數(shù)關(guān)系,故通過箱線圖表現(xiàn)出的速度異常值為正常數(shù)據(jù)。

對交通流數(shù)據(jù)的異常值進行判斷修復是提高交通流信息數(shù)據(jù)有效性的基礎(chǔ),本文提出一種融合奇異值分析及孤立森林的交通流異常數(shù)據(jù)診斷方法,基于多元線性回歸算法的異常值修復方法,經(jīng)過實測數(shù)據(jù)檢驗,本文所構(gòu)建數(shù)據(jù)處理模型可在很大程度上提升數(shù)據(jù)利用率,保證了交通流數(shù)據(jù)的可靠性與有效性,在今后研究中可對實時的交通流數(shù)據(jù)輸出有效性方面進行改進。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數(shù)模型及應用
p150Glued在帕金森病模型中的表達及分布
函數(shù)模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 亚洲欧洲日韩综合| 国产手机在线小视频免费观看| 国产乱子伦手机在线| 色老头综合网| 亚洲视频一区| 亚洲欧美精品一中文字幕| 国产欧美日韩视频怡春院| 91小视频在线播放| 国产视频久久久久| 国产国产人免费视频成18| 高清无码不卡视频| 久久天天躁狠狠躁夜夜2020一| 色婷婷视频在线| 国产成人禁片在线观看| 99精品伊人久久久大香线蕉| 精品乱码久久久久久久| 欧美成人精品欧美一级乱黄| 久久亚洲精少妇毛片午夜无码| 日本www色视频| 91精品国产自产在线老师啪l| 亚洲欧美不卡视频| 国产精品视频a| 欧美成人一区午夜福利在线| 少妇精品久久久一区二区三区| 国产毛片高清一级国语| 全午夜免费一级毛片| 日韩二区三区无| 高清无码一本到东京热| 美美女高清毛片视频免费观看| 久久精品人妻中文系列| 超碰色了色| 国产丰满大乳无码免费播放| 国产欧美在线观看视频| 国产精品视频导航| 久久婷婷综合色一区二区| 国产国模一区二区三区四区| 91色老久久精品偷偷蜜臀| 国产亚洲精品97在线观看| 91无码人妻精品一区| 久热99这里只有精品视频6| 99精品热视频这里只有精品7| 久久中文字幕av不卡一区二区| 日本不卡在线视频| 亚洲美女一区二区三区| 精品福利国产| 久久综合成人| 精品无码国产一区二区三区AV| 玖玖精品视频在线观看| 亚洲va视频| 亚洲色图欧美| 国产精品污污在线观看网站| 国产美女主播一级成人毛片| 国产精品白浆在线播放| 国产乱肥老妇精品视频| 亚洲国产成人综合精品2020| 欧美精品1区2区| 亚洲精品无码不卡在线播放| 国产福利一区视频| 免费国产高清精品一区在线| 欧美一区中文字幕| 手机精品福利在线观看| 热思思久久免费视频| 1769国产精品免费视频| 多人乱p欧美在线观看| 在线国产91| 亚洲欧美成aⅴ人在线观看 | 久久毛片免费基地| 国产成人精品男人的天堂 | 国产精品内射视频| 亚洲精品国产日韩无码AV永久免费网 | 一区二区自拍| 一级毛片免费观看久| 国产成人无码AV在线播放动漫| 久久香蕉国产线看观看精品蕉| 国产美女精品人人做人人爽| 国产人前露出系列视频| 欧美午夜网站| 538精品在线观看| av在线5g无码天天| 欧美a在线视频| 茄子视频毛片免费观看| 青青热久免费精品视频6|