高 偉,黎 英,張金飛,黃名鈿
(昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650504)
伴隨著經(jīng)濟(jì)的不斷發(fā)展和城市化進(jìn)程的不斷加快,城市交通狀況問題越來越引人關(guān)注。隨著傳感器、計算機(jī)等技術(shù)的發(fā)展,大數(shù)據(jù)和數(shù)據(jù)挖掘等數(shù)據(jù)分析手段開始被引入交通領(lǐng)域。采用大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)對交通狀況進(jìn)行分析相比傳統(tǒng)人工操作不僅更加快速而且更加準(zhǔn)確。
在這方面人們做過許多類似研究,比如上海大學(xué)武興業(yè)等人的基于GPS數(shù)據(jù)對城市擁堵區(qū)域進(jìn)行挖掘, 北京工業(yè)大學(xué)杜志明等人利用出租車運(yùn)行軌跡進(jìn)行的城市熱點(diǎn)區(qū)域發(fā)現(xiàn)和重慶大學(xué)馮琦森等人基于出租車數(shù)據(jù)的城市熱點(diǎn)路徑和區(qū)域挖掘等。不過,上述研究采用的都是聚類方法。因此,產(chǎn)生的結(jié)果都是一片區(qū)域,其指定范圍較大,對后期結(jié)果的使用精度會造成一定的影響。且上述方法僅是對已有的固定數(shù)據(jù)進(jìn)行處理,無法隨著交通狀況數(shù)據(jù)的改變而不斷更新計算結(jié)果。
基于以上研究現(xiàn)狀和交通的時段性,周期性和數(shù)據(jù)量大等特點(diǎn),本文欲建立一個實(shí)時分層網(wǎng)絡(luò)自學(xué)習(xí)預(yù)測模型。該模型采用自學(xué)習(xí)分類方法,在充分考慮到城市交通狀況中存在的時段性,突發(fā)性,周期性,傳遞性,以及交通數(shù)據(jù)量龐大等特點(diǎn)的基礎(chǔ)上,挖掘城市不同路段不同時間之間存在的時空關(guān)聯(lián)性,從數(shù)據(jù)層面提高預(yù)測未來指定時段內(nèi)城市高頻路段的準(zhǔn)確性。
城市交通擁堵一直是受廣大城市居民廣泛關(guān)注和抱怨的一個話題,雖然政府相關(guān)部門一直在嘗試從各方面改善,但效果并不理想。然而事實(shí)上城市擁堵并不是意味著每個路段和路口都堵,可能有很多路段或路口很擁擠,而另一部分路段和路口行人和車輛卻很稀疏。如果能夠預(yù)測出未來不同時段城市的高頻路段,將會對居民出行和城市相關(guān)規(guī)劃帶來很多幫助及便利。
由于城市居民出行受到現(xiàn)實(shí)很多因素的影響,比如上班,使用交通工具類型和生活習(xí)慣等,城市交通狀況的變化存在有很多規(guī)律可循,這也就是城市交通具有的時段性與周期性。除此以外,上一時段某些路段交通狀況會對下一時段的某些路段交通狀況產(chǎn)生影響,城市交通還具有很強(qiáng)的時空相關(guān)性。因此如果能通過大量的歷史數(shù)據(jù)挖掘出城市交通的時段性、周期性和時空相關(guān)性,那么就可以對未來一定時間段的交通高頻路段進(jìn)行很好的預(yù)測。
基于目前可以獲得的城市交通數(shù)據(jù)的特點(diǎn),為了實(shí)現(xiàn)對城市交通高頻路段的準(zhǔn)確預(yù)測,本文設(shè)計了一個具有多層結(jié)構(gòu)的網(wǎng)絡(luò)自學(xué)習(xí)預(yù)測模型。該多層結(jié)構(gòu)分別為時間地點(diǎn)預(yù)處理層(TAPM)、時空關(guān)聯(lián)分析層(AF)、概率計算層(CP)以及結(jié)果數(shù)據(jù)存儲模塊(CPRS)、關(guān)聯(lián)結(jié)果模塊(FARS)。他們每層相互協(xié)作,數(shù)據(jù)互相交互,分別負(fù)責(zé)不同任務(wù),其中時間地點(diǎn)預(yù)處理層(TAPM)主要負(fù)責(zé)對于時間預(yù)分段和地點(diǎn)的自學(xué)習(xí)預(yù)標(biāo)記,時空關(guān)聯(lián)分析層(AF)主要負(fù)責(zé)對不同時間段不同路段的關(guān)聯(lián)性分析挖掘,并將其結(jié)果作為后面概率計算的一個重要相關(guān)項(xiàng),概率計算層(CP)主要是負(fù)責(zé)融合歷史交通數(shù)據(jù)和不斷新來的交通數(shù)據(jù),隨著新的交通數(shù)據(jù)不斷更新,采用迭代計算的方式不斷更新優(yōu)化模型預(yù)測結(jié)果。模型結(jié)構(gòu)如圖1所示。

圖1 模型網(wǎng)絡(luò)框架Fig.1 network framework of mode
由于城市出租車是城市居民出行的重要代步工具之一,某種程度上出租車的位置數(shù)據(jù)可以反應(yīng)城市各個路段的交通狀況,所以我們選用北京市出租車2008-02-02至2008-02-08期間一周的GPS數(shù)據(jù)作為模型測試的數(shù)據(jù)源。這些數(shù)據(jù)的格式每行從左到右依次為car ID,carTime,lat(維度),lon(經(jīng)度)。列與列之間使用逗號隔開,如表1所示。

表1 數(shù)據(jù)樣例Table 1 data example
時間地點(diǎn)預(yù)處理模塊主要針對城市交通所具有的時段性和數(shù)據(jù)量龐大等特點(diǎn),進(jìn)行對數(shù)據(jù)按時間分區(qū)和地點(diǎn)自學(xué)習(xí)分類標(biāo)記兩項(xiàng)工作,這樣可以有效地減少需實(shí)時處理的數(shù)據(jù)量。下面將分別對二者進(jìn)行分析。
2.1.1 時間分區(qū)
由于城市交通具有很強(qiáng)的時段性,同一路段在不同時段的交通狀況會存在很大差異,比如典型的上下班高峰期和非上下班高峰期各個路段的狀況明顯不同,因此對城市交通狀況進(jìn)行分時段處理顯得很重要。
要對城市交通進(jìn)行分時段處理,首先對大量的城市交通數(shù)據(jù)進(jìn)行按時段分區(qū)處理,從而模型在地點(diǎn)時間預(yù)處理層首先對數(shù)據(jù)進(jìn)行按時間分區(qū)處理。對于數(shù)據(jù)源時間分區(qū)處理其公式如下:

上面公式中t_hour為數(shù)據(jù)的源中 carTime列的前兩個字段,sys_hour為實(shí)時系統(tǒng)時間。對二者求差值得出結(jié)果參數(shù) _timeP ,當(dāng) _timeP 在0-1之間時其對應(yīng)得數(shù)據(jù)將會被劃為一個計算單元。這樣在保證模型結(jié)果準(zhǔn)確性和實(shí)時性同時也減少了后續(xù)計算的負(fù)擔(dān)。
2.1.2 自學(xué)習(xí)地點(diǎn)分類標(biāo)記
傳統(tǒng)的分類算法中通常會是先訓(xùn)練數(shù)據(jù),在此過程對數(shù)據(jù)進(jìn)行分類標(biāo)記,然后存入相應(yīng)的庫中,以便在的測試中使用。這種做法對于分類結(jié)果種類較少的數(shù)據(jù)比較適用,但對于分類結(jié)果種類數(shù)量異常的情況,這種辦法將即耗費(fèi)大量的運(yùn)算資源,同時還會遺漏標(biāo)記類,影響分類結(jié)果的準(zhǔn)確度。
城市交通數(shù)據(jù)量龐大且不同經(jīng)緯度數(shù)據(jù)對應(yīng)點(diǎn)多,以北京市出租車數(shù)據(jù)為例,如表2所示。其一天數(shù)據(jù)量將達(dá)百萬條,且每天數(shù)據(jù)量都不一樣,就符合典型的分類結(jié)果種類異常多情況。即使是將其數(shù)天數(shù)據(jù)用于訓(xùn)練標(biāo)記,也無法保證后續(xù)的測試過程中可能出現(xiàn)的點(diǎn)都出現(xiàn)在訓(xùn)練庫中。而這將大大影響模型分析的精度,且大量耗費(fèi)存儲資源和模型運(yùn)行時間。由于這些問題的存在,很多學(xué)者對于城市交通數(shù)據(jù)相關(guān)處理都采用各種無監(jiān)督的聚類算法進(jìn)行,這樣雖然可以完美避開樣本標(biāo)記過程中存在的上述問題,但對于城市交通數(shù)據(jù)應(yīng)用而言其結(jié)果相對分類而言可能只能獲得某些片區(qū)的狀況,無法準(zhǔn)確到特定路段的具體情況。

表2 數(shù)據(jù)量樣例展示Table 2 data size example show
針對上述存在的問題,并結(jié)合交通的特點(diǎn),本模型對傳統(tǒng)的分類算法進(jìn)行了改進(jìn)。具體原理為在經(jīng)典基于距離的KNN算法中加入了競爭淘汰機(jī)制,使得模型實(shí)現(xiàn)自學(xué)習(xí),訓(xùn)練庫會隨著每次新數(shù)據(jù)的到來而動態(tài)變化,該自學(xué)習(xí)算法的原理圖如圖2所示。
如圖所示其主要由數(shù)據(jù)輸入模塊、運(yùn)算模塊和復(fù)檢模塊組成。當(dāng)一條經(jīng)緯度數(shù)據(jù)進(jìn)入時該算法首先會去讀取訓(xùn)練庫中內(nèi)容,如果返回值為 null,其會自動調(diào)用相應(yīng)的百度API對該數(shù)據(jù)進(jìn)行相應(yīng)的地點(diǎn)標(biāo)記并將其輸出至數(shù)據(jù)庫存儲,其存儲格式如表2所示。如表 3所示該數(shù)據(jù)存儲格式為經(jīng)緯度、地址和頻度。

圖2 自學(xué)習(xí)分類算法模型Fig.2 mode of self-learning classification algorithm
其中頻度決定該條 label數(shù)據(jù)能否在地點(diǎn)標(biāo)記庫中繼續(xù)待下去,其默認(rèn)值為 1。每次新的數(shù)據(jù)進(jìn)入時都對頻度進(jìn)行更改,當(dāng)新數(shù)據(jù)和某條label數(shù)據(jù)出現(xiàn)匹配,不論匹配次數(shù),都將則將該條label數(shù)據(jù)的頻度加 0.5,當(dāng)頻度達(dá)到 2則不再增加。當(dāng) label庫中某條lable數(shù)據(jù)沒有和新來任何數(shù)據(jù)發(fā)生匹配,則將該條數(shù)據(jù)的頻度減0.5,當(dāng)頻度小于等于0時,模型則將該條label數(shù)據(jù)刪除,匹配方法見下文。

表3 數(shù)據(jù)存儲格式Table 3 format of data storage
當(dāng)一條數(shù)據(jù)進(jìn)入算法模型后讀取訓(xùn)練存儲庫返回值不為null時,模型將會對輸入數(shù)據(jù)進(jìn)行與原有訓(xùn)練庫label數(shù)據(jù)的匹配操作。其原理為首先將輸入數(shù)據(jù)復(fù)制和數(shù)據(jù)庫中存儲標(biāo)簽經(jīng)緯度地址數(shù)據(jù)相同行數(shù)份,并將其和數(shù)據(jù)庫中地點(diǎn)對應(yīng)的經(jīng)緯度數(shù)據(jù)各自放入矩陣中,然后對矩陣執(zhí)行求二者歐式距離操作,運(yùn)行可得出一個比對結(jié)果矩陣,再求得該矩陣中最小值,其原理如公式如下所示。

得到結(jié)果矩陣中最小值后運(yùn)算模塊找到該最小值對應(yīng)的地址數(shù)據(jù),并將其標(biāo)記給輸入的經(jīng)緯度數(shù)據(jù)。
在將輸入數(shù)據(jù)及其標(biāo)記結(jié)果輸出之前復(fù)檢模塊還要對上述計算得到的結(jié)果矩陣中的最小值進(jìn)行復(fù)檢,復(fù)檢模塊中設(shè)置了一個控制位K和復(fù)檢因子1P,該011p<<。復(fù)檢模塊原理圖如圖所示。

K=1時,輸入數(shù)據(jù)對應(yīng)的標(biāo)記結(jié)果直接輸出。
K = 0時,復(fù)檢模塊判定該輸入數(shù)據(jù)未找到合適的匹配項(xiàng),則對該輸入數(shù)據(jù)使用相應(yīng)的百度API進(jìn)行地址標(biāo)記,并將該數(shù)據(jù)和其對應(yīng)的地址標(biāo)記加入歷史訓(xùn)練結(jié)果中,且輸出其結(jié)果至整個分析模型下一層。
該地址識別層實(shí)現(xiàn)了對數(shù)據(jù)的持續(xù)訓(xùn)練,且在訓(xùn)練新數(shù)據(jù)的同時不影響歷史訓(xùn)練數(shù)據(jù),使得模型的歷史訓(xùn)練庫集越來越完善,同時也實(shí)現(xiàn)了模型庫的動態(tài)增減,在一定程度上將大大節(jié)約存儲資源。
城市交通在具有周期性同時還具有時空相關(guān)性,城市交通路段之間相互連接,它們的交通狀況可傳遞,所以單純通過挖掘城市交通周期性特點(diǎn)來預(yù)測未來城市交通高頻路段,將會使預(yù)測結(jié)果準(zhǔn)確度大大降低。
如圖3所示隨機(jī)選取某單純統(tǒng)計預(yù)測結(jié)果集中10項(xiàng)和驗(yàn)證結(jié)果集中 10項(xiàng),二者描述的交通狀況為同一時段,將二者對比,橫坐標(biāo)為高車流量占有率路段,縱坐標(biāo)為該路段對的車流量占有率。其中路段車流量占有率計算原理為:

通過圖3可以看出預(yù)測集和驗(yàn)證集不管是點(diǎn)還是其對應(yīng)的車流量占有率都差差異很大。所以如果只是單純的計算當(dāng)前時段當(dāng)前路段的車流模型預(yù)測結(jié)果精度就會不高(具體計算方法在概率計算層將會詳述),因?yàn)槌鞘薪煌ㄖ猩弦粫r段某路段車流量較大時很可能就會導(dǎo)致在下一時段另一路段車流量也較大。該層所挖掘的城市交通時空關(guān)聯(lián)性就是要發(fā)現(xiàn)當(dāng)某一時段某一路段車流量較大時,其對下一時段其它路段的影響,這將很大提高對城市高頻路段判別的準(zhǔn)確性。針對上述相關(guān)情況,在模型時空分析層中設(shè)計了一個夾層側(cè)向生成網(wǎng)絡(luò)模塊,如圖 4所示。采用其來挖掘不同地點(diǎn)之間時空關(guān)聯(lián)性。該模塊將相鄰兩個時間段分別作為模塊的上下兩層,兩個時間段所出現(xiàn)的高概率擁堵路段作為其所屬層的成員。

圖3 純統(tǒng)計預(yù)測結(jié)果展示Fig.3 show of predicting results by Pure statistics
其原理為每當(dāng)概率計算層(具體概率計算內(nèi)容下一節(jié)將會詳解)完成某一個時間段(以t1為例)的n個地點(diǎn)擁堵概率概率計算后,該層就會對其進(jìn)行排序,并挑選出其中 i個高頻點(diǎn),并將該結(jié)果存入相應(yīng)的數(shù)據(jù)庫。

圖4 夾層側(cè)向生成網(wǎng)絡(luò)模塊Fig.4 net module of interlayer side generate

當(dāng)概率計算層計算 t1的下一時間時間段 (以t2為例)時,將以同樣方式對t2進(jìn)行處理。


當(dāng)完成后該層開始基于距離挖掘其二者相關(guān)性,原理公式如下:,這選擇出的距離小的q個t1中點(diǎn),模型認(rèn)為其是可能對t2中的2jp 點(diǎn)可能產(chǎn)生影響的點(diǎn),

并將其存入用于存儲時空關(guān)聯(lián)特性結(jié)果的FAR庫中,并對該點(diǎn)單對 p2j賦一個權(quán)值C,C值默認(rèn)為ε0,該模型計算方式以此類推不斷循環(huán),每當(dāng)概率計算層計算時,該關(guān)聯(lián)對出現(xiàn)一次則其對應(yīng)的權(quán)值C加一,如果此次不出現(xiàn)則C減一。當(dāng)C大于閾值γ0時認(rèn)為其關(guān)聯(lián)性有效,反之則認(rèn)為其無效,通過此舉可以進(jìn)一步增加對于城市相關(guān)地點(diǎn)和路段的準(zhǔn)確性。

公式12為概率層將要使用到的計算方法,具體其說明會在下一節(jié)詳述。
通過前面多層對數(shù)據(jù)的處理和優(yōu)化,到達(dá)該層的數(shù)據(jù)包含了當(dāng)前時間段內(nèi)城市交通出租車所有出現(xiàn)的路段和點(diǎn),從而該層主要任務(wù)就是對所有出現(xiàn)的路段進(jìn)行計算,各個路段車流量對整個城市車流總量的占比,換言之既是預(yù)測城市各個路段是高頻路段的概率。
城市交通在其擁有周期性特點(diǎn)同時還具有一定的偶然性和多變性,圖 5-6所示隨機(jī)兩天同一時段之間高頻車流量路段分布存在較大差異,所以單通過挖掘固定不變少量歷史數(shù)據(jù)規(guī)律預(yù)測未來高頻路段誤差將會較大。

圖5 地圖標(biāo)注(2008020408)Fig.5 Map lableling (2008020408)

圖6 地圖標(biāo)注(2008020808)Fig.6 Map labeling (2008020808)
故本文針對上述情況在概率計算層采用迭代計算方式。采用迭代計算方式后在充分挖掘已有歷史數(shù)據(jù)規(guī)律同時,也將不斷新產(chǎn)生的交通數(shù)據(jù)作為數(shù)據(jù)源,且將天氣等其它異常狀況和不同路段之間的時空關(guān)聯(lián)性納入計算因子,而不是單一通過挖掘不變得歷史數(shù)據(jù)規(guī)律來預(yù)測未來城市高頻路段。這將使得模型可以隨著持續(xù)更新的交通狀況不斷更新對未來交通狀況的預(yù)測模型該層實(shí)現(xiàn)原理如下:

圖7 概率計算層原理圖Fig.7 schematic diagram of Probabilistic computing layer
如圖7所示該層主要由數(shù)據(jù)輸入單元LD,處理單元M,邏輯控制單元K3,存儲單元S和輸出單元O組成,各個單元相互連通,共同構(gòu)成概率計算層。
邏輯控制單元 K3主要識別數(shù)據(jù)是否為第一次進(jìn)入該層,每次數(shù)據(jù)進(jìn)入時 K1都會通過掃描存儲單元S來判別數(shù)據(jù)是否為第一次進(jìn)入,當(dāng)數(shù)據(jù)第一次進(jìn)入時K3=0,否則其為1。
存儲單元 S主要負(fù)責(zé)該層結(jié)果數(shù)據(jù)的存儲,S單元又由SP和SC兩個子單元組成,其中單元P負(fù)責(zé)存儲結(jié)果集中地點(diǎn)和其對應(yīng)的概率,單元C用于存儲車流總數(shù)。
當(dāng)K3=0時,單元 M2啟用單一運(yùn)算模式。直接對進(jìn)入該層的數(shù)據(jù)進(jìn)行計數(shù),計算出每個地點(diǎn)對應(yīng)的占有概率adp(i)和當(dāng)前車流總數(shù)alC。將地點(diǎn)及其對應(yīng)的adp(i)按照adp(i)大小進(jìn)行降序排序,并將其和當(dāng)前車流總數(shù)alc分別存入單元S對應(yīng)位置。下面公式中的1σ為當(dāng)前時段相應(yīng)地點(diǎn)對應(yīng)的狀態(tài)因子,后面會詳細(xì)介紹,12ββ、和3β分別為對應(yīng)的權(quán)重系數(shù)。


當(dāng)K3=1時,單元 M2啟用混合運(yùn)算模式。該模式下 M2首先對上層前來的數(shù)據(jù)執(zhí)行單一運(yùn)算模式得到新的各點(diǎn)占有概率 n_adp(i)和車流總數(shù)n_alc,與此同時單元M2從存儲單元S取歷史adp(i)和alc。得到上述新舊數(shù)據(jù)后單元M進(jìn)行迭代更新,

上述公式中γ1、γ2γ3,和γ4分別為新舊地點(diǎn)占有概率、車流量總數(shù),時空相關(guān)特性和狀態(tài)因子的迭代權(quán)重系數(shù)。時空相關(guān)特性將后面詳細(xì)介紹。迭代計算后單元 M2同樣對更新后的路段及其對應(yīng)的adp(i) 進(jìn)行排序處理,并將其與alc分別放入存儲單元S中P單元和C單元。
本文所建立的模型采用的試驗(yàn)數(shù)據(jù)來自北京2008年 2月 2日至 8日一星期中一萬多輛出租車GPS數(shù)據(jù),用其來驗(yàn)證模型預(yù)測效果。
由于城市交通狀況具有很強(qiáng)的時段性和周期性,所以應(yīng)該采用工作日的一定時段數(shù)據(jù)預(yù)測工作日的一定時段交通狀況,用非工作日的一定時段預(yù)測非工作日的一定時段交通狀況(本文采用一小時作為一個時段)。查閱相關(guān)2008年相關(guān)假期安排,這年2月2日至4日歲前兩天是周末但正常上班。故將其中2日至4日用作預(yù)測數(shù)據(jù),5日作為驗(yàn)證數(shù)據(jù)。本文中均取這些天的早八點(diǎn)至早九點(diǎn)的一個小時段進(jìn)行測試。

圖8 預(yù)測和驗(yàn)證結(jié)果對比Fig.8 The compare of prediction results and test results
該模型的判別規(guī)則為當(dāng)某些點(diǎn)或路段在一定時間內(nèi)通過車流量對該時段整個城市的占比超過一定閾值時,判別路段為高頻路段,具體閾值選擇因城市實(shí)際情況而定。高頻路段值較多值,我們均隨機(jī)取其10項(xiàng)進(jìn)行展示,展示內(nèi)容包括路段或點(diǎn)和其對應(yīng)的車流量對整個城市車流量總和占比,如圖8所示。圖8中橫坐標(biāo)為高車流量占有率路段,縱坐標(biāo)為該路段對應(yīng)的車流量占有率。從圖8結(jié)果和只使用純統(tǒng)計方法結(jié)果的圖3對比可以看出,圖3中預(yù)測結(jié)果和驗(yàn)證結(jié)果不光車流量占有率相差較大,路段也有很大差異。而圖8中不光路段相似度較高,其對應(yīng)的車流量占有率也差異很小。
因?yàn)槊刻斐鞘械能嚵骺偭慷疾灰粯?,所以對結(jié)果集準(zhǔn)確度的評估本文只考慮預(yù)測結(jié)果中高頻路段和驗(yàn)證結(jié)果集中高頻路段的相似度。原理如下:

模型通過在python程序中先遍歷計數(shù)得出驗(yàn)證結(jié)果集的高頻路段條數(shù)為test_count,再遍歷預(yù)測結(jié)果集,當(dāng)出現(xiàn)和驗(yàn)證結(jié)果集相同的高頻路段項(xiàng)時將true_count值加1,然后再利用公式即可得出模型準(zhǔn)確度,通過驗(yàn)證得模型準(zhǔn)確度可達(dá)94.0397350993%。
由于數(shù)據(jù)量較大無法一一展示,借助地圖也可以看出預(yù)測具有較好的精度,預(yù)測結(jié)果地圖標(biāo)注如圖9所示,驗(yàn)證結(jié)果如圖10所示。

圖9 預(yù)測結(jié)果集地圖標(biāo)注Fig.9 map labeling of prediction results
本文基于城市交通所擁有的周期性,時段性,時空關(guān)聯(lián)性和數(shù)據(jù)量大等特點(diǎn),建立了一個實(shí)時分段網(wǎng)絡(luò)自學(xué)習(xí)模型。該模型可自學(xué)習(xí)不斷更新訓(xùn)練庫,通過不斷迭代交通狀況新數(shù)據(jù),不斷更新模型對交通狀況的實(shí)時感知,并挖掘不同時段可能擁堵點(diǎn)之間關(guān)聯(lián)性,并將此結(jié)果反饋給模型,以提高預(yù)測計算的準(zhǔn)確性。

圖10 驗(yàn)證結(jié)果集地圖標(biāo)注Fig.10 map labeling of test results
相對采用聚類方法,該模型采用的分類算法可以更加精細(xì)到具體路段,預(yù)測出城市未來時段內(nèi)城市交通的高頻路段。與傳統(tǒng)算法相比,模型中自學(xué)習(xí)分類標(biāo)記算法能夠更好處理大批量數(shù)據(jù),有效解決數(shù)據(jù)分類數(shù)較多、新數(shù)據(jù)分類數(shù)大于歷史數(shù)據(jù)分類數(shù)等問題,節(jié)約存儲和計算資源,提高分類準(zhǔn)確性。針對城市交通不同路段之間狀況具有傳遞性的特點(diǎn),在模型中建立了一個夾層側(cè)向生成網(wǎng)絡(luò)模塊,用于對城市交通進(jìn)行時空相關(guān)性分析,相關(guān)單一統(tǒng)計可以使預(yù)測結(jié)果更加準(zhǔn)確實(shí)時。模型預(yù)測結(jié)果將會對居民出行路徑選擇和相關(guān)部門規(guī)劃工作等方面提供很大幫助。
[1] 張俊濤, 李志勇, 張浩. 利用出租車軌跡數(shù)據(jù)估計城市道路擁堵狀況[J]. 測繪工程, 2016, 25(9): 69-72.
[2] 曹祎, 羅霞. 打車軟件背景下出租車運(yùn)營平衡模型[J]. 長安大學(xué)學(xué)報(自然科學(xué)版), 2015(35): 203-207.
[3] Wang yilun, Zheng Yu, Xue Yexiang. Travel time Estimation of aRoutesUsingSparseTrajectories[C]. KDD, New York,2014.
[4] Aldrich C, Auret L. Unsupervised process monitoring and fault diagno-sis with machine learning methods[M]. Springer 2013.
[5] 劉凱利, 李晉宏. 基于決策樹C4.5算法的個人駕駛行為分析[J]. 軟件, 2016, 06(37): 83-86.
[6] 程陳. 大數(shù)據(jù)挖掘分析[J]. 軟件, 2014, 35(4): 130-131.
[7] PANG, QIG, ZHANGW, et al. Traceanalysisandminingforsmartcities: issues, methods, andapplications[J], IEEECommunications Magazine, 2013, 51(6): 120-126.
[8] 呂仁俊, 曹玖新. LBSN中基于行為分析的用戶位置預(yù)測[D]. 東南大學(xué), 2015.
[9] 徐彬森, 魏元周, 毛光明, 李曼曼. 交通標(biāo)志識別算法模型的研究與實(shí)現(xiàn)[J]. 軟件, 2017, 38(11): 74-81.
[10] Sha, Z. and Zhe, Z. et a1. “Discovering Individual Life Patterns from Anonymized WiFiScanlists”, IEEE International Conference on Ubiquitous Intelligence and Computing (UIC),2014.
[11] 張玉鵬, 陳權(quán). 天津市城市道路交通擁堵解決方案[J]. 軟件, 2016, 37(7): 142-148.
[12] 劉暢, 李治軍, 姜守旭. 基于DBSCAN算法的城市交通擁堵區(qū)域發(fā)現(xiàn)[J]. 智能計算機(jī)與應(yīng)用, 2015, 5(3): 68-72.
[13] Li W, Eickhoff C, de Vries A P.want a coffe: predicting users’trails[C]. Proceedings of the 35th imemational ACM SIGIR conference on Research and development in information retrieval. ACM.2012: 1171-1172.
[14] 王寶國, 李淵韜, 胡彤宇. 基于改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)和小波奇異值的交通事件檢測[J]. 軟件, 2017, 38(6): 51-55.
[15] P.S. Castro, Daqing Zhang, Chao Chen, Shijian Li and Gang Pan. From Taxi GPS Traces to Social and Community Dynamics: A Survey[J]. ACM Computing Surveys (CSUR),2013.
[16] 李英杰, 李晉宏. 路口交通數(shù)據(jù)的分析與挖掘研究[J]. 軟件, 2017, 38(1): 131-134.