999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)挖掘的市民出行公交線路預(yù)測研究

2017-04-22 10:11:14張聰聰李擁軍
現(xiàn)代計算機(jī) 2017年8期
關(guān)鍵詞:數(shù)據(jù)挖掘特征

張聰聰,李擁軍

(1.華南理工大學(xué)數(shù)學(xué)學(xué)院,廣州 510006;2.華南理工大學(xué)計算機(jī)科學(xué)與工程學(xué)院,廣州 510006)

基于數(shù)據(jù)挖掘的市民出行公交線路預(yù)測研究

張聰聰1,李擁軍2

(1.華南理工大學(xué)數(shù)學(xué)學(xué)院,廣州 510006;2.華南理工大學(xué)計算機(jī)科學(xué)與工程學(xué)院,廣州 510006)

近年來一些學(xué)者大多利用海量公交卡信息對整體客流進(jìn)行預(yù)測,并無針對具體乘客在公交線路上的出行做出預(yù)測。基于數(shù)據(jù)挖掘技術(shù),以廣東省部分公交線路上的歷史公交卡交易數(shù)據(jù)為基礎(chǔ),采用滑動窗口模型構(gòu)造訓(xùn)練樣本和測試樣本,借助隨機(jī)森林算法,對市民在公交線路上的出行進(jìn)行預(yù)測研究,并用精度、召回率以及F1值進(jìn)行評估,證明模型的可行性。

數(shù)據(jù)挖掘;公交卡信息;隨機(jī)森林;市民出行預(yù)測

0 引言

隨著我國經(jīng)濟(jì)增長以及城鎮(zhèn)化率的不斷增加,市民出行需求不斷增長,同時交通擁堵也越來越嚴(yán)重。公交卡歷史交易數(shù)據(jù)中存在大量乘客出行的模式和規(guī)律,對固定乘客的歷史出行行為進(jìn)行分析和挖掘,預(yù)測乘客在固定線路上的未來出行方式,為廣大乘客提供信息對稱和安全出行環(huán)境具有重要的指導(dǎo)意義。目前投入使用的公交卡多用于公交企業(yè)的收費(fèi)管理上,其中蘊(yùn)藏的很多信息都未被發(fā)掘。本文將數(shù)據(jù)挖掘技術(shù)運(yùn)用于公交卡信息庫,以廣東省部分公交線路的歷史公交卡交易數(shù)據(jù)為建模數(shù)據(jù),將市民出行線路選乘問題轉(zhuǎn)化為數(shù)據(jù)挖掘中二分類問題,對市民出行公交線路進(jìn)行預(yù)測。

1 公交卡數(shù)據(jù)倉庫

擁有大量的可用數(shù)據(jù)是進(jìn)行數(shù)據(jù)挖掘的前提,因此必須建立數(shù)據(jù)倉庫,數(shù)據(jù)倉庫與數(shù)據(jù)庫不同,它是面向主題、集成的、與時間相關(guān)的可修改的數(shù)據(jù)集合,將采集的公交信息經(jīng)過清理、整合和轉(zhuǎn)換后匯總,將這些數(shù)據(jù)分類存儲在不同的主題數(shù)據(jù)庫中形成公交卡信息數(shù)據(jù)挖掘的數(shù)據(jù)倉庫,其數(shù)據(jù)表如表1、表2所示。

表1 乘客刷卡交易數(shù)據(jù)表

表2 公交線路信息表

2 公交卡信息庫數(shù)據(jù)挖掘過程

實(shí)驗(yàn)數(shù)據(jù)為廣東省五個月部分公交線路公交卡用戶歷史數(shù)據(jù),將市民出行線路選乘問題轉(zhuǎn)化為數(shù)據(jù)挖掘中二分類問題,采用一種滑動窗口的模型樣本構(gòu)造方法構(gòu)造特征屬性,進(jìn)一步對模型做出訓(xùn)練等。

2.1 基于滑動窗口的樣本構(gòu)造

在對公交卡交易數(shù)據(jù)處理建模的實(shí)際問題中,為了避免構(gòu)造的訓(xùn)練集和測試集的數(shù)據(jù)分布不一致的問題,受經(jīng)典數(shù)據(jù)流處理模型滑動窗口的啟發(fā),本文提出采用一種基于固定大小的滑動窗口的樣本特征集抽取方式,實(shí)驗(yàn)數(shù)據(jù)為2014年8月1日至2014年12月31日五個月廣東省部分公交線路公交卡用戶歷史交易數(shù)據(jù),使用139天固定時間窗口內(nèi)乘客歷史行為記錄構(gòu)造樣本的特征屬性,未來7天乘客固定公交線路上的出行情況確定樣本的類別標(biāo)簽,通過多次滑動窗口,覆蓋不同的時間區(qū)間來構(gòu)造多份訓(xùn)練樣本。滑動窗口設(shè)計如圖1。

圖1 滑動窗口樣本設(shè)計方法

每個時間窗口內(nèi),從乘客歷史出行行為特點(diǎn)的特征屬性類、不同線路特點(diǎn)的特征屬性類、乘客在具體公交線路上的交互特征屬性類、乘客公交卡不同類型特點(diǎn)的特征屬性類、不同乘客類型在具體公交線路上的行為規(guī)律的交互特征屬性類、乘客公交卡發(fā)卡地點(diǎn)的特征屬性類等幾個方面設(shè)計特征屬性。

(1)在每個窗口的樣本特征屬性,從以下幾個方面進(jìn)行具體設(shè)計:

設(shè)計乘客(每一個card_id)歷史出行行為特點(diǎn)的特征屬性類:

①所有公交線路上乘客行為的時序類特征:針對乘客最近在所有線路上的乘車情況的統(tǒng)計,對乘客乘車規(guī)律進(jìn)行描述,距離時間越短,對未來出行的影響越大,隨著歷史交易時間距離越長,影響作用越來越小,提取的區(qū)間粒度越來越大,統(tǒng)計每個乘客最近12小時內(nèi)、最近1、3、7、14、28、56、84、112、139天內(nèi)在所有公交線路上乘車總次數(shù)。

②乘客時間類特征:給定時間窗口內(nèi)乘客活躍程度的描述。乘客平均乘車間隔天數(shù),乘客最近公交刷卡交易時間、用戶的活躍小時數(shù)、出行次數(shù)大于1次的周數(shù)、行為次數(shù)大于2次的周數(shù)、平均刷卡時間間隔天數(shù)、平均每周刷卡次數(shù)。

③乘客出行變化的比值趨勢類特征:考慮到乘客歷史行為的變化趨勢影響,乘客行為次數(shù)大于2次的周數(shù)占比、乘客最近1、2、4次刷卡數(shù)在最近2、4、8次刷卡數(shù)占比、周末行為次數(shù)在總行為次數(shù)占比、工作日行為次數(shù)在總刷卡行為次數(shù)占比等,此類特征能對乘客的乘車規(guī)律進(jìn)行刻畫。

④乘客不同類別屬性的特征:不同類別的乘客對未來出行有影響,上班族出行有時間規(guī)律,老人出行受其他因素影響較大,將7種不同公交卡類型映射為不同的特征。

(2)設(shè)計不同線路特點(diǎn)的特征屬性類:

①線路時序類統(tǒng)計特征:不同線路的歷史客流量對乘客的出行存在影響,對每條線路分別在最近12小時、最近1、3、7、14、28、56、84、112、139天的客流量進(jìn)行統(tǒng)計,給定的時間窗口內(nèi)周末、工作日乘客總客流量統(tǒng)計,周末及工作日平均、歷史最大客流量統(tǒng)計。

②線路歷史乘坐量的變化趨勢類特征:歷史客流量變化對乘客的出行存在影響,對各線路最近1、2、4周在最近2、4、8周內(nèi)客流量的比值構(gòu)造特征。

③公交線路編碼特征:不同線路所在地以及每天線路的站點(diǎn)數(shù)對乘客選擇未來出行線路存在影響,主要有不同線路特征、每條線路站點(diǎn)數(shù)特征。

(3)設(shè)計乘客在具體公交線路上的交互特征屬性類:

①乘客對有歷史乘坐行為的每條線路的時序統(tǒng)計類特征:對乘客在每條具體線路上的歷史乘坐的活躍度進(jìn)行刻畫,固定時間窗口內(nèi)對乘客在有歷史乘坐行為線路上最近12小時內(nèi)、最近1、3、7、14、28、56、84、112、139天中的公交交易行為進(jìn)行統(tǒng)計,記錄乘客乘坐最大次數(shù)、周末乘坐次數(shù)、工作日乘坐次數(shù)。

②乘客對有歷史乘坐行為的每天各線路的時間類特征:乘客在有歷史乘坐行為上最近的乘坐時間間隔、給定時間窗口內(nèi)乘客有乘坐行為的時間間隔、乘客有乘車行為記錄的天數(shù)(活躍天數(shù))以及活躍小時數(shù)、返乘最小天數(shù)、平均返乘天數(shù)等特征。

③乘客對歷史乘坐線路乘坐行為比值趨勢類特征:最近1周乘客搭乘具體線路次數(shù)在最近2周內(nèi)搭乘行為數(shù)占比、乘客在線路子集中活躍小時數(shù)在線路全集中活躍小時總數(shù)占比、乘客在周末乘坐次數(shù)在總乘坐次數(shù)中占比、工作日乘坐次數(shù)在總乘坐次數(shù)中占比等特征。

(4)設(shè)計乘客公交卡不同類型特點(diǎn)的特征屬性類:

①不同類型乘客時序統(tǒng)計類特征:不同群體乘客出行規(guī)律不同,對不同乘客類型的出行規(guī)律進(jìn)行刻畫,將不同乘客類型在所有線路上最近12小時、最近1、3、7、14、28、56、84、112、139天內(nèi)的周末和工作日的行為次數(shù)作為特征。

②不同類型乘客趨勢類特征:反映不同群體行為變化趨勢,如老年群體會隨著季節(jié)變化出行規(guī)律而發(fā)生變化、學(xué)生群體會隨著寒暑假的變化出行規(guī)律發(fā)生變化,對不同群體人群最近1、2、4周在最近2、4、8周內(nèi)出行量占比進(jìn)行統(tǒng)計。

(5)設(shè)計乘客公交卡發(fā)卡地點(diǎn)的特征屬性類:

①不同地點(diǎn)乘客時序類統(tǒng)計特征:不同地點(diǎn)乘客的出行規(guī)律存在差別,分別對各地點(diǎn)乘客在最近12小時、最近1、3、7、14、28、56、84、112、139天內(nèi)行為總次數(shù)進(jìn)行統(tǒng)計(按周末和工作日分別統(tǒng)計)。

②不同發(fā)卡地乘客的出行趨勢類特征:不同地點(diǎn)乘客在最近1、2、4周在最近2、4、8周內(nèi)出行量占比統(tǒng)計,周末出行次數(shù)在總次數(shù)占比。

③不同地點(diǎn)乘客編碼類特征:不同公交卡發(fā)卡地的乘車規(guī)律以及存在的線路都不同,為了在樣本中體現(xiàn)這些信息,將20個不同的公交卡發(fā)卡地點(diǎn)映射為特征。

具體的樣本特征框架圖,如圖2所示。

2.2 隨機(jī)森林算法預(yù)測

隨機(jī)森林(Random Forest)是由統(tǒng)計學(xué)大師Breiman在2001年提出的一種基于Bagging(Bootstrap Aggregating)思想的分類樹算法[1],其基分類器是決策樹,它利用Bootstrap重采樣的方法從原始樣本中抽取多個樣本生成森林中的每棵決策樹,最后通過對組合森林中每棵樹的預(yù)測結(jié)果采用多數(shù)投票的方式得出最終的分類結(jié)果。隨機(jī)森林模型的訓(xùn)練過程中,通過在樣本的選擇以及決策樹內(nèi)部結(jié)點(diǎn)分裂的特征屬性的選擇兩個方面引入隨機(jī)性來降低單棵樹分類器存在較高方差的問題,能對噪聲和異常值有很好的容忍度,同時能夠很好地對特征屬性的多重共線性進(jìn)行處理,不容易出現(xiàn)過擬合的情況。

構(gòu)造的樣本存在正負(fù)類不均衡的情況,負(fù)類樣本(乘客在未來固定時間段內(nèi)在固定公交線路上無出行行為)過多,處理問題的策略包括過抽樣、欠抽樣、閾值移動和組合技術(shù)等[2],我們采用對負(fù)樣本進(jìn)行欠抽樣的方法。在后續(xù)的試驗(yàn)中,采用正負(fù)樣本比1:3的抽樣方式來生成模型的訓(xùn)練樣本。

圖2 樣本特征框架圖

隨機(jī)森林能夠?qū)颖镜拿總€特征重要性進(jìn)行評估[3],通過按重要性排行,過濾低重要性的特征屬性,對top20特征屬性的重要性展示如圖3。樣本對應(yīng)特征屬性的說明如表3所示。

圖3 隨機(jī)森林特征重要性展示

表3 前20重要性特征

根據(jù)選取的特征,用隨機(jī)森林算法來進(jìn)行初步訓(xùn)練。

2.3 數(shù)據(jù)挖掘結(jié)果分析

根據(jù)建立的模型,我們來分析乘客出行行為命中的時間分布,結(jié)果如圖4所示,可以看出,乘客在某條公交線路上的最后乘坐時間在56天內(nèi)時,對乘客未來的出行有較大的影響力,所以在模型建立時,為了獲得更高效的精簡數(shù)據(jù),我們嘗試過濾掉過去56天沒有出行行為的樣本。過濾后總訓(xùn)練樣本個數(shù)為11879368,其中正樣本個數(shù)為1631236,正負(fù)樣本比為1:7.3,我們對負(fù)樣本抽樣構(gòu)造正負(fù)樣本比為1:3的訓(xùn)練樣本。對構(gòu)造后的樣本和特征屬性進(jìn)行選擇后,我們嘗試對隨機(jī)森林模型的參數(shù)進(jìn)行探究,生成魯棒性好的模型。

隨機(jī)森林要調(diào)節(jié)的主要控制兩個參數(shù):

(1)森林中樹的數(shù)量n_trees

(2)訓(xùn)練每棵樹抽取的特征數(shù)目M

圖4 乘客行為命中時間分布圖

圖5 樣本OOB錯誤率

由于隨機(jī)森林在訓(xùn)練模型時的隨機(jī)性,為了避免偶然性的發(fā)生,在模型構(gòu)造中,對樣本隨機(jī)抽樣時我們隨機(jī)構(gòu)造了多份樣本,采用抽樣后存在差異的訓(xùn)練樣本訓(xùn)練多個隨機(jī)森林模型分別在測試集合上進(jìn)行試驗(yàn),最終采用多數(shù)投票的方式來得出最終的預(yù)測結(jié)果,得到最優(yōu)試驗(yàn)結(jié)果如表4。

表4 隨機(jī)森林試驗(yàn)結(jié)果

可以看出,預(yù)測的結(jié)果比較可觀,這對為廣大乘客提供信息對稱和安全的出行環(huán)境具有重要的指導(dǎo)意義。

[1]Breiman,L.Random Forests[J].Manchine Learning,2001,45(1).

[2]Han J,Kamber M著.數(shù)據(jù)挖掘概念與技術(shù)[M].范明,孟小峰譯.北京:機(jī)械工業(yè)出版社,2004.

[3]Genuer R,Poggi J M,Tuleau-Malot C.Variable Selection Using Random Forests[J].Pattern Recognition Letters,2010,31(14):2225-2236.

[4]李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012.

[5]戴霄,陳學(xué)武,李文勇.公交IC卡信息處理的數(shù)據(jù)挖掘技術(shù)研究[J].交通與計算機(jī),2006,01:40-42.

[6]胡郁蔥,梁杰榮,梁楓明.基于IC卡數(shù)據(jù)挖掘獲取公交OD矩陣的方法[J].交通信息與安全,2012,04:66-70.

Research on Public Transit Route Forecast Based on Data Mining

ZHANG Cong-cong1,LI Yong-jun2
(1.School of Mathematics,South China University of Technology,Guangzhou 510006;
2.School of Computer Science&Engineering,South China University of Technology,Guangzhou 510006)

In recent years,some scholars mostly use mass transit card information to forecast the overall passenger flow,but there is no prediction about specific passenger who travels in the bus line.Based on the data mining technology,explores and predicts the travel patterns of the citizens on the basis of historical bus card transaction data of some bus lines in Guangdong Province,and uses the sliding window model to construct the training and test samples.Moreover,uses random forest algorithm,proves the feasibility of the model by the precision,recall rate and F1 value.

Data Mining;Bus Card Information;Random Forests;Prediction of Public Travel

1007-1423(2017)08-0003-05

10.3969/j.issn.1007-1423.2017.08.001

張聰聰(1989-),女,河北石家莊人,碩士,研究方向?yàn)榇髷?shù)據(jù)分析與云計算環(huán)境

2016-12-27

2017-03-10

國家自然科學(xué)基金(No.61370228)、廣東省重點(diǎn)科技項(xiàng)目(No.2014B090903008、No.2015B010109006、No.2015B0101280 08)

李擁軍(1968-),男,湖南人,教授,博士生導(dǎo)師,研究方向?yàn)橛嬎銠C(jī)網(wǎng)絡(luò)協(xié)議、云計算等

猜你喜歡
數(shù)據(jù)挖掘特征
抓住特征巧觀察
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
新型冠狀病毒及其流行病學(xué)特征認(rèn)識
如何表達(dá)“特征”
不忠誠的四個特征
抓住特征巧觀察
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
主站蜘蛛池模板: 亚洲人成高清| 亚洲欧洲日产无码AV| 在线免费观看AV| 亚洲精品大秀视频| 国产欧美网站| 中国一级特黄大片在线观看| 青青草原国产av福利网站| 欧美黄色网站在线看| 国产第一页第二页| 4虎影视国产在线观看精品| 日本影院一区| 草逼视频国产| 久无码久无码av无码| 日韩精品免费一线在线观看| 亚洲丝袜中文字幕| 91人人妻人人做人人爽男同| 久久国产精品国产自线拍| 久久一日本道色综合久久| 国产人在线成免费视频| 暴力调教一区二区三区| 思思热精品在线8| 青青热久免费精品视频6| 日韩国产综合精选| swag国产精品| 999精品在线视频| 99精品伊人久久久大香线蕉 | 刘亦菲一区二区在线观看| 一级香蕉视频在线观看| 国产91小视频| 日韩精品欧美国产在线| 无码人妻免费| 国产精品乱偷免费视频| 精品亚洲欧美中文字幕在线看| 18禁黄无遮挡网站| 中文字幕在线一区二区在线| 高清不卡毛片| 亚洲精品第一在线观看视频| 夜夜操国产| 亚洲首页国产精品丝袜| 手机精品视频在线观看免费| 97精品伊人久久大香线蕉| 婷婷亚洲综合五月天在线| 国产在线观看第二页| 国产中文在线亚洲精品官网| 在线国产三级| 亚洲成A人V欧美综合| 日韩欧美中文字幕一本| 伊人久热这里只有精品视频99| 超碰91免费人妻| 国产亚洲精品va在线| 尤物特级无码毛片免费| 日本91视频| 欧美成人亚洲综合精品欧美激情| 精品成人一区二区三区电影| 国语少妇高潮| 欧美劲爆第一页| 国产精品自在自线免费观看| 久久国产精品影院| 国产成人AV综合久久| 亚洲精品午夜无码电影网| 久久精品这里只有国产中文精品| 亚洲AV无码久久精品色欲| 欧美第一页在线| 99偷拍视频精品一区二区| 亚洲人精品亚洲人成在线| julia中文字幕久久亚洲| 欧美午夜小视频| 青青极品在线| 五月婷婷激情四射| 5555国产在线观看| 日韩少妇激情一区二区| 国产极品美女在线播放| 成人韩免费网站| 国产香蕉97碰碰视频VA碰碰看| 91福利免费视频| 国产一区二区三区在线精品专区| 最新加勒比隔壁人妻| 国产精品xxx| 国产视频 第一页| 精品国产自在在线在线观看| 亚洲欧美人成人让影院| 1级黄色毛片|