999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于樸素貝葉斯分類的居民出行起訖點識別方法

2020-03-06 13:18:22趙光華賴見輝陳艷艷孫浩冬
計算機應用 2020年1期
關鍵詞:用戶

趙光華,賴見輝,陳艷艷,孫浩冬,張 野

(1.中國建筑設計研究院有限公司 交通規劃研究中心,北京 100044; 2.北京工業大學 城市交通學院,北京 100124)

0 引言

隨著移動通信技術的高速發展,手機持有群體逐年攀升。手機定位數據來源于手機用戶使用通信運營服務商網絡時產生的數據,具有覆蓋群體廣、成本低,可大范圍、全天候實現對個體出行軌跡的追蹤等優點。

手機定位數據采集的原理:處于待機狀態的手機通過基站(Base Station, BS)與無線通信網絡保持聯系,手機觸發特定的事件時,包括主叫、被叫,收發短信,開、關機,小區切換,周期性位置更新,正常位置更新等,通信網絡記錄觸發事件信息。

用戶的運動狀態包括移動和停留,它是大數據環境下研究用戶出行行為特征的關鍵性表征指標,可用于研究用戶出行起訖點(Origin and Destination, OD)[1-3]、職住[4-5]、出行目的[6-7]、交通方式[4,8-10]、出行路徑[11]等,但是受手機定位數據采集原理影響,存在數據采集間隔周期大、不固定、定位誤差大的特征。為解決這些問題,國內外研究學者從空間聚類的角度提出了不出的方法,如DBSCAN(Density-Based Spatial Clustering of Applications with Noise)、增長聚類等方法。

出行OD是指一次有目的地交通出行過程,通常由出行開始時間、位置,結束時間、位置構成。

目前利用手機信令數據挖掘出行OD方法主要通過已知規則的設定進行識別,如宋璐[1]通過設置時間閾值、半動態距離閾值的OD判別規則判斷各個軌跡點的賦予狀態屬性:移動點、逗留點、暫時逗留點等,進而得到交通OD;戚新洲等[2]設計了空間—時間約束平滑方法,通過時間和空間閾值的設置,對出行鏈的停留點進行識別,提取出行OD;Li等[3]通過分析基站信號數據觸發模式的特點提取OD。通過已知規則判斷方法優點是思路清晰明確,易操作、好理解,但缺點是閾值規則的制定存在較強的主觀性,存在大量邊界用戶容易誤差。

近幾年隨著機器學習方法的不斷完善,通過先驗知識訓練分類器,對數據表現的行為開展預測越來越成熟。本文通過志愿者建立先驗樸素貝葉斯分類(Naive Bayes Classification, NBC)算法,并利用廈門的實際數據開展精度檢驗。

1 手機定位數據特征

圖1 手機信令數據軌跡示意圖Fig. 1 Schematic diagram of trajectory of mobile signaling data

1.1 乒乓切換

“乒乓切換”是手機定位數據的一大特色問題,它是由于在一定區域里兩基站信號強度劇烈變化,手機就會在兩個基站間來回切換,產生所謂的“乒乓效應”,如圖2所示。手機所處位置被CI- 1、CI- 2和CI- 3三個基站扇區覆蓋,當信號強度發生變化時,手機連接的扇區可能在三個中任意一個,根據定位原理,手機被認為在扇區中心位置,造成手機位置乒乓切換,而真實位置可能沒有任何移動。

圖2 “乒乓切換”示意圖Fig. 2 Schematic diagram of “ping-pong switching”

根據賴見輝[12]的統計數據表明,停留時段中約92.2%的時間存在乒乓切換,平均距離1 030.54 m,表明乒乓切換普遍存在。

1.2 時間分布

手機信令數據采集不具有固定周期,按時間先后順序,統計在不同時段相鄰記錄之間的時間差值,如圖3所示:在白天7:00—19:00時,數據產生的平均時間間隔約1 800 s,標準差為3 000 s左右;在夜間時段平均時間間隔約則為4 000 s左右,標準差為4 500 s。表明手機信令數據在白天時段采集數據的平均時間間隔小于夜間;相鄰時間間隔波動性較大,且夜間大于白天。

圖3 手機信令數據產生的時間間隔特征Fig. 3 Time interval characteristics generated by mobile signaling data

不具有固定周期的離散數據,加上手機定位數據產生原理帶來的定位誤差,容易導致局部時間范圍內數據密度過高或者過于稀疏,均不利于數據分析。為減少該問題對數據分析的影響,本文采用數據線性填補方式進行修正,過程如下:

以固定時間間隔Tf進行數據填補與聚合,把原始記錄(xi,yi,ti)與最近的整數倍Tf對應上,將(xi,yi,ti)賦予該時間。若Tf整數倍的前后時間存在多條記錄,xi和yi以平均值代替;若Tf整數倍的前后時間均無原始數據,以最近的(xi,yi,ti)進行線性插值,前后兩條記錄時間間隔超過閾值Ts時,認為用戶數據空缺,可能外出造成,不填補數據。Ts用于界定用戶是否還在研究區域活動的時間閾值,取值大小與分析對象區域的范圍大小有關,若相鄰記錄的時間間隔大于Ts,認為用戶已經離開對象區域,反之亦然。

1.3 空間分布

城市出行活動人員可分為本地常住人員和外地臨時流動人員。常住人員的出行活動主要表現為通勤[13],具有固定的上下班周期和停留點;流動人員主要包括旅游、商務等,其活動地點不固定,出行時間總體規律性不強。

常住人員的居住地空間位置,與就業地、周邊鄰近商業、娛樂區的距離,對出行過程中交通工具的選擇有重要影響[14],如圖4(a)、(b)、(c),用戶在2周內的出行時空軌跡,表現出非常強的鐘擺式規律性特征,即白天在工作地,夜晚回居住地,但是呈現出不同類別之間的活動范圍差異:1類用戶日活動范圍較小,可能采用低速交通工具,如自行車或者步行;2類用戶活動范圍稍大,移動過程中相鄰點的間距小;3類用戶活動距離約是2類的3倍,移動過程中相鄰點的間距較大,表明其移動速度高,交通工具可能是機動車。

流動人員的出行活動空間分布較為隨意,不具有顯著規律性,如圖4所示,圖(d)、(e)中的4類和5類用戶是兩個典型用戶。圖(d)的4類用戶在兩周內出現了兩次,每次停留一天,期間均出現了大范圍活動,使用交通工具可能是機動車;圖(e)的5類用戶在兩周內出現一次,停留兩天,空間活動范圍較小,移動速度慢,可能采用步行或公共交通工具。

圖4 典型用戶出行軌跡Fig. 4 Travel trajectory of typical users

2 模型建立

利用樸素貝葉斯分類器建立居民出行OD識別方法,它包括特征參數選擇、模型訓練、精度檢驗三個步驟。

2.1 方法流程

首先,利用一定量的已知樣本,開展樸素貝葉斯分類器訓練,考慮到用戶出行活動模式對特征參數值影響較大,訓練分類器時根據用戶的活動范圍分別建立不同分類器參數;然后,分別計算待測數據的特征參數方向夾角和最小覆蓋圓直徑值,與分類器進行比較,計算任意時刻的移動與停留狀態概率,差別用戶所處狀態;最后將停留點之間的過程聚合為出行OD,如圖5所示。

圖5 基于樸素貝葉斯方法的移動與停留狀態判別流程Fig. 5 Discrimination process of moving and staying states based on Naive Bayes

2.2 分類器構建

2.2.1 訓練數據選擇

交通出行過程在不同的群體中存在差異較大,如出行距離遠,家庭擁有小汽車,可能選擇小汽車作為交通工具;出行距離短,則選擇步行或自行車的可能性更高。選擇不同的交通工具,意味著出行平均速度存在較大差異,因此,用于建立分類器的訓練樣本應覆蓋不同交通方式、不同出行距離。

本次研究選擇100個志愿者作為長期追蹤調查對象,志愿者的常用出行方式包括步行、自行車、電動車/摩托車、公交車、小汽車5大類,每類出行方式各20人,如表1所示。要求志愿者連續記錄1個月每天的活動狀態,包括發生相關活動的時間、位置、交通工具等信息,如表2所示,以此為基礎對模型開展訓練。

表1 數據采集樣本 Tab. 1 Data collection samples

表2 志愿者記錄信息 Tab. 2 Information recorded by volunteers

2.2.2 特征參數指標

特征參數指標用于描述移動或停留狀態的屬性,它要求指標相互之間是條件獨立,互不干擾,因此特征參數選擇對分類器預測結果的精度至關重要。本文以相鄰位置點形成的方向向量夾角和每個點周圍的最小覆蓋圓直徑兩個參數描述。

1)方向夾角。

其中:PI為圓周率常數;如圖6所示,A處點在移動狀態方向角為45°,B處點在停留狀態,方向為0°。

方向夾角可以從時間維度較好地反映用戶的移動、停留狀態。志愿者數據的統計結果(如圖7)表明,方向角越小,處于移動狀態的比例越低,停留狀態的比例越高;方向角越大,處于移動狀態的比例越高,停留狀態的比例越低。

圖6 移動與停留狀態的方向夾角Fig. 6 Angular separation of moving and staying states

2)最小覆蓋圓直徑。

圖7 公交出行用戶移動/停留狀態的方向角Fig. 7 Angular separation of moving state/staying state of bus passenger

圖8 移動與停留狀態的最小覆蓋圓直徑Fig. 8 Minimum cover circle diameter for moving state and staying state

圖9 公交出行用戶移動/停留狀態的最小覆蓋圓直徑Fig. 9 Minimum covering circle diameter for moving state/staying state of bus passenger

相比于移動速度,最小覆蓋圓直徑可以減小“乒乓切換”造成的局部誤差,該誤差與敏感系數取值有關:值越大時,對短距離出行的敏感性越低,越不容易識別;取值越小,“乒乓切換”容易誤識別成出行。統計廈門20個公交出行志愿者一個月的數據如圖9所示,從中可以看出,停留狀態的用戶最小覆蓋圓直徑81.7%在200 m內,93.7%在500 m以內,隨著直徑的增大,占比顯著減小;移動狀態用戶隨著直徑增大占比呈現先增大后減小的趨勢,直徑200 m內時,移動狀態占比小于停留狀態,直徑大于200 m時,移動狀態占比大于停留狀態。這些顯著的差異化特征有利于模型辨識移動/停留狀態。

2.2.3 用戶分類

由于手機信令數據定位精度低、存在“乒乓切換”等原因,在對短距離出行的移動、停留狀態判別時,將導致更大的誤差。對志愿者連續1個月追蹤統計結果表明,不同用戶職住地距離相差較大時,特征參數指標也存在較大差異。

本文為了簡化計算,結合用戶的主要交通工具的大致活動范圍劃分為Ⅰ、Ⅱ、Ⅲ、Ⅳ四大類,如表3所示。

表3 職住地距離類別劃分 Tab. 3 Classification of distance between places of residence and working

統計80個用戶1個月的調查數據,計算移動和停留狀態下不同方向夾角值、周圍點最小覆蓋圓直徑發生的統計概率,如圖10所示。

圖10 運動狀態條件下的特征參數分布Fig. 10 Feature parameter distribution under motion condition

在運動狀態條件下方向夾角(A)的概率分布。隨著方向夾角(A)增大,處于移動狀態的概率值也不斷增大,在超過20°~45°時,該趨勢得到顯著加強,對于不同的類別,顯著變化角度值有存差異,如類別Ⅰ顯著變化角度約20°,類別Ⅱ約30°,類別Ⅲ約40°,類別Ⅳ約45°。

在運動狀態條件下最小覆蓋圓直徑Φ的概率分布。整體趨勢隨著最小覆蓋圓直徑增大,處于移動狀態的概率值不斷減小,但在范圍小于300~500 m時,隨著最小覆蓋圓直徑增大而增大,類別Ⅰ的約在300 m左右達到最大概率約0.16,類別Ⅳ在500 m左右達到最大概率約0.07,表明用戶職住范圍超小,其最小覆蓋圓直徑參數在低值范圍內的聚集性超高。

因此在訓練模型時,按不同用戶的職住地距離,訓練不同的分類器參數。

2.3 出行OD辨識模型

建立面向不同類別的樸素貝葉斯分類器,分類器的關鍵指標計算過程如下:

集聚出行OD,基于已判別的移動與停留狀態,當至少連續出現兩次判斷狀態為移動時,認為用戶處于有效移動狀態,并認為是一次完整的出行OD。

3 模型驗證

3.1 精度分析

利用20個用戶1個月的調查數據對建立的模型進行驗證,驗證指標包括用戶出行次數、開始時間和結束時間。模型識別數據和人工記錄的數據中,任意出行過程中,兩類數據的出行時段重合超過50%以上,且出行開始時間差、出行結束時間差不超過15 min,認為是同一次出行。

通過手機定位數據計算的平均出行總體為2.59次,人工追蹤調查的平均出行次數為2.79,略低于人工調查的數據,平均絕對百分比誤差(Mean Absolute Percentage Error, MAPE)為7.79%,如表4所示,表現出較高的精度。不同類別之間隨著職住距離的增加,平均出行次數呈下降趨勢,與人工調查調查結論一致,方差波動較低,說明算法具有較高的穩定性。

表4 模型精度對比 Tab. 4 Comparison of model accuracy

針對手機信令數據分析的平均出行次數與人工調查數據存在的差異,統計兩者不吻合的出行指標,包括出行距離、出行耗時。統計結果如表5所示,平均出行距離為1 566 m,平均出行耗時為14.9 min,出行距離和時間均較小,表明誤判數據以短距離出行為主,這主要是因為手機數據的根本特性決定:一是定位數百米的誤差;二是基站信號的“乒乓切換”。

表5 模型分析存在誤差的出行距離特征 Tab. 5 Characteristics of travel distances mistakenly analyzed by model

針對與人工調查“吻合”的出行,分析手機定位數據計算得到的出行開始、結束時間與調查真值的差異特征。結果如表6所示,開始出行的時間差平均約7.7 min,結束出行的時間差平均約7.6 min。總體而言,通過手機定位數據分析的出行出發和結束時間與實際情況相差較小,可以指導實際應用。

表6 模型分析存在誤差的出行時間特征 Tab. 6 Characteristics of travel times mistakenly analyzed by model

3.2 廈門案例分析

將建立的分類器用于廈門移動手機信令數據,并分析出行的時空分布特征。為便于分析,將每個用戶的出行OD集聚到小區層面,根據廈門的行政分區、用地性質、道路布局等,劃分為171個小區,其中島內80個,島外91個,如圖11所示。

圖11 廈門市交通小區劃分圖Fig. 11 Map of traffic zones of Xiamen

測試數據共1個月,僅采用在廈門出現過20天以上的用戶,確保分析用戶為本地常住人口,利用模糊模式識別法[15]得到所有用戶的職住地信息,并計算職住地距離,選擇對應類別的分類器開展分析。

1)出行OD分布。

出行OD結果如圖12所示,Ⅰ類用戶短距離出行活動范圍有限,主要在本交通小區內部及相鄰區域間發生;Ⅱ類和Ⅲ類以跨鄰近小區出行為主;Ⅳ類用戶以中長距離出行為主,可以看出5處具有顯著的空間集聚特征,分別是集聚程度最高的廈門島內區域和島外的海滄、集美、同安、翔安,此外作為旅游城市,幾處熱門景點的出行量也集聚程度較高。

2)出行時段分布。

職住距離對出行人員出行時段的選擇影響巨大,職住距離越近,出行者呈現“晚走早退”現象,如圖13所示,早上出行時間越晚,下午下班的時間越早,Ⅰ類用戶早上出發峰值時間約為8時左右,而Ⅳ類用戶約7時左右,下班Ⅰ類用戶集中在16時左右,Ⅳ類用戶則集中在17時左右,出現該現象原因可能是近距離職住人員的上下班時間相對彈性,當然該結論需進一步驗證。

職住距離較近的類別,除了早晚兩個出行高峰時段,還有中午12時左右的小峰值,而Ⅳ類用戶不存在該峰值,出現該現象的原因可能是距離較近的人中午回家吃午飯。此外,遠距離職住用戶在早晚高峰時段的出行更集中,約占全天出行總量的20%,而Ⅱ類用戶僅占17%,表明近距離職住用戶出行時間段選擇更加靈活。

出行時段分布特征符合城市居民日常出行活動規律,表明結果具有較高的可靠性。

圖12 四類用戶的出行OD空間分布Fig. 12 Spatial distribution of travel OD of four types of users

圖13 出行時段占比分布Fig. 13 Distribution of travel time proportions

4 結語

為了研究如何利用手機定位數據判斷用戶的移動與停留狀態,支撐交通出行特征研究,本文基于樸素貝葉斯方法,采用方向夾角和最小覆蓋圓直徑作為特征參數,基于100個用戶連續1個月的人工記錄數據作為研究樣本,對基于樸素貝葉斯分類的居民出行OD識別模型參數開展訓練。利用廈門移動的手機定位數據開展模型精度檢驗,結果表明:基于樸素貝葉斯方法建立的居民出行OD識別方法可以較好地用于分析出行規律。

本文利用廈門志愿者用戶為樣本訓練識別模型,識別對象的信令數據從中國移動獲取,受限于不同城市基站密度、城市形態和出行活動行為差異,模型能否在所有城市通用尚需進一步驗證。此外,本文方法適用于識別出行OD,而OD間的出行路徑還需在未來深入開展研究。

猜你喜歡
用戶
雅閣國內用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網新媒體用戶之間有何差別
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 人妖无码第一页| 激情视频综合网| 99精品国产自在现线观看| 婷婷色中文| 日本欧美午夜| 在线永久免费观看的毛片| 精品夜恋影院亚洲欧洲| 91娇喘视频| 久久久波多野结衣av一区二区| 亚洲欧美另类色图| 激情乱人伦| 四虎永久在线精品国产免费| 国产哺乳奶水91在线播放| 久久久久无码精品| 国产成人艳妇AA视频在线| 国产免费人成视频网| а∨天堂一区中文字幕| 午夜一级做a爰片久久毛片| 日韩无码视频网站| 四虎影视国产精品| 91精品啪在线观看国产60岁| 很黄的网站在线观看| 国产亚洲欧美在线专区| 91精品aⅴ无码中文字字幕蜜桃| 国产精品一区二区在线播放| 欧美国产精品不卡在线观看| 欧美成人a∨视频免费观看| 色网站在线视频| 亚洲第一综合天堂另类专| 8090午夜无码专区| 亚洲激情99| 午夜无码一区二区三区| 亚洲第一成年网| 国产一级小视频| 午夜免费小视频| 一本无码在线观看| 久久青草精品一区二区三区| 国产免费a级片| 久久这里只有精品国产99| 亚洲AV无码乱码在线观看裸奔| 日本免费一区视频| 全免费a级毛片免费看不卡| 伊大人香蕉久久网欧美| 久久一色本道亚洲| 国产资源免费观看| 中文字幕在线观| 全部免费毛片免费播放| 成人精品免费视频| 国产99视频免费精品是看6| 综合社区亚洲熟妇p| 91国内视频在线观看| 乱人伦99久久| a毛片在线播放| 99久视频| 香蕉视频在线精品| 欧美成人精品在线| 久久精品国产亚洲AV忘忧草18| 国内精品视频| 亚洲国产精品美女| 国产视频只有无码精品| 亚洲精品爱草草视频在线| 久久精品日日躁夜夜躁欧美| 亚洲成人www| 在线色国产| 在线观看免费黄色网址| 一级黄色网站在线免费看| 日韩欧美亚洲国产成人综合| 国产主播一区二区三区| 久久精品欧美一区二区| 国产亚洲高清在线精品99| 2020精品极品国产色在线观看 | 亚洲综合精品第一页| 亚洲国产欧美目韩成人综合| 国产SUV精品一区二区| 欧美中出一区二区| 国产精品亚洲片在线va| 国产极品美女在线观看| 视频国产精品丝袜第一页| 色综合色国产热无码一| 毛片久久网站小视频| 欧美日本中文| 亚洲黄色高清|