陳 仲 楊克青 CHEN Zhong, YANG Keqing
大量研究表明,城市居民的日常活動并非是完全隨機、不可預測的。相反,城市居民的活動往往表現出與城市社會經濟發展、城市空間特征高度關聯的規律性[1]818。了解城市居民個體的活動行為及其表現的群體規律性和相似性,對把握城市交通運行規律、城市空間動態演變具有重要意義。
以往對居民個體行為的研究主要利用小規模的問卷進行抽樣調查,如對南京市老年人出行行為[2]1598、廣州城市社區居民出行行為[3]167、烏魯木齊居民出行行為[4]897等的研究。盡管居民出行調查提供了豐富的、多維度的數據,但是由于其周期長、工作量大、樣本少(一般為2%—4%),個體出行的許多特征并未得到充分展現。
手機信令數據可以動態反映整個城市人口的活動信息,為分析個體的行為提供基礎[1]820,彌補了傳統調查周期性長、工作量大、樣本量少和成本高的特點,在分析城市職住關系[5]、城市空間結構[6]、城市人口分布與流動[7]等領域應用廣泛。除城市尺度分析外,針對特定人群的出行特征研究也是重點之一,如對大型賽事球迷空間行為特征的分析[8]、對櫻花節游客的研究[9]、對公園游客的分析[10]、對機場游客分類分析[11]等。
在研究方法上,既有研究大多以群體的出行時空規律作為研究對象來考察居民活動的空間分布及特征。此過程需要預先了解出行行為類別(如通勤出行、娛樂出行)[4]899及屬性(如收入、年齡等)[2]1599,進而分析既有類別的出行規律及特征。
本文以手機信令數據為基礎,構建居民個體的出行行為聚類模型,并結合城市特征,對居民出行模式進行判別。相較于既有研究方法,本文并不預先假定居民出行的位置類別(家、工作地、娛樂地)或出行類別(工作出行、娛樂出行等),而是通過個體出行鏈的重構,對不同個體出行鏈的相似模式進行聚類。在聚類方法選擇上,采用基于狄利克雷過程混合模型的聚類方法,避免了其他聚類方法(如K均值聚類)需要事先假定聚類數量的局限。研究結果表明,該方法能夠發現有別于傳統基于問卷調查的出行模式,并與城市的特征、空間結構緊密聯系在一起,為進一步分析城市居民活動行為提供借鑒。
本文數據來源于2015年6月26日全天三亞市域范圍內所有手機信令數據,數據基本格式及各字段說明如表1所示,共包含手機用戶77萬(除去數據記錄過少、間隔時間過長等無效用戶)。其中用戶ID為脫敏后的手始數據變換為一組各維度線性無關的數據,可用于提取數據的主要特征分量,常用于高維數據的降維。此外,主成分分析還有助于發現數據模型中影響因素最大的主要成分。通過主成分分析得到的主成分稱為“特征活動”,即可以表示所有出行個體的共同出行行為。機號碼,時間戳為基站收集手機通信數據的時刻,基站名稱、基站緯度、基站經度記錄基站的空間位置信息,事件為手機與基站之間的通信類別,識別碼為手機信號歸屬地(本省、外地)。
居民出行的OD(Origin-Destination)數據提取采用文獻[12]中的方法,將停留時間超過15 min的地點(即基站)作為一個停駐地,如圖1a所示,藍色為手機信令的原始軌跡點,紅色為提取之后的OD。統計發現,87%的居民在一天中的停駐地不超過5個。將停駐地按照停留時間長短進行排序,并取前5個停駐地依次標簽為“位置1”“位置2”…“位置5”。 于是,居民OD中的起終點可以用位置標簽替代。
將帶位置標簽的OD按照15 min間隔劃分為1×96的時間序列,每個子區段的值用唯一的位置標簽表示。當某子區段內出現多個位置時,則該區段的位置標簽根據所占時間最長的位置標簽確定。再將每個子區段根據位置標簽用長度為5的0—1向量表示,0表示該區段不屬于該位置標簽,1表示該區段屬于該位置標簽。由此,每個居民一天的出行軌跡可以表示為1×480(即24×4×5)的一維向量。所有出行者(N個出行者)的出行行為可以表示為N×480的二維矩陣。數據分解過程如圖1b所示。
對于居民個體活動來說,有些特征是完全相似的。例如大部分居民在凌晨2: 00—5: 00時間段內的活動行為是一致的,均處于睡眠狀態。因此,有必要進一步壓縮數據維度,簡化N×480的出行矩陣。本文首先采用主成分分析(Principal Components Analysis,PCA)對數據進行降維。PCA通過線性變換將原

表1 手機信令數據示例Tab.1 Examples of mobile phone data

圖1 基于個人出行OD的出行鏈構造Fig.1 Construction of trip chain based on individual travel OD


式(1)表示第i個個體的二項時間序列是由參數為的多項式分布產生,zi為第i類的類別標簽;式(2)表示每個類的類別參數是由狄利克雷分布產生的,K是類別的總數,從實際數據中得出;式(3)表示第i個個體對每個類的選擇,服從參數為的多項式分布;式(4)中參數則表示個體屬于每個分類的概率,這個概率可以從狄利克雷過程中抽樣得到。
本文使用中餐館過程[13]求解DPMM。每個個體xi屬于既有類的概率以及屬于一個新類的概率分別為:

其中,k是樣本xi所屬的類別編號,K+1為樣本xi被分配到新類的編號;B是歸一化因子。表示除的其他所有的類別,式(5)表示樣本被重新分配到既有類的概率,式(6)表示樣本被分配到一個新類的概率。
相較于其他聚類方法,DPMM具有兩個重要優點。一是該聚類方法無需事先指定聚類數量,通過模型逐次迭代得到聚類數量的最優值;二是該方法具有發現新類別的能力,如式(6)所示,當某個樣本與既有類別差別過大時,該樣本將被分配到一個新類中,有助于新類別的發現。
根據前文所述方法,本文共提取有出行(一天的出行次數大于1)的個體43萬,并從中隨機抽取5萬個個體(占總量的12%),進行個體出行聚類及出行模式分析。
首先采用Python進行主成分分析。指定降維后的主成分比例在90%以上時,得到38個主成分,即“特征活動”。為簡化文章篇幅,圖2所示為占比最大的前4個“特征活動”,占比達到31%。圖中每一列分別代表一個“特征活動”,橫坐標為時刻,縱坐標為5個位置標簽,圖中顏色(數值)為該時空位置的可能性,數值越高,表示可能性越大。
第1個“特征活動”表示在0: 00—8: 00個體處于“位置1”,而在9: 00—24: 00處于“位置2”,全天中處于“位置3”“位置4”“位置5”的可能性很小。實際上,該“特征活動”也是本研究中發現的有別于傳統調查法的最大區別,即一天中首尾時段所在位置不一致的現象。
第2個“特征活動”表示在工作時間7: 00—18: 00個體位于“位置1”,而休息時間0—9: 00、19: 00—24: 00位于“位置2”。由此可以判斷出“位置1”為工作地而“位置2”為家庭居住地。以往手機信令研究中將個人一天所在時間最長的位置地點推斷為家庭所在地。但從本次實踐中發現,由于手機信令數據采集的時間誤差較大(如出行實際發生于8: 00而被基站記錄的時間為9: 00),往往會造成在工作地的時間比在家庭所在地時間長的情況。因此,結合個體出行行為深化對家庭所在地、工作所在地的分析至關重要。這也是本方法的優點之一。
依次類推,第3個“特征活動”表現為凌晨至早晨、中午至下午在“位置1”,而上午、夜晚則在“位置2”;第4個“特征活動”表現出的行為則更加復雜,凌晨至早晨時間段無固定位置,上午、下午位于“位置1”,而中午、夜晚位于“位置2”。第3、4個“特征活動”也說明了居民活動的復雜性。

圖2 主成分分析結果Fig.2 Results of principal components analysis (PCA)
在主成分分析的基礎上,本文最終得到15個個體行為聚類,聚類結果如圖3所示。其中橫坐標為時刻,縱坐標中每一行為一個出行者(由于每類的個體數量不同,為使類與類之間的對比更加直觀,對每類選取的150個個體進行圖示化),不同顏色代表不同的位置標簽。
以圖3(2、3)類為例,類別2個體表現出的共同行為為:8: 00前、19: 00后位于“位置1”,8: 00—12: 00、14: 00—18: 00位于“位置2”,12: 00—14: 00的位置無共同特征。而類別3的共同行為為:早晚位于“位置1”,工作時間段8: 00—17: 00位于“位置2”。盡管在數學意義上,類別2、3有明確的區別,但從實際的出行模式上,可以推測這兩類均屬于典型通勤出行模式的范疇。因此,有必要進一步對個體行為聚類進行歸納總結,得到契合城市特征的出行模式分析。
2.2.1 常規出行模式
圖3中第1類為常規的非活躍類出行模式。全天大部分時間在位置1(可以將“位置1”推斷為家庭住址),偶爾有一些隨機的、短時間停留(不超過30 min)的出行活動。
圖3中第2、3、4、5類為常規的通勤類出行模式。全天中“位置1”與“位置2”的停留時間基本相同(可以將“位置1”推斷為家庭住址,“位置2”推斷為工作地),出行活動發生于6: 00—18: 00之間,且凌晨與深夜的位置一致。其中第2類可以理解為個體在中午工作休息期間伴有其他出行活動,如外出吃飯、回家等;第3類則為在工作時段無外出行為發生。第4類相對特殊,可以理解為一天中在工作地點的停留時間超過在家的時間。本文將第5類出行也歸納為通勤類活動,因為其出行的時刻分布與通勤類出行相一致,但是并不一定具有固定工作地性質。
2.2.2 非常規出行模式
傳統問卷調查默認居民早晚位置一致,即為家庭所在地,居民一天的出行為一個封閉的環路。但從本次手機信令數據的研究發現,就三亞市而言,早晚位置不一致的現象非常普遍。圖中第6、7、8、9、10類即為此類模式。
第6、7、8類的突出特征是出行首尾位置存在不一致的現象,除了“位置1”“位置2”停留時間較長外,其余位置停留時間均較短(一般不超過1 h)。這可能與三亞市的產業結構有關。三亞市內不僅有大量游客,更有大量旅游行業從業人員,如酒店、賓館服務人員等。這類人員的工作性質與普通通勤人員完全不同,常常夜間工作、白天休息,或白班、夜班交替輪換,造成深夜與白天位置不重合的現象,本文將此類模式稱為“旅游服務類出行模式”。
第9、10類的突出特征是“位置2”與“位置3”的停留時間差別不大,意味著一天中有兩個主要的活動地點,且停留時間均很長。這與游客的出行行為存在一致性,如游客在一天中訪問一個景點,至夜間更換至其他酒店,導致一天中首尾位置不一致。此外,市域外圍鄉鎮居民進入中心城區辦事且當日無法往返等情況也與此類相似。本文將此類模式稱為“游客類出行模式”。
2.2.3 彈性出行模式
圖3中第11、12、13、14、15類可以理解為典型的彈性出行模式。傳統的基于問卷的居民出行調查法將彈性出行依據出行目的(如娛樂、購物、短時商務等)進行劃分,本質上期望建立目的與居民社會經濟之間的聯系。本文則從個體出行行為的維度考察此類出行的特征。從圖中可以發現,彈性出行發生的時間可分為8: 00—12: 00(第6類)、10: 00—14: 00(第7類)、14: 00—18: 00(第8類)、17: 00—20: 00(第9類)及18: 00—深夜(第10類)。不同時段的活動位置停留時間不一,第6、10類的活動停留時間較長,如醫院看病、夜晚娛樂等活動有關;而第7、8、9類的活動停留時間相對較短,則與白天外出吃飯、短時商務、傍晚遛彎等活動有關。各類出行模式的人群占比如表2所示。

圖3 個體行為聚類結果Fig.3 Results of individual behavior cluster based on DPMM
出行模式在空間上的分布特征能進一步反映城市空間結構與個體出行之間的相互關系。圖4為表2中5類出行特征在市域范圍內的空間分布。
為進一步說明各出行模式與城市空間的聯系,圖4a-圖4b首先給出了三亞市常住人口、外地游客的住址分布,用以表現三亞市城市空間功能布局的基本特征。從圖中可見,常住人口主要居住在老城區居住功能組團、各區所在鎮居住中心,而旅游人口的住址主要分布在老城區、三亞主要旅游景區等旅游服務成熟的功能組團,如亞龍灣、海棠灣、海坡等地。
圖4c為第I類出行模式,即非活躍類出行模式的住址分布。在空間上表現出相對均衡的特征,與常住人口的空間分布相契合。
圖4d為第II類出行模式,即通勤類出行模式的住址分布。在空間上表現出集聚于老城的特征,主要集中在緊鄰老城中心周邊的居住片區。這與通勤類出行的特征相契合,工作地與居住地空間距離相對較近,往往圍繞老城內的大規模就業崗位分布。
圖4e為第III類旅游服務類出行模式,即早晚住址不一致、且出行非常頻繁。在空間上表現出集聚在老城主要旅游資源周邊的特征。
圖4f為第IV類游客類出行模式,即早晚住址不一致、但日出行較少,且單一目的地停留時間較長。在空間上除了在老城內集中,在旅游景區周邊也有集聚現象,如亞龍灣、海棠灣。除此以外,位于高速以北的市域村鎮也有一些分布,意味著此類出行人群還包含一些市域范圍村鎮居民外出的情況。
圖4g為第V類彈性出行模式。在空間上表現出與常住人口分布規律相似的特征,并無明顯集聚現象。實際上,彈性出行也是發生在常住人口當中較為普遍的出行特征。
本文依托三亞市手機信令調查數據,通過居民個體時空軌跡的重構與分解建模,對個體出行行為進行聚類并歸納出5類出行特征。與以往基于問卷的調查相比,基于手機信令的個體行為聚類有助于發現新的出行模式,即一天之內起訖點不在同一位置的出行。考慮到三亞市作為旅游城市,大量旅游業從業人員存在特定的工作方式(夜間上班、白天在家,或“三班倒”交替工作),以及旅游人員有更換住宿地點的特征,該發現有助于更加深入地了解居民活動規律,并在此基礎上為基于活動的交通需求預測模型提供幫助。在聚類方法上,本文采用基于狄利克雷過程混合模型(DPMM)進行聚類。與其他聚類方法相比,該方法可在不事先假定聚類數量的情況下,自動發現新的聚類類別,對在大數據背景下豐富既有的研究手段有一定的幫助。該方法適用于任何城市任何類型的手機信令數據,甚至可以擴展為其他數據類型,如出租車GPS等時空采集度更加精細的數據。

表2 典型出行模式與個體聚類對應關系Tab.2 Typical travel mode and corresponding individual clusters


圖4 不同出行特征的空間分布Fig.4 Spatial distribution of different travel mode
然而,本文的研究仍然具有一定的局限性。居民個體的活動具有規律性及隨機性,本文所分析的時間跨度集中在單一的工作日。盡管通過聚類的方法在同一時間尺度下探討了個體之間表現出來的群體規律性,但對個體連續多天的活動行為及非工作日的活動行為尚未進行探討。在出行模式歸納中,受限于手機信令數據的先天缺陷(無居民的社會經濟屬性、 無地點用地類型),無法將某類出行模式與人群特征完全對應起來,而是通過典型人群的出行行為來進行概括,如“游客類出行模式”并非指該類出行只限于游客,實際上很多常住人口也表現出類似的出行特征。進一步將手機信令數據與城市用地類型(居住、商業等)及其他數據相結合,是未來的重要研究方向。