屈 樹 學,董 琪,秦 嘉 徽,劉 雨 思,張 晶
(首都師范大學地球空間信息科學與技術國際化示范學院,首都師范大學三維信息獲取與應用教育部重點實驗室/城市環境過程與數字模擬國家重點實驗室培育基地/水資源安全北京實驗室,北京 100048)
北京市“十四五”規劃綱要提出要將北京市建設成弘揚中華優秀傳統文化和高品質宜居之城[1],兩個目標的受眾群體分別為游客和居民兩類人群。城市游客和居民的主客關系影響城市的經濟和文化發展,明晰二者的耦合關系有助于實現游客與居民的互利互惠[2]。基于位置服務(Location Based Service,LBS)的海量地理大數據(如社交媒體、手機信令、共享單車等)為探究城市空間分異格局提供了新方式[3-5],其在城市空間分異的應用研究主要有“人”和“地”兩種途徑[6]。學者們往往從“地”的角度探討固定場所的屬性趨同與分異(如功能分區[7]、空間交互作用[8]等),而把人產生的海量地理大數據看作一個整體,分配到研究單元中,但這種方式會忽略人作為城市主體其異質性造成的城市分異現象。從“人”的角度出發,識別相對均質的人群并分析、比較特定人群的活動特征,正作為研究城市空間分異的新方式受到越來越多的關注。近年來,旅游地理研究者嘗試通過社交媒體等地理大數據提取游客和居民的活動特征進行人群識別,并進行目的地挖掘[9,10]、文本主題挖掘[11]等探索。例如:Hasnat等基于用戶簽到坐標提取5個特征進行游客與居民分類訓練[12];Yang等基于用戶簽到坐標、簽到時間間隔等特征利用K-means聚類算法識別游客[13]。但與調查問卷等傳統數據相比,社交媒體數據提供的信息更“薄”[14],從中難以提取到滿足人群識別差異的適量特征,從而影響識別精度;同時,多數研究僅對單一人群進行識別與分析[15-18],或從簽到空間分布和簽到主題方面分析游客與居民的差異[13,19],較少考慮這兩種人群簽到地空間差異和類型分異。
“微博”+“旅游”正成為當代年輕人的主流出行模式[20],微博用戶在簽到地的真實態度與情感能反映用戶對簽到地的關注度。因此,本文基于微博簽到數據,通過擴充數據源獲取用戶更多的簽到信息,以此提取人群差異特征進行游客和居民識別;通過局部莫蘭指數方法提取并比較游客和居民的顯著性簽到聚集區域,通過層次聚類等方法對簽到聚集區進行類型劃分和差異比較,以期從宏觀角度挖掘游客與居民的空間分異格局,為旅游資源配置優化、北京特色文化宣傳、游客與居民出行推薦等提供服務,以及為建設高品質宜居城市和打造中華優秀傳統文化典范之城提供決策支持。
本文研究區為北京市主城區(東城區、西城區、海淀區、朝陽區、豐臺區和石景山區),面積1 384.34 km2,為保證研究區域的連續性,未包含朝陽區首都機場區域。城六區是首都“四個中心”功能的主承載區、國際一流和諧宜居之都建設的重要區域,也是疏解非首都功能的關鍵區域[21],探究城六區的城市空間分異對北京市的規劃與建設有重要意義。
本文以2016年4月15日至10月20日北京市六環內1 577 273條微博簽到數據(無簽到地址和POI類型屬性)為基礎,提取研究范圍內的用戶ID,借助微博開放平臺API接口,獲取每位用戶2016年全年的個人簽到數據作為擴充數據集(有簽到地址屬性),依托高德API接口,基于簽到地址進行地理編碼和POI類型編碼(采用高德一級分類,共23類)。最終,將基礎數據與擴充數據依據用戶ID匹配,作為本研究數據源(表1),共獲取到26 205位用戶1 416 666條有效微博數據,其中含經緯度屬性數據555 638條,含簽到地址和POI類型屬性數據235 717條。

表1 數據源示例Table 1 Samples of data sources
本研究技術流程(圖1)為:1)對原微博簽到數據進行擴充、清洗與融合等預處理,之后基于分類算法對游客與居民進行識別;2)基于局部莫蘭指數方法提取簽到聚集區;3)基于簽到點的POI類型對簽到聚集區進行聚類;4)比較游客與居民兩類人群簽到聚集區的差異及相似性。

圖1 研究框架Fig.1 Research framework
本研究中,游客為到某地短期游玩的人,對當地了解不深;居民為長期居住在某地的常駐者,對當地較為了解。本文借助機器學習[22]中的特征工程[23]及分類算法對游客與居民進行識別,流程(圖2)包括:1)特征選擇。游客和居民在研究區內外的停留時長、簽到次數、簽到頻率及訪問次數均有差異,本文借助擴充后的微博簽到數據源,將用戶的簽到行為特征分為時間特征、空間特征和簽到比率特征3類(表2),然后根據穩定性選擇方法選取合適特征并帶入分類器進行訓練。穩定性選擇[24]方法將二次抽樣和選擇算法相結合,通過循環選擇不同的數據子集和特征子集并計算得分以尋找最佳特征,重要特征得分接近1,無用特征得分接近0。2)特征訓練與建模。經過特征選擇選出合適特征后,選取分類效果最好的集成分類器進行特征訓練并建立分類模型,據此將數據分為游客簽到數據和居民簽到數據兩類。

圖2 游客與居民識別技術路線Fig.2 Technical route for identifying tourists and residents

表2 微博簽到特征Table 2 Features of microblogging check-in
局部莫蘭指數(Anselin Local Moran′sI)(式(1))常用于識別具有統計顯著性低值、高值以及異常值的空間聚集區域[25,26]。本文通過規則格網劃分研究區,將每個格網內用戶簽到點數量作為統計值,利用該方法分別提取游客和居民的簽到聚集區域。
(1)

2.3.1 詞頻—逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF) TF-IDF是一種文本詞匯重要性統計方法[27],其考慮到某些重要且特殊的詞在文檔中出現的頻次不高,通過加權處理提高該詞匯權重,以更好地表征此文檔的特征,計算公式見式(2)。本文利用該方法提取研究單元特征,研究單元內每個簽到點的POI類型構成一條詞匯,一個研究單元構成一篇文檔,經過TF-IDF處理后可得每個研究單元的特征向量。
(2)

2.3.2 層次聚類及聚類指標評價 層次聚類依據各聚類要素間的距離(相似度)創建一棵有層次的嵌套聚類樹。本文利用層次聚類法進行研究單元聚類,在獲取研究單元的簽到POI類型特征后,通過自下向上的凝聚方法構建聚類樹進行類別劃分[28,29]。首先將每個聚類要素當作一個簇,然后計算任意兩簇間距離,距離指標采用余弦相似度度量[29],為克服離群點,簇間距離采用(類)平均距離;將最近的兩個簇合并、迭代處理,直到合并完所有簇。在聚類完成后,應用輪廓系數(SC)[30]、戴維森堡丁指數(DBI)[31]、Calinski-Harabasz(CH)[32]值3個指標進行聚類結果評價。SC值越大,說明聚類效果越好;DBI越小,表明簇內距離越小、簇間距離越大,聚類效果越好;CH值越大,代表簇自身越緊密,簇間越分散,聚類效果更優。
在進行人群分類前,首先依據用戶簽到特征將2 000名用戶類型的人工標注數據構成數據集,并選取75%樣本作為訓練集,剩余25%作為測試集,隨后進行特征選擇并采用10次10折交叉驗證法進行分類訓練與評估。由穩定性特征選擇結果(圖3)可知,多數特征得分接近1,說明依據經驗提取的游客與居民差異特征較合理。剔除較低得分特征(“京外簽到頻率”),最終選取“注冊地(是否為北京)”“京內最大停留時長”“京外最大停留時長”“京內重訪次數”“京外最大停留時長地區重訪次數”“京外簽到數量”“京內簽到數量”“京內簽到頻率”“京外簽到數量/京內簽到數量”9個特征帶入分類器進行訓練。

圖3 特征重要性評估Fig.3 Assessment of feature importance
為獲取較好的分類結果,選取準確度(Accuracy)、精確度(Precision)、召回率(Recall)和F1值4個指標對分類結果進行評估;同時選取K鄰近(KNN)、決策樹(DT)、支持向量機(SVM)、隨機森林(RF)、AdaBoost 5個分類器對分類結果進行橫向比較(圖4),發現AdaBoost集成分類器綜合分類效果最佳,故將其作為最終分類器對游客與居民進行分類。如圖5所示,總計識別出游客4 187名,居民22 018名,帶有經緯度的簽到數據中游客18 803條,居民232 492條。將本文的分類方法與前人方法進行比較(表3),結果顯示本文方法各個評價指標的數值均有提升。

圖4 不同分類器分類結果比較Fig.4 Comparison of classification results for different classifiers

圖5 2016年北京市城六區游客與居民簽到分布Fig.5 Check-in distribution of tourists and residents in six core districts of Beijing in 2016

表3 不同分類方法結果比較Table 3 Comparison of classification results of different methods
利用規則格網進行研究區劃分并提取簽到聚集區,分別選取100 m、250 m、500 m及1 000 m格網進行試驗。提取結果顯示,1 000 m格網下的聚集區分布較寬泛,而100 m和250 m格網下結果較離散,500 m格網下結果理想,且研究表明,500 m是人類日常活動較頻繁的范圍[33],因此本文選用500 m格網作為局部莫蘭指數的計算單元,空間關系則采用適合面狀要素的一階鄰接面進行簽到聚集區提取(圖6)。

圖6 游客與居民簽到聚集區識別結果Fig.6 Identification results of check-in gathering areas for tourists and residents
總體看,游客和居民的簽到多集中在五環以內,以故宮為中心,整體呈現出中心高、外圍低的空間格局。東、西城區更靠近中心,簽到量高;石景山區遠離中心,關注度較少;海淀區和朝陽區的簽到環東、西城區分布,離中心越遠簽到量越低。豐臺區盡管在地理位置上鄰接東、西城區,但并未獲得微博用戶的高關注。游客在天安門、后海、三里屯周圍形成3個明顯的高密集簽到區,簽到密度由中心向外圍逐漸降低;居民除以上高密集簽到區外,簽到聚集區更加分散,在海淀區各大高校范圍內存在顯著的聚集區。
得到游客與居民簽到聚集區后,利用簽到點的POI類型劃分簽到聚集區類型,以挖掘游客與居民簽到聚集區的類型差異。將每個研究單元的簽到POI類型經過TF-IDF向量化與L1正則化處理后進行層次聚類(圖7),可以看出游客與居民均在11類時聚類效果最佳,故將最終聚類數設為11。

圖7 游客與居民聚類結果評價Fig.7 Evaluation of clustering results of tourists and residents
完成聚類后,統計游客和居民簽到聚集區類型內各POI類型的占比情況,兩類人群只在18種POI類型上存在簽到行為(圖8),進而對各聚集區類型相似度進行比較(圖9)。總體看,游客與居民在1-8類型上相似性很高,均由單一類型主導;9-11類型為混合類型,在9、10類型游客偏向住宿服務,居民偏向商務住宅,第11類型主要為政府機構及社會團體,游客地名地址信息簽到較多,居民則為商務住宅。進一步對比兩類人群聚集區各類型占比(圖10),發現二者均在類型4簽到較多,該類型以地名地址信息為主,且以“三里屯”“王府井”“五道口”等熱點地名為代表;二者在1、2、3、5、7、10類型上簽到量差異明顯,在餐飲服務、風景名勝及體育休閑服務主導的聚集區類型上游客明顯多于居民,在科教文化服務及商務住宅主導的聚集區類型上居民顯著多于游客。

圖8 游客與居民簽到聚集區類型內各POI類型占比Fig.8 Proportion of POI types in the different types of check-in gathering areas for tourists and residents

圖9 游客與居民簽到聚集區類型相似度評價Fig.9 Similarity evaluation of types of check-in gathering areas between tourists and residents

圖10 游客與居民簽到聚集區各類型占比Fig.10 Proportion of different types of check-in gathering areas for tourists and residents
由游客與居民簽到聚集區各類型的空間分布(圖11)并結合圖8可以看出,人群異質性造成簽到聚集區的空間差異及簽到類型分異。游客簽到聚集區類型特征及分布較明顯,環故宮簽到類型豐富且密集,外圍簽到聚集區類型單一且離散。其中,以餐飲服務為主導的類型區相對集中在三環內,周圍多為購物服務類型;圓明園、奧林匹克森林公園、798藝術區、法華寺等風景名勝區分布離散且多與科教文化服務類型相鄰;此外,還有以北京西站、北京南站、北京站等為代表的交通設施服務類型和以中國傳媒大學為代表的科教文化服務類型等離散性聚集區類型。居民簽到聚集區類型呈顯著的地區特征,其中,海淀區以科教文化服務類型為主,朝陽區以商務住宅類型為主,東、西城區主要是餐飲、購物及風景名勝等服務類型。同時發現,對于游客與居民,北京西站與北京南站均為相對獨立的聚集區,用戶熱衷簽到的地區與這兩個火車站都有一定的距離,火車站孤立現象也從側面反映了其周邊服務不均衡問題。

圖11 游客與居民簽到聚集區類型分布Fig.11 Distribution of different types of check-in gathering areas for tourists and residents
對游客與居民簽到聚集區的POI類型利用TF-IDF向量化并計算余弦距離,得到游客與居民共同簽到聚集區的相似性計算結果(圖12),取值范圍為[0,1],采用自然斷裂法將其分為7個等級,值越大表明該地區兩類人群的簽到類型越相似。從圖12可知,兩類人群在具有特定類型的場所簽到相似性很高,如北京西站、北京南站等火車站,北京大學、中國傳媒大學等科教文化服務場所,國家體育場、798藝術區、五棵松等風景名勝區。

圖12 游客與居民簽到聚集區內POI類型相似性度量Fig.12 Similarity measurement of POI types in check-in gathering areas for tourists and residents
本文以“三里屯”“中關村”“水立方”“亮馬橋”“天安門東”5類典型地區為例,通過簽到類型云圖(圖略)說明游客與居民兩類人群在相同聚集區內簽到類型差異。其中,三里屯地區游客主要集中于購物、體育休閑、餐飲及住宿服務,簽到類型具體且與旅游關系密切;居民則在購物及地名地址信息類型簽到較多,“三里屯”這一地名地址信息類型代表較寬泛,且多為用戶自主選擇,這也代表了居民對該地區較為熟悉。中關村地區游客與居民簽到類型差異顯著,對游客主要提供科教文化與商務住宅類型的服務,對居民則主要為生活與購物類型的服務。水立方附近地區對游客主要提供體育休閑、生活及住宿類型的服務,但該地區的“盤古大觀”“IBM”等商務住宅類型吸引了較多的居民簽到。亮馬橋地區附近眾多酒店為游客提供了住宿服務,周邊大使館為其工作人員提供了商務及住宅服務,盡管該地區簽到差異顯著,但其服務功能具有互補性。中關村和水立方兩地在旅游旺季是否會產生游客和居民的簽到“沖突”值得關注。此外,在天安門以東區域,游客多為餐飲及住宿活動,不太關注居民常去的“菖蒲河公園”,而這可以為旅游推薦提供參考。
由此可見,人群異質性導致相同地區提供的服務類型也會產生差異,利用大數據進行人群異質性研究不僅可以挖掘地區間的類型相似性,還可探索地區內部提供的不同服務類型,從而為找尋游客和居民這兩類人群的“平衡點”提供幫助。
本文應用社交媒體數據,篩選出具有代表性的人群差異特征進行游客與居民識別,其準確性、召回率等分類結果評價指標較前人方法均有顯著提升,為人群分類研究提供了參考。將簽到數據與簽到地的POI類型結合,以用戶的簽到數量作為研究單元內各個POI類型的權重進行聚類,為小尺度、細粒度研究單元的類型劃分提供借鑒,并從簽到地類型角度定量分析對比了北京市游客與居民的簽到差異,主要表現在以下方面:1)從簽到聚集區的空間分布看,游客比居民簽到更集中,但二者的簽到聚集區都呈現出以故宮為中心,北高南低、東高西低的分布格局。2)從簽到類型看,游客簽到聚集區集中在故宮周邊以及圓明園、奧體中心等知名景點;居民簽到較分散,但高校簽到量突出,體現了社交媒體使用偏向年輕化的特點。3)游客和居民在火車站、高校等單一的土地利用類型區域簽到相似度較高,同時存在“三里屯”“中關村”等相似度較低的地區,一方面體現這些地區為混合土地利用類型,另一方面揭示了由人群異質性產生的地區類型偏好差異。通過研究這些差異不僅可以發掘一些潛在的景區進行旅游推薦,而且可以為游客與居民之間的“主客關系”研究提供參考。
微博這一社交媒體數據提供了空間分異研究的宏觀視野,但代表的人群存在有偏性,所揭示的空間分異代表人群多為青年,且學生占比較大。今后可以考慮專門針對學生群體并結合感興趣區等數據進行區域研究,此外,社交媒體數據蘊涵的豐富文本內容也是以后研究的重點。