賀澤宇,年雁云,陳思文,邊瑞
(蘭州大學資源環境學院,甘肅 蘭州 730000)
城市功能區是城市規劃的重點,傳統城市功能區劃分中數據選取受主觀因素影響同時缺少現有城市空間結構的信息[1~2]。隨著地理大數據挖掘的不斷發展,包含GPS信息的交通和社交媒體數據在城市布局研究中的應用不斷深入,長時間序列且有位置信息的數據中包含著人們出行和活動的潛在信息[3]。
現今大多數結合多源數據的城市結構、布局的研究表明地理大數據在城市感知方面有著極大的優勢[4~6]。如劉瑜等[7]根據包含位置信息的大數據探索出人地交互的方式和人類移動模式;Liu J等[8]利用出租車位置、牌照識別和地理信息等數據重建了城市交通流量的時空模型。簡志春等[9]提出了一種基于邏輯回歸模型的社交網絡定位數據識別居民職住地的方法。另一方面,在多源數據中POI因其包含的位置信息、地點屬性成為城市研究中的重要數據源[10]。如王迪等[11]借助POI數據結合GIS核密度估計等多種方法對北京市的空間結構做了分析,并與現行總歸做了對比;郭昭等[12]基于東莞市POI數據識別了城市功能空間,并進一步探究了城市功能的復合化特征。同時,城市交通數據為人群移動模式,城市功能區等相關研究帶來了新的視角。陳澤東等[13]以出租車數據為基礎識別了6類城市功能區并探究了功能區之間的空間交互特征。逯琳等[14]借助浮動車數據快速、精細地分析了武漢市三環線范圍內的職住空間特征;Liu Y等[15]利用出租車數據進行聚類分析,引入“源匯區”的概念,劃分了上海市不同的功能區。
現有城市功能區的研究主要利用位置數據,缺少人群出行的時間屬性,如何將兩者結合起來還缺乏研究。此外現有研究將城市劃分為單一功能區,無法展現多種類型混合區域的細節,同時大多算法較為復雜,無法對快速發展的城市結構有快速的響應。本文基于西安市的出租車出行數據,通過k-medoids算法對地塊進行時間序列聚類,挖掘出功能區和居民出行規律之間的聯系,并結合POI數據提高了分析結果的準確性,結果將有助于研究西安市功能區空間分布的合理性及對城市發展規劃提供建議。
研究區域選擇包含西安市出租車出行數據的區域,坐標范圍為108.53E~109.36E,34.47N~33.96N,簡化為 3 518個 1 km×1 km的方格,如圖1所示。

圖1 研究區域
(1)出租車數據
本研究使用了西安市交通運輸局提供的2019年5月10日~16日一周的出租車運營數據,包含出租車編號、經緯度、時間、速度、方位角、載客狀態等字段。經過刪除重復、超限、缺失數據,提取出城市上、下車位置數據,最終獲得 690 978條上下車記錄,部分記錄如表1所示。

表1 出租車數據示例
(2)POI數據
POI(Point of Interest)是擁有地理坐標和屬性信息的點,反映了城市地理實體的空間分布。文中西安市POI數據通過高德地圖開發平臺提供的API獲取,并根據需要對23個大類做了提取、篩選、合并,最終得到12個類別,總記錄數為 271 016,每條記錄包括POI的經緯度、名稱、行政區、類別。
將西安市出租車出行上、下車數據按1周168個小時進行顯示如圖2所示,按照工作日、休息日、上車、下車分為4個數據集,再計算每一天每一個方格中每一時段的上下車數量。

圖2 一周上下車數據時序曲線
傳統聚類中樣本的接近程度主要是根據距離衡量,這是基于樣本間的獨立性和不變性。本研究采取一種考慮不同時間序列復雜程度的相似性度量方法,此方法使用兩個時間序列之間的復雜度差異信息作為現有距離度量的校正因子[16,17]。表達式如式(1):
CID(Q,C)=ED(Q,C)×CF(Q,C)
(1)
其中CID是complexity-invariant-distance的縮寫,表示經過復雜度校正的時間序列相似性度量參數,ED表示兩個時間序列之間的歐幾里得距離,其中ED的計算是假設有兩個時間序列曲線Q和C,將其視作n個點。
Q=q1,q2,…,qi,…,qn
C=c1,c2,…,ci,…,cn
這時兩個時間序列的歐幾里得距離計算公式如式(2):
(2)
CF表示基于時間序列復雜度的校正因子,計算公式如式(3):
(3)
其中CE(T)是時間序列T的復雜度估計,計算公式如式(4):
(4)
復雜度因子(CF)使復雜度具有明顯差異的時間序列彼此分開,避免了不同復雜度時間序列因傳統距離度量而產生的誤分,在所有時間序列具有相同復雜度的情況下,CID簡化為歐幾里得距離,降低了計算復雜度,適用于較為簡單的時間序列相似性度量。
本研究采取k-medoids算法對時間序列曲線進行聚類分析。相比于k-means算法,此算法受異常點的影響較小,當已知聚類數的時候,計算復雜度低且精度較高。
考慮到聚類結果的有效性、分類的效率,本研究選取輪廓系數法(Silhouette Coefficient)和誤差平方和(SSE)兩種指標來選擇最優聚類數,結果如圖3所示。綜合兩種指標,選取最佳聚類數7。

圖3 輪廓系數和誤差平方和隨K值的變化
為了對出租車出行數據的時間序列聚類結果進行補充和修正,引入歸一化POI指數。首先,分別計算上下車聚類結果中每一類POI在每一類別中的權重,計算公式如式(5):
(5)
其中,Ni,j表示第i類聚類結果中第j類POI的數量,M代表研究區域中的方格總數。
為了消除不同聚類結果中POI指數數量級間的差異從而方便比較,對Li,j采取傳統的Min-max標準化方法進行處理,計算公式如式(6)。
(6)
其中Lmin,Lmax分別代表每一組上下車數據中的最小、最大POI指數。
利用k-medoids算法對提取出的上、下車位置進行時間序列聚類分析,得到每一組數據的7個聚類結果,結果中包含聚類結果空間分布(圖4、圖5中的a、c)、類別平均時間序列(圖4、圖5中的b、d)。

圖4 工作日上下車數據聚類結果

圖5 休息日上下車數據聚類結果
將沒有數據的方格命名為W0,其他根據此類別的方格總數從大到小的順序命名為W1-W6。上車數據聚類結果如圖4(a)、(b)所示,每個聚類的平均時間序列曲線和方格顏色一致。W1類從空間分布的角度來看,主要集中于主城區,與其他類別相比分布更為連貫且成片出現;從時間角度來看,可以發現出行的早高峰出現在7點,午高峰出現在1點,10點~12點存在一個低谷,3點也存在一個低谷,6點之后出行量開始增加,這與工作日居民區的上班出行習慣較為一致,初步判斷主要為居民區和休閑娛樂區。
W2類主要分布在主城區以外,分布較為離散,只有一個高峰在6點,出行量總體較少,出行時間不固定,判斷可能為上班或者事務性出行。
W3類的分布集中于城市外圍,但更為靠近主城區,整體分布比較離散但是小區域較為連續;7點~8點出行量有一個高峰,12點和6點有一個低谷,整體保持平穩,推測為風景名勝,購物場所。
W4類所處區域主要為主城區,分布特征同W1類相似,存在早高峰7點和午高峰1點,18點之后出行量持續增加,參考W1類估計為居民區和休閑娛樂區。
W5類靠近城市外圍,分布也更為離散,7點到24點出行量基本維持在一個相同的數量,推測主要為風景名勝、購物服務。
W6類數量最少,主要分布在城市外圍,10點和18點有一個高峰,9點和16點有一個低谷,但出行量較少,推測早上9點以后為事務性出行,18點為下班時間,應該屬于辦公場所。
下車數據聚類結果如圖4(c)、(d),對比工作日的上車數據可以發現,區域中有下車數據的地塊更多,覆蓋的范圍更大。
休息日上車數據聚類結果如圖5(a)、(b),下車數據聚類結果如圖5(c)、(d)。從空間分布中可以發現,休息日的空間分異程度相比于工作日很小,這符合休息日人們的出行習慣。
對于特征不明顯或包含多種特征的區域依靠單一時間序列曲線難以進行識別,而時間序列聚類和POI的結合可以互相補充達到提高識別精度的目的。
為了利用POI具有的城市地物屬性特征對時間序列分析的結果進行補充,這里引入歸一化POI指數,計算結果示例如表2、表3所示。

表2 工作日上車數據聚類結果的歸一化POI指數

表3 工作日下車數據聚類結果的歸一化POI指數
以工作日上車數據為例,W1類中指數最大的是金融保險,其次是交通設施、住宅,推測是居民區及其周邊設施,這比較符合對聚類結果的推斷;W2類POI指數較高的是風景名勝、政府機構、住宅,主要分布在主城區以外,結合上文分析推測為住宅和政府機構的混合區域;W3類考慮為比較成熟的商業區;W4類住宿、住宅的POI指數最高,且伴隨較高的餐飲服務、生活服務推測為居民區;W5類風景名勝的POI指數最大且伴隨較高的住宿服務,推測為風景名勝。W6類數量較少,POI指數中政府機構、公司企業POI指數較大,推測為政府機構和產業園區等工作場所的混合區域。
結合歸一化POI指數對時間序列聚類結果的補充、修正,可以確定每一方格的功能區類型。結果如圖6所示,其中“未識別區”為沒有出租車上下車數據的地塊。從圖6中可以看出單一功能區較少,大多數地塊屬于混合區。以居民區為例可以看出,居民區的選址往往要求購物方便或者臨近景區、周圍有學校等,所以包含居民區的地塊也大多會跟商業區、工作區、科教區、景區等混合,與我們的常識相符。

圖6 功能區識別結果
為了驗證結果的可靠性,在研究區內隨機選擇了100個方格,除去無數據區最終確定42個方格作為驗證點,方格的位置如圖7所示,對照谷歌影像、街道地圖、識別結果,目視判別了驗證點的功能區類型,正確分類34個方格,錯誤分類8個方格,總體精度0.81。此外隨機選擇了5個典型區域的功能區識別結果作為細節展示,從左至右分別為谷歌影像、街道地圖、識別結果,從上至下分別為不同區域,結果如圖8所示。如區域A包括大明宮國家遺址公園、方新村與龍首商業街區的混合區,分別對應識別結果中的景區、混合區(居民區、商業區),識別結果準確。

圖7 驗證方格位置示意圖

圖8 區域E識別結果與谷歌衛星圖像和街道地圖的對照
此外結合分析結果,探索了功能區在工作日和休息日的動態變化,具體的結果如圖9所示。其中變化區域635個,不變區域854個,除去無數據的區域,變化區域占研究區域的42.6%,不變區域占比57.4%。變化區域主要分布在較為靠近城市三環的區域,而不變區域主要分布在城市外圍,說明主城區的土地利用效率較高,利用強度也較大,而郊區則大多具有較為固定的功能區類型。

圖9 變化區域與不變區域分析
本文利用西安市一周的出租車出行數據、POI數據對西安市的功能區進行識別,結果表明,城市居民出行特征與城市功能區相關,說明了出租車數據的分析挖掘對城市功能區識別的可行性。同時時間序列聚類的結果也表明單一出租車數據對地塊類別的分類有一定的局限性,加入POI數據則可以互相補充,提高了功能區識別的準確性,避免了僅靠出租車數據無法識別混合區和POI數據缺乏定性分析的局限性。
從最終的分類結果看,平均上車數量最多的地塊主要集中在城市的中心,說明城市中心活動強度最大,活動強度與偏離市中心距離成反比。對比工作日和休息日,工作日地塊的空間分異較大,說明休息日人們出行行為較單調,出行需求也較工作日小。同時本文也存在一定的局限性,城市居民的出行方式多種多樣,出租車適用于中短距離的出行,僅使用出租車數據會存在一定的偏差。所以在后續的研究中,考慮加入多源數據,如IC卡刷卡數據、社交媒體定位數據等來進一步提高功能區識別的全面性。