李君羨,吳志周*,沈宙彪
(1.同濟大學道路與交通工程教育部重點實驗室,上海201804;2.上海市城市建設設計研究總院(集團)有限公司,上海200125)
關鍵路段指容易發生交通擁堵或其失效后對局部路網通行效率造成較大影響的路段,常和路網脆弱性相關.基于此定義,大量研究著眼于路網失效狀態,如交通事故、道路中斷下的路網運行情況變化,從而識別關鍵路段,如張建旭[1]以路段失效后交通流在局部路網重分配情況為基礎,確定不同時刻的路段關鍵度;也有學者從路網結構和路段位置關系入手查找拓撲結構中最重要路段,如蘇飛[2]等以時空相關函數表達不同延遲下路段交通狀態之間的影響,并作為路段重要性的衡量指標.
Sullivan[3]指出,在路段通行能力削弱程度不同時關鍵路段排序也不相同,在極端條件下篩選出來的關鍵路段不具代表性.且日常交通擁堵很少造成路段完全失效,發生擁堵的路段反而聚集大量通行需求;完全基于路網拓撲結構識別關鍵路段常基于假設或模型描述路段間的交通影響,和實際情況有一定差距.此外,現有研究多基于路段數少于20 條的小型路網結構,在大規模路網的實施效果難以保證.有研究利用路網實際數據,從路段在交通活動中實際承擔的功能出發研究路段重要性,如Othman等[4]基于事故數據,研究事故高發路段的交通特性從而確定關鍵路段.這類研究由真實數據驅動,目的在于查找一般狀態下對路網交通參數產生關鍵影響的路段,對路網效能管理與提升更具指導意義.本文沿用這一思路,利用真實大規模路網數據,基于對路徑行程時間的影響識別關鍵路段,并以識別結果為參考,結合路段行程時間特性等建立關鍵路段判別模型,實現主動查找關鍵路段.
數據覆蓋上海市外環內地面路段共2 884條,長度分布集中.由浮動車于2008年9月17日全天持續采集.經地圖匹配和聚合統計,形成時間間隔為5 min 共288 個時間段的路段平均行程速度;另有數據表記錄各路段長度、起終節點編號與坐標位置、所在道路等級.以時間間隔序號為列索引,以路段編號為行索引構建路段平均行程速度矩陣SA,其(i,j)元sij為第i條路段在第j個時間間隔期間的平均行程速度.圖1為統計數據缺失情況.
午夜城市道路交通流多為自由流,如路段首、末端速度中僅有一端值缺失,則以另一端值補全;若兩端值同時缺失,以當日該路段最大速度補全.其他缺失做線性插補.

圖1 數據缺失分組頻率統計Fig.1 Frequency chart of different missing values for intervals and for links
記路段i長度為li,構造路段平均行程時間矩陣TA,矩陣第i行向量ti對應第i條路段在1 d 內各間隔的行程時間序列,其(i,j)元為第i條路段在第j個時間間隔期間的平均行程時間.對各路段做行程時間最大歸一化,得到全日路段最大歸一化行程時間矩陣,其(i,j)元
路段是構成路網中所有出行路徑的基本單元,出行者確定路徑后,其行程時間等于從出發時間起計,經過路徑中所有路段的行程時間之和.路段行程時間持續波動,故同一路徑不同出發時間的行程時間不同,其計算步驟如下.
Step 1 確定出發時間,定位路徑初始路段,初始化行程時間tl=0.
Step 2 在SA中標記各時間間隔所在路段編號,如圖2所示.當前時間間隔剩余時長tC和當前所在路段的剩余行程距離sC關系有3種情況.

圖2 路徑行程時間計算示意圖Fig.2 Schematic diagram of route travel time calculation
情況1tC期間完成sC行程后還剩余時間.將sC所用行程時間計入tl,更新tC為完成sC后剩余的時間.如后續還有其他路段,則繼續分情況計算;否則,轉至Step 3.
情況2tC期間不足以完成sC行程.將tC剩余時間計入tl,更新sC為當前路段未完成路段距離,轉入下一個時間間隔繼續分情況計算.
情況3tC期間剛好完成sC行程.將tC時間計入tl,如后續還有其他路段,則同時更新tC和sC為下一元素;否則,轉至Step 3.
Step 3 保存tl為行程時間,結束計算.
將所有路段起、終節點(n=5 768 個)統一編號,構造當前路網的鄰接矩陣P=(pij)n×n,其中,pij用非0 值和0 分別表示是否存在以節點i為起點、節點j為終點的直接連通路段,該非0值為連通路段長度.
構造路徑集合Ll步驟如下.
Step 1 初始化參數.需生成路徑數量Cl,路徑長度最小值ll,單位為m,路徑至少包括路段數量Cs.初始化路徑實際長度la=0,路徑實際包括路段數量Ca=0,初始化路段列表Ls.
Step 2 隨機選取編號為q0的節點為起點.
Step 3 在P的第q0行向量中隨機選擇pij≠0 項,獲取pij對應的路段編號,檢查其是否已在Ls中.若是,則重新選擇以避免路徑閉環;否則,更新la=la+pij,Ca=Ca+1,在Ls中追加pij對應的路段編號,令q0=j.
Step 4 若la≥ll且Ca≥Cs,終止本輪計算,將Ls加入Ll;否則,返回Step 3.
Step 5 若 |Ll|=Cl,終止全部計算,返回Ll;否則,返回Step 2.
生成路徑池,以5 min為間隔計算池中各路徑在全天不同時間出發所需行程時間,構成其行程時間序列;將該序列與經過各組成路段行程時間構成的序列對比,以皮爾遜系數為指標,選擇該值高于設定閾值Pth的路段加入候選重點路段集合;綜合所有路徑計算結果,查找與池中Nth條以上路徑行程時間高度相關的路段.
借鑒蒙特卡洛思想,將以上實驗重復數次,綜合篩選影響路網行程時間的關鍵路段集合.考慮路段平均長度552 m,為避免超長路徑削弱短路徑影響效應并兼顧每輪實驗計算速度,特別控制路徑長度且合理確定實驗次數,確定參數ll=1 200 m,Cs=3,Cl=5 000,Pth=0.8,Nth=5.重復20 次實驗并觀測發現關鍵路段數量的變化,在第18 次實驗后,關鍵路段數量保持533 條不再增加,如圖3所示,其中5次實驗的主要結果如表1所示.

表1 關鍵路段查找實驗部分結果Table 1 Part of results of critical-segment searching experiments
本方法由真實數據驅動,基于路段對行程的實際效用識別關鍵路段,無理想假設作為基礎,識別結果可作為關鍵路段的“真值”.多次實驗結果漸趨穩定說明方法可行,但其對算力有一定要求,且基于歷史數據存在滯后效應.為實現主動管理,研究路段屬性與其關鍵性的相關關系.以上述識別結果為依據,研究關鍵路段的主動查找模型,抽取路段屬性作為建?;A.
綜合構造如下屬性:
(1)路段長度屬性(m).
(2)路段位置屬性,分別標記內環以內(含內環)、中環與內環之間(含中環)、外環與中環之間(含外環)的路段屬性為2、1、0.
(3)路段平均速度屬性(km·h-1),對SA各行求平均值得到.
(4)路段速度標準差屬性(km·h-1),對SA各行求標準差得到.
(5)路段道路等級屬性,該屬性與路段紅線寬度、車道數量等相關,有一定代表性.分別標記快速路、主干道、次干道、支路路段屬性為3、2、1、0.
路段行程時間序列波動較大,但整體波動水平和波動聚集存在特征.由Dunn[5]提出的模糊聚類算法(Fuzzy C-Means Clustering,FCM)引入隸屬度概念以描述樣本屬于各個類別的概率,廣泛用于交通分析.

圖4 不同聚類數時Xie-Beni 指標值變化Fig.4 Value of Xie-Beni index corresponding to different clustering parameters
取K=3,繪制各類路段的最大歸一化行程時間序列曲線及其聚類中心曲線如圖5所示.不同聚類中心的數值水平有明顯差異;全天趨勢呈現類似規律,在第95和第220個時間間隔,即當日08:00前及18:30后出現行程時間高峰,但峰值高度有區別.

圖5 不同聚類結果的最大歸一化行程時間序列曲線及聚類中心曲線Fig.5 Maximum-normalized travel time series curves and clustering center curves of different clusters
預計路段曲線類型對路段是否為關鍵影響路段有指示意義,構造路段類型屬性,分別標記圖5中3類路段屬性為0、1、2.
Inclan[6]在1994年提出的ICSS(Iterative Cumulative Sums of Squares)算法被廣泛用于檢測時間序列的結構性變點(簡稱變點),李瑋峰[7]證明其用于研究道路行程時間序列特征的可行性.
ICSS 分析要求目標序列為平穩序列,為此對每條路段行程時間序列進行對數差分處理為Di[7],該序列中第j個元素dij為

任取兩條路段Di序列,如圖6所示.對全部路段進行ADF 檢驗顯示,其Di均為平穩序列,故可作為ICSS算法的輸入.

圖6 兩條路段的行程時間對數差分序列Fig.6 Logarithmic difference sequences of travel time for 2 segments
ICSS 運算結果顯示,當日共有982 條路段存在變點,其變點數量區間對應的頻率和變點所在時間間隔如圖7所示,少數路段變點數明顯多于其他路段.從路網整體看,變點出現有一定聚集性.隨機選取15 條變點高發路段,標記其變點出現時間間隔、位置,如圖8所示,可見單條路段也同樣存在變點時間聚集性.

圖7 變點數量頻率統計及時間分布情況Fig.7 Frequency statistics and time distribution of change points

圖8 15 條路段結構性變點出現時間間隔Fig.8 Intervals when structural change points emerged of 15 selected links
同時間窗口內變點數量越多的時間序列其方差變動越頻繁,穩定性越差,對行程時間將產生更大影響.一個路段的行程時間對數差分序列變點個數可能與該路段行程時間波動特征相關,構造路段變點屬性,記錄對應路段當天的變點個數.
綜合7個屬性,將路段類型屬性以獨熱編碼形式分解為3 個啞變量,再補充一個常數變量,擴展為10個變量.鑒于部分變量為類別變量,以kendall系數初步考察相關性,如圖9所示.

圖9 變量相關系數熱力圖Fig.9 Heatmap of correlation coefficient of variables
變量間非強相關,除道路等級較高路段平均行程速度快這一常見規律外,還有以下結論:路段速度方差與道路等級和路段位置相關,等級越高、位置越靠近城市中心,則速度方差可能越大;路段變點數量與路段長度、道路等級相關.
聚類類型和路段屬性有關聯:類型0 路段的道路等級相對較高,類型1 路段位置更靠近城市中心,類型2 路段的變點數量、速度方差和長度數值更大.可見聚類結果可能包含路段特性的其他信息.
構造路段關鍵標記屬性作為因變量,記533條關鍵路段該屬性為1,其他路段為0.綜合上述10個自變量構建二項Logit模型,稱模型1.如表2所示,除變點數量和路段位置外,其余自變量均明顯影響路段關鍵性.
現僅保留3.1 節的基礎指標構建二項Logit 模型作為對比模型,稱模型2.結果顯示,除路段位置標記外,其余自變量均影響路段關鍵性.
將數據代入兩個模型,比較預測指標,如表3所示.
兩個模型與隨機分類器的ROC曲線對比如圖10所示.可見其預測表現都高于隨機分類器,但模型1 AUC指標明顯優于模型2.

表2 Logit 模型1 計算結果Table 2 Results of Logit model NO.1

表3 模型指標對比Table 3 Comparisons of model indices

圖10 模型與隨機分類器ROC 曲線對比圖Fig.10 ROC curve comparison among 2 models and random classifier
綜上,基于路段長度、道路等級和行程速度統計參數等基礎屬性預測某條路段是否對路網行程時間有明顯影響,ACC 較高,考慮到路網2 884 條路段中有81.5%的路段并非關鍵路段,樣本有一定偏移,這個標準不難達到,實際上與市場份額模型相比,模型2的優勢很小,其REC僅為13.5%,查找真正的關鍵路段能力很差,導致模型2 的F1 和AUC 指標較低.模型1 的ACC 和PRE 兩項指標與模型2相差不大,REC和F1值更理想,查找真實的關鍵路段能力更好,可見基于最大歸一化行程時間的聚類在模型中有一定效用.
雖然路段變點在時間分布上有明顯的統計規律,且對不同路段有顯著差別,但對模型1 的預測沒有貢獻,可見變點數量對行程時間波動的常發性與波動集中出現的時間有揭示作用,但不代表波動的程度,這也體現在圖8中變點數量與標準差兩個屬性相關性不大,高頻小幅度的路段行程時間波動可能不足以對路徑行程時間造成影響.但變點數提供了觀察路段行程時間穩定性的新維度,變點在不同路段上及路網整體出現的聚集特性可作為行程時間穩定性評價的參考因素之一.
基于蒙特卡洛思想隨機構造路徑并基于行程時間序列相關性識別重點路段,在多輪實驗后呈穩定結果,證明方法可行.最大歸一化行程時間、行程時間對數差分序列的變點數量可作為描述路段行程時間特征的兩個新屬性,前者可提升自動查找關鍵路段的二項Logit 模型性能;后者對模型沒有貢獻,但有別于量化行程時間波動程度的傳統指標,提供了行程時間波動常發性和聚集性的新信息.