張 見 張 寧 邵家玉
(1. 東南大學自動化學院,210096,南京;2. 東南大學智能運輸系統研究中心軌道交通研究所,210018,南京//第一作者,碩士研究生)
城市軌道交通系統中的實時客流數據信息對提高地鐵系統服務能力至關重要。然而,由于城市軌道交通自動售檢票(Automatic Fare Collection,AFC)系統中的設備供應商的多樣性以及實時數據傳輸過程的復雜性等原因,使得從AFC系統中獲取的實時客流數據并不能完全反映運營實際情況,部分車站在某些時段的實時進站客流量與實際進站客流量差異較大[1]。為了保證所獲取的實時客流數據的質量,可通過對各車站、各時段客流量設定合理的閾值,從而對實時獲取的客流數據進行異常檢測和糾錯處理。在此過程中,閾值上限和閾值下限的合理設定最為關鍵。
根據同車站、同時段客流分布符合正態分布的特點,利用均值-三倍標準差法確定客流閾值上、下限是一種簡便易行的方法,但由于樣本數據本身存在異常值以及部分車站的季節性客流波動較大等原因,導致得出的閾值范圍過大,不能有效地對實時獲取的進站客流數據進行異常檢測。文獻[1]通過人工設定各樣本序列均值所對應的最大閾值,得到樣本序列的最大標準差,利用樣本標準差與樣本均值的比值判斷閾值設定是否過大;文獻[2]通過模型確定待檢測點的預測值和方差值,以確定數據異常檢測的閾值范圍,取得了較好的異常檢測效果。文獻[3]的研究表明,混沌支持向量機回歸模型對非線性時間序列回歸預測效果較好。在客流預測模型建立過程中,考慮進站客流時間序列的混沌特性,以加強模型對非線性時間序列變化規律的表征能力。基于此,本文采用混沌支持向量機回歸模型預測各時段的進站客流量,結合假設檢驗方法,利用同類日期、同時段下訓練集的擬合殘差構造服從特定分布的隨機變量,依次計算各時段對應的進站客流預測殘差在相應置信度下的置信區間,進而得到實際進站客流量的檢測閾值上、下限,以期獲得更有效的異常檢測范圍。
混沌是指在確定性系統中出現的一種貌似無規則的、類似隨機的現象[4]。文獻[5]中的嵌入定理表明,通過對混沌時間序列進行相空間重構,可以還原混沌系統的非線性動力特性,從而把握混沌時間序列的性質與規律。通過計算時間序列的Lyapunov指數[6],可以驗證序列的混沌特性,而混沌時間序列在短期內是可以預測的[7]。
首先對時間序列相空間重構,計算時間序列的時間延遲和最佳嵌入維數,進而得出Lyapunov指數,為正則意味著該時間序列混沌。
由于C_C方法[8]具有易操作、計算量小、抗噪能力強等優點,故本文采用C_C方法計算序列的時間延遲和最佳嵌入維數。對于Lyapunov指數的計算,本文選用改進的小數據量法[4,9]進行計算,其計算步驟如下:
步驟1 采用C_C方法計算出時間序列(長度為N)的時間延遲τ和嵌入維數m,相空間重構為:
X={Xp}
(1)
其中:Xp={x(p+(m-1)τ),…,x(p+τ),x(p)},p∈{1,2,…,M},M=N-(m-1)τ。

(2)

步驟3 對相空間中的每個點Xp,計算出該鄰點對的第p個離散時間步后的距離為:
(3)

步驟4 對每個q,求出所有p的lndp(q)平均值y(q),即:
(4)
其中:q是非零dp(q)數目,用最小二乘法做出回歸直線,該直線的斜率即為最大Lyapunov指數1。
應用C_C方法求得混沌時間序列x={xp|p=1,2,…,N}的時間延遲τ和嵌入維數m,并對原時間序列數據進行相空間重構;利用重構后的矢量數據進行單步預測,樣本空間映射函數f:Rm→R,使得x(n+1)=f(X(n)),即用于模型訓練與測試的樣本集可表示為:
D={(X(n),x(n+1))|n=
(m-1)τ+1,(m-1)τ+2,…,N-1}
(5)
為了提高模型的預測能力和計算速度,需在模型訓練之前對樣本集數據的輸入部分的各列數據進行標準正態分布轉換,并將轉換后的樣本集代入支持向量機回歸模型[10]中進行模型訓練,同時采用大范圍網格搜索尋優確定支持向量機回歸模型中的懲罰系數C、不敏感系數ε以及指數徑向基核函數參數λ,以優化模型的預測效果。將待預測時段的輸入矢量數據進行與訓練樣本集同分布的正態分布轉換后,代入到訓練好的模型中,即可得到待預測時段的進站客流量預測值。

(6)
式中:
μ——該時段預測殘差總體平均值;
σ——該時段殘差總體標準差。
(7)
(8)


[y^(i)+e-(i)-Zα/2·s(i),

y^(i)+e-(i)+Zα/2·s(i)]
(9)


y^(i)+e-(i)-n+1n·tα/2(n-1)·s(i),

y^(i)+e-(i)+n+1n·tα/2(n-1)·s(i)
(10)
由于實時進站客流量數值為整數,故需要對置信區間的下界向上取整,上界向下取整,取整后的置信區間左端點即為閾值下限,右端點即為閾值上限。
由上文可得,基于混沌支持向量機回歸模型的實時進站客流量異常檢測與處理的方法步驟大致如下:
步驟1 根據C_C方法確定混沌時間序列的時間延遲τ和嵌入維數m,對混沌時間序列進行相空間重構,并對相空間中的每一維的數據進行標準正態分布轉換,生成訓練和測試樣本集。
步驟2 將轉換后的樣本集代入到支持向量機回歸模型中進行訓練,并利用大范圍網格搜索對模型中的懲罰系數C、不敏感系數ε以及指數徑向基核函數參數λ進行尋優,得到優化后的預測模型。



本文方法的流程描述如圖1所示。

圖1 進站客流量異常檢測與處理流程圖
本文數據源于南京地鐵軌道交通2號線大行宮站2013年7月30日至2014年1月20日5:30—23:30之間的進站客流數據,進站客流數據的時間粒度取15 min(即第1天的5:30—5:45記為時段1,5:45—6:00記為時段2,…,23:15—23:30記為時段72,第2天的5:30—5:45記為時段73,以此類推),該時間段內的進站客流數據的數學表示為x={x(i)|i=1,2,…,12 600}。選取長度N=3 000的子時間序列x={x(i)|i=1,2,…,3 000},應用C_C方法計算時間序列的時間延遲τ和最優嵌入維數m,算得τ=3,m=15,利用小數據量法的改進方法求得該序列的最大Lyapunov指數λ1=0.06>0,故該地鐵車站進站客流量時間序列具有混沌特性。
對原混沌時間序列進行相空間重構,并以2013年7月30日至2013年9月24日的數據作為訓練數據,2013年9月25日至2013年12月28日數據作為驗證數據,2013年12月29日至2014年1月20日的數據作為測試數據,對訓練、驗證和測試數據集進行標準化轉換后,運用大范圍網格搜索法優化支持向量機回歸模型中的參數,即懲罰系數C、不敏感系數ε以及核函數參數λ,尋優得到優化后的模型參數C=360,ε=3,λ=0.03。
圖2為2013年8月5—18日大行宮站進站客流數據分布圖。由圖可知,工作日的客流變化規律大致相同,非工作日的客流變化規律亦大致相同,但工作日與非工作日的客流分布情況差異較大。由計算可知,訓練樣本集中工作日與非工作日各時段殘差序列的統計參量值差別較大,故各時段的模型訓練殘差數據要區分工作日與非工作日,利用支持向量機回歸模型得到模型訓練樣本中各時段進站量殘差數據,進而獲取工作日與非工作日各時段模型預測殘差的統計參量值,即樣本均值、樣本方差和樣本數。為了測試本模型對兩類日期進站量異常檢測的效果,對2013年12月29日至2014年1月20日間的進站客流量數據進行了有效性檢驗,并給出2013年12月31日(工作日)閾值設定和異常檢測的具體計算過程(非工作日計算過程與此類似)。


圖2 2013年8月5—18日大行宮站進站客流量分布圖

圖3 2013年12月31日進站客流量異常檢測閾值對比圖
應用本文閾值計算的方法(記為方法1)與文獻[1]中的方法(記為方法2)得到2013年11月31日各時段的進站客流量異常檢測閾值上、下限如圖3所示。方法2的閾值范圍主要是根據歷史同期進站客流數據的樣本均值和樣本標準差計算確定的,并通過樣本標準差和樣本均值的比值對閾值范圍是否過大進行判斷,進而有效控制各時段閾值范圍的大小;而方法1的閾值范圍主要是由待檢測時段的模型預測值、歷史同類日期同時段進站客流數據模型預測殘差序列的樣本均值和樣本標準差共同確定。因此,從方法機理角度分析可得,方法1相比方法2具有更好的客流規律適應能力和數據異常檢測效果。通過實例計算可知,利用方法1對2013年12月29日至2014年1月20日間的進站客流量數據進行異常檢測,計算得到各時段閾值范圍大小的均值為223.4,數據異常檢測的誤報率為3.2%;而利用方法2計算得到的各時段閾值范圍的大小均值為256.3,數據異常檢測的誤報率為5.8%。因此,方法1相較于方法2算得的各時段閾值范圍收縮了12.8%,數據異常檢測的誤報率下降了44.8%,即本文方法有效收縮了實時進站客流量數據的有效性檢測范圍,降低了數據有效性檢測的誤報率,進一步加強了對數據有效性檢測的能力。
本文采用支持向量機回歸模型進行實時進站客流量預測,根據訓練集工作日和非工作日各時段擬合殘差序列統計分布特性,確定實時進站客流量異常檢測閾值。由實例可見,該方法有效收縮了進站客流量的異常檢測范圍,降低了數據異常檢測的誤報率,強化了對異常客流數據的檢測能力,保證了實時獲取客流數據的準確性和及時性,為乘客信息服務系統、實時客流預測以及大客流預警等應用提供了可靠的數據支持,從而增強了軌道交通的服務能力。