光志瑞 魏 運** 薛云雷 謝莎婷 吳雁軍
(1. 北京市地鐵運營有限公司技術創新研究院, 100039, 北京; 2. 地鐵運營安全保障技術北京市重點實驗室, 100039, 北京;3. 京投新岸線技術有限公司, 100089, 北京∥第一作者, 高級工程師)
選擇合理的歷史相似日(以下簡稱“相似日”),是城市軌道交通客流預測工作的重要組成部分。電力系統在負荷預測中對相似日進行了廣泛研究,如文獻[1-3]將溫度、濕度、日類型及天氣狀況等影響電力負荷的因素量化,給出了各因素相似度映射表計算日期的相似度。在交通領域,文獻[4]通過對OD(起訖點)概率矩陣進行聚類分析,將運營日分為5類;文獻[5]在對節假日客流進行預測時,提出了構建日期特征向量、選取合理評估函數的相似日選擇思路。但以上研究均缺乏對城市軌道交通客流影響因素的量化分析,以及日期相似度的系統化模型構建。
本文從日期相似度算法策略設計、各影響因素相似度計算、日期相似度模型構建等方面,提出了適合城市軌道交通客流預測的相似日選擇方法。
城市軌道交通客流預測相似日選擇的技術路線如圖1所示。

注:普通日是指正常工作日與雙休日;與之對應的是特殊日,特殊日含節假日、節假日的前一日、重大政治文化活動日等。圖1 城市軌道交通客流預測相似日選擇方法的技術路線Fig.1 Technical route of similar day selection method for urban rail transit passenger flow forecast
客流模式是指當日城市軌道交通線路/線網所對應的客流影響因素合集??土髂J皆浇咏?,客流的影響因素越相似,預測日與相似日在客流總量、客流分布情況或客流變化趨勢等方面越相似,因此,可將相似日的選擇過程轉化為客流模式的識別過程。定義第日客流模式的特征向量M(i)為:
M(i)=[Di,we,Di,lt,Di,wo,Ti,h,Ti,l,Wi,we,Wi,wi]
(1)
式中:
Di,we——星期類型,如星期一、星期二等;
Di,lt——與預測日的間隔時長;
Di,wo——工作日屬性;
Ti,h——日最高溫度;
Ti,l——日最低溫度;
Wi,we——晴、大雨等天氣狀況;
Wi,wi——風力。
普通日的客流量與日期距離密切相關。一般地,Di,lt越小,客流總量越接近,可稱為“客流總量相當日”。節假日、節假日的前一日(以下簡稱“節前一日”)等特殊日與鄰近普通日的客流規律差別較大,但和往年相同時期或相似節假日的變化趨勢相似,可稱為“客流變化相似日”。
在進行客流模式識別時,為節約運算成本、提高算法效率,可針對客流總量相當日和客流變化相似日,分別采用不同的相似日選擇算法策略。
策略一:選擇客流總量相當的相似日時,采用前向逐日檢索法,從最臨近預測日的歷史日開始,逆時序逐日計算每個歷史日與預測日的相似度,選取最近N天中相似度最高的n天作為與之客流總量相當的歷史相似日,或選取相似度大于某個閾值的n天作為歷史相似日。其中,n為確定選用的歷史相似日的總天數。
策略二:選擇客流變化相似的相似日時,采用雙向定位檢索法,將往年(如最近3年)同期作為定位點,如同一特殊階段、假期天數相同的法定節假日中與預測日時序相同的某天,從定位點分別正向、逆向逐日計算每個歷史日與預測日的相似度,確定n個歷史相似日。
1.4.1 日期相似度的計算
設Ri為歷史第i日與預測日的日期相似度,ri,m為歷史第i日與預測日在第m種客流影響因素上的相似度,km為第m種客流影響因素的權重系數(通過自適應過程標定)。采用各客流影響因素相似度累乘的方法計算Ri,通過km確定各因素的影響指數。km標定的目標是使Ri的排序與對應客流相似度排序盡可能一致。Ri的計算式為:
(2)
1.4.2 相似日樣本數n的確定
可借鑒聚類分析中確定類別數的方法確定相似日的樣本數:
1) 結合實際法。根據實際應用經驗,進行客流預測時,普通日可選擇4~6個相似日,特殊日可選擇1~2個相似日。
2) 肘方法。確定與預測日相似度最高的1~n個相似日,參考相似日的客流情況對預測日的客流進行預測,繪制樣本數與預測誤差的折線圖,折線的拐點處即為合適的樣本數。
客流的影響因素主要包括星期類型、與相似日的間隔時長、工作日屬性、日最高溫度、日最低溫度、天氣狀況、風力等。這些因素可分為0-1型指標、定性指標、定量指標3種類型。應按照影響因素不同的類型分別進行相似度計算。
工作日與非工作日、法定節假日與非法定節假日、重大政治文化活動日與非重大政治文化活動日間的客流特點明顯不同,兩兩絕非相似日。若歷史日與預測日同屬同一個類型,如均為工作日,則相似度取1,否則取0。式(1)中的Di,wo屬0-1型指標。
式(1)中的Di,we、Wi,we屬定性指標。計算定性指標的相似度時,可直接匹配已標定的相似度映射表。映射表標定流程如下:① 通過給定性指標賦值或借助其他定量指標,對定性指標進行定量轉化;② 對定量轉化后的指標進行量綱一化處理;③ 計算相似度,形成定性指標相似度映射表。
本文以星期類型相似度為例,介紹定性指標的相似度計算方法。星期類型對客流量有較大影響,構建星期類型相似度函數時,需遵循以下基本原則:① 星期類型的相似度函數分布在(0,1]區間;② 若星期類型相同,則相似度為1;工作日與雙休日相似度最小,最小相似度應大于0;③ 通過構造函數法構建相似度計算函數,使不同星期類型的相似度能夠較均勻地分布在(0,1]內。
根據以上原則,構建出星期類型的兩個相似度函數,其計算式分別為:
rDt,1=1-|xp-xq|
(3)
(4)
式中:
rDt,1——星期類型的相似度函數1;
rDt,2——星期類型的相似度函數2;
xp——星期類型為p的日期所對應客流量的量綱一化值;
xq——星期類型為q的日期所對應客流量的量綱一化值;
p、q——均為星期類型,星期一取1,星期二取2,…,星期日取7。

表1 基于兩個相似度函數得到的各星期類型間客流相似度結果Tab.1 Results of passenger flow similarity between week types based on two similarity functions
在特殊情況下(如星期六調休加班下的客流與工作日客流間差別較小),星期類型不應作為客流預測的主導因素。為避免星期類型在任何條件下均為主導因素,應使星期類型相似度較均勻地分布在(0,1]內,因此,選用式(4)作為星期類型的相似度函數,其計算結果如表2所示。

表2 基于式(4)得到的各星期類型間客流相似度結果Tab.2 Results of passenger flow similarity betweendifferent week types based on formula (4)
式(1)中的Di,lt、Ti,h、Ti,l、Wi,wi屬定量指標。本文以Di,lt、Ti,h為例,構造定量指標的相似度計算函數。
2.3.1Di,lt的相似度計算
Di,lt對客流的影響具有“近大遠小”的特點,即:當預測日為普通日時,Di,lt和Di,we為客流預測的主導因素。離待預測日越近,其客流特征越相似,且隨著與預測日距離的增加相似度緩慢衰減。當預測日為節假日及節前一日時,Di,lt為客流預測的主導因素,離定位點的距離越近其客流特征越相似,且隨著與定位點距離的增加相似度驟減。因此,引入特殊日因子λ,用以解決不同情況下主導因素變換的問題。同時,考慮到普通日距離衰減的緩慢性,分別引入了周衰減比例和日衰減比例,用以表述該指數函數的衰減程度。Di,lt相似度的計算式為:
(5)
式中:
rDd(d1,d2)——Di,lt相似度;
d1——第i個歷史日距離預測日的天數;
d2——第i個歷史日距離定位點的天數;
新思想、新理論的提出和形成都有其深刻的理論淵源,習近平黨的紀律建設思想就是在對馬克思主義關于無產階級政黨的紀律建設思想和中國共產黨人紀律建設思想的繼承和發展的基礎上提出和形成的。
ω1——普通日的周相似衰減比例;
ω2——普通日的日相似衰減比例;
ω3——特殊日的日期距離衰減系數。
式(5)中:λ為0-1變量,當預測日為特殊日時,λ取1,否則取0;int為取整運算,mod為取余運算。
2.3.2Ti,h相似度計算
Ti,h、Ti,l、Wi,wi等定量指標計算方法類似。以Ti,h為例,不同范圍內Ti,h變化對客流的影響程度不同:當Ti,h低于某閾值時,客流對最高溫度的反應不敏感,如Ti,h為23 ℃與28 ℃時(相差5 ℃)的客流量相當;但是一旦超過某閾值,客流對溫度的反應將變得敏感,如Ti,h為36 ℃與31 ℃時(相差5 ℃)的客流量相差較大。因此,通過構建分段函數來計算Ti,h的相似度,分段函數的影響系數用αk表示,Ti,h低于閾值時k取1,高于閾值時k取2:
rTh=1-αk|Tu,h-Tv,h|
(6)
式中:
rTh——Ti,h相似度;
Tu,h——第u日Ti,h量綱一化值;
Tv,h——第v日Ti,h量綱一化值;
αk——影響系數(k取1,2)。
當Ti,h低于某一閾值(如34 ℃),此時Ti,h不是主導因素,k取1,αk可取0.001(結合星期類型相似度賦值);當Ti,h高于某一閾值(如34 ℃),此時Ti,h為主導因素,k取2,αk可取0.020(結合星期類型相似度賦值)。
相似日選擇是否合理,主要通過評估預測精度來判斷。設城市軌道交通客流預測的平均絕對誤差為EMAE,平均絕對百分比誤差為EMAPE,其計算式分別為:
(7)
(8)
式中:

ys——實際客流;
t——預測樣本數。
本文基于經驗法與相似日選擇法,對2017年11月23日(星期四)進行相似日選擇,對該日的北京城市軌道交通全路網客流進站量進行預測,并對傳統經驗法的預測結果與本文提出的相似日選擇法的預測結果進行對比。
在選擇普通日相似日時,通常采用無異常情況的4個與預測日星期類型相同的歷史日期作為相似日。采用經驗法選擇的相似日為2017-11-16(星期四)、2017-11-09(星期四)、2017-11-02(星期四)、2017-10-26(星期四)。采用本文提出的相似日選擇法,式(5)的ω1取0.98,ω2取0.99,得到的計算結果如下:2017-11-22(星期三)的相似度為0.984、2017-11-21(星期二)的相似度為0.969、2017-11-16(星期四)的相似度為0.980、2017-11-15(星期三)的相似度為0.964。
在此基礎上,采用平均值與二次指數平滑法(平滑系數l分別取0.1、0.2、0.3)計算EMAE和EMAPE。經驗法和相似日選擇法得到的EMAE和EMAPE如表3所示。由表3可看出,對4種客流預測結果的誤差進行平均,可得到采用相似日選擇法得到的EMAE為5 080人次,EMAPE為0.08%,其預測精度高于經驗法的預測精度。

表3 基于兩種相似日選擇法的普通日相似日客流預測誤差對比
本文基于經驗法與相似日選擇法,對2017年國慶節的前一日(2017-09-30,星期六)進行相似日選擇,并預測該日北京城市軌道交通全路網的客運量。
經驗法選用2016-09-30(星期五)作為相似日,由于星期五與星期六相似度較低(僅為0.421),不能作為本次客流預測的參考。采用相似日選擇法得到的相似日為2017年端午節的前一日(2017-05-27,星期六),該日與預測日均為調休加班日,二者的相似度為0.786。
如表4所示,采用增長系數法進行預測得到相似日選擇法的EMAPE為1.27%,預測誤差小于經驗法的預測誤差(6.95%)。

表4 基于兩種相似日選擇法對節前一日客流預測的誤差對比Tab.4 Comparison of two similar day selection methods on passenger flow prediction of the previous day of holiday
選擇合理的相似日,是提高城市軌道交通客流預測精度的有效途徑。本文提出的用于城市軌道交通客流預測中的相似日選擇法,綜合考慮了星期類型、與預測日的間隔時長、工作日屬性、日最高溫度等各類影響城市軌道交通客流的因素,并根據各影響因素的特征構建了不同影響因素的相似度度量方法,可為不同的城市軌道交通客流預測場景提供參考。