999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于遷移學習的軌道交通特殊OD客流預測研究

2024-04-02 01:48:58王志飛
鐵道運輸與經濟 2024年3期
關鍵詞:模型

王 欣,王志飛,王 煜

(1.武漢工程大學 郵電與信息工程學院,湖北 武漢 430205;2.中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081)

0 引言

近年來,城際鐵路、市域鐵路開始受到地方政府的重視,各地紛紛圍繞著核心大城市、省會城市、國家中心城市修建城際鐵路、市域鐵路,以彌補城市軌道交通與國鐵干線間的市場空白,滿足跨城、跨區域旅客的出行需求。城市軌道運營公司迫切希望加強對旅客乘車需求的把握和預測。但及時、準確地對客流進行合理的預測一直是個難題。一般來說,根據預測時間的長短可以分為短期預測和長期預測2 大類。對于軌道交通運輸企業,更加關注短期的預測問題。軌道交通客流在短期內受到許多因素影響,如天氣、環境、突發事件等,無論采取什么模型方法,總有些隨機因素無法準確識別度量出來,導致預測工作難度很大。

目前學界對短期客流預測的方法很多。最為常見的是基于時間序列的參數方法[2],包括差分自回歸移動平均模型(ARIMA)[3]、季節性差分自回歸移動平均模型(SARIMA)[4]。這類模型主要刻畫客流的短期周期性和季節性趨勢,缺點是只對具有平穩性的時間序列有效,而現實中數據大多是非平穩的。還有一類非參數方法近年來強勢興起,主要包括貝葉斯模型[5]、支持向量機[6]、深度學習[7-8]等。由于軌道線路的固有特點,線路整體長度較短,且站間距離較小,造成同一線路上不同站間組成的區段運輸能力存在互相占用的現象,導致在對某個區段的客流進行預測時,所得到的樣本存在樣本量偏小或者干脆缺失的現象,而且這種樣本失真或者缺失帶有很強的隨機性,很難通過固定算法去擬合還原,得到足夠的樣本數量或者準確的樣本值。如何有效解決樣本量偏小或者缺失的難題,可以考慮遷移學習。比如某個特殊OD 部分數據偏小或者缺失,就可以拿同一線路上與之相似的其他OD 客流數據作為補充,有效解決該特殊OD 數據不足、數據不準確的問題。遷移學習是使用已有的知識對不同但有一定相關領域問題進行求解的一種新的機器學習方法,通過遷移將已有的知識(源域)映射到目標域,解決目標域中僅有少量有標簽的樣本數據甚至沒有樣本數據的學習問題[9-11]。遷移學習具體算法可分為4 種:①基于關系的遷移,思路是將源域學習邏輯關系網絡應用到目標域中;②基于實例的遷移,思路是對源域的實例進行加權后遷移;③基于特征的遷移,思路是將源域和目標域變換到一個特征空間,完成遷移;④基于模型的遷移,思路是將源域的模型應用到目標域中進行遷移[12]。

根據軌道交通短時客流的特點,選擇基于實例的遷移學習,選定目標域與源域后,需要從源域中挑選出合適的樣本數據,遷移到目標域中,與目標域數據共同組成總體樣本,從而增加樣本數量,減少因為樣本偏小導致預測精度差的弊端;通過給予每個樣本合適的權重,最終訓練出合適的模型。

1 算法過程

1.1 目標域與源域

設某區段j記做odj(rj,sj),其中rj是始發車站,sj是終到車站。od1(r1,s1)與od2(r2,s2)為同一線路上2個存在運輸能力互相占用的區段。設日期為T,od1(r1,s1)的能力被占用的較快(如票額售罄),就可能造成od2(r2,s2)可供占用的運輸資源變少,當日od2(r2,s2)的客流數據fT(r2,s2)就屬于在限制需求條件下的客流數據,不是真實的值,甚至會出現od2(r2,s2)在當天沒有數據,導致總體樣本偏小的現象發生。如果用fT(r2,s2)作為樣本對od2(r2,s2)的客流進行預測,則影響預測精度??梢赃x擇與od2(r2,s2)相近的od1(r1,s1)的日期為T的客流數據fT(r1,s1)作為補充。所有fT(r2,s2)組成目標域樣本集,od2(r2,s2)為目標域OD,所有fT(r1,s1)組成源域樣本集,od1(r1,s1)為源域OD。通過選擇源域中合適的樣本補充到目標域中,由挑選出的源域和目標域共同組成的樣本最終用于訓練的樣本集。

1.2 源域樣本篩選

選擇與目標域OD 相似度最高的OD 作為源域OD,為了刻畫2個OD的相似性,借鑒“聚類”思想,通過計算“距離”來挑選OD?!熬嚯x”越近,2 個OD 相似度越高,客流特征越接近,相互替代的合理性越高?!熬嚯x”由2 部分數據計算得到。第一類是空間地理經濟意義上的“距離”,用dis(*)表示,設od1(r1,s1)為目標域OD,則任意od2(r2,s2)與其距離計算公式如下。

式中:代 表odj(rj,sj) 的第i個特征屬性(i=1,2,...,P),共P個特征屬性,所有特征屬性全部經過歸一化換算。

第二類是2 個OD 客流變化的一致性的“距離”,用pis(*)表示,具體計算公式如下。

式中:為odj(rj,sj)對應的客流指標的第n個樣本(n=1,2,...,N);fˉj為客流均值。

OD 客流變化的一致性度量本質上等價于相關性度量。“距離”公式Dis(*)表達式如下。

最終通過公式⑷選出源域OD,從該OD 選出合適的樣本組成源域樣本數據集。

1.3 基于改進Boost算法的遷移學習

近幾年研究發現,基于樣本遷移學習方法適用于回歸問題,主要采取在傳統的Boost 算法基礎上進行改進,核心思想為:對于源域中誤差較大的樣本,不采取提高樣本權重,而是降低權重的方法來避免負遷移。對于目標域誤差較大的樣本,提升樣本權重,從而提高模型預測精度[12],其算法過程如下。

通過“距離”確定源域OD 和目標域OD,從源域OD 中選出合適的樣本作為補充,最終組成訓練數據集S,訓練數據集一共有N+M個樣本。其中樣本為M個目標域選出的樣本;,...,為N個源域選出的樣本,所有N+M個樣本組成訓練數據集D,設CART 回歸樹為CRTl(x)和最大迭代次數L,l為迭代次數,?l∈L。最終得到集合回歸器fc(x),該集合回歸器用于最后的預測,其構成如下。

具體訓練步驟如下。

步驟2:設l=1,如果l≤L,開始遍歷。

步驟3:根據權重向量wl選擇訓練樣本。

步驟4:使用選擇樣本訓練得到模型CRTl(x),CRTl(x)為1棵回歸樹。

步驟5:根據訓練模型CRTl(x),針對訓練數據集D,得到整體誤差εl,其具體計算如下。

步驟6:若εl>0.8,則返回步驟4,否則執行步驟7。

步驟7:計算αl,其計算公式如下。

步驟9:結束,最終得到集合回歸器fc(x),其為一些列回歸器的線性組合。

2 算例

2.1 目標域與源域選擇

在客流高峰期,一些物理徑路重疊的區段存在運輸能力互相占用的現象,尤其是同一條線路連接著某個特大城市(或中心城市)中心車站和數個較小外圍車站組成一個相對完整的城市軌道交通線路的情況。數個較小外圍車站的運輸資源會互相占用,導致部分區段客流樣本缺失,一個區段客流提高必然導致另一個區段客流降低,這些區段實際客流就是在限制條件下的客流數據。以武漢都市圈為研究對象,武漢都市圈形成了以武漢站為特大城市中心車站向黃石方向延伸的城市軌道交通線路,其中武漢站(A)、左嶺站(B)、花山南站(C)、葛店南站(D)分別對應了武漢市主城區、東湖高新區、洪山區和湖北省級開發區等行政區域。B,C,D 所在城市(區)為較低等級城市(區),且行政上隸屬或者在經濟關系上隸屬于武漢。當乘車需求旺盛時,旅客分別從車站B,C,D 去往車站A。區段B—A,C—A,D—A 會相互占用運輸資源,從而出現某個區段樣本缺失導致整體樣本量偏少的情況發生。如果以區段B—A 為目標域OD,只使用該區段的客流數據作為樣本進行預測,會有不小的誤差,故選擇與區段B—A 相似的其他區段的樣本作為補充,使得最終的樣本集能夠盡可能的廣泛,覆蓋所有情況,得到目標域OD與源域OD如表1所示。

表1 目標域OD與源域ODTab.1 Target domain OD and source domain OD

從表1 中2 個備選源域OD 中選擇與目標域OD最相似的作為最終的源域OD。對于公式⑴中OD特征屬性如表2所示,OD特征取值如表3所示。

表2 OD特征屬性Tab.2 Characteristics of OD

表3 OD特征取值Tab.3 Values of characteristics for each OD

通過公式⑴至⑷的計算,得到2 個備選的源域OD 與目標域OD 的“距離”計算結果如表4 所示。最終選擇區間CA為源域OD。

表4 “距離”計算結果Tab.4 Results of distance calculation

2.2 目標域樣本與樣本特征篩選

由于目標域與源域存在互相影響的客流特征,暑期客流高峰時表現更加明顯。目標域OD 在某些日期的客流數據顯然是“低估”的,這部分數據樣本不適宜直接用來訓練模型去預測,會影響預測結果,如果目標域樣本集去掉這部分樣本可能會導致樣本量太小,從而出現“欠擬合”的現象。根據遷移學習規則,從源域中選擇相同日期的樣本補充到訓練數據集中,其判斷依據由公式⑾決定。

式中:ft(r,s)為目標域數據集中第t天的客流值,整個樣本數據集與之相同周期屬性的樣本共M個;β為閾值;fˉ(r,s)為目標域中相同星期屬性(周號)下的客流指標的均值。

(r,s)計算公式如下。

當某天的客流數據低于對應的周號客流均值一定比例時,有理由相信數據是有偏的,需考慮用源域中同一天的客流數據樣本來補充(遷移)。

由于客流數據具有一定的時間序列特性,故而選擇CART回歸樹作為基礎回歸模型,對樣本的時間序列特性的表達略有不足,因而需要在樣本特征中加入描述時間序列的特征屬性,將每個樣本前一天的客流數據作為一個特征屬性引入。同時,客流需求有高峰期和低谷期的區分,有顯著的周期規律,需要將該因素加以考慮,不同的月份、周號對單日客流影響也不同,需要將這些特征屬性一并考慮。最終選擇樣本特征屬性如表5所示。

表5 樣本特征屬性Tab.5 Sample characteristics

2.3 預測過程

由于2020 年后新冠疫情的影響,數據不適合作為算例,因而選擇樣本日期為疫情前的2019 年暑期(7 月1 日—8 月31 日)高峰客流數據做為樣本,源域OD 和目標域OD 各包含62 個樣本。按照公式⑿引入源域樣本補充到最終的樣本集合中,形成最終樣本數據集,隨機選取7個樣本作為測試數據來驗證模型有效性,其余樣本作為訓練數據輸入模型。選擇公式⒀和公式⒁作為最后預測結果的評價標準。

式中:(r,s)為目標域數據集中第t天的客流預測值。

公式⑿中篩選閾值β非常關鍵,會最終影響預測的結果。根據專家經驗確定β為0.8,根據公式⑿的篩選共有4 個源域樣本補充到最終的數據集中。確定最大迭代次數L=10。每次隨機選擇59個樣本作為訓練樣本輸入改進Boost 算法開始訓練,每個樣本的初始權重為,訓練完成后將剩余的7個測試樣本輸入訓練好的模型得到預測結果。由于訓練樣本和測試樣本的選擇具有隨機性,因而將訓練過程重復10 次,取10 次中預測結果最好的一次結果作為最終的結果進行分析。

迭代過程中每次迭代輸出的中間結果如表6 所示,可以看到隨著樣本權重的不斷變化,每棵回歸樹樹CRTl(x)的總誤差εl和回歸樹的權重αl也在不斷變化中。

表6 每次迭代輸出的中間結果Tab.6 Intermediate results of each iteration

最終輸出的集合回歸器fc(x)如下。

2.4 結果分析與比較

將剩余的7 個樣本作為測試樣本輸入集合回歸器fc(x),得到最終預測結果如表7 所示,根據公式⒀和公式⒁可知其對應的平均絕對誤差比率(MAPE)和均方根誤差(RMSE)分別是15.3%和12.6。

表7 預測結果Tab.7 Prediction results

為比較遷移學習與傳統集成學習的預測精度,匯總改進Boost算法與傳統Boost算法對比如表8所示,得到選擇遷移學習中樣本遷移的思路,從源域中選擇合適的樣本,與目標域樣本共同組成訓練數據集,并采用改進Boost 算法訓練出的模型MAPE結果為15.3%。僅使用目標域樣本集并采用Boost集成學習算法訓練出的模型MAPE 結果為15.7%。說明采用的改進Boost 算法是對傳統Boost 集成學習算法的一種改進和嘗試,預測精度提高了2.6%,同時也可以分析出,目標域樣本集中的部分樣本數據確實受到了同線路其他OD 的影響,該部分樣本值屬于有偏差、不準確的,因而影響了訓練出的模型精度。通過將源域中的部分樣本替代原目標域的樣本可以對整個訓練數據集進行修正,修正后的數據能有效提高模型精度。

同時選擇ARIMA 模型、多元回歸模型等經典的預測模型做橫向的比較,得到不同預測模型MAPE 對比如表9 所示。可知,通過借鑒遷移學習思路與改進Boost 算法結合訓練出的模型預測結果MAPE 為15.3%,經典的時間序列算法ARIMA 預測結果MAPE 為17.1%,采用多元回歸進行預測結果MAPE 為25.8%。選擇的算法模型精度顯著高于傳統預測模型。

表9 不同預測模型MAPE對比 %Tab.9 Comparison with other kinds of prediction models in MAPE

3 結束語

以軌道交通短時客流預測問題為導向,采用基于實例的遷移學習來對預測樣本進行篩選并配合改進Boost 算法應用于特殊OD 的短時客流預測,表現出了在某些特定應用場景下優于傳統預測模型的特點,為軌道交通短時客流預測提供了一種新的理論模型和思路。但另一方面,可以看到基于實例的遷移學習局限性也很明顯,其主要針對物理徑路存在重疊的部分OD(特殊OD);當OD 包含的樣本數量足夠大,樣本質量較高時,遷移學習便失去了作用。因而如何將遷移學習應用場景拓展到更普遍的實際情況是下一步需要重點研究的方向。

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 免费观看亚洲人成网站| 国产99视频精品免费视频7| 亚洲欧美另类中文字幕| 精品视频第一页| 欧美日韩中文字幕在线| 国产在线欧美| 亚洲天堂网视频| 思思99热精品在线| 日韩午夜福利在线观看| 成·人免费午夜无码视频在线观看 | 日本成人一区| 日韩午夜片| 蜜臀av性久久久久蜜臀aⅴ麻豆| 久久国产精品波多野结衣| 在线观看的黄网| 久久黄色免费电影| 日韩专区欧美| 国产乱人免费视频| P尤物久久99国产综合精品| 婷婷综合亚洲| 欧美一级高清片久久99| 亚洲一区二区黄色| 国产精品观看视频免费完整版| 国产精品一区在线观看你懂的| 欧美国产在线精品17p| 98精品全国免费观看视频| 无码专区国产精品一区| 欧日韩在线不卡视频| 国产欧美日韩另类| 国产小视频免费观看| 丁香婷婷在线视频| 国产精品成| 无码人中文字幕| 啪啪啪亚洲无码| 亚洲成人精品在线| 亚洲日韩日本中文在线| 午夜国产在线观看| 婷婷色一区二区三区| 久久窝窝国产精品午夜看片| 久久香蕉国产线看精品| 日韩 欧美 小说 综合网 另类| 5555国产在线观看| 青青青视频91在线 | 不卡色老大久久综合网| 国产尤物在线播放| 国产精品永久在线| 草草线在成年免费视频2| 毛片免费在线视频| 一级黄色网站在线免费看| 国产一二视频| 日韩色图区| 在线欧美日韩国产| 亚洲日韩久久综合中文字幕| 国产毛片高清一级国语| 日本三区视频| 国产第一色| 日本妇乱子伦视频| 大陆精大陆国产国语精品1024| JIZZ亚洲国产| 二级特黄绝大片免费视频大片 | 一级成人a毛片免费播放| 国产精品一区在线麻豆| 国产男女XX00免费观看| 91精品国产麻豆国产自产在线| 成人精品午夜福利在线播放| 全部毛片免费看| 五月天丁香婷婷综合久久| 国产91色| 青草免费在线观看| 日本午夜三级| 欧美翘臀一区二区三区| 99无码熟妇丰满人妻啪啪 | 国产成人免费高清AⅤ| 国产精品专区第1页| 欧美人人干| 一级毛片免费观看久| 亚洲第一页在线观看| 2018日日摸夜夜添狠狠躁| 国产精品护士| 欧洲日本亚洲中文字幕| 亚洲第一成网站| 国产精品污污在线观看网站|