王煜,方偉,王亮,薛冰
(1.中國鐵道科學研究院集團有限公司 電子計算技術研究所,北京 100081;2.中國國家鐵路集團有限公司,北京 100844)
近年來,動臥列車已成為高鐵旅客運輸中頗受歡迎的一種運輸產品[1],培育了一批“忠實”的旅客群體,整體客座率較好。隨著鐵路運輸企業逐漸向市場化運營靠攏,實施了更加靈活多變、有針對性的開行方案和票價方案[2-3],對動臥列車客座率進行預測便成為鐵路運輸企業優化運輸資源配置、提升運輸效率、實現更大經濟效益的必然要求和重要支撐。因此,動臥列車客座率預測具有較強的實際指導意義。
目前,對高鐵動車組列車客座率預測研究較多,不同學者采用多種模型方法進行預測,如多元回歸模型、時間序列模型[4-5]、神經網絡模型[6]、決策樹模型、灰色理論模型[7-8]、集成學習算法模型等[9]。每種模型各有優點,但也存在一定局限性:多元回歸模型和時間序列模型以統計學理論的線性算法為基礎,對樣本數量和質量要求較高,對非線性數據預測結果較差;神經網絡模型較復雜,容易陷入局部極值,當樣本量過小時很難提高訓練準確率;單一使用決策樹模型在小樣本情況下容易產生欠擬合,且剪枝條件等參數較難確定。綜合考慮以上因素,采用Adaboost集成學習算法對CART模型進行優化,建立Adaboost-CART模型,克服單一CART模型在數據樣本過小情況下精度不足的問題,提高單一CART模型的準確性,并應用于動臥列車客座率預測。
決策樹模型是通過一系列規則對數據進行分類或回歸的過程,判斷依據是樣本數據的特征值,如果不考慮效率等因素,樣本所有特征的判斷終會將某個樣本分到一個類上?!?br>