侯吉,宋瑞,何世偉,殷瑋川
(北京交通大學綜合交通運輸大數據應用技術交通運輸行業重點實驗室,北京 100044)
隨著我國鐵路貨運改革的不斷推進和鐵路基礎設施建設的發展,鐵路運輸部門在貨物運輸方面大力發展“前店后廠”模式,精簡貨物承運辦理程序,加強與客戶的信息溝通,努力提高貨物運輸的服務質量。另一方面,隨著經濟的快速發展和人民生活水準的提高,高附加值貨物及零散白貨的貨運需求不斷增加,對時效性的要求更加嚴格[1]。然而鐵路貨物運輸過程中,鐵路運輸部門的時間指標和要求靈活性不足,缺乏對貨物運輸全程中各車站和區段作業時間的動態考核和評價,貨物逾期到達的問題依然存在,成為制約鐵路提升貨運服務質量的關鍵“痛點”。
目前,關于貨物運輸時間的研究多為對現有指標和作業流程的優化。羅小明等[2-3]提出在新的運輸條件和鐵路普遍提速的前提下,制定新的貨物運到期限計算方法。韓雪松等[4]分析得出貨車在貨運站的集散時間和技術站之間的運送時間對全程貨物運輸時間影響較大,并提出一系列流程優化建議。程文毅[5]分析了貨物運到期限的保障對貨主選擇貨運方式造成的影響。賈玉衛[6]主要從可靠性方面分析評價貨物送達時間。張戎等[7]等分析了時間可靠性對鐵路集裝箱運輸的影響。而關于鐵路大數據應用的研究[8-11],大多為系統框架構建和需求功能分析等,也有如Yin 等[12]提出基于云計算的鐵路“門到門”貨物運輸產品設計方法,但是在貨物運輸責任劃分方面的研究較少。
綜上所述,本文針對目前在鐵路貨物運輸責任劃分和考核評價方面研究的不足,結合云計算和大數據處理方法,通過對鐵路貨運大數據的分析,提出了一種基于大數據的貨物運輸責任時間劃分方法(division method of railway freight transport responsibility time based on big data,DMRFTRT),以實現對鐵路貨運全程中各環節作業時間的動態考核評價,促進提高鐵路貨物運輸效率和保障鐵路貨物運輸的時效性。
根據鐵路貨物運輸組織方法[13],貨物運輸過程可以劃分為3個階段:始發站的發送作業階段、途中技術站和區段的運輸階段、到達作業階段,如圖1所示。

圖1 鐵路貨物運輸全程示意圖Fig.1 Diagram of railway freight transportation
影響貨物運輸過程的因素眾多,主要有貨物因素、車站設備條件、區間設備條件、人為因素和其他因素等5個方面,如圖2所示。
由于貨物運輸過程中會經過多個車站和區段,影響因素眾多,不同地區鐵路建設水平、運輸組織工作水平并不均衡,同時隨著近年來我國鐵路基礎設施不斷建設改造,車站區間能力得到釋放和改善,現行的貨物運到期限計算方法作為時間指標來組織和評價貨物運輸狀況難以符合實際現場情況,需對貨物運輸的各環節加強監督與責任劃分。
傳統貨物運輸過程各環節時間的分配方法包括剩余時間平均分配法、均值比例分配法、蒙特卡洛仿真法[14-15]。剩余時間平均分配法,即將貨物實際送達時間與貨物運到期限的差值平均分配到各作業環節上;均值比例分配法直接以各環節作業的均值占貨物實際送達時間均值的比例來分配貨物運到期限;而蒙特卡洛方法則是通過查詢各作業環節的歷史數據,利用符合各作業環節時間服從的分布規律產生隨機數,再從其中隨機抽取樣本,最后算出各作業環節所占比例均值,以此來進行運到期限時間的分配。上述的幾種貨物運到期限時間的分配方法,主要不足有:(1)對貨物運輸各環節作業的時間波動性和不同環節作業時間的差異性缺乏體現;(2)對于鐵路部門產生的大量記錄數據利用不充分,其時間分配結果適用性不高;(3)傳統的方法分配的時間標準并不是動態的,而是一個通過計算得到的固定值,對于影響因素眾多的鐵路貨物運輸不一定始終適用。

圖2 鐵路貨物運輸過程影響因素Fig. 2 Influence factors of railway freight transport process
據初步數據統計,中國鐵路總公司及各鐵路局存儲的數據總量已經達到10 PB的數量級[16],鐵路貨物運輸大數據特點:數據量大(volume)、數據類型和來源多(variety)、數據實時采集(velocity)、價值密度低,但通過有效利用可獲得很高的價值(value),即具有4V特性。傳統的本地數據處理方法受限于數據量和計算速度,而大數據分析和云計算的發展,為鐵路利用貨運大數據實現精準營銷和提升工作水平都提供了更好的技術保證。
本文的貨車運行軌跡大數據的處理方法基于云計算平臺。數據來源于鐵路信息系統中普通貨車的裝卸作業和到發運行等記錄數據,以及路局、站名等基礎數據字典。貨車運行軌跡大數據處理方法主要包括數據結構讀取、數據上傳存儲、數據清洗、數據篩選匹配4個步驟,其中數據結構讀取利用本地編程軟件如Java工具實現,數據上傳存儲、數據清洗、數據篩選匹配在云計算平臺實現。本文中云計算平臺均使用阿里云計算服務大數據平臺[17],而將來的實際應用中可以使用鐵路相關部門的自建云平臺。大數據處理流程見圖3,具體步驟如下:
(1)數據結構讀取。即利用Java工具對原始數據文件的數據結構進行讀取。獲得數據文件中行分隔符、列分隔符和數值類型等信息,以保證數據上傳時符合云端數據庫規范。
(2)數據上傳存儲。在云端數據庫新建與(1)中讀取出數據結構符合的表格,然后利用云客戶端的MapReduce分布式上傳功能,完成原始數據上傳和存儲在云端數據庫中。
(3)數據清洗。由于數據在統計、導入導出等格式轉換時,不可避免會出現數據部分缺失、重復等問題,以及存在隱藏符號、空格等,會影響數據分析,所以需要對數據進行清洗,并將格式統一,以方便計算分析。
(4)數據篩選匹配。去除無效數據,篩選有效信息,并通過貨物運輸不同環節產生的數據之間的相互匹配,得到需要分析的目標數據和結果。

圖3 基于云計算的貨車運行軌跡大數據處理流程Fig. 3 Big data processing flow of freight transit track based on cloud computing
利用云計算平臺處理貨車運行軌跡大數據,其計算效率有明顯優勢。在相同硬件環境條件下,阿里云MaxCompute和本地SQL Server2008數據庫處理大數據的SQL運算效率對比結果如表1所示,可見SQL語句越復雜或者運算數據量越大,云計算相對于傳統SQL Server數據庫的運算速率優勢越能體現出來。

表1 云計算與傳統數據庫計算效率對比
2.2.1 符號與參數說明
本文以貨車為直接研究對象,貨物運輸責任時間為鐵路運輸全程中貨車在各環節應該完成運輸作業的最大時間。其中,始發站的站內作業時間為貨車裝車入線開始,至從車站開出時止的總時間;終到站的站內作業時間為貨車到達車站開始,至卸車結束時止的總時間;對于貨運OD的貨車途經車站,站內作業時間為出發時間與到達時間之差;區段運行的作業時間為前一車站出發時間與后一車站到達時間之差;僅用于會車、越行的中間站和線路所,其作業時間均計入區段運行作業時間內。
責任保障率就是能夠在貨物運輸責任時間范圍內完成作業的貨車數占總數的百分比。相關符號和參數規定見表2。

表2 符號與參數說明
2.2.2 貨物運輸責任時間劃分和責任保障率計算方法
貨物運輸責任時間劃分和責任保障率計算方法總體步驟如圖4所示。

圖4 貨物運輸責任時間劃分和責任保障率計算總體步驟Fig. 4 The overall steps of freight transport responsibility time division and responsibility guarantee rate calculation
Step 1:確定各環節責任標準系數
Step 2:劃分各環節運輸責任時間和OD運輸責任時間
(1)
Step3:計算各環節責任保障率
第i車站作業的運輸責任保障率為:
(2)
第j區段的責任保障率為:
(3)
貨運OD責任保障率為:
(4)
Step4:考核評價
綜合考慮運輸各環節的責任保障率與責任標準系數的關系,評價每個環節的作業效率變化,并且根據各環節的責任保障率與貨運OD責任保障率之間的關系,確定對下一期數據考核的責任標準系數。以車站為例,考核評價方法如下:



區段的考核評價方法與車站的考核評價方法同理。
Step5:數據更新和動態考核

重復上述Step1~Step5,根據最新的貨運記錄數據不斷更新數據集,及時動態地考核評價貨物運輸過程中各環節作業時間和效率的變化情況,研究變化原因和對應改善措施,提高貨物運輸組織生產效率。
基于2017年5月1日—21日共21 d的鐵路貨車到發和裝卸車記錄數據,其中樣本貨運數據集包括27 173 283條記錄,考核貨運數據集包括14 029 506條記錄。
首先通過Java平臺編程讀取數據的結構,表3和表4分別為整車貨物的貨運裝卸記錄和貨運到發記錄數據表結構,行分隔符為“/n”,列分隔符為“,”。之后在云平臺建立符合該數據表結構的表格,上傳并存儲數據。

表3 貨運裝卸記錄數據表結構

表4 貨運到發記錄數據表結構
數據清洗主要包括3個方面:第一,處理不規則字符,排除字符干擾,例如數據文件中String類型的數據含有雙引號和未顯示的空格,則需用split_part函數和trim函數進行數據清洗;第二,轉換數據類型以方便計算,例如貨運原始數據中數據類型均為String類型,而時間計算需要用到Datetime類型,故需將進行時間數值運算的數據由String類型轉換為Datetime類型;第三,清理無效數據,由于原始數據中可能存在記錄不全、缺失、錯誤或者重復的無效數據,需設置限制條件,以保證數據的可靠性。
數據篩選匹配,即是根據分析的OD不同,在數據庫中篩選目標數據,并匹配計算時間分布特征:第一,在云平臺上對裝卸數據和到發數據的匹配和篩選,主要利用mapjoin等函數,選取目標數據,得到每輛貨車在各車站、區段的到發時間、停留狀態、裝車卸車等情況;第二,對篩選出的目標數據,計算其數學特征,如在車站和區段的停留時間、裝卸作業時間等,并統計經過某一車站或區段的所有貨車作業時間分布,如平均值、標準差、中位數等。
貨車運行軌跡大數據經過上述云計算處理后,根據貨車數據篩選分析,發現僅在京廣線上樣本貨運數據集中裝卸貨車的OD有195對,表5中列出了部分裝卸貨車的OD,并計算出了其中同一OD間按照相同停站方案運送的貨車數。

表5 樣本貨運數據集京廣線部分裝卸貨車的OD及貨車數
3.2.1 貨物運輸責任時間劃分和責任保障率計算
基于云計算平臺的數據篩選匹配結果,考慮到論文篇幅有限,所以選擇京廣線上衡陽北—大朗運輸區段停站方案相同的貨車記錄為例,驗證本文提出的貨物運輸責任時間和責任保障率計算方法。


表6 衡陽北—大朗運輸區段各站段樣本貨運數據集的數據分析
Step2:根據劃分各環節運輸責任時間和OD運輸責任時間的方法,可以求得運輸中各環節貨物運輸責任時間和貨運OD的貨物運輸責任時間,如表7所示;
Step3:根據公式(2)~(4),求得各環節的責任保障率和貨運OD運輸責任保障率,如表7所示;

表7 運輸責任時間劃分和責任保障率計算結果
Step4:根據責任保障率與責任標準系數的關系,對作業效率進行評價,并確定下一考核周期的責任標準系數,如表8所示。
Step 5:數據更新。樣本貨運數據集更新為2017年5月8日—21日的貨運數據,考核貨運數據集更新為2017年5月22日—28日的貨運數據。不斷根據最新的貨物運輸記錄數據進行運輸各環節的責任時間劃分和評價,可以反映作業效率的波動,以及時調整運輸組織方式,保障作業效率。
3.2.2 與傳統時間分配方法的對比分析
根據鐵路總公司貨物承運辦法計算,衡陽北—大朗普通整車貨物的運到期限為3 d,即4320 min,基于m=1考核周期時的樣本貨運數據集和考核貨運數據集,分別用剩余時間分配法和均值比例分配法計算各環節的分配時間和保障率,結果如表9所示,不同時間分配方法各環節的保障率對比如圖5所示。
可以看出,這兩種時間分配方法的缺點是由于不考慮站段之間作業的差異性和作業時間的波動性,不符合實際作業規律,所以不同環節的保障率差異較大。如剩余時間分配法中,馬壩站內作業時間、江村—大朗的區段作業時間分配時間大于該環節的最大時間,保障率都等于100.00%,說明分配時間偏大,而在始發站衡陽北、終到站大朗和途中編組站江村保障率明顯偏小,說明分配時間偏小;同理均值比例法中衡陽北—郴州區段、江村站內保障率偏小,說明分配時間偏小。而貨物運輸責任時間劃分方法的保障率則能夠保持在90.00%左右,說明不存在作業時間劃分明顯偏大或者偏小的情況,更適合作為考核評價的指標。

表9 傳統時間分配法的責任保障率

圖5 不同時間分配方法各環節保障率對比Fig. 5 Comparison of responsibility guarantee rate in different time distribution methods
本文對鐵路貨物運輸責任時間計算方法進行研究,設計了基于大數據的貨物運輸責任時間劃分方法,提出了貨物運輸全程責任時間和責任保障率的概念,并通過算例驗證了該方法的有效性和可適性,得到以下結論:
(1)利用云計算平臺,對海量鐵路貨車運行軌跡大數據進行存儲、清洗、篩選分析等操作,能夠節省本地空間,大大提高數據管理和處理效率及準確性,降低鐵路企業的工作成本和提升工作效率。
(2)通過貨物運輸責任時間劃分和責任保障率的計算,能夠給對鐵路貨運全程各環節劃分責任時間,并評價各環節作業效率,且能夠根據貨車運行軌跡大數據反映的實際情況,實時動態地排除不同作業條件下歷史數據對現在運輸狀態評價的干擾,動態調整考核標準系數,有利于改進貨物運輸組織工作保障水平。
(3)不同于傳統的貨物運到期限時間分配方法,本文提出的方法能夠體現各環節作業時間的差異性和波動性,考核方法具有更好的可適性和應用前景,為鐵路貨運責任劃分提供了很好的研究新思路。
針對貨物運輸責任時間劃分的研究,根據不同列車、不同貨物種類,在鐵路運輸全程中對作業時間要求存在的差異性進行精細分析,是未來的研究和應用的方向之一。