艾文偉 李瑜芬 金海薇
(上海申通地鐵集團有限公司,201103,上海//第一作者,高級工程師)
截止2017年底,上海軌道交通已形成14條線路、364座車站、588 km的網絡化運營格局,日均客流達839.54萬人次,最高日客流突破千萬,年開行總列次達236萬列次,運營里程超過4.39億車km,軌道交通在公共交通中發揮的作用越來越突出[1]。這就要求城市軌道交通的運營管理更加安全、規范、高效。運營指標不僅反映當前軌道交通的運行狀況,體現運營企業的管理水平,同時也為管理決策和持續改進提供決策依據。隨著大數據理念和技術的應用,在運營管理向數據驅動轉型的過程中,運營指標統計在運營生產管理的地位更加重要[2]。目前,上海軌道交通仍沿用手工標畫運行圖、人工計算的方式進行指標統計。這種方式不僅成本高、效率低,數據的及時性和準確率亦無法保證。隨著軌道交通線網規模的進一步擴大、列車開行密度的提高,迫切需要借助信息化手段完成指標的采集、匯總和統計,達到規范統計口徑、提高管理水平、減輕統計工作量的目的。
上海軌道交通自1993 年1月10日投入試運營至今,運營指標統計分析工作一直在發展和完善。運營指標統計的首要目標是滿足運營管理對各類數據的需求。現行上海軌道交通運營關鍵績效指標體系包含5大類、36 個運營指標[3]。作為國內MOPES(城市軌道交通運營績效評估體系)組織和CoMET(國際地鐵協會)的成員之一,上海軌道交通還需統計CoMET和MOPES等相關指標。CoMET 指標包含180多項;MOPES 指標體系由基礎指標和績效指標兩大類構成,總計 117 個指標[4]。
現行的ATS(列車自動監控)系統只記錄城市軌道交通的實際運行狀況,不記錄運營事件,因此無法結合運營計劃生產完整、準確的運營數據和運營指標。目前的做法是通過ATS系統獲取列車實際運行信息,結合運行計劃生成實際運行圖,全面真實反映運行計劃執行情況,再依據現有指標統計管理規定,由線路OCC(運營控制中心)當班調度員打印實際運行圖后,在紙質版運行圖上手工標畫、標注列車運行情況及運營事件,通過人工統計的方法計算各類運營指標,填寫報表后由交由專門統計人員進行匯總。這種方式主要存在以下不足:
1)信息采集方式落后。線路OCC當班調度員打印實際的列車運行圖后,在紙質版運行圖上手工標畫和標注列車運行信息。其中,調度日志和事件數據的采集采用的都是比較原始的手工填報方式。
2)數據格式多樣,不能很好地實現共享。現行模式下,與運營指標統計相關的數據存在于多個系統中,數據格式多樣,無法實現有效的數據共享。如列車運行數據存儲在ATS系統中,數據輸出為圖片格式;而列車運行事件則以文本格式存儲在運營管理平臺中,兩種數據不能實現很好的融合。
3)數據處理能力差。指標計算、匯總統計受限于人工作業,對數據量大、計算規則比較復雜的指標進行計算存在較大難度。例如,針對列車晚點,僅能完成始發站和終到站的統計,對列車在全程或某個車站延誤時間的絕對值≥5 min的圖定計劃列次統計存在困難。
4)數據及時性和準確性無法保證。指標統計涵蓋多個專業,涉及的作業人員較多,容易造成數據統計結果偏差,導致檢查復核難度較高,數據的及時性和準確率亦無法保證。
5)數據間未建立必要的關聯,無法支撐后續的指標統計。運行事件與運行狀況未建立關聯關系,后續統計需要重新補充信息。在進行數據匯總和估算時,由于統計人員對統計規則的理解不一致,且分析的方法較為繁瑣,導致統計結果誤差較大,且準確度相對較低。
6)缺乏持續的改善能力。獲取的數據相對比較基礎,針對相對復雜與統計難度高的運營指標,目前無法獲得精確的支撐數據,亦無法建立基于乘客感知的列車運行指標[5]。因此,須對運營方案進行進一步優化,從而為乘客提供更優質的服務。
運營指標自動統計系統設計遵循“數字化、可視化、圖形編輯、實時計算”的設計原則。數字化信息包括計劃運行數據、實際運行數據、調度數據和事件數據。通過數據可視化技術和圖形編輯技術實現列車運行狀況和調度策略的具體化與形象化。通過實時對各類運營指標進行在線統計計算,可實現對運營狀況的宏觀把控。
針對信息采集和共享,通過數據接口,從ATS實時獲取列車運行數據,通過清洗以及與計劃運行圖數據整合形成列車運行信息。列車運行信息不僅用于統計運營指標中的基本指標,如到發站晚點、開行列次、換車、換表等,而且還可以通過數據可視化技術,表現列車的運行計劃和實際運行情況。通過圖形編輯技術,一方面可以實現對ATS數據準確性的修正,如對丟失的列車運行數據進行補線;另一方面,實現調度策略的形象化表現,如標識列車清客、空駛、事件影響時段及范圍等,更重要的是通過圖形編輯技術實現了運行、調度、事件三者之間的關聯,為指標自動統計準備了必要的數據基礎。實時計算可以用于處理流數據,能及時完成數據量大且規則復雜的指標統計。
運營指標自動統計系統功能設計如圖1所示。
2.2.1 ATS數據的特點
ATS系統主要包含列車實時運行數據,需獲取的數據具有以下特點:
1)網絡連通較差:ATS系統相對比較獨立,基于安全考慮,不能直接通過ATS系統對接完成數據的傳輸。
2)數據業務不穩定且容錯性較差:目前ATS數據為感應器觸發式,數據質量存在諸多不穩定因素。例如,在車輛進站時會在短時間內觸發數十次進站數據,若在進站至停站期間對車輛進行重新挪動則會同時產生進出站數據,數據的傳輸穩定性與容錯機制均較差。
3)數據量大且存在大量噪聲:ATS包含的列車運行數據數量較大,且存在大量噪聲。如上海軌道交通2號線通過ATS接口時獲取到的數據平均值每天約為57萬條,而通過清洗后的有效運行數據僅占10%。

圖1 城市軌道交通運營指標自動統計系統功能設計圖
基于以上3個方面,說明合理高效的數據清洗顯得尤為重要。
2.2.2 ATS數據的清洗
數據清理主要是對越界值、不一致代碼、重復數據和丟失值進行處理,以實現數據的準確性、完整性、一致性、唯一性、適時性及有效性[6]。針對ATS數據,通過建立數據清洗標準模型,采用填補遺漏、消除異常、平滑噪聲等技術手段,對單向讀取的列車運行數據通過一系列步驟“清理”之后,轉換成標準的格式數據[7]。
針對ATS數據特點,采用不同的方式對數據進行清洗[8]:
1)快速接收及提取處理。ATS未清洗前數據并發量較大,需要進行實時數據快速接收及提取,如采用數據存入關系型數據庫的傳統方式,但在使用時會涉及到磁盤IO操作,這將嚴重制約數據的處理性能。采用Redis作為緩存數據庫,將實時接收的數據按照一定數據規格進行內存緩存,在對數據進行檢索提取時較傳統方式在性能上有質的提升。通過數據實測,數據處理性能平均提升1 000倍左右。
2)不完整數據(即值缺失)的處理。針對不完整數據,采用算法模型和人工判別相結合的方式進行補充。將新接收到的數據導入數據預處理模塊,該模塊將會根據當前數據進行同車次下的匹配計劃數據校驗,校驗通過后再以遞歸形式進行相同運行方向下前一站數據對比,直至找到有效數據,遞歸完成后將遞歸過程中獲取的實際丟失的數據通過列車計劃數據匹配、列車實際并線數據分析、始發終到數據分析、指標數據分析等進行推算調整生成缺失數據序列方案。當按算法模型生成唯一的丟失數據序列時,系統自動將丟失數據補全至實際數據中;當按算法模型生成多種丟失數據方案時,由人工判別后選擇丟失數據補充方案。
3)錯誤值的檢測及校正。將新接收到的數據導入錯誤數據處理模塊,通過對列車的列次、車次及計劃數據進行檢查,識別可能的錯誤值或異常值。常用的方法包括偏差分析、不遵守分布識別或回歸方程等,并通過規則庫(常識性規則、業務特定規則等)對相關數據進行校正。
4)重復記錄數據的消除。針對接收到的重復數據,采用內存數據庫以及關系型數據庫的雙重校驗方式。當系統接收到數據后,系統將根據數據的屬性值及業務含義進行相同數據校驗,并將系統校驗出的相同數據進行記錄。結合指標數據進行分析,并將分析得到的唯一相同數據進行合并或清除,并對系統內所有經自動校驗并合并的數據形成的方案提供給人工進行二次校驗及調整。
ATS數據清洗路徑,如圖2所示。

圖2 ATS數據清洗路徑
由于運營指標統計所需數據的多源性,需要對獲取的數據進行必要的關聯性及驗證,包括數據結構關聯和數據值關聯兩部分內容。需要關聯的數據包括計劃數據與實際運行數據的關聯、運行圖車次與運行車輛的關聯、運行圖與線路車站數據的關聯等內容。
RCP(富客戶平臺)是Eclipse組織向用戶提供的強大的開放性開發平臺,該平臺可使用戶方便地創建并支持基于Eclipse的應用程序[9]。在開發RCP應用程序時,可以利用Eclipse平臺的外觀及基本框架快速創建菜單欄、工具欄、表格、樹結構等功能組件,并以此為基礎在平臺上進行相對比較簡單的代碼開發即可實現復雜的功能,這樣不但節省大量的開發時間,同時也避免了許多重復性的工作。
另一方面,為提升系統功能的可用性,列車運行指標統計系統功能開發采用GEF技術實現標畫功能。GEF是一個圖形化編輯框架,它允許開發人員以圖形化的方式展示和編輯模型[10]。GEF的優勢是提供標準的MVC結構,開發人員可以利用GEF來完成以上功能,而不需要自身重新設計。GEF的主要設計目標是盡量減少模型和視圖之間的依賴,可以根據需要選擇任意模型和視圖的組合,而不必受開發框架的局限。在圖形編輯視圖內,圖形接受用戶的操作,比如組織單元的新建、移動、刪除等操作。每個組織單元的模型對象對應一個EditPart對象,每個EditPart對象均有一組按照操作角色分開的最終模型進行直接操作,這樣可以在圖形標注及繪制時進行合理的分層,使得圖形展現可按照不同的業務對象進行分層封裝并顯示。
運營指標統計分為基礎指標統計和反映調度策略的復雜指標統計。
2.5.1 基礎指標統計
數據被清洗處理完成后,會被分配至指標分析模塊,通過即時計算,并根據站點、站臺、列次、車次、上下行、到發站屬性等與計劃數據進行對比,自動生成到站晚點、發車晚點、中途晚點等指標數據,同時計算當下線路的最大晚點、兌現率、正點率、高峰時段運行間隔正點率、高峰時段運行間隔兌現率以及列車延誤總時長等運行統計指標。
2.5.2 復雜指標統計
復雜指標是指圖形編輯后,能反映調度策略的運營指標。該類指標根據圖形編輯產生的標志進行統計,具體內容如下:
1)清客標畫:當觸發清客標畫時,系統將會按照只統計當下列次清客之前的數據來調整當下中途5 min數據,并同時調整計算系統載客與空駛里程這兩個指標的數據。
2)大小交路調整(人工補線):當觸發該項調整標畫時,系統將會根據調整數據推算出新的晚點相關指標統計、實際運行里程指標統計。
系統采用C/S和B/S混合架構,在各條線路的OCC部署客戶端。客戶端通過訪問系統中心數據庫中的生產數據(包括計劃、實際行車數據等)顯示相應線路的運行圖,業務人員在客戶端運行圖上進行行車事件等的標注,將標注數據和事件關聯記錄回傳到中心數據庫,并在前端進行標畫操作;控制中心數據統計人員通過中心數據統計模塊進行相關的數據統計并生成報表。
針對目前上海軌道交通運營指標分析現狀及其存在的弊端,設計開發了一套基于ATS實時數據的運營指標自動統計軟件。該軟件在上海軌道交通7號線試用,不僅能滿足現有日常生產管理對指標統計的要求,將運營調度員從繁瑣的列車運行圖標畫和列車運行指標統計工作中解脫出來,還可以支持對基于乘客感知的運營指標的推演,為今后線網集控提供必要的數據基礎。