胡 波 李 冰 陳莉莉 周映江
(1.南瑞集團(國網(wǎng)電力科學(xué)研究院)有限公司,210003,南京;2.國電南瑞科技股份有限公司,210061,南京;3.南京郵電大學(xué)自動化學(xué)院,210023,南京//第一作者,高級工程師)
隨著各個城市軌道交通線路由單一化逐漸向網(wǎng)絡(luò)化發(fā)展,軌道交通運營中產(chǎn)生并積累了大量的數(shù)據(jù)。如何有效地處理和分析這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),挖掘其中有價值的信息,通過海量數(shù)據(jù)的采集、整理和分析,提高軌道交通的運營水平,提升科學(xué)決策能力,日益成為業(yè)界關(guān)注的重點及研究方向。
目前,地鐵線網(wǎng)中心運營指揮系統(tǒng)(TCC)通常采用數(shù)據(jù)倉儲MPP(massively parallel processing)進行數(shù)據(jù)分析及管理,對于地鐵運營海量的數(shù)據(jù),其在客流分析、能效管理、運營指標(biāo)分析等方面尚異常薄弱,沒有達(dá)到提升運營水平的目的[1-3]。本文提出一種基于大數(shù)據(jù)平臺的運營指標(biāo)分析的方法,通過研究數(shù)據(jù)挖掘技術(shù),完成對TCC海量數(shù)據(jù)的分析。通過合理的數(shù)據(jù)模型設(shè)計搭建大數(shù)據(jù)平臺,進行數(shù)據(jù)統(tǒng)計和建模,挖掘數(shù)據(jù)的深層價值,從而提升軌道交通信息服務(wù)能力及運營水平,提升效益,降低成本。
軌道交通運營中每時每刻都產(chǎn)生并積累大量的數(shù)據(jù),特別是非結(jié)構(gòu)化數(shù)據(jù),更是呈指數(shù)級增長。TCC的數(shù)據(jù)來源包括:各線路的綜合監(jiān)控系統(tǒng)(ISCS,含電力監(jiān)控與數(shù)據(jù)采集(PSCADA)、環(huán)境與設(shè)備監(jiān)控系統(tǒng)(BAS)、火災(zāi)報警系統(tǒng)(FAS)、站臺屏蔽門(PSD)、自動售檢票(AFC)等專業(yè)),以及信號(SIG)、閉路電視(CCTV)數(shù)據(jù);自動售檢票清分中心(ACC)的客流數(shù)據(jù);主變電所的PSCADA數(shù)據(jù);來自能源管理系統(tǒng)的能效數(shù)據(jù);視頻文檔等文件。根據(jù)數(shù)據(jù)的類型,分為結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),具體說明如下:
結(jié)構(gòu)化數(shù)據(jù):主要包括ISCS(PSCADA、BAS、FAS、PSD、AFC等)、列車自動監(jiān)控(ATS)、ACC、能源管理系統(tǒng)等。ACC系統(tǒng)提供客流數(shù)據(jù)和清分清算類數(shù)據(jù),各線路ISCS和主變電所提供設(shè)備狀態(tài)類數(shù)據(jù),ATS提供行車數(shù)據(jù),能源管理系統(tǒng)提供能耗數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù):主要包括CCTV視頻資料、圖紙、檔案文件、文檔,以及系統(tǒng)運行過程中生成的日志、視頻、音頻、圖片文件等,如應(yīng)急指揮系統(tǒng)執(zhí)行過程中的歸檔記錄、歷史報表等。
半結(jié)構(gòu)化數(shù)據(jù):主要指系統(tǒng)中的XML、HTML文檔。
對TCC數(shù)據(jù)進行分析可知,TCC數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性主要表現(xiàn)為:
大規(guī)模:數(shù)據(jù)容量巨大,每年增量在幾十TB;
異構(gòu)性:數(shù)據(jù)來源于各個系統(tǒng),數(shù)據(jù)結(jié)構(gòu)及類型千差萬別;
分布性:數(shù)據(jù)源的多樣性及跨地域性造就了數(shù)據(jù)的分布性;
動態(tài)性:每時每刻的實時數(shù)據(jù)。
大數(shù)據(jù),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。其不用隨機分析法(抽樣調(diào)查)這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理[4]。
借助大數(shù)據(jù)平臺,整合SCADA、FAS、BAS、ATC、AFC、ACC等專業(yè)數(shù)據(jù),實現(xiàn)客流、 行車、設(shè)備數(shù)據(jù)的集中統(tǒng)一,形成企業(yè)級數(shù)據(jù)統(tǒng)一視圖,實現(xiàn)企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)化,再通過平臺強大的數(shù)據(jù)分析和數(shù)據(jù)挖掘能力,可幫助地鐵企業(yè)充分發(fā)掘潛在的數(shù)據(jù)價值,全面提升運營管理能力、科學(xué)規(guī)劃能力、應(yīng)急輔助決策能力及公眾信息服務(wù)能力。
進行數(shù)據(jù)分析首先需要選擇一種合適的數(shù)據(jù)平臺。本文采用處理效率及性能更佳的基于Hadoop的大數(shù)據(jù)平臺代替數(shù)據(jù)倉庫的MPP進行數(shù)據(jù)分析及存儲。大數(shù)據(jù)平臺的數(shù)據(jù)處理包括元數(shù)據(jù)處理、ETL(數(shù)據(jù)抽取、轉(zhuǎn)換及裝載)數(shù)據(jù)處理、數(shù)據(jù)挖掘等部分,本文主要涉及的是數(shù)據(jù)挖掘部分。大數(shù)據(jù)平臺的架構(gòu)見圖1。
TCC中的數(shù)據(jù)除了結(jié)構(gòu)化數(shù)據(jù),還包括照片、視頻、音頻、文檔、日志等非結(jié)構(gòu)化數(shù)據(jù),并且需要支持?jǐn)?shù)十TB到PB級的數(shù)據(jù)存儲需求。采用分布式架構(gòu)的大數(shù)據(jù)平臺,將數(shù)據(jù)倉庫部署在不同的服務(wù)器上,并將來自各個源的數(shù)據(jù)規(guī)整,以統(tǒng)一格式存儲在大數(shù)據(jù)平臺中。
首先要對數(shù)據(jù)源中的數(shù)據(jù)進行格式規(guī)整處理,再用清理、集成、變換、規(guī)約等預(yù)處理技術(shù)改善數(shù)據(jù)質(zhì)量,從而提高數(shù)據(jù)分析的效率與質(zhì)量。
所謂數(shù)據(jù)挖掘和數(shù)據(jù)分析,就是以業(yè)務(wù)為驅(qū)動,利用數(shù)據(jù)分析算法,從海量數(shù)據(jù)中發(fā)掘出其中隱含的模式。
數(shù)據(jù)分析方法一般包括估計、預(yù)測、關(guān)聯(lián)、聚類、分類等。分析的過程就是模型構(gòu)建的過程。模型構(gòu)建通常包括模型建立、模型訓(xùn)練、模型驗證和模型預(yù)測四個步驟。模型的建立是一個反復(fù)的過程,需要仔細(xì)考察不同的模型以判斷優(yōu)選。常見的數(shù)據(jù)分析方法見圖2。
在TCC數(shù)據(jù)中挑選出客流信息,通過對客流數(shù)據(jù)進行建模分析,預(yù)測短期日??土?、實時客流及預(yù)估大客流。從ACC得來的客流數(shù)據(jù)和起點/終點(OD)數(shù)據(jù)信息,可通過客流和換乘的統(tǒng)計分析,進行路徑規(guī)劃和能效控制;可以監(jiān)視客流數(shù)據(jù)進行客流預(yù)測;可分析實時斷面客流量和三色圖展示,協(xié)助進行客流引導(dǎo)。常用的分析方法為時間序列法和回歸分析法。

圖1 大數(shù)據(jù)平臺架構(gòu)

圖2 常見的數(shù)據(jù)分析方法
3.3.1 短期日??土黝A(yù)測輸入
客流預(yù)測條件導(dǎo)入模塊通過指定日期條件(某天或者一段時間范圍內(nèi)),從統(tǒng)計分析平臺加載AFC歷史客流數(shù)據(jù)作為預(yù)測參考數(shù)據(jù),實現(xiàn)短期客流預(yù)測輸入功能。其數(shù)據(jù)流如圖3所示。

圖3 短期日??土黝A(yù)測數(shù)據(jù)流圖
客流預(yù)測條件導(dǎo)入模塊從統(tǒng)計分析平臺加載歷史客流數(shù)據(jù),界面可設(shè)置客流影響因素,包括大型活動車站等。
3.3.2 實時客流預(yù)測輸入
客流預(yù)測條件導(dǎo)入模塊通過指定日期條件(某天或者一段時間范圍內(nèi)),從統(tǒng)計分析平臺加載AFC實時客流數(shù)據(jù)作為預(yù)測參考數(shù)據(jù),實現(xiàn)實時客流預(yù)測輸入功能。其數(shù)據(jù)流如圖4所示。

圖4 實時客流預(yù)測數(shù)據(jù)流圖
客流預(yù)測條件導(dǎo)入模塊從統(tǒng)計分析平臺加載AFC實時客流數(shù)據(jù),經(jīng)過實時客流預(yù)測數(shù)據(jù)輸入功能對數(shù)據(jù)清洗/變換,保存為預(yù)測用的客流數(shù)據(jù);客流預(yù)測模型管理模塊在正常情況下實時客流預(yù)測、中斷行車情況下客流預(yù)測、大客流情況下客流預(yù)測中讀取此數(shù)據(jù),執(zhí)行客流預(yù)測。
3.3.3 預(yù)知大客流預(yù)測輸入
客流預(yù)測條件導(dǎo)入模塊通過指定大客流事件的時間、車站,從統(tǒng)計分析平臺加載同類型的歷史客流數(shù)據(jù)作為預(yù)測參考數(shù)據(jù),實現(xiàn)預(yù)知大客流預(yù)測輸入功能。其數(shù)據(jù)流如圖5所示。

圖5 預(yù)知大客流預(yù)測數(shù)據(jù)流圖
客流預(yù)測條件導(dǎo)入模塊從統(tǒng)計分析平臺加載歷史客流數(shù)據(jù),經(jīng)過預(yù)知大客流預(yù)測數(shù)據(jù)輸入功能對數(shù)據(jù)清洗/變換,保存為預(yù)測用的客流數(shù)據(jù);客流預(yù)測模型管理模塊在預(yù)知大客流情況下客流預(yù)測中讀取此數(shù)據(jù),執(zhí)行客流預(yù)測。
目前軌道交通行業(yè)常用的指標(biāo)體系是國際地鐵聯(lián)盟CoMET指標(biāo)體系和中國城市軌道交通MOPES指標(biāo)體系。
CoMET的核心是建立衡量地鐵運營效率的關(guān)鍵績效指數(shù)系統(tǒng),并建立有針對性的基準(zhǔn)化分析方法。CoMET指標(biāo)數(shù)據(jù)僅在聯(lián)盟內(nèi)使用,對外有保密公約,所以不具有公開使用價值。
MOPES是為了加強軌道交通行業(yè)內(nèi)部的密切聯(lián)系,統(tǒng)一運營績效評估指標(biāo)和統(tǒng)計方式,樹立績效參照標(biāo)桿,建立經(jīng)驗交流平臺和組織開展專題攻關(guān)等。整個評價體系含基礎(chǔ)指標(biāo)2類8個,績效指標(biāo)6類75個。基礎(chǔ)指標(biāo)包括線網(wǎng)指標(biāo)和車站指標(biāo),是基礎(chǔ)設(shè)施的評價數(shù)據(jù)??冃е笜?biāo)包括客流指標(biāo)、運行指標(biāo)、服務(wù)指標(biāo)、安全指標(biāo)、能耗指標(biāo)和成本指標(biāo),是在一定基礎(chǔ)設(shè)施條件下反映運營效率的主要指標(biāo)[5]。
目前,通過大數(shù)據(jù)平臺可采集到以下數(shù)據(jù):
(1) 從線路實時采集的數(shù)據(jù),包括列車運行信息、電扶梯運營狀況、AFC閘機/售票機運營狀況、車站站廳站臺溫/濕度、火災(zāi)報警等。
(2) 從線路定時采集的歷史數(shù)據(jù),包括AFC閘機/售票機歷史運營狀況等。
目前TCC中的運營指標(biāo)分析模塊,僅能對上述數(shù)據(jù)進行簡單的加工,做一些簡單的運營指標(biāo)統(tǒng)計分析。這些分析主要集中在單一指標(biāo),并沒有深度挖掘不同數(shù)據(jù)之間的關(guān)系。
表1是TCC中核心統(tǒng)計的運營指標(biāo),可以看出,此三種指標(biāo)目前互相孤立,之間沒有聯(lián)系。其實從能效管理的角度,通過閘機的通過率、電扶梯的使用率等判斷出人流量的大小,提前預(yù)測站內(nèi)合適的溫濕度,可力保乘客乘車候車的舒適度,也能在一定程度上進行節(jié)能。

表1 現(xiàn)系統(tǒng)常用運營統(tǒng)計指標(biāo)
溫濕度預(yù)測將所有的溫濕度預(yù)測業(yè)務(wù)按照預(yù)測方案組織起來,首先需創(chuàng)建溫濕度預(yù)測方案。在預(yù)測方案中設(shè)置預(yù)測的目標(biāo)和具體的時間維度、空間維度條件,選擇預(yù)測的類型及應(yīng)用的預(yù)測模型,并錄入與溫濕度預(yù)測方案相關(guān)的描述性信息,根據(jù)不同預(yù)測類型和預(yù)測模型的需要設(shè)置溫濕度預(yù)測的相關(guān)參數(shù),完成預(yù)測方案的創(chuàng)建??土黝A(yù)測流程各步驟如圖6所示。
通過大數(shù)據(jù)平臺,選擇相關(guān)的關(guān)聯(lián)算法,對車站進站量數(shù)據(jù)及站內(nèi)溫濕度數(shù)據(jù)進行統(tǒng)計、訓(xùn)練,通過計算機擬合出車站進站量與溫濕度之間的曲線,找出他們之間的內(nèi)在關(guān)系。
目前的地鐵TCC在運營指標(biāo)分析及應(yīng)急指揮方面功能薄弱,不能滿足實際運營的需求。本文研究了基于大數(shù)據(jù)平臺的城市軌道交通網(wǎng)絡(luò)化運營指揮中心的關(guān)鍵技術(shù),利用大數(shù)據(jù)平臺對數(shù)據(jù)進行統(tǒng)計、挖掘,通過算法尋找相關(guān)聯(lián)的運營指標(biāo)。通過對運營指標(biāo)的綜合分析,可提升地鐵運營管理能力和應(yīng)對突發(fā)應(yīng)急事件的能力。

圖6 溫度預(yù)測系統(tǒng)流程