李 斌
(佳訊飛鴻(北京)智能科技研究院有限公司,北京 100044)
近10年來鐵路行業(yè)高速發(fā)展,截止到2019年年底,國內(nèi)鐵路運營里程達13.9萬 km以上,其中高鐵3.5萬 km。伴隨著鐵路的高速發(fā)展,鐵路行業(yè)的信息基礎(chǔ)設(shè)施— 數(shù)據(jù)中心在中國國家鐵路集團有限公司(簡稱國鐵集團)層面和18個鐵路局層面,穩(wěn)健有序的推進和實施,為鐵路行業(yè)智能化演進提供堅實的基礎(chǔ)支撐。
在數(shù)據(jù)中心建設(shè)和運維管理過程中,面臨著諸多的困難和挑戰(zhàn):IT基礎(chǔ)設(shè)施復(fù)雜度越來越高,廠商多,擴展難,不同廠商產(chǎn)品升級周期不一,補丁過程復(fù)雜;數(shù)據(jù)中心多廠商、多產(chǎn)品集成方案成本高,集成、測試、開通、運營、維護耗時耗力;異構(gòu)環(huán)境可用性管理復(fù)雜,在通常的虛擬環(huán)境中,整體可用性難以保證,應(yīng)用可用性更難管理;異構(gòu)的數(shù)據(jù)庫、Java層、消息層和Web層很難整體調(diào)優(yōu),整體性能難以保證;異構(gòu)環(huán)境增加數(shù)據(jù)中心運維管理復(fù)雜度,部分職責不好界定,問題診斷及解決問題過程復(fù)雜;鐵路上層業(yè)務(wù)要求IT基礎(chǔ)設(shè)施可靠和透明,對于服務(wù)中斷要求和部分鐵路業(yè)務(wù)的性能需求苛刻;運維管理過程中需要多領(lǐng)域?qū)I(yè)人才,人才缺口大,人才儲備不足。
DCIOM是近幾年在數(shù)據(jù)中心運營維護管理領(lǐng)域興起的一個熱點。
Gartner對數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM)的定義是:通過工具監(jiān)控、管理和控制數(shù)據(jù)中心所有 IT 相關(guān)設(shè)備(如服務(wù)器、存儲和交換機)和基礎(chǔ)設(shè)施相關(guān)設(shè)備(如 PDU 和精密空調(diào))的使用情況以及能耗水平。451 Group 對 DCIM 的定義是:數(shù)據(jù)中心基礎(chǔ)設(shè)施系統(tǒng)通過持續(xù)收集和管理數(shù)據(jù)中心的資產(chǎn)、資源以及各種設(shè)備的運行狀態(tài),然后通過分析、整合提煉成有用的數(shù)據(jù),從而幫助數(shù)據(jù)中心管理者管理數(shù)據(jù)中心并優(yōu)化性能。
這里提出DCIOM,在DCIM的基礎(chǔ)上,增加對于數(shù)據(jù)中心的運營功能,試圖從第三方的角度去評估數(shù)據(jù)中心的運營情況。綜上所見,采用統(tǒng)一的平臺管理場地基礎(chǔ)設(shè)施(如 UPS、 空調(diào))以及IT 基礎(chǔ)架構(gòu)(如服務(wù)器),并通過數(shù)據(jù)的分析和聚合,最大化數(shù)據(jù)中心的運營效率,提高可靠性,是DCIOM 系統(tǒng)產(chǎn)生的根源及目的。
鐵路DCIOM系統(tǒng)涵蓋較多被監(jiān)控的對象,覆蓋面較廣,功能復(fù)雜,系統(tǒng)設(shè)計遵循模塊式開發(fā)、部署,系統(tǒng)從底層到最上層的圖形用戶接口共分為4層,每一層實現(xiàn)不同的功能,系統(tǒng)整體的架構(gòu)如圖1所示。

圖1 鐵路數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理系統(tǒng)整體架構(gòu)Fig.1 Overall architecture of operation and maintenance management system for railway data center infrastructure
鐵路DCIOM 系統(tǒng)是一整套包含硬件設(shè)施、前端傳感器和定制化軟件的運維管理平臺與工具。DCIOM 技術(shù)路徑主要體現(xiàn)為鐵路數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理作為一個專業(yè)的技術(shù)應(yīng)用平臺與工具,充分應(yīng)用了計算機技術(shù)、通信技術(shù)、網(wǎng)絡(luò)技術(shù)、軟件技術(shù)、數(shù)據(jù)庫技術(shù)、自動控制技術(shù)、傳感技術(shù)、可靠性技術(shù)以及系統(tǒng)設(shè)計開發(fā)技術(shù)、系統(tǒng)集成技術(shù)、項目管理技術(shù)等。對于鐵路DCIOM 系統(tǒng),差異性主要體現(xiàn)在產(chǎn)品功能的聚集度上所涉及的檢測對象種類、可管理的對象與范圍、軟件平臺的功能、數(shù)據(jù)標準與通訊協(xié)議、第三方的銜接和可擴展性等。
鐵路數(shù)據(jù)中心是鐵路大數(shù)據(jù)處理和價值挖掘的的最大物理載體,隨著其規(guī)模和數(shù)量的增加,為提升數(shù)據(jù)中心管理成熟度,智能化設(shè)備和實時傳感器大量引入鐵路數(shù)據(jù)中心,使其成為路內(nèi)最大規(guī)模的物聯(lián)網(wǎng)應(yīng)用之一,處理海量運維數(shù)據(jù)能力是實現(xiàn)DCIOM系統(tǒng)實時可見性的基礎(chǔ)。
DCIOM 系統(tǒng)作為鐵路數(shù)據(jù)中心日常運營維護管理的平臺,需要設(shè)計為滿足數(shù)據(jù)中心的7×24 h的運行條件,為數(shù)據(jù)中心正常運營提供連續(xù)性的保證。其中對于大型鐵路局數(shù)據(jù)中心(機架數(shù)量為3千到 1 萬個)及超大型國鐵集團數(shù)據(jù)中心(機架數(shù)量為1萬個以上)而言,DCIOM 系統(tǒng)的架構(gòu)設(shè)計,尤其是存儲架構(gòu)設(shè)計尤為重要。
從數(shù)據(jù)量來看,國鐵集團數(shù)據(jù)中心每次進行數(shù)據(jù)采集時需要讀取并存儲的基礎(chǔ)設(shè)施的測點數(shù)據(jù)基本在百萬級別,并且每日數(shù)據(jù)處理量將高達上億級規(guī)模。從數(shù)據(jù)復(fù)雜性來看,除了傳統(tǒng)關(guān)系數(shù)據(jù)庫管理系統(tǒng)能夠存儲的結(jié)構(gòu)化數(shù)據(jù)以外,還需要處理并存儲例如設(shè)備圖片、維護文檔、操作手冊、維保合同等非結(jié)構(gòu)化數(shù)據(jù),以及海量實時控制和監(jiān)測檢測數(shù)據(jù)。
DCIOM系統(tǒng)管理的數(shù)據(jù)資源中主要分為兩類。一類是存儲數(shù)據(jù)中心的資源信息及資源與資源之間關(guān)系的數(shù)據(jù),即設(shè)備屬性、配置關(guān)系等;另一類是所有資源的監(jiān)控及運維數(shù)據(jù)信息,如一臺 UPS 的功率數(shù)據(jù)、 一臺空調(diào)的維護工單等。第一類數(shù)據(jù)通常不會頻繁更新、變動,這些靜態(tài)數(shù)據(jù)稱之為“冷數(shù)據(jù)”。第二類數(shù)據(jù)則需要頻繁的進行檢索和查詢、以及更新處理,涉及到大量的查詢工作。將這些動態(tài)的數(shù)據(jù)稱之為“熱數(shù)據(jù)”。因此,DCOIM 系統(tǒng)的數(shù)據(jù)庫設(shè)計需要采用大數(shù)據(jù)技術(shù)來進行構(gòu)建。
復(fù)雜事件處理(Complex Event Process,CEP)是處理實時數(shù)據(jù)流的關(guān)鍵技術(shù),其特點是在內(nèi)存中通過預(yù)定義規(guī)則處理來自多種異構(gòu)數(shù)據(jù)源的實時數(shù)據(jù)流,并將生成結(jié)果推送給事件訂閱者。復(fù)雜事件處理流程如圖2所示。

圖2 復(fù)雜事件處理流程Fig.2 Complex event processing flowchart
可用成熟功能的 CEP引擎實現(xiàn)以下功能:可接入多種異構(gòu)數(shù)據(jù)源,通過適配器轉(zhuǎn)換為統(tǒng)一數(shù)據(jù)格式;在內(nèi)存中實時處理數(shù)據(jù)流,相比起傳統(tǒng)事件引擎首先將數(shù)據(jù)存儲至數(shù)據(jù)庫后再根據(jù)業(yè)務(wù)規(guī)則加載處理的輪詢方式有更好的性能;支持持續(xù)查詢語言的規(guī)則數(shù)據(jù)庫,其結(jié)構(gòu)化查詢語言類似 SQL,提供映射、過濾 、關(guān)聯(lián)、聚合、模式匹配、延時和時間窗口等反式(Reactive)處理;支持訂閱/發(fā)布機制,主動推送處理結(jié)果給事件訂閱者。
DCIOM系統(tǒng)所管理的對象具有數(shù)量眾多、多種通信協(xié)議、不同連接方式和分布地點比較分散的特點。 分布式數(shù)據(jù)處理和監(jiān)控比傳統(tǒng)集中式監(jiān)控模式具有數(shù)據(jù)響應(yīng)時間更短、占用帶寬更少、故障影響范圍更小和支持系統(tǒng)規(guī)模更大的優(yōu)勢。
分布式處理監(jiān)控管理應(yīng)具有以下特點。
本地數(shù)據(jù)采集和協(xié)議轉(zhuǎn)換:采集性能高和占用帶寬少;復(fù)雜事件處理:過濾重復(fù)數(shù)據(jù)和聚合關(guān)聯(lián)事件,快速上報關(guān)鍵事件;本地告警聯(lián)動:聯(lián)動速度更快,減少網(wǎng)絡(luò)中斷影響更安全可靠;本地數(shù)據(jù)存儲:數(shù)據(jù)可靠性更高,減少網(wǎng)絡(luò)依賴;熱備監(jiān)控單元:可部署熱備監(jiān)控單元,減少單一節(jié)點故障;多種傳輸模式:監(jiān)控單元和中心之間可選取多種傳輸方式,減少網(wǎng)絡(luò)依賴;多種采集模式:可支持任意總線和網(wǎng)絡(luò)采集。
分布式處理減少中心系統(tǒng)的數(shù)據(jù)處理工作量,系統(tǒng)規(guī)模擴大只需要水平擴展增加監(jiān)控單元,是支撐大規(guī)模 DCIOM系統(tǒng)實現(xiàn)數(shù)據(jù)實時監(jiān)控的關(guān)鍵技術(shù)。
DCIOM是數(shù)據(jù)中心管理系統(tǒng)的重要組成部分,DCIOM系統(tǒng)必須提供數(shù)據(jù)接口與其他管理系統(tǒng)進行互聯(lián)和集成。
3.4.1 智能設(shè)備協(xié)議
數(shù)據(jù)中心的設(shè)備種類較多,現(xiàn)實上每種設(shè)備協(xié)議基本都不相同,在數(shù)據(jù)中心行業(yè)標準制定前無法強制統(tǒng)一智能設(shè)備協(xié)議,因此DCIOM系統(tǒng)需要從上往下兼容所有智能設(shè)備協(xié)議。DCIOM系統(tǒng)應(yīng)支持組件化設(shè)計, 每一種設(shè)備協(xié)議開發(fā)成一個驅(qū)動,支持動態(tài)的加載和卸載。
智能設(shè)備協(xié)議通常包括設(shè)備自動發(fā)現(xiàn)、數(shù)據(jù)交互、設(shè)備配置和安全驗證等內(nèi)容。如:設(shè)備自動發(fā)現(xiàn)指設(shè)備上線后自動發(fā)出注冊命令或響應(yīng)管理系統(tǒng)設(shè)備搜尋命令,能夠使管理系統(tǒng)識別和把設(shè)備自動納入管理的過程;數(shù)據(jù)交互通常包括實時信號、事件告警和控制命令;設(shè)備配置內(nèi)容應(yīng)包含設(shè)備唯一標識、設(shè)備類型、型號、廠家、協(xié)議和設(shè)備屬性信息;安全驗證包括對通信雙方身份驗證、數(shù)據(jù)完整性、可靠傳輸和服務(wù)質(zhì)量的定義。
3.4.2 子系統(tǒng)接入?yún)f(xié)議
DCIOM系統(tǒng)作為數(shù)據(jù)中心基礎(chǔ)設(shè)施運維管理的統(tǒng)一平臺,應(yīng)支持各種樓宇管理系統(tǒng)、動環(huán)監(jiān)控系統(tǒng)、 安防系統(tǒng)和資產(chǎn)管理系統(tǒng)的接入。同樣由于數(shù)據(jù)中心行業(yè)標準缺失,現(xiàn)在并無統(tǒng)一的子系統(tǒng)接口規(guī)范,但是對其共性歸納子系統(tǒng)接入?yún)f(xié)議應(yīng)包含如下要求。
開放協(xié)議:即各子系統(tǒng)必須開放數(shù)據(jù)通信接口,提供規(guī)范的協(xié)議文檔。
系統(tǒng)接口:應(yīng)明確系統(tǒng)數(shù)據(jù)接口和設(shè)備協(xié)議的區(qū)別,通常系統(tǒng)由多個子設(shè)備組成,因此系統(tǒng)接口應(yīng)支持子設(shè)備配置和數(shù)據(jù)通信協(xié)議,應(yīng)避免采用SNMP或Modbus這種設(shè)備協(xié)議作為系統(tǒng)接口。
Web 服務(wù):傳統(tǒng)系統(tǒng)通常提供基于TCP的自定義接口,其缺點是難以理解和缺乏服務(wù)描述;隨著 Web 技術(shù)的成熟,在運維領(lǐng)域 Web 服務(wù)API接口逐漸成為標準。
配置同步:子系統(tǒng)下接設(shè)備類型和數(shù)量通常不固定,因此必然要求子系統(tǒng)提供配置服務(wù)接口,當子系統(tǒng)配置變化時及時同步至DCIOM系統(tǒng)。
訂閱發(fā)布:子系統(tǒng)應(yīng)提供訂閱/發(fā)布機制,避免數(shù)據(jù)輪詢主動推送告警信息。
數(shù)據(jù)安全:所有子系統(tǒng)都應(yīng)提供數(shù)據(jù)加密傳輸選項,并能根據(jù)權(quán)限定義提供有限訪問,保證數(shù)據(jù)可靠傳輸。
3.4.3 API集成功能
DCIOM系統(tǒng)需要提供API與上層IT服務(wù)管理系統(tǒng)進行集成,包括資產(chǎn)配置、資產(chǎn)位置、連接關(guān)系、 容量管理、能效管理、實時監(jiān)控、流程管理等服務(wù)。
資產(chǎn)配置:提供資產(chǎn)唯一標識、資產(chǎn)類型、型號、廠商、購買時間、使用年限、資產(chǎn)位置信息等一系列資產(chǎn)屬性信息。可批量導(dǎo)入導(dǎo)出,并與CMDB 配置數(shù)據(jù)庫同步;RFID自動資產(chǎn)管理系統(tǒng)可提供實時資產(chǎn)變更事件;支持變更管理和工作流派單閉環(huán)管理,可獲取資產(chǎn)出入庫記錄和服務(wù)器上下架記錄。
資產(chǎn)位置信息:提供資產(chǎn)位置信息。
連接關(guān)系:提供網(wǎng)絡(luò)連接關(guān)系和電力連接關(guān)系。網(wǎng)絡(luò)連接支持服務(wù)器網(wǎng)口到配線架端口到交換機端口的連接信息;電力連接關(guān)系支持上下游設(shè)備依賴和端口連接信息。
容量管理:提供數(shù)據(jù)中心/機房/樓層/區(qū)域/機柜等級別的實時和歷史容量信息,包括可用容量和已用容量信息,支持空間容量、供電容量、制冷容量和承重容量類型。
能效管理:提供數(shù)據(jù)中心/機房/樓層/區(qū)域/機柜等級別的實時和歷史 PUE 信息。
實時監(jiān)控:提供實時數(shù)據(jù)獲取,事件告警推送和控制命令交互接口。
隨著鐵路行業(yè)數(shù)據(jù)中心規(guī)模和數(shù)量的快速增長,數(shù)據(jù)中心的高效運維逐漸成為鐵路行業(yè)數(shù)據(jù)中心領(lǐng)域研究和落地的關(guān)注熱點。DCIOM系統(tǒng)等數(shù)據(jù)中心智能化管理平臺正加速在鐵路行業(yè)數(shù)據(jù)中心部署應(yīng)用,智能運維機器人或?qū)⑻娲罅總鹘y(tǒng)人工巡檢,逐步形成符合鐵路應(yīng)用實際的“智能化運維管理平臺+智能機器人+專業(yè)工程師”三位一體運維體系。