王 平
(北京市基礎設施投資有限公司,北京 100101)
北京市軌道交通系統規劃于1953年,始建于1965年,運營于1969年。截至2017年底,路網運營線路條數為22條,運營線路總里程達到608 km,運營車站總數為370座。
目前已運營線路包括1號線、2號線、4號線、5號線、6號線、7號線、8號線、9號線、10號線(一期)、10號線(二期)、13號線、14號線、15號線(一期)、16號線、八通線、機場線、大興線、昌平線(一期)、房山線、亦莊線、西郊線、燕房線、S1線共22條線路。目前北京市軌道交通日均運送客運量已突破1 000萬人次。
北京軌道交通隨著生產系統自動化信息化程度越來越高,需要通過規范化的維護服務保障IT系統穩定運行。軌道交通現有IT系統架構及在系統基礎軟件方面,中間件(WEB、消息等)、數據庫和操作系統的選型配置已經趨于成熟,同時在內部開展運維管理的同時,大多數也引進了專業運維外包服務。生產系統在投入運行初期,維護服務主要是依賴集成商經驗,集成商在系統建設期為了快速交付系統,往往投入的人員技術水平和業務水平較高,在系統交付后高水平的人員被抽調至其他建設類項目中,運維服務處于被動式響應狀態,而接手運維的人員往往新入職或水平較低,這給軌道交通的IT生產系統運維帶來較大的風險。另外從管理的角度來看,有時服務商在出現故障或隱患后,往往希望內部消化解決問題,有可能出現瞞報或拖延現象,這也給軌道交通運維帶來較大的事故隱患。長期會存在以下問題。
1)系統軟件、硬件的維護服務經過一定時間,可能對某些人員甚至某些運維服務商產生較強的依賴性。運維服務商的管理水平高低各不相同,人員的技術水平、工作經驗、甚至是責任心也參差不齊,這會直接影響運維的服務質量。特別是個別運維服務商人員流動量較大,運維管理過程中積累的知識,在人員流失過程中也將部份流失,給運維帶來較大風險。
2)運維服務質量評價較難落地。各運維服務商的運維質量高低水平、服務級別協議(SLA)的達成情況、運維人員素質、運維計劃工作完成情況、客戶的滿意度情況,都難以使用明確的指標衡量,因此導致運維服務質量難以持續改進,無法對運維人員進行正向激勵,給運維管理工作帶來了較大難度。
因此,希望通過建立IT運維管理體系,規范化管理業務流程,建立IT運維管理系統,對運維管理工作全過程關鍵點進行管理,從而提高IT系統運維的可控性,提高IT管理的效率和質量。進而保證軌道交通運營安全運行。
軌道交通生產IT系統運維管理系統將參照IT基礎架構標準庫(ITILV3)的理論基礎,同時結合軌道交通系統運行特點,構建一個實用、安全、可擴展的、保障IT生系統安全穩定運營的運維管理系統。
軌道交通IT運維管理系統在提高IT運維質量的同時,還可以幫助建立固化ITIL運維標準,形成一套可落地實施的運維管理體系,方便管理人員、運維人員了解系統的運行狀態、運維工作的執行情況,逐步過渡到規范化、專業化的運維管理,從而實現運維的“監、管、控”。
通過IT運維管理系統,能夠監控、檢查和持續改進系統運行維護的質量,實時監控服務過程,掌控運維服務商的服務計劃,審計服務記錄。對運維管理工作到外包服務商工作從流程管理方面、體系運行方面、崗位角色職責三個角度進行統一績效考核。
IT運維的財務預算管理,也是運維工作的重要組成部份,通過IT運維管理系統,可以統計各信息系統的運維成本、費用的基礎數據(如人員、備件的實際投入),便于業主方了解運維項目的真實成本,利于把運維資金的預算編制和預算執行控制在較為合理的范圍內。
通過梳理服務流程,形成規范化的運行維護管理框架,實現量化管理、提高運行維護管理水平,保障各應用系統安全穩定運行;通過專業的管理報表為管理者的決策提供數據化支持;引進基于工作流的管理方法提供平臺,從而提高整個北京軌道交通技術支持的效率;通過IT運維管理系統的建設,建立事件服務管理、運維隱患問題管理、系統變更管理、配置管理等標準的運維服務流程,實現系統故障主動發現,在生產系統發生故障后第一時間產生事件任務,并調度技術人員進行解決。提高整個北京軌道交通技術支持效率和信息系統管理及運行維護能力,實現主動、高效、安全的管理,從而提升科技服務效率與用戶滿意度。
提高北京軌道交通信息系統管理及運行維護能力,實現主動、高效、安全的管理。
軌道交通IT運維管理系統的核心是運維服務的過程管理。通過對IT運維管控流程的規范化,形成一套適合北京市軌道交通系統運營特點的、易于落地實施的運維管理體系。在系統實現層面,要重點實現運維隱患問題管理、計劃作業、值班、事件服務、知識庫,通過系統中形成工作單,固化流程,保障運維基礎工作的高效執行,從而提升系統運維的質量,提高最終用戶滿意度。
通過IT管理平臺的建設,配合運維管理部門工作優化與提升,逐步建立完備的工作體系。
2.2.1 事件服務管理
事件服務管理包括故障管理、服務請求管理及事件管理3個部分。
2.2.2 系統變更管理
系統變更管理是通過1套系統的方法和流程,來保證變更順利的實現。有效控制由于變更給系統帶來的風險。
2.2.3 配置管理
配置管理旨在介紹和描述配置管理流程。在系統運維過程中最大的風險是變更風險,能夠有效評估變更風險的依據是配置管理數據庫。需定期對配置項進行配置審計,以保證數據庫內的配置項數據的真實可靠,定期形成配置基線。
2.2.4 知識庫管理
知識庫管理目標就是針對運維隱患問題管理的結果,或者是其他途徑來源的各類知識及解決方案的統一管理,系統將知識與解決方案進行分別管理。
2.2.5 計劃作業管理
在運維工作中,有許多重復執行又按計劃落地執行的基礎工作,如定期的系統巡檢,這類工作定義為計劃作業。
如果計劃任務(如巡檢任務)需要審核,那么由相關人員進行審核后將計劃作業記錄單上標明為關閉狀態;計劃關閉后,可進行查詢與統計。
2.2.6 值班管理
值班管理是安排相關人員駐守現場,及時發現運維隱患,通知、協調相關人員解決事件,隨時準備處理突發事件,減少人為操作產生的失誤,按照維護規程和日常工作需要。
建立系統還應根據實際用戶使用情況提出性能、可靠性、安全性、可擴展性的需求。
應根據運維的具體情況,同時要適應軌道交通未來運維業務的發展及現實的需求。對系統進行總體設計。系統設計應遵循以下原則:完整性原則、相關性原則、可靠性原則、可擴展性原則。
IT運維管理系統的總體結構由數據層、組件層、業務邏輯層和應用展現層四層組成。各層次彼此獨立的同時又相互配合,系統體系架構如圖1所示。
其中,組件層采用商業化、成熟的中間件來實現,應用展示層通過B/S方式給用戶提供操作界面。
測試工作應明確測試需求、測試工具、測試進行測試環境準備、編寫測試用例,軟件測試分為功能測試、用戶界面測試、性能測試、配置測試、安裝卸載測試、安全性和訪問控制測試、文檔測試和壓力測試(168 h不間斷壓力測試)。
對測試結果進行結果匯總分析,如性能測試均達到了預期指標,系統性能與健壯性良好,測試結果匯總顯示所有BUG已修改,未出現影響流程的BUG。與預期結果相同,測試合格通過。
采用在生產系統測試服務器上系統實施測試,測試合格后在正式服務器上直接上線安裝部署的形式。因此在系統實施前要做好充分的準備工作。準備工作必須充分有效,包括服務器安裝、用戶培訓、系統測試等。系統功能覆蓋需求的全部內容,功能測試通過,性能測試完成,確認系統在正式服務器上的運行能夠滿足用戶需求。完成系統安裝部署報告。

圖1 系統體系架構圖Fig.1 System architecture diagram
通過IT運維管理系統的實施,建立起一套穩定、可靠、高速和安全的軌道交通路網運維管理平臺,提高運維工作的效率,實現第一時間主動發現系統故障并調度技術人員進行解決,保證軌道交通生產系統更加安全穩定的運行。系統用戶包括技術人員、運維人員、相關負責領導可登錄系統進行事件、運維隱患等運運行維護及管理工作。