梁多姿 上海鐵路局信息化處
隨著信息化進程的大幅度加快,鐵路的信息化建設取得了前所未有的成就。鐵路應用系統(tǒng)不僅涉及鐵路運輸生產、經營、服務等多個領域,還深入到辦公、財務、計劃、統(tǒng)計、人事、勞資等各個方面。業(yè)務與信息技術的緊密結合,迫使各應用系統(tǒng)由原來的單一獨立逐步邁向多元化、層次化,應用系統(tǒng)運維工作亦日益變得復雜,對安全、穩(wěn)定、高效運行的需求也在大幅提升。
ITSM(即IT服務管理)是IT系統(tǒng)的規(guī)劃、建設和運行維護業(yè)務中涉及的一系列方法、流程和經驗的總和,其目標是實現IT服務的規(guī)范化、流程化、電子化和自動化,降低IT運維成本,提高客戶滿意度和服務水平。目前主流的IT服務領域相關標準有 ITIL,ISO 20000,COBIT等,其中應用最為廣泛的就是被稱為ITSM最佳經驗集的ITIL。
目前鐵路的ITSM系統(tǒng)僅處于對硬件設施管理的初級階段,建立基于ITSM理念的自動化、智能化的應用系統(tǒng)監(jiān)控管理平臺對提升應用系統(tǒng)運維管理質量,為鐵路局級運輸生產核心應用系統(tǒng)群平穩(wěn)運行和可靠應用提供有效的管理和技術保障。
鐵路局級應用系統(tǒng)主要包括:客票發(fā)售和預訂系統(tǒng)(PMIS)、鐵路運輸管理信息系統(tǒng)(TMIS)、運輸調度信息系統(tǒng)(TDMS)、車號自動識別系統(tǒng)(ATIS)、電子商務系統(tǒng)、辦公自動化系統(tǒng)(OMIS)及其他生產、管理信息系統(tǒng)。上述系統(tǒng)涉及了大量的硬件、網絡設備以及應用相關的虛擬化系統(tǒng)、操作系統(tǒng)、數據庫、中間件、應用軟件等。路局信息技術部門在日常的運維管理中以人工方式為主,整體運維效率較低。
鐵路局級應用系統(tǒng)架構復雜,且信息技術人員水平參差不齊,對系統(tǒng)業(yè)務理解能力各有不同,各種故障難以避免,此外各個系統(tǒng)均存在著各類隱患,采用人工監(jiān)控的方式存在監(jiān)控不及時、不到位、反應慢的問題。
目前鐵路局還沒有建立局級應用系統(tǒng)運維標準服務體系,運維質量和水平整體偏低。信息技術人員解決問題時基本依靠個人習慣解決,缺乏依據缺乏協作;現今各業(yè)務系統(tǒng)故障處理知識非常分散,很多技術知識和經驗的積累基本依賴個人,缺乏一套全面的知識管理體系,運維經驗和技術無法在應用系統(tǒng)維護部門中進行有效的流通、共享和傳承,一旦出現人員更替或者流失,就很可能影響故障的處理。
應用監(jiān)控管理系統(tǒng)是基于ITSM最佳實踐流程ITIL建立的,具有綜合應用監(jiān)控和管理能力的平臺,包括功能模塊化和底層數據的互通性兩大特征。各個流程模塊可以逐步的構建,頂層的訪問和底層的數據共享都有平臺統(tǒng)一化的服務實現,這樣確保流程信息的共享以及使用的一致性。系統(tǒng)架構如圖1所示。

圖1 系統(tǒng)架構圖
整個運維管理平臺在邏輯上分為四個層次,分別是:門戶(前端用戶訪問層)、服務平臺(ITIL最佳實踐流程)、服務基礎架構(流程引擎及相關基礎設施)和外圍接口(與服務臺系統(tǒng)相關的所有外圍系統(tǒng)和應用)。通過采用這種分層的架構模式,大大降低了各層次間的耦合程度,提供了系統(tǒng)的可用性和可擴展性,為企業(yè)實現一種高可用、高穩(wěn)定性的平臺提供了保障。
鑒于鐵路局TMIS綜合網與客票網物理隔離的現狀,在現有的條件下無法解決網絡問題,需在兩個專網下各建一套系統(tǒng),系統(tǒng)間通過客票接口網閘(網閘中只提供FTP服務)實現數據傳輸,最終可在TMIS綜合網內展示全系統(tǒng)監(jiān)控報表等,網絡拓撲圖如圖2所示。

圖2 網絡拓撲圖
目前主要的鐵路局級應用系統(tǒng)主要包括系統(tǒng)軟件(虛擬化系統(tǒng)、操作系統(tǒng)等)、數據庫軟件、中間件、應用軟件等。虛擬化系統(tǒng)監(jiān)控。通過監(jiān)控平臺,可以自動發(fā)現當前平臺下所有虛擬化主機和對應虛擬機;監(jiān)控虛擬化集群、資源池、虛擬主機,存儲I/O,網絡流量等相關重要虛擬化資源的運行情況。
數據庫監(jiān)控。鐵路客票系統(tǒng)數據庫以SYBASE ASE為主,包含12.5、15.0、15.7三個版本,其他系統(tǒng)以Oracle 9i、Oracle10g、Sql Server為主。監(jiān)控平臺可為這些數據庫提供實時且不間斷的監(jiān)控,包括連接數,鎖、CPU、內存、I/O等資源使用情況,并可自動發(fā)現環(huán)境,在監(jiān)測到潛在的問題或錯誤時發(fā)生警告和警報。
中間件監(jiān)控。監(jiān)控平臺對現有環(huán)境中的主流中間件WebSphere/Jboss/A-pache/MQ等實現監(jiān)控。中間件管理主要是對中間件的關鍵運營活動和事件進行監(jiān)控和管理,保證中間件系統(tǒng)的高可用性。
應用交易監(jiān)控。監(jiān)控平臺可提供直觀有效的方式展現應用系統(tǒng)的運行狀況。應用交易監(jiān)控能完美覆蓋客票、調度、貨票、電子商務等主要業(yè)務系統(tǒng)的業(yè)務流程監(jiān)控,均可采用應用交易監(jiān)控實現實時直觀的監(jiān)控體驗,能幫助應用開發(fā)部門第一時間定位到核心問題所在,從而從整體上降低應用程序故障時間。
應用監(jiān)控平臺將可以提供“自學習的動態(tài)基線和閾值”和“基于趨勢的主動報警”以及“仿真核心業(yè)務流程監(jiān)控”三種方式相結合的全方位監(jiān)控模型。
“自學習的動態(tài)基線和閾值”可以通過自學習產生的推薦閾值為手工設定提供參考;支持告警觸發(fā)自動操作功能,系統(tǒng)可以根據告警的類型和告警級別自動觸發(fā)腳本級的自動化操作功能,能夠實現為現有平臺提供高智能和基于策略自動化的監(jiān)控管理;有數據表明,40%以上的告警可以通過自動化腳本在第一時間自動解決,無需人工介入,更好地提高了整個平臺的可用性。
“基于趨勢的主動報警”簡稱趨勢報警,系統(tǒng)可自動分析歷史運行數據,分析系統(tǒng)資源的使用趨勢,在系統(tǒng)資源達到閾值之前主動報警,確保系統(tǒng)管理員有足夠的時間調整資源配置,防范問題與未然,該報警方式能對服務級別協議(SLA)產生直接的積極影響。通過有效專業(yè)的參數配置,能將資源瓶頸產生的故障報警降低80%以上。
“仿真核心業(yè)務流程監(jiān)控”是應用交易層面的監(jiān)控,系統(tǒng)將定期執(zhí)行已錄制的模擬訪問腳本,通過網絡抓包的方式從應用接入點獲取并分析數據,以實現面向用戶真實會話的性能及可用性監(jiān)控,從使用者的角度測試系統(tǒng)應用是否運行正常,并能夠非常精確地將出錯的步驟第一時間反饋給系統(tǒng)管理員。對于提高應用訪問的可用性,降低系統(tǒng)排錯時間,降低平臺故障時間有顯著的效果。
管理平臺主要實現應用系統(tǒng)運維事件分析,實時告警管理等功能,該平臺將事件分析匯聚監(jiān)控到的各類信息,并進行整合加工,將需要管理員關注的信息提示出來,并幫助管理員進行相關故障的定位。
事件管理。事件管理流程的主要功能是盡快解決影響應用系統(tǒng)正常運行的事件,通過有效的事件嚴重級別分類,為不同級別設置不同的響應機制,有效降低平均故障解決事件(MTTR),保持業(yè)務支撐系統(tǒng)的穩(wěn)定性。
問題管理。問題管理流程的根本目的是通過對于常見問題的不斷追蹤,從系統(tǒng),應用,網絡等各方面不斷排查,從根本上消除或減少生產環(huán)境中事件發(fā)生的數量和嚴重程度,從而為企業(yè)建立一個穩(wěn)定的IT環(huán)境,提高IT服務的可用性。
知識庫管理。通過對知識庫維護和使用,不僅可以在故障自動處理和人工處理的過程中在知識庫中得到相關故障維護的分類和快速定位,而且知識庫具有的業(yè)務幫助功能,使相關人員可以通過關鍵字查詢業(yè)務幫助、產品、市場活動、發(fā)生過的處理流程、電子文檔等,從而快速定位問題,解決問題,降低故障處理時間。
配置管理。為了使得監(jiān)控、流程以及自動化操作的運行有序,確保維護人員看到的信息是真實可靠更新的,而不是基于個人經驗的,構建統(tǒng)一的配置管理數據庫和配置管理系統(tǒng)有助于整個IT系統(tǒng)更加穩(wěn)健,管理更加有序。
通過自動化手段覆蓋主流IT環(huán)境(系統(tǒng)、數據庫、應用、中間件、存儲、網絡等)IT對象性能及故障事件采集、整合“自學習的動態(tài)基線和閾值”和“基于趨勢的主動報警”以及“仿真核心業(yè)務流程監(jiān)控”三種監(jiān)控方式,涵蓋閾值的故障報警、事件過濾、事件壓縮、事件關聯、問題場景自動捕捉,問題根源分析,提供多種報警手段提高運維管理效率。
實施應用綜合管理監(jiān)控系統(tǒng)之后,IT支持人員可以管理整個服務流程,從定義和監(jiān)控依從性到收集并分析性能數據、找出問題區(qū)域以及持續(xù)改善所提供的服務。通過實時的前瞻性管理,確保滿足或超出客戶的期望值。因此,通過實施本系統(tǒng),可以緊密調和所提供的 IT服務與業(yè)務要求,并持續(xù)改善服務質量。
通過基于趨勢的監(jiān)控方式,通過對于歷史信息的智能化動態(tài)分析,能通過專業(yè)報表的方式將未來一段時間的資源需求呈獻給系統(tǒng)管理員參考,為軟硬件投資提供堅實的量化的技術參考依據,從而優(yōu)化基礎設施的投資,避免不必要的資源浪費。
應用系統(tǒng)監(jiān)控管理平臺應用系統(tǒng)監(jiān)控管理平臺是基于ITSM最佳經驗集ITIL建立的綜合監(jiān)控管理平臺,它能夠提供豐富的智能化手段跨系統(tǒng)、跨平臺的及時發(fā)現應用系統(tǒng)問題,提升響應時間;能夠從業(yè)務優(yōu)先級出發(fā)優(yōu)先解決對業(yè)務影響較大的應用系統(tǒng)故障,降低故障影響;通過自動化的處理腳本,降低人工介入,進一步降低故障處理時間;通過統(tǒng)一的門戶平臺提升應用系統(tǒng)運維管理的便捷性。由此可見,應用系統(tǒng)監(jiān)控管理平臺的應用對鐵路應用系統(tǒng)運維工作質量提升具有很好的實用性。
[1]北京神州泰岳軟件股份有限公司.中國IT服務管理指導規(guī)范研究[M].北京:北京郵電大學出版社,2008.
[2]胡波,詹瑾.淺析IT服務管理系統(tǒng)的構建[J].廣東技術師范學院學報,2007(10).
[3]陸雪峰.基于ITIL的證券公司ITSM系統(tǒng)設計與實現[D];復旦大學,2010.