王月梅,胡 薔
(呼和浩特鐵路局 信息技術所,呼和浩特 010057)
隨著信息技術的普及與快速發展,網絡與信息系統已成為鐵路局運輸組織、安全生產、經營管理不可或缺的重要組成部分。呼和浩特鐵路局信息技術所承擔著全局核心網絡與信息系統的運行維護任務:內蒙古資源網、物流服務平臺、客票預訂與發售、電話訂票及客服、三級建庫、MQ、客票安全、網絡安全、TDM S、mTUP、十八點、現車、ITSM、安全看板、辦公、電子郵件、電子公文等近200個應用信息系統,200余套網絡、空調、消防、供電動力系統設備和近400臺計算機設備的7×24 h在線運行維護。面對數目如此龐大,還在與日俱增的設備與系統規模,各類信息系統故障維護處理逐漸成為運維管理部門面臨的一項繁重而緊急的工作任務。
鐵路信息系統故障處理聯動平臺的設計是以網絡與信息系統軟硬件設備基礎資料的動態登記與實時維護為基礎,建立了各類應用系統及關聯附屬設施的運維管理資源庫,多方面多角度地為值班調度人員和運維管理人員提供了豐富而準確的計算機資源信息,以實現在最短時間內統籌調配所有運維資源,最大化地發揮設備廠商、保修單位以及相關部門間的故障聯動處理作用。
該平臺的最大優點是實現并發式的故障排查與處理,通過系統細分、崗位細分、責任細分提高故障處理效率和運維管理質量的留痕式登記銷號制度,有效規避了故障處理不夠及時、相互推諉、有始無終、慣性問題復雜化處理的諸多弊端,實現了信息系統故障處理與應用運維的網絡流程化閉環管理,做到信息暢通、響應迅速、有效管控,大大提高了信息系統故障的應急處置效率。
該平臺與現有信息服務管理系統(ITSM)及“網絡與信息系統安全風險集中管控平臺”形成聯動,把平臺中歷史性遺留問題或需要長期處理才能得以解決的特殊問題納入“網絡與信息系統安全風險集中管控平臺”中作為安全風險源進行重點排查與整改,使安全管理工作得以強化。
該平臺提供文字、圖表、報表、查閱等功能,使每一起故障都能夠做到處置留痕、嚴格卡控、上板消號、動態考核、對比分析和實時統計的閉環式管理。其中,對慣性問題及典型故障的發生原因與處理方法經專家討論認定后全部存入到經驗庫,為運維管理人員提供開放式檢索,達到借鑒使用的目的。同時,構建了網絡與信息系統知識庫,對復雜問題附屬了針對性的處理方法與應急預案,實現了各運維人員之間根據方法或方案均能夠處理問題的作用。經驗庫與知識庫的設計為新職工提供了一個自學平臺,實現了快速進入工作角色、快速適應工作崗位的人才培育目標,也為老職工提供了一個總結經驗與互動交流的舞臺,起到了真正“傳、幫、帶”的作用。
(1)科學性:系統適應網絡與信息系統故障聯動處理的應用需求。(2)實用性:系統界面美觀友好,功能實用,操作簡便,易于使用和維護。(3)可靠性:系統7×24 h不間斷運行,在發生故障時能保證數據的完整性。(4)推廣性:系統為全局性網絡與信息系統故障聯動處理預留了相應接口,包括站、段、車間、班組都能利用該平臺實現網絡與信息系統故障聯動處理,應用前景廣泛。
該平臺主要功能模塊如圖1所示。
按照“逐級負責、專業負責、分工負責、崗位負責”分層次、分系統建立信息系統故障的登記與閉環處理,具體流程如圖2所示。

圖1 主要功能模塊圖

圖2 功能實現流程圖
(1)系統采用W indows Server 2010 R2+IIS7.5架構的W eb應用服務器平臺;代碼開發采用基于.NET Fram ew o rk的W eb動態設計技術ASP.NET。(2) 模 塊 設 計 采 用 了 RUP(Rational Unified Process)方法,并適當地采用了XP(極限編程)的部分方法作為輔助。(3)本系統采用B/S架構,主要分為W eb應用、W eb服務和數據庫3層,如圖3所示。

圖3 系統結構
(1)日常接報故障登記
運行調度值班人員電話接報故障報警信息后,利用該模塊把發生的故障情況進行詳細登記,內容主要包括故障的報告單位、報告人、發生地點、發生時間、現象、影響范圍、類別、聯系電話等。每條記錄均由當班運行調度值班人員填寫,系統自動記錄登記人姓名和班種。運行調度值班人員登記完成記錄后進行派單,把該條記錄流轉至相關運維工程師進行處理,并電話或短信通知。故障處理界面圖如圖4所示。

圖4 故障處理界面圖
(2)ITSM故障報警轉入
ITSM的作用是實時發現隱患與故障后報警提示,實現機房環境、計算機網絡、數據庫、中間件、業務應用及系統平臺等的實時監控與報警,系統采用B/S方式面向機房值班及信息生產管理人員。運行調度值班人員只需要進行幾個簡單的操作就能夠把需要處理的報警信息自動轉入到信息系統故障處理聯動平臺中進行統一處理。
(3)故障流轉處理
該平臺把運行調度值班人員的姓名與電腦IP地址進行捆綁,故障記錄只能在機房值班專用電腦上錄入,故障記錄一經流轉,維護工程師終端電腦開始出現警告提示,同時接到電話或短信通知,這種三位一體的通知方式大大提高了故障處理的響應速度。維護工程師根據故障記錄內容,有方向有目的地開展故障排查與處理。接收過程有回執記錄,以便運行調度值班人員確認。
(4)申請銷號
維護工程師在處理完故障后,及時填寫處理過程及處理方法,內容詳實、明了。填寫完成后點擊申請銷號,系統通過聲音提示自動通知運行調度值班人員。
(5)閉環管理
運行調度值班人員看到申請銷號的通知后,核實處理結果及填寫內容,給予銷號或提醒處理人員重新填寫處理內容。
(6)記錄優化
得到閉環處理的故障記錄由運行調度值班人員進行優化后流轉至專管領導進行審核,如果合格則直接轉入銷號庫或知識庫;如果不合格則重新分配人員進行優化后最終轉入銷號庫或知識庫。
(7)上板考核
根據維護工程師處理故障流程、處理結果和造成的影響,為干部考核管理系統提供參考依據。
(8)統計分析
根據系統名稱、故障類型、解決部門和解決人員對登記的故障進行統計。通過統計數據,安委會對發生的信息系統故障進行現場分析和集中研討,有針對性地加強安全管理工作。
(1)經驗錄入
經驗錄入模塊根據日常維護的類型主要分為3種:完善性維護、適應性維護和改正性維護。
(2)記錄審核
在日常工作中,每位職工都承擔著不同應用信息系統的維護工作,在每日下班之前將本日所維護和處理過的問題按照發生時間、報告人、處理完成時間進行統一錄入,為月度或年度個人工作量化考核提供依據,也為系統優化提供重要數據來源。記錄審核由各科主管科長完成,對合格的記錄直接轉入經驗庫或知識庫,對不合格的記錄科長優化后最終轉入經驗庫或知識庫。
(1)投產信息系統基本信息登記
對于上聯集中型信息中心機房,內部設備數量龐大、型號復雜、上線信息系統各異,如何在故障報出的第一時間正確定位設備位置,首先需要為每一臺信息系統設備建立基本檔案,包括設備型號、基本配置(基本硬件配置、存儲、主備機、網絡設備及網口、IP地址)、位置、編號、購置時間、投產使用日期、保修期限、保修公司、聯系電話、硬件安裝與日后維護人姓名、系統安裝與日后維護人姓名、應用部署與日后維護人姓名、數據庫(版本、介質存放)、操作系統(版本、介質存放)、設備管理責任人、應急處理預案(主備機關系、應急流程、相關人員)、故障分類記錄(硬件故障、系統故障、應用故障)、歷史故障查詢(按故障分類檢索、按日期檢索、按原因檢索、按結果檢索)、季度匯總報表(按故障分類記錄)、年終匯總報表(按故障分類記錄)。
(2)信息系統基本信息維護
升級記錄(版本、日期、作用);維護記錄(維護工程師姓名、維護原因、日期、處理結果、警示、備注);修改記錄(修改人員姓名、修改原因、修改日期、修改結果)。
(3)信息系統維護要求
系統重要參數的監控數據維護,根據數據重要性排序,以數據表示其重要性。
各使用部門根據權限進行不同類別的樹狀信息維護。
知識庫與經驗庫的設計理念相同,均起到技術交流的作用,為新職工搭建起快速學習的橋梁,也為各業務系統之間搭建起快速協作的通道,目的是確保鐵路運輸工作的安全穩定。
信息系統故障處理聯動平臺涉及到鐵路信息系統的方方面面,以基礎設施臺賬為基礎,每條故障從登記到銷號,實現統一流水作業,問題環節明了,處理時間緊湊,良好地杜絕了互相推諉和拖拉處理情況的發生,提升了信息系統維護處理效率。平臺堅持系統控制、整體協調的原則,強化信息系統各個環節以及與此相關的“結合部”安全風險控制和防范,確保了鐵路運輸生產安全穩定。
[1] 陳立云,金國華.跟我們做流程管理[M]. 北京:北京大學出版社,2010.
[2] 丁 浩,高學賢.信息系統分析與設計[M]. 北京:清華大學出版社,2009.
[3] 林小村,馬玉林,翁小云.數據中心建設與運行管理 [M].北京:科學出版社,2010.
[4]陳宏峰,劉億舟.中國IT服務管理指南:理論篇[M] .北京:北京大學出版社,2012.
[5]貝 克,安德瑞斯.解析極限編程—擁抱變化[M].雷劍文,李應樵,陳振沖,譯. 2版.北京:機械工業出版社,2011.