錢逢安 上海鐵路局信息技術所
信息服務管理系統設計與實現
錢逢安 上海鐵路局信息技術所
基于我局信息運維部門目前面臨的現實困難,設計并實現了信息服務管理系統,該系統規范和監督運維工作各環節,降低運維人員勞動強度,提高運維知識共享,保障各信息系統的持續穩定運行。
機房監控;運行維護;故障管理
經過多年的努力,我局信息化應用得到長足發展。信息系統已經成為我局決策支持、客貨運營銷、調度指揮的重要工具。目前運行的信息系統主要有:客票系統、調度系統、三級建庫系統、辦公自動化系統、安全平臺系統、其他專業信息系統等。作為支撐這些應用運行的底層平臺小型機、服務器、網絡日趨復雜多樣。目前全局核心小型機多達百余套,主要機型是IBM P系列、HP SuperDome系列、Oracle SPARC系列,存儲涉及IBM、HP、EMC、HDS等多家產品,網絡設備涉及思科、華為、港灣,服務器、微機更是數以千計。隨著應用范圍的不斷延伸,投入運營的軟硬件系統更加龐大復雜。
信息系統項目投入生產之后,信息運維部門承擔相關軟硬件系統的所有監控維護責任。如何保障這些系統24 h不間斷穩定運行是對鐵路運維保障部門一個重大挑戰。分析我局實際情況,各信息運維部門普遍存在如下困難:
1.1 故障管理過程不規范,故障處理效率不能保證
故障管理是對運行生產過程中發生的故障進行管理,這是信息運行維護部門日常工作的重要內容,其主要工作包括故障報告、故障登記、故障解決、故障事后分析總結等過程。及時、規范處理故障是保證信息系統持續運行的首要條件。標準的故障管理規范要求對故障事件進行科學、量化分類,并設定事件的優先級。依據在鐵路內部和外部簽訂相應的合同與服務級別協議,獲得必要的資源和支持,及時解決突發事件和故障,減少因突發事件和故障導致的信息服務中斷。
1.2 缺乏運維知識積累,不利提高運維人員的知識能力
建立運維知識庫是信息運維管理的一項重要的工作。信息運行維護人員在實際工作中經常會碰到曾經發生的類似故障和事件,這些故障和事件的解決方案無疑是一筆重要的財富。由于缺乏必要的工具,運維部門常常無法記錄和共享這些寶貴知識。信息運維部門必須建立企業級別知識庫管理機制,通過建立知識庫框架、建立與變更管理、事件管理等流程的接口、梳理知識分類、定義持續改進機制等,使得知識管理融入運維日常工作中,持續提升信息運維部門知識質量。
1.3 鐵路計算機核心資源的監控
鐵路計算機設備狀態以及關鍵資源對生產系統的穩定運行起著重要作用。定期巡視各類設備狀態、查看關鍵資源是鐵路運維人員的首要工作。目前,主要依賴鐵路運維人員定期查看被檢查設備系統日志和資源使用狀況,這種監控方式有很大的局限性:故障發現依賴運維人員的個人工作態度和工作能力、運維人員的勞動強度太大、間休期間不可能進行巡視和檢查,期間發生的故障也就不可能發現和記錄。
2.1 總體結構
信息服務管理系統以ASG-SENTRY為基礎,以事件為驅動,從整體架構上,系統可以分為:監測數據采集與加工、異常事件報警、運維過程規范化管理3大部分。
數據采集與加工功能主要是將所有被監控系統的監控信息采集收集并寫到預定義的信息交換數據庫中。數據處理模塊從交換數據庫讀取信息,進行分類、加工和整理,再寫入目標數據庫中。
異常事件報警模塊從目標數據庫中讀取信息,根據事件影響的輕重程度,以不同顏色的文字信息等不同形式報警,提醒運維人員及時處理。運維人員隨時通過Web瀏覽器查看監控信息,技術支持人員通過該平臺接收查看故障描述,進行故障分析,故障處理結束后通過該平臺反饋故障處理結果。
運維過程規范化管理部分主要是對信息運維過程中各類過程進行規范化管理,確保各類過程可控可追溯,確保運維效率和責任考核。信息服務管理系統總體框架如圖1所示。

圖1 信息服務管理系統總體框架
2.2 開發環境
2.2.1 系統平臺

2.2.2 ASG軟件

上海鐵路局信息服務管理系統已經實現功能包括:事件管理、值班管理、故障管理、知識庫、文檔管理、系統維護、統計輸出等主要功能模塊。系統采用web方式,用戶通過瀏覽器完成全部操作功能。
3.1 事件管理
事件管理是通過安裝在被監控對象(小型機、服務器、微機等)設備上的信息采集插件或配置監控對象(網絡設備),將被監控對象的監控數據主動發送到交換數據庫中,信息服務管理系統數據加工模塊將原始數據過濾加工并送到目標數據庫中,信息服務管理系統Web服務器提取這些數據并對比相關字典,產生報警信息。該功能模塊包含如下幾項功能:報警事件查看與處理,報警信息歷史查詢。
3.2 值班管理
我局信息運維部門大多實行倒班制,有三班倒或四班倒。運維人員需要記錄值班期間發生的各類事項,確保各類信息系統相關事項可追溯跟蹤。該功能模塊包含以下幾項功能:
值班人員交接班功能,由交班人員向接班人員報告當班期間發生的各類事項,核心內容包括上個班遺留的未結束故障及其處理結果、本班發生的故障及其處理結果、其他需要交接的其他重要事項等;
值班日志功能,記錄和查詢值班期間一些零碎事項,如重要部門通知、本班期間應急演練情況、新設備安裝、舊設備報廢等;
巡視記錄功能,記錄和查詢值班人員的機房定期巡視信息,主要是對不能自動監控設備和系統進行人工監控和現場巡視。
3.3 故障管理
故障管理主要是對信息系統運行過程中發生的各類軟硬件故障處理過程進行規范化管理,確保發生的故障及時有效處理,保證各類信息系統持續穩定運行。故障處理模塊包含以下各項功能,涵蓋故障處理過程的每個環節:
故障登記對發生的故障進行登記,確保故障處理技術人員得到相關故障信息。故障登記內容包括故障現象、發生時間、負責故障處理的技術人員及其主管、故障通知的時間等。故障登記最后生成故障處理工單并分發相關技術人員。
故障通知是當故障需要多人員、多部門協作處理時,通知其他的技術人員及其主管,協調多部門共同處理。故障通知功能主要是為了提高故障處理效率,強化故障處理人員的合作和工效的考核。
技術支持是故障處理結束后,故障處理人員對本故障的故障原因以及故障處理過程進行分析總結,并反饋值班人員。值班人員開始結束故障過程。
故障結束是在故障處理完成,值班人員收到所有故障處理人員的故障原因及故障處理總結后,正式關閉故障的過程。
故障統計提供故障分類查詢統計功能。值班人員可以根據故障發生的時間、故障報告單位、故障涉及項目、故障等級、故障責任部門等條件來統計故障,為相關決策、考核提供依據。
3.4 知識庫管理
知識庫的主要內容是各類信息系統軟硬件故障的成熟解決方案。知識庫來源于以下途徑:路內相同或類似信息系統已發生故障的成功處理經驗、路外廠家提供的各類故障官方處理方案、個人提供且經檢驗為正確解決方案。信息服務管理系統實現以下功能:知識庫錄入、知識庫變更、知識庫審核、知識庫檢索、知識庫刪除等。
3.5 文檔管理
文檔管理是信息運維管理一個組成部分,也是信息系統配置管理的一個重要組成部分。信息服務管理系統實現了文檔常見的功能:文檔上傳、文檔查閱、文檔刪除等。為了便于查閱故障分析文檔,特別增加故障分析報告文檔專欄。
3.6 系統維護
系統維護主要是對信息服務管理系統本身進行管理,其主要功能有系統日志管理、用戶及授權管理以及系統字典管理等。
3.7 統計輸出
統計輸出模塊主要包含值班日報表和歷史報表輸出功能。將電算站、路局值班日志及故障信息按照每天或指定時間段綜合成報表輸出,為相關領導提供參考。
信息運維監控系統實現關鍵計算機狀態的自動監控,減輕了運維人員的工作強度,有效提高運維部門的工作效率;信息運維監控系統對運行生產過程中發生的故障進行管理,對故障提供相應的資源和技術支持,提高了信息系統故障處理效率;信息運維監控系統知識庫收錄技術人員各類故障處理的解決方案,通過共享管理機制,使知識管理融入運維日常工作中,持續提升運維部門的工作質量。
責任編輯:王華 胡雄偉
來稿日期:2016-09-22