劉 秀,李囈瑾,張 敏,陳 超
(云南電網有限責任公司,云南 昆明 650000)
近年來,互聯網發生很大的變化,隨著系統的深入和完善,對計算機硬件、軟件系統的運行維護,已經成為各行各業普遍關注和不堪重負的問題,大量的網絡設備、服務器、中間件、業務系統等讓運維人員難以應對,因此,建立信息系統運維服務體系迫在眉睫。
按要求開展巡檢工作,檢查各功能模塊能否正常訪問,包括典型操作響應時間、系統病毒定期查殺、口令安全情況、日志審計分析、關鍵進程及資源消耗分析、隊列等,并編制系統運行狀態巡視檢查記錄。
2.1.1 應用系統健康度檢查
按要求開展巡檢工作;典型操作響應;系統功能健康度檢查;后臺異常進程檢查;系統日志分析;關鍵進程及資源消耗分析;系統缺陷的發現及報告;編制系統運行狀態巡視檢查記錄。
2.1.2 應用系統安全巡檢
按要求開展巡檢工作;系統口令安全情況;系統用戶權限分配情況;系統漏洞檢查;系統病毒查殺;編制系統運行狀態巡視檢查記錄(見表1)。

表1 系統深度巡檢

中創應用服務器版本 InforSuite AS 9.1 JDK版本 SUN (build 1.7) 可以升級到最新版內存JVM內存設置 在InforSuite AS控制臺檢查 建議>=2G安全性密碼安全 如果使用默認密碼,建議立即修改密碼InforSuite AS備份 # zip/tar 建議打包備份服務設置控制臺運行狀態 在InforSuite AS控制臺檢查正在運行表示正常,其他不正常server運行狀態 在InforSuite AS控制臺檢查正在運行表示正常,其他不正常JDBC連接池狀態 在InforSuite AS控制臺檢查 能ping通表示正常JDBC連接數 在InforSuite AS控制臺檢查依業務量而定,建議最小32,最大100 Server的線程數設置 在InforSuite AS控制臺檢查依業務量而定,建議最小64,最大128 Accept Backlog的設置 在InforSuite AS控制臺檢查 建議≥256日志保留策略 在logging.propeties文件中檢查 建議≤40個文件應用程序運行狀態 在InforSuite AS控制臺檢查應用包處于啟用狀態表示正常,其他不正常應用檢查登錄應用系統測試 IP/NWYJ如果應用可以登錄,且響應速度正常,則表示應用OK InforSuite AS日志分析 分析系統的nohup日志觀察日志中是否有SEVERE、Error、OutOfMemoryError
通過對系統進行操作,以滿足業務運行的需要而進行的常規的操作動作;也包括在授權和被監控狀態下的對系統運行的業務進程和數據進行修改。
2.2.1 常規主動操作
系統自身運行日記的備份,定期清理;定期檢查系統(包括系統附帶組件)服務狀態,并定期啟停系統(包括系統附帶組件)服務以釋放資源;按要求,到指定地點現場解決系統應用問題。
2.2.2 常規響應操作
建立或終止系統會話連接;系統作業提交;簡單故障處理;提供系統初步需求、功能分析服務;簡單業務流程的調整設計及實施;根據系統管理員提供的數據庫腳本提取數據;業務問題、系統優化等系統問題的支持服務;按要求完成指定的周報報表、KPI報表等目前系統前臺無法滿足需求需人工后臺操作的數據處理工作。
2.2.3 跨系統協同工作
(1)安排處理跨系統協同運維工作,如:其他系統發生代碼變更、故障、缺陷等影響本系統時,需要服務方提供相關運行分析、代碼修改、缺陷排查、故障處理等相關服務。日常協同監控,對協同問題的分析定位并提供相應的分析報告。
(2)按照要求完成業務檢查,如用戶登錄率、工單流轉率、各個模塊信息錄入率、每個模塊的工作評分,以及下個階段的建議。
定期統計業務應用系統的故障與告警、日志及各項運行數據,定期提交系統運行分析報告。
收集業務運行指標數據并開展業務運行情況分析;收集系統性能指標數據并開展系統性能情況分析;收集系統日志并開展系統日志情況分析;收集系統接口狀態數據并開展系統接口狀態分析;收集定期內系統發生故障或存在的缺陷情況并開展系統故障及解決情況分析;系統高風險期預警報告,系統漏洞與安全預警報告。
在“迎峰度假”期間,提供至少1位系統業務支持人員駐場進行值守工作和7×24小時的系統業務電話支持工作,業務支持人員應能夠應對系統應急處置、應急報表業務操作的各類業務解決方案的能力,確保業務系統在“迎峰度假”期間穩定運行。
在應急保障時期(特殊時期保供電、防風防汛應急保障或其他應急場景)提供至少1位系統技術支持人員駐場進行值守工作和7×24小時的系統技術電話支持工作,技術支持人員應能夠應對系統故障處理,提供處理緊急問題的各類技術解決方案的能力,確保業務系統在應急保障期間穩定運行。
(1)系統重大故障處理技術支持工作。在系統發生故障時應提供技術服務支持,按要求進行及時處理,并保證有至少1名人員到故障現場進行處理,確保應急指揮平臺穩定運行,對突發問題及時進行處理。
(2)配合開展系統應急演練工作。按要求提供系統的應急演練的技術協助工作,包括協助搭建應急演練測試環境,編制應急處理預案并定期更新,以保證應急處理符合實際情況需要。
負責受理用戶報障、告警、巡檢發現的信息系統故障,開展系統故障定位、原因分析、故障排除,并提交解決方案和優化建議。
服務請求分析、系統告警信息分析、巡視發現的系統故障分析;快速故障恢復;故障定位和初步確定解決方案;按照要求一個工作日內編制故障分析報告,提出系統優化建議;編制系統故障整改技術方案;故障解決(主備切換、集群節點啟停等運行方式切換);對系統的安全漏洞進行整改加固。
根據系統運行狀態、缺陷和故障解決情況,提出對系統優化的建議,制定實施方案,并加以實施,達到優化應用系統的目的。
一是性能調優設計工作;二是定期對系統運行狀態和系統運行存在的風險進行分析并提出優化和整改建議,編制相應系統性能優化和系統風險整改的分析報告,全過程跟蹤相應的問題點并處理對系統性能存在的問題,編制系統性能調優技術方案或作業計劃;三是對系統性能存在的問題進行分析,編制系統性能調優技術方案或作業計劃;四是性能調優測試工作;五是系統性能調優發布和版本管理工作;六是數據庫數據優化維護工作;七是中創中間件優化運維工作;八是技術性文檔的完善和更新工作。
除了數據庫的技術維護外,按需開展數據處理及日常工作技術支持、業務數據資源維護、業務數據應用維護管理、業務數據質量維護管理工作。
2.7.1 數據處理及日常工作技術支持
一是開展后臺業務數據操作或數據處理的技術支持;二是核查業務數據的問題,包括業務數據模型、業務元數據解釋、業務應用模塊,提供數據字典;三是為業務系統用戶提出的數據狀況、數據處理問題提供及時的技術支持。
2.7.2 業務數據資源維護管理
一是檢查分析數據資源運行狀態,包括用戶、庫表變更情況、ETL流程調度情況、數據量變化情況等內容;二是開展數據庫數據的批量校驗、導入;三是編制數據資源維護的實施技術方案、作業計劃;四是新數據資源管理數據接口設計調整工作;五是數據資源的抽取、校驗及核查實施工作;六是維護業務系統數據字典,包括更新、變更、發布;七是開展業務數據資源的抽取工作,根據技術方案、作業計劃進行數據資源抽取。
2.7.3 業務數據應用維護管理
編制業務系統運行、指標簡報;維護業務系統內部報表數據及計算邏輯;協助編制系統業務數據應用技術方案、作業計劃,提供數據解釋、數據現狀分析及應用技術方案可行性分析;協助開展業務數據應用需求分析、設計、調整工作;開展系統業務數據應用發布和版本管理工作;實施系統業務數據應用操作作業工作。
2.7.4 組織機構調整的業務數據調整技術支持
在系統運行過程中,需求方因組織部門變更需要調整系統數據,如:業務流程、組織及業務數據等數據的調整。初步分析業務流程、組織及業務數據(歷史單據、在途單據)調整需求;編制系統業務流程、組織及業務數據(歷史單據、在途單據)調整技術方案或作業計劃;業務流程、組織及業務數據(歷史單據、在途單據)調整涉及、實施、測試工作;制定版本發布計劃和版本管理工作。
對于信息系統,在維護、部署、管理等方面經常發生故障而導致業務終端,嚴重影響系統的正常運轉,只有建立信息系統的運維服務體系,才能根據各項業務進行統籌安排,降低故障發生率減少損失[1]。