潘明
[摘 要] 天津住房公積金管理中心經過20多年的信息化發展,已經完成了一定程度的信息化建設,已進入一個比較高的階段;對于軟件運行維護工作怎樣管理、探索新模式調整下軟件系統運行維護及監控怎樣工作的方法、怎樣才能設計出適合中心新模式架構下的安全、規范、高效、便捷的軟件運行維護工作模式這幾個問題成為筆者作為一名在信息部門工作12年的軟件運行維護科負責人本篇文章研究的背景。
[關鍵詞] 公積金;軟件;運行;維護
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2014 . 06. 024
[中圖分類號] TP307;F272.7 [文獻標識碼] A [文章編號] 1673 - 0194(2014)06- 0038- 03
1 軟件運行維護現狀分析
根據國際軟件分析公司Gartner Group的調查發現,在軟件運維過程出現的問題中,源自技術或產品本身 (包括硬件、軟件、網絡等)方面的只占了20%,而流程失誤方面的占40%,人員疏失方面的占40%。流程失誤包括軟件變更管理沒有做好、超載、程序上的測試錯誤或不完整等,人員疏失包括忘了做某些事情、訓練不足、備份錯誤或無意識安全疏忽等。進一步分析上面所述的80%問題方面,中心軟件系統運行維護過程中的問題,主要包括以下幾項:
(1)主動的、定期的軟件運維較少,大量運維活動還是被動式的。
(2)系統使用者提出的軟件系統問題需經過復雜流程和漫長等待才能被解決。
(3)系統使用者面對太多的支撐部門,使用中出現的問題不知道該找哪個部門。
(4)對其他人提出的同類問題不知道,對已經收集的信息再次努力去收集。
(5)缺少一個集中的知識庫來存放已知問題的解決方法。
(6)軟件使用中提出的問題在外部單位和中心支撐部門間往返過多。
(7)對于提出的問題跟蹤反饋不及時。
(8)對軟件運維工作質量缺乏實際有效的控制手段。
(9)人員力量薄弱,非關鍵系統數量龐大因此占用運維人員大量時間。
目前的軟件運行維護管理體系模式主要指導思想是在各個網絡建立統一的軟件運行維護平臺,按照軟件系統和時間兩個維度劃分工作環節,按照工作流程進行管理,重視操作、重視流程間的銜接。
2 調研相關單位及國際先進方法
筆者調研了建設銀行和招商銀行軟件運維團隊,其中建行系統運維管理完全按照ITIL架構要求并結合自身實際制定了一套運維管理體系。包含工作職責、崗位人員管理、生產需求管理、系統運行計劃管理、值班管理、變更管理、配置管理、事件管理、問題管理、可用性與性能管理、數據管理、安全管理、機房及場地管理、運維服務商外包管理、服務質量考核管理共15項管理。
招商銀行軟件運維管理架構是在信息技術部下設運行中心負責軟件系統的運維工作;運行中心設系統管理室、安全內控室、值班室等處理軟件、硬件及網絡的安全、軟件系統日常維護、軟件系統管理以及數據備份、異地容災備份和數據手工查詢修改工作。
目前涉及軟件運維護管理工作的規范在國際上有3套體系,分別是ISO 9000系列、CMM軟件成熟度體系、ITIL“信息技術基礎構架庫”體系。
結合中心實際工作,根據上面比較筆者將以ITIL框架標準體系為研究對象,作為中心軟件運行維護管理體系的實踐標準。
3 在中心軟件運維管理工作中如何實施ITIL框架理念
在中心建立“一個中心、五個平臺、八項管理”的ITIL中心核心系統軟件運維實踐框架(見圖1);在“一個中心、五個平臺、八項管理”中,一個中心和五個平臺是架構是中心實施ITIL的骨架,在一個中心和五個平臺基礎上實現八項管理,八項管理是操作是在架構上運行的具體流程。
(1)“一個中心”即一個運維中心,起到服務臺或運維坐席功能,是軟件運維工作的對外唯一節點,對各部門對系統使用中遇到的各種問題進行分類,按照是否為核心系統、問題優先級、問題種類進行詳細分類,分類后進入不同處理流程中。此外運維坐席人員還應產生和報告監控信息,按照運維手冊處理日常運維計劃和一般性系統使用問題。
(2)“五個平臺”即:軟件運維監控平臺、軟件運維事件響應平臺、運維技術服務平臺、運維知識庫平臺、運維輔助分析報表平臺。由軟件運維監控平臺發現各類問題或由系統使用者提出相關問題后進入軟件運維事件響應平臺進行跟蹤解決反饋。問題解決過程中進入運維技術服務平臺和運維知識庫平臺,問題解決后回到運維坐席人員進行反饋。全過程完畢后進入運維分析報表平臺使運維工作管理者方便監督。一個中心、五個平臺及核心管理流程圖詳細說明了一個中心和五個平臺以及核心流程之間的關系。
(3)“八項管理”即:事件管理、問題管理、變更管理、配置管理、發布管理、人員管理、運維服務水平管理、服務連續性管理。其中核心管理流程包括圖2中5項管理內容:
①事件、問題管理:現場維護管理值班人員負責接收來源于電話、網絡、監控信息的事件。對事件內容、事件邊界、事件解決辦法進行分析處理,從而制訂出事件解決方案或從運維知識庫中找到已有解決方案,解決后反饋相關人員。針對無解決方案或事件解決方案重大等情況進行決定是否對事件級別升級。
業務控制處室、審計、合規等部門負責人、主管領導負責對涉及核心系統和事件分類為較嚴重影響級別以上事件進行審批。人事處、紀檢部門負責對相關違規事件及涉及責任人進行處理。
②變更管理。各處室負責提交變更申請,業務主管處室負責對變更申請進行審批。軟件開發管理人員和開發人員共同確定變更操作計劃和變更方案,變更操作計劃和變更方案描述變更實施操作步驟、驗證方法以及變更失敗情況下的回退方案及應急措施。信息處負責人負責對計劃方案進行審批。軟件運行維護人員負責按照計劃執行變更操作,軟件開發人員負責輔助支持。
③配置管理。運維技術管理人員負責確定需要進行配置管理的元素及所有必需的配置屬性,指定與軟件運行環境中其他配置元素之間的關系,對配置管理數據庫提供日常維護。信息處負責人負責對相關配置維護進行審核,軟件運行維護科科長負責對相關配置操作進行授權和銷權。
④發布管理。信息處軟件開發管理人員和開發人員負責編制軟件上線、變更、停用、注銷計劃(含回退),科技信息處負責人進行審核,科技信息處軟件運行維護人員對審核通過的系統進行下發、啟用、停用、注銷操作管理,軟件開發人員負責協助支持。運維水平管理是通過一套持續的協商、監控和報告機制維護和提升軟件系統運維服務質量,滿足中心系統使用人員的業務連續性需求。通過定義服務清單、服務目錄、支撐合同、服務改進計劃、服務質量計劃等進行細粒度量化管理。
4 掌握軟件運行維護先進理念的精髓、靈活運用
本文粗略地分析了中心軟件運行維護工作的架構模式,其精髓就是將傳統認為高科技的信息技術運行維護看作為一個一般的服務產品、一個可以用標準化工作流程運作的服務、一個可以分層次分模塊管理和分類的服務,一個把復雜的軟件系統運維工作分解成若干細小的標準的問題解決流程的系統體系。因此我們只要把握住運維架構體系的精髓建立起適合中心業務發展、適合中心的信息化建設階段的就是一個好的軟件運維體系,就能實現運維工作的最高階段——價值實現;中心各項業務的發展和軟件運行維護管理工作在一個互相驅動、交替上升的過程中共同完善。從而使中心軟件系統運維工作與先進水平接軌,為中心業務的發展建立起一套保障支撐體系,實現軟件系統運維的核心價值理念。