田偉 張燏
摘 要:農業信息化建設不斷深入,農業系統運維管理迎來新一階段挑戰。通過融入ITIL理念,從提前探知系統運行隱患、預防故障發生的角度對應用系統運維管理新模式進行了初步探索,提出了對IT資源的集中、統一、全面的監控和管理,引入了應用系統運行情況監控平臺的建設思路,并介紹了監控平臺建設實施的相關經驗,為同行業系統運維工作者提供了借鑒和參考。
關鍵詞:ITIL理念;應用系統運維;系統運行監控;監控平臺
中圖分類號:TP319 文獻標志碼:A 論文編號:2013-0888
Preliminary Research on the Monitoring Platform of Application Performance
Tian Wei, Zhang Yu
(Information Center of Ministry of Agriculture, Beijng 100125, China)
Abstract: With the deepening construction of agricultural information, agricultural systems operation and maintenance management meet challenge in a new phase. This article incorporated ITIL operation and maintenance management philosophy. From the perspective of ascertaining system operating hidden dangers in advance and preventing failure, it made a brand new operation and maintenance management mode, which complied the centralized, unified, comprehensive monitoring and management to IT resources. This article introduced the building ideas of the monitoring platform and told how to construct it, provided some reference for the system operation and maintenance industry.
Key words: ITIL Service Management; Application System Operation and Maintenance; Application Performance Monitoring; Monitoring Platform
0 引言
近年來,中國高度重視農業信息化發展,面向社會公眾提供綜合信息服務的國家農業數據中心初步建成,覆蓋全國農業各行業的信息系統相繼投入運行,農業應用系統規模逐漸龐大,系統復雜性逐步提高,作為應用系統的建設和運維職能部門,如何更合理的保障系統運維的規范性,提升系統運維效率,更有效的降低系統運維成本,這些問題值得深入探究。
1 ITIL運維與系統運行監控
應用系統管理職能部門如何保障系統運維規范性,提升運維效率,更有效的降低運維成本,這些問題值得深入思考。為滿足高標準的農業應用系統運維體系建設要求,在充分調研、考察、分析和討論的基礎上,融合國際先進的ITIL標準規范,結合農業應用系統運維現狀,提出基于ITIL運維理念的應用監控運維管理模式。
1.1 ITIL介紹
ITIL,Information Technology Infrastructure Library(信息技術基礎架構庫),是CCTA(英國國家計算機和電信局)于20世紀80年代末開發的一套IT服務管理標準庫,它把英國各行業在IT管理方面的最佳實踐歸納起來變成規范,旨在提高IT資源的利用率和服務質量[1]。目前已成為業界通用的標準。IT服務管理是ITIL框架的核心,它是一套流程(process),并通過服務級別協議(SLA)來保證IT服務的質量。它融合了系統管理、網絡管理、系統開發管理等管理活動和變更管理、資產管理、問題管理等許多流程的理論和實踐[2]。ITIL把IT管理活動歸納為7個模塊,包括服務支持、服務提供、業務視野、基礎設施管理、安全管理、應用管理以及規劃實施服務管理[3]。
1.2 ITIL與系統運行監控
應用系統運行監控運維主要是指通過占用率、閥值、響應時間、連通性等技術指標對應用系統賴以運行的網絡環境及設備(路由器、交換機、安全產品、服務器與PC等)、數據庫資源、中間件等進行實時的監控和管理。應用系統運維管理融入ITIL理念,通過識別、控制、維護,檢查應用系統的IT資源,高效控制與管理不斷變化的IT基礎架構與IT服務,使應用系統運維管理實現流程化、自動化和規范化,并為其他流程,例如事故管理、問題管理、變更管理、發布管理等流程提供準確的配置信息[4]。
采用ITIL運維理念實施,有助于提高運維效率,降低運維風險,逐步降低運維成本。在整個系統管理流程鏈中,應用運行監控能夠更快確定需要改善的IT資源,幫助各IT運維職能部門明確業務需求,有助于各部門之間的良好銜接與理解,迅速解決用戶的各種問題及滿足業務用戶需求,使得IT運維管理部門更主動地以解決方案為本,面向業務用戶提供及時高效的系統運維管理服務[5]。
2 系統運行監控的必要性與可行性
2.1 必要性
伴隨國家農業信息化發展戰略的部署和實施,在農業部及其他有關部門、社會各界的大力支持下,信息化在農業現代化發展中取得顯著成效,農業基礎設施不斷夯實,農業信息資源建設水平明顯提高,農業信息服務體系逐步完善,信息技術在農業產業發展中的應用日漸深入[6]。國家金農工程一期建設項目[7]竣工驗收,農業應用系統建設水平及規模大幅度提升,農業信息化業務要求逐年提高,系統管理和運維的任務更加艱巨。
電子政務系統運維管理通常由信息辦或者信息中心來擔任,這些信息化主管部門往往根據機構職能分為網絡部、應用部、數據庫部、信息安全部等部門,傳統的維護模式中沒有統一的事件匯總節點,而是根據事件的分類由各部門分別進行處理。這樣的組織結構雖然在一定階段一定程度上提高工作職能清晰度,但是隨著電子政務工作的不斷深入,各類服務涉及知識點也逐步深入,受到部門之間的溝通協調的牽制,往往會導致缺乏對問題的綜合分析,或者由于事件類別不清晰出現推諉的現象。另一方面,根據以往運維管理經驗看,往往是到了用戶使用系統的這一環節才發現系統故障,但這是最后一道“通牒”,由于用戶的工作任務常具有緊迫的時效要求,技術人員就像“救火隊員”一般,時常在休息日或者深夜里協調各方面人員匆忙趕到機房,在緊要關頭充分發揮技術知識能力甚至想象力,想盡各種措施緊急排查,與時間賽跑,盡力在最短時間里尋找故障根源,再實施處理措施。這種“高壓撲救”的局面并不利于業務工作的有序進行以及應用系統的平穩運行,也不能提高技術運維人員的工作效率,反而使得運維工作狀態狼狽不堪[8]。這就需要采用一種新的運維管理模式以解決當前運維工作中存在的問題。
2.2 可行性
應用系統的正常運轉取決于其所在的服務器、操作系統及網絡、數據庫、中間件等基礎環境的良好運行[9],經過對應用系統歷次故障分析,系統不能正常運行多是源于其底層支撐資源(例如應用服務器、操作系統、網絡環境、數據庫、中間件等)運轉出現了問題。如果對于這些支撐應用系統運行的底層資源采取實時監控,一旦發現問題隱患盡可能做到提前預警、及時解決,就有機會在影響業務系統正常運轉之前將問題化解,從而改變緊急“撲救”的運維工作模式[10]。
針對應用系統資源環境進行監控管理的平臺應具有良好的可擴展性,能夠將下層網絡和的復雜度有效的通過抽象屏蔽起來,向上層應用和運維流程開放穩定的接口[11]。系統運行監控管理平臺從融合、開放的技術理念出發,提出了實時智能基礎設施監控平臺的建設思路,利用基于統一信息模型的融合抽象建模技術和自動發現技術,實現對全IP網絡中各種應用系統基礎設施的自動發現和資源化,統一信息模型,生成一個可管理、可重用的實時對象庫,并通過實時事件和同步技術,保持與實際管理對象的一致性[12]。由于可以在統一的信息模型定義下針對多軟、硬件廠商,多技術的基礎設施進行抽象,從而為解決異構基礎設施的融合難題奠定了關鍵的基礎,解決了對應用系統基礎環境的總體把握和全局了解的問題[13]。
3 系統運行監控實現
監控管理平臺用于監控應用系統所在服務器(CPU、硬盤、操作系統等)、數據庫、中間件等基礎資源。平臺服務器基本配置要求為Windows操作系統,8核以上CPU,8 G以上內存,500 G以上硬盤,瀏覽器IE 8版本。平臺服務器與所有被監控設備網絡相通,且所有的被管理資源對系統運行監控管理平臺服務器開通相應的監控端口[14]。
3.1 服務器資源的監控
3.1.1 監控原理 監控應用系統所在服務器,主要是通過SNMPv1/v2(簡單網絡管理協議)實現,系統運行監控管理平臺的DCS服務通過SNMP協議每5 min輪巡1次,以獲取主機的CPU、內存、分區等詳細信息,實現這種監測的前提是系統運行監控管理平臺服務器與被監控主機的網絡暢通,系統運行監控管理平臺使用Ping命令每隔1 min自動監測主機的聯通,且須主機SNMP協議開啟161端口,配置團體字[15]。
3.1.2 監控指標及作用
(1)CPU利用率。服務器的CPU利用率作為服務器的核心必須能完全支撐業務的正常運行,在0%~85%范圍內波動為正常,如果過高則CPU可能成為系統的處理瓶頸,系統運行監控管理平臺默認的閾值大于75%黃色警告、大于90%紅色警告,即CPU利用率大于75%系統會產生黃色告警,大于90%產生紅色告警。
(2)內存利用率。內存的大小直接影響系統的運行速度,服務器至少要保持10%的物理剩余可用內存,如果該值一直較小說明服務器總的內存可能不足或某程序沒有釋放內存;系統運行監控管理平臺默認的閾值為80%黃色警告、90%紅色嚴重警告,及時提醒管理員處理以免影響服務器運行。
(3)分區利用率。硬盤的各分區的容量利用率,服務器的長時間運行存取刪除數據會產生碎片,會致使利用率過大,造成讀取數據變慢,影響系統運行;系統運行監控管理平臺默認閾值85%黃色警告、95%紅色嚴重警告,文件系統分區一般取值在85%左右,當利用率超過這個值時,提示管理員及時釋放空間。
(4)Ping時延。Ping命令主要用于檢測網絡通與不通,時延越大說明網絡越不通暢,網絡優良:丟包率=0并且延遲小于10 ms,正常:丟包率小于2%或者時延<100 ms,不正常:丟包率大于2%或者時延大于100 ms,中斷:丟包率為100%,系統運行監控管理平臺默認閾值,黃色警告大于500 ms,紅色嚴重大于1000 ms。當該值過大時會影響主機間的通信,提醒管理員及時處理保證設備間的正常通信。
(5)網絡接口。網絡接口為服務器收發數據的門戶,其性能直接影響服務器的通信效率,系統運行監控管理平臺主要通過監控帶寬利用率(閾值黃色大于80%,紅色大于90%)、接收利用率(閾值黃色大于80%,紅色大于90%)、發送利用率(閾值黃色大于80%,紅色大于90%)、接收速率(黃色大于800000 kbps,紅色大于900000 kbps)、發送速率(黃色大于800000 kbps,紅色大于900000 kbps)這5個指標來實現對網絡接口的監控,每個指標過大就會影響服務器的通信。
3.2 數據庫資源的監控
3.2.1 監控原理 對于SQL Server數據庫,需在系統運行監控管理平臺中配置數據庫服務器的IP地址、administrator組用戶的賬戶權限,且數據庫主機啟動WMI協議(用來取服務器的CPU、內存的值),數據庫用戶應是具有的服務器管理員權限的角色,保持監聽端口可用,系統運行監控管理平臺的DCS通過JDBC協議(數據庫連接)每5 min輪巡1次,獲取SQL Server CPU利用率、SQL Server內存利用率等指標以完成對數據庫的監控。對于Oracle數據庫,與SQL Server監控方式基本一樣,也是通過JDBC協議實現監控,Oracle在UNIX、Linux等類Unix系統部署時使用SSH、Telnet協議監控,Windows平臺用WMI協議,需要注意的是,數據庫賬戶不能是sys用戶,且數據庫用戶需要有connect, resource, select_catalog_role角色權限[14]。
3.2.2 監控指標及作用
(1)SQL Server CPU利用率。CPU性能直接影響到數據庫的運行,通過對利用率的監控可直觀及時了解數據庫的運行是否存在CPU過小的瓶頸。系統運行監控管理平臺默認的閾值:大于60%黃色警告,大于80%紅色嚴重警告。提醒管理員及時調整物理資源或性能指標,以防影響業務的運轉。
(2)SQL Server內存利用率。數據庫的利用率關系到數據的存取刪除速度,建議一般不超過70%,系統運行監控管理平臺默認閾值:大于80%黃色警告,大于90%紅色嚴重警告。
高速緩存命中率,指高速緩存命中次數和查找次數的比率,直接影響數據的存取速率,該指標是指所有Cache的命中率,該指標的值越高越好,如果該指標的值持續低于90%,就需要增加更多的內存。系統運行監控管理平臺默認閾值:小于95%黃色警告,小于90%紅色嚴重警告。
(3)PGA命中率。PGA即被一個進程私有使用的緩存區域,主要包含單個服務器進程或單個后臺進程的數據和控制信息,命中率越高進程或數據處理的速度就越快,過慢致使進程運行緩慢數據處理緩慢。系統運行監控管理平臺默認閾值:小于95%黃色警告,小于90%紅色嚴重警告。
(4)當前會話數。可以理解為連接數據庫的用戶數,數據庫在同一時間內承載的連接數是有限制的,回話過多增加資源消耗,嚴重會直接致使服務停止。系統運行監控管理平臺默認閾值:大于200黃色警告,大于300紅色嚴重警告。及時提醒管理員進行調整,預防服務停止。
(5)連接時間。應用系統連接數據庫的時間長,一般在sql2000里面會出現連接超時的問題,建議連接時長不超過500 ms。系統運行監控管理平臺默認閾值:大于500 ms黃色警告,大于1000 ms紅色嚴重警告。
(6)阻塞進程數。阻塞進程是指處于等待不處理狀態的進程,數量過大會影響數據庫的進程數據處理性能。系統運行監控管理平臺默認閾值:大于5黃色警告,大于10紅色嚴重警告。
(7)共享池內存使用率。共享池是在多處理器的計算機系統中,可以被不同中央處理器訪問的大容量內存區,所以內存池直接影響數據的處理,該指標的值應保持在75%~90%,如果這個值太低,就浪費內存,如果太高,會使共享池外部的組件老化,如果SQL語句被再次執行,則就會發生硬分析。系統運行監控管理平臺默認的閾值:大于70%黃色警告,大于80%紅色嚴重警告。
(8)當前打開的游標數。游標是系統為用戶開設的一個數據緩沖區,主要是用于循環提取數據的一種機制,數量過多影響數據提取性能。系統運行監控管理平臺默認閾值:大于1500黃色警告,大于2000紅色嚴重警告[15]。
3.3 中間件資源的監控
3.3.1 監控原理 以Apusic AS為例,Apusic AS部署在Windows平臺上,主機要開啟WMI協議,并有administrator組用戶的賬戶權限及金蝶管理權限的賬戶,系統運行監控管理平臺通過內置的插件獲取Apusic AS CPU利用率、Apusic AS內存利用率等指標的數據,實現監控。如通過內部插件發起HTTP請求,依據URL響應時間來判斷其可用性及性能;通過內部插件查看端口可用性等。
3.3.2 監控指標及作用
(1)Apusic AS CPU利用率。CPU是設備的核心,是設備正常運行的基礎。系統運行監控管理平臺現配置的閾值:大于90%黃色警告,大于95%紅色嚴重警告。
(2)Apusic AS 內存利用率。當前主機上Apusic AS占用的內存利用率,若占用量過大超過90%,就可能成為系統運行的瓶頸,需要管理員及時調整資源,以避免不必要的損失。系統運行監控管理平臺配置的閾值是大于90%黃色警告,大于95%紅色嚴重警告。
(3)JVM內存利用率。JVM為java代碼提供運行環境,器內存利用率直接關系到Apusic AS的運行效率,該指標比較重要。目前系統運行監控管理平臺配置的閾值為大于90%黃色警告,大于95%紅色嚴重警告。
(4)JDBC連接池。java數據庫連接池,處理執行java語句的API,若連接數過多會致使讀取數據慢,影響業務運行。系統運行監控管理平臺現配置的閾值為活動的連接數大于85%黃色警告,大于90%紅色嚴重警告。
(5)JMS,Java信息服務。消息系統中的Java應用程序進行消息交換,系統運行監控管理平臺判斷其是否可用,不可用則產生告警。
(6)WEB應用服務。即網頁應用服務,系統運行監控管理平臺監控其可用性,若不可用產生告警。
(7)響應時間。響應時間決定了打開網頁的時間,時間越短越好,若過大會直接影響網頁的訪問速度。系統運行監控管理平臺默認閾值:大于500 ms黃色警告,大于1000 ms紅色嚴重警告。
(8)可用性。通過Ping命令來確認該端口是否可用。
監控平臺采用B/S架構,以門戶作為統一入口,方便功能擴展,系統的易用性和界面具有直觀的展現和操作,包括監控資源的可視化配置和可視化展現。經過近半年時間的部署與配置,目前平臺已完成對42臺Windows服務器、8個Oracle數據庫、2個SQL Server數據庫、31個金蝶中間件、11個URL、26個PORT等資源的實時監控,并通過系統運行監控管理平臺后臺算法對每個節點CPU內存性能、宕機時長等指標進行綜合計算,導出所關聯業務的健康度繁忙度,實現對整個業務的監控,以保障33個應用業務系統的運維工作。
4 監控管理的初步成效
4.1 提升了運維監控能力
應用系統運行情況的監控管理轉變了系統運維管理傳統的工作流程,它使應用系統和IT資源的工作狀態明確地顯示出來,在問題發生時能夠快速定位影響業務的資源,提供針對問題的故障分析,使應用系統運維技術支持過程更加標準化、規劃化,全新的系統運維管理工作模式提升了運維監控能力。
4.2 全面提升系統運維效率
系統運行情況的監控管理實現了技術、功能、服務3個方面的完整整合,保障了農業信息系統運行的穩定性,提高了農業應用的利用率,極大地增強了系統故障響應和處理能力,全面提升了單位信息技術管理效率和服務水平。
4.3 顯著提高科學運維水平
系統運行實時監控獲得大量真實數據,通過對數據信息的全面梳理,按照一定的方法進行數據挖掘再利用,有助于發現應用系統IT資源運轉規律,向前延伸監控預警范圍,進一步強化監控管理在系統運維中的提前預警作用。
5 結語
系統運行監控從根本上改變了運維工作模式,是運維管理工作的一項創新發展。它將應用系統和IT資源的工作狀態明確地顯示出來,為系統運維工作者提供了直觀、準確的監測數據信息,為應用系統的運行管理提供了更完備的管理手段,大幅提升應用運維管理水平,提高系統運維效率。今后,隨著系統運維的不斷進步,監控管理將成為不可或缺的工作手段。本研究從理論走向實踐,為應用系統運行監控的研究者及系統運維工作者規范化、精細化管理及創新發展提供了有力參考。
參考文獻
[1] 崔長鳴.開發應用ITIL理念的運維系統[D].成都:電子科技大學,2011.
[2] 郭巍.基于ITIL的電子政務IT運維服務支持流程的設計與實現[D].北京:北京郵電大學,2010.
[3] 林曉群.高校基于ITIL思想的IT服務管理系統的設計與實現[D].廣州:華南理工大學,2010.
[4] 悠虎.從案例看ITIL的四個關鍵點[J].網絡與信息,2010(10).
[5] 嚴波.基于ITIL理論的應用系統運維部門IT環境監控系統的設計與實現[D].北京:北京郵電大學,2011:21-38.
[6] 陳曉華副部長在全國農業信息化工作會議上的講話[EB/OL].農業部情況通報第33期.農業部網站.2013.
[7] 金農工程一期(農業部本級)項目順利通過初步驗收[EB/OL].農業部網站.2011.
[8] 楊毅.計算機系統運行監控初探[J].華南金融電腦,2007(4).
[9] 王萌,徐毅博.淺談現代應用系統運維部門信息系統集成應用[J].現代經濟信息,2011(10).
[10] 劉錦峰.B/S應用系統運維部門應用系統的運行監控[J].中國傳媒科技,2009(6).
[11] 張永欣,.IT資源運行監控管理系統研究與開發[J].濟南:山東大學,2012.
[12] 閻偉,劉瑜,郝達睿.應用系統運行狀態監管的設計與開發[J].計算機系統應用,2012(5).
[13] 翁凌宇,柳陽,韓志偉.遠程軟件運行監測的設計與實現[J].艦船電子工程,2008(6).
[14] 石國偉,信息運維系統的設計與實現[J].西安:西安電子科技大學,2010.
[15] 李志清,劉小萍.淺談信息一體化管理平臺[J].探求,2008(7).