摘要:通過對三一集團實施IT服務級別管理的過程進行了分析,提出了大型企業建立IT服務級別管理體系的實施方案,并從服務目錄制定,簽訂服務級別協議、服務監控、服務報告、服務優化等5個方面就具體實施策略進行深入討論,最后結合實施后的結果數據驗證了該方案的合理性與可行性。
關鍵詞:ITIL;IT服務級別管理;SLM;SLA;ITSM
中圖分類號:TP311.5文獻標識碼:A文章編號:1009-3044(2009)14-3790-02
The Best Practice of SLM in Large-scale Enterprise
WU Yun-feng, CHEN Chang-Gen, LIU Yu-bo
(IT Department of Sany Heavy Industry Company, Changsha 410100, China)
Abstract: Give a solution on how to implement SLM by analyzing the implementation process of SLM in a large-scale enterprise (Sany Company). Explain the five steps of the solution in detail—Service Catalog, Service Agreement, service monitor, service report, service optimizing. Use the outcome data proves the feasibility of the solution.
Key words: ITIL; ITSM; SLM; SLA
1 引言
IT服務級別管理(SLM:Service Level Management)是 ITIL的核心流程之一, ITIL對其的定義為:企業在可接受的成本條件下,就IT服務質量所做出的包括談判、定義、評估、管理、改進等一系列的管理活動。SLM的主要作用是確保企業能夠獲得符合服務級別協議(SLA:Service Level Agreement)中定義的質量要求的IT服務,同時實現在成本可控的前提下持續提高IT服務質量的目的(幾者之間的關系如圖1所示)。對于企業內部的IT組織來說SLM可以幫助其在 IT服務質量、客戶關系、以及IT服務成本三者之間的博弈中找到最佳平衡點。SLM的實施需要IT組織充分了解自身所能提供的IT服務,以及相關的優先權和業務重要程度,在有效性、響應性、完整性、安全性的約束下將服務價值傳遞給客戶。
2 SLM實施方案分析
ITIL對于SLM的實施給出了建議,實施過程大致分為:確定服務目錄,制定服務級別協議,服務監控,服務報告,服務持續改進5個步驟。對于“服務級別協議如何簽訂?”、“SLM何時實施?”、“服務如何量化?”等這些具體的問題ITIL并沒有給出標準答案。本文以三一集團實施SLM的實際經驗為依據,對“如何具體實施SLM?”這個問題做出了解答。
2.1 定制IT服務目錄
在ITIL v3的定義中,“服務”是指能為客戶帶來價值的一項活動或一系列活動的組合。定義IT服務是實施SLM的第一步。
三一集團的信息化建設一直處于行業領先水平,在其IT部門的多年努力下已經建立了以ERP、PDM、ECC為核心的龐大信息平臺。定制服務目錄的第一步就是從業務流程的角度對信息平臺的各個組成單元進行分析并定義IT服務,這些服務將組成IT服務目錄。能夠提供完整業務流程的一個或多個信息系統的組合即可視為一項IT服務。例如:“查詢生產訂單”不能作為一項服務,物流管理模塊不能視為一項服務,能夠支持整個企業資源管理業務流程的ERP系統才能算是一項完整的IT服務;另外IT部門內部的一些職能組織如果屬于對外服務型組織,其工作職能亦可對應一項IT服務,例如PC維護組對應PC維護服務;由IT部門引進的外部IT組織所提供的服務也應納入服務目錄。在進入簽署SLA階段之前,IT部門明確哪些服務有條件簽署SLA,如果服務近期存在重大變更,例如系統升級、改造、退役等,應暫緩納入SLM。
2.2 簽訂服務級別協議
服務級別協議(SLA)是服務提供商與客戶之間就服務質量達成的共識,SLA是SLM的核心內容,其主要記載了IT服務的質量考核指標以及針對這些指標的考核辦法。
2.2.1 確定質量考核指標
確定服務質量考核指標應從服務的有效性、響應性、完整性、安全性4個方面來分析。
有效性:服務有效即服務可用,“服務可用性”可作為服務有效性的考核指標。對于由應用系統構成的服務,服務的可用性即為系統的可用性:
P=系統實際提供服務時間/系統應該提供服務的時間×100%
如果一個服務由多個相互依賴的系統組成時,該服務的可用性:
P=P0P1…Pn×100%
對于由人工形式提供的服務,其可用性可轉化為在服務提供時間內的用戶請求服務的成功率。例如幫助臺的可用性為:
P=電話實際接通次數/電話撥入次數×100%
響應性:響應性關注客戶能否在預期時間內享受到服務帶來的價值,強調的是服務的效率問題。對于應用系統來說響應性即為系統的響應時間。一個應用系統通常涵蓋復雜的業務流程,包含了數百個業務操作,IT部門應該和業務部門一起,遵循2/8原則,挑選出能反映系統整體性能的關鍵功能點以及業務部門較為關注的核心業務操作。例如系統登錄、具有代表性的數據提交、查詢、報表生成等可作為服務的響應性指標。對于人工提供的服務則關注服務提供的時效,例如在2小時內解決客戶PC故障的成功率。
完整性:根據ITIL V3的定義,服務是一個或者一系列的動作的組合,只有能完成與服務有關的所有動作才能視為有能力提供完整的服務。以應用系統為例,除了系統可用、關鍵功能響應時間之外,比如帳號創建、權限變更、用戶咨詢解答等關系到客戶能否正常享用服務的動作都屬于該服務的范疇,均應包含在服務質量的考核范圍內。
安全性:安全性是指服務交付的過程中客戶資產的安全,強調客戶在享受服務的同時盡量避免承擔風險。對于IT服務來說,其安全性應該由ITIL中的業務連續性管理來保障。IT部門應建立完備的災難(故障)恢復機制,并針對程序、數據、配置等制定合理的備份策略。系統崩潰后的恢復時間以及備份計劃的完整性,準確性,及時性的是衡量服務安全性的質量指標。
2.2.2 確定質量考核指標的閾值
質量指標確定后,需要進一步確定考核基線,即這些考核指標的標準值或閾值。閾值的確定必須得當:閾值過高,明顯超出實際能力SLA將成為不切實際的空談;閾值過低,明顯低于當前水平則對提升IT服務質量無益,且違背了SLM的最終目的。質量指標閾值的確定需從以下三個方面考慮:
業務需求:滿足業務部門的需求是對IT服務質量的最根本要求。各種服務因其服務的業務部門的工作性質的不同其服務要求也不同:與生產線有關的業務系統可能要求7×24運轉,人力資源管理系統可能只需要5×8運轉。工控方面的實時控制系統可能要求毫秒級別的響應速度,而OA系統則只需保證每個頁面在3秒內打開即可。制定閾值應該第一考慮客戶即業務部門的需求。
IT基礎設施現狀:如果將IT服務進行分解,最底層的將是具體的IT設備,例如存儲、服務器、交換機等。雖然這些底層的IT基礎設施不會直接面對用戶,但這些設備的運行狀況直接到影響服務的質量,因此在確定服務的各個質量指標的閾值前,必須要先了解IT基礎設施當前的運行狀況以及歷史性能數據,這些數據是確定服務質量指標閾值的重要依據。例如只有主干網絡的可用性高于98%,應用系統的可用性才有可能高于98%。負責維護這些基礎設施的IT組織有責任保障這些IT基礎設施按期望的性能運行,必要時可與這些基礎設施的維護組織簽訂IT內部的SLA,在ITIL中稱之為OLA (Operation Level Agreement)。
外部資源:以PC維護為例,其硬件保修一般由外部供應商負責,如果IT部門需要確定“PC故障的修復時間”的閾值,則需要考慮外部供應商提供服務的能力。
從以上三個方面與業務部門就閾值進行討論,在成本和效益方面進行權衡,最后確定的閾值應該高于當前服務實際質量的平均水平但低于歷史最高水平。如果業務部門對IT服務的期望確實超出目前IT現有水平,可以考慮向公司建議增加IT投入,例如購買服務器,招聘更多的IT工程師。
2.2.3 例外情況的處理
IT系統、設備不可避免的要進行一些例如升級、patch、調優、停機備份等正常的維護保養動作;可與業務部門協商將這些例行的維護放到用戶可接受的固定時間段內(例如每個周末的午夜),并在SLA中注明在此期間將不對服務質量進行考核。
2.2.4 SLA的編撰與發布
完成服務質量考核指標及其指標值的制定后,由IT部門主導進行SLA的編寫,除了將上述內容寫入SLA,SLA中還需記錄每項服務的IT負責人以及服務團隊,并說明用戶在享用IT服務時需遵循的行為準則(例如信息安全行為規范),將相關內容匯編成冊后,由IT與業務部門雙方簽字后在企業內部進行公示。作為企業內部的服務級別協議,SLA一般不需以合同形式發布。
2.3 服務監控
對服務進行監控目的是為了監測當前服務質量是否達到了SLA的要求,在提出IT服務這個概念以前,IT領域的監控主要針對獨立的IT設備、IT系統,并沒有形成對IT服務整體監控的概念。SLA簽署以后,為了及時掌握當前服務的質量情況,需要對目前的監控思路進行調整,監控點需覆蓋所有SLA中定義的質量考核指標,當出現監控告警時IT人員要能迅速的判讀該異常將影響哪些IT服務,影響程度是什么。
為實現這一目的,三一集團IT總部對原有監控系統進行了改造和整合,提出了面向服務的監控系統架構(見圖3)。首先自行開發了大量監控工具全面覆蓋了SLA中定義各類指標,同時將各類監控數據(應用、服務器,網絡,平臺軟件)匯集到SLM管理平臺(SanySLM)進行分析,分析結果按服務分類后展示(見圖4)。
IT工程師通過SLM管理平臺的監控面板能夠實時的觀測各IT服務的健康狀況,并能直觀的查看每個監控點的實時數據以及歷史趨勢。通過監控面板,管理人員還能調整各個指標的閾值以及監控頻率。在IT總部維護的信息系統中,很多都是面向全集團提供服務的,針對這些有異地用戶使用的系統, IT總部專門制定了針對“異地使用的IT服務”的質量考核指標,并在異地部署了監控程序,從而及時掌握了異地用戶使用IT服務的體驗,真正做到在在集團范圍內全面實施SLM。
2.4 服務報告
定期對服務質量進行總結有利于適時調整服務維護策略,提升服務質量。三一集團由其IT總部每月對服務運行情況進行總結評分,其結果在企業內部網進行公示。對于服務質量的評分IT總部制定了詳細的評分規則,評分低于60,意味著當月該服務未能達到SLA要求,該服務的維護團隊需要對服務現狀進行分析并制定服務質量提升措施。為了將SLA切實貫徹到IT日常工作中,服務的評分結果同時作為服務團隊績效考核指標,將SLA與個人績效相結合有助在整個IT部門形成一致的工作目標——“保證IT服務質量達到SLA的要求”。
2.5 服務優化
SLA實際上是評估當前服務質量的一條基線。由于紛繁復雜的IT環境是時刻變化的,很多情況都會促使IT部門或業務部門對SLA進行修改。例如增加了服務器后,系統的性能有了顯著的提升,原來的SLA將不再適用,需要提高相關考核指標的達標值;當業務部快速擴張后會導致用戶數量急劇增長,系統的負載加重,性能、穩定性都開始降低,這種情況下也需要對原來的SLA進行調整。因此,對于SLA應該采用PDCA的修訂方式。
三一集團IT總部針對SLA的修訂執行制定相應的管理流程(如圖5所示),IT總部每季度以季度內的SLA監測數據為基礎與業務部門一起討論SLA的修訂,修訂后的草案提交公司信息化委員會進行審議后發布。對SLA的定期修訂,可將IT服務的質量考核基線始終保持在一個合適位置,從而推動IT服務質量不斷地向更高品質發展。
3 結論
本文總結了三一集團實施SLM的實踐經驗,對建立SLM管理體系提出了一套解決方案。目前三一集團已有十二項IT服務制定了SLA,經過4個月的試運行,在以“SLA驅動,持續優化,考核掛鉤”的指導原則下,整個集團的IT服務質量有了全面的提升:例如ERP的可用性自SLM實施以來一直保持在100%,其MRP查看等關鍵業務操作響應效率提高了1倍;一直困擾PDM系統的“50M三維模型的檢入”操作從先前的平均100s下降到目前的平均35s。
理論上SLM是可以獨立實施,但其與ITIL的其他流程的聯系是十分緊密的(例如變更管理、事件管理、可用性管理等),這些流程是達成SLA目標的重要手段。根據三一集團實施ITIL的經驗 ,SLM可與變更管理、事件管理、問題管理等服務支持流程同時實施,服務支持流程是達成SLA要求的有力保障,SLM則是檢驗這些流程實施的成效的重要手段。
參考文獻:
[1] The key to managing IT services[EB/OL].[2009-03-08].http://www.ogc.gov.uk/guidance_itil.asp.
[2] ITIL官方網站[EB/OL ]. [2009-03-08].http://www.itil.co.uk/.
[3] 孫強, 劉小寧實施IT服務管理——路在腳下[EB/OL].[2009-03-08]. http://www.cc idoom.com/weekly/news/39/200483114920.htm.
[4] 陳宏峰. 翰緯ITILv3白皮書[M]. 2007.
[5] 左天祖, 劉偉.中國IT服務管理指南[M].北京:北京大學出版社,2004.