文/陳霞 查德平 陳燦華 趙澤宇
復旦大學:重構高校主機托管虛擬化管理流程
文/陳霞 查德平 陳燦華 趙澤宇
ITIL,是英文“信息技術基礎架構庫”的簡稱,于上世紀80年代被提出。它為IT服務管理實踐提供了一個客觀、嚴謹、可量化的標準和規范。多年來,高校信息化部門一直在探索以ITIL為框架,解決關于管理流程、服務流程的問題。本專題中,復旦大學基于ITIL理念,結合自身的實施經驗,提出一套主機托管虛擬化的管理流程;哈爾濱工程大學則嘗試以ITIL理念為支撐,探索構建全域背景下的一站式運維服務平臺。
高校信息化部門作為學校信息化的建設和服務單位,負責建設和維護專業的校園網數據中心,承擔各院系部處的計算機設備托管服務工作。院系部處將計算機設備托管到數據中心,以保障持續穩定、高速、安全地運行。隨著虛擬化應用的迅速發展,計算機實體機器的托管正逐漸被虛擬機服務所取代。
虛擬化服務與實體機托管相比有著明顯優勢。根據筆者所在部門的信息化運行維護經驗,多數托管的機器上僅運行少量低運算量的網站,多數時間計算資源處于空閑狀態。經過虛擬化后,多臺實體機可以合并到一臺虛擬化宿主機上,將大大提供計算資源的利用率,節省機器購置成本和電力開銷,同時也減少機架占用,提高機房使用效率,延遲機房擴容時間。虛擬化技術極大地推動了托管服務的發展和變革。主機托管實現虛擬化后,為信息化部門的管理服務水平的提高奠定了基礎。利用虛擬化軟件的編程接口,服務管理平臺可以大大提高整個托管流程的自動化水平,提高服務質量和用戶體驗,推動ITIL在校園信息化服務中的管理和實施。
本文將基于ITIL理念,結合復旦大學的實施經驗,提出一套主機托管虛擬化的管理流程,旨在充分利用虛擬化的優點,實現管理流程的規范化,同時提高托管服務的自動化,為業務部門提供方便、快捷、友好、安全的主機托管服務。
經過多年的實體主機托管的服務實踐,以及近年的虛擬化嘗試,我們逐漸積累了一些經驗。為了使服務水平再上一個臺階,有必要引入一些成熟的理論作為指導和參考,ITIL就是這么一個比較成熟的體系。

圖1 ITTL管理流程
ITIL主要包括六大模塊,即業務管理、服務管理、ICT基礎架構管理、IT服務管理規劃與實施、應用管理和安全管理,其中與本文所涉及內容密切相關的是服務管理模塊,這也是ITIL的核心模塊。服務管理模塊包括十個流程和一項職能,分別是屬于“服務支持流程組”的事故管理、問題管理、配置管理、變更管理和發布管理;以及屬于“服務提供流程組”的服務級別管理、IT服務財務管理、能力管理、IT服務持續性管理和可用性管理。ITIL理論論述不是本文的重點,讀者可參考相關文獻。本文將主機托管虛擬化的服務管理主要切分為幾大方面:服務臺、配置管理、發布管理、事故管理、問題管理、變更管理、服務級別管理等,并一一論述其具體設計和經驗積累。
ITIL模型幾大模塊相輔相成,如圖1所示。
業務部門的業務請求(包括問題反映、業務咨詢、業務申請、變更、發布等等)通過服務臺模塊與信息化部門聯系提出,服務臺對用戶請求進行受理。服務臺對業務判斷分類后,切入不同的流程模塊:與資源配置相關的進入配置管理模塊;與資源發布相關的進入發布管理模塊;與業務故障事故相關的進入事故管理模塊;與日常問題分析與報告相關的進入問題管理模塊;與業務變更相關的進入變更管理模塊。而上述五個管理模塊都以所謂配置管理數據庫(CMDB)作為后臺和基礎庫。
業務部門與信息化部門的唯一接口是服務臺,服務臺以下是信息化部門的內部模塊。服務臺可以是人工服務窗口,也可以是電子化的服務系統平臺。服務部門內部分幾個方面:配置管理、發布管理、事故管理、問題管理、變更管理。整個服務管理的理論與實踐即以這個框架圖景為思考的基礎,這是一個整體的視角,有利于促進服務管理的規范化,使之趨于完備、嚴謹、條理化和可量化,同時也是自動化服務管理平臺的架構基礎。
服務臺
服務臺是業務部門和用戶的虛擬化服務入口。可依托現有的IT服務臺或者服務管理平臺。這個服務入口是用戶申請服務、反映問題、請求幫助的通道。在復旦大學,我們以運行中心服務臺作為用戶的線下服務中心,同時以Eservice服務管理平臺系統作為發揮服務自動化功能的在線服務臺。
人工服務臺的主要職能包括受理用戶的申請、變更和故障保修等業務,定期調研和收集用戶意見,總結業務數據和知識庫。

圖2 服務臺審核用戶申請
理想的電子化服務平臺應該成為用戶與服務部門的主要接口。用戶可以通過在線平臺提交申請、反映故障問題。以前在實體機托管時代,這一接口的自動化水平較低。而采用虛擬化技術后,借助虛擬化軟件的API,平臺系統完全可以實現自動審核用戶申請、自動分配資源、自動創建虛擬機、自動通知用戶。這對于用戶的體驗無疑是一個很大的飛躍。
如圖2所示,這是一個服務臺最基本的審核用戶申請。這個流程既可以是人工服務臺的人工處理流程,同時也可以是自動化平臺的自動處理流程。這是本文設計的一個特點,盡量使得流程同時適應人工和自動化情景,因為一方面自動化平臺的開發不能立即完成(對于部分自主開發人力資源有限的部門來講甚至是不可能完成的事情),另一方面也算是一種服務管理的冗余保障。
配置管理
虛擬機的特點就是機器的各種硬件資源由軟件定義,核心是其配置信息,這正好切合ITIL的“配置管理”模塊,如果能結合虛擬化軟件的編程接口,那這個模塊的運行將更加順暢,而且與下文的“事故管理”、“問題管理”、“變更管理”等模塊的結合將實現自動化和規范化。因此配置管理模塊的流程設計如圖3所示。管理員在網絡環境下登錄“服務器托管管理系統”填寫申請,其中特別包括系統需求(CPU、內存、硬盤、預裝系統、網絡、防火墻)、用途、事由等相關內容。數據中心管理員在接收到系統發過來的審批郵件后,對申請進行審核,審核通過后系統將針對用戶的需求分配虛擬機。首先系統會到虛擬機模板庫中搜索是否有可以套用的模板,如果有相關模板,則直接將模板克隆成虛擬機實例;如果未找到合適的模板可以套用,則根據用戶的申請可創建虛擬機,最后將模板自動保存到模板庫中。虛擬機配置完畢,系統發通知郵件給數據中心管理員,管理員審核通過并為虛擬機配置IP地址。

圖3“配置管理”模塊的服務流程

圖4 發布管理模塊
以上是人工流程,同時如果借助虛擬化軟件的API,整個申請流程在“托管服務器管理系統”中自動完成,大大提高自動化水平,減少管理員往返于各部門簽字、蓋章的繁瑣,這樣的流程既便捷又高效。這也體現了虛擬化相對主機托管的優勢。
當然這里有必要提出,如果配置管理實現自動化,那么用戶申請的自動化審核就非常重要,務必保障用戶申請的資源在允許的配額以內。在實踐中,我們發現保險穩妥的做法是多創建幾個模版,而用戶只能選擇其中之一。
發布管理
發布管理指的是用戶得到虛擬機并部署其軟件之后,準備發布上線的一個管理流程。發布管理主要為了保障系統的安全性,需要進行上線前的一系列檢查方允許對外發布。因此引入發布管理模塊。虛擬機的發布流程設計如圖4所示。
在虛擬機管理中發布管理體現在對虛擬機安全漏洞的檢測,具體流程是:新虛擬機上線前,系統管理員需要在“服務器托管管理系統”填寫上線申請,數據中心管理員在收到審核郵件后會對該虛擬機進行第一次漏洞掃描,針對托管服務的類型,我們目前常用的漏洞掃描軟件是銥迅漏洞掃描系統,該掃描報告通過圖表的方式直觀地列出風險等級分布(高風險、中風險、低風險)、風險類型分布;并在后面詳述每個風險的名稱、風險描述及解決辦法。這樣的掃描報告簡潔、清晰、易懂,方便管理員的查看和維護。針對掃描報告的評估結果,系統會做出判斷該服務器是否符合上線要求。虛擬機管理員通過登錄“服務器托管管理系統”查看相關掃描報告,查詢掃描結果,對診斷為高風險的服務器需要對漏洞進行修補后重新申請上線。

圖5 事故管理模塊流程
對已經上線的虛擬服務器啟動日常漏洞掃描服務,每天定時對服務器進行漏洞掃描,觀察服務器的運行狀況,發現高風險的服務器發出警告,觸發郵件通知。虛擬機管理員在收到郵件通知后需要在一周內對出現的問題及時進行處理,對逾期未處理的服務器,數據中心管理員對該服務器進行隔離處理,僅對個別有權限的管理者或網段開放管理權限。對已經按要求處理過的高風險服務器,管理員提交上線申請,掃描、審核通過后方可重新上線。
事故管理
在虛擬機的管理中,當用戶發現虛擬機故障而無法正常使用時,他會通過服務臺(人工或電子平臺)提交事故報告申請,服務臺根據問題的性質判斷是由數據中心管理員處理還是由用戶自行處理。具體流程如圖5所示。
事故管理模塊流程的核心在于判斷并選擇事故處理者,這是快速處理問題的關鍵。當然對事故的跟蹤、總結也是這一個模塊的一個重要功能,將有助于了解用戶滿意度,積累業務知識庫。
問題管理
理論上,問題管理模塊是對服務系統中可能存在的問題進行主動發現、分析和總結,以便形成經驗積累。在我們設計中,將重點放在該項服務的重心:即安全性。數據中心管理員對虛擬機的定期掃描就是問題管理的一個應用,通過漏洞掃描發現網站的漏洞和問題,然后聯系系統管理員或數據中心超級管理員完成這個漏洞的修補,做好安全防護工作。借助自動任務腳本,可以將這一個流程自動化,而數據中心管理員則把主要工作放在分析一段時間內的安全報告,及時發現問題,采取處置措施。
變更管理
當系統管理員需要變更虛擬機的配置時,首先需要在服務平臺上填寫變更申請,數據中心管理員在收到用戶的申請后對其需求進行審批,根據現有的資源及需求的合理性決定是否變更,審批通過,通知管理員將會停機操作,待重新開啟后通知管理員已變更成功。管理流程如圖6所示。
服務級別管理

圖6 變更管理模塊流程
服務級別管理包括服務協議的草擬、發布、更改到版本管理,在制定協議條款的過程中,要考慮到有限責任、風險規避及數據保護等問題。我們根據服務臺的反饋,在虛擬機的管理流程中會不斷的完善與用戶協議及條款,做到安全有效、責任明晰。
持續性管理和可用性管理
IT服務持續性管理是指確保發生災難后有足夠的技術、財務和管理資源來確保IT服務持續性的管理流程。我們在管理中采用災備的方法和多機熱備的方法對虛擬機進行備份管理。
由于采用虛擬化,并借鑒ITIL理論,我們可以較大提高主機托管這一傳統業務的規范化和自動化水平,有力響應多年來業務部門不斷提高的服務要求。借助虛擬化,我們完全可以實現所有業務的在線處理,逐漸實現高校的基礎架構云服務(IaaS)。
接下來我們可以預期在完善本文設計的基礎上,充分調研高校各業務部門的需求,逐漸推出類似于商業領域的平臺云服務(PaaS)以及軟件云服務(SaaS)等。這將使得高校信息化部門與各業務部門關系更加緊密,高校信息化投資更加集中和有效,也大幅提高業務部門的信息化技術和管理水平。
(作者單位為復旦大學信息化辦公室)