胡 平
(中國電信股份有限公司廣東分公司 廣州510630)
云計算由于其高性能、高可靠性、高安全性等特性,正被各行各業競相追捧。特別是近幾年隨著云計算技術的不斷成熟,各大電信運營商逐步開始從試驗階段走向大規模的商用和內部應用階段。云計算IaaS層面的技術優勢(資源共享、按需分配、快速部署等),很好地解決了現階段業務平臺發展和運維中存在的主要問題,但其技術特點決定了引入云計算后業務平臺的運維模式不能照搬現有業務平臺的運維模式,因此非常有必要在大規模應用前,結合云計算技術和業務平臺的特性,探究引入云計算技術后的業務平臺運維體系,確保云平臺以及其承載的業務平臺能高效、安全、穩定地運行。
根據現階段業務平臺維護的實際情況,結合云計算技術的特點,分析引入云計算后運維體系的變化以及面臨的挑戰。
根據現有業務平臺的建設、運營、維護實際情況,可知目前業務平臺的維護是采用垂直、分散的維護模式(平臺獨立建設、獨立維護),如圖1所示,主要包括如下兩種情況:
·平臺分散在多個維護單位(或維護部門),集中維護和分散維護方式共存;
·硬件(包括服務器、存儲、網絡設備等)和軟件(操作系統、數據庫、中間件、應用軟件)的維護崗位分設和合設共存。
業務平臺部署在云平臺后,因資源池屬于統一規劃部署,各業務平臺共享使用,因此從原來的垂直、分散維護模式演變為橫向、集中的維護模式(資源共享,團隊維護)。資源池集中建設后,云平臺硬件層面(包括服務器、共享存儲、網絡設備等)和虛擬化層面(包括虛擬化軟件、虛擬化管理軟件、云管理平臺等)的維護可以做到集中維護;而云平臺上所承載的虛擬機(即業務平臺,包括虛擬機操作系統及其上安裝的數據庫、中間件、應用軟件等),則可參考現有業務平臺維護機制落實相應的維護職責。業務平臺云化后的維護模式如圖2所示。

圖1 垂直、分散的維護模式

圖2 橫向、集中的維護模式
隨著云計算IaaS層面技術在運營商業務平臺領域的大規模應用,傳統的業務平臺運維體系將面臨挑戰,主要表現在如下幾個方面。
·維護管理制度。云平臺和傳統業務平臺的建設、維護、服務模式不同,現階段缺乏相適應的維護制度以適應這種變化。
·維護人員經驗。缺乏具備虛擬化技術應用、資源自動化部署、資源綜合調度、虛擬化技術安全保障等方面的專業技術人才,是快速推進云計算技術規模化應用的瓶頸之一。
·服務保障要求。保障難度變大,虛擬化增加了IT基礎架構的復雜性,增加了虛擬化層、物理層與邏輯層的脫離,故障排查更為困難。
·管理流程適配。云平臺建設特點是資源與項目分離,而傳統業務平臺的資源是獨立建設、獨立使用,因此為適配云平臺資源共享的特性,需要引入資源管理和服務管理等流程。
·維護管理手段。現有云計算管理平臺商用產品暫未成熟,不能完全滿足運營商規模運營的需求,并且尚未有一套完整的與現有運營支撐系統 (如綜合網管系統、資源管理系統、工單系統等)集成的綜合解決方案。
運營商通過云計算統一資源池統一部署各種業務平臺后,在業務平臺的運維模式方面,從傳統垂直維護模式演變成橫向模式;在維護內容方面,增加了虛擬化層面相關的維護。因此需要根據這些變化,重新梳理現有的運維體系,以適應這種變化,梳理的內容主要包括維護組織架構、維護崗位職責及分工、維護崗位設置、維護界面劃分、維護管理制度及流程等幾個方面的內容。

圖3 云平臺維護組織架構
云平臺屬于業務平臺的一種,只不過其承載的不是業務,而是其他業務平臺,因此云平臺的運維工作基本可以參考現有業務平臺的維護制度,只是維護的內容及對象有所不同。根據上述業務平臺云化后的維護模式演進分析,引入云計算后的維護組織架構如圖3所示。
云平臺的維護組織架構包括職能管理單位(運營管理和維護管理)、維護責任單位、技術支撐單位(廠商或其他支撐單位)3個層面。
職能管理單位主要包括業務平臺維護管理單位省公司網絡運營部、業務運營管理單位省公司各業務部門;維護責任單位主要根據云平臺自身的特點,劃分為硬件設備層、虛擬化層、虛擬機3個層面的維護內容,分別對應不同的維護責任團隊,主要包括云平臺維護團隊、云硬件維護團隊、云平臺上所承載的業務平臺維護單位,維護團隊的成員包括省NOC、分公司或者第三方維護單位等。
基于業務平臺云化后的維護組織架構,引入云平臺后,與傳統業務平臺維護的主要差別在于多了虛擬化層的維護,在云硬件和云平臺上承載的業務平臺的維護與傳統意義上的業務平臺維護基本一致,因此本文重點研究云平臺層面的崗位設置及其職責分工。
虛擬化層運營與維護的主要工作內容包括云資源管理、云服務管理、云統計分析、云安全管理等,詳細工作內容如圖4所示。
根據云平臺運維管理功能需求,結合實際工作情況,可以把維護工作歸納成如下幾種維護崗位:云平臺資源管理員 (或稱云平臺管理員)、云平臺服務管理員(或稱云平臺操作維護員)、云安全管理員、云平臺統計分析員,其中云資源管理中的資源監控職責可獨立為云平臺資源監控員。
根據云平臺維護崗位及職責分工,結合現有業務平臺的維護情況,建議在省公司網絡運營部設置1名云平臺運維管理員,行使云平臺維護管理職責。在維護單位內部,對云平臺層面的維護崗位設置建議如圖5所示,各維護崗位可根據實際需要與傳統業務平臺的維護崗位合并或者單獨設置。
業務平臺維護范圍:虛擬機操作系統(客戶操作系統)及其上安裝的中間件、數據庫、應用系統都屬于業務平臺維護范疇。
云平臺維護范圍:服務器、網絡、存儲等資源池管理(虛擬化層面)以及云管理平臺等。
云平臺硬件維護范圍:物理服務器(包括安裝虛擬化軟件的服務器、安裝虛擬機管理軟件及相關輔助軟件的物理服務器、云管理平臺使用的服務器等)、網絡設備(含防火墻、負載均衡器)、共享存儲等。

圖4 虛擬化層維護工作內容

圖5 云平臺崗位設置

圖6 云平臺故障處理流程

圖7 資源管理流程
引入云計算后,與傳統業務平臺的維護流程相比,云平臺的維護管理、軟件版本及補丁管理、需求管理(主要是云管理方面的需求)、局數據修改管理、機房管理、值班和交班管理以及云平臺的備品備件等,可以完全參考現有的維護管理制度及流程。本文重點研究引入云計算后的兩個關鍵流程,即故障申告及處理流程和資源管理流程。
3.5.1 故障申告及處理流程
云平臺的故障申告及處理,建議采取“一點受理、閉環管理”的原則。因云平臺上承載的是業務平臺,因此對云平臺出現故障發起申告的可能者有:業務平臺維護人員、云平臺監控系統(硬件層面的監控和虛擬化層面的監控)、云平臺維護人員(含虛擬化層面和硬件層面)。
通過前兩種途徑發現的故障,建議統一由云平臺故障管控方(建議是云平臺監控員承擔)進行受理,并做一定的預處理,如果無法解決,由故障管控方通知省NOC云平臺維護人員(含虛擬化層面和硬件層面的維護人員),當管控方不能定位是虛擬化層面還是硬件層面的故障時,先把故障報告給虛擬化層面的維護人員(建議為云平臺操作維護員),虛擬化層面的維護人員牽頭負責后續故障處理及協調(含協調云資源管理員、云硬件維護人員等)。
云平臺維護人員發現的故障,由云平臺維護人員直接做預處理,并判斷在故障處理過程中是否需要業務平臺配合,如果需要,由云平臺維護人員或故障管控方通知業務平臺配合故障處理,當云平臺維護人員無法單獨完成故障處理時,需及時聯系廠商進行故障處理,并在故障處理完成后,對故障進行分析并向上級主管部門提交故障處理報告,反饋給故障管控方進行故障歸檔管理。
故障處理流程如圖6所示。
3.5.2 資源管理流程
云資源的申請(變更)建議由業務部門根據實際需要,向網絡發展部發起(建議配合電子工單流實現)資源申請,業務部門發起的需求至少要包括:業務發展預測(決策冗余資源配置)、忙閑時分布預測(便于維護部門根據業務情況制定錯峰填谷的資源調度策略)、申請虛擬資源大小(CPU、內存、存儲、帶寬等)、SLA要求等。網絡發展部根據規劃情況審核業務部門的需求,根據實際情況對業務部門提出的資源申請進行核減,審核通過后提交給網絡運營部(網絡運營部批復后轉NOC云資源管理員)審核,網絡運營部根據云平臺資源情況,充分考慮云平臺冗余、安全等因素,判斷目前資源池是否滿足業務部門的需要,如果資源不夠,則反饋給網絡發展部安排資源池擴容,否則由云資源管理員配置相關資源,轉云服務管理員進行開通。
在實際資源運行維護過程中,云資源管理員根據資源運行統計分析情況對資源池進行優化,并根據實際情況及時向上級部門提交擴容建議。資源管理流程如圖7所示。
引入云計算IaaS技術后,業務平臺由原來獨立建設、分散維護模式,發展為業務平臺的集約化運營管理,在實際運營過程中首先需要理順維護管理組織架構問題,從全局出發實現跨專業、跨部門、跨單位的維護資源整合,在此基礎上明確各部門間的維護職責及分工,落實云平臺的各個維護崗位及職責,明確彼此間的維護界面,并結合相應的維護規章制度、維護管理流程進行約束,從而實現高效、規范化的云平臺運維管理體系。希望通過本文的分析和研究,能對運營商引入云計算后的運維體系梳理起到啟發和參考作用。
1 譚志遠.云計算給業務平臺的發展與運維帶來的機遇與挑戰.電信科學,2011,27(7)