李永超 周麗麗 張悅
大連市氣象信息中心 遼寧 大連 116001
隨著互聯網等技術的不斷進步和云計算產業的高速發展,各個行業的信息化建設和數據中心規模發展迅速,以云計算發展為突出代表。氣象部門的私有云建設不僅參與了信息化技術應用,同時也推動了云計算行業的發展,近年來全國各級氣象部門都在廣泛開展云計算、虛擬化等嘗試,最終完成傳統信息技術到虛擬化應用的轉變,并將虛擬化技術的優勢逐漸體現出來[2]。隨著大連氣象系統信息化建設初具規模,已經建設了覆蓋全市的高速業務專用網絡和高可用、高性能的數據中心。近些年來,隨著業務的不斷發展,各種氣象軟件和氣象資源不斷增加,業務環境中桌面終端的維護成本日益增長。2015年大連市氣象局服務器虛擬化平臺建設初步建成,分別由一套華為刀箱服務器集群和6臺利舊服務器集群搭建完成,由一套VCenter進行集中管理。后經多次升級擴容,增加了7臺高性能服務器組建了第三套虛擬化集群,存儲和內存等資源都得到了提升。作為虛擬化平臺管理人員,在為全局業務用戶提供便利的同時也帶來一些管理方面的困惑和技術瓶頸,有待于進一步解決。
自2015年起,大連市氣象局基于服務器虛擬化技術實現了私有云以來,目前已完成3套服務器虛擬化集群和管理平臺,資源池主要包括物理服務器20臺、CPU 736核、內存1920G、存儲容量100T。運行的虛擬機130余臺,承載了氣象臺、服務中心、信息中心等多個重要業務系統[1]。
當前私有云運維管理自動化程度不高,主要體現在兩個方面:一是資源池規模越來越大、虛擬機系統資源故障隱患點不易排查(比如內存、CPU、存儲空間不足,物理機宕機等),僅依靠管理員人工監控往往出現故障或隱患發現不及時、資源動態分配失衡等問題,導致集群HA性能下降、虛擬機業務系統運行不穩定。二是用戶虛擬機管理采用紙質化的申請流程不但效率低,而且檔案不易長久保存。開發智能化的運維監控管理平臺實現對集群中虛擬機、物理機和存儲等資源的自動化監控,提升用戶虛擬機管理水平。
搭建的B/S架構虛擬化管理平臺,其中主要開發模塊包括以下5個方面的內容:基于VMware接口服務,開發信息處理程序并設置計劃任務定時獲取資源池宿主服務器、通信網絡和存儲的負載信息;獲取虛擬機的運行狀態信息,如告警、CPU、網絡等50余項;開發資源池實時狀態和風險告警顯示模塊;開發資源池容量和余量信息報表導出模塊;開發虛擬機網上管理流程模塊,實現虛擬機審批自動化。

圖1 虛擬機審批流程

圖2 虛擬化管理平臺
平臺搭建的技術難點和關鍵問題如下:利用接口程序獲取虛擬化集群設備和虛擬機的狀態信息并入庫;根據重要程度分級顯示狀態故障和隱患;故障出現時及時告警通知管理員進行處理。平臺技術方案包括以下6個部分:①梳理平臺監控內容,整理監控列表,分別從通訊狀態、宿主物理機、虛擬機、存儲層面選擇監控選項;②虛擬機審批流程設計。根據業務需要,用戶角色設計應包括系統管理員、虛擬機管理員、虛擬機用戶、部門領導、主管領導等。③采用PHP等技術開發B/S版虛擬化管理平臺,主要包括虛擬化重要資源監控模塊、虛擬機申請流程模塊和報表生成模塊。④創建后臺sql server數據庫并根據需要設計表結構,包括用戶角色、集群、主機、CPU核數、CPU使用率、總內存、內存使用率、開機時間、統計時間等。⑤通過RVTools工具,開發后臺處理程序并設置定時處理任務獲取VMware VCenter的集群狀態信息,寫入平臺數據庫中。通過輸入VCenter的連接方式,連接上RVTools后,可以找到虛擬機、主機、集群、交換機、端口組以健康狀態等十幾個視圖。這些視圖的每一行都包含了非常詳細的信息。⑥平臺讀取后臺數據并顯示于前臺界面相應位置,管理員設置相關告警閾值,顯示各資源運行狀態,超出閾值則發出告警通知值班員。虛擬機審批流程如圖1所示,虛擬化管理平臺設計如圖2所示[3]。
根據功能需求和設計完成了平臺的搭建、功能測試和穩定性測試,其中功能模塊實現了對云數據中心資源的狀態采集和資源狀態統計,并在此基礎上完成了異常告警模塊和多樣化數據展示;虛擬機資源審批模塊完成了各流程的轉發審批和資源配置要求不恰當等因素造成審批未通過的情況下重新申請的流轉,最終實現無紙化審批、集中監控、動態優化、節能低耗等功能。虛擬機資源狀態告警功能通過將超閾值信息在平臺上紅色顯示以及推送到本地集中告警平臺數據庫中,并通過阿里云郵件系統和短信通知管理員和值班員,起到雙重告警的作用。該平臺與VCerter相比較,其優點在于異常告警提醒和狀態信息多樣化展示,這也是開發本平臺的首要任務。平臺四個功能模塊:用戶虛擬機申請、部門虛擬機操作系統分配信息、集群資源池統計信息、全局各部門虛擬機數量統計信息[4-6]。如圖3(a)--3(d):

圖3 (a) 用戶虛擬機申請

圖3 (b) 部門虛擬機操作系統分配信息

圖3 (c) 集群資源池統計信息

圖3 (d) 全局各部門虛擬機數量統計信息
虛擬化管理平臺經過測試和試運行階段,時長為20個工作日。在測試階段完成了用戶虛擬機審批流程中用戶填表格選項煩瑣的問題,開發修訂后操作方式得到簡化;在測試運行階段主管領導提出對資源池狀態統計表的修改意見,包括需要統計虛擬機資源使用狀態等。開發者對相應問題進行整理、總結和重新調整代碼,平臺功能得到進一步完善和豐富[7]。
虛擬化運維管理平臺在其管理員經驗積累和深入技術研究的基礎上完成了對本單位私有云集中運維管理。平臺根據用戶角色和權限分配實現了部門用戶對虛擬機網上審批流程,包括用戶、部門領導、主管領導及管理員之間的自動流轉功能;私有云資源管理模塊利用RVTools工具通過VMWare VCerter接口讀取資源池狀態信息,并實現入庫和顯示,其中顯示部分根據業務需要進行分類統計和整理,并呈現多種顯示方式,如柱狀圖等。由于推廣應用時間較短、用戶意見征集較少,平臺存在一定不足之處,如管理平臺包括申請、評估和終止環節各個周期的要求,促進硬件資源、系統軟件合理配置等功能有待完善。