沈鳳明++崔騁宇
摘 要:隨著云計算迅速發展,適應移動辦公潮流到來,考慮到數據私密以及響應及時,很多高校都開始搭建私有云環境,作為學校信息化的基礎設施向師生提供信息服務。西北農林科技大學云計算平臺經過多年的運維實踐,現已穩定、可靠地承載業務部門的信息化服務功能。VM是實現信息服務功能的載體,該文闡述了云環境下VM實現功能過程中的常見問題,提出了一套可行的管理策略和方案。
關鍵詞:私有云 VM管理 故障監控
中圖分類號:TP32 文獻標識碼:A 文章編號:1672-3791(2016)12(b)-0045-02
云計算是網格計算、分布式計算、并行計算、效用計算、網絡存儲、虛擬化、負載均衡等傳統計算機技術和網絡技術相互發展、相互促進的產物,其主要目的是通過這些技術將多個成本相對較低的計算實體構建成為一個具有強大計算能力的系統,實現了分布式計算的重要目標:可擴展性和高可用性[1]。同計算資源龐大的公有云相比,私有資源和對數據的掌控是其存在、發展的基礎。
云數據中心通過虛擬化技術將計算資源(CPU,內存,GPU,FPGA),存儲資源和網絡資源構建成虛擬資源池;使用虛擬資源管理技術實現資源自動部署、動態擴展、按需分配;用戶可以采用預留分配,即需分配,現貨分配等方式獲取所需資源[2]。然而在實際運維中發現,資源分配、回收機制并不可行。該文在闡述這些問題的基礎上,提出了虛擬機(下文用VM)的管理策略。
1 VM管理中常見的問題
私有云平臺上運行的VM,可以分為三大類:第一類是云計算平臺自用的,為實現云計算而生;第二類是云平臺上運行的公共服務支撐系統,比如統一身份認證、門戶、公共數據庫等服務;第三類是數量繁多、差異大,不同部門使用的業務系統;第一、二類VM由云平臺管理員維護,第三類VM主要由業務部門管理員維護,云平臺管理員協助,是該文主要關注的類型。
1.1 第三類VM由業務部門維護的必要性
該類VM提供的應用,與具體業務部門相關,服務對象是辦理具體業務的師生。服務時間、服務量、服務高峰時間、數據量等不同業務系統之間差異大,以該校實際情況為例:圖書館的VM通常需要很大的存儲空間,長期存活;教務處的VM在選課期間并發量很高;這些具體情況只有業務部門比較清楚。其二,部門管理員是使用業務系統最多的人員,系統出現異常后,最可能由業務部門管理員最早發現;其三,云平臺中管理的VM數量眾多,讓云平臺管理員監控云平臺中所有VM運行狀態是不現實的;還有,有些業務部門的數據是私密的,比如財務數據、個人私密性數據等??紤]到信息私密性、數據所有權、權責界限劃分問題,VM創建完成后,管理員權限轉移至應用部門,云平臺管理員不再具有超級管理權限。
1.2 VM的維護管理體系
業務管理員精通業務,建設信息系統不是其強項。由我校實際情況看,業務部門自己開發的業務系統在穩定性、安全性、服務性能上明顯不足,與其他業務系統數據互通性較差,容易形成信息孤島;所以,大多業務系統還是由專門的公司開發、維護。最終形成業務部門在前臺面向師生提供服務,云平臺管理者和開發公司在后臺向業務部門提供支撐服務的管理體系;在這一體系中云平臺管理員提供VM的計算資源、存儲資源、網絡資源、業務漏洞掃描以及VM開關機服務,承建公司提供系統搭建、維護正常運行的服務。
2 VM維護體系的缺點與不足
2.1 資源利用率不高,回收困難
前文提到業務部門對自身系統了解最深,但即使這樣,業務部門對系統消耗資源量也是不清晰的,常以承建公司提供的數據為依據申請使用量,超額申請是常見的現象。云平臺管理員又沒有拒絕的理由和依據,解決方案就是人工處理資源額度申請,同業務部門及承建公司協商合適的額度。業務系統投入運行后,發現資源不足時補加;而云平臺向業務VM提供的資源富余時,業務部門幾乎不會主動提出減少資源額度。雖然云管理平臺有一定動態的資源回收和再用機制,但這種浪費方式帶來的低利用率是不可消除的。
2.2 非正常運行中的業務系統帶來的資源低利用率
根據VM中的業務系統的運行狀態,云平臺中VM分為以下幾種:(1)承載業務系統正常運行的VM;(2)業務系統建設中的VM;(3)由于業務老化被丟棄的VM;(4)由于運行故障、漏洞導致失效的VM;(5)業務建設中由各種原因暫停的VM;(6)測試用的VM;除(1)、(2)之外,其他幾種VM,數量較多,占VM總量的15%左右,不但浪費大量的計算資源,且由于這些失效的VM不能被標識和關停,又會導致龐大的備份量、浪費額外的備份空間。
2.3 通過資源計費提高資源利用率的不現實性
公有云通過資源使用量收取相應的費用,以經濟手段提高資源利用率,但在私有云環境中是行不通的。私有云平臺管理部門同其他業務部門同屬一個單位,如通過部門間費用結算,和不收取沒什么區別;再者,云平臺屬于校園基礎設施,為其他業務部門提供基礎支撐是其應承擔的功能,由于費用問題影響到其他業務部門的正常使用是不可想象的。
2.4 業務部門的控制感不強
業務部門認為硬件系統和網絡系統都存放在信息部門,潛意識認為業務系統歸屬于信息部門管理;當云平臺管理員將VM管理權轉移至應用部門后,由于業務部門的信息技術相對薄弱、對數據安全的擔憂不愿接手,導致VM管理權的空置,給整個系統安全帶來潛在的危險。
3 VM管理策略及實現
VM在其生命周期內,部署和運維是管理的主要任務,在實際的工作生產中,我們是這樣管理業務系統VM的:
3.1 VM部署流程管理
私有云中的VM數量較少,平均周部署量在2~3臺左右。為了有序、有效管理VM部署,在實際管理中采用應用系統申請表的方式進行。流程如下:
(1)閱讀校應用系統管理辦法;(2)下載應用系統備案登記表,根據表項內容填寫; 其中業務部門負責的內容有:VM數量,應用系統描述,操作系統類型,計算資源CPU、內存的申請額度,應用服務范圍(對內、對外),業務部門管理人員姓名及聯系方式,租用期限;(3)應用系統使用單位簽署意見后,報信息辦審批備案;(4)信息管理部門工作人員根據登記表分配計算資源和內網IP地址分別,創建VM管理員賬號和密碼,并將VM超級管理權限轉交給業務部門;(5)業務部門聯系承建公司完成系統建設;(6)信息部門對建設完成后的應用系統進行安全漏洞掃描,未通過安全漏洞掃描的系統反饋掃描結果給業務部門整改;通過安全漏洞掃描的應用系統,如有外網訪問需要,配給正式外網IP。自此,應用系統正式上線運行。
通過登記表申請方式,可以有效控制VM資源的浪費情況。登記表中的聯系方式,有助于落實VM業務管理員,在其變更時也能得到及時更新,不至于VM在運行時失去管控。
3.2 VM正常使用管理的異常情況管理
VM中應用系統正式投入后,故障出現的概率較小。主要的故障有:系統負載過重,磁盤空間不足,VM網絡故障及關聯VM間連通故障,這些故障需及時處理。還有一種需要及時處理的操作是OS更新。此時云平臺管理員已失去對VM的管控能力,這就要求業務系統管理員對VM掌控有力。VM系統長時間不出故障,又容易給業務管理員帶來思想上的麻痹。再者,要求云平臺管理員24 h監控是合理的,要求業務管理員每天登陸VM監控是不現實的;在VM異常出現時,業務系統管理員第一時間發現問題,及時聯系云平臺管理員和承建公司處理是可行的。在不改變私有云架構的情況下,采用以下方法對虛擬機進行管理監控:
(1)VM網絡通訊正常,此時監控VM的計算資源使用情況,關聯VM間的通訊情況,并發量大小,將故障、警報信息發郵件提示給業務部門管理員;業務部門管理員根據實際情況,聯系云平臺管理員關閉、重啟VM,或者聯系承建公司處理異常故障。
(2)私有云平臺管理員,通過一個私有云域外計算機監控業務VM的通訊狀態。該機維護一張監控VM的IP地址及應用端口表,通過腳本監控表中所列項,一旦發現通訊異常,云平臺管理員登錄控制臺處理異常故障。
(3)在VM使用并發高峰前,業務部門與云平臺管理員溝通啟動更多承載VM,并約定使用期限,高峰期過后,云平臺管理員登錄云平臺關停額外的VM。
3.3 異常的監控通過腳本實現
這里以VM 操作系統為CentOS 為例介紹,在VMMonitorList文件中列出監控項,并設置監控進程名稱,監控計算資源警報閾值,使用awk命令讀取VMMonitorList文件,提取監控項目類別、名稱、閾值。通訊監控腳本,該腳本運行在私有云域外的一臺計算機上,監控所有業務VM的網絡連通情況。該計算機維護VMNetwork_info文件,在其中列出所監控VM的IP地址,以及監控的服務端口號,將監控腳本加入到VM定時任務中,并啟動啟動crontab服務,設置監控時間間隔,即可實現在VM出現故障時及時發出郵件信息,再經由短信,微信等即時通訊工具,業務管理員、與平臺管理員可及時獲知VM的異常狀態。
4 結語
該文作者在學校網絡和技術中心管理云平臺數年,在管理VM過程中,與業務部門,應用程序承建公司溝通、協作較多。為了有效提供云平臺資源利用率,加強對VM及其應用系統在故障出現時的掌控,在不額外增加工作難度和強度的情況下,通過對VM有效管理和故障異常出現時及時發現,提出了自己的管理方案,提升了私有云的資源利用率和應用可用性。在此希望能對云平臺的管理同行提供一些借鑒和參考的地方。
參考文獻
[1] 陳康,鄭緯民.云計算:系統實例與研究現狀[J].軟件學報,2009,20(5):1337-1348.
[2] 杜華.Linux編輯技術詳解[M].人民郵電出版社,2007:11.