張曉峰



摘 要: 從高校服務器集群管理的實際需要出發(fā),以電網供電和環(huán)境溫度作為主要環(huán)境參數進行研究, 采用上、下位機設計方案,結合計算機、網絡、單片機技術,具體設計了服務器集群自動保護系統。當環(huán)境參數異常時自動關閉服務器集群,環(huán)境參數恢復正常時,自動恢復服務器集群的正常服務功能。目前系統軟、硬件設計已經完成,實現了服務器集群自動保護功能,通過實際應用,取得了很好的效果。
關鍵詞: 服務器集群管理; 自動保護; 系統設計; 環(huán)境參數
中圖分類號: TN911?34; TN98 文獻標識碼: A 文章編號: 1004?373X(2017)08?0008?03
Design of server cluster automatic protection system based on environmental parameters
ZHANG Xiaofeng
(Northwest A&F University of Information Engineering, Yangling 712100, China)
Abstract: Proceeding from the actual management needs of the server clusters in universities, and taking the power supply and ambient temperature of a power grid as a main environmental parameters of the research, the automatic protection system of server cluster was designed in combination with design scheme of upper and lower computers, computer technology, network technology and SCM technology. When any environment parameter is abnormal, the server cluster is automatically closed, and the normal service function of the server cluster is automatically restored when the environment parameters are returned to normal. At present, the system software and hardware design has been completed, and the server cluster automatic protection function has been realized. The very good result of practical application has been achieved.
Keyword: server cluster management; automatic protection; system design; environmental parameter
0 引 言
在高校的計算機實驗教學中心,服務器集群是核心節(jié)點,承載著教學和科研服務功能,全年不間斷工作[1]。要保障可靠運行,除設備本身的因素外,運行環(huán)境至關重要[2]。運行環(huán)境中最重要的兩個因素是電網供電和環(huán)境溫度,因為異常停電會造成服務器數據丟失,而高溫會使服務器設備癱瘓甚至損壞[3?4]。因此,在服務器集群的運行環(huán)境中,大功率UPS電源和精密制冷空調是必須的配套設備。但在實際應用中,一些突發(fā)因素仍然會導致服務器數據丟失甚至造成設備損壞[5]。根據對西北農林科技大學計算機教學實驗中心服務器集群十多年的運行統計,概率最高的兩個因素是電網異常停電和空調故障[6?7]。當電網異常停電時,服務器集群有UPS供電仍能正常工作,但空調是感性負載,UPS電源無法給空調提供電力,因此電網停電時空調也停止工作[8]。此時,服務器集群工作所產生的熱量使運行環(huán)境的溫度迅速升高,如果不能及時發(fā)現和處置,高溫最終會導致服務器系統癱瘓,并引起數據丟失甚至造成設備損壞。空調出現故障時,引起的情況與此相同。因此,當電網異常停電或空調出現故障時,如何保護服務器集群設備并防止數據丟失,具有重要的研究意義。
1 現狀及存在的問題
目前對服務器集群監(jiān)控的主要方法是采用機房動力和環(huán)境監(jiān)控系統,該技術是基于GSM的短信報警系統,即當機房的環(huán)境溫度、濕度、電網電壓等參數超過設定的范圍時,報警系統以手機短信的形式發(fā)給管理者,以便管理人員能及時地發(fā)現和處置問題[9]。短信報警方式實質上是“無線報警+人力保障”的管理模式,但對高校計算機實驗教學中心而言,服務器集群的規(guī)模相對較小(100臺以下),而且這些機房都無人值守,因此這種監(jiān)控方式本身就不完善,主要表現在以下幾個方面:
(1) 在晚上一些時段,特別是24:00以后,即使技術管理人員接收到報警短信,但由于大家都在熟睡,短信可能被忽略。
(2) 遇到雙休日、節(jié)假日,技術管理人員可能遠離設備所在地,當收到報警短信時,問題很難及時處置。特別是在高校的寒、暑假期間,這種問題表現得最為突出。
(3) 可能造成較大的經濟損失。一般情況下,服務器集群與交換機、路由器等設備都集中安裝在中心機房,這些核心設備不僅運行著各種關鍵業(yè)務,而且設備價值一般比較高,一旦出現上述異常情況,如果處置不及時而造成設備損壞,不但影響大,其損失往往也較大。
以上問題是基于GSM的短信報警技術本身無法解決的。