張偉,王倚天


摘要:高校主機房監控系統的智能化建設意義重大。通過對影響主機房穩定運行的風險因素分析,提出了基于預判的設備自動開關智能系統規劃,給出了應急故障響應流程圖。
關鍵詞:風險;智能化;監控系統
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)19-0093-02
Intelligent Construction of Computer Room Monitoring System Based on Risk Prevention and Control
ZHANG Wei, WANG Yi-tian
(Shenyang University of Chemical Technology,Shenyang 1101421, China)
Abstract: The intelligent construction of the monitoring system of computer room in the university is very important. Through the analysis of the risk factors that affect the stable operation of computer room, the intelligent system plan of automatic operation of equipment based on the prediction is proposed, and the emergency response flow chart is given.
Key words: risk; intelligent; monitoring system
隨著高校信息化、數字化建設的不斷發展,高校機房作為高校軟件和硬件的系統匹配的數據中心,軟硬件設施越來越多,種類豐富、系統繁雜,這就需要我們實時對應用系統和機房環境進行檢測和監控。
1 主機房監控風險防控因素
1.1 長期開機狀態
很多主機房服務器處于24小時常年開機狀態,有兩點不利影響,一是縮短服務器及其硬盤使用壽命,二是浪費電能,在凌晨至5點期間資源及其應用服務基本處于無人使用狀態,可以考慮將機器暫時關閉,使用時再正常開啟[1]。
1.2 非正常關閉
突然停電對電子設備尤其是硬盤的損傷比較大,有可能一次停電會造成硬盤損壞,數據丟失等嚴重問題,數據是業務運轉的核心,是加工累積的成果,具有重要的價值和作用。減少非法關機次數,將會極大減少設備損失的概率,所以在停電后UPS啟動供電時應及時關閉服務器,這對于保護數據丟失有很重要的意義。
UPS電池一年內放電兩次,有效增加UPS電池使用壽命,放電可以是主動放電和被動放電,主動放電就是人為強制UPS電池工作,機房所有設備的供電來源于UPS電池,讓電池完成自我充電運轉,延遲電池使用時間。被動放電是市電偶然性停電,具有突發性,不可控性,停電時間過長導致電池電量徹底消耗干凈后硬件設施非法斷電,這樣的后果是對硬件包括服務器、磁盤陣列、存儲器、UPS、交換機的損害比較大,硬盤可能由于非法斷電后數據丟失,甚至硬盤損壞。
1.3 主機房溫濕度環境
主機房溫濕度的差異對服務器、存儲器等設備狀態的影響非常巨大,常年溫度和濕度不均衡,溫度較高,濕度較高嚴重增加了機器設備的損害程度,加速機器設備的報廢,縮短使用年限。
主機房溫度一般控制在20攝氏度到24攝氏度之間,濕度控制在45%到65%之間,在數據中心電源會加熱空氣,除非熱量被排除出去,否則環境溫度就會上升,導致電子設備失靈。通過控制空氣溫度,服務器組件能夠保持制造商規定的溫度/濕度范圍內。空調系統通過冷卻室內空氣下降到露點幫助控制濕度,濕度太大,水可能在內部部件上開始凝結。如果在干燥的環境中,輔助加濕系統可以添加水蒸氣,因為如果濕度太低,可能導致靜電放電問題,可能會損壞元器件[2]。
2 基于預判的設備自動開關智能系統規劃
2.1 UPS剩余電量的預判和設備自動關機
停電后UPS供電系統自動啟動,一般情況下UPS電池配備是根據設備數量、負載狀況來考量的,如果停電時間比較長,超過了UPS電池的最大供電時間,那么我們就需要在UPS電池電量還未全部消耗完的情況下提前關閉設備,以防止設備突然停電的損壞,同時UPS也需要正常關閉。
在UPS電池電量剩余1小時的前提下,對設備進行自動關閉,設備關閉后再關閉UPS,這些操作都需要軟件系統來自動執行,避免了人工現場操作,節省了人力和時間。
2.2 UPS和服務器等設備的自動啟動
在停電后對設備和UPS進行正常關閉后,設備和UPS的安全得到了保障和維護。同時當正常供電后UPS和服務器等設備還需要開機啟動,首先應該啟動UPS供電設備,然后啟動服務器等設備,UPS供電設備啟動5分鐘后再啟動服務器,服務器全部自動開機,服務自動開啟,應用智能系統完成上述操作,省時省力。
智能系統完成UPS和服務器等設備關閉和開啟,如果順利完成系統會發信息到管理員手機上,如果有問題也會發提示信息到管理員手機。智能系統會向管理員隨時報告設備的運行狀態,使得管理員隨時隨地就能監控設備、管理主機室環境。
2.3 應急故障響應流程設計
停電應急故障響應流程圖如圖1所示,停電后UPS自動啟動供電,根據負載數量判斷維持時間,一般UPS控制器前端都有液晶面板,液晶面板上可以看到負載情況,UPS在市電情況下是旁路供電,停電后是UPS電池供電。UPS管理系統安裝到服務器上,與UPS串口相連,UPS管理系統會一直監視電池剩余情況,當電池維持時間降到1小時以下并且還未恢復供電,這時候啟動智能關閉系統,將服務器和存儲器逐一關閉,對于服務器上有運行的應用程序需要額外關閉的,例如oracle數據庫,需要先將oracle數據庫正常關閉后再關閉系統。服務器和存儲器正常關閉后再關閉UPS,停止UPS電池供電工作。當UPS電池維持時間在1小時以上并且恢復供電則不啟動智能關閉系統。
當市電來電后,UPS來電自動啟動,對UPS充電,服務器和存儲器設備依靠旁路市電供電,然后啟動智能開機系統,服務器開機、應用系統運行等,如圖2所示。
3 主機房監控系統智能化建設意義
3.1 主機房監控管理智能化趨勢
服務器虛擬化技術的成熟應用,不僅節省電能,而且可以實現服務器系統快速重構,節省了雙機冗余備份的負擔,從雙機到虛擬化,在風險上增加了安全系數,在管理上簡化了管理方法。
3.2 主機房數據安全的重要性
數據是業務流程的核心,是長時間累積的信息和知識,長年工作的價值所在,它的重要性不言而喻。數據損壞或丟失都是對固定資產的嚴重流失,數據對于生產企業來說是無價的,對于金融行業更是極其寶貴的。
一般UPS控制器是工頻機,比較耐用,使用10多年都沒有問題,服務器硬盤一般是SAS,轉速1萬轉,信息傳輸速率快,使用壽命一般最長10年。當購置服務器或者存儲器時,多買幾塊硬盤,一般服務器或者存儲器磁盤按RAID5標準建立磁盤冗余陣列,如果RAID5中的某一塊成員盤出現物理故障,服務器或者存儲器還可以繼續工作不會崩潰;如果出現兩塊成員盤損壞,則服務器或者存儲器將不能正常工作而徹底崩潰[3]。
參考文獻:
[1] 雷勇,張敏.高校計算機機房電能監控與節能研究[J].企業科技與發展,2019(8):153-154.
[2] 龔文濤,郎穎瑩.基于安全視角下的高校機房監控系統規劃[J].自動化技術與應用,2018,37(6):137-139.
[3] 董昶.論RAID磁盤存儲技術[J].煤炭技術,2012,31(5):192-193.
【通聯編輯:代影】