摘要:計算機集群系統的硬件監控問題一直是大型集群系統管理中普遍存在且急需解決的問題。我院學生機房也不堪其擾。首先,開發滿足需求的監控軟件的代價太大且缺乏OS底層技術的支撐,其次依靠人工巡查費力、耗時、不安全。本文基于WEB服務器技術以及IPMI協議提出并討論了解決計算機集群系統監控問題的二種解決方案,最后確定了第二種基于依次輪詢的解決方案解決我院學生機房硬、軟件監控問題。
關鍵詞:集群系統;硬件監控;機房管理;方案
中圖分類號:G647 文獻標志碼:A 文章編號:1674-9324(2013)36-0009-03
隨著計算機和網絡技術的飛速發展,應用領域中計算機系統的規模和數量已經不可以與網絡發展初期的小型網絡同日而語。由此產生的管理問題也越來越受到人們的關注——這些計算機系統需要一個分離于計算機本身內部系統的監控系統來對計算機集群系統進行監控以保證集群系統的正常運行。
一、基于集群系統硬件監控技術的發展現狀
20世紀80年代以來,隨著計算機技術的不斷發展和工業自動控制的需求,計算機監控技術取得了長足的發展。從原有的計算機直接控制,到大量涌現的Microsoft的DCOM、Sun的RMI、OMG(對象管理組織)的CORBA,DCOM、RMI、CORBA等為代表的遠程計算機程序監控技術,再到后期發展到基于web服務器的遠程頁面式監控系統,計算機監控在向著無縫鏈接和跨平臺化發展,為用戶提供更能適應各種不同計算機環境,各種不同監控距離以及簡潔使用的監控系統[1]?,F階段web服務器以其標準性和開放性即將已經成為大規模計算機遠程監控的主流。這對計算機遠程監控也提供了更有利的發展環境。任何支持http和html等標準的計算機設備都可以通過web服務器對大規模計算機硬件甚至于對各種工業設備的監控,這樣不但可以實時地監測到設備的最新信息,還能及時地對設備進行有效的控制?;趙eb服務器的硬件監控技術,在工業以及國防領域已經得到了比較廣泛的應用和發展。
二、學生實驗機房管理的現狀以及應對策略
隨著我院學科建設的健全和發展,我院機房已成為我系的信息樞紐、控制樞紐和資料庫。我院實驗室機房現有6個實驗室,總計近千臺計算機,年接待學生310000人時數。在管理上有如硬件安全管理,計時管理,技術人員管理,學生實驗課課堂紀律管理等多處監控難點。如何管理、監控這些大規模集群系統,保證系統的正常有序運行成為目前我系計算機機房管理的重點研究問題。目前我院機房的管理人員不得不采用24小時專人值班,定時巡查機房環境設備,這樣不僅加重了管理人員的負擔,而且更多的時候,不能及時排除故障,對事故發生的時間及責任也無科學的管理和認定。
綜上,我院機房需要有效的方法來實時監控硬件運轉信息,包括對計算機的啟動、停止與復位,顯示各個設備工作的環境溫度、電壓、電流等信息。現階段硬件監控系統由最初的單個設備配備監控系統發展到成組的客戶/服務端機制以及到后來的大規模信息收集處理,硬件監控系統已經實現了很高的控制效率并在很多應用領域得到推廣、運用。
本文針對我院機房實際提出并討論二套基于web的硬件監控系統的可行性解決方案。
三、兩種基于web服務器的硬件監控系統的兩種解決方案
1.基于分布匯總的解決方案。基于分布匯總的解決方案如圖一所示,采用的是基于C/S軟件系統架構方式,在集群系統的每一臺主機上安裝客戶端程序,由客戶端程序收集主機的硬件運轉信息,發送到服務器端程序負責決策是否發出報警,從而達到硬件監控的目的。這種方式降低了web服務器方的負載,使得服務器端程序只需要對異常信息進行處理,提高了web服務器的處理速度。在這種模式下,客戶端程序也可以部署分布式數據庫,定期收集、監控集群的硬軟件運轉信息,定期通過網絡匯總到web服務器方的數據庫,使得即使在短暫的網絡不通暢的狀態下,客戶端仍可以對單個硬件進行監控。
2.基于依次輪詢的解決方案以及IPMI協議。(1)基于依次輪詢的解決方案。另外一種基于依次輪詢的解決方案如圖二所示,采用B/S軟件系統架構,在web服務器端開發API多線程程序,當程序運行時建立相應線程依次定期詢問集群系統中各個主機系統的OS內核API程序接口,或訪問由IPMI協議支持的串口獲得各個主機系統軟硬件資源的運轉情況,統一將監控數據匯總到位于web服務器端的數據庫中,由服務器端程序到數據庫中讀取整個集群系統內每臺主機的運轉情況。在這種解決方案中,在集群系統的各個主機上均可登陸到web服務器端對整個計算機集群系統進行實時監控。由于這種方案不需要在集群中每臺機器上安裝客戶端軟件,在網絡通暢的前提下可以自由靈活地登陸web服務器端查看集群系統運轉情況,實時管理,十分方便快捷,從而被廣泛應用。(2)IPMI協議。IPMI協議是實現基于依次輪詢的解決方案的關鍵技術,下面詳細介紹其發展歷史及工作原理。(3)1IPMI發展歷史。IPMI是智能型平臺管理接口的縮寫。由Intel、HP、Dell和NEC公司于1998年共同提出,目前最新版本為2.0。利用此接口標準設計有助于在不同類服務器系統硬件上實施系統管理,使不同平臺的集中管理成為可能[2]。(4)IPMI工作原理。IPMI的核心是服務器處理器或基板管理控制器(BMC),它并不依賴于服務器的處理器、BIOS或操作系統工作,是一個獨立于系統內運行的無代理管理子系統。在工作時,所有的IPMI功能都是向BMC發送命令來完成的,命令使用IPMI規范中規定的指令,BMC接收并在系統事件日志中記錄事件消息,維護描述系統中傳感器情況的傳感器數據記錄。在需要遠程訪問系統時,IPMI中新的LAN上串行(SOL)特性改變IPMI會話過程中本地串口傳送方向,從而提供對緊急管理服務、Windows專用管理控制臺或Linux串行控制臺的遠程訪問。BMC通過在LAN上改變傳送給串行端口的信息的方向來做到這點,提供了一種與廠商無關的遠程查看啟動、操作系統加載器或緊急管理控制臺來診斷和維修故障的標準方式。[3](5)一個IPMI工作的實例。傳統的系統監控管理方法一般是系統管理員定期到機房巡視或者采用PCAnywhere類軟件監控,上述方法存在時效性差、服務器宕機后無法追查原因、占用系統資源較多的缺點。而利用IPMI可實現的功能有:(1)、對服務器系統的實時監控,能夠監控網絡狀態;(2)、監控服務器系統靜態信息(各個硬件設備的基本信息);(3)、動態信息(主板上硬件的運轉狀態)。當上述被監控內容發生工作異常時,監控軟件會報警,同時將報警事件記錄入日志,管理員可根據報警日志分析診斷。對大量分散服務器集中管理的環境應用優勢尤為明顯。傳統的故障診斷一般是管理員到故障現場根據經驗診斷故障原因,而利用IPMI,管理員可以通過網絡或者串口訪問遠端服務器,通過獲取事件日志和傳感器數據記錄來分析、確認故障原因,并通過遠程操作來實現服務器恢復。綜上,IPMI提供了一種實現對計算機硬件無人監控的可能。
四、基于集群系統硬件監控技術的機房管理解決方案
根據我院機房的計算機群現階段管理情況以及基本硬軟件架構,特別適合第二種基于依次輪詢的解決方案。整個方案的工作重心在于服務器端的CGI程序開發以及監控系統數據庫的建立和維護,而不必在整個計算機集群中的每臺機器上都安裝一個客戶端程序,可行性高、見效快、部署簡單。故我院機房將選擇第二種解決方案,解決我院機房硬、軟件管理的問題。
五、小結
計算機集群系統的硬件監控問題一直是大型集群系統管理中普遍存在且急需解決的問題。我院學生機房也不堪其擾。首先,開發滿足需求的監控軟件的代價太大且缺乏OS底層技術的支撐,其次依靠人工巡查費力、耗時、不安全。本文基于WEB服務器技術以及IPMI協議提出并討論了解決計算機集群系統監控問題的二種解決方案,最后選定了第二種基于依次輪詢的解決方案解決我院學生機房硬、軟件監控問題。
參考文獻:
[1]許柯,鄭明雪.基于WEB的大規模集群監控系統設計[J].網絡安全技術與應用,2008,(9):78-79.
[2]李娜.基于IPMI技術的服務器管理系統設計與實現[D].北京:北京郵電大學2009,(2):7-15.
[3]馬海東.基于互聯網的遠程監控系統的研究[D].大慶石油大學,2007.