呼倫貝爾市人才流動人事考試中心 李全忠
計算機機房運行物理環境自動監控系統設計與實現
呼倫貝爾市人才流動人事考試中心 李全忠
計算機機房是保證信息系統可靠運行非常重要的一個環節,它的必須保證能為放置于其中的各種設備提供一個安全可靠的物理環境,動力供應。這些物理環境的保證都是通過計算機機房的各種輔助設備的安全可靠運行實現的。本文較詳細說明了實現計算機機房安全運行物理環境自動監控系統的設計與實現的原理,并且在了呼倫貝爾市勞動保障數據機房得到了成功的應用。
計算機機房;物理環境;安全運行;自動監控
計算機機房是為用于電子信息處理、存儲、交換完成信息處理過程的各類電子信息設備提供運行環境的場所。對電力、溫濕度、新風等特理環境參數有著極其嚴格的要求,必須依據《國家電子信息系統機房設計規范》要求的相應計算機機房等級提供符合標準的運行環境物理參數。一旦機房環境的輔助設備出現故障,將會使電力、溫濕度、新風等參數偏離正常值,直接影響計算機系統的正常運行,對數據傳輸、存儲的可靠性構成威脅。如事故嚴重又不能及時處理,就可能損壞硬件設備,造成嚴重后果。需要實時交換的數據機房,管理更為重要,一旦系統故障,造成的經濟損失是不可估量的。目前國內普遍缺乏機房環境設備的專業管理人員,在許多地方的機房不得不安排軟件人員或者不太熟悉機房設備員值班維護,這對機房的安全運行無疑又是一個不利因素。
因此,隨著工控技術的發展和管理水平的提高,實現機房動力環境集中監控管理是一個必然的趨勢。計算機機房物理環境的集中監控系統,就是為解決機房設備的統一監控,實現機房的無人職守,減輕計算機機房維護人員負擔,提高了計算機機房動力環境及物理環境的可靠性,保證事故的及時發現、準確定位,同時對系統設備的歷史日志進行記錄和管理,為設備的日后維護提供重要的參考,因而機房物理環境自動監控系統對機房的科學管理有特殊的意義。
本文闡述的機房物理環境自動監控系統可對配電系統、UPS、柴油發電機、蓄電池組、開關電源、空調、漏水、消防、保安等設備做統一的集中監控,另外在技術條件許可的前提下,可以根據用戶的要求定制監控任務,對機房的上下限溫度、濕度、供電參數進行實時采集。
整個機房安全運行自動監控系統遵循系統工程原理進行設計,綜合運用分布處理架構、Client/Server組織形式、數據管理技術、多媒體的表現方法、工控領域的模塊化組態設計技術、人工智能計算機輔助決策技術,采用先進的軟、硬件設備,進行系統集成,保證系統在可靠性、實時性、開放性、易用性等方面滿足設備及環境監控的需要,總體設計依據以下基本的原則:可靠、穩定、實用、功能完整、操作簡便、安全性、系統開放性、具有擴展性、網絡化功能。
原則1:可靠性
系統硬件以專業的工業監控產品為主,包括主機、采集模塊都要有嚴格的質量保證,確保性能的可靠性,MFB>20萬小時。
原則2:實用性
在系統功能上力求實用,在保證功能完整的基礎上來豐富畫面的靈活性和人性化。
原則3:功能完整
在系統功能上,盡量要利用現有成熟技術,確保系統的功能完整,如在原有聲光報警的方式上,增加利用電話語音技術而開發的電話語音報警系統,利用多媒體語音系統開發的現場語音報警系統系統;歷史記錄查詢功能,所有歷史曲線、報警記錄均可查詢,數據記錄時間根據硬盤容量可存儲數年;故障處理技術支持文件,以便在故障發生時管理人員能夠迅速作出1個判斷,為減輕損害盡可能節約寶貴時間;提升機房動力環境設備安全管理水平、提高管理效率,建立人員全面負責跨科目負責,能夠全面監測機房。
原則4:操作簡便
結合實際使用的需求組成集中監控系統,將所有功能操作簡便化,使用戶只需填寫“YES”“NO”或“1、2、3….”即可完成大部分管理功能。
原則5:安全性
在所有涉及登錄和修改系統參數、系統報警與否、啟動和關閉監控系統等操作均需要密碼才可執行,而且根據管理權限可以設置不同的管理級別。
原則6:系統的開放性
系統采用COM技術,配有設備自動連接向導,支持多種現場總線、PLC、智能儀表、采集板、智能模塊、變頻器等;全面支持OPC標準,可與任何支持該接口的硬件完美通訊;內嵌SQL Server系統,支持開放式數據接口(ODBC),自由管理各種標準的數據庫,除COM外還提供動態數據交換(DDE),很方便用戶利用PC機豐富的軟件資源擴充系統的功能。
原則7:具有擴展性
通對智能和非智能設備通過通訊或加裝硬件的方式很容易實現系統的擴容,而且對不同種設備、不同的廠家輕易實現集成和后期集成,包括機房的保安監控系統、門禁監控系統、供配電系統、UPS系統、柴油機系統、有源諧波濾波系統、精密空調系統、溫濕度檢測系統、漏水檢測系統、消防報警系統等。
原則8:網絡化
提供基于廣域網和局域網的B/S/S模式的網絡化監控,參數瀏覽及監控功能。
系統由遠程用戶計算機、環境監控主機(服務器)、計算機網絡、智能模塊、遠程模塊、協議轉換模塊、信號處理模塊、多設備驅動卡及智能設備等組成。(詳見圖1)
現場結構主要采用RS485工業監控總線為主要傳輸模式,采用TCP/IP與串行協議混合集成的為補傳輸方式,系統整體采用開放式結構,支持各種傳輸網絡,三層客戶機/服務器(Client/Server)體系結構,“三層”是將應用功能分為表示層、功能層和數據層3部分。客戶終端(網絡端Client)與服務器(現場端Server)之間的通信方式為符合TCP/IP標準的自定義數據包。

圖1 計算機機房特理環境自動監控系統結構圖
監控主機是本地系統的監控中心,在WIN2000運行在環境下。根據用戶需要可監控低壓配電系統、UPS電源系統、空調系統、環境系統等運行狀態及環境系統狀態,以數據的形式進入各自的RS485總線后,接入監控主機的設備驅動板。
要求監控主機365*24小時工作,監控主機系統必須可靠,應采用專業工控機為監控主機,如果系統要求更可靠,可以采用雙機熱備方式。由端口數據處理量不大,因此對監控主機的配置要求不高但是必須穩定。
數據采集模塊用于采集監控模擬量、開關量等信號,將信號傳輸給監控主機。數據采集包括模擬量采集模塊(模擬量采集單元Q-7000C),智能開關量采集模塊(數據采集模塊Q-7000D),監控輸出模塊包括開關量及模擬量監控輸出模塊(數據轉換單元Q-7000C)。數據采集與監控模塊一般采用RS485通訊接口,可以遠傳。傳感器模塊用于采集現場環境數據,為系統處理提供依據,協議轉換模塊為智能設備及儀表提供接入系統的標準接口。
客戶機(也可稱為網絡分機),用于機房管理員實時讀取、查閱監控的數據。通過TCP/IP與主機建立通訊,傳輸途徑不限。設備一般可以是普通電腦、工控機、或移動訪問,其實質為安裝了訪問軟件的PC電腦。
以系統組成結構圖為主線,按監控的設備(詳見表1)依次對各部分進行詳細分解設計。由于本文以實現對各終端設備的集中監控為主,所以重點闡述自主監控服務器開始到終端的監控,對于局域網及廣域部分不做說明。

表1 監控明細表

表2

表3 專用空調監控系統內容及配置表
4.1.1 市電運行監控
通過在總輸入柜加裝2臺德國西門子全參數電量監測儀,可以對市電3相電壓、電流、功率、頻率、電度等常規電量進行監測,通過對市電運行參數的實時監測,可以準確記錄并且保存,對于電壓波動、停電、缺相、失壓等異常情況記錄、打印、并通知相關管理人員。
4.1.2 開關狀態監控
監視UPS輸入柜、輸出柜內主開關和支路開關狀態。對于機房內重要的配電開關,因為每路開關都分別負擔著重要設備的供電,一旦開關跳閘,會造成很大的影響,實時監測有利于異常情況準確定位、及時處理,遠程報警。
實現方式是通過配電柜開關的輔助接點引信號至開關量采集模塊,即“0、1”狀態量采集模塊,然后由監控主機集中采集監控,實現的要點是各空開必須留有余量點,以備監控開關量模塊使用。
柴油發電機作為機房備用電的一個重要組成部分,其日常維護完好與否直接關系著主機房后備電力的應急供應,油機必須始終處于待機狀態。而其位置一般遠離機房,所以其工作狀態必須通過遠程實現實時監控。以防止柴油機故障或蓄電池耗盡的緊急情況油機造成發電機不能啟動,對其監控十分必要。
實現方式是通過中大型的柴油發電機按標準工控協議提供的遠程監控編程接口,按照其約定的數據通迅方式將油機電壓、電流、頻率、功率、引擎溫度、水溫、蓄電池狀態等重要特性進行實時監測,周時可以通過編制按鈕遠程起停油機。





對UPS的運行參數和狀態進行實時監控,實現方式是通過對UPS主機的通迅接口加裝協議轉換器,在監控機上按UPS約定的通迅方式進行通訊軟件的開發,將每組UPS的整流器、逆變器、電池、旁路、負載等五部分的運行狀態與參數通過網絡傳至監控中心,集中監控,異常的遠程報警。顯示采取圖表及流程圖方式(提取的參數見表2)。
通過空調的智能接口實現對ALTUS精密機房智能空調的實時監控,監控空調各部件(壓縮機、風機、加熱器、加濕器、去濕器、濾網等)的運行狀態與參數,并可遠程修改設置與開關空調。
對于ATLAS空調一般通過監控系統可以獲得如下數據及報警(參見表3)
對于面積大的機房,必須有漏水報警系統。水敏探頭易布置在機房地板下易出水點周圍,確保一旦漏水報警的可靠性,檢測方式有多種,可以根據使用環境的不同自由選擇。
本設計中采用法國TTK線纜式漏水檢測系統。系統本身包括:漏水監控器、漏水感應線及其他輔助設備,系統可檢測感應線上任何點的漏水位置并有語音報警。感應線纜為特種橡膠制成,抗腐蝕,抗酸堿。系統功能完善,對感應線有斷線報警功能。系統還可檢測機房潔凈度,當感應線上的塵埃集結到一定厚度,系統會報警提示管理人員清洗感應線纜。當任意點漏水發生時,水流經過感應線纜,在極短的時間內(40S)之內發生告警。同時,集中監控系統通過數字變量模塊采集報警信息,計算機房集中監控系統準確的將報警信息彈出同時電話報警,以便及時消除隱患,避免巨大損失。
對于面積較大的機房,由于氣流及設備分布的影響,溫濕度值會有較大的區別,根據主機房實際面積,按照平均分布的原則設置溫度、濕度探測器最后以總線方式匯總至集中監控系統,以確保主機房溫濕度監控的準確度。同時,不要遺忘在UPS配電間、柴油發電間溫濕度一體化傳感器。通過RS485總線將實時的各探頭所在位置的溫度,傳回集中監控系統,當超過設定值自動進行本地和遠程電話同時報警。
利用廠家提供的基于標準工控協議,根據其規定的通迅控制方法,實現對新風機的遠程起停控制、運行參數獲取、故障報警信息的集中獲取。
消防報警系統是一套完整的系統,按國家消防有關規定,基于消防系統的特殊性,必須獨立運行。所以在集中監控系統中對消防系統只是作為一個補充,即在系統原有配置不動,只從報警監控器將開關信號引入監控主機,搭載整體監控系統報警平臺,配合消防系統實現遠程的記錄和電話報警。
按照計算機房和消防系統設計的有關規范要求,計算機機房的空調、新風、排風系統應與自動消防系統具備系統聯動功能。基于消防系統的特殊性、可靠性要求,這種聯動必須由消防自動控制系統自身實現。所以在設計機房物理環境自動監控系統時,切不可基于集中監控系統實現新風、空調、排風系統的聯動,只能對報警信號采集,同時實現輔助報功能。
由于每個機房的場地、輔助設備不盡相同,所以在進行集中監控系統設計首先要依據計算機的機房的規范確定其等級,了解計算機機房的設計及輔助設備選型,進行實地現場考察。同設備廠商進行接洽,了解設備的接口標準、控制協議做好系統組態的前期準備。盡可能將設備廠家提供的故障報錯原因、故障處理措施,在告警發生時詳盡描述彈出,以便值班人員能夠得到即時的技術支持。
集中監控系統所有使用的協議轉換器、電纜、開關量模塊、監控主機等全部硬件設備選擇品牌時一定要慎重,基本要求平均無故障時間要大于20萬小時。對于要求特別高的A級機房,為了確保集中監控系統可靠性,還應采取Watch Dog等防死機技術,關鍵的監控主機、轉換模塊應采取冗余方式構建。
基于電話語音告警CTI技術。采用電話CALL CETER技術、數字語音轉換技術,對各種設備的報警及專家處理提示采用語音系統。報警產生時,系統會自動撥打所設置的號碼(手機、BB機自動留言、電話),采用語音通知有關人員,并將告警做報表記錄,并且可以回撥到監控主機查詢報警及電話通知情況。
采取C/S/S模式的實現基于WEB發布方式遠程監視機房運行情況,當發電話報警時管理可以通互聯網或是專網終端進行報警信息的查詢,以便及時采取合適的處置措施。
在安全管理方面,要通過劃分、配置操作權限,實現系統安全管理,并且以次做管理人員操作日志,確保系統運行安全。
機房安全運行自動監控系統的投入對勞動保障數據中心機房的安全管理有了極大的提高,對勞動保障數據系統可靠的運行和管理提供了可靠的保障,實現了計算機機房無人職守。
[1]李華.MCS-51系列單片機實用接口技術[M].北京:北京航天航空大學出版社,1993.
[2]何立民.單片機應用技術選編<1>[M].北京:北京航天航空大學出版社,1993.
李全忠(1974—),男,內蒙古扎蘭屯人,大學本科,電子工程師,呼倫貝爾市勞動保障數據中心副主任,研究方向:工業自動化控制應用,政務信息系統規劃、設計、實施建設。