李俊山
(浪潮電子信息產業股份有限公司 高效能服務器和存儲技術國家重點實驗室 數據中心研發部,山東 濟南 250000)
無論是國內還是國外,廠商的運維管理系統都是基于IP的所謂“智能”管理系統,要求被管設備不僅必須要有IP地址和完整的MIB庫才可以管理,而且只能獲取到設備一半的硬件狀態信息,對于非智能設備完全無法管理,比如機房消防設施狀態、老式UPS的供電情況和空調系統的溫濕度等信息。總而言之,目前的運維產品仍然無法達到對機房硬件設備全面的監控管理目的,因此需要一套能夠全面、實時監控各種智能及非智能設備的狀態管理系統,以便出現故障后進行實時告警。
應用外包服務或各廠商駐廠服務方式來解決運維日常出現的問題,缺點是外包服務人員的素質參差不齊,技術水平不一,部門人員紀律性不強,所以通常客戶為了業務的安全,在運維管理制度上都要求外部人員進機房需要客戶方人員在場,也就是所謂的“隨工”,機房的安全性無法完全得到保障,需要一套能夠對外部人員在機房工作的自動化跟蹤記錄系統,起到遠程監工的作用。
數據中心的建設越來越多地采用“兩地三中心”方案,即同城災備中心結合異地災備中心的“兩地三中心”,國內以政府、央企牽頭的客戶大都在北京,同城主機房通常在總部辦公樓,同城的備機房離主機房位置相對都較遠,幾十千米以外,異地的災備機房建設在偏遠的西北地區,比如中國人民銀行災備機房在拉薩,且只能由編制內人員進機房維護管理,最終造成嚴重的客戶方IT運維人員不足、工程項目延誤、工作效率低下等問題,急需一套高效的無人值守遠程維護解決管理系統。
浪潮基于機器人的數據中心管理系統技術可以很好地解決上述問題,其系統架構如圖1所示。

圖1 系統架構圖
浪潮數據中心機器人系統基于JAVA語言開發,SOA三層架構,分別為數據服務(采集)層、數據處理層、界面展示層,架構之間采用松耦合方式,進行平臺化設計的一套純B/S機房智能巡檢管理系統,系統基于ΧML的portlet配置文件可以自由地動態擴展,后臺支持開源的MYSQL數據庫,提升了數據處理的規范度和再加工能力。底層采集層使用硬件機器人來實現,機器人使用AGV底板SLAM技術進行機房的定位與地圖構建,同時在機身安裝多種傳感器,有360°且高達300萬像素的云臺視頻機、RF射頻識別器、紅外感應探頭、溫濕度探頭、熱成像等感應裝置,系統軟件層設計有巡檢管理、網絡管理、IT資產管理、知識庫管理、告警管理、報表管理、系統管理、license管理,共同構成強大的IT機房智能巡檢管理功能平臺。具體資源的管理作為基于平臺的管理功能,具備以接口為中心的設計模式。
該系統能夠觀測設備工作指示燈,識別各指示燈下標文字,變化時轉化為文字告警,通過云臺攝像機監控且借助各種專業傳感器。管理對象如下:網絡設備、服務器主機、UPS電源、空調系統、消防系統、門禁系統、漏水情況、煙霧情況、地下熱成像、墻面裂縫和地面衛生。
系統提供強大的擴展能力,支持管理能力的自由擴展:采集平臺以AI智能機器人為主,采集機房各類設備的指標,能夠將新管理對象快速納入到新的指標體系;支持分布式部署,單套系統即可支持每天兩次對500個機柜的巡檢;支持巡檢指標的自定義,巡檢項采用列指標自動學習、自動擴展的方式;支持用戶個性化報表的快速擴展,實現各種具備企業特征的報表數據和展現方式。
數據中心管理系統與機器人之間使用Socket協議,協議消息包含4個字節的固定頭部(Head)和消息體(Body)。
前4個字節為Head(固定頭部)部分,表示后面消息體的字長(字節數);低位字節在前。例如,如果消息體長度為10,則這4個字節是0A、00、00、00,即Head為0A000000。
Head后緊跟消息體,使用JSON格式,UTF-8編碼。
客戶端與服務器之間發送的所有JSON數據中都包含參數“message_type”,表明消息的類型。
在客戶端與服務器建立連接之后,客戶端需要向服務器發送注冊指令完成注冊。

參數說明見下表。

表1 參數說明
無返回數據。
其中,視頻巡檢則用如下方式:
提供一個rtmp的直播流地址,Web頁面支持播放rtmp視頻流,rtmp://192.168.1.25//live/xxx.
圖2為微模塊動環監控系統。

圖2 微模塊動環監控系統
通過拉通機器人與數據中心管理系統直接的互聯互通,提高了數據中心綜合管控效率,提升了監測段,有效地解決了人工巡邏存在的“三不一低”問題,極大地推動了機器人在數據中心巡檢中的應用。