吳興國 蔣輝
(中國電信股份有限公司安徽分公司 安徽省合肥市 230000)
近年來,隨著通信領域業務規模的擴大,通信機房承載著越來越多系統的運轉及業務的發展,這使得建立更完善的機房管理制度、提供數字信息化的機房管理手段、保證機房穩定安全的運行成為了保障通信行業良性發展的必然趨勢。而運營商的實際機房監管存在多種問題,并且缺乏節能的數據與技術支撐。如機房出現局部溫度過高的時候,只是盲目的增加或者置換空調,客觀上增加了運營商的機房成本。
針對上述問題,機房監管平臺從人員管理、設備管理、機房管理等多方面切入,基于大數據建模及分析,提供一整套的監管體系,配備門禁管理、機房作業/設備出入及加電管理、機房日常維護管理、機房環境管理、機房設備拓撲管理等多模塊功能,落實機房進出審批制度、加強機房作業審批及備案、實現機房3D 一體化展示。
基于大數據的機房監管平臺,包括以下功能:門禁管理、機房機架視圖、全省機房視圖、巡檢管理、機房及設備上下架管理及機房視頻監控等(如圖1 所示)。利用多維度的分析模型計算出當前機房的環境溫度、能耗預測及設備狀態等。
IT 負載預測:通過單個機房當天的IT 負載數據(按小時)的輸入,經過模型計算分析,輸出未來1 天的IT 負載預測結果。
制冷功耗評估:通過當前水冷機機組數據、冷凍水水泵數據、氣象數據、IT 設備總能耗及空調總能耗等數據的輸入,經過模型計算分析,輸出水冷主機功耗預測。
機柜溫度評估:通過機柜ID、機柜當前溫度最大值、負載數據、出風地板等數據的輸入,經過模型計算分析,輸出瞬時機柜出風溫度。
空調狀態評估:通過機房環境數據、運行電流、電量等數據的輸入,經過模型計算分析,輸出空調狀態、包括開關、風機額定轉速、風機最小轉速等。
用電預算:通過輸入需要預測的機房ID,經過模型計算分析,輸出當前機房未來1 天的耗電預測結果。
全省機房視圖及機房機架視圖基于基礎設備信息完備的情況下建立,系統提供創建設備實體、錄入設備信息等功能,在業務層面上實現邏輯關聯形成機房拓撲關系圖;將日常維護中對數據、設備等所需的功能,建立在基礎數據之上,從而實現對機房設備的可視化管理。
此外通過管理手段上的延伸,需建立門禁管理、巡檢管理、機房視頻監管等功能,實現機房從實際使用層面的出入管理及預防監控管理。
建立大數據分析模型,實現機房能耗節能。通過外圍系統數據的收集,運營商可以獲取到財務數據、智能電表數據、動力環境監控數據、其他系統數據、互聯網數據等,利用這些數據,通過大數據分析模型找到問題原因,實現機房能耗節能。
此分析架構可基于Hadoop 實現,Hadoop 具備高擴展性、高效性、高可靠性、高容錯性、成本低等優點。分析架構大致框架如圖2 所示。

圖1

圖2

圖3
通過將不同數據源的數據實時或者定時進行數據匯聚與清洗,將數據匯總整合形成最終適用于分析建模的基礎數據并存儲到大數據平臺。
機房能耗受多種影響因素,包括外部溫度、外部濕度、設備開啟時間、主設備數量、主設備功耗、空調設置溫度、機房面積、開啟的風柜數量等,通過機器學習,可以幫助發現這些因素與機房能耗之間可能存在的關系。

圖4

圖5
根據以上的多種影響因素,建立簡化的神經網絡模型,如圖3所示。
由于運營商機房的業務承載、外部環境及機房規模等因素的不同,可將機房劃分為若干類,針對每一種類型制定相應的模型。通過模型來模擬機房的承載及環境的預警值,實現機房能耗的提前預警等功能。
加強機房管理,落實機房進出審批制度,包括人員進出、設備進出,隨身攜帶品“最小必需”。每個月核對檢查門禁刷卡記錄及機房視頻監控錄像。

圖7

圖8

圖9
門禁及視頻監控:核查門禁、視頻失效和異常等情況??刹榭串斍案鳈C房的門禁情況,是否有機房視頻監控失效,視頻監控異常情況占比等。
門禁卡管理:門禁卡包含新增、注銷及權限變更流程。在界面上提供門禁卡的申請及變更功能??梢愿鶕煌男枨蟛煌纳暾埲诉M行不同權限的門禁卡申請操作,申請之后需要相應的人員進行審批;還可以對已申請的門禁卡進行注銷及權限變更,變更的過程需要進行上級人員審批。

圖10
機房進出審批流程(如圖4 所示):包括人員進出、設備進出,隨身攜帶品“最小必需”等審批流程。將審批的結果和審批的過程記錄下來,為后期做門禁刷卡記錄、視頻監控等核對做數據準備。
通過數據采集及大數據分析等將機房機架形成3D 視圖方式(如圖5 所示),集成告警數據形成3D 模式的機樓機房監控及管理視圖。
數據采集:系統提供多樣化的數據采集方式,能夠實現對不同設備的采集和管理。系統為用戶提供了設備信息的修改功能,可以手動輸入設備的相應信息,根據不同的安全級別對服務器CPU 使用率、內存使用率、接口流量數據、FTP 服務及UPS 使用情況等進行數據采集,并儲存在數據庫中,為后臺應用分析提供數據基礎。系統也可以通過一定的采集設備定時掃描設備信息,包括設備的名稱、編號、連接端口、域名等并存儲在系統中為后續分析做數據基礎。系統采用流量采集程序獲取各網段的流量數據,根據用戶主機和流量類別進行歸并,按時間周期存儲入庫并在視圖上展示各個不同設備的實時流量。
通過3D 視圖方式,建立機房的立體視圖??梢詮臉峭庥^查看當前機房的整體情況;并且可以點擊樓房定位到不同的樓層,可查看不同樓層的機房監管情況(如圖6 所示);進入樓層之后,可點擊進入相應的房間,查看房間的立體視圖。
視圖展示內容包括機房、機柜、油機、冷機、UPS、儲水、儲油、網絡寬帶、額定功率等各指標的總量及當前占用量(如圖7 所示)。并可以展示當前所選區域的客戶租用機柜數量top10,所有機房能耗的排名top10。通過對當前機樓或者機房的總體監控,查看環境概覽,包含周圍環境的溫度、濕度及粉塵情況;查看綜合能效,包含當日的能耗情況,IT 設備、機械設備等當日能耗及PUE 值;查看IT 關鍵指標,包含硬盤占用率、內存占用率、寬帶占用率、CPU 占用率、實時流量、服務器負載等。對于告警的內容,可根據告警的時間、等級等統計出告警趨勢圖及等級分布情況。并且根據每個時間點能耗的情況,查看分時能耗走勢圖。根據以上的展示數據可監控當日所選機房或者機樓的整體運行情況,包括告警、預警及實時能耗。
左側提供當前機樓的樓層及房間號的選擇,可以通過定位數字來直接定位到所需要查看的機房房號。
通過生成標準化的設備出入記錄,為以后盤點及核查留下依據。嚴格執行機房功能規劃,對于不符合機房規劃的在資源分配環節攔截等。在整體管理中,留存相關的電子依據,例如:《機房現場施工承諾書》、《機房工程隨工表》、《機房作業申請表》、《機房加電申請表》等。
標準化的機房作業申請表包含以下多個信息:設備名稱、設備廠家型號、上架發起部門、工程編號、需求說明、占用機架、門禁開門時間、門禁開門人、現場驗收、加電時間、設備維護負責人等。具體界面如圖8 所示。
發起申請需求之后,經過配置的統一審批流程,判斷與當前機房規劃是否相符合,審批通過之后接入門禁管理流程。流程如圖9所示。
作業現場負責人發起機房作業;按照機房功能及平面規劃,當預分配現場機架、供電不滿足時,反饋需求部門,工單回退,由需求部門聯系商討能力建設;由相關部門審批需求是否滿足;需求部門按作業時間期限(工單發起日的3 個月內)按次申請進機房,并上傳必須提供的材料:進場設備清單、現場隨工人、承諾書等;電子申請是啟動的必要條件之一,且開門人需在人臉識別庫;當次開門無驗收的,系統自動限制下次申請,全部施工結束后,工單進入下一環節。
建立機房巡檢閉環管理,由管理員下發巡檢任務,不同類型的巡檢任務通過流程及相應環節的人員配置自動下發給不同的人。巡檢完畢之后,巡檢人員提交巡檢信息并上傳巡檢照片,由發起人審核之后歸檔并閉環巡檢任務。具體流程如圖10 所示。
對于巡檢管理的結果,按周期進行統計,用視圖方式查看巡檢管理的結果,通過巡檢的結果可對機房的設備及環境等做預警和提前預測修復擴容操作等,避免出現風險。
基于大數據分析及3D 機房視圖的能力,分析總結出機房能耗及節能減排的方向,并通過3D 視圖的方式實現機房的一點監控、機房作業管理及機房規劃功能等。
機房作為通信行業的核心業務,其重要性不言而喻,節能減排的工作是值得研究和探討的,可對機房內單位能耗與機柜空間溫度、機柜飽和度以及電力的健康度等多種屬性之間的關系做深入的研究,另外利用物聯網新技術實現不同機房之間的能耗數據、溫度數據的交互,將節能減排系統建設成為一個跨機房、跨區域的綜合性監管平臺。