任 帥
(中國移動通信集團有限公司,北京 100033)
中國移動現有45+4個數據中心、近千棟核心機樓以及逾50萬個存量基站。面對如此龐大的動環基礎設施,急需構建業內領先的動環設施支撐手段能力,實現全網動環設施資源及能力的集中化、精細化、智能化的可視、可管、可控。
現網動環管理能力較弱,各省僅靠OMC系統進行基本管理,只能實現告警監控、負載率統計、資產管理等簡單功能。從現網調研分析和統計結果看,當前動環設施運維管理面臨諸多挑戰,主要包括以下3個方面。
(1)缺少集中化監控管理平臺。日常維護管理工作及指標考核數據收集大部分依賴郵件及EOMS系統。
(2)監控覆蓋面不足,監控與管理不夠緊密。基礎設施監控較弱,對能效、資產、容量管理缺失抓手,對運維與運營等管理維度指標缺少關注。
(3)智能化程度不高。目前,監控主要是實現動環的基礎數據采集,在歷史數據分析、故障根因分析等方面智能化程度不高。
針對上述挑戰,深層次分析其中原因主要包括以下4個方面。
(1)不同廠家FSU和SC互聯互通問題。中國移動現網已建成的動環監控涉及的廠家眾多,新建設備和老系統接口協議不一致,對接存在困難。
(2)各省動環監控系統組網架構不統一。現網動環監控架構從2~4層不等,組網復雜,亟需推動省級SC架構標準化建設,實現省級架構的扁平化和集中化。
(3)精細化運維管理手段不足。機樓基礎運維不到位、動環設施超負荷運行、帶病入網、性能劣化等問題,缺乏管理規范、預案和管控手段。
(4)系統接入困難、耦合性高。傳統動環廠家在系統對接設置壁壘,導致數據接入、云端協同、系統建設難以有效執行。
所以,為補齊短板,實現業界領先的動環運維能力,參照行業標桿經驗,打造總部一級動環設施運維管理平臺,實現對全網動環設施運行情況管控,如圖1所示。

圖1 動環基礎設施DIKW模型分析圖
動環集中運維管理平臺建設需要圍繞易用性、可擴展性、接口開放性、可維護性、穩定性、先進性等原則進行建設。
1.2.1 易部署原則
充分利用現有資源進行建設,既可與機房主設備同步建設,也可對已有機房進行補充建設。可根據現場的傳輸資源進行組網,包括IP資源、無線、物聯網等。
1.2.2 可擴展原則
平臺接入規模與系統處理能力滿足項目需求,支持平滑升級與彈性擴容能力,以滿足業務和管理發展需要。
1.2.3 接口開放原則
提供多種標準的數據接口,如B接口、C接口、D接口等。也可提供定制化數據接口,以實現與第三方監控系統或其他管理系統的對接。
1.2.4 可維護性原則
平臺架構需考慮運維體系變化對業務的影響,可快速適應運維體系變化的要求,最大限度減少運維人員運維工作量。
1.2.5 穩定性原則
平臺系統架構具有良好的穩定性,單一節點或者設備故障不影響系統運行,具有高可用性、穩定性特點。
1.2.6 先進性原則
平臺應能滿足公司發布的關于動環系統的所有技術規范和要求,系統架構和技術在業界具有領先水平,滿足系統長期建設、演進和發展的需要,以最大限度的保護用戶投資。
根據需求調研、場景類型分析、建設原則,可歸納出動環集中運維管理平臺的基本設計要求。
(1)系統架構需采用業界靈活、先進的架構,具備可擴展性和高可用性特點;
(2)數據接入支持南北向接口(如標準B接口、標準C接口、能耗接口、故障接口等),可實現邊云協同、無障礙互聯互通;
(3)圍繞“監”“管”“控”目標,實現動環基礎設施全網集中監控及運營,實現統一監控、統一標準、統一視圖;
(4)系統從5大域(設施、人員、管理、手段、流程)、8個方面(可視化、運維管理、資源管理、安全保障、系統管理、系統接入、深度應用、支撐工具)構建需求能力。
本文提出的動環集中運維管理平臺采用Spring Cloud微服務架構,支持Docker容器化部署,具備滾動升級、彈性擴容、高可用特性。按照數據流向維度可將平臺分為接入層、存儲層、能力層、業務層和展示層。總體架構如圖2所示。
(1)接入層:負責設備接入(動力設備、環境設備、門禁設備、視頻設備等)及第三方系統接入(冷源系統、通風系統、空調系統、安防系統等);
(2)存儲層:負責系統數據緩存、存儲及相關中間件功能;
(3)能力層:負責數據的清洗、應用使能,為業務層提供相應的能力;
(4)業務層:負責不同業務的邏輯處理,為展示層提供相應的接口服務;
(5)展示層:負責提供平臺門戶,多渠道、多方式展示系統業務。
動環集中運維管理平臺主要針對核心機樓、數據中心(含八大區數據中心)、匯聚機房、基站等動環設施納入集中管理,圍繞5大管理域(設施、人員、管理、手段、流程)構建“邊-管-云”,從系統接入、支撐工具、系統管理、運維管理、資源管理、安全保障、深度應用、可視化、方面出發,實現“物聯、數聯、智聯”三位一體的新型動環智慧運維新模式,推動全網集中動環運維管理能力建設,全面提升全網動環運維能力。平臺主要功能架構如圖3所示。

圖2 動環集中運維管理平臺系統架構圖

圖3 動環集中運維管理平臺功能架構圖
動環集中運維管理平臺經過前期的需求調研與設計研發,經系統測試后正式上線運行,已構建集中化動環設備及業務容量管理、能耗管理、資源管理、供電拓撲的可視化呈現等功能。
該功能模塊從供電、空間、制冷、承重等多維度出發,通過持續記錄容量消耗量和分析增長模式,使動環集中運維管理人員能夠更加快速準確地掌控各機樓電源、空調設備的負載率情況,更高效管理各項關鍵資源,同時針對各機樓容量預警,實現工單督辦、掛牌通報等功能[1]。
(1)電力容量。實現核心機房變壓器、發電機組、開關電源系統、UPS系統、空調系統、蓄電池的負載率分析,容量負荷預警;支持各省預警方案的自定義設置,能夠以設備為維度和以預警級別為維度進行容量預警數量和占比分析,可按照月、季、年提供容量預警趨勢分析圖;提供設備性能預警的統計匯總、明細報表功能。
(2)空間容量。實現機房空間、配套空間、管線空間、機柜空間管理和U位管理(占用、剩余、最佳位置推薦)。
(3)制冷容量。根據機房不同區域制冷容量和現有帶載負荷情況,得出不同機柜、不同機房還可新增負荷量的情況。
(4)承重容量。根據地板承重和機柜電力配置,確定機柜擺放位置。機柜和設備的總重量不能超過地板總體承重要求,避免超重設備集中在某一區域。
通過容量管理,可支持從園區到機房的不同層級容量視圖,全面了解容量使用現狀;實時查看各機柜容量使用情況,快速查找設備上架的最佳機位,通過“UPS等重要設備的負載率紅色預警”等關鍵信息實時監控,基于事前分析的預測性運維,實現全網機樓運行風險的有效把控,如圖4所示。
該功能支持以2D、2.5D及3D可視化方式顯示空間拓撲、設備拓撲、供電拓撲功能。聚焦豐富的KPI指標,包括資源、告警、性能、容量、能效、巡檢、溫度云圖等多種類型,實現運維狀態多維數據的全局可視化,如圖5所示[2]。
(1)空間拓撲。可根據布局圖,實現按照園區、機樓、樓層、機房、設備、機架等環境的可視化仿真,支持在拓撲圖上按空間資源分層定位設備以及查詢、顯示設備資源屬性。
(2)設備拓撲。提供重要設備拓撲,圖形化呈現設備關鍵運行參數指標,支持快速查詢、顯示設備資源屬性和設備當前運行狀態。
(3)供電拓撲。供電拓撲分為4層——高壓配電層、低壓配電層、不間斷電源層、機房業務層;直觀呈現設備的路由關系(包括上游設備和下游設備),支持按照樓層、房間的端到端拓撲呈現,具備從高低壓配電系統、交直流配電系統到列頭柜的端到端供電拓撲情況,實現全網核心機樓、數據中心的供電拓撲、業務關系管理。

圖4 動環集中運維管理平臺容量負載率分析圖
動環設備及業務資源管理,通過掌控設備在網情況、設備與業務系統關聯關系,基于設備和業務信息將應急預案固化在管理系統,指導故障應急處置。針對超期服役設備、老化劣化設備建立病歷表,全生命周期管控各類設備的在網狀態,并關聯日常運維 信息。

圖5 動環集中運維管理平臺供電拓撲圖
3.3.1 動環設備資源管理
提供FSU管理、不間斷電源系統管理、蓄電池管理、空調管理以及發電機管理,提供供電與業務關系管理,提供全網動環設備資源統計分析功能。動環資源統計包括機樓、區域、設備類型、設備子類、設備品牌以及設備數量等,可從多個維度進行統計分析,并可查看設備詳細詳情。
3.3.2 設備超期服役管理
提供動環設備超期服役統計分析功能。支持按照省份維度和設備類型維度進行統計分析,顯示設備超期服役數據、超期服役日期。老化劣化設備建立機歷卡,為采購后評估和預算決策提供科學依據。
3.3.3 健康度管理
支持核心機樓、站點機房健康度管理,包括直流不間斷系統、交流不間斷系統、溫控系統、市電可用度、系統監控可用度,判斷機樓、站點機房的健康狀態,結合設備生命周期管理和健康度模型,設置相應的巡檢維護計劃及預警功能。
該功能通過對各用電設備的分項用電量、總用電量進行實時監測獲取能耗數據,通過精細化統計和分析以及智能化管控,實現動環體系整體能耗水平的測評,便于運營者準確和快速地掌握整體能耗狀況,如圖6所示。通過比較不同行業的能效水平,制定科學的衡量標準,提供能耗指標閾值管理和預警生成功能,同時實現節能減排。

圖6 動環集中運維管理平臺能耗分析圖
(1)提供動環體系各個節點的能耗總量視圖,直觀清晰了解機房/站點重要能耗指標,幫助用戶梳理機房能耗數據。
(2)提供按時間段、按用電類型、按站點查詢用電量和總計,用柱狀圖、餅圖等方式展示能耗數據。
(3)提供區域、機樓、機房能耗趨勢曲線,通過趨勢曲線、環比、同比、PUE等指標,幫助管理者找出用電差異并調整用電方式。
(4)通過對能耗數據的分析和運算,得出用電方式調整建議,對實際設備進行智能控制操作,實現節能目的,并以表格、柱狀圖形式呈現節能措施前后機房用電量,評估節能效果。
將現網電源、空調告警接入總部平臺,提供重要動環告警的統計結果呈現,可以查看告警清單,定時刷新。實現告警分類統計(分廠家、設備、級別、故障原因等維度),實現異常告警分析,提供超頻、超短、超長告警的統計報表。可以按省份、IDC園區、設備類型、告警類型等維度,進行一定時間周期的趨勢分析、對比分析、排名分析。
建立關鍵告警知識庫,對各種類型站點設備告警。制定告警關聯規則或其他相應手段,通過關聯規則標識主次告警和衍生告警,對主告警進行準確的故障定位,提升故障處理效率。
本文提出的“動環集中運維管理平臺”實現了全網動環設施容量和運行情況的集中監控,集中收集全部集團要求根據采集的全網動環數據,實時采集解析多維呈現,并能提供能耗數據的統一對比分析。根據上下層業務的資源關聯關系,輔助統一應急指揮調度和關鍵問題的督辦等,對全面提升全網動環運維能力,有效支撐節能減排、降本增效,具有重大的價值與廣泛的應用前景。