劉天龍,王 振,任 帥
(中國移動網絡事業部基礎網絡維護室,北京 100033)
近年來網絡運營成本逐年上漲,降本增效壓力明顯增加;通信電源空調設施逐步老化,重大和重要故障數量持續增加,磷酸鐵鋰電池、高壓直流等技術不斷推廣;線上化、智能化的管理手段逐步應用;數據中心、核心機樓、節點機房和末端站點的維護管理方式差異性顯著增加。本文將就以上內容結合現網情況開展分析,共同探討維護方式智能化、維護能力專業化、維護體系差異化的發展趨勢。
隨著“動環設施集中運維管理平臺”上線,中國移動組織開發了“動環專業風險字典表”,各省發現的隱患根據預期損失(斷電、制冷中斷、監控失效、高能耗)、隱患產生環節(設計規劃環節、設備采購環節、工程實施環節、運維環節)、所屬系統等維度進行歸并,同時上報現場整改條件和預計完成日期,形成了有效的閉環管理,對于經驗積累和分析提供了素材,保障了隱患排查工作系統性開展。
以往中國移動對于機房運行的分析主要局限于各省公司數據報送,時效性差、準確率不高,自2020年以來通過平臺抓取溫度、門禁、負載電流等數據,對機房運行質量進行分析。容量預警方面在系統內固化不同架構的數學模型,通過采集電流,自動計算負載容量比,實現全網容量預警監測。溫度分析方面通過采集機房溫度數據,對于過低和過高的情況進行自動識別,主動發掘溫控管理盲點。
傳統機房巡檢嚴重依賴人工,不少局站現場工作人員60%以上的工作時間都用在機房巡檢上。通過巡檢機器人、光纖測溫技術,以及智能化平臺等手段,動態監測機房溫濕度和煙感、局部熱點,以及人員出入管理等,極大地減少了現場運維人員的重復性工作。
多個省公司在數據中心引入巡檢機器人,智能規劃巡檢路線,動態監測溫度、濕度、煙感、人員活動等信息,可在一定程度上替代人工巡檢。采用光纖測溫技術對電纜、高溫機柜等設施進行在線監測,可實現大范圍、低成本、高可靠的溫度探測,對預防火災和機房熱島防治有較好效果。在機房出入方面構建線上管理系統,實現機房出入申請、審批、安全教育、人臉識別開門端到端全流程電子化。
智能革命正在到來,將逐步重構現有的運維方式。如同智能工業機器人對勞動密集型企業乃至整個產業競爭格局的重塑。在動環運維中引入智能化技術,可大大簡化一線人員的重復性勞動,大幅降低人工參與環節,提高工作效率,釋放更多的創新活力[1]。
傳統風冷空調系統構成相對簡單,單臺空調自成一個循環系統,維護壓力不大。數據中心及部分核心機樓采用水冷空調系統,當前已經投運的40余個大型數據中心園區,近年來發生多起水冷空調系統故障。在故障分析中發現,不少數據中心僅有1~2名自有人員對水冷系統有較為深入的理解,屬地維護人員對水冷系統的掌握程度不容樂觀。有的數據中心在BA系統未完成驗收情況下即投運,冷機工作在純手動狀態、寒冷季節仍采用冷機制冷。一旦發生意外,現場值守人員難以快速應急處理。
空調群控系統作為空調系統的大腦,復雜度和重要性也在逐步提升,需要專業技術人員進行操作,目前也缺乏建設、驗收和維護標準,現網已發生多次故障案例。目前中國移動正在制定相關標準,近期將全網發布。
電源系統是設備類型最多的系統,從功能上來講可以分為電源引入層、變配電層、不間斷電源層和末端配電層。自維設備主要包括發電機組、變壓器、高低壓配電系統、不間斷電源(UPS、高壓直流、-48V開關電源)和列頭柜。近年來部分數據中心自建自維110 kV/66 kV/35 kV變電站,全網大力推廣磷酸鐵鋰電池和高壓直流系統,對電源專業人員的維護要求越來越高。通信電源專業特別是現場作業操作的安全對通信企業的安全生產有著至關重要的作用[2]。通過內外部培訓、割接項目、擴容工程等方式,培養和提高電源維護人員的綜合素質,使其具備在各類設備單點故障的情況快速搶通的能力至關重要。
2015年中國移動開始了動環監控系統集中采購,結束了各省公司“各自為戰”的局面。但是由于前期多年的獨立建設和分配廠家變動頻繁的原因,目前各省的動環監控廠家數量過多、不同廠家對接困難等問題一直沒有完全解決,通過標準B接口構建省動環監控平臺直連FSU的二級架構已經越來越成為共識。隨著數據中心的建設,園區級集中管理手段成為迫切的管理需求,通過DCIM系統對動環監控系統、BA系統、供儲油控制系統、安防監控系統等進行綜合管理已經成為數據中心建設標準配置。
隨著動環監控內容的逐步擴充和系統復雜度的不斷升級,單純的查看告警、簡單的量化統計已經難以發揮出系統的作用。如何發揮動環監控系統的作用?水冷空調系統AI智能控制、多維度電源系統能效分析、自動化蓄電池放電管理等應用正在“從夢想照進現實”。
“聞道有先后,術業有專攻”。電源、空調、動環監控等無論是從技術原理還是設備系統均有很大差異,在規模越來越大、集中化程度越來越高的趨勢下,員工專業細分,選擇一個專業方向投入更多精力,鍛造更長的長板,是個人發展和公司人才培養的雙贏模式。
各省也應不拘一格培養人才,大膽嘗試招聘相關專業人才、加強理論實操培訓等方式,保證員工在每個階段(崗前、在崗、后續)都有對應的培訓培養方案及跟蹤計劃[3]。用更加細化的分工來應對大規模集中化,用更加專業化的技能來凸顯專業價值。
隨著中國移動3+3+X數據中心戰略的落地,不同類型局站所對應的維護模式逐步形成了以少量技術、管理復合型人才自有人員為主,三方維護團隊協維的管理模式。數據中心一般設置三級部門機構,以10人以內的自有團隊為核心,對數據中心運維進行全面管理。采用購買三方維護服務的方式開展日常運維,包括7×24小時值守、日常巡檢、維護作業等內容。
核心機樓維護模式比較復雜,一般是沿用歷史維護模式,各省情況不盡相同。北方省份自維成分居多,南方省份協維成分居多。近年來隨著老員工的退休,全國范圍都開始逐步引入三方協維隊伍。
協維人員管理除了甄別資質(高低壓特種操作證、制冷證)和技術能力,后期培養也至關重要。建議通過各種培訓、演練、操作等機會培養三方人員的安全責任意識和實際動手能力,中國移動也在2020年組織編制了《動環實操培訓教材》[4]。
鑒于目前自有人員數量和機房數量,匯聚機房和基站的維護應全部劃入代維管理。這類站點分布在城市、鄉鎮、農村等廣大地域上,依靠自有人員難以實現維護覆蓋。站點內動環設備以開關電源、蓄電池和舒適型空調為主,技術要求相對較低、影響范圍可控,目前大多數省份是以代維為主,其他三方單位為輔,自有人員進行監督檢查。
在維護人員和費用壓減的大背景下,各類站點的維護模式應因地制宜,收斂和培養自有人員的核心管理、技術能力,將簡單、重復、技術含量較低的維護工作外包,并建立一套完善的入職測評、能力培養和定期考核制度。同時應努力打造智能化監控維護手段,減少人工工作量,向著自動駕駛網絡不斷邁進[5]。
通信電源空調維護應該在維護規程指導下,充分結合本地配置架構和業務要求,探索開展分類分級的維護服務。成本壓力的傳導會倒逼更加激進的探索和改革,通信電源空調維護依然任重道遠,廠家眾多、智能化程度較低、屬地化要求高等一系列問題都亟待解決。