陳金會
(中國電信股份有限公司云計算貴州分公司,貴州 貴陽 550003)
數字經濟已成為國家發展的重要經濟支柱。作為數字經濟的底座,超大型數據中心迎來了快速發展階段。數據中心內基礎設施、維護人員不斷激增,傳統的基站式維護模式已不再適應新的維護需求。通過對標國際運維標準,對數據中心運維管理體系優化、提煉并全方面覆蓋,提高維護管理人員技能,明確運行維護標注,落實培訓演練,有效管控運行質量,從而使園區網絡基礎設施實現永續運行。
如何更加深刻理解超大型數據中心運維管理體系,就需要對涉及影響永續運營的各項因素進行識別、分析、制定措施、審視、固化等。下面在人員組織、運行與維護、流程管理、培訓、協調與管理5個方面給予具體闡述。
數據中心交付使用前,管理者需要綜合考慮數據中心如何高效運行,盡快提供產品服務。人員組織是支撐基礎設施永續運維的基本保障,規劃需要什么專業人員、這些專業人員的管理架構、各自工作職責是什么、需要什么資質等。
結合信息園數據中心特點,以專業管理為線條,形成網絡及IT專業、電源專業、暖通專業三大基礎設施專業。每個專業設專業主管2名,互為A/B角色。3個專業各自委托第三方專業維護團隊實施維護代維服務,代維團隊設置項目管理員2名,分別為項目經理和技術經理,同時互為A/B角色。專業主管直接對口管理代維團隊,提供業務支撐、技術指導及考核。制定組織架構如圖1所示[1]。

圖1 組織架構
根據組織矩陣中不同的崗位,制定相應的維護職責矩陣,分為一級職能、二級職能、三級職能,如圖2所示。職責矩陣中設定現場維護崗、經理崗、主管崗、運維部經理、設備廠家,明確各崗位人員在維護職責矩陣中的實施內容,做到各崗位分工明確。

圖2 數據機樓網絡及IT維護職責矩陣
根據專業的劃分,專業人員的工作職責有不同的要求,需制定完善的崗位說明書。崗位說明書包括崗位職責、工作難點、工作禁忌、職業發展、生理要求、知識經驗、綜合素質等幾方面。達到條件的人員在崗位說明書上簽字認可,同時直管的領導認可簽字。崗位說明書如圖3所示。

圖3 崗位說明書
不同崗位根據國家行業標準,應考取相關從業資格證書,如網絡及IT應具備HCNA、HCNP、CCNA,電源專業具備高低壓電工證,暖通專業應具備高壓電工證、制冷工證、登高作業證[2]。崗位資質配置如圖4所示。

圖4 崗位資質配置
數據機樓投產后,具體要配置多少人,就需要核算工時。基礎設施涵蓋暖通、電源大量設備,根據行業及企業維護標準,規定了不同設備的維護內容和維護周期。維護內容包括操作類和非操作類,維護周期包括月度、季度、半年度和年度,估算每個設備的維護周期內容的耗時,統計數據中心基礎設施設備清單,匯總完成全年度的所需總工時。按照《勞動法》關于人員勞動工時的相關要求,剔除固定法定節假日,可計算出完成既定維護的人員配置數量,具體流程如圖5所示。

圖5 工時核算流程
為高效管理數據中心各崗位人員,應制定針對數據中心應用場景的管理制度。制度從人力資源需求、人員上崗流程、人員離崗流程、人員考勤管理、人員績效管理等5方面進行規范,覆蓋了數據中心不同人員管理場景,如人員調動、人力資源申請、人員上崗確認、人員離崗確認、月度考勤、月度績效考核等。
運行維護是數據中心持續開展的活動,分為日常運行和預防性維護兩大模塊[3]。
日常運行維護工作是每天固定執行的維護工作,是運行維護的基礎單元。
(1)排班值班。為規范維護人員日常維護規范行為,制定人員排班交接班制度,從職責、流程(排班及變更)、工作程序等方面規范排班行為。制定交接班管理制度,明確現場維護人員、值班長、項目經理、專業主管等不同崗位的職責,明確分工,層層落實責任。
(2)巡視巡查。為達到巡視巡查標準化,制定機樓巡視手冊涵蓋路線圖、設備巡視標準作業程序(Standard Operating Procedure,SOP)、巡檢記錄表。設備運行狀態進行可視化展示,便于巡視人員快速、準確地判斷設備運行狀況。柴油發電機巡視手冊如圖6所示。

圖6 柴油發電機巡視手冊
(3)標準化指導書及現場配置指導書。為規范數據中心人員操作規范性,避免因人員操作失誤導致業務中斷,要求制定標準化操作指導書。結合數據中心設施設備清單,針對每一類型設備編制SOP。該文檔規定了操作人員具備條件、配置工器具、預計耗時、回退措施等,圖文并茂,步驟清晰。標準化操作指導書如圖7所示。

圖7 標準化操作指導書
數據中心擁有龐大的設備數量,不同設備存在不同整定值配置,電源從10 kV高壓設備、低壓設備、不間斷系統、列頭柜設備建立標準化配置文檔,暖通建立設備輪詢、溫度送風回風定值、濕度定值、溫濕度告警閾值等標準化配置文檔,實施清單化管理,可及時掌握配置狀態、計劃更新等,如圖8所示。

圖8 暖通SCP
開展預防性維護,對基礎設施主動維護,可較早發現設備問題隱患、及早介入處理,避免因設備故障引發業務中斷。
(1)維護作業計劃手冊(Maintenance Operational Procedures,MOP)針對數據中心設施清單,針對不同的基礎設施設備,按月度、季度、半年度、年度等維護內容,制定年度作業計劃,并把維護工作計劃分配到下一年度的52個日歷周中。針對不同類別基礎設施設備,制定MOP。手冊包括維護內容、維護要求、影響客戶、維護工具、維護前提、人員防護及風險評估等內容。MOP實現了維護作業標準化、可視化,如圖9所示。

圖9 MOP手冊
(2)應急管理體系。為明確數據中心發生故障時應急處置的組織架構、各崗位職責,建立保障和恢復應急工作機制,提高應對突發事件的組織指揮能力和應急處置能力,保證應急指揮調度工作迅速、高效、有序地進行,滿足突發情況下系統保障和恢復的需要,確保安全運行。應制定應急管理制度,包括應急組織架構圖、各部門在應急管理工作中的職責、各崗位人員職責、應急管理流程等模塊,如圖10所示。

圖10 應急管理制度
(3)關鍵指標檢測。數據中心關鍵指標預防性檢測是預防性維護的重要項目,針對電源系統,開展數據機樓外部防雷檢測、內部防雷檢測。每年度開展柴油發電機組的潤滑油、柴油質量檢測,確保油品質量合格。針對暖通系統,每月開展冷卻水水質分析,確保冷卻水指標符合標準,減少對水系統的不利影響。同時針對電氣系統的關鍵開關、電氣連接點、電纜等進行周期性溫度測試和大數據分析,確保關鍵點溫升處于政策范圍內[4]。
數據中心業務連續運行,需對其進行不間斷運維管理。通過對運維事件進行變更管理,消除潛在的應用風險,并將暫時無法找到原因的故障納入問題管理。數據中心供電容量、制冷容量總是有限的,需定期開展容量分析及負載管理,做到資源有效利用。
在數據中心正常運營過程中出現的任何導致或可能導致服務中斷或服務質量下降的情況稱為事件。制定事件管理制度,把事件分為特大、重大、嚴重、一般4個等級,形成基礎設施事件分級清單(電源、暖通),明確了不同事件等級處理時限、處理原則、上報流程、處理程序、事件關閉、事件升級機制等,同時根據園區運營維護人員組織,賦予各崗位人員在事件處理過程的崗位職責。
問題是指在數據中心運營過程中出現的,導致一個或多個事件產生的根本原因還沒有診斷出來。問題管理的目的是在事件發生時盡快找出產生的根本原因,防止事件重復出現;確認問題后,舉一反三,對同類設備進行排查,開展糾正性維護,避免同類事件重復發生;維護人員通過積極主動實施問題管理,對潛在事件進行預防和糾正,從而減少事件的發生,降低數據中心的運營風險。按問題引發或可能引發事件的程度,將問題定級為高風險問題和普通級問題。數據中心項目經理、技術主管、管理者等不同崗位人員應對問題管理承擔不同職責,同時制定問題管理流程。
變更是指在維護過程中對系統(硬件和軟件)或服務進行的所有改變,包括設備增補、移除,設備運行狀態的改變,設備的啟停和切換,運行參數和配置參數的改變,流程和標準的修訂,其他修改。實施變更管理是為了確保以受控的方式去評估、批準、實施和評審所有變更,阻止未授權的變更發生,使得變更風險降至最低。同時,將與變更相關的突發事件的影響降至最低,確保所有變更過程都可被追溯。通過制定變更管理制度確定變更的分類,如按發起方和使用場景不同分為內部變更、客戶變更,按變更的緊迫性分為計劃類變更、緊急變更。根據變更事項視其影響面及對運行安全和人身安全的風險,實行分級管理,從高到低依次分為1~4級。此外,需要明確變更啟動流程、變更時間窗口、變更前導時間等,如圖11所示。根據園區運營維護人員組織,賦予各崗位人員在變更管理過程的崗位職責。

圖11 變更流程
容量管理的目的是有效管控機架 U 位、機架電量、機房制冷量,進一步保證設備運行安全,更好地服務客戶。制定機柜容量統計表,實時掌握機柜內U位、實時用電功率、用電量,避免機柜用電負荷超容,使機柜空間得到高效利用。制定空調末端、制冷機組供冷容量管理表,實時掌握用冷需求、冗余、備份等,使其性能達到最優,避免能源浪費。用電方面落實不間斷電源系統容量統計分析,避免不間斷系統超容,對負載率較低的不間斷系統采取節能措施。將容量分析納入月度例會開展統計、分析、管理,采取快速舉措,如圖12所示。

圖12 電力容量分析表
數據中心基礎設施類型眾多,設備迭代更新快,迫使維護人員不斷學習新知識、新技能以滿足工作的需要。為加強園區運行維護人員培訓工作,結合運行維護工作特點,結合公司和個人職業生涯發展規劃,堅持以培訓育人、留人,運行維護人員培訓工作規范有序的進行。按照園區業務發展和崗位需要,對運行維護人員進行管理知識、技術和業務、操作技能、安全管理、政治理論、企業文化、職業道德、行為規范等方面的培養和訓練活動,是對員工進行有目的、有計劃的培養和訓練活動。員工培訓按類別分為新員工上崗培訓和在職培訓,按業務執行角色分為內部培訓和供應商培訓。
內部培訓流程如13所示,外部培訓流程如圖14所示。

圖13 內部培訓流程

圖14 外部培訓流程
規劃協調管理外部環境,做到數據中心文檔的標準化,統籌好用電節能,加強同客戶溝通交流,做好業務機房的進出入管理,使數據中心各項工作高效運行。
為提高數據中心文檔處理工作的效率和質量,使之規范化、科學化、制度化,對部門的文檔格式、編制、編號、審批、發布、歸檔等文檔管理的工作流程和作業標準作出明確規定。
根據園區組織架構,明確崗位職責。運行維護部負責人是部門文檔審批的責任人,對于部門所有文檔的發布、修改、廢止進行審批。綜合管理崗負責部門文檔的管理和歸檔工作,負責處理部門內部及外部對于文檔的調用、歸還、修改、發布、廢止的申請和審核工作,負責對新發布及修改文檔按照本辦法進行統一編碼和審核,負責部門內部基礎管理文檔的起草工作。各專業維護主管技術型、操作規定規范、現場管理流程類文檔起草的第一責任人,也是文檔執行的監督者和執行人,是調用、歸還、修改、發布、廢止的發起者。
按文檔的重要程度分為一級文檔、二級文檔、三級文檔,同時明確了文檔的標識、編號及控制、編制、審核、發布、借閱等流程。
為加強水、電、油等能源使用的管理,保證數據中心安全運行,需做好節能管理,提高能源利用率。管理節能有助于加強管理和宣傳,提高全員的節能意識,在能源采購、管理、使用的各個環節杜絕浪費,提高能源使用效率。技術節能通過合理可行的技術手段提高設備能效,在達到運營目的的同時減少能源消耗。制定數據中心水電消耗及電源利用效率(Power Usage Effectiveness,PUE)分析,實時掌控用能數據,建立數據中心水電臺賬、發電機用油臺賬,以月度為更新周期,如圖15所示。

圖15 數據機樓水電消耗臺賬
為保障數據中心運行安全,嚴格控制人員及物品進出機房,營造良好的機房工作環境。按進出機房的需求進行分類,如施工、維護、故障處理、外來參觀、臨時業務通知類,明確現場維護人員、項目經理、技術主管等崗位職責,明確人員進出入機房管理、物品進出機房管理流程、人員進出登記本填寫要求,如圖16所示。

圖16 進出機房流程圖
從數據中心永續運營的角度出發,規范專用儀器儀表與工具的使用管理,提高儀器儀表與工具精確度、準備度及使用效率,延長其使用壽命。從儀表的使用和儀表的管理兩個維度,落實具體實施細則,明確維護人員、項目經理、技術主管、管理人員等各自職責,確定了部分精度較高儀表的校驗周期、保存方法。工具儀表的借用歸還流程等,如圖17所示。

圖17 工具使用與采購流程
通過本次運維標準化的推廣應用,使信息園區運維管理流程得到全面升華,真正能夠指導現場實際維護工作。隨著“東數西算”工程的啟動,勢必會給信息園區帶來快速發展新機遇,一方面通過夯實基礎運維管理流程,在新交付的機樓可以繼續延用、擴展;另一方面,運維流程的固化需要自動化手段給予支撐,在后續的運維管理手段方面逐步嵌入運維管理流程,實現運維管理標準化、自動化、智慧化的運維目標。