王磊



【摘要】? ? 整個大數據中心生命周期中,大數據中心運維管理是大數據中心生命周期中歷時最長的一個階段。能源大數據中心的建設建立成熟的運維管理體系是十分必要和重要的,并且需要結合自身的業務特點,引入先進的最佳實踐和規范化的管理流程,通過運維服務及時掌握大數據中心資源現狀,反映大數據中心資源的可用性情況和健康狀況,創建一個可知可控的IT環境,從而保證能源大數據中心內部署的IT各類業務應用系統的可靠、穩定、安全運行。
【關鍵詞】? ? 數據中心? ? 運維體系? ? 能源互聯網? ? 運維工具
一、運維體系建設的必要性
隨著信息化建設的不斷推進,使得作為信息承載的主體-數據中心本身的運營管理變得越來越重要,工作量越來越大,對安全性、可用性和運維管理等要求越來越高,數據中心的運維也就逐漸經歷了多次演變優化并將其概括分為四個階段,包括基本的人工運維,以工具及流程來驅動人工的標準化運維,通過預設邏輯實現的自動化運維,通過輔助分析實現的智能化運維。
運維的演變實際可以理解為是由運維到運營的一種轉化提升的過程。傳統人工運維的不可控性和失誤通過標準的流程化運維作業這一手段,實現了有效的減少和避免;標準化運維的粗顆粒度和人工操作被自動化運維的預設邏輯和自動控制功能替代,從而達到精細化、自動化的階段目標。
目前各大互聯網公司已有不少成熟的數據中心基礎環境智能化運維案例,例如谷歌公司使用Deepmind開發的人工智能系統,為數據中心提供冷卻方案,減少了冷卻能耗的40%,就是一個將智能系統應用于數據中心,通過獲取學習運維方法,制定出對數據中心基礎環境運維有益的運行方案,達到優化數據中心運行的目的。再比如,阿里的智能機器人,在巡檢中完成基礎環境設施的溫度、濕度、空氣質量、電氣參數、空調參數等監測的工作,同樣是代替了人工操作,同時還提高了人員安全系數。
二、數據中心運維目標
數據中心運維目標是通過建立規范先進的運維服務體系,充分發揮數據中心的基礎服務功能,為在數據中心進行信息系統建設與部署、日常運行、及回收提供全生命周期的資源、通信及安全等服務,實現IT的業務價值,提升數據中心用戶的滿意度。運維體系要具有前瞻性的風險預測能力、智能動態服務能力、人工智能決策能力。
運維管理在數據中心建設全壽命周期內是最后一個,也是歷時最長的一個階段,也是最重要的一個階段。
為確保數據中心安全穩定的運行,數據中心的運維管理主要針對數據中心的合規性、可用性、可靠性、經濟性而建立起一套完整科學的管理體系,從而使整個數據中心運維工作具備規范的管理章程,嚴格的管理制度,高效負責且訓練有素的運維團隊是數據中心運維成功關鍵;而從大型數據中心的長期運營角度考慮,持久改進與有效的成本控制是一個現代化數據中心科學管理的必須。
三、能源大數據中心運維體系主要架構
為確保能源大數據中心運維服務水平管理及運維指標體系建設的先進性、開放性和前瞻性,運維體系建設需要參考大量的業界標準和行業實踐,主要包括ITIL V2、ITIL V3、ISO 20000、COBIT等。從而能源大數據中心運維服務水平管理及運維指標體系能夠盡可能兼容多種標準,并在不同版本的標準下實現平滑的過渡。
能源大數據中心的運維管理可以分為運維人員(People)的管理、數據中心設備及設施的管理(Facility)的管理及運維流程(Process)的管理。
運維人員的管理:包括數據中心內容運維管理人員、技術支持人員、各個系統一線操作服務人員以及第三方支持人員等
數據中心基礎設施管理:指保障數據中心的IT設備正常運行所必需的電力系統、空調與制冷系統、消防系統等。
數據中心IT基礎架構管理:制數據中心業務承載的具體單元如網絡、安全、服務器、數據庫、應用平臺等
管理工具自身的管理:包括IT基礎設施的監控軟件、報警系統、工作單系統等
運維流程的管理:包括了服務提供與服務支持,分別對應了幾大服務內容。
服務提供:服務水平管理、、容量管理
服務支持:配置管理、事件管理、問題管理、變更管理
另外也包括了數據中心各個系統的管理規章制度。
結合多年來對數據中心運行服務積累的經驗,以ITIL和ISO20000標準的服務管理控制體系為指導與依據,總結出一整套完整的適合能源大數據中心運維服務管理體系架構。
IT運維管理規劃應充分考慮能源大數據中心現有的管理經驗基礎(包括組織、人員、流程、工具),結合業界先進的運維管理理念與實踐,量身設計能源大數據中心IT運維管理體系架構,形成既標準、專業、高效、統一的運維標準,又充分滿足能源大數據中心實際需要的一體化運維管理體系,強調“以業務為中心”的IT運維管理策略,更快得知問題,用自動化運維工具盡快解決,確保業務生產的穩定優質運維。
四、能源大數據中心運維人員組織
能源大數據中心屬于國家A級標準的數據中心,要求運維人員需做到全年7X24 小時的值守。UI 在美國的數據統計表明,全天候的值守可以將數據中心故障的發生率降低50%,對于提升整體數據中心的可用性有相當大的影響。下圖為數據中心運維人員的崗位設置思路:
數據中心運維人員崗位設置圖
運維經理統籌全局,負責數據中心基礎設施運營管理,達到要求之服務水平;技術專家負責包括但不限于配電、暖通、弱電、網絡、安全、服務器專業的相關技術工作;運維主管則是主要面對數據中心基礎設施部分的一線運維事務管理;安全質監員主要負責運維安全管理,防止非安全操作和安全隱患時間的發生;資產管理員負責運維整體資產、備品備件管理;維護維修員負責機房基礎設施的日常維護與故障處理,根據各專業規程、指標、操作手冊和設備說明書的規定,按照維護周期執行各專業維護工作;巡檢值班員負責機房日常巡檢與監控值班,執行每日設備巡視巡檢,記錄設備運行數據,發現報警及隱患問題,立即上報安排跟進維修。
五、能源大數據中心運維工具
數據中心運維工具,是數據中心開展日常運維工作的重要手段之一,通過合理的使用運維工具可以是運維管理人員實時掌控整個數據中心運行狀態,并且極大的減少運維人員的工作壓力。
數據中心運維工具主要分為:硬件工具和軟件工具。其中硬件工具主要是萬用表、測線儀、光纖測試儀、控制線纜、KVM等標準化工具,主要面對數據中心基礎運維工作,解決顯而易見的實際問題。隨著數據中心規模的擴大,軟件工具已經是數據中心必不可少的重要組成部分,貫穿于數據中心運維工作的各個環節。
能源大數據中心軟件運維工具主要由以下三部分組成,具體如下圖所示:
1、基礎設施管理系統(DCIM)。基礎設施管理系統是是將IT(信息技術)和設備管理結合起來對數據中心關鍵設備進行集中監控、容量規劃等集中管理。通過軟件、硬件和傳感器等,對數據中心IT設備和基礎設施進行實時監控和管理。
2、IT基礎架構管理系統(ITIM)。IT基礎架構管理系統是基于IT基礎架構的一體化運維管理平層次化、模塊化的設計理念,以全開放的、組件化的架構原型。通過MDP消息總線進行集成,將資源監控、CMDB、運維流程管理融為一體。此外系統還提供了分布式、分級式的部署模式,二級代理支持橫向擴展,為客戶提供可靠的、可擴展的、高性能的一體化運維管理平臺。整個系統還提供開放的restful web services接口來持續集成。
3、數據中心一體化管理平臺。數據中心一體化管理平臺是匯集著運維事件、變更、問題、知識管理的核心平臺,是數據中運維人員實現數據中心管理的入口,體現了數據中心整個運維工作的效果和成績。數據中心一體化管理平臺需要與IT基礎架構管理系統和基礎設施管理系統對接,從而實現整體運維數據的聯動和拉通。
六、系統驗證故障應急預案
為加強對能源大數據中心基礎設施設備故障等突發事件的控制,需要根據能源大數據中心具體情況,將應急保障流程充分結合到系統測試驗證工作和運維工作中,通過驗證測試平臺,對運維過程中可能的出現的故障場景進行模擬,檢查運維應急流程的合理性和可操作性,發現應急流程中的風險,為提高運維操作的可靠性提供依據,保障數據中心基礎設施運維管理的設備故障應急保障方案有效可行。
七、結束語
為確保能源大數據中心安全穩定的運行,在需要具備高效負責且訓練有素的運維團隊的同時還需要具備科學先進的運維管理體系,二者相輔相成,是能源大數據中心成功運維管理的關鍵。
參? 考? 文? 獻
[1]努爾·白克力.能源發展“十三五”規劃[M].中國電力出版社,2017.3.
[2]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].浙江人民出版社,2013.1.
[3]楊正洪.智慧城市:大數據、物聯網和云計算之應用[M].清華大學出版社,2018.10.
[4]劉韶林.物聯網技術在智能配電網中的應用[M].中國電力出版社,2019.4.