張培,陸俊,張懿操,趙小陽,劉洋洋,張正銀
(1.中電投工程研究檢測評定中心有限公司;2.國網安徽省電力有限公司信息通信分公司)
在我國發展數字化轉型的時代背景下,數據流量的不斷增加,數據中心規模和容量也在成倍增長,其運維管理則面臨很大挑戰。數據中心基礎設施運維管理從腳本運維、工具運維到平臺運維,僅靠人力已無法滿足運維管理需求,因此亟需運維管理智能化。AIOps(Artificial Intelligence for IT Operations),即智能運維,是將人工智能與運維結合,將AI技術引入到運維當中,基于已有運維數據(日志、監控信息、應用信息等),通過機器的自我學習、自行分析決策,自動去執行腳本[1]。顯然,隨著運維技術手段的提升,數據中心越來越多運維的工作都可以交由智能機器來自動完成,鮮有人員參與,這樣可以極大降低數據中心的人力成本,提升數據中心的競爭力。
當前數據中心智能運維研究與應用在國內外各行業中都屬于起步階段,一些大型互聯網行業、金融行業、技術廠商、科研機構等進行了應用實踐。
阿里研發的智能故障管理平臺,以業務為導向,實現了基于機器學習特點的業務異常檢測,可以準確、及時發現故障。百度實現基于智能流量調度的單機房故障自愈能力,將止損過程劃分為統一的感知、決策、執行三個階段。京東金融實現了基于網絡拓撲的根源告警分析,結合調用鏈,通過時間相關性、權重、關聯規則算法、神經網絡算法等,將告警分類篩選,快速找到告警根源,從而縮短故障排查及恢復時間。……