魯瑞,王曉穎
(中國移動通信集團山西有限公司,山西 太原 030032)
隨著IT 行業的快速發展,IT 系統運維面對著前所未有的復雜環境,首先由于國外產品技術的限制和國內信創技術的不斷研發,讓運維的技術壁壘逐步加大,其次,客戶對通信業服務要求越來越高,讓運維的精細化程度需要不斷的細化,這兩方面原因的疊加,導致原有的IT 運維模式弊端被放大:(1)傳統的網管式的運維自動化系統僅僅基于指標與基線進行告警,告警量大質差,無法閉環,不利于精細化管理;(2)基于單一指標的故障分析問題不準確,不利于深化運維;(3)隨著業務應用的不斷深化,數據量劇增,傳統運維抓問題輕優化,性能優化工作嚴重不足,無法滿足客戶更快更好的服務要求;(4)云平臺建設、中臺戰略的實施推進,需要管理的IT 設備尤其信創系統規模激增,導致技術人員及專家匱乏,人力似乎也成了一個黑洞,無論投入多少人進去,都很快被這個黑洞吸收掉。
要打破IT 運維面臨的技術壁壘,實現減員增效和精準運維要求,就必須放棄傳統的網管式運維,充分利用智能化手段,通過智能化手段實現對IT 基礎設施的自動化運維。
本文提出一種“IT 健康運維”工作法,通過對核心的IT 基礎設施進行結構分析,提取運維要素,標準化指標體系,構建健康模型,打造基于AIOPS的基礎設施生態健康管理工具;實現了對中間件、數據庫、國產存儲設備的覆蓋,運維工作實現了自動化,有利的保障了日常運維、常態化優化等工作,實現了運維工作的減員增效。……