“從‘被動式’運維的總是挨踢,到‘主動式’運維的少挨踢,再到現在已經破繭而出的‘預見式’運維不挨踢,我們IT 運維人終于要熬出頭了!……”
真期待啊!某單位資深運維人老彭在這次全國IT 運維大會上算是開了眼,終于看到了希望。那么是什么內容讓老彭如此激動呢?
現在的運維環境越來越復雜,對運維人員的要求也越來越高。主要體現在這幾個方面:一是在架構層面,從雙態架構(傳統+私有云)到混態IT(傳統+私有云+公有云),再到異態IT(傳統1+傳統2+多私有云+多公有云);二是在工作層面,DevOps、AIOps、XOps 層出不窮;三是在組織層面,ITIL、ITSM、VERISM 等服務管理類新版本、新模式不斷更新;四是在業務層面,要求(資源)多、(響應)快、(體驗)好、(成本)省成為主流。這種因端到端SLA(南北向信息流)、資源池化(東西向信息流)、混合IT(東西南北向交叉信息流)而導致的“運維黑盒”現象越發突顯。
而大家都知道傳統的被動式運維的弊端是總是客戶先發現出故障了,然后報障處理,客戶體驗非常差。后來演進到主動式運維,終于可以比客戶早發現故障了,但其局限性是故障還是發生了,依然會影響客戶的正常使用,客戶只是被主動告知不能用了,算體驗略有改善。因此迫切呼喚適應新環境的新運維模式。
令人欣喜的是,已經有先導運維人開始嘗試利用各種智能工具,做到提前預見到隱患,并在隱患未轉化為實際故障時就進行了處理,使得用戶都感覺不到曾經發生過什么,只感覺一直可以正常使用。這種運維方式尚沒有準確的定義,有些暫叫做“智能運維”,但這種叫法不嚴謹,因為工具終究是工具,畢竟運維是個系統工程,所以筆者首創地稱之為預見式運維。
在此正式給預見式運維下個定義:借助最新的技術手段,從運維對象的維護歷史、運行現狀、未來環境入手,通過趨勢模型和預測算法,提前預測未來可能遇到的隱患,并提前采取處置措施,以實現持續保障業務連續性的目的。
正如定義描述的那樣,預見式運維最大的特點是具備“3+X”能力,其中的3 是指三個核心能力,既不二過、不背鍋、不懼怕的能力,“不二過”是指要具備對過往故障的追溯能力,找到引起故障的根源,并舉一反三,提取共性,采取完善措施,避免再次發生類似故障;“不背鍋”是指要具備對保障對象當前運行狀態的評估能力,知道哪里是瓶頸、哪里負載重、哪里是盲區等等,并形成狀態評估全景圖,一目了然,不用擔心被無端指責;“不懼怕”是指要具備對未來故障隱患預判的能力,通過構建數據模型和算法,搭建模擬環境,真實演練未來業務運行,提前找到運維盲區和隱患,并提前處置,從而防患于未然。
在此基礎上,再根據不同行業保障對象的特點,以及具體業務需要,打造其它相關的個性化、定制化的能力,簡稱為“X”。
工欲善其事,首先利其器。在傳統的人工、備件、工具、流程這運維四件套基礎上,要做到預見式運維,必須再新增四件套,那就是數字孿生、大數據、知識圖譜、機器學習,統稱預見式運維八件套。
其次,在運維的職責上,要把以“業務”為中心,以“價值”為導向,以“確定”為目標,做為新的定位和努力方向。
再者,更要加強運維人員綜合管理技能的提升,尤其是對“技術+業務+管理”三合一型的復合人員的培養,專項領域高精尖的專業技術人才可以借助外部資源支持,內部普遍需要的是這種復合型的通才,因為有其它七件套的武器傍身,運維人員的單兵能力將得到極大的提升,也只有這樣,才能在AI 時代,做運維的真正主人。
IT 語錄:我預見,我不挨踢!
“尊敬的業主,冬季供暖即將開始,為了保證按期供暖,我們已提前對供暖設備及管道進行了預先檢查,發現2 處故障5 處隱患,均已提前修復,并將提前一周間歇式試供,可能出現忽冷忽熱的情況,這屬于正常現象,您不用擔心,但從已往年份的記錄來看,您家的屋內管道曾出現過滴水故障,建議您在試供期間注意觀察,我們也會持續監測分析系統運行狀況,一有情況及時處理,確保按期順暢供暖,讓您渡過一個溫暖的冬天……”
雖然這兩天突然降溫,但收到物業公司發來的短信,老彭心里踏實了許多,這個小區的物業真是越來越貼心了,說是上了個什么AI 系統,這算不算‘預見式’運維呢?
下期預告:呼哧呼哧,“二師兄”也有喜怒哀樂!