Maria Korolov
云平臺、托管服務提供商和進行數字化轉型的企業得益于一種新興的IT趨勢:使用支持人工智能的IT運維技術來自動監控和管理IT業務。
這種新出現的技術趨勢被稱為AIOps,它幫助企業提前解決潛在的停機和性能問題,避免對運維、客戶和收益產生負面影響。而更先進的項目開始使用人工智能系統,不僅是為了發現問題,或在問題發生之前預測問題,更是為了通過智能、自動化的緩解措施及時對事件做出反應。
那么,AIOps到底是什么,企業現在是怎樣使用它的呢?本文中,我們將深入了解人工智能IT運維的技術、策略和挑戰。
AIOps是一種新興的IT技術趨勢,它將人工智能應用到IT運維中,幫助企業智能地管理基礎設施、網絡和應用程序,以提高性能、彈性、容量、正常運行時間,以及在某些情況下的安全性。通過將傳統的、基于閾值的報警和手動過程轉移到人工智能和機器學習系統中,企業利用AIOps能夠更好地監控IT資產,對負面事件和影響進行事前預測。
Carhartt公司首席信息官John Hill在這家工裝制造商的三個主要業務領域中使用了AIOps:服務管理、性能管理和IT自動化。多虧了智能監控,Carhartt現在能夠在問題影響用戶和客戶之前發現問題。
他說:“這是一個監控環境、掌握動態并根據事件指標來采取行動的全過程。以前,你可能會通過停機或者某些地方不工作的跡象來知道什么時候需要進行修理——而在你發現這些跡象之前,所發生的事件早已損害了客戶體驗。”
AIOps可能已經應用在了企業的IT業務中了,你自己甚至都不知道。先進的CRM和ERP系統通常內置了智能管理功能。大部分主要的云平臺也利用了支持機器學習的監控和管理工具。
但是,在單點解決方案中依賴內置功能有其缺點。在一項AIOps交流調查中,65%的IT企業表示,他們仍然依賴于某種監控方法(未必具備智能功能),這些方法要么是孤立的、基于規則的,要么不能滿足整個IT環境的需求。此外,根據最近的一項BigPanda調查,42%的IT企業在其IT環境中使用了10多種不同的監控工具。
Carhartt開始時就是這樣使用AIOps的。Hill說:“以前,對于不同的環境,我們必須分別進行監控。”為了解決這種復雜性,Hill選擇將監控功能結合到兩個平臺上,首先在AppDynamics上監控應用程序性能,然后添加Turbonomic來監視Carhartt的基礎設施。
“黑色星期五”和“網絡星期一”購物高峰期間,該公司網站的性能問題迫使公司不得不做出改變。Hill說,當公司看到問題時,客戶早就感覺到服務質量下降了。
自Carhartt在2017年秋季部署AppDynamics以來,黑色星期五和網絡星期一的高峰期間沒有出現停機問題。
他說:“我們的增長創下了記錄。我們的增長速度是整個行業的兩倍,沒有出現我們以前經歷過的任何停機和性能下降問題。”
Carhartt在2019年初增加了Turbomency,用于本地和云環境的資源管理。他說,“有了新系統后,利用率從70%提高到了92%。這能為我們節省25%的基礎設施成本。”
其會自動處理增加的利用率需求,無需人工干預,但減少容量仍然需要人工批準。
Hill說:“新系統能夠發現我們面臨的容量問題,并將更改請求發送給ServiceNow。當我們的容量過大時,它會在ServiceNow中創建一個條目,有人會第一時間注意到它。這種查看非常快速——點一下就可以了。目前,我不需要將其進行自動化。”

公司的下一步是自動化業務任務,例如使用文本識別和自然語言處理功能來處理客戶訂單。
據Gartner的數據,到2023年,40%的企業將使用AIOps來監控應用程序和基礎設施。但市場普遍認為,AIOps的應用仍處于早期階段。據Loom系統公司在2019年贊助的一項調查,到目前為止,只有5%的企業實施了AIOps。波士頓咨詢集團(Boston Consulting Group)總經理兼合伙人Akash Bhatia指出,影響應用的原因之一是,市場上的供應商太多了。“的確太多了。”
據Loom系統公司的報告,有59%的企業還處于試驗研究階段,客戶仍然很難確定他們到底能提供什么。Bhatia說,另外,很多供應商只擅長于部分AIOps,例如,應用程序性能監視、基礎設施管理以及網絡性能監視和診斷等。他補充說,隨著技術的成熟,市場出現了整合跡象。
IDC預測,其稱之為IT運維分析的AIOps市場將從2018年的29億美元增長到2023年的45億美元,其中大部分增長來自“AIOps即服務”。IDC的AIOps分析師兼項目副總裁Stephen Elliot認為,雖然AIOps通常與企業軟件平臺或者云服務捆綁在一起,但大企業已經開始將AIOps作為獨立的預算項目進行投資。
他說:“他們認識到自己身處多云的環境中。而且他們正在進行敏捷轉型,他們有DevOps部門,他們意識到自己必須加快步伐,以后會越來越復雜。”
利用AIOps的企業認識到了從執行分析和預測的系統轉向自行決策系統的重要性。他們要實施進入自動化。
Elliot說:“他們需要能夠收集大量信息、應用分析、減少噪聲、加快問題發現和解決速度的工具。”
自動化還要求進一步增強AIOps集成。應用程序性能問題可能是由軟件問題、網絡問題或者硬件問題引起的。在多云環境中,根本原因有可能在某個云中,也可能在另一個云中,或者是多種因素組合的結果。如果企業的AIOps基礎設施是分散的,那么會很難找到問題的根本原因并解決問題。
AIOps供應商ScienceLogic的首席執行官David Link表示:“然后就回到了手工操作,每個部門都有自己的工具。如果每一應用項目都有自己獨立的工具,這種方式是不能擴展到整個企業中的。”
與此同時,像Carhartt這樣已經部署了AIOps的企業會發現他們的投資得到了回報。據企業管理協會的一項調查,81%使用AIOps的企業報告實現了投資回報。事實上,42%的受訪者認為AIOps的價值“顯著”超過了成本。
據EMA,AIOps最常見的六種應用情形是跨域應用程序基礎架構和性能、容量管理和基礎架構優化、DevOps和敏捷、客戶/最終用戶體驗管理和業務調整、成本管理和變更管理。
Cincinatti Bell的CBTS子公司為企業客戶提供通信服務。該公司首席創新官Joe Putnick介紹說,CBTS過去代表著“Cincinnati Bell技術解決方案”,但隨著企業拓展到其他地區,現在代表了“咨詢建設轉型支持”。
他說,轉到AIOps對幫助縮短反應時間非常重要,現在已經成為新的商機來源。Putnick說,例如,在企業轉向AIOps之前,需要數小時、數天的時間才能將客戶設備納入到CBTS監控、管理和計費系統中,甚至無法納入其中。
Putnick說:“現在,我已經把配置時間從5小時縮短到了2分鐘。所謂配置,我指的是整個IT服務管理和事件管理系統的全面配置。我知道這些統計數字很有說服力。”
該公司還使用AIOps來分析使用模式和自動響應。他說:“我們正在應用AIOps來預測哪里有容量需求,這樣,我們能夠保持最長的正常運行時間,盡可能讓客戶滿意。”
Putnick說,AIOps幫助CBTS從每月安裝不到40個站點增長到每月平均安裝500多個站點,而人數幾乎相同。
CBTS同時使用了AWS內置的系列工具、ServiceNow自帶的自定義編碼應用程序、定制機器學習和自適應算法以及ScienceLogic的AIOps工具。下一步:為客戶提供增值服務。例如,CBTS為客戶提供了客戶服務聊天機器人,可以利用其AIOps系統產生的數據、分析和預測結果,使其變得更加智能,響應能力更強。
如果想要了解AIOps的全部潛力,沒有比托管服務提供商(Managed Services Provider,MSP)行業更能說明問題了。
數字服務咨詢公司Nerdery的數據科學主管Justin Richie說:“這可能是目前市場上最大的一塊。他們肯定在盡可能地投資于算法支持。他們知道,除了硬件,最大的支出是人力資本。”
對于MSP來說,AIOps意味著效率更高、成本更低、解決時間更短——所有這些都是該領域重要的競爭優勢。
總部位于圣何塞的MSP NetEnrich公司的戰略與運維高級副總裁Raghu Kamath說:“這是我們AIOps價值定位的一半。過去12個月中,我們先是在少數客戶中實施,然后逐步擴展到我們的客戶群里。現在,50%以上的客戶都在AIOps平臺上。”
NetEnrich最明顯和最直接的一個好處是減少了誤報。錯誤警報會給員工帶來不必要的工作,而且減慢了客戶的響應時間。
Kamath說:“我們發現和采取行動的響應時間加快了——實施AIOps后,我們的平均修復時間至少縮短了30%。而且隨著AIOps變得更加成熟,并且引入了更多的推理模型,其應用會越來越廣。”
NetEnrich公司在很多不同的客戶環境中使用AIOps,因此,Kamath對這項技術有著獨到的見解。首先,他發現環境越同質,AIOps部署起來就越容易。
他介紹說:“當你開始整合所有這些不同的環境時,情況會復雜得多。”
此外,使用公有云基礎設施的客戶也有優勢,因為其環境的一致性更好。不過,讓云供應商開放他們的系統有時候也會遇到一些障礙。
他說:“但是,公有云供應商正在改變他們的定位。如果看看兩年前到現在能夠訪問的數據量,這已經好多了。”
Kamath說,在傳統應用程序和硬件上應用AIOps是一件棘手的事情。如果沒有足夠的日志,就很難推斷出任何東西。這就是為什么我們鼓勵客戶加速他們的數字化轉型,并使其應用程序現代化的原因。”
Maria Korolov過去20年一直涉足新興技術和新興市場。
原文網址
https://www.cio.com/article/3529772/what-is-aiops-injecting-intelligence-into-it-operations.html