劉明亮,梁剛毅
(廣州珠江數(shù)碼集團(tuán)股份有限公司,廣東 廣州 510335)
隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,我國廣電運(yùn)營商的機(jī)房規(guī)模、設(shè)備類型及設(shè)備數(shù)量逐年急劇增長,給傳統(tǒng)依賴人工的運(yùn)維模式帶來了極大挑戰(zhàn)。愈發(fā)標(biāo)準(zhǔn)化的機(jī)房設(shè)備、機(jī)房環(huán)境以及物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能及機(jī)器人等技術(shù)的快速迭代,使智能化管理成為可能。目前,在廣電機(jī)房實(shí)施智能管理已成為必然。
隨著技術(shù)的演進(jìn),運(yùn)維管理技術(shù)的發(fā)展大致可分為4 個(gè)階段,如圖1 所示。
1.1.1 人工階段
該階段機(jī)房和服務(wù)器選型、軟硬件初始化、服務(wù)上下線、配置管理以及運(yùn)行監(jiān)控等,運(yùn)維工作完全靠人工操作。技術(shù)人員大量使用表格和文檔記錄設(shè)備和機(jī)房的配置信息和運(yùn)維信息,自動化程度低。
1.1.2 自動化階段
為了簡化操作流程,提升運(yùn)維工作效率,運(yùn)維工程師開始將部分運(yùn)維操作和重復(fù)性工作編寫成腳本自動執(zhí)行。工具的產(chǎn)生是運(yùn)維自動化的一個(gè)典型標(biāo)志。這個(gè)階段大量日常工作通過自動執(zhí)行程序完成,提升效率的同時(shí),逐漸降低了出錯(cuò)率。
1.1.3 平臺化階段
隨著業(yè)務(wù)的持續(xù)發(fā)展,大量分散腳本的管理出現(xiàn)低效且復(fù)雜的問題。將自動化腳本和工具進(jìn)行整合,從系統(tǒng)層面構(gòu)建更加易用和高效的運(yùn)維管理工具即運(yùn)維平臺化。圍繞開源工具和開源平臺,企業(yè)開始結(jié)合自身的業(yè)務(wù)場景特點(diǎn)構(gòu)建自己的運(yùn)維平臺,包括監(jiān)控平臺、告警平臺及自動化平臺等。這些平臺一定程度上提高了業(yè)務(wù)測試和上線效率,降低了發(fā)生潛在風(fēng)險(xiǎn)的概率,提高了系統(tǒng)可用性。具有平臺化思想的開源工具幾乎覆蓋了運(yùn)維工作的全部維度,如表1 所示。
1.1.4 智能運(yùn)維階段
通過將技術(shù)和場景進(jìn)行匹配,運(yùn)維管理形成了具體的智能化運(yùn)維方案,有針對性地緩解了運(yùn)維的痛點(diǎn)和難點(diǎn)問題。智能化運(yùn)維是指采用廣義算法解決已知問題的一種智能化運(yùn)維方案。例如,通常的告警策略是設(shè)置一個(gè)閾值范圍(上限、下限),某個(gè)指標(biāo)超出閾值時(shí)觸發(fā)告警。然而,對于一些特定場景,這樣的告警策略是無效的。圖2 是珠江數(shù)碼智能電視平臺某服務(wù)器的網(wǎng)絡(luò)出口流量走勢圖。可以看出,每天凌晨3 點(diǎn)到6 點(diǎn)是網(wǎng)絡(luò)出口流量一天的低谷期,晚上20 點(diǎn)到22 點(diǎn)是全天的高峰期。機(jī)械地按照固定的閾值設(shè)置告警非常不準(zhǔn)確,需要通過歷史數(shù)據(jù)智能化地?cái)M合出一條趨勢線,以這條線上、下界的一定范圍設(shè)置動態(tài)的告警閾值才能更加準(zhǔn)確地發(fā)出告警。

圖1 運(yùn)維管理技術(shù)發(fā)展的4 個(gè)階段

表1 典型的開源運(yùn)維平臺示例

圖2 珠江數(shù)碼智能電視平臺某服務(wù)器的網(wǎng)絡(luò)出口流量走勢
此外,智能運(yùn)維可以被用于故障分析,實(shí)現(xiàn)故障實(shí)時(shí)溯源,從而指導(dǎo)運(yùn)維人員進(jìn)行準(zhǔn)確高效的應(yīng)急排障,降低企業(yè)損失。在算法層面上,基于算法的運(yùn)維方式(Algorithmic IT Operations,AIOps)使用的各類算法[1],如基于指數(shù)平滑的二次和三次平滑算法、基于差分整合移動平均自回歸模型(Autoregressive Integrated Moving Average model,ARIMA)的算法、基于深度學(xué)習(xí)的前饋神經(jīng)網(wǎng)絡(luò)及循環(huán)神經(jīng)網(wǎng)絡(luò)(Rerrent Neural Network,RNN)算法等已經(jīng)比較成熟,并大量應(yīng)用在圖像圖形處理和語音識別等領(lǐng)域。在算力層面上,基于云計(jì)算和大數(shù)據(jù)技術(shù)的數(shù)據(jù)處理能力已經(jīng)足夠,如Hadoop、Spark 等開源大數(shù)據(jù)生態(tài)系統(tǒng),如時(shí)序數(shù)據(jù)的處理能力已經(jīng)能夠支撐智能化的復(fù)雜計(jì)算場景。目前,國內(nèi)大多數(shù)成熟的互聯(lián)網(wǎng)企業(yè)都已經(jīng)探索嘗試了AIOps,并取得了不錯(cuò)的收益。
現(xiàn)階段,廣電機(jī)房運(yùn)維工作大致包括設(shè)備管理、配置管理、業(yè)務(wù)上下線、日志采集和分析、告警和流量監(jiān)控、故障排查以及一些日常優(yōu)化等。隨著云化和虛擬化的逐步落實(shí),運(yùn)維工作還將擴(kuò)展到容量管理、彈性擴(kuò)縮容、安全管理以及分析和定位因引入各種容器和開源框架導(dǎo)致的故障等范疇。
快速解決故障和降低故障率是運(yùn)維工作的首要任務(wù)。現(xiàn)階段系統(tǒng)愈發(fā)復(fù)雜,需要運(yùn)維人員關(guān)注的服務(wù)數(shù)量急劇增長,已經(jīng)接近人工能夠完成的極限,因此急需引進(jìn)和普及新的技術(shù)。但是,廣電機(jī)房智能化管理的成功落地案例非常少,主要是因?yàn)橹悄芑\(yùn)維的應(yīng)用門檻較高,處在運(yùn)維經(jīng)驗(yàn)、行業(yè)知識及新技術(shù)的交叉領(lǐng)域。廣電機(jī)房的運(yùn)維人員熟悉運(yùn)維場景,熟知運(yùn)維的痛點(diǎn)和難點(diǎn),并且具備一定的行業(yè)知識,但由于缺乏對新技術(shù)的了解,無法判斷所遇到的困難是否可通過新技術(shù)解決。此外,設(shè)備供應(yīng)商的研發(fā)人員因缺乏運(yùn)維經(jīng)驗(yàn)和行業(yè)知識而無法將技術(shù)和場景匹配。因此,智能化運(yùn)維管理的發(fā)展需要兩者的共同努力。在宏觀層面,設(shè)備廠商要根據(jù)智能化運(yùn)維框架和理念推出智能化運(yùn)維平臺,針對不同運(yùn)維場景提供個(gè)性化解決方案。在微觀層面,廣電機(jī)房的運(yùn)維人員要將運(yùn)維過程的痛點(diǎn)和難點(diǎn)場景化,嘗試采用新技術(shù)解決問題,通過將孤立的場景和技術(shù)進(jìn)行匹配,逐步提高智能化運(yùn)維水平。
智能化運(yùn)維不是一個(gè)跳躍發(fā)展的過程,而是一個(gè)長期演進(jìn)和不斷迭代的過程,其根基是自動化運(yùn)維、監(jiān)控、數(shù)據(jù)收集、分析和處理等具體工作。
廣電機(jī)房智能化運(yùn)維建設(shè)尚未形成一套成熟的指導(dǎo)方案,建議廣電機(jī)房運(yùn)維人員優(yōu)先在重復(fù)的日常工作和能夠嚴(yán)格按照既定流程執(zhí)行的工作中挖掘需求場景,在掌握新技術(shù)的專業(yè)人員協(xié)助下,將場景和技術(shù)進(jìn)行匹配,形成可實(shí)施和可落地的方案[2]。
近年來,在機(jī)房管理領(lǐng)域興起了一種新的管理模式,即數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(Data Center Infrastructure management,DCIM)。DCIM 是一套包含特定軟硬件設(shè)備和傳感器的管理平臺,能夠?qū)C(jī)房內(nèi)部所有設(shè)備和環(huán)境關(guān)聯(lián)起來,實(shí)現(xiàn)如集中監(jiān)控、容量預(yù)測、模型規(guī)劃、事件處置及運(yùn)營成本控制等目標(biāo)[3]。DCIM 平臺收集的設(shè)備和環(huán)境信息,結(jié)合第三方資源管理和監(jiān)控平臺數(shù)據(jù),即可建立一套能夠?qū)崿F(xiàn)設(shè)備管理、動環(huán)監(jiān)控、安保監(jiān)控以及參觀演示的可視化管理平臺。
值得關(guān)注的是,當(dāng)前無論是DCIM 管理平臺還是可視化管理平臺,都只是完成了數(shù)據(jù)采集、統(tǒng)計(jì)分析及可視化展示,并沒有實(shí)現(xiàn)智能化管理和決策的功能。未來,可通過智能化運(yùn)維管理在全生命周期提升運(yùn)維效率并降低能耗。在監(jiān)控側(cè),通過部署集中監(jiān)控平臺實(shí)現(xiàn)資源池化,對全網(wǎng)多機(jī)房進(jìn)行集中共管,節(jié)省運(yùn)維人力投入;在運(yùn)維側(cè),通過電子巡檢、電子維保、風(fēng)險(xiǎn)管理及故障預(yù)測,降低單柜運(yùn)維成本;在運(yùn)營側(cè),通過部署智能上架柜位推薦、資產(chǎn)U 位自識別及資源精確分析等功能,提高資源利用率;在節(jié)能側(cè),通過看診調(diào)優(yōu)了解能源去向,識別能耗最大點(diǎn),實(shí)時(shí)調(diào)節(jié)制冷系統(tǒng),將能源效率指標(biāo)(Power Usage Effectiveness,PUE)降到最低。
盡管目前的技術(shù)已經(jīng)能獲取設(shè)備的運(yùn)行狀態(tài)、網(wǎng)絡(luò)流量數(shù)據(jù)乃至數(shù)據(jù)庫的告警信息,但如何運(yùn)用這些信息是運(yùn)維人員的一個(gè)新課題。一方面,隨著熱備和集群等高可靠技術(shù)的普及,部分設(shè)備運(yùn)行狀況異常并不一定會對業(yè)務(wù)產(chǎn)生實(shí)質(zhì)影響;另一方面,當(dāng)業(yè)務(wù)出現(xiàn)異常時(shí),成千上萬條告警信息堆積在一起,使得快速判斷故障根源困難重重。系統(tǒng)的復(fù)雜度和運(yùn)維難度的增加,客觀上要求系統(tǒng)必須實(shí)現(xiàn)數(shù)字化和維護(hù)自動化。
運(yùn)維自動化是使用算法自動執(zhí)行重復(fù)性和有標(biāo)準(zhǔn)化流程的工作,并對執(zhí)行過程和執(zhí)行結(jié)果進(jìn)行有效監(jiān)管,實(shí)現(xiàn)從監(jiān)測、診斷、分析及恢復(fù)的閉環(huán)。簡單地說,它是將事件與流程相關(guān)聯(lián),一旦發(fā)生性能超標(biāo)或宕機(jī)等事件,便可按照預(yù)定義的流程自動啟動故障響應(yīng)和恢復(fù)機(jī)制。運(yùn)維自動化還可以協(xié)助運(yùn)維人員完成日常的重復(fù)性工作,如日常巡檢、業(yè)務(wù)調(diào)整及補(bǔ)丁部署等,減少乃至消除重復(fù)性工作對運(yùn)維人員精力的耗費(fèi)。此外,運(yùn)維自動化可以通過部署自動化監(jiān)控系統(tǒng),及時(shí)發(fā)現(xiàn)故障隱患并將相關(guān)信息主動推送給運(yùn)維人員,將損失降到最低。
盡管當(dāng)前監(jiān)控和告警平臺的搭建已近完善,但大多平臺仍通過在操作系統(tǒng)上安裝Agent 訪問設(shè)備驅(qū)動讀取硬件狀態(tài)數(shù)據(jù)。所有監(jiān)控狀態(tài)的數(shù)據(jù)抓取都受限于驅(qū)動程序,而驅(qū)動程序的編寫人員所關(guān)注的重點(diǎn)在于設(shè)備能否正常運(yùn)行,而不在于設(shè)備的狀態(tài)監(jiān)控。因此,通過驅(qū)動程序所抓取的硬件狀態(tài)參數(shù)有限。例如,絕大部分服務(wù)器以RAID1 或RAID5方式搭建冗余磁盤陣列,確保數(shù)據(jù)安全。當(dāng)其中一塊硬盤損壞時(shí),由于系統(tǒng)仍運(yùn)行正常,無法通過監(jiān)控平臺發(fā)現(xiàn)這塊壞盤,只能通過人工巡檢看到設(shè)備的硬盤告警燈才能發(fā)現(xiàn)。可見,機(jī)房巡檢在未來一段時(shí)間仍是廣電機(jī)房運(yùn)維的日常工作之一。在實(shí)際操作過程中,機(jī)房巡檢一般通過人工方式進(jìn)行,每1 ~2 h 進(jìn)行1 次。機(jī)房設(shè)備數(shù)量上升,增加了機(jī)房巡檢的工作量。在這種情況下,使用智能巡檢機(jī)器人代替人工巡檢,是一種有效提升巡檢效率和準(zhǔn)確性的選擇。
一直以來,人工巡檢都有耗時(shí)費(fèi)力、標(biāo)準(zhǔn)不統(tǒng)一、高度依賴個(gè)人經(jīng)驗(yàn)以及巡檢數(shù)據(jù)不可追溯等痛點(diǎn),且人工難以長時(shí)間對同一對象進(jìn)行觀察,無法長期監(jiān)測水管漏水、油管漏油、變壓器放電、機(jī)器異形以及線路異物等設(shè)備狀態(tài)。隨著人工智能技術(shù)的發(fā)展,尤其是機(jī)器人、計(jì)算機(jī)視覺及無軌導(dǎo)航技術(shù)的成熟,利用智能巡檢機(jī)器人長時(shí)間穩(wěn)定地巡檢、分析和識別機(jī)房整體運(yùn)行狀況成為可能。通過自動執(zhí)行巡檢任務(wù)、智能規(guī)劃巡檢路線以及定時(shí)對機(jī)房進(jìn)行巡檢,可準(zhǔn)確識別設(shè)備的指示燈和外露塑殼開關(guān)狀態(tài),及時(shí)上報(bào)異常,提升運(yùn)維效率;通過集成各類傳感器收集溫濕度、噪聲及空氣質(zhì)量等數(shù)據(jù),可及時(shí)感知機(jī)房環(huán)境變化;通過分析巡檢異常情況自動生成巡檢報(bào)告,及時(shí)報(bào)送告警信息至相關(guān)人員的郵箱和手機(jī),可實(shí)現(xiàn)遠(yuǎn)程無人巡檢。
由于機(jī)房的實(shí)際環(huán)境不同,使用智能巡檢機(jī)器人時(shí)需要重點(diǎn)關(guān)注某些問題,如冷通道封閉門可能阻擋巡檢機(jī)器人進(jìn)入冷通道巡檢,機(jī)柜門可能妨礙巡檢機(jī)器人識別設(shè)備狀態(tài)等,因此需要提前論證技術(shù)方案的可行性。
智能化運(yùn)維管理技術(shù)在廣電機(jī)房運(yùn)維中的應(yīng)用是一個(gè)不斷演進(jìn)發(fā)展的過程。就目前來看,建設(shè)智能化運(yùn)維管理平臺仍處在概念階段。廣電從業(yè)者可結(jié)合運(yùn)維的痛難點(diǎn)對智能化運(yùn)維的場景進(jìn)行挖掘和研究,與設(shè)備廠商共同推進(jìn)廣電機(jī)房智能化運(yùn)維管理領(lǐng)域的技術(shù)發(fā)展。