王 羿
(國家廣播電視總局監(jiān)測數(shù)據(jù)處理中心,北京 100866)
監(jiān)管平臺擔(dān)負(fù)著廣播電視技術(shù)監(jiān)測、內(nèi)容監(jiān)聽監(jiān)看以及安全播出的各項業(yè)務(wù),在加強廣播電視管理中發(fā)揮的作用越來越明顯。隨著監(jiān)管平臺技術(shù)系統(tǒng)和基礎(chǔ)設(shè)施規(guī)模的不斷擴大,設(shè)備類型和系統(tǒng)架構(gòu)也越來越復(fù)雜。由于各系統(tǒng)之間尚未完成數(shù)據(jù)互通,缺乏綜合監(jiān)控手段,出現(xiàn)故障時,問題的解決往往依賴于運行維護人員的經(jīng)驗,在故障排查、定位等方面不僅耗費了大量的時間,而且難以做到準(zhǔn)確、快速定位并判斷故障影響范圍。
為進一步有效利用龐大的監(jiān)管平臺運維數(shù)據(jù),從整體對運維數(shù)據(jù)統(tǒng)一管理,從數(shù)據(jù)采集、存儲、分發(fā)、共享等過程創(chuàng)建具備可靠性和一致性的運維數(shù)據(jù)視圖,本文通過構(gòu)建基于運維大數(shù)據(jù)的統(tǒng)一運維管理平臺,從多個維度深度分析和挖掘運維大數(shù)據(jù)的有效信息,讓運維數(shù)據(jù)“說話”,從而實現(xiàn)監(jiān)管平臺運維管理集中化。
監(jiān)管平臺運維數(shù)據(jù)具備大數(shù)據(jù)的“4V”特性[1]:
(1)規(guī)模性(Volume),為及時發(fā)現(xiàn)故障,監(jiān)控系統(tǒng)對各軟硬件設(shè)備運行數(shù)據(jù)以秒級或毫秒級采集,系統(tǒng)不間斷地運行,產(chǎn)生大量運行數(shù)據(jù);
(2)多樣性(Variety),監(jiān)管平臺的運維數(shù)據(jù)既有軟硬件設(shè)備運行性能的數(shù)值數(shù)據(jù)、系統(tǒng)軟硬件配置信息等結(jié)構(gòu)化數(shù)據(jù),又有系統(tǒng)日志、網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)、業(yè)務(wù)音視頻等非結(jié)構(gòu)數(shù)據(jù);
(3)高速性(Velocity),為保障監(jiān)管平臺的業(yè)務(wù)連續(xù)性,運維工程師需要及時監(jiān)控、響應(yīng)和處理監(jiān)管平臺系統(tǒng)故障,這要求運維系統(tǒng)具備實時的數(shù)據(jù)處理能力;
(4)價值性(Value),在監(jiān)管平臺不間斷穩(wěn)定運行期間,高價值的故障數(shù)據(jù)出現(xiàn)頻次較少,數(shù)據(jù)價值密度低。
為切實提高監(jiān)管平臺運維能力,從傳統(tǒng)的“被動式”運維向具備能力的“主動式”運維邁進,首要任務(wù)是建設(shè)基于大數(shù)據(jù)的監(jiān)管平臺統(tǒng)一運維管理系統(tǒng)[2],在統(tǒng)一采集各類設(shè)備的告警狀態(tài)、告警信息的基礎(chǔ)上,進行統(tǒng)一存儲、統(tǒng)一處理、統(tǒng)一分析,高效地發(fā)現(xiàn)運維系統(tǒng)的運行風(fēng)險。
系統(tǒng)接收、匯總設(shè)備運行和業(yè)務(wù)處理的運維數(shù)據(jù),實現(xiàn)運維數(shù)據(jù)的集中整合,并利用大數(shù)據(jù)技術(shù)對運維數(shù)據(jù)資源統(tǒng)一管理。該系統(tǒng)的框架劃分為數(shù)據(jù)采集子系統(tǒng)、運維數(shù)據(jù)分析子系統(tǒng)、工單流程管理子系統(tǒng)、運維電子化子系統(tǒng)、運維案例知識庫子系統(tǒng)、綜合監(jiān)控子系統(tǒng)以及系統(tǒng)管理子系統(tǒng)等,各子系統(tǒng)層級之間提供標(biāo)準(zhǔn)化接口,實現(xiàn)子系統(tǒng)間的獨立與協(xié)作。
制造任務(wù)與子任務(wù)之間存在分支、并聯(lián)、分支與并聯(lián)共存3種典型的邏輯關(guān)系,因此,可以用式(7)和式(8)表示為以下形式:
數(shù)據(jù)采集子系統(tǒng)實現(xiàn)對監(jiān)管平臺的結(jié)構(gòu)化和非結(jié)構(gòu)化的異構(gòu)數(shù)據(jù)的實時采集。運維電子化子系統(tǒng)采用結(jié)構(gòu)化數(shù)據(jù)庫和非結(jié)構(gòu)化數(shù)據(jù)庫,依據(jù)數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)量、實時性等特點建立運維數(shù)據(jù)存儲模型,建立統(tǒng)一的數(shù)據(jù)視圖以提供標(biāo)準(zhǔn)的運維數(shù)據(jù)接口,便于運維數(shù)據(jù)分析子系統(tǒng)調(diào)用數(shù)據(jù)。運維數(shù)據(jù)分析子系統(tǒng)對存儲的結(jié)構(gòu)化和非結(jié)構(gòu)化運維數(shù)據(jù)進行分析處理。系統(tǒng)整體邏輯框架如圖1所示。

圖1 邏輯框架設(shè)計
監(jiān)管平臺運維數(shù)據(jù)除了具有海量性的特點外,由于運維數(shù)據(jù)產(chǎn)生于各種異構(gòu)環(huán)境,因此還具有數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)繁雜的特點。根據(jù)數(shù)據(jù)源的差別,運維數(shù)據(jù)可劃分為支撐硬件運行的數(shù)據(jù)、軟件支撐系統(tǒng)數(shù)據(jù)、監(jiān)控管理系統(tǒng)數(shù)據(jù)以及監(jiān)管平臺業(yè)務(wù)數(shù)據(jù),其中,支撐硬件運行的數(shù)據(jù)包括集中存儲、分布式存儲、服務(wù)器、網(wǎng)絡(luò)設(shè)備等設(shè)備的運行指標(biāo)數(shù)據(jù),軟件支撐系統(tǒng)數(shù)據(jù)包括操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)及業(yè)務(wù)中間件等的日志信息,監(jiān)控管理系統(tǒng)數(shù)據(jù)包括監(jiān)控機房精密空調(diào)、配電柜、UPS、溫濕度等基礎(chǔ)環(huán)境的監(jiān)控數(shù)據(jù)以及虛擬化主機、計算集群、存儲虛擬化的云平臺管理中心監(jiān)控數(shù)據(jù),監(jiān)管平臺業(yè)務(wù)數(shù)據(jù)包括廣播電視節(jié)目音視頻文件、節(jié)目編目信息、節(jié)目模板以及人物數(shù)據(jù)等業(yè)務(wù)信息。
為適應(yīng)監(jiān)管平臺運維系統(tǒng)異構(gòu)數(shù)據(jù)的特點,利用混合異構(gòu)數(shù)據(jù)采集的方式獲取監(jiān)管平臺的運維數(shù)據(jù)。數(shù)據(jù)采集子系統(tǒng)由一組數(shù)據(jù)采集服務(wù)組成集群,采集監(jiān)管平臺軟、硬件的運行數(shù)據(jù),并通過Kafka數(shù)據(jù)總線持續(xù)地將監(jiān)管平臺運維數(shù)據(jù)導(dǎo)入并存儲。采集支持多種標(biāo)準(zhǔn)數(shù)據(jù)接口協(xié)議,可通過WMI、SSH、JDBC、JMX、SNMP、SYSLOG、TRAP等接口方式獲取服務(wù)器、數(shù)據(jù)庫、云平臺及業(yè)務(wù)應(yīng)用等運行數(shù)據(jù)。
運維大數(shù)據(jù)的數(shù)據(jù)來源主要有兩種,一種是從采集接口獲取的目標(biāo)設(shè)備、軟件系統(tǒng)和業(yè)務(wù)的“裸”數(shù)據(jù),另一種是來自于系統(tǒng)的運維數(shù)據(jù)分析子系統(tǒng)、工單流程管理子系統(tǒng)、運維案例知識庫子系統(tǒng)等的基礎(chǔ)數(shù)據(jù)。這些數(shù)據(jù)類型繁雜,但運維大數(shù)據(jù)所需存儲的數(shù)據(jù)類型可分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。對于結(jié)構(gòu)化的“關(guān)系型”數(shù)據(jù),本文采用MySql數(shù)據(jù)存儲和管理;對于非結(jié)構(gòu)化數(shù)據(jù),將采集的數(shù)據(jù)信息進行順序存儲,借助HDFS分布式文件系統(tǒng),將數(shù)據(jù)以鍵值對的形式存儲至系統(tǒng)中。
基于ITIL的工單流程管理子系統(tǒng),具備運維任務(wù)管理、運維工單管理以及運維人員管理功能,并且可通過移動客戶端發(fā)布工單流程信息[4]。運維任務(wù)管理功能在龐雜的系統(tǒng)和設(shè)備中依據(jù)各運維任務(wù)場景,在監(jiān)管平臺的服務(wù)響應(yīng)、故障處理、運維巡檢等環(huán)節(jié)建立一套標(biāo)準(zhǔn)化的工作流模板,實現(xiàn)監(jiān)管平臺運維工單的標(biāo)準(zhǔn)化管理。運維工單管理功能提供工作流程引擎,具備流程定義功能,可以根據(jù)需求定制各種類型工單的流轉(zhuǎn)流程。同時,利用自動化業(yè)務(wù)編排對日常運維操作流程進行任務(wù)封裝,通過信息聯(lián)動、業(yè)務(wù)流程編排建立自動化能力,將運維流程中的人工操作轉(zhuǎn)變?yōu)樽詣踊鳂I(yè)。
運維案例知識庫子系統(tǒng)實現(xiàn)知識維護、知識審核、知識發(fā)布、知識檢索以及公告管理等功能。對知識庫進行分類管理,提高了知識庫的檢索速度和利用率,實現(xiàn)了知識庫數(shù)據(jù)在各系統(tǒng)的共享與應(yīng)用,可用于指導(dǎo)日常運維工作,實現(xiàn)知識的共享和傳承。
運維案例知識庫分為專家服務(wù)知識庫、故障案例知識庫、技術(shù)經(jīng)驗知識庫以及維護制度案例知識庫。專家服務(wù)知識庫主要是對有專業(yè)技能、有專業(yè)特長的人員進行專家檔案信息的管理和維護,故障案例知識庫是將運維工作中的“經(jīng)典”故障案例抽取出來,將其“沉淀”在知識庫中,提供給運維人員學(xué)習(xí)和借鑒,以提高人員故障處理技能、縮短故障處理時間;技術(shù)經(jīng)驗知識庫的內(nèi)容包括故障處理經(jīng)驗、投訴處理經(jīng)驗、廠家提供的經(jīng)驗、直屬單位的維護經(jīng)驗以及其他經(jīng)典運維類經(jīng)驗等,維護制度案例知識庫由維護制度提供。
運維數(shù)據(jù)分析子系統(tǒng)整合運維數(shù)據(jù),并利用大數(shù)據(jù)技術(shù)實現(xiàn)所運維的系統(tǒng)及設(shè)備的各類信息數(shù)據(jù)實時狀態(tài)監(jiān)測、風(fēng)險狀態(tài)分析、業(yè)務(wù)鏈路跟蹤、關(guān)聯(lián)性預(yù)警[3]等進行統(tǒng)一化運維跟蹤,主要具備如下功能:
(1)數(shù)據(jù)冗余存儲,多備份保證數(shù)據(jù)安全;
(2)數(shù)據(jù)分布式存儲,數(shù)據(jù)分模塊分布存儲在各個大數(shù)據(jù)存儲節(jié)點上,實現(xiàn)任務(wù)處理并行度,提高運算效率;
(3)離線數(shù)據(jù)分布式處理,在功能(2)的基礎(chǔ)上進行分布式數(shù)據(jù)計算,對大量數(shù)據(jù)進行分析處理;
(4)實時流處理,實時計算分析數(shù)據(jù),并將數(shù)據(jù)發(fā)送到展示頁面;
(5)機器學(xué)習(xí)模型訓(xùn)練,通過數(shù)據(jù)分析、訓(xùn)練,獲得訓(xùn)練模型,用于對數(shù)據(jù)相關(guān)性和預(yù)測性進行 分析;
(6)數(shù)據(jù)搜索,能夠快速定位到一類數(shù)據(jù)。
建立運維大數(shù)據(jù)平臺,進行運維大數(shù)據(jù)分析,能夠為運維工作提供技術(shù)支撐和決策支持。運維數(shù)據(jù)分析子系統(tǒng)的數(shù)據(jù)來源分為歷史數(shù)據(jù)和實時數(shù)據(jù),采用時序序列的機器學(xué)習(xí)算法能夠?qū)τ袃r值的信息進行挖掘,既可以了解硬件設(shè)備的運行狀況,又可以了解到故障的源頭,從而及時地更正錯誤,更好地提高硬件設(shè)備的高可用性;同時還能了解設(shè)備故障與業(yè)務(wù)運行的關(guān)聯(lián)影響、業(yè)務(wù)增長與設(shè)備性能變化的關(guān)系、為擴容申請?zhí)峁?shù)據(jù)依據(jù)以及對擴容規(guī)模進行量化控制。
通過對各業(yè)務(wù)系統(tǒng)的海量數(shù)據(jù)進行綜合分析,可以得出業(yè)務(wù)系統(tǒng)中每個IT資源的運行狀態(tài)和趨勢,從而對資源進行健康度分析,并以此對各業(yè)務(wù)功能節(jié)點和業(yè)務(wù)系統(tǒng)進行健康度分析。運維人員可通過上述分析得出的健康度數(shù)據(jù),全面掌握各業(yè)務(wù)系統(tǒng)、業(yè)務(wù)節(jié)點以及單個資源的運行狀況。若健康度分析結(jié)果顯示存在異常,可對異常資源、功能節(jié)點及業(yè)務(wù)系統(tǒng)進行告警,以業(yè)務(wù)節(jié)點的維度展示影響業(yè)務(wù)運行的關(guān)鍵節(jié)點,有助于運維人員更快地排查故障、定位問題根源,同時也能以網(wǎng)絡(luò)拓?fù)涞男问秸宫F(xiàn)各級設(shè)備對各個業(yè)務(wù)系統(tǒng)運行的影響,提高運維準(zhǔn)確性。
利用大數(shù)據(jù)系統(tǒng)對設(shè)備的運行趨勢、運行風(fēng)險進行分析,對潛在風(fēng)險點進行預(yù)警。風(fēng)險分析功能主要監(jiān)控各類設(shè)備的關(guān)鍵指標(biāo)項[5]、流量分析等性能突變情況,對設(shè)備的潛在風(fēng)險進行預(yù)警,根據(jù)歷史監(jiān)控數(shù)據(jù)對性能趨勢進行預(yù)測。通過風(fēng)險分析,運維人員可以進行更高效的操作,做出更明智的決策,降低運維操作風(fēng)險,提高系統(tǒng)運行的抗風(fēng)險能力,提高運維效率。系統(tǒng)可在頁面展示風(fēng)險設(shè)備TOP列表,點擊列表項可在右側(cè)動態(tài)展示所選設(shè)備的風(fēng)險報告和風(fēng)險統(tǒng)計圖表,運維人員可根據(jù)大數(shù)據(jù)分析數(shù)據(jù)更快更精準(zhǔn)地定位可能存在的風(fēng)險,并通過快速處理避免風(fēng)險的發(fā)生,確保系統(tǒng)持續(xù)穩(wěn)定運行。
自動化運維報表通過前端界面制定運維資源分析報表和執(zhí)行計劃,系統(tǒng)實現(xiàn)自動生成日常運行維護的資源運行狀態(tài)、指標(biāo)等報表數(shù)據(jù),并以圖形、表格的形式展示,也可以提供可供下載的文件,運維人員可以快速并直觀地掌握資源狀態(tài),提高運維的效率和準(zhǔn)確性。
系統(tǒng)以準(zhǔn)實時采集數(shù)據(jù)為基礎(chǔ),通過對云虛擬化資源運行指標(biāo)的CPU資源、內(nèi)存資源、存儲資源總量、已用量等進行綜合計算分析,結(jié)合新增業(yè)務(wù)需求,動態(tài)模擬預(yù)判資源分配情況,為新業(yè)務(wù)需求提供合理的部署方案,為運維人員的運維保障提供數(shù)據(jù)支持。
本文設(shè)計并建設(shè)了監(jiān)管平臺統(tǒng)一運維管理系統(tǒng),通過統(tǒng)一采集基礎(chǔ)設(shè)施和技術(shù)系統(tǒng)的各類設(shè)備的告警狀態(tài)、告警信息,借助大數(shù)據(jù)分析平臺進行統(tǒng)一存儲、統(tǒng)一處理、統(tǒng)一分析,高效地發(fā)現(xiàn)運維系統(tǒng)的運行風(fēng)險。建設(shè)工單流程管理功能,實現(xiàn)了運維流程的規(guī)范化、流程化;結(jié)合運維電子化管理和運維案例知識庫,實現(xiàn)了對各類運維信息的綜合監(jiān)控,全面提升了監(jiān)管平臺的運行維護水平,為監(jiān)測監(jiān)管業(yè)務(wù)的開展提供了有力支撐。