謝正興



摘要:隨著我國鐵路行業(yè)信息化技術大步向前發(fā)展,不斷加快運算資源“云化”的建設步伐,云計算逐漸成為鐵路信息系統(tǒng)的中流砥柱。信息系統(tǒng)運行與維護(簡稱運維)的復雜程度與日俱增,現(xiàn)有運維模式難以支撐。文章為更好地解決某鐵路局云數(shù)據(jù)中心運維工作面臨的困境,不斷提升信息系統(tǒng)運維工作的標準化、規(guī)范化、智慧化、自動化水平,提出具有設備監(jiān)控、故障診斷及配置異常檢測、應用程序管理功能的智慧運維一體化平臺建設方案。利用機器自動處理運維數(shù)據(jù)的優(yōu)勢,簡化運維工作的復雜程度,助力鐵路局信息所運維科室實現(xiàn)智慧轉型。
關鍵詞:云數(shù)據(jù)中心;智慧運維;指標體系;AIOps;應用場景
中圖分類號:U294.1? ? 文獻標識碼:A? ?文章編號:1674-0688(2023)01-0053-05
0 引言
鐵路信息系統(tǒng)運行無法全天候監(jiān)管、運維人員配比不科學、崗位職責臃腫、系統(tǒng)配置信息保存不規(guī)范易丟失、故障處理不及時,以及備件和備機臺賬管理混亂的問題,一直以來是鐵路信息系統(tǒng)運維工作最大的阻礙。中國國家鐵路集團在2022年4月發(fā)布的《“十四五”鐵路科技發(fā)展規(guī)劃》中指出,鐵路信息化需要依照“統(tǒng)一設計規(guī)劃、分級監(jiān)督管理、系統(tǒng)應用與業(yè)務大數(shù)據(jù)集中融合的模式進行建設”,指導從國鐵集團到各鐵路局使用統(tǒng)一的運行維護管理平臺,多級運維互聯(lián)互通協(xié)同調度,開啟鐵路智慧數(shù)字運維新時代[1]。恰逢此發(fā)展契機,某鐵路局引入一體化運維管理平臺,經(jīng)過3個月的設備地址和系統(tǒng)信息錄入,監(jiān)控端口和函數(shù)配置調整,以及運維策略的關聯(lián)任務定制,目前智慧運維平臺自動運行狀態(tài)良好,解決了原有運維工具功能弱的問題,還優(yōu)化了人員結構,壓縮了成本,運維效果顯著。本文主要從鐵路局智慧運維的目標、智慧運維平臺建設方案的設計、平臺系統(tǒng)功能模塊分解、運維指標體系的建立及智慧運維應用場景5個方面對鐵路云數(shù)據(jù)中心智慧運行維護平臺建設與應用情況進行論述,希望通過智慧運行平臺的研究達到以下目的:①大幅減少日常人工巡檢的工作量,最大限度地避免運維人員在常規(guī)工作中出現(xiàn)錯漏的問題;②明確設備、系統(tǒng)故障靶向與處理方法,縮短故障處理時效,提升業(yè)務系統(tǒng)運行的穩(wěn)定性;③從實際操作中檢驗和提升運維人員的專業(yè)水平,減少運維服務外包的成本。
1 鐵路局智慧運維平臺建設背景
近年來,某鐵路局現(xiàn)車系統(tǒng)、T/D結合系統(tǒng)、貨票系統(tǒng)、鐵路運輸管理信息系統(tǒng)(TMIS)逐步遷移至新建的虛擬化平臺,鐵路局內部的云數(shù)據(jù)中心不斷增多,這對信息技術所運維科室人員的能力是一個巨大的考驗。除此之外,信息所在上述系統(tǒng)的軟件和硬件運維方面,一年的運維外包服務費用超過300萬元,從目前鐵路局信息化建設趨勢看,如果仍然按此模式運維,后期費用還會以每年5%~8%的比例增加。
人工智能技術的運維系統(tǒng)日趨成熟,已經(jīng)在金融、電力、通信行業(yè)發(fā)揮著舉足輕重的作用。鐵路信息化建設要想在運維方面有新突破,就必須采用其他行業(yè)實踐驗證的新技術解決依靠人力無法破解的問題。
機器模擬人類的意識、思維,與運維工作相結合,創(chuàng)造了由機器自主處理的運維新領域AIOps(智能運維,Artificial Intelligence for ITO perations)。信息系統(tǒng)的安全、高效、穩(wěn)定運行是人工智能與運維結合及應用研究的重點,智慧運維在信息技術領域受到廣泛關注。企業(yè)分布式計算、系統(tǒng)性能管理、大數(shù)據(jù)查詢與分析、故障智慧檢測、機器算法學習等新興技術的加持,必將促進鐵路數(shù)據(jù)中心運維能力提升至更高層次,推動傳統(tǒng)模式向智慧運維一體化模式轉型[2]。
2 鐵路數(shù)據(jù)中心智慧運維目標
2.1 集中運維管理
集中式的運維包含綜合信息監(jiān)控、系統(tǒng)參數(shù)配置、服務流程記錄、運維自動處理、大屏圖像展示等綜合管理功能,利用機器學習人類運維管理思維和能力,采集和匯總鐵路局數(shù)據(jù)中心的程序運行狀態(tài)、主機資源使用、業(yè)務處理記錄等數(shù)據(jù),方便運維管理。
2.2 規(guī)范運維管理
傳統(tǒng)意義上的運維工作仍然停留在固定的巡查模式,即采取月度、季度例行巡檢的制度,也無法做到主動對運維對象進行管理。規(guī)范運維管理能夠將“監(jiān)、管、控、析、服”5個方面相互融合,各司其職。“監(jiān)”,利用功能模塊主動監(jiān)控信息系統(tǒng)運行;“管”,建立統(tǒng)一的維護和配置數(shù)據(jù)庫,實現(xiàn)集中管理;“控”,通過標準技術手段減少運維工作風險;“析”,對各類運維數(shù)據(jù)進行綜合研判;“服”,推進運維技術服務資源的優(yōu)化和整合。
2.3 提高運維效率
通過采樣和收集體量龐大的基礎信息,給運維智慧分析、故障綜合研判、運維監(jiān)管決策、自動修復處理、信息全面展現(xiàn)提供真實可信的憑據(jù),幫助運維團隊構建高效的工作環(huán)境,優(yōu)化日常工作流程,切實保障數(shù)據(jù)中心平穩(wěn)運行,最大限度地提升運維資源的利用率。
3 鐵路智慧運維平臺建設方案
選用北京廣通優(yōu)云科技股份有限公司為某鐵路局定制化智慧運維平臺,該平臺采用獨立的PaaS架構,它提供了完備的運維應用生態(tài)環(huán)境,在其框架下,可以同時部署人員監(jiān)控管理、設備配置管理、自動化流程管理、服務事件管理、大數(shù)據(jù)查詢與分析、圖像大屏展示工作臺等功能建設。
3.1 智慧運維平臺總體架構
智慧運維平臺包括數(shù)據(jù)中心基礎設施、運維數(shù)字中臺、運維應用生態(tài)、運維管理門戶,平臺總體架構如圖1所示。
3.2 數(shù)據(jù)中心基礎設施
數(shù)據(jù)中心基礎設施是運維監(jiān)控的對象,通常包括運算處理、數(shù)據(jù)存放、網(wǎng)絡交換、信息安全、消防滅火、溫室控制和配電設備。
3.3 運維數(shù)字中臺
構建零散與整體相結合的運維結構,把運維大數(shù)據(jù)作為基礎、智慧算法作為支點、運維場景作為目標。通過把運維能力下移至底部,形成服務支撐平臺,運維場景上移至頂部,形成軟件支持應用,用邏輯的方法實現(xiàn)運維管理分層處理。
3.3.1 采控平臺
借助面向多云及異構環(huán)境、完善的采控能力及隨接隨用的服務模塊化接口,實現(xiàn)分布式、跨中心、多網(wǎng)絡統(tǒng)一調度。多元的采控體系可同時擴展資源和納管第三方應用,使用采控分層機制將其劃分為代理層、接入層、服務端(如圖2所示)。
(1)從邏輯層面可分為本地代理(Local Agent)、遠程代理(Remote Agent)和匯聚代理(Hub Agent)3種,其應用功能可運行對應模塊和使用外掛程序實現(xiàn)。采集控制代理使用的“模塊+插件”混合擴展技術,將采控與監(jiān)管代理數(shù)據(jù)和任務控制腳本,通過代理接入網(wǎng)關統(tǒng)一調度,不論監(jiān)控對象增多還是減少,采控代理都可按需擴展或者裁減。
(2)第三方運維工具集成應用開發(fā)需要的適配器框架和輔助腳本,并將運行維護數(shù)據(jù)進行標準化。為降低減低采控難度,對市面上SNMP(簡單網(wǎng)絡管理,Simple Network Management Protocol)、SSH(安全外殼,Secure Shell)、Telnet(遠程登錄服務)、IPMI(智能平臺管理接口,Intelligent Platform Management Interface)、SMI-S(存儲管理接口,Storage Management Initiative specification)、JDBC(Java數(shù)據(jù)庫連接,Java Database Connectivity)、JMX(Java虛擬機管理擴展,Java Management Extensions)、WMI(Windows系統(tǒng)數(shù)據(jù)庫管理,Windows Management Instrumentation)、HTTP(超文本傳輸,Hyper Text Transfer Protocol)等主流監(jiān)控協(xié)議,全部進行了適配和支持。
(3)模塊和插件是兩種不同類型的擴展手段,模塊由配置文件和常駐程序代碼構成,其運行生命周期由模塊自主控制,主要應對復雜的集成對接和被動注冊偵聽等采控場景。插件由配置文件和腳本代碼構成,其運行生命周期由采控代理托管控制,主要應對配置采集、自定義指標采集、無人干預巡檢等采控場景。為實現(xiàn)符合在線腳本快速編輯和開發(fā)的能力,分別對Python(多計算機平臺編程)、Groovy(Java虛擬機編程)、Shell(Linux系統(tǒng)編程)、Bat(Windows系統(tǒng)批處理編程)、PowerShell(Windows系統(tǒng)外殼程序編程)腳本語言進行了支持。
3.3.2 數(shù)據(jù)平臺
運維數(shù)據(jù)庫存放多種不同類型監(jiān)控數(shù)據(jù),對數(shù)據(jù)庫的讀寫性能、查詢效率、整合時效、數(shù)據(jù)分析等要求非常高。此外,數(shù)據(jù)庫資源池還需要對數(shù)據(jù)關聯(lián)分析提供高可用的訪問支持[3]。首先,整合多個異源結構的運維數(shù)據(jù),對數(shù)據(jù)進行校驗、糾正、過濾,通過聯(lián)合預處理加工實現(xiàn)數(shù)據(jù)標準化。其次,建立運維數(shù)據(jù)模型準則,將Counter(計數(shù)器)、Gauge(儀表盤)、Histogram(直方圖)、Summary(摘要)模型采樣分塊存放。最后,整治雜亂無章的信息資源,實現(xiàn)運維數(shù)據(jù)從產(chǎn)生到消逝的全過程管理。
3.3.3 業(yè)務平臺
完善運維應用程序編程接口和微服務自我監(jiān)控,規(guī)避重復性建設,讓上層應用可以更好地聚焦具體業(yè)務。同時,將運維過程的治理、數(shù)據(jù)的上報、故障的判別、信息的展示等功能組件化。
3.3.4 開發(fā)平臺
開發(fā)平臺可以提供多種編譯語言,降低了運維開發(fā)難度,構建起簡單易懂的運維應用生態(tài)。每個監(jiān)控服務都可以獨立進行開發(fā)、測試、部署、發(fā)布,高拓展性可以讓其隨著運維場景的變化而變化,便于后期智慧運維平臺的維護與升級。
3.4 運維應用生態(tài)
Eco-Ops是一種敞開共享式的生態(tài)化運維模式,其中心思想是促進面向服務對象發(fā)展,助力企業(yè)維護能力數(shù)字化轉型,將自身與運維生態(tài)圈相互連通,打造運維與生產(chǎn)相融合的理念。通過共享知識經(jīng)驗和工作人員的實踐經(jīng)驗,實現(xiàn)運維生態(tài)圈的可持續(xù)發(fā)展。
3.5 運維管理門戶
運維管理門戶采用軟件定義的微服務技術架構,實現(xiàn)運維數(shù)據(jù)分析、自動生成報表、運維數(shù)據(jù)圖像大屏展示功能的組件模塊,可以根據(jù)不同的運維場景靈活組合組件模塊。
4 運維數(shù)據(jù)需求及指標體系
4.1 運維數(shù)據(jù)采集
在鐵路局不斷擴建云計算系統(tǒng)的環(huán)境下,數(shù)據(jù)中心運維監(jiān)控對象越來越復雜。采集的對象分軟件和硬件兩大類,硬件包括運算處理、文件存放、網(wǎng)絡交換、信息安全保障和控制機房環(huán)境等設備;軟件包括核心運算、資源管理、數(shù)據(jù)篩選、操作記錄、基礎服務等程序。從上述采集對象看,可通過以下指標體系,全方位監(jiān)控數(shù)據(jù)中心的運行狀態(tài)。運維人員可以利用這些數(shù)據(jù)在不同維度了解對象資源使用和健康優(yōu)劣情況,輔助分析應用系統(tǒng)是否需要升級或擴容[4]。
(1)硬件數(shù)據(jù):包含運算處理、文件存放、網(wǎng)絡交換、信息安全和機房環(huán)境設備的CPU使用率、內存使用量、硬盤使用量、系統(tǒng)運行記錄、告警記錄、登錄配置信息、端口狀態(tài)、指示燈狀態(tài)數(shù)據(jù);還有空氣溫、濕度值及電源電壓電流值、視頻監(jiān)控錄像、七氟丙烷滅火壓力值、紅外入侵檢測數(shù)據(jù)。
(2)軟件數(shù)據(jù):包含物理機操作系統(tǒng)、虛擬機操作系統(tǒng)、虛擬化平臺、數(shù)據(jù)庫、基礎服務程序運行狀態(tài)及記錄數(shù)據(jù);還有應用代碼運行狀態(tài)、服務響應時間、整體運算性能、事件告警記錄、代碼的請求數(shù)、應答數(shù)、進程流量、特殊事件數(shù)據(jù)。
4.2 運維數(shù)據(jù)分類
根據(jù)對每一種監(jiān)控對象采集動作進行抽象分類,從而實現(xiàn)機房設施、計算設備、系統(tǒng)軟件、應用代碼的集中管理。軟件、硬件數(shù)據(jù)又可以細分為監(jiān)測數(shù)據(jù)、記錄數(shù)據(jù)、事件數(shù)據(jù)、配置數(shù)據(jù)。
(1)監(jiān)測數(shù)據(jù):各監(jiān)測對象運行過程中產(chǎn)生的時序指標數(shù)據(jù)積累速度很快,主要反映設備和業(yè)務系統(tǒng)運行狀態(tài)的指標值差異,包括中央處理器使用值、內部存儲器使用值、外部存儲器使用值、網(wǎng)絡帶寬占用值、服務進程響應值,此類指標數(shù)據(jù)必須采用相同的統(tǒng)計模式,保證其具有同類可比性,便于后臺系統(tǒng)提高分析精確度。
(2)記錄數(shù)據(jù):記載著信息系統(tǒng)每天運轉中的記事類型信息,每一條記錄數(shù)據(jù)都包含4個因素(人物、時間、地點、事件),方便對記事類型數(shù)據(jù)進行審查,能看出哪個人使用,哪年哪月哪日哪時哪分哪秒使用,使用了哪些設備,在設備上做了哪些操作。此外,通過匹配記錄數(shù)據(jù)中的關鍵字符,可以對核查的關鍵信息進行抽取。
(3)事件數(shù)據(jù):由監(jiān)測數(shù)據(jù)或記錄數(shù)據(jù)在特定條件下產(chǎn)生的特殊數(shù)據(jù),事件數(shù)據(jù)記載有特定事件發(fā)生時的相關信息,如一般、反常、告警、任務調度事件信息。
(4)配置數(shù)據(jù):包含監(jiān)控對象自身屬性和配置屬性,記載監(jiān)控對象之間的相關信息,在監(jiān)控對象的屬性和相關性發(fā)生變動時,其數(shù)據(jù)也隨之發(fā)生變動。
4.3 運維指標體系
(1)基于上述采集的運維指標數(shù)據(jù)規(guī)劃,可以設計構建鐵路局數(shù)據(jù)中心運維管理指標體系(見表1)。
表1 運維管理指標體系
[指標數(shù)據(jù)分類 指標數(shù)據(jù)監(jiān)控項 運維管理指標數(shù)據(jù) 服務請求數(shù)據(jù)、變更請求數(shù)據(jù)、事件記錄數(shù)據(jù)、工單記錄數(shù)據(jù)、問題故障數(shù)據(jù)、應急響應數(shù)據(jù) 運營管理指標數(shù)據(jù) 分布式計算用戶數(shù)據(jù)、用戶體驗指標數(shù)據(jù)、數(shù)據(jù)中心運營指標數(shù)據(jù) 監(jiān)測指標數(shù)據(jù) 機房環(huán)境設備監(jiān)控數(shù)據(jù)、主機資源監(jiān)控數(shù)據(jù)、數(shù)據(jù)磁盤柜監(jiān)控數(shù)據(jù)、網(wǎng)絡設備監(jiān)控數(shù)據(jù)、安全設備監(jiān)控數(shù)據(jù)、計算機基礎系統(tǒng)監(jiān)控數(shù)據(jù)、數(shù)據(jù)讀取監(jiān)控數(shù)據(jù)、組件和應用連接程序監(jiān)控數(shù)據(jù)、性能監(jiān)控數(shù)據(jù)、網(wǎng)頁監(jiān)控數(shù)據(jù)、雙機監(jiān)控數(shù)據(jù)、堆疊監(jiān)控數(shù)據(jù)、網(wǎng)絡可編譯監(jiān)控數(shù)據(jù)、心跳同步監(jiān)控數(shù)據(jù) 告警指標數(shù)據(jù) 設備告警數(shù)據(jù)、虛擬化告警數(shù)據(jù)、應用告警數(shù)據(jù)、網(wǎng)絡告警數(shù)據(jù) 記錄指標數(shù)據(jù) 機房環(huán)境設備運行記錄數(shù)據(jù)、計算機運行記錄數(shù)據(jù)、數(shù)據(jù)磁盤柜運行記錄數(shù)據(jù)、網(wǎng)絡設備運行記錄數(shù)據(jù)、安全設備運行記錄數(shù)、計算機基礎系統(tǒng)運行記錄數(shù)據(jù)、數(shù)據(jù)存放庫運行記錄數(shù)據(jù)、組件和應用連接程序運行記錄數(shù)據(jù)、備份系統(tǒng)運行記錄數(shù)據(jù)、分布式計算運行記錄數(shù)據(jù)、業(yè)務應用系統(tǒng)運行記錄數(shù)據(jù) 配置指標數(shù)據(jù) 設備基本信息、主機配置數(shù)據(jù)、存儲配置數(shù)據(jù)、網(wǎng)絡配置數(shù)據(jù)、板卡配置數(shù)據(jù)、陣列配置數(shù)據(jù)、LUN(邏輯單元號)配置數(shù)據(jù)、ZONE(存儲網(wǎng)絡邏輯隔離區(qū)域)配置數(shù)據(jù)、網(wǎng)絡可編譯配置數(shù)據(jù)、雙機配置數(shù)據(jù)、堆疊配置數(shù)據(jù)、網(wǎng)絡地址配置數(shù)據(jù)、防火墻策略配置數(shù)據(jù)、入侵檢測配置數(shù)據(jù)、分布式計算配置數(shù)據(jù)、用戶資源配置數(shù)據(jù)、應用系統(tǒng)基礎配置數(shù)據(jù) 操作指標數(shù)據(jù) 機房環(huán)境設備操作數(shù)據(jù)、主機操作數(shù)據(jù)、存儲操作數(shù)據(jù)、網(wǎng)絡操作數(shù)據(jù)、安全設備操作數(shù)據(jù)、操作系統(tǒng)操作數(shù)據(jù)、批處理操作數(shù)據(jù)、應用系統(tǒng)操作數(shù)據(jù) ]
(2)鐵路局數(shù)據(jù)中心監(jiān)控對象資源種類很多,需要根據(jù)資源的分類變化,定義配置指標的數(shù)據(jù)模型。監(jiān)測指標數(shù)值、記錄指標數(shù)值、事件指標數(shù)值可以使用相對固定的數(shù)據(jù)模型,分別是指標模型、記錄模型、告警模型、事件模型、配置模型(見表2)。
表2 運維指標數(shù)據(jù)模型
[數(shù)據(jù)模型名稱 數(shù)據(jù)模型定義 指標模型 指標名稱、指標類型、指標取值、資源序號、采集時間、寫入時間 記錄模型 記錄名稱、記錄來源、記錄內容、記錄路徑、記錄級別、記錄容量、記錄時間、資源名稱、采集序號、資源序號 告警模型 告警來源、告警級別、告警次數(shù)、告警描述、首發(fā)時間、尾發(fā)時間、持續(xù)時間、處理狀態(tài) 事件模型 事件名稱、事件描述、事件類型、事件級別、對象名稱、創(chuàng)建時間、結束時間 配置模型 資源名稱、資源種類、配置名稱、配置描述、配置模板 ]
5 智慧運維應用場景
5.1 智慧異常檢測
基于AIOps異常檢測算法模塊,通過分析KPI(關鍵性能指標,Key Performance Indicators)曲線的狀態(tài),判斷各監(jiān)控指標數(shù)據(jù)是否發(fā)生失常。在異常檢測算法模塊的設計中,選用BP(神經(jīng)網(wǎng)絡,Back Propagation)作為KPI非正常檢測的基本模型,并采用靜態(tài)閾值檢測、動態(tài)閾值檢測、周期性能分析技術,對異常檢測算法進行改進與調優(yōu)。融合有人工智能代碼的動態(tài)閾值檢測,加入運維指標數(shù)據(jù)的周期性變化、歷史趨勢變化、波動幅度變化規(guī)律,通過指標數(shù)據(jù)變化形勢進行數(shù)字建模,數(shù)據(jù)經(jīng)過處理后傳入機器學習算法中,生成異常指標分類器,并計算得到合理指標的取值范圍。
該設計運用的AI(人工智能,Artificial Intelligence)機器學習算法,可實現(xiàn)無閾值KPI波形非正常甄別檢測,具體包括以下3種方式。
(1)LSTM(長短期記憶,Long Short-Term Memory)時間軸往復循環(huán)算法,具有最優(yōu)的分析計算精度,檢查測算系統(tǒng)的訪問量和時延量為最小,無論高低波動多大的信號圖形,都可以精準識別記錄;但是,對于起伏波動小、變化緩慢的信號圖形,則很難識別出來,檢測效果如圖3所示。
圖3 LSTM檢測效果
(2)K-means(K均值聚類,K-Means Clustering Algorithm)平均取值聚合類別算法,是一種多變量統(tǒng)計不斷往復計算找到答案的方法。通過使用特征查找檢測,彌補LSTM算法的不足,在訪問量時間變化緩慢的場景中,有很好的檢測效果,檢測效果如圖4所示。
圖4 K-means檢測效果
(3)隨機事件或概率密度檢測,是通過以往記錄的規(guī)律進行計算,以此得出業(yè)務成功和系統(tǒng)成功的概率。在成功概率檢測曲線中潛藏非常多個取值,必須取一個與系統(tǒng)宕機最相近的值,用于描述異常情況的影響程度,檢測效果如圖5所示。
圖5 概率密度檢測效果
5.2 智慧故障分析
采用傳統(tǒng)運維方式處理故障時,需要運維人員登錄多臺設備,對各項指標逐一進行檢查,通常只能依靠個人經(jīng)驗進行故障判斷,整個排查和處理過程耗時費力,嚴重影響系統(tǒng)恢復正常的時效。如果長時間系統(tǒng)未恢復正常,或是處理過程中有誤操作,則會引發(fā)鐵路安全生產(chǎn)事故。
如今,通過智慧運行維護平臺中“業(yè)務平臺”模塊,可以對所有的運維監(jiān)控數(shù)據(jù)進行關聯(lián)分析,然后在知識庫中對比故障診斷信息,自動找出故障的原因及智能化地提供處理辦法。幫助運維人員在用最短的時間內解決問題,增強基層運維能力。
5.3 智慧運維輔助決策
時間序列預測是一種模擬推演功能,可以統(tǒng)計和預測云數(shù)據(jù)中心設備資源的使用情況,便于運維人員全面掌控各種資源的趨勢變化,第一時間對系統(tǒng)資源進行調優(yōu),避免系統(tǒng)計算壓力過大。此外,根據(jù)系統(tǒng)資源使用周期消耗情況,還能提前做好資源冗余預案,避免在新上業(yè)務的時候,出現(xiàn)應用系統(tǒng)中斷的情況。
6 結語
本文提出一種適合鐵路部門云計算中心發(fā)展的智慧運維一體化平臺建設方案,通過全自動腳本進行運維數(shù)據(jù)采集,運用機器算法替換人工做判斷,可以降低對運維人員專業(yè)技術能力的要求,為鐵路數(shù)字化運維提質增效。依照運維指標體系采集的基礎運行數(shù)據(jù),雖然可以為業(yè)務系統(tǒng)運轉提供保障,但是還需深化研究配置管理表單優(yōu)化技術,縮小運維平臺CMDB(配置管理數(shù)據(jù)庫,Configuration Management Database)數(shù)據(jù)庫的體量,為后期挖掘數(shù)據(jù)價值做鋪墊。
7 參考文獻
[1]施衛(wèi)忠.鐵路數(shù)據(jù)中心建設與規(guī)劃研究[J].中國鐵路,2021(1):1-7.
[2]張伯駒,周亮瑾.數(shù)字化轉型驅動下的鐵路信息系統(tǒng)運維研究[J].鐵路計算機應用,2021,30(12):1-4.
[3]鐘煜明.大數(shù)據(jù)場景下的云計算性能研究[J].網(wǎng)絡安全技術與應用,2022(1):63-64.
[4]樂建煒,潘紅芹,胡小寧,等.基于工業(yè)物聯(lián)網(wǎng)架構的鐵路數(shù)據(jù)中心智能巡檢系統(tǒng)[J].鐵路計算機應用.2021,30(12):63-69.
[5]黃偉.基于機器學習的AIOps技術研究[D].北京:北京交通大學,2019:13-14.
[6]楊立苑,胡佳軍,鄧衛(wèi)華,等.基于Zabbix的省級氣象云監(jiān)控運維系統(tǒng)[J].計算機系統(tǒng)應用,2021,30(8):73-80.
企業(yè)科技與發(fā)展2023年1期