摘要:隨著石油行業(yè)數(shù)字化轉(zhuǎn)型進程加快,數(shù)據(jù)中心作為支撐企業(yè)數(shù)字化運營的核心,IT基礎設施的高效運維管理也日益重要,但是目前數(shù)據(jù)中心運維面臨設備多樣、管理平臺分散、故障發(fā)現(xiàn)滯后、人工巡檢低效等諸多問題。本文提出了一種資產(chǎn)登記、監(jiān)控、預警、決策一體化的智能運維技術方案,提升了數(shù)據(jù)中心的智能化運維水平和安全管控能力。通過構建智能運維平臺,實現(xiàn)了IT資產(chǎn)的統(tǒng)一管理、集中監(jiān)控、故障預警和智能決策支持,顯著提高了運維效率,降低了安全風險,為石油勘探開發(fā)業(yè)務的平穩(wěn)運行和數(shù)字化轉(zhuǎn)型提供了堅實的基礎,為企業(yè)新質(zhì)生產(chǎn)力發(fā)展提供了強有力支撐。
關鍵詞:數(shù)據(jù)中心;集中監(jiān)控;智能運維;大模型;機器人
doi:10.3969/J.ISSN.1672-7274.2025.03.032
中圖分類號:TP 18;TP 3 " " " " "文獻標志碼:A " " " " " "文章編碼:1672-7274(2025)03-00-03
Exploration and Application of Intelligent Operation and Maintenance Technology in Data Centers
ZENG Xiaoming , LI Wei, WANG Jiangying, LONG Huanchao, CHEN Xiao
(Zhangjiang Branch of CNOOC Ltd., Zhanjiang 524057, China)
Abstract: As the digital transformation process in the petroleum industry accelerates, Data center serves as the core support for enterprise digital operation, have increasingly emphasized the importance of efficient IT infrastructure operation and maintenance management. However, data center operation and maintenance currently face many challenges, such as diverse equipment, fragmented management platforms, delayed fault detection, and inefficient manual inspections. This paper proposes an integrated intelligent operation and maintenance technology solution involving asset registration, monitoring, early warning, and decision-making, which enhances the intelligent operation and maintenance level and security control capabilities of data centers. By building an intelligent operation and maintenance platform, the solution achieves unified management of IT assets, centralized monitoring, fault early warning, and intelligent decision support. This significantly improves operation and maintenance efficiency, reduces security risks, and provides a solid foundation for the smooth operation and digital transformation of petroleum exploration and development businesses. It also offers strong support for the development of new productive forces in enterprises.
Keywords: data center; centralized monitoring; intelligent operation and maintenance; large models; robots
石油行業(yè)作為高技術、高投入和高風險的行業(yè),正面臨著勘探開發(fā)難度加大、成本上升和環(huán)境壓力增加等多重挑戰(zhàn)。在人工智能和新質(zhì)生產(chǎn)力的飛速發(fā)展背景下,亟須通過數(shù)字化轉(zhuǎn)型和智能化發(fā)展實現(xiàn)降本增效和高質(zhì)量發(fā)展。石油在勘探開發(fā)和生產(chǎn)過程中,產(chǎn)生了大量的基礎資料和研究數(shù)據(jù),這些海量數(shù)據(jù)的存儲、管理、處理、分析和應用都離不開數(shù)據(jù)中心。石油行業(yè)數(shù)據(jù)量巨大,需要高算力7×24小時支持,因此,數(shù)據(jù)中心的管理和安全保障對于業(yè)務的連續(xù)性至關重要。但是,目前石油行業(yè)大部分數(shù)據(jù)中心普遍沒有采用大模型技術,僅能提供簡單的監(jiān)控和告警,沒有對數(shù)據(jù)進行深度挖掘應用,形成一體化解決方案[1-2]。數(shù)據(jù)中心通過采用先進的監(jiān)控技術、預警和決策支持工具,能夠?qū)崿F(xiàn)對IT基礎設施進行實時監(jiān)控和預警,不僅可提高故障發(fā)現(xiàn)和響應速度,還可增強對潛在安全威脅的預防能力。同時通過對歷史數(shù)據(jù)進行機器學習,能夠為數(shù)據(jù)中心設備提供深入的了解和洞察,為石油行業(yè)的提質(zhì)增效和創(chuàng)新發(fā)展中扮演更加關鍵的角色[3]。
1 " 數(shù)據(jù)中心現(xiàn)狀
數(shù)據(jù)中心是石油企業(yè)的核心基礎設施,里面包括了服務器、存儲、交換機、防火墻等IT設備設施。隨著數(shù)據(jù)中心規(guī)模的擴大與業(yè)務承載量大幅度的增加,傳統(tǒng)的運維管理方式已不能滿足數(shù)據(jù)中心高可用性和風險管控需求,表現(xiàn)在如下方面。
(1)資產(chǎn)管理方面,企業(yè)的IT資產(chǎn)類型較多,設備品牌多樣,如服務器具有浪潮、華為和戴爾等多種品牌,并且部分IT資產(chǎn)采用線下管理,設備的出庫、維修、歸還和報廢等管理較混亂,沒有統(tǒng)一精細化管理,未進行全生命周期線上管理。各類IT設備資產(chǎn)數(shù)據(jù)分散在不同的平臺中,數(shù)據(jù)查找和統(tǒng)計困難低效。
(2)安全管控能力方面,數(shù)據(jù)中心的環(huán)境安全主要依靠人工巡檢,安全問題發(fā)現(xiàn)滯后、效率低。運維人員在查看IT設備運行狀態(tài)時,需要登錄不同的設備管理平臺查看設備運行參數(shù),基本是一設備一平臺,運維工作量大,沒有做到集中監(jiān)控,問題發(fā)現(xiàn)比較滯后,處置響應效率低,很多時候都是用戶比運維人員先發(fā)現(xiàn)問題,造成用戶體驗差,甚至影響科研生產(chǎn)工作。
(3)運維效率方面,數(shù)據(jù)備份和服務啟停等日常運維工作的自動化水平不高,缺乏自動化的運維手段。在數(shù)據(jù)中心的運行過程中,機房管理無論是環(huán)境監(jiān)測還是變配電系統(tǒng)監(jiān)測,還停留在對數(shù)據(jù)和信息的推送以及歷史數(shù)據(jù)的查看與分析上,未實現(xiàn)智能化的運維管理,也缺乏自動化的管理流程。由于機房里面的物理硬件設備種類較多,而且包含著海量的數(shù)據(jù)資產(chǎn),還需要運維人員不斷對數(shù)據(jù)錄入,缺乏自動化的管控手段,工作量較大,效率低,需要較多人力資源投入。
(4)知識管理方面,現(xiàn)在各種資料文檔和知識分散在不同員工的計算機里,沒有統(tǒng)一的管理平臺,而且不同的系統(tǒng)由不同的人負責,在出現(xiàn)突發(fā)事故時需要找不同的人進行資料的查找,故障的判斷排查困難。同時數(shù)據(jù)中心運維人員存在頻繁更換問題,新來的運維人員并不能快速了解數(shù)據(jù)中心以前的運維記錄,對于歷史故障的查詢緩慢。因此,在數(shù)據(jù)中心的運維管理中,需要及時建立知識庫,滿足對歷史故障的查詢,做好相應的記錄,為后續(xù)故障排除提供支持。
各種業(yè)務應用場景以及設備多樣性、系統(tǒng)復雜性、故障定位精準性、問題處理時效性、數(shù)據(jù)統(tǒng)計概括性、預判前瞻性、分析智能化等,都將對數(shù)據(jù)中心運維提出更高的要求。數(shù)據(jù)中心運維管理需要逐步從碎片化、孤島化、人工化的傳統(tǒng)管理模式,向系統(tǒng)化、標準化、自動化、智能化的統(tǒng)一運維管理平臺轉(zhuǎn)變。
2 " 平臺架構設計
智能運維平臺總體架構設計分為四層,一是數(shù)據(jù)采集層:對IT資產(chǎn)進行登記,開展全生命周期管理,包括了資產(chǎn)的出入庫、變更、維修、保養(yǎng)和報廢等流程;二是數(shù)據(jù)接入層:采用通用的SNMP和Syslog等方式對設備的運行參數(shù)、告警數(shù)據(jù)和日志數(shù)據(jù)進行自動化采集,并將其存儲在國產(chǎn)人大金產(chǎn)數(shù)據(jù)庫中;三是數(shù)據(jù)分析層:對采集的設備數(shù)據(jù),按照業(yè)務需求自動生成報表并將進行統(tǒng)計分析,采用神經(jīng)網(wǎng)絡等人工智能算法進行數(shù)據(jù)挖掘;四是應用層:實現(xiàn)數(shù)據(jù)中心環(huán)境安全監(jiān)控、設備動態(tài)監(jiān)控、故障預警、統(tǒng)計報表等[4]。
3 " 智能化運維
3.1 資產(chǎn)統(tǒng)一管理
數(shù)據(jù)中心IT資產(chǎn)的統(tǒng)一集中管理是智能運維的基礎,運維工作都是圍繞IT資產(chǎn)對象開展的,如巡檢、維修和監(jiān)控等。通過建立統(tǒng)一的管理平臺,企業(yè)可以實現(xiàn)信息資產(chǎn)的集中存儲、管理和分析,為業(yè)務決策提供數(shù)據(jù)支持,推動業(yè)務創(chuàng)新發(fā)展。數(shù)據(jù)中心IT資產(chǎn)全生命周期管理包括購置、上架、維修、保養(yǎng)、報廢等流程,設備生命歷程每一步都有記錄,可追溯,以提升合規(guī)化和標準化管理水平。通過IT資產(chǎn)統(tǒng)一集中管理,可以從全局的視角掌握所有資產(chǎn)的狀態(tài)和使用情況,能夠更加精準地進行資源配置和規(guī)劃,避免資源浪費和低效使用問題。
3.2 設備集中監(jiān)控
3.2.1 可視化建模
通過將數(shù)據(jù)中心框架以及內(nèi)部設備設施以三維立體的方式呈現(xiàn)出來,可以幫助運維人員更直觀地掌握數(shù)據(jù)中心的運行狀況,快速發(fā)現(xiàn)和解決問題,從而提高數(shù)據(jù)中心的可靠性和安全性。按照數(shù)據(jù)中心實際比例進行3D建模,粒度到機柜U級,同時以不同顏色實時展現(xiàn)報警數(shù)據(jù)。平臺可以機柜為單位進行數(shù)據(jù)中心容量管理,形象展示機房和機柜的空間容量整體使用情況,幫助運維人員高效管理機房的容量資源,讓機房資源的負荷更加均衡,提升資源使用效率。平臺提供資產(chǎn)關鍵字和負責人搜索功能,能夠快速定位設備的物理空間位置,準確顯示設備所處的位置與信息,同時可查看設備運行狀況并展示相關信息。
3.2.2 運行狀態(tài)監(jiān)控
通過對數(shù)據(jù)中心的IT基礎設施(服務器、存儲、網(wǎng)絡設備和安全設備等)、動環(huán)設備(動力和環(huán)境設備)和安防設備(攝像頭、煙感、水浸和門禁設備)進行動態(tài)數(shù)據(jù)采集、處理和實時監(jiān)測,可對設備運行異常(故障、過載和過溫等現(xiàn)象)進行實時預警告警,并提供設備觀測視角調(diào)整、設備顯隱控制等多種交互支持,實現(xiàn)集中統(tǒng)一監(jiān)控。通過共享設備間信息資源,以及設備的全方位監(jiān)控覆蓋,不同管理者可快速獲取所需的相關信息,將運維人員工作中所關注設備的數(shù)據(jù)信息以圖形化方式展示,清晰明了,可查看具體設備的型號參數(shù)、運行狀態(tài)、數(shù)據(jù)鏈路,如數(shù)據(jù)中心的溫度、濕度和煙感等信息[5]。
3.2.3 網(wǎng)絡監(jiān)控
通過網(wǎng)絡拓撲圖或鏈路圖的方式,對數(shù)據(jù)中心的網(wǎng)絡狀態(tài)、數(shù)據(jù)傳輸情況和告警事件等信息進行直觀呈現(xiàn),同時結合多維度數(shù)據(jù)分析看板,可對數(shù)據(jù)中心數(shù)據(jù)鏈路流量、網(wǎng)絡性能和告警統(tǒng)計等數(shù)據(jù)進行多維度監(jiān)測分析,輔助網(wǎng)絡管理人員實時掌控跨地域數(shù)據(jù)中心運行情況,快速識別異常情況。
3.3 智能化統(tǒng)計
(1)統(tǒng)計分析,提供IT資產(chǎn)的查詢、統(tǒng)計報表、自動生成使用情況報告。系統(tǒng)可按管理需求進行多種維度資產(chǎn)統(tǒng)計,如按品牌統(tǒng)計、按部門統(tǒng)計等方式生成報表,改變了以往手動統(tǒng)計困難和低效的模式。同時,運維人員可以根據(jù)不同的關注點和時間段,將所關注的各種類型的資源項以及指標項靈活添加至報表內(nèi)容中。系統(tǒng)支持當日性能分析、指定時段分析,方便運維人員很直觀地查看當前運行情況。
(2)智能巡檢,自動生成巡檢報告。智能巡檢可根據(jù)日常的巡檢內(nèi)容進行個性化設置,在指定時間點對核心關注內(nèi)容進行掃描記錄。根據(jù)預設的要求進行數(shù)據(jù)采集,以設備運行的規(guī)范標準值為依據(jù),分析判斷設備運行狀態(tài)是否正常;進行定期巡檢,對系統(tǒng)監(jiān)控巡查的整體進行評價和備注說明,以報表的形式直觀反映巡檢結果。解決了傳統(tǒng)的紙張巡檢簽到、巡檢信息不全、巡檢報表亂寫等問題。運維人員可綜合利用設備狀態(tài)、運行性能、使用情況,制定優(yōu)化資產(chǎn)調(diào)配策略。
3.4 智能運維機器人
3.4.1 智能問答
運維過程中會積累大量的經(jīng)驗與知識,可為后續(xù)故障處理提供支持。同時企業(yè)擁有海量的文檔資源,包括運維文檔、應急手冊、產(chǎn)品手冊、排障手冊、維修記錄和管理制度等,這些文檔通常以PDF、Word、PPT等格式存在,但是利用率和共享率低,存在巨大挖掘價值和空間。通過采用大模型+LangChain技術構建通用+分公司專屬知識雙基座大模型問答系統(tǒng),根據(jù)文檔中的內(nèi)容和知識進行統(tǒng)一的大模型訓練,采用推理功能挖掘運維數(shù)據(jù)中的潛在知識,進而實現(xiàn)快速精準的問答交互。
通過IT設備、軟件、網(wǎng)絡等的日志和告警信息,結合常見的、重點的故障場景,構建故障預警知識圖譜;通過將故障案例和標準規(guī)范等資料構建運維專家知識庫,面對新的運維場景,采用自然語言生成技術,將知識庫內(nèi)容轉(zhuǎn)化為有效的解決方案,提升運維效率。
3.4.2 自動執(zhí)行
傳統(tǒng)的Linux系統(tǒng)運維通常需要依靠命令行來操作,對運維人員的技能水平要求較高,需要運維人員熟練掌握復雜的Linux命令才能完成,并且工作流程煩瑣,容易出錯。基于大模型智能體Agent技術,能對運維人員輸入的命令進行思考和規(guī)劃,然后調(diào)用相應的工具執(zhí)行、評估運行結果,最終將重復性、規(guī)律性和周期性的大量日常運維工作轉(zhuǎn)化為自動化執(zhí)行,實現(xiàn)運維工作在統(tǒng)一的智能運維平臺一鍵式處理,極大地提升了運維效率。
4 " 結束語
數(shù)據(jù)中心智能運維管理平臺為運維人員提供了智能運維手段,可對數(shù)據(jù)中心環(huán)境安全狀況和軟硬件運行狀態(tài)進行統(tǒng)一監(jiān)控,智能推薦故障解決方案,為整個數(shù)據(jù)中心的平穩(wěn)運行提供保障。同時平臺提升了數(shù)據(jù)中心基礎設施安全管控能力和運維效率,為企業(yè)新質(zhì)生產(chǎn)力發(fā)展提供了強有力支撐。
參考文獻
[1] 郭東旭.數(shù)據(jù)中心智能運維系統(tǒng)的研究[J].電子技術與軟件工程,
2023(06):255-258.
[2] 胡修晶.中國石油吉林數(shù)據(jù)中心監(jiān)控系統(tǒng)方案設計[D].長春:吉林大學,
2013.
[3] 陳應虎,艾傳鮮,丁福江.基于Zabbix和Ansible技術的數(shù)據(jù)中心智能化運維管理平臺[J].電子技術與軟件工程,2022(23):248-254.
[4] 張來斌,王金江.工業(yè)互聯(lián)網(wǎng)賦能的油氣儲運設備智能運維技術[J].油氣儲運,2022,41(06):625-631.
[5] 陳國慶,劉文君,許斌,等.視頻監(jiān)控在油田智能運維中的作用[J].中國管理信息化,2021,24(06):95-96.