
摘要:傳統的IT運維工作是以技術和經驗為基礎、依靠職能部門推動的被動式運維。面對不斷演進的信息技術和愈發復雜多樣的IT基礎設施,傳統IT運維的粗放管理模式已難以滿足全面推動數字化轉型的要求。針對上述問題,研究出了一種改進傳統IT運維方式的綜合運維管控平臺。首先,利用Agent采控代理采集服務器的CPU、內存、磁盤使用率等性能數據與網絡設備的日志數據;其次,通過Kafka、Spark、MongoDB等將數據進行處理和存儲;最后,通過ElasticSearch、Kibana等進行分析和展示,從而實現IT資源的集中監測與告警。
關鍵詞:IT運維"網絡日志"資源監測"采控代理"集中告警
Research"and"on"Application"of"IT"Integrated"Operation"and"Maintenance"Control"Platform
CHEN"Zhirong"LI"Sicheng"LI"Zheyu*
Hongyun"Honghe"Tobacco"(Group)"Co.,"Ltd."Honghe"Cigarette"Factory,"MileHonghe"Hani"and"Yi"Autonomous"Prefecture,"Yun’nan"Province,"652300"China
Abstract:"Traditional"IT"operations"and"maintenance"work"is"based"on"technology"and"experience,"relying"on"passive"operation"and"maintenance"driven"by"functional"departments."Faced"with"the"constantly"evolving"information"technology"and"increasingly"complex"and"diverse"IT"infrastructure,"the"traditional"extensive"management"mode"of"traditional"IT"operation"and"maintenance"is"no"longer"able"to"meet"the"requirements"of"comprehensively"promoting"digital"transformation."A"comprehensive"operation"and"maintenance"control"platform"has"been"developed"to"improve"traditional"IT"operation"and"maintenance"methods"in"response"to"the"above"issues."Firstly,"the"AAgent"procurement"and"control"agency"is"used"to"collect"performance"data"such"as"CPU,"memory,"and"disk"usage"from"servers,"as"well"as"log"data"from"network"devices;."Secondly,Then,"the"data"is"processed"and"stored"using"Kafka,"Spark,"MongoDB,"etc."Finally,"it"is"analyzed"and"displayed"using"ElasticSearch,"Kibana,"etc.,"to"achieve"centralized"monitoring"and"alerting"of"IT"resources.
Key"Wwords:"IT"operations"and"maintenance;"Network"logs;"Resource"monitoring;"Procurement"and"control"agency;"Centralized"alarm
隨著數字化轉型工作的不斷推進,服務器、網絡安全設備、應用系統、數據庫等IT資源越來越多,有效支撐著工廠信息化應用的同時,也給工廠日常運維、網絡安全、資源監測、故障診斷等帶來了巨大挑戰。如何保障好工廠IT基礎設施正常運行成為了一項至關重要的任務。
1""IT綜合運維管控平臺設計目標
綜合的IT運維管理需要融合業務、管理和技術,實現IT運維的可視化、服務流程化,推動IT運維管理水平向系統、全面、綜合的主動運維模式轉變。IT綜合運維管控平臺主要實現以下目標。
(1)建立以業務為主線,覆蓋所有IT基礎設施的集中監測與告警平臺,實現服務器、網絡、安全設備、數據庫等IT資源的大規模云監控、分析與集中告警,提升IT運維預防、應急、處置的能力[1],提高IT基礎設施的穩定性、可靠性和安全性。
(2)建立以流量監測、預警分析為目的的網絡安全監控平臺,通過流量捕獲、分析,以及對主機、中間件、網絡與安全設備日志的分析,實現對主機、網絡與安全設備的安全監控,提高工廠網絡的安全管理水平和能力。
(3)建立以工單驅動的IT運維服務管理,實現資源申請、運維請求、運維巡檢的全過程管理,構建以問題/請求發起為起點,產生分析/審批環節、處置/操作記錄,最終形成經驗庫的閉環運維服務管理,并通過計劃-執行-檢查-行動(Plan-Do-Check-Act,PDCA)管理改進運維服務質量,提高運維能力,提升信息安全管控水平[2]。
2""IT綜合運維管控平臺設計方案
本項目利用開源技術體系,通過一系列組件搭建平臺架構,以實現工廠IT資源監測、網絡安全監控和運維服務管理。
2.1"總體設計
如圖1所示,IT綜合運維管控平臺總體架構由管理對象層、平臺服務層和運維應用層組成。管理對象層是指由服務器、網絡設備、網絡安全設備、存儲設備、數據庫等IT基礎設施組成的底層軟硬件資源;平臺服務層通過對管理對象層的CPU、內存、磁盤IO、設備日志等數據進行發現、采集和匯聚,產生統一資源庫,并利用各種組件搭建出相應的管理模型;運維應用層是包括集中監測與告警、網絡安全監控與服務流程管理幾個功能模塊的面向用戶的運維管理場景[3]。
2.2"功能設計
本項目中,通過設計集中監測與告警、網絡安全監控、服務流程管理3大功能模塊,實現IT綜合運維的統一協作入口,完成IT綜合運維的全場景管理。主要功能設計見圖2。
3""IT綜合運維管控平臺的技術實現
3.1"建立統一資源庫
3.1.1"IT基礎設施的數據采集
對IT基礎設施的數據采集采用Agent采控代理實現。在被管主機上部署本地代理,在特定服務器上部署監管代理,代理上可以通過部署不同的模塊和插件實現相應的功能。本地代理主要負責所在宿主機的運行指標采集,以及自動化操作的執行;監管代理主要提供遠程監控和遠程腳本執行能力。
采集數據通過數據接入層、數據服務層進行存儲和處理。(1)數據接入層包括數據服務網關和數據緩存隊列兩個組件。數據服務網關由LVS+Keepalive+Nginx組成;數據緩存隊列采用Kafka實現,Kafka將接入的數據緩存起來,并能夠及時通知數據處理層、應用層處理數據[4]。(2)數據服務層提供數據處理、分析和存儲能力。數據的處理和分析主要通過Spark"Steaming和Spark"Mlib,數據存儲由Redis、Mysql、MongoDB和ElasticSearch實現。
3.1.2"網絡、主機和中間件日志的數據采集
通過在Windows、Linux主機上安裝部署"Elastic"Agent,大規模地統一采集、管理主機和中間件日志。
網絡日志通過搭建一臺Syslog-NetDevice服務器,在這臺服務器上安裝部署Elastic"Agent,通過集成的File"Beat來采集syslog日志。通過在所有網絡、安全設備上進行配置,將不同級別日志推送到日志服務器上,便實現了網絡與安全設備的日志采集。采集到網絡、主機與中間件日志后,通過logstash進行收集、解析和轉換,最終匯聚到Elasticsearch中進行分析,并通過Kibana進行展示[5]。
3.2"搭建平臺服務并呈現管理場景
3.2.1"集中監測與告警模塊
集中監測與告警模塊分為組件服務層、應用層和展現層。(1)組件服務層主要為平臺提供公共的基礎服務能力,包括規則引擎、流程引擎和可視化引擎組件。規則引擎主要基于JBoos"Drools實現,其提供聲明式的規則設定和計算能力,告警規則、工單處理規則等通過它來實現。流程引擎基于Activiti實現,它是一個BPMN"2.0完整實現,提供強大高效的工作流引擎,工單和自動化處理基于它實現。(2)應用層包含各平臺和上層運維應用,運維管理平臺的應用都基于Spring"Boot框架開發,它是一個微服務架構應用的最佳實現框架。(3)展現層為系統用戶提供最直觀的人機交互界面,主要通過React技術開發,為用戶提供良好的用戶體驗[6]。
3.2.2"網絡安全監控模塊
網絡安全監控平臺利用Security"Onion實現。Security"Onion有豐富的數據收集、安全分析、數據分析和可視化組件,利用Hunt數據捕獲、PCAP過程特性分析、Alerts告警分析等可用的軟件包集合,以高需求的事件響應和取證用例提供了一個最佳的、高度可擴展的解決方案[7]。
在本項目中,通過Security"Onion網絡安全監控,實現監控南北流量,檢測外部人員侵入內部環境;監控內部數據流動,以檢測異常的橫向滲透攻擊;通過收集來自服務器、網絡設備、網絡安全設備與中間件的日志,及時發現網絡異常的網絡安全管理功能。
3.2.3"服務流程管理模塊
服務流程管理模塊根據IT"服務管理(IT"Service"Management,ITSM)方法構建[8]。ITSM是將傳統信息技術基礎架構庫(Information"Technology"Infrastructure"Library,ITIL)方法論融入DevOps運維理念的新一代運維服務流程產品,提供低代碼流程設計、靈活的系統對接、敏捷的流程管理等產品能力,具備平臺化、自動化、敏捷化、智能化等產品特性,以“流程即服務”的先進理念為IT業務提供高效的服務支撐,幫助工廠IT運維工作既能夠安全、可控,又能夠高效、敏捷地持續推進[9]。
4""IT綜合運維管控平臺的運用
4.1"集中監測與告警
集中監測與告警模塊集中展示IT基礎資源監測與告警信息。其中:大規模云監控Monitor功能用于對物理服務器、虛擬服務器、存儲設備、云平臺等的監控;大規模網絡監控Network功能用于對核心交換機、防火墻等網絡設備的監控;集中告警管理功能用于集中展示資源告警信息。
4.1.1"大規模云監控
目前,大規模云監控已接入基礎設施層、虛擬資源層與平臺資源層的221臺設備,對接入資源的CPU使用率、內存使用率、磁盤使用率等核心性能指標進行監測。資源監控支持自定義定制監測策略,可以對指標項采集周期、閾值進行適時調整,以適應實際運行情況。監控畫面還可以定制儀表盤,將所有資源運行情況進行統一展示,若有指標異常時,則以不同色塊顯示。單擊資源圖塊,即可鉆取到相應資源詳細界面,以查看具體情況。
4.1.2"大規模網絡監控
目前,大規模網絡監控已接入核心交換機與防火墻23臺,支持設備自動發現與狀態自動監測。可以對網絡設備繪制全局網絡拓撲圖,網絡拓撲圖上實時顯示鏈路與設備狀態,監測指標支持自定義維護。
4.1.3"集中告警管理
集中告警管理對監測到的IT基礎資源異常情況進行集中展示,可以按照業務系統定制不同的監控場景,以提供監控管理。監控到的異常告警信息支持一鍵轉工單交由系統管理員進行處理。通過集中告警管理,可以對資源監測策略和監測模型進行不斷優化改善。
4.2"服務流程管理
ITSM服務流程管理實現了基于不同模型創建不同的運維工單并對工單進行閉環管理。利用觸發器,可以自動創建巡檢工單,將傳統紙質巡檢記錄進行電子化管理[10]。當產生運維請求或資源需求后,管理員創建相應工單并推送至運維組長,進行派單,運維人員接到工單任務后,即開始運維服務。系統支持對工單每一環節承接人進行任務提醒。通過服務流程管理,實現從運維發起到過程記錄到經驗庫生成的閉環管理,以PDCA全過程管理不斷改進運維能力和運維服務水平。
5""結語
紅河卷煙廠IT綜合運維管控平臺基于開源架構和技術工具,結合工廠IT資源與網絡架構情況,實現了工廠基礎資源的監測與集中告警,大規模網絡安全監控與分析,以及全流程閉環的運維服務管理有效提升了信息化基礎設施的保障能力和安全防護能力,為工廠信息系統穩定、可靠、安全運行構筑了基礎堤壩。
參考文獻
[1]"周萬春.IT綜合管控平臺的研究與應用[J].計算機安全,2013(11):79-83.
[2]"崔涌泉.基于運維數據挖掘的故障溯源系統設計與實現[D].桂林:電子科技大學,2023.
[3]"賈麗柯.關于人工智能在IT運維中的應用[J].信息系統工程,2023(6):56-59.
[4]"鐘宇曦.IT系統運維管理的全流程探析[J].信息通信,2020(5):73-75.
[5]"延婭妮.將流程管理引入IT系統運維實踐[C]//國新聞技術工作者聯合會2017年學術年會論文集.2017:22-25.
[6]"邱恒標.分析企業信息化IT系統運維管理[J].科技傳播,2016,8(5):101-102.
[7]"趙創業.面向工業控制系統終端設備的蠕蟲傳播模型評估與分析[D].南京:南京郵電大學,2022.
[8]"王煒鋒.IT運維價值服務轉型實踐[J].金融科技時代,2023(3):50-54.
[9]"吳瀚文,陳曉健,王潔.IT系統運維管理平臺設計及其經濟價值分析[J].科技風,2020(8):101.
[10]"謝軍,李世沖,溫明媚,等.IT系統運維能力成熟度評估模型研究和實踐[J].電信工程技術與標準化,2021,34(1):42-47.