倪浩杰 邢張亮



摘 要:傳統運維方式對運維人員需求大,存在監控不實時、異常發現滯后、故障定位困難、故障恢復時間長和數據共享流轉困難等問題。為了解決上述弊端,本文提出了智能運維機器人的設計思路和實現方法。通過數據共享和流轉,將運維任務配置、數據采集、實時監控展現和運維派單系統聯接起來,較為簡單的實現了智能運維機器人的設計,提高了公司運維效率,提升了數據中心的整體服務效能。投入試運行,總體效果良好。
關鍵詞:運維機器人;自動化巡檢;運維監控;Zabbix;Grafana
中圖分類號:TP242 文獻標識碼:A 文章編號:1671-2064(2019)18-0029-02
0 引言
近年來,江蘇省國際信托有限責任公司(以下簡稱“公司”)管理的信托資產規模迅猛增長。公司數據中心基礎設施和設備,承載著公司TCMP、TA和OA等數十套計算機系統,存儲著大量用戶信息和業務數據。數據中心安全、穩定的運行,關乎公司業務發展,是公司運行的中樞和生命線。
1 運維工作現狀及需求分析
1.1 運維工作現狀
與銀行相比,信托公司業務靈活、人員精簡。隨著公司業務日益擴大,對運維的要求也越來越高。傳統的運維方式,不僅需要大量的運維人員,而且還存在數據中心監控不實時、異常狀態發現滯后、故障定位困難、故障恢復時間長和數據共享流轉困難等問題。
1.2 智能運維機器人需求分析
在現代運維技術的基礎上,結合智能化和自動化的發展成果,筆者設計了智能運維機器人,較好的解決傳統運維難題。智能運維機器人的設計目標有:(1)實時采集數據,監控數據中心整體和指定模塊的狀態;(2)配置監控項和閾值、定義事件、觸發規則等;(3)判讀系統異常,觸發事件,以短信、郵件或微信等方式通知相關人員;(4)自定義配置多種運維任務,實現多種運維功能。
2 智能運維機器人設計原則和整體框架
2.1 設計原則
(1)開放式設計。智能運維機器人采用開放標準,開放結構,開放API接口,具備優秀的擴展能力,能夠利用現有系統和資源,兼顧未來。(2)一體化設計。智能運維機器人的設計整合了運維任務配置模塊、監控平臺、運維監控展現模塊、告警消息通信模塊和運維派單系統模塊,能夠完成數據采集、實時監控、告警通知、運維派單等一整套運維工作流程。
2.2 智能運維機器人系統架構
根據智能運維機器人的設計原則,按照功能點將其抽象成若干模塊,模塊與模塊之間松耦合連接,便于后期系統開發和擴展,系統組成見圖1所示[1]。
3 智能運維機器人主要模塊及實現
3.1 運維任務配置模塊
運維任務配置模塊是智能運維機器人的控制中心,可配置多種運維任務,實現多種功能。該機器人試運行階段,配置兩項任務。(1)自動巡檢。智能運維機器人采集數據中心和各模塊的狀態數據,觸發運維派單系統模塊生成巡檢工單,派發并記錄存儲。(2)運維智能派單。智能運維機器人實時監控數據中心狀態,一旦發現異常,觸發生成異常事件,觸發運維派單系統模塊生成運維工單,派單流轉至相關人員處理[2]。自動巡檢工單圖2所示。
3.2 監控平臺
監控平臺是智能運維機器人的核心,分為監控配置、數據采集和異常發現三個子模塊。(1)監控平臺實時采集數據,將數據傳輸給展現模塊。(2)監控平臺判讀系統狀態,一旦發現異常,調用告警消息通信模塊,通知相關人員。(3)監控平臺根據配置的運維任務,觸發運維派單系統模塊派單。該設計采用Zabbix實現。
3.3 運維展現模塊
運維展現模塊負責將監控平臺采集的數據以圖表等方式進行展現,是人機交互接口。該設計采用Grafana實現,見圖3所示。
3.4 告警消息通信模塊
告警消息通信模塊將監控平臺事件和消息,以短信、郵件等方式通知相關人。該設計利用了公司已有的通信系統。
3.5 運維派單系統模塊
(1)負責將監控平臺輸入的異常事件,觸發生成運維工單,并派單給相關責任人處理。(2)負責對監控平臺采集的監控項數據進行整型,轉換成易于閱讀、記錄的格式,存儲于系統中,便于后期查閱和分析。該設計自主開發,通過API接口,實現運維派單系統模塊和監控平臺之間數據交互[3]。
部分代碼示例:
4 結語
智能運維機器人實現數據中心運維的自動化和智能化,較好的解決了傳統運維存在的問題,將運維人員從重復簡單的運維事務中解放出來,使其能夠從事創造性的工作。智能運維機器人將傳統的運維工作轉向一體化、集中化、自動化的新運維工作模式,提高了數據中心的運維效率和服務效能。
參考文獻
[1] 周萌,林國策,楊厚云.CentOS下ZABBIX的配置與使用[J].北京信息科技大學學報(自然科學版),2015(1):90-94.
[2] 楊磊.基于Zabbix的云監控系統的設計與實現[D].電子科技大學,2017.
[3] 吳文豪.自動化運維軟件設計實戰[M].電子工業出版社,2015.