國家電網山西省電力公司 李 遠
與傳統運維相比,云計算中心智能運維無論是在數據量還是在處理速度上都明顯優于傳統運維。在當前大數據時代背景下,智能運維能夠有效推動云計算的自動化和智能化發展[1]。但由于當前相關領域研究起步較晚,因此支持云計算中心智能運維的系統在實際應用中并不完善,存在著諸多的問題,如系統運行成本高、無法為用戶提供滿意度更高的服務、無法實現對云計算環境中數據的安全保護等問題。云計算中心智能運維的主要業務,是針對采集到的海量數據通過多種技術手段對其進行深度分析[2]。利用優質的運維系統能夠將云計算中心的各類基礎設施、資源等進行整合,以此為云計算環境提供了網絡、主機和存儲等條件。
確保最原始的數據信息能夠準確獲取并存儲到系統的本地數據庫中,組件需要從系統的硬件或軟件設備當中采集到原始數據[3]。以大數據云計算中心智能運維系統的需求為根據,對云計算中心數據采集其進行選型,本文選用SCS502-EN562-22型號的數據采集傳輸儀作為本文系統的數據采集器。該型號數據采集器的接口眾多,并且僅適合云計算中心運行環境當中的各類以期設備的通訊協議;設備支持GPRS/4G/5G/Ethernet 等多種方式的通信傳輸功能;該型號數據采集器原廠生產還支持云計算環境特有的HJ 5556-425通信協議。圖1為云計算中心數據采集器在系統當中的連接示意圖。

圖1 計算中心數據采集器連接示意圖
利用SCS502-EN562-22型號數據采集器上豐富的接口對接云計算環境前端的各類傳感器,能夠通過上述多種不同方式的通信將數據上傳到云服務器當中,并為云計算中心指揮決策提供更具價值的數據支持條件,進一步提升本文基于大數據的云計算中心智能運維系統在線監測預警能力,保證云計算環境中海量數據的安全。
上述數據采集器的選擇為本文系統提供了對海量數據進行采集的條件,為滿足本文系統對海量數據的存儲需要,對存儲器進行選型。結合海量數據存儲需要,本文選擇6ES7215-56-78型號的數據存儲器作為本文海量數據的存儲硬件條件[4]。該型號數據存儲器的輸出功率為32kHz、工作電壓為22V、工作溫度范圍為-25℃~55℃、接收數據流量的帶寬為7500bps、供電方式為DC+8~22V 電源供電。6ES7215-56-78型號數據存儲器為雙路CAN 總線數據存儲器,該存儲器中集成了2~4路標號CAN總線接口,使CAN 總線和本文其他硬件結構連接,可完成對云計算中心數據的實時存儲。為保證云計算中心數據存儲和傳輸的穩定性,在對本文系統硬件結構進行安裝時,預留出6路模擬數據傳輸路徑和2路通用輸入/輸出口,以此滿足在不同調度條件下云計算中心環境的數據輸入和輸出需要。為6ES7215-56-78型號數據存儲器配備IP60等級的安全防護模塊,為云計算中心中的數據提供更加可靠的安全運維條件。
在云計算的發展中誕生了云存儲,通過云計算中心智能運維的基礎功能來對海量的大數據進行存儲,結合上述文本系統的硬件條件,通過可行的存儲技術設計方案將云存儲應用于集群、網絡技術。云存儲技術的應用不需要硬件設備,大幅度增加了網絡信息存儲安全性能,在提升存儲效率的同時,也減少了用戶對硬件設施的維護措施過程中成本投入。本文的存儲數據庫以DM7為本文系統,數據存儲在此類型數據庫中匯總的結構較為松散,因此可完成對結構化數據、非結構化數據和半結構化數據三種不同的結構類型進行存儲。
第一種數據以表格數據為例,通過掃描數據先得到數據結構,再完成對相關信息內容的填充;第二種數據以短視頻、音頻為例,通常是只填充數據而沒有數據結構,因為這類數據不便利用固定的結構來表現;第三種數據以圖形、聲音文件為例,是指沒有規則或隱含規則的數據。利用DM7系統可實現大多數單表查詢,在本文系統的云計算中心環境具有搜索引擎的功能,能在運行的過程中快速搜索所需的數據資料。通過合理可行的存儲技術設計方案,在保證用戶數據的安全前提下節省成本,更好滿足用戶對數據存儲的要求。
將云計算中心智能運維看作是一個數據模型,對數據模型的相關變量進行優化,即為實現對其智能運維。通過本文上述設計的基于大數據的云計算中心數據存儲技術方案,為實現更加有效的運維,還應當進行設定周期[5]。
周期設定如下:X 為系統中云計算中心整體壽命的維護周期,Ti為每個運維周期的間隔,i 為具體運維周期個數,取值為i=1,2,3…n。在周期為N-1的運維間隔中,云計算中心信息數據的可靠度高于可靠性閾值L,系統自動識別對云計算中心信息安全的隱患并及時維護;第N 次周期間隔中,若達到達到可靠度閾值L 則說明云計算中心出現問題,這就要對運維指標采集程序和相關模塊進行置換處理;如果云計算中心在運維存在失效問題,只需恢復存在問題的板塊,利用最小的維護方式來控制云計算中心運行可靠度在閾值范圍內。
通過以上數據分析,得到云計算中心智能運維周期的計算公式為,式中,Ti表示為云計算中心運維時間間隔;hi(t)表示為云計算中心第i-1次和第i 次運維周期內的失率;K(t)表示為云計算中心的運行時間。通過設定可行的運維周期,利用計算公式得到有效的運維指標來提高用戶信息的安全性能,實現對海量大數據的有效存儲。
本文以某企業信息資源集成云管理平臺作為實驗環境,分別利用本文提出的運維系統和傳統運維對該云管理平臺進行運行維護,以此驗證兩種運維系統的應用效果。在該云管理平臺上對各類數據信息的調配需要大量的服務器運行支撐,在運維過程中也需更高頻率的監控運行數據。云管理平臺的內存為三星DDR4 64GB,操作系統為凝思rocky6.0.42.42和rocky6.0.80,CPU 是intel gold-5120V4中央處理器。首先向云管理平臺當中添加1000個正常數據節點,再添加200個故障節點,分別利用兩種運維系統完成對云管理平臺的運行維護。將兩種系統恢復云管理平臺正常運行狀態所消耗的時間作為對比指標完成對比實驗。將實驗結果進行記錄,并繪制成如表1所示的實驗結果對比表。

表1 兩種運維系統實驗結果對比表
由表1可看出,本文系統恢復云管理平臺的正常運行狀態時消耗的時間明顯小于傳統系統。傳統系統在運維過程中,其耗時會隨著數據節點的增加而增加。本文系統并不會受到數據節點增加的影響。因此,通過對比實驗證明,本文提出的運維系統在實際應用中運維效率更高。