韓 維,李子乾,張 月
(國家電網有限公司客戶服務中心,天津)
隨著信息技術的快速發展,國家電網服務中心面臨著日益復雜的業務要求和運維挑戰。云計算和虛擬化等技術的大規模應用,為電網系統提供了更高效靈活的解決方案。然而,隨之而來的是資源配置的復雜性和挑戰性。為了提高運維管理的效率和靈活性,數字化運維管理成為中國國家電網發展的關鍵方向之一。
近年來,云計算技術[1]在為信息系統提供易于擴展的計算資源方面正快速興起。云的關鍵優勢在于可伸縮性和彈性,能快速動態地滿足用戶和系統需求。然而,云用戶需要面對復雜的資源配置問題,過度供應和供應不足都可能導致成本和性能問題。此外,定制解決方案優化應用程序性能十分困難,因為涉及多個需求。數據爆炸使得處理數據也變得復雜,NoSQL等技術應運而生,但云系統的健壯性和可靠性仍然是一個重要問題,需要有效的異常檢測方法來確保系統穩定性。
針對上述問題,本研究基于云計算環境下的系統運行狀態,提出了一種可靠的性能感知云彈性框架(PACE)進行自適應資源配置。該框架圍繞三個主要服務進行組織:
(1) 基于LSTM的狀態檢測服務,以實現可靠的決策制定。
(2) 基于K-means 的自適應資源配置服務,以實現有效和高效的工作負載執行。
(3) 基于神經遺傳算法的系統優化服務,以識別基于用戶需求最大化應用程序性能的最佳配置。
本研究將為國家電網運維管理的數字化轉型提供重要的理論指導和實踐參考,為國家電網建設智能運維體系,提升業務響應能力,實現電網的高效、安全運行奠定基礎。
本節介紹PACE 框架的運行框架,并分別闡述了PACE 的三項主要服務,包括狀態檢測、資源配置和系統優化。
PACE 框架支持自適應技術[2],用于在云環境中提供可靠的資源。本研究主要關注部署在云中的數據庫系統,同時執行最先進的工作負載以模擬不同的實際應用程序場景。圖1 展示了PACE 框架支持的環境及框架內部數據流。云環境的關鍵實體包括用戶、云應用程序、PACE 框架以及底層基礎設施(數據中心和主機)。其中,數據中心是云系統的核心,多個服務器和通信設備位于其中。主機代表數據中心的物理機器及其可用于虛擬化的計算單元,包括CPU、存儲和帶寬等。

圖1 PACE 框架支持的環境及框架內部數據流
PACE 框架由以下三個主要服務組成:
(1) 狀態檢測服務根據實時資源使用情況和應用指標監控,自動檢測系統狀態。
(2) 資源配置服務根據監控的指標自動提供系統資源。
(3) 系統優化服務可以根據用戶需求對受限資源進行優化。
PACE 事件流過程:①PACE 監視目標應用程序以提取各種指標,包括CPU 資源、內存和磁盤使用情況等。②狀態檢測服務確保PACE 收集在正常應用程序行為下提取的數據。③PACE 管理器提取所需的數據集,以支持擬議的資源配置和系統優化服務的數據驅動技術。④管理員將數據集和配置設置注入到資源配置服務中,開啟資源發放的自動伸縮機制。⑤管理員將數據集和配置設置注入到系統優化服務中,該服務可以根據用戶需求進行受限的系統優化。
自編碼器[3]是一種無監督學習的范例,它能夠以盡可能少的失真重構輸入特征。LSTM自動編碼器[4]結合了自編碼器提取最具代表性信息的能力和LSTM處理具有遠程依賴關系的順序數據的優勢。該模塊利用正常數據訓練LSTM自編碼器,學習重構正常單變量時間序列數據,而對異常時間序列產生較高的重構誤差。因此,重建誤差分數來判斷未來的數據點是正常或異常。圖2 顯示了LSTM自動編碼器的體系結構。

圖2 LSTM 自動編碼器的體系結構
狀態檢測服務分別使用LSTM層作為編碼器和解碼器。編碼器采用
式中:xi和x^i分別為實際觀測值和重建觀測值。用重建誤差分數來檢測未來的異常值。如果重建誤差低于用戶閾值,則將新的觀測值分類為狀態正常,如果低于用戶閾值,則將其分類為狀態異常。
資源配置服務是一個混合自動擴展器,它使用基于閾值的規則來支持響應式自動擴展,同時它還引入了基于機器學習的主動方法來根據未來的工作負載需求調整系統資源[5]。基于閾值的規則已用于根據內存使用百分比指標自動擴展容器化應用程序,如果內存使用率超過預定上限閾值(稱為UT),則會根據稱為Sv 的縮放參數向容器分配額外的內存。如果內存使用率低于預定下限閾值(稱為LT),則該服務將根據Sv 參數減少分配的內存量。
盡管通過簡化的基于閾值的規則可以處理各種資源使用度量,但還需要額外的技術來確保虛擬資源的可用性。本研究提出了一種基于未來工作負載需求的混合機器學習方法來提供云資源。更詳細地說,歷史數據用于訓練K-means 聚類算法,根據CPU 利用率將時間序列劃分為高、中、低需求狀態集群。然后,測量每個集群的平均序列,并分別作為高、中、低需求組的代表序列。
因此,將部署和監視目標應用程序,以收集資源使用指標。基于時間窗長度參數Wl 將預測序列分割成更小的序列,然后計算每個片段與每個聚類的三個代表性序列之間的距離。因此,每個片段從最接近的代表性序列繼承標簽。最后,資源配置模塊根據每個段的標簽和預算限制參數Bl 創建縮放計劃,自動調整分配的資源。
系統優化服務支持基于云的系統的受限性能優化。該服務使用描述跨不同工作負載任務的應用程序行為的數據記錄[6]。這些記錄以數據集的形式被組織起來,其中包含描述資源配置、配置類型、應用程序配置等。在虛擬化環境中運行所有可能的組合時,由于時間和成本的限制,每次優化方法都需要評估推薦的配置。因此,系統優化模塊使用遺傳算法來確定產生最高應用程序性能的配置,并利用人工神經網絡模型對優化過程中每個個體的適應度進行評估。
系統優化模塊引入了一個容器化的環境,由一個源系統和一個克隆系統組成,允許快速部署應用程序。克隆系統被部署為源系統的副本,以避免系統開銷。圖3 展示了系統優化操作的事件流。

圖3 系統優化操作事件流
系統優化操作事件流中:
①源系統為源管理器提供各種配置。
②源管理器將配置文件注入到協調器中,以便用于約束優化過程。
③協調器訪問記錄以插入、更新和收集數據,用于建模和優化任務。
④協調器對記錄應用預處理和特征選擇技術來創建輸入數據集。
⑤協調器啟動基于混合神經遺傳方法的約束優化過程。
⑥協調器將推薦的配置注入到克隆系統中。
⑦克隆系統返回實驗記錄,協調器相應地更新記錄。
⑧協調器根據決策制定過程將推薦的配置注入源管理器。
⑨源管理器將推薦的配置傳遞給PACE 管理器,后者決定相應地擴展和調優源系統。
本應用重點聚焦國家電網運維管理中資源配置問題,為數字化運維體系的構建提供了理論及應用支撐。面對多樣化的業務場景(如APP 登錄、交電費等),當用戶訪問量較大時,這對系統的負載均衡和資源配置提出了較高的要求。面對新的場景需求,給定業務場景需求見表1。

表1 給定業務場景需求
由業務部門(省公司和網上國網運營中心)從業務視角提出業務活動場景需求,發給信息運維中心。信息運維中心人員依據運維經驗,分別對微服務和云平臺資源設定初步的系統運行需求,基于這些需求設置系統負載狀態下各參數的基本閾值,見表2。

表2 系統負載狀態下各參數的基本閾值
將國家電網運維系統與本研究提出的自適應資源配置框架相結合,面對多種形式的負載參數,系統可以做到實時的檢測系統運行狀態,并不斷的收集系統的運行數據。根據收集到的運行數據,利用機器學習算法實現運行狀態的聚類,并實現了資源的自動調整分配。最后通過遺傳算法的特征空間不斷地優化系統資源分配。以云平臺資源分配為例,Oracle 數據庫各參數配置指標不斷地優化迭代,優化后的參數指標,見表3。

表3 優化后的參數指標
通過應用算例得出結論,結合本研究提出的自適應資源配置框架可以有效地實現由系統資源到運行狀態資源的映射,通過動態的資源分配和多種優化策略,可以實現資源的最大化分配,系統性能得到穩固提升。
為了應對云環境下資源分配的成本高、可靠性和性能低的挑戰,本研究基于云計算環境下的系統運行狀態,提出了一種可靠的自適應資源配置框架(PACE)。該框架圍繞狀態檢測、資源配置和系統優化三項關鍵服務,可以有效的針對云環境下復雜的系統狀態進行分析,并基于工作負載需求進行動態資源分配。最后,通過識別系統和應用的程序配置,利用多種優化策略使得系統負載性能最大化。
本研究為國家電網運維管理提供了具有實際應用價值的理論支持,有助于構建適應業務要求的數字化運維體系,推進國網跨單位運維協作的高效性,提升國家電網系統的整體運維能力。