中國移動通信集團廣西有限公司信息技術管理部|宮大鵬 雷蕾 王濤
IT支撐系統是移動業務正常運行的基礎保障和支撐,在確保IT支撐系統的準確性和可靠性的同時,如何提升企業IT 支撐系統的支撐效能,實現IT支撐系統的高投資回報率,實現資源的合理配置,正逐漸成為電信運營商中相關部門關注的焦點。本文通過使用多種大數據算法進行容量預測和分析,希望在容量預測準確性上有進一步的突破。
容量分析規劃是指對移動IT支撐系統進行關鍵業務及相應的設備容量、性能的關系分析。根據關鍵指標數據與設備性能數據之間的關系,建立容量數學分析模型,結合各種因素(IT設備生命周期,系統優化,業務的生命周期規律)對容量數學分析模型不斷改進優化,模型修正。容量管理服務引擎,是根據容量數學分析模型,結合設備性能數據,關鍵業務指標數據進行智能計算分析,得出IT設備的負載能力及未來業務的容量規劃能力,及時發現并預警容量性能瓶頸問題。
目前移動用戶在IT支撐系統設備容量管理方面存在的主要問題包括:
1.缺乏對業務未來發展的預測分析(業務類型、業務功能、用戶量、性能需求等等);
2.缺乏對容量管理角色,以及其流程文檔化、規范化、標準化的清晰認識;
3.缺乏對引發IT容量問題根源的分析;
4.缺乏對大量、準確的性能數據的收集和積累。
容量管理的目標就是在合適時間、合適地點以及適當的成本提供合適的資源,同時滿足移動業務的持續增長需要。
首先,通過收集業務和資源數據,分析出業務量與資源容量使用情況的關系,建立起業務量與系統資源消耗量間的數學模型。
其次,從業務角度出發,分析用戶使用業務的規律,找出業務發展的現有水平和未來趨勢,并結合分析數學模型和業務發展水平,得出該系統的容量規劃和資源分配方案。
最后,根據業務的需求進行虛擬資源再分配,從而解決因虛擬資源分配不合理,引起系統資源的頻繁回收與分配,造成部署的業務相互影響的問題。
基礎的容量數據已經由監控管理模塊或其它模塊采集,容量預測模塊通過接口直接獲取這些已有的數據,以進行容量預測。
數據據預處理主要對指標數據進行消噪溯源,對異常數據進行特殊處理,避免異常數據影響預測模型的準確性,異常數據主要來源于系統故障、節假日等,系統容量出現大的波動,如圖1所示。
通過系統容量歷史采樣數據,利用指數平滑法對容量數據進行平滑,并利用線性回歸算法建立容量預測模型。在本方案中,對于容量預測模型的建立主要通過數據層的Spark進行,容量預測模型的建立步驟分為:一,計算容量分析指標的平滑因子;二,計算容量分析指標一次和二次指數平滑值;三,計算出線性回歸參數αt和βt,即截距和斜率;四,計算出容量分析指標的調整因子。
在預計未來基礎架構容量的需要時,必須將業務發展變化需要的影響考慮到容量的發展變化當中。將業務量變化的因素加入到性能指標變化的過程中,更好地對未來性能指標的發展做出預測,是否要計算模型的調整因子,主要基于模型未調整前的精確度來決定。
利用大數據分析技術,在大數據分析平臺的Hadoop框架中通過對IaaS、PaaS和SaaS各資源指標的性能數據和告警數據基于MapReduce任務進行批處理作業,進行智能分析計算,根據預測算法得出最后的預測數據。
能夠預測未來時間段的業務容量趨勢。
針對性能數據進行數據質量檢查;篩選法定節假日等特殊時段;處理性能與業務指標數據的采集周期,使其保持一致或近似;對CPU性能指標、內存性能指標和虛擬內存利用率指標,篩選出每天業務量最大值的產生時刻時的取值,用于計算資源容量預測;對磁盤使用率、數據庫表空間使用率指標,按小時取平均值然后取每天的最大值,用于存儲資源容量預測,如圖2所示。

圖1 數據處理邏輯流程
運行指數:衡量資源運行壓力趨勢,越高表示越忙。
能力指數:衡量資源可用情況,對能力指數趨勢預測分析,可衡量業務系統主機的能力,取值范圍0-1。
對目前已經納入到BOMC監控范圍內的系統平臺的歷史性能數據進行采集,保留至少2年的歷史數據,以便于歷史分析。
容量管理后臺計算引擎程序,根據計算模型,選取忙日忙時段的峰值數據,進行數據的處理計算,得到運行指數和能力指數,并結合業務指標數據,及預測模型進行數據的趨勢預測分析,評估未來的容量規劃需求。
趨勢分析根據之前N個周期預測未來N個周期(月或天)資源性能負載情況,采用相應的預測算法,對數據進行預測分析,智能判斷是否發生性能瓶頸或性能空閑,并能提前通過告警的方式通知用戶,采取應對措施。說明:

圖2 CPU容量預測與內存容量預測
1. 運行指數公式(用戶數×每用戶月服務請求次數×月忙日集中系數×日忙時集中系數×每筆業務處理事物數/60/CPU使用閥值)。
2. 能力指數公式[(月話單量×話單長度×存儲周期+其他)×盤陣RAID系數×(1+磁盤損耗)/存儲使用閾值]。
3. 如果運算需要的指標權重,運行指數公式參數,能力指數公式參數發生變化,則需要重新進行該修改后的歷史數據的計算。
容量管理在電信企業管理中扮演著很重要的角色,它可以確保所有在云計算基礎架構中任何與容量有關的變化都能夠支撐業務需求,通過容量管理,管理者可以在面對容量需求時作出最具成本效益的選擇。
對容量預測的深入研究,將以業務為基礎,以建立的性能模型為依據,避免傳統過于依賴規劃人員經驗的問題,使得容量規劃和資源的分配更加準確。一方面使得系統處理能力能夠適應業務快速變化發展的需求;另一方面,通過對資源的整合,減少硬件設備數量,有效地降低環境運行成本,進一步提升運維管理水平。