郝成亮 呂洪波 馬旭東
(國網吉林省電力有限公司信息通信公司,吉林 長春130021)
信息通信技術的支撐在其中扮演著舉足輕重的角色,信息通信運維質量的提升已成為電網信息通信運行過程中一項重要的工作。
隨著電網信息通信系統規模的不斷增大。在電力公司信息通信系統運行的過程中,系統應用以及系統本身都會產生各類日志來記錄系統的狀態、重要的運行事件和網絡流量,因此日志包含系統運行的動態信息[1]。通過對電網信息通信系統的日志進行分析,提取出體現信息通信運維質量的相關指標,所以實現信息通信運行過程各種日志的綜合評價與管控能夠有效提升信息通信運維質量[2]。
在運維質量評價工作中,由于電力信息通信系統中的組件繁雜,各組件的狀態都會對系統運維質量產生影響。因此,需要建立一個完整的指標體系進行綜合評價。在構建指標體系的過程中,評價指標的選取工作是重中之重[3]。
通過將系統組件數據庫、服務器以及中間件的日志進行聚類分析,進而進行指標抽取,在將指標數據經過歸一化和無綱量化預處理后,需要對指標進行相關性分析,進行相關性分析后能夠讓最后的評價結果更準確。最后指標體系如圖1 所示。
隨機森林是機器學習中的一種典型分類算法,通過將若干個決策樹組合在一起來進行分類,因此叫“森林”。給定訓練集,包含k 個決策樹的隨機森林的構建過程如下:
輸入:原始數據集,隨機森林中決策樹個數,分類數
輸出:分類結果
步驟1:抽樣:對原始數據集進行有放回的抽樣,得到若干個訓練集。
步驟2:構建決策樹:利用若干個訓練集構建決策樹。在構建過程中,對于每一個節點,候選屬性。最后得到決策樹,并將該決策樹加入隨機森林模型。
步驟3:最終得到的隨機森林包含k 個決策樹(M1,M2...MK)。給定一個待分類的樣本,F 中每個決策樹Mi 都會得出一個分類結果,總共得到k 個結果(即k 個類標號)。最后采用多數表決法進行投票,票數最多的類標號作為該樣本的分類結果。
本文將電力信息通信系統運維質量分為優、良、中、及、差五個等級,通過對第一章構建的指標體系中的指標進行訓練,將其分為五類。即構建的隨機森林分類模型輸出為五個質量等級。具體步驟如下:
(1)日志指標評價數據集D 樣本輸入;
(2)評價運維質量等級分為等:優、良、中、及、差,為了方便模型構建,用1、2、3、4、5 表示。
(3)分割原始數據集,70%作為訓練集,30%作為測試集。
(4)從D 中利用Bootstrap 采樣隨機選取k 個子訓練樣本集D1,D2,...,Dk,并預建k 棵分類樹。
(5)在分類樹的每個節點上隨機地從5 個指標中選取,選取最優分割指標進行分類。
本文選取東北區域某信通公司數據進行信息通信系統綜合評價,通過對該系統中各組件的日志文件進行第一章的指標體系構建后,可使用第二章中得模型構建步驟進行綜合評價。通過本文隨機森林模型,得出該系統的運維質量,處于優和良水平之間。并將本文所提模型與神經網絡模型進行了幾項分類精度、召回率以及F1 分數上的對比,如表1 所示。
從表中可以看出本文所提模型在優、良、中、及、差五個指標等級的訓練結果中,分類精度、召回率以及F1 分數都是要優于傳統神經網絡模型的。

表1 評價結果對比
本文通過對電力信息通信系統中各組件的日志進行分析,從日志中提取出能夠體現系統運維質量的指標體系,從一個新的角度對系統運維質量進行了綜合評價,并且提出了機器學習的方法來進行綜合評價,彌補了傳統綜合評價方法的一些不足之處。在接下來的研究中,將擴大指標提取范圍,從信息通信設備中提取指標,為信息通信系統做更全面的評價工作。