孟 宇
(遼寧省錦州市大數據中心,遼寧 錦州 121000)
網絡的不安全性因素不斷增加,網絡非常規操作、其他人為原因以及網絡中的故障均會導致網絡異常數據出現,對網絡服務造成嚴重威脅。針對網絡異常情況,研究人員設計了多種分析方法。其中,劉云朋等人利用貝葉斯分區數據挖掘方法進行網絡異常數據分析[1]。馮喬利用超球面支持向量機的分析方法進行網絡異常數據分析[2]。但以上方法存在網絡異常數據分析精準度較低的問題,而云計算技術是能夠在大量虛擬資源中進行大規模計算的技術,分析效果較佳,能夠提高網絡服務質量。因此,本文將云計算技術引進該領域,設計了基于云計算的通信網絡異常數據分析技術。
通信網絡運行數據較為復雜,本文在進行異常數據分析前,采集各類數據指標與異常運行數據,在此基礎上分析網絡異常運行行為[3]。網絡運行數據集的特征維度較大,為了獲取網絡異常數據特征值,本文將網絡運行數據導入到云空間中,并計算出數據集的信息熵[4]。本文將數據集設定為S,在云空間內得出S中任意2個數據的信息熵為

式中:Rij為i、j這2個數據的信息熵;Kij為數據i與數據j的相似度矩陣;Sij為數據集的數據特征;V為云空間中的網絡數據流量的平均信息熵;N為數據集S的特征權值[5]。為更好地反映網絡當前運行狀態,本文在運行數據采集過程中,需要導入出盡可能多的代表網絡運行狀態數據,如表1所示。
如表1所示,本文采集的網絡運行數據指標分別為 CPU_USR、CPU_kij、CPU_vgtf、CPU_mem、IO_Rk、IO_jdw、SEND_rate、Receive_rate以及SYS_hju等,在出現異常運行數據時,上述數據指標就會出現較大的運行波動[6]。當相關數據指標出現突然增大或突然減少的流量異常情況時,即可以判定為存在網絡異常運行行為。

表1 網絡運行數據
因此,本文將異常數據節點分析分為3個部分,分別為網絡效用計算、負載均衡計算、備份冗余計算等。在云空間中,數據集S中的運行數據存在較多的特征,每個特征對應的特征向量不同,最大的特征根對應的若干個特征向量,就是數據集S中的異常數據節點。異常節點的最大特征根確定公式為

式中:X(S)max為數據集S中異常節點的最大特征根;XV為V的特征向量;Vs為數據降維成分;Xs為較小的特征根成分。在X(S)max確定的過程中,從求取特征向量的角度考究,根據特征根的大小,排布出對應的特征向量次序。當Vs>Xs時,對Vs進行處理,并丟棄Xs;當Vs<Xs時,Vs與Xs均被保留,根據最終數據偏離度大小,即可確定網絡數據的異常與否。數據偏離度大小計算公式為

式中:P為數據偏離度;δi為網絡異常節點的特征參數;vi為主成分分析參數;J為網絡均衡指數;δxi、δxj為網絡異常節點的待定系數;mt為通信網絡的局部異常分布變量。當P>0時,網絡異常節點較多,表示該節點可能會造成網絡中有用信息丟失問題,影響通信網絡的正常使用;當P<0時,網絡異常節點較少,數據量相應增加,無法進行有針對性的數據分析;當P=0時,網絡異常節點數量為0,通信網絡處于正常運行狀態,不會對網絡造成影響。
在分析出異常節點特征之后,還需要對上述方法進行優化,為此構建網絡異常數據分析云計算模型。將上文中導入的運行數據與異常節點特征,在云空間中轉換數據,根據數據特征分析網絡運行狀態。本文對網絡異常數據分析的過程中,對通信網絡數據進行訓練與提取,并將異常數據的異常網絡行為偏離度進行閾值最大判定。本文假設偏離度P存在,并在云空間中處于固定參數。本文根據實際網絡環境,將運行數據與異常節點進行空間轉換,轉換公式為

式中:Xa為不同網絡異常數據節點采集到的數據矩陣;為數據指標樣本;Xa'為經過轉換之后的異常數據矩陣;為統一格式的異常數據樣本。將得到的異常數據從式(6)轉換成式(7),再進行異常數據統一分析。由此得出異常數據云分析格式如圖1所示。

圖1 異常數據的云分析格式
圖1中,網絡數據流量連續無限,而云空間內存卻比較有限,這就導致無法實時分析異常數據。本文構建的異常數據分析模型,主要是針對有限的空間內存,對有限的數據進行無限分析。分析模型在數據異常分析的過程中,利用窗口設定這一方式將異常數據節點設定成最早的時間點開始,到當前異常節點結束,平均每分鐘處理1次采集到的異常運行數據。由此構建的網絡異常數據分析云計算模型表達式為

式中:Mk為異常數據分析模型表達式。當Mk降低時,表明異常數據已經“老化”,模型對分析結果的貢獻隨之減少。本文通過網絡運行數據的云空間轉換、訓練異常分析模型、分析異常數據以及檢測數據異常等流程,減少網絡單一成分分析的不確定性,提升網絡異常數據分析精準度。
至此,完成基于云計算的通信網絡異常數據分析技術的設計。
本文利用云計算對網絡上行流量與下行流量進行分析,綜合判定網絡異常情況。上行流量、下行流量分析情況如圖2所示。

圖2 上下行流量圖
圖2可知:在40 s之前,下行流量處于波動狀態;在38 s之前,上行流量處于波動狀態。在上行流量與下行流量處于波動狀態時,網絡數據被攻擊的速率均在1 000 kB/s,多數情況下均小于1 000 kB/s;在40 s之后,上行流量與下行流量均在某一范圍內保持平穩,此時為網絡正常狀態。通過分析上行流量與下行流量的平穩狀態,能夠更快速地發現網絡異常狀態,對異常網絡后續維護具有重要作用。
在上述實驗條件下,本文選取1 000~8 000 B等隨機數據量,分析其通信網絡異常數據分析精準度。具體實驗結果如表2所示。
如表2所示,本文隨機選取出1 000~8 000 B的數據量,每個通信數據的異常數據數量不同。文獻[1]方法的分析精準度在0.845~0.887的范圍內變化。其中,數據量為5 000 B時,分析精準度低于0.850的合格指標。文獻[2]方法的分析精準度在0.852~0.902的范圍內變化。相比于文獻[1]方法,文獻[2]方法的分析精準度更加穩定,但是該方法受到數據量的限制,數據量越多,分析精準度越低。由此證明,文獻[1]方法、文獻[2]方法在通信網絡異常數據分析精準度方面,均存在不同程度的問題,導致異常數據分析效果隨之下降。而本文設計的通信網絡異常數據分析技術的分析精準度在0.995~1.000的范圍內變化。其中,數據量為3000 B時,精準度達到了1.000的完美標準。并且該分析技術并不會受到數據量多少的干擾,能夠更準確地分析出通信網絡的異常情況,符合本文研究目的。

表2 實驗結果
本文利用云計算設計了通信網絡異常數據分析技術。從判定網絡異常運行行為、分析異常節點、構建分析模型等方式對網絡異常數據進行分析。通過網絡異常數據節點的分析快速找出異常數據,不僅減輕了通信網絡異常情況對適用人群的影響,還提高了網絡服務質量,能夠為網絡的正常運行提供保障。