陳艷君,陳婷婷
(南昌大學科學技術學院,江西南昌330029)
網絡技術得到了飛速的發展,大眾普及程度也在逐漸提升,網絡業務種類也隨之增多,成為了人們必不可少的工具[1]。根據調查研究可知,Internet已經是現今全世界范圍內最大的資源共享平臺,滲透到了經濟、政治、教育、軍事等多個領域,成為了現今整個社會的基礎設施。隨著網絡的不斷發展,用戶經歷了由網頁時代→網游時代→網商時代的變化,其對網絡安全性與性能的需求也在提升[2]。由于網絡環境復雜程度的增加,如何有效的管理網絡成為現今制約網絡發展的關鍵問題之一。
網絡發展為人類帶來便捷的同時,也產生了新的危機,網絡攻擊事件越來越頻繁,安全漏洞修補速度遠遠跟不上網絡攻擊方法的更新速度,極大的威脅著網絡的穩定運行,也降低了網絡的性能,為網絡管理帶來嚴峻的挑戰。在網絡遭受到攻擊過程中,攻擊初期網絡數據會產生一定的偏差,后期則會導致網絡信息泄露,嚴重情況還會導致局域網絡癱瘓。由此可見,若是可以及時的發現并提取網絡偏差數據,即可為網絡防御提供充足的時間以及原始數據支撐,為網絡管理質量的提升提供了一個新的方向。相關學者也對此進行研究。邵光遠,劉凱[3]提出了一種基于統一計算設備架構(CUDA)的GS流和IP數據的提取方法,從任務劃分,降低耦合度,負載均衡的角度進行了設計和優化,基于CUDA的解決方案獲得了極大的性能提升,在GTX 1050Ti平臺上達到了20~22倍的加速比,但是提取覆蓋率較低;金海波,馬海強[4]提出一種基于統計深度方法的函數曲線特征分段提取算法.利用數據平滑技術對離散觀測的數據進行平滑化處理,同時引入函數型數據的一階和二階導函數;然后,分段計算函數本身及其低階導函數的馬氏積分深度值,在此基礎上構造函數曲線特征向量,給出三種選擇調節參數的搜索方案,并進行分類研究,所提算法能有效提取函數曲線特征,提高分類的準確性,但是提取用時較長。
就現有研究成果來看,現有網絡偏差數據提取方法在網絡吞吐量達到10000Mbps以上后,有偏差數據提取覆蓋率較低、時間消耗較多的缺陷,無法滿足目前網絡性能的需求,故提出基于智能計算的網絡偏差數據提取數學仿真研究。智能計算指的是一種經驗化的計算機思考性程序,主要功能為輔助人類解決復雜問題,其包含多種智能計算算法,例如遺傳算法、進化算法、人工魚群算法等[4]。此研究依據網絡偏差數據提取需要,選擇適當的智能計算算法,以此來改善文獻[3]方法的局限性,為網絡管理提供保障。
網絡由大量的節點構成,并且具備著數據量龐大的特征,若想快速的、精確的提取網絡偏差數據,首要的任務就是實時的檢測網絡偏差數據。由于常規算法存在著空間復雜度高的問題,容易導致偏差數據檢測的缺失,故此研究基于信息熵對網絡偏差數據進行檢測[5]。
基于信息熵的網絡偏差數據檢測程序如圖1所示。

圖1 基于信息熵的網絡偏差數據檢測流程圖
如圖1所示,隨著采集時間的不斷變化,改變網絡節點所獲取數據的形式[6]。常規情況下,時間t處采集的數據與歷史數據與后繼數據存在著時間相關性,故此研究設置時間間隔為ΔT,則網絡數據時間序列可表示為
X(T)=[…,x(t-ΔT),x(t),x(t+ΔT),…]
(1)
以式(1)為基礎,計算網絡數據信息熵序列,反映窗口內數據序列的分布特征。設置滑動窗口規格為W,窗口內數據序列記為Xj(t),其信息熵記為hj。設定數據序列Xj(t)取值范圍為R={x1,x2,x3,…},其信息熵計算公式為
(2)
式(2)中,pi表示的是每個網絡數據采樣概率;count(xi)表示的是數據xi在窗口內數據序列Xj(t)中出現的次數。
隨著窗口[7]的持續滑動,按照順序計算窗口內數據的信息熵,得到數據信息熵時間序列為H(t)={h1,h2,h3,…,hj,…}。
聯合偏差概率計算公式為
P=1-(1-c1p1)(1-c2p2)
(3)
式(3)中,P表示的是聯合偏差概率;c1與c2表示的是權重系數;p1與p2表示的是數據偏差概率與信息熵偏差概率[8]。
數據與信息熵偏差概率由窗口內不與某一數據點相鄰的數量與窗口規格大小的比值計算而得[9]。而窗口內不與某一數據點相鄰的數量由數據之間距離與閾值比較確定,確定規則如下述公式所示
(4)
式(4)中,D表示的是數據之間距離;σ表示的是設置閾值;n表示的是窗口內不與某一數據點相鄰的數量。
通過調節權重系數c1與c2,可以控制數據偏差概率與信息熵偏差概率在偏差數據檢測中的權重比例,以此來提升網絡偏差數據的靈活度。
聯合偏差概率需要滿足下述公式
(5)
式(5)中,Ee(p)表示的是節點在窗口內偏差概率的數學期望,穩定環境下為常數;En(p)表示的是網絡穩定工作時偏差概率的數學期望;σp表示的是聯合偏差概率閾值。
以上述獲得的網絡偏差數據檢測結果為基礎,采用遺傳算法對其進行更新與平滑處理,并通過平方差函數值最小機制更新偏差數據的中心點,計算偏差數據的功率譜密度函數,將其作為網絡偏差數據特征,從而獲取網絡偏差數據特征響應函數[10]。
假設網絡數據集合X中每個數據均是ρ維矢量,采集時間t處的網絡數據變量記為δ。當?δ=1時,表明網絡數據為正常數據;當?δ=-1時,表明網絡數據為偏差數據。則網絡偏差數據的頻域模型為
(6)
則每一類別網絡偏差數據樣本屬于該類別的隸屬均值為
(7)
式(7)中,Kζ表示的是第ζ類別的網絡偏差數據樣本總數量。
(8)
(9)
將式(9)估計結果代入至式(8)即完成了網絡偏差數據特征模型的構建,為后續偏差數據快速提取打下堅實的基礎。
設置網絡偏差數據訓練集為L,樣本類別中已知類別為φm,利用遺傳算法對偏差數據進行特征優選。定義網絡偏差數據融合濾波器函數表達式為
(10)
式(10)中,αt(i)表示的是網絡偏差數據的檢測節點信道偏差;bj(ot+1)表示的是方差為1,均值為0的高斯函數;Sd(f)表示的是多普勒功率譜。
遺傳算法偏差數據特征優選主要通過迭代查詢形式,其表達式為
pri(t)=p(t)*qi(t)+H(f)
(11)
式(11)中,pn(t)表示的是迭代查詢散布形式;p(t)表示的是時間t處的網絡偏差數據特征集合;qi(t)表示的是p(t)提取過程中的變異參數。
則網絡偏差數據特征響應函數表達式為
Sri(t)=Sd(t)*q′i(t)+pri(t)
(12)
式(12)中,q′i(t)表示的是網絡偏差數據的信道響應函數。
通過上述過程獲得了網絡偏差數據特征響應函數,為后續網絡偏差數據的快速提取提供精確的依據。
以上述確定的網絡偏差數據特征響應函數為偏差數據判定依據,結合網絡偏差數據的距離與密度,改善現有方法的缺陷,基于智能計算算法實現網絡偏差數據的提取[11]。
常規情況下,對于網絡偏差數據樣本點,包含兩個參數,即為網絡偏差數據距離Φi與密度ρi。其中,網絡偏差數據距離計算公式為
Φi=min(dij)
(13)
式(13)中,dij表示的是網絡偏差數據樣本點i與j之間的距離。
網絡偏差數據密度由截斷距離來決定,常規情況下,截斷距離的選取原理為:將全部偏差數據樣本點之間的距離依據從大到小的順序排列,計算前3%距離數值的平均數值,將其作為截斷距離。則網絡偏差數據密度計算公式為
(14)
式(14)中,dc表示的是截斷距離。
上述過程獲得的截斷距離未考慮到網絡偏差數據的局部特征,故需要對截斷距離進行一定的修正。在網絡偏差數據集合中,計算某一偏差數據樣本點i與其它樣本點之間的歐式距離[12],記為d(i,j),依據降序排列,則偏差數據樣本點i的κ個最鄰近表示為
N(i)=d(i,j)≤d(i,Nκ(i))
(15)
式(15)中,Nκ(i)表示的是第κ個相鄰近距離的偏差數據樣本。
則偏差數據局部密度計算公式為
(16)
式(16)中,κ由網絡偏差數據樣本數量的百分比決定。以式(16)計算結果為基礎,計算精確的網絡偏差數據歐式距離為
(17)
式(17)中,N表示的是網絡偏差數據樣本數量。
為了驗證提出方法與文獻[3]方法、文獻[4]方法之間的性能差異,采用數學仿真軟件——CSDN軟件設計仿真,具體實驗過程如下所示。
數學仿真指的是以近似數學方程式為基礎的仿真方法,實質上就是采用數學公式來表示被仿真對象。數學仿真基本步驟如下所示:
步驟一:依據實驗目的構建系統的數學模型;
步驟二:依據構建數學模型的特點選擇適當的計算機作為仿真工具;
步驟三:將數學模型轉換成選擇計算機能夠接受的形式,也將其稱為仿真模型,同時將轉換后數學模型輸入至計算機中;
步驟四:構建計算機輸入數學模型,同時記錄各個狀態量的變化情況;
步驟五:輸出實驗結果,同時形成實驗報告。
依據網絡偏差數據提取的需求,選擇CSDN軟件作為數學仿真工具,以此來進行網絡偏差數據提取實驗。選取計算機配置如表1所示。

表1 計算機配置表
實驗所用網絡數據來源于英特爾伯克利研究所,其數據集合由35個傳感器節點構成的網絡采集所得,其網絡部署結構如圖2所示。

圖2 網絡部署結構圖
將偏差數據注入實驗網絡中,為了提升實驗的客觀性,對實驗網絡數據進行隨機打亂,提高后續實驗進行的公正性。
另外,設置滑動窗口規格為1000,窗口滑動設置為持續滑動形式。在時間t處滑動窗口內包含100個網絡數據。
為了顯示偏差數據注入后網絡節點的變化,給出某一時刻的滑動窗口內網絡數據信息熵變化情況示意圖,如圖3所示。

圖3 網絡數據信息熵變化示意圖
依據上述選取的數據仿真軟件,準備的實驗數據進行網絡偏差數據提取實驗。自變量選擇網絡吞吐量,其區間為10000-50000Mbps,通過偏差數據提取覆蓋率與時間消耗數據反映方法性能。
通過實驗得到偏差數據提取覆蓋率數據如表2所示。

表2 偏差數據提取覆蓋率數據對比結果
通過實驗得到偏差數據提取時間消耗數據如表3所示。

表3 偏差數據提取時間消耗數據對比結果
如表2、表3數據顯示,在網絡吞吐量10000-50000Mbps背景下,與文獻[3]方法、文獻[4]方法相比較,提出方法的偏差數據提取覆蓋率更大,時間消耗更少,充分表明提出方法具備更好的網絡偏差數據提取效果。
此研究引入智能計算技術,并依據網絡偏差數據提取需求,選擇了適當的智能計算算法——遺傳算法,提出了全新的網絡偏差數據提取方法,采用數據仿真形式驗證了提出方法的性能,發現提出方法極大的提升了偏差數據提取覆蓋率,降低了時間消耗,可以為網絡管理提供更加有力的支撐。