李軍華,丁憲成
(1.江蘇理工學院,江蘇 常州 213001;2.常州大學,江蘇 常州 213016)
將兩個沒有任何物理連接的計算機,通過網絡的虛擬技術進行連接,從而形成一種至少包含兩個部分的計算機網絡,被稱為虛擬化網絡,其中最常見的虛擬化網絡,它們分別為:以協議模式所生成的虛擬化網絡,例如:虛擬專用局域網業務(VirtualPrivateLanService,VPLS)、虛擬專用網絡(Virtual Private Network,VPN)與虛擬局域網(Virtual Local Area Network,VLAN);虛擬化設備,例如:在虛擬機監視器(Virtual Machine Monitor,VMM)內部連接虛擬機。
經過互聯網的快速發展,虛擬化網絡也隨之產生變化,其不足點在于:一VLAN技術沒有辦法在云計算內使用;二融合數據需要重新定位工作的范圍;三虛擬交換機,為新的虛擬工作負載;四虛擬化網絡服務的蔓延。要想實現這些功能,必不可少地需要與大數據相結合,以大數據作為支撐,從而實現虛擬化網絡的發展。但是大數據的數據量龐大,其中不乏存在一些異常數據,導致網絡運行過程中出現錯誤,所以需要對這些數據進行檢測、剔除。
文獻[1]構建起始擬合數據,通過B樣條曲線方法建立遞推模型,采用基于樣條平滑的方法計算判斷門限對于雙向檢驗的結果,觀察數據是否存在異常,同時對滿足修復條件的數據實現擬合修復,當雙向檢驗結果不同時,利用構建的內推模型,實現進一步的檢驗。文獻[2]采用長基線定位野值點法實現數據的修正,利用卡爾曼絕對值數據作為標準,以此完成對數據的檢測,通過調整卡爾曼的濾波轉變成野值點的修正值,考慮到濾波模型實際應用時不匹配的狀態,會導致濾波前后數據信息的偏差比較大,因此,對不正常數據點進行處理,完成數據剔除。
上述方法雖然能夠實現數據剔除,不過剔除效果不夠理想,誤剔除數據較多,為此本文提出一種虛擬化網絡中的異常大數據剔除算法,通過事先對異常數據進行挖掘、檢測,最后利用粒子群優化以及支持向量機完成剔除,以此可以減少誤操作帶來的影響。
要想實現虛擬化網絡內的異常大數據挖掘,需要對網絡中的異常大數據進行類似度分析,通過分類決策樹C實現異常大數據的類似度分解[3]。再對異常大數據的混合屬性以及分類屬性進行識別,構建混合屬性的分類模型,同時,利用數據屬性的類似度進行分析,求出模糊屬性集X的奇異值,具體公式為
X=UDVT
(1)

(2)
式中:psp(si,qj)代表冗余數據的概念集qj以及自身概念集si,即異常簇中的數據信息,其模型為[s,q]=[x(t),x(t+τ)],可以計算出模糊信息的閉頻繁項,s表示取樣信息流x(t)的序列樣本,q代表延遲時間樣本,延遲序列是x(t+τ),I(Q,S)通過τ代表模糊決策函數的自變量[4]。
(3)
式中:d代表數據集中的類別標簽,λ代表數據之間的原始類似度,h2代表簇與簇之間的距離,a2代表簇中心群。
通過大數據不同屬性處于不同聚類內的差異性,從而識別異常數據,具體獲得的精確概率密度函數公式為
(4)
式中:λS代表數據采集的類似度系數,p2D代表簇內的信息分布密度。具體異常大數據的相異度公式為:
(5)
式中:Dis(A)代表聚類過程擴展的損失,Dis(B)代表屬性的數據集。
以虛擬化網絡異常大數據的類似度分析結果作為基礎,提取分類特征以及數值特征[5]。如果X代表存在m個分類的異常大數據集,那么第i個數值的異常大數據y(k)以及分類訓練的數據集φ(k),具體公式為
y(k)=s1(k)+n1(k),φ(k)=s2(k)+n2(k)
(6)
s1(k)=AAHej(Ωk+θH),s2(k)=AAHej(Ωk+θHB)
(7)
式中:AH,AHB以及θH、θHB分別代表函數H(z)與HB(z)相應的幅值以及屬性特征量、p個元素的屬性值。將其與目標方法的最小化進行結合,實現尋優條件,就可以獲得分類以及數值的特征集合,具體可以得到公式
RβX=U{E∈U/R|c(E,X)≤β}
(8)
RβX=U{E∈U/R|c(E,X)≤1-β}
(9)
相對于第i個分類的屬性兩個數據塊mi以及mj,利用分解數據的對象mi,j(1≤i≤n,1≤j≤k)即可實現混合特征,聚類特征系數能夠表示為{λi:1≤i≤S},而判別準則能夠表示為{λj:1≤j≤L}。通過異常大數據的分類差異性,可以獲得訓練函數f與dγ0之間的模糊概念集[6],具體公式為
(10)

采用關聯規則的分析法,融合異常大數據模糊集,求出異常大數據的自相關特征分塊函數,可以得到具體公式為
(11)
(12)
Si=Sb+Sω
(13)
式中:p(ωi)代表離散區間內的規則向量集,u=E(x)代表數據的離散區間數。
利用歸一化方法,對異常大數據的關聯規則模型X(t)進行處理,獲得全新的聚類模態函數,具體公式為
(14)

由于在異常數據挖掘過程中會將所有的異常數據挖掘出來,不管是無用的冗余數據,還是有用數據,都要對其進行冗余處理。在進行冗余過濾的過程中,通過測量數據間的接近度驗證虛擬化網絡數據,把網絡內的節點數據作為一個集合,同時利用模糊集合間的接近度,設定冗余數據的判定門限值,從而確認網絡內的冗余信息,并且進行濾除[8]。步驟如下:
如果ai′表示虛擬化網絡中節點Wi′所測得的數據,aj′表示虛擬化網絡中的節點Wj′所測得的數據,ai′j′表示虛擬化網絡中的節點Wi′以及Wj′所測得的數據間接近程度。具體ai′j′的計算公式為
(15)
式中:μ代表一個閾值,該閾值為虛擬化網絡中傳感器的測量精度對大數據類似度的影響。
通過式(16)能夠構建虛擬化網絡中的大數據接近度矩陣A′,具體公式為
(16)
式中:N表示矩陣的元素個數。
基于式(16)內的A′第i′行元素,設置行間數據的類似度函數公式為
(17)
式中:Ki′數值越大,則說明第i′個虛擬化網絡中節點測得的異常數據與多數測得的數據類似度越接近,相反,第i′個虛擬化網絡中節點測得的異常數據與多數測得的數據類似度相差就越大[9]。
通過式(17)進行結果計算,能夠獲得虛擬化網絡中所計算的冗余數據,如果v表示門限值,把Ki′>v類似度數據確認成被過濾掉的數據,標記成集合Q,若想將集合Q清除,那么具體公式為
(18)
式中:Ui′j′表示已將冗余數據清除之后的虛擬化網絡數據集合,G(κ)表示冗余數據的過濾器[10]。
通過式(18)的計算,能夠將虛擬化網絡中的冗余大數據進行清除,以此為異常大數據的剔除提供了基礎。
通過將冗余數據過濾之后,將其代入支持向量機以及粒子群優化算法內,即可剔除異常的大數據。在具體實現的過程內,對粒子群原始化參數進行設置,轉變成二維的模式,以此表示支持向量機數值,然后訓練粒子,得到適應度函數。即可得出粒子的最佳值以及全局數據,把二者相結合構建數據庫,采用數據庫就可以對所有粒子進行位置更新。以此對粒子的尋優條件進行判斷,觀察其能否滿足結束條件。如果結果是采用最佳粒子所構建的虛擬化網絡中異常大數據檢測模型,那么即可檢測出異常大數據,最后加入異常大數據的剔除窗口以及滑動窗口調整參數量,就能夠實現異常大數據的剔除。
針對虛擬化網絡中的異常大數據規模確認粒子群內的粒子個數,設置成m′,同時,設置粒子為二維模式,獲得支持向量機的參數γ和σ。
通過支持向量機實現所有粒子的訓練,從而獲得粒子的適應度函數公式為
(19)
式中:F″表示粒子適應度的函數,k(x,xi″)表示核函數。
通過計算式(19)能夠獲得適應度的函數,從而得到粒子全局最佳值以及個體最佳值。具體公式為
P″bestxi″=(P″xi″1,P″xi″2,…,P″xi″e)
(20)
gbestxi″=(bg1,bg2,…,bge)
(21)
式中:P″bestxi″表示粒子個體的最佳值。gbestxi″表示粒子全局的最佳值。把粒子個體的最佳值以及全局的最佳值進行結合,從而建立數據庫。
采用以上數據更新所有粒子位置,具體公式為
x(t′+1)=(P″bestxi″·gbestxi″)±β·m′best
(22)
式中:x(t′+1)表示粒子的位置,β表示調節粒子的尋優收斂速度,m′best表示粒子群的最佳中值。
在計算方法迭代至第t′次時,β的具體計算公式為
(23)
式中:t′max表示最大的迭代次數。
隨著迭代的次數增加,對尋優的結束條件進行判斷,在滿足時,能夠將最佳粒子作為支持向量機的最佳參數,建立最佳異常大數據的檢測模型,可以得到具體公式為
(24)
式中:y(x)表示異常大數據的檢測模型,采用此模型能夠把虛擬化網絡中的異常大數據檢測出來,γ′和σ′代表支持向量機最佳參數,bestx表示最佳粒子。
通過計算式(24)的結果,能夠檢測出網絡中的異常大數據,而具體的剔除方法公式為
(25)

為了驗證本文方法的異常大數據剔除效果,將本文方法與文獻[1]、文獻[2]方法在同一實驗環境下進行對比,具體的實驗環境為:主頻CPU是Inter Core2 Dou E7400 2.80GHz、8GB的內存、帶寬4M、硬盤500GB以及Xeone5型的服務器。
選擇虛擬化網絡內已知的大數據集作為實驗數據條件,通過人為的方法添加10條異常數據,構成100000條。將所有的數據存儲于節點內,然后經過多次實驗,以節點形式劃分為多個小組,觀察效果,具體結果如圖1所示:

圖1 異常大數據剔除結果對比
通過觀察圖1(a)能夠看出:異常大數據隱藏在虛擬化網絡內,非均勻地分布于各個區域中,用黑色標記,以便于更好地觀察剔除效果。圖1(b)采用的是文獻[1]方法,該方法僅能夠對少量異常數據進行剔除。文獻[2]方法剔除效果優于文獻[1]方法,但是在實際應用過程中,仍然很難滿足使用者的需求。而本文方法通過引入支持向量機以及粒子群優化算法,能夠有效地剔除異常大數據,網絡經剔除處理后無黑色節點,證明效果良好。
為了進一步驗證本文方法的有效性,以誤剔除率為實驗指標,對比不同方法的剔除效果,結果如圖2所示。

圖2 誤剔除率對比
分析圖2可知,本文方法在虛擬化網絡異常大數據剔除中,誤剔除率明顯低于傳統方法。這是由于該方法通過決策樹模型分解異常大數據的數值屬性特征以及分類屬性特征,可以更有針對性地對數據進行剔除,因此,降低了剔除過程中的誤差。
本文提出的虛擬化網絡中的異常大數據剔除算法,不僅能夠有效剔除異常大數據,而且與其它方法對比誤剔除率較低,具有可應用于虛擬化網絡中的現實價值。不過隨著網絡發展速度的日新月異,用戶量每天都在增加,同時數據量也在時刻地增加,所以,本文方法未來需要進一步的更新、優化,從而提升剔除的精度,加快剔除的時間,從而使其降低計算量,減少工作的時間。