網絡流量時延特征數據的識別方法仿真

2022-06-14 09:49:56周家愷綦方中

計算機仿真 2022年5期

周家愷，綦方中

(浙江工業大學，浙江杭州 310023)

1 引言

近年來，我國互聯網接入技術的基礎設施不斷完善，智能終端設備開始大范圍普及[1，2]，各種應用服務持續創新。手機作為典型的通信設備，主要通過鏈路方式和互聯網進行連接，在不同的接入條件下[3]，各個用戶的行為和偏好存在明顯差異。現階段，只有運營商才有資格控制大規模的流量，但是專家沒有權利公開獲取數據。未來階段深度網絡特點的分析和預測是互聯網發展的主要趨勢，尤其是網絡流量時延特征識別。

國內外相關專家針對該方面的內容進行了大量的研究，例如黎佳玥等人[4]優先訓練網絡，獲取網絡流量的特征變化趨勢，將其作為判定依據進行網絡安全事件識別。武思齊等人[5]分別從硬件特點和用戶的行為偏好等角度出發獲取具有代表性的數據流，針對各個特性進行處理和分析，采用集成學習算法構建識別模型，完成移動流量識別。由于上述兩種方法未能在網絡流量時延特征識別過程中構建極端梯度提升模型，導致識別結果不理想，響應時間也較長。

為解決上述問題，設計并提出一種基于樸素貝葉斯的網絡流量時延特征識別方法。測試結果表明，所提方法能夠獲取高精度高效率的識別結果。

2 方法

2.1 網絡流量時延特征

網絡流量時延產生的原因是多種多樣的，利用圖1給出網絡時延產生的主要因素[6]。

圖1 網絡時延形成因素

當數據從發送端發出到接收端收到，導致時延產生的主要原因有：

1)通信鏈路限制

主要是受訪問鏈路以及路由等相關因素的限制。

2)網絡負載變化

網絡負載變化主要是由網絡波動和用戶流量等因素造成的，若時延波動較大，說明網絡負載抖動較為明顯。在通信鏈路中由于其特性導致時延的形成，不同類型的通信方式會對網絡時延產生不同程度的影響。在實際研究的過程中，設定網絡負載引發的時延為噪聲，以此為依據分析通信鏈路限制對網絡流量時延特征的影響，為后續的識別奠定基礎[7，8]。

當用戶進行互聯網訪問時，需要優先接入網絡運營商，利用運營商的核心業務連接互聯網的骨干網絡。其中，通信鏈路是由接入鏈路和互聯網路由鏈路組成。

若網絡負載對數據時延產生的影響不明顯，此時網路流量中的時延主要是由通信鏈路噪聲產生的。另外，網絡和固定網絡兩者之間是完全不同，區別在于通信鏈路的接入方式。

由于電量是影響設備運行的主要因素，但是設備并不是時時刻刻都在進行數據傳輸，若設備處于高速傳輸時，需要將狀態調整為高功率狀態；反之，則將其調整為空閑狀態，有效降低電能損耗。若系統終端一直處于空閑狀態，說明無數據傳輸，網絡呈IDLE狀態，優先連接無線網絡，同時進一步轉換為CELL—FACH狀態，確保網絡通信的順利進行，但是產生的時延較長。當網絡中數據傳輸速率高于閾值時，RRC會自動調整到最佳運行狀態。由于網絡終端流量的使用情況并不規律，運行狀態也需要不斷變換。其中，RRC狀態下閾值的變換和時延標準兩者之間存在較為明顯的差異，其中在IDLE狀態下進行數據傳輸的時延可能會更高一些[9]。

網絡系統是一個時變系統，時延無法采用精準的函數描述，但是網絡流量時延和固定網絡時延的特征是不同的。

其中，鏈路時延極小值代表通信鏈路在理想條件下的時延下限。當處于固網高速運行狀態時，使網絡流量時延的取值和0更接近；若處于無線通信狀態下，需要保證網絡流量時延不會小于閾值。

由于網絡內部結構十分復雜，因此導致網絡流量時延產生的因素也有很多，時延的波動性也較大。其中主要原因為天氣以及移動設備的性能等。由于固網主要通過安全可靠的有線進行連接，有效消除網絡負載產生的影響，確保其一直處于相對穩定的狀態。

在網絡環境中，若終端應用在不同狀態下進行數據傳輸時，IP數據會出現各種長度的時延。

采用ping指令，分別設定不同的時間間隔，同時傳輸ICMP報文，同時在國內不同的網絡環境中進行測試。

根據TCP/IP網路協議中的確認機制，得到網絡流量時延主要特征。為更加精準描述網絡通信鏈路對不同屬性的影響，需要優先消除負載產生的噪聲，選取符合條件的網絡流量時延，同時還需要滿足式(1)中的約束條件

(1)

式中，pktdata代表數據報；pktcak代表回應數據；fi代表得到指定數據在流量文件中的序號函數；fr代表得到指定數據報的重傳次數。

傳輸鏈路時延能夠表示為

Delaypkt=ft(pktcak)-ft(pktdata)

(2)

式中，ft代表得到指定數據報的捕捉時間；Delaypkt代表傳輸鏈路時延[10]。

在式(1)中，需要確認是否存在數據反復傳輸的情況。假設存在反復傳輸的情況，則無法確定pktcak/pktdata數據報，同時時延也無法精準計算，因此需要將這樣的數據全部剔除。而式(2)要求盡量降低網絡負載，假設網絡一直處于忙碌狀態，說明存在大量的數據需要進行傳輸，其中部分數據可能處于等待狀態。若網絡中沒有數據進行傳輸，則說明此時網絡處于通暢的狀態。當N的取值越小，則說明網絡發生擁堵的可能性越小；反之，N的取值越大，則說明網絡擁堵的可能性也就越大。

在上述分析的基礎上，結合網絡往返時延計算結果，獲取和數據時延相關的網絡流量特征。同時利用特征描述各個網絡節點接入互聯網技術后形成的時序特征進行匹配。

2.2 基于樸素貝葉斯和極端梯度提升模型的網絡流量時延特征識別

本研究通過樸素貝葉斯和極端梯度提升模型兩者結合組建分類器。主要目的是為了獲取符合網絡需求的樣本特征值(x1，x2，…，xn)，其中符合最高需求的樣本表示為

Vmap=arg maxP(Ci|x1，x2，…，xn)

(3)

式中，P(x1，x2，…，xn)代表任意常數。由于不同屬性的取值是相互獨立的，則有

(4)

通過樸素貝葉斯將式(3)進行簡化，則有

(5)

式中，P(Ci)代表先驗概率。

極端梯度提升模型主要利用決策樹，決策樹包含多種不同的類型，以下主要采用決策樹中的回歸樹，無論處理什么類型的問題，都能夠獲取很好的效果。回歸樹算法的核心思想為獲取網絡流量時延特征的全部權值。

當完成回歸樹建立完成后，輸入空間包含多個輸出值。因此，每一次的輸入全部對應到輸出空間中，方便獲取模型的預測輸出。其中回歸模型的表達形式為

(6)

式中，Rm代表輸出空間中包含的單元總數；cm代表輸出值。

輸入空間確定后，由于輸出數據是連續的，因此計算平方誤差最小就是二叉樹建立的基本準則。針對于確定后的二叉樹各個單元輸出值，單元的平均值設定為最優結果，具體如式(7)所示

cm=avg(yi|xi∈Rm)

(7)

接下來劃分輸入空間，經過劃分后獲取兩個區域，具體如式(8)所示

(8)

式中，j代表第j個變量；s代表第j個變量的取值。

通過最小化平方誤差準則，能夠獲取j和s的取值，即

(9)

其中，集成學習主要利用多個學習器完成任務，因此有時候也能夠被劃分為多個分類器系統。通常情況下，學習器是一個個獨立的個體，將全部個體利用某種方式構成一個整體[11]，即集成學習。整體中包含的個體就是基礎模塊，其中集成學習的示意圖如圖2所示。

圖2 集成學習示意圖

對集成學習的全部思想和理論進行分析總結，同時將有使用價值的策略全部組合在一起，構建一個功能強大的學習器。集成學習中包含三類，具體如圖3所示。

圖3 集成學習的組成

假設包含的是相同的分類器，則學習器被稱為基學習器，具體組成框架如圖4所示。

圖4 集成學習基本框架

提升算法主要采用加法模型，將決策樹設定為基礎算法，同時也是一種前向分布算法。其中初始的提升樹為f0(x)=0，通過加法模型累加起來，第m步能夠表示為

fm(x)=fm-1(x)+T(x；Θm)

(10)

上式中，fm-1(x)當前決策樹的線性組合。

利用經驗風險極小化的方式確定下一棵決策樹的參數Θm計算公式為：

(11)

將多棵樹線性組合起來，獲取更好的擬合數據，因此提升樹是一個高功能的學習算法。其中，CART樹的表達形式為

(12)

通過前向分布算法，當進行到第m步驟時，模型可以表示為fm-1(x)，通過式(10)獲取的參數即為第m棵參數。假設損失函數為平方差，則具體的表達形式為

L(y，f(x))=(y-f(x))2

(13)

將式(10)代入計算能夠獲取網絡流量時延特征識別模型為

r=y-fm-1(x)

(14)

上述的回歸問題，對于文本所需要的分類問題只需要在回歸問題的基礎上方便進行修改[12]。訓練階段對于訓練集D以及不同類型的攻擊都訓練一棵分類回歸樹。其中樣本屬于各個類別的概率為

(15)

(16)

(17)

(18)

(19)

結合上述分析，將極端梯度提升樹模型和樸素貝葉斯兩者進行有效結合，構建一種全新的分類器，同時對分類器進行訓練，采用分類器對分類網絡流量時延特征，最終實現識別。

3 仿真研究

為驗證所提基于樸素貝葉斯的網絡流量時延特征識別方法的有效性，實驗選取200臺主機作為實驗平臺，將各臺主機接入150Mbps的以太網。

實驗對200個測試樣本的網絡流量時延特征進行識別分析，選取所提方法、文獻[4]方法以及文獻[5]方法作為對比方法，實驗的主要目的是驗證各個識別方法的識別性能，其中選取識別正確的肯定比率和絕對誤差作為測試指標，具體的實驗結果如圖5和圖6所示：

圖5 識別正確的肯定比率

圖6 相對誤差

分析圖5和圖6中的實驗數據可知，隨著運行時間和實驗次數的增加，各個方法識別正確的肯定比率呈現初始階段高、后期下降的趨勢，而絕對誤差呈直線上升趨勢。相比另外兩種方法，所提方法識別正確的肯定比率明顯更高一些，而絕對誤差也明顯更低一些。這主要是因為所提方法加入了極端梯度提升模型構建了分類器，全面提升了識別結果的準確性。

在識別的過程中，由于各個方法的操作流程不同，導致各個方法的識別速率存在較為明顯的差異，以下主要通過響應時間衡量不同方法的識別速率，具體實驗結果如表1所示。

表1 不同方法的響應時間對比

分析表1中的實驗數據可知，隨著測試樣本數量的快速增加，各個方法的響應時間也開始增加。由于所提方法在研究過程中加入了極端梯度提升模型，通過構建的分類器進行網絡流量時延特征識別，全面優化了識別流程，同時有效降低響應時間，促使所提方法的性能明顯優于另外兩種方法。

4 結束語

由于傳統網絡流量時延特征識別方法的性能較差，提出一種基于樸素貝葉斯的網絡流量時延特征識別方法。經過實驗測試可知，所提方法能夠全面提升網絡流量時延特征識別結果的準確性，同時還能加快識別速率。由于時間以及環境等多方面因素的限制，導致所提方法仍然存在一定的弊端，后續將對其進行更加深入地研究，使其綜合性能得到全面提升。