多線程電子通信網絡數據流冗余量消除方法

2021-12-10 09:03:00梁振宇

計算機仿真 2021年11期

李菲，梁振宇

(1.中國人民武裝警察部隊遼寧省總隊，遼寧沈陽 110000；2.沈陽大學建筑工程學院，遼寧沈陽 110000)

1 引言

電子通信網絡具有多線程性，用戶在不斷地交換、傳輸數據流的過程中，會產生大量的冗余流量或數據碎片，這些冗余的數據流會不斷增加存儲負擔，降低網絡速度。因此，消除電子通信中數據流的冗余是十分必要的，目前，它在信息技術領域受到了廣泛的關注，是現階段的研究熱點之一。

文獻[1]為減少測試變異數，縮短測試運行時間，研究了變異測試優化技術，提出了基于數據流分析的冗余變異概念和冗余變異識別方法。通過11 C程序對該方法的可行性和有效性進行了分析，但由于過于注重數據之間的相關性，容易忽略網絡環境的約束，影響冗余數據關聯規則的準確性，增加冗余數據的誤判率，降低了消除效率。文獻[2]冗余消除方法是將數據分割成數據塊。該方法需要建立一個基于冗余數據特征的關系空間，將切割后的數據片段輸入到該空間中，然后利用特征關系屬性找到與冗余特征相關的數據塊，最后逐個剔除，完成對冗余數據的清理。但是，由于需要對所有的數據逐一進行剪切，任務龐大，目標范圍過大。對于數據量大的網絡環境，會出現冗余干擾等現象，降低了消除效率。

本文基于上述問題，提出一種多線程電子通信網絡數據流冗余量消除方法。

2 冗余數據流特征提取

網絡信息環境下數據特征具有相似性，在剔除冗余數據時，特征相似的數據往往會導致多重分類處理的現象，容易產生錯誤，影響剔除的準確性。此時，有必要對具有相似特征的數據進行查找和分類，有助于提高后續冗余數據流消除的速度，減少相似性對消除過程的干擾，提高整體效率。

分類前需要提取數據的特征，并采用假設和主動抽樣的方法提取數據的特征，并以計算出的特征值作為判斷依據來確定相似數據。

首先，假設對初始數據進行采樣的所有樣本合集數目為N，則樣本合集的最大類別表示為Nmax；最小類別表示為Nmin，基于此可引出，當包含初始數據的最大類別的樣本合集數量多于最小類別的樣本數量時，可表示為Nmax?Nmin，設ρl為每類數據樣本集合中的分類密度特征[5]，計算公式為

ρl=Ml/K(l=1，2，…，Nmin)

(1)

其中，K表示活躍在數據特征空間中，且最符合歐式距離關系的鄰近數據值[6-7]，Ml表示包含此鄰近數據值K的最大類別的特征樣本合集，以此可以準確判斷出ρl∈[0，1]，與其相關的分類密度ρl可表示為

(2)

假設，第p個數據特征的樣本集合在第j次提取表現時的特征目標數值為dpj，輸出數值為ypj(τ)，根據此關系，推導出符合約束條件的數據特征表達式為

(3)

其中，τ表示數據進行多次迭代的次數[8]，n表示最終輸出的特征數據數量，m表示最后一個樣本訓練合集包含數據的數量，根據數據迭代的所有次數將其表示為

w(τ+1)=w(τ)+ηΔw(τ)+α(w(τ)-w(τ-1))

(4)

其中，η表示數據迭代的效率，α表示基于相似特征的動態變量因子[9]，根據式(4)進行數據提取時的特征收縮量表示為[10]

(5)

式中，φpj(τ)表示輸入初始數據的總數目，o(τ)表示輸出相似特征數據的總數目，以此為基礎，完成基于網絡大環境下的相似性數據特征提取。

設含有正常數據的訓練樣本集合表示為Nh，線性激勵函數表達關系為g(x)，包含相似特征數據的樣本表示為(xq，tq)，且符合以下約束條件

xq=[xq1，xq2，xq3，…，xqn]T∈Rn

(6)

tq=[tq1，tq2，tq3，…，tqm]T∈Rm

(7)

根據上述兩種公式關系，可建立最終的相似性特征數據的提取公式如下

(8)

其中，f表示相似數據的數量。

3 冗余數據流特征分類

基于相似特征數據的有效提取，采取數據動態特性的頻譜分析法對其進行有效分類。

冗余數據的特征會呈現一種離散狀態[11]，根據此特性建立相關分析公式，設數據采集空間關于時間的關系為z=z0，其冗余數據特征在空間內的離散狀態表示為

S+(zm)=W+(zm，z0)S+(z0)

(9)

其中，W+(zm，z0)表示空間內時間點z0到zm的特征分類的數據算子，S+(z0)表示冗余數據的分類合集，在進行有效分類時，可以通過減去前M階級再進行逐一分類，M階級前的分類處理結果為

p(z0)S+(z0)

(10)

其中，p(z0)表示初始數據，t(z0)表示冗余數據的關鍵特征。

假設，f0表示原始數據的離散動態頻率，冗余數據的分類處理結果為

(11)

基于上述過程，利用頻譜關系[12]的線性分析法可以得到最終的適應函數，能實現對大量冗余數據的分類，其表示為

F=XmaxA+(1-Xmax)B

(12)

其中，A表示分類精準度，B表示消除的比例，對此實現加權操作，得出最終分類處理結果

(13)

基于上述步驟可完成最終的冗余數據分類方法，為后續消除處理打下良好基礎。

4 結合冗余數據流特征的冗余量消除算法

4.1 冗余數據流動態查找

根據上述過程中相似特征數據的計算和分類，可以根據相似特征閾值快速確定數據的離散狀態，在一定程度上保證了后續冗余數據流搜索和消除的效率。

利用網絡環境中冗余數據的動態變化特性和更新狀態，進行實時跟蹤記錄，標記網絡中字節頻率變化最大的數據流，實時觀察其變化情況，并且所有數據流狀態表現最相似的數據都可以判斷為冗余數據，從而完成多線程電子通信，查找網絡中所有冗余數據流的具體操作步驟如下。

1)首先，假設在多線程電子通信網絡中有256種不同類別的冗余數據流，且在實時狀態下出現的頻率為[p0，p1，p2，…，p255]，而在這之中，所有數據流的字節值在初始時表現的不同狀態的概率為[f0，f1，f2，…，f255]，挑選在其中表現狀態不同的字節值表示為x0，x1，x2，…，x255，并將其進行串聯合并就可得到

(14)

此公式代表，挑選出的所有經過標記后的冗余數據的出現概率都要小于且等于此數值1/p。

(15)

其中，fi表示動態查找的最大限度值，且利用greedy算法，對此公式進行求解即可得到離散狀態下的實時冗余數據位置。該算法的計算特征是不考慮整體的數據情況，只以其中某一個測量點為選擇重點，進行計算，在一定程度上可減少耗用時間，增強查找效率。

4.2 冗余量數據流消除實現

利用加權算法對冗余數據進行有效消除，步驟如下所示：

首先，建立冗余數據消除空間，然后將上述過程中發現的冗余數據放入空間，實時跟蹤記錄冗余字節值的數量和頻率，并對冗余頻率不同的數據片段進行加權和集成，以去除重復數據片段。具體步驟如下：

假設，在對冗余數據進行統計計算時，將標記的首個字節為A的冗余數據片段的左右距離表示為L，其中，挑選左右距離為L的有效數據片段，表示為LS。這時如果選中前一位數據，后一位就會被覆蓋，此時就需要進行消除處理，步驟如圖1所示。

圖1 重復覆蓋數據處理流程

在實際的網絡冗余數據消除過程中，其數據流在離散狀態下的貢獻頻率為

(16)

式中，cA表示重復冗余數據的修正頻率。

處理重復數據后，通過隨機映射的方式將冗余數據包與正常數據包進行交換，設BF為隨機映射函數，長度為m，其網絡代碼的二進制數目為q，e表示隨機映射合集。當將其輸入至冗余數據空間時，可以通過映射檢測得出其中的比特元素編碼，該編碼可以對冗余數據實現有效替換，它們的替換關系表示為

p≈(1-e-qn/m)q

(17)

其中，n表示替換元素。為了有效保證冗余數據替換消除的時效性，需要選取距離長度為m=2.5MB的二進制數據編碼，可以在最大程度上實現冗余數據的消除。

在多線程電子通信網絡中對冗余量的整體消除流程下所示。

圖2 冗余數據的消除流程

5 實驗研究

5.1 實驗背景

為了確認多線程電子通信網絡中冗余消除過程的有效性，采用數據配置為Intel XeonE3-1230V2的終端服務器，4核配置的CPU處理器，8G內存，128G固態硬盤等作為實驗工具。采取某地區的三種電子通信網絡，將其引入大小為70.2GB的流量包，進行冗余數據的特征和查找以及最后的消除，確保實驗環境的可實施性。

將文獻[1]和文獻[2]方法與本文進行對比分析，保證實驗結果的真實性及合理性，其網絡環境及流量參數如表1所示。

表1 實驗環境及流量參數

5.2 字節節省空間對比分析

挑選表1中的1號和5號大范圍跟蹤數據作為實驗背景，其目標范圍較大，可以保證實驗的直觀性。通過三種方法分別對兩種跟蹤數據下的所有冗余數據進行消除，得出實驗的字節數據節省空間對比結果如圖3所示。

圖3 跟蹤數據1號的字節數據節省空間

從圖3和圖4的對比分析結果可以看出，無論在哪種流量環境下，基于本文的冗余數據消除方法的字節節省率都要高于其它兩種算法30GB以上。其它兩種方法中，字節節省率曲線呈現出波動大、狀態不穩定的下降趨勢。這主要是因為它過于依賴冗余數據的特征屬性，而忽略了原始數據造成的冗余干擾。數據之間的相似性會導致多次分類處理無果的現象，導致離散狀態的冗余數據頻繁出現，無法消除或殘存，數據完整性較差，從而降低了準確率和效率。但是因為本文方法在搜索和消除冗余數據之前，該方法首先計算并分類原始數據相關特征的相似度，可以有效地對特征相似數據進行區分，而不存在冗余干擾，從而減少后續消元過程中的判斷誤差，提高整體準確度，保證消元過程的有效實施。

圖4 跟蹤數據5號的字節數據節省空間

5.3 加速比分析

以表1中的4號跟蹤數據作為實驗背景。通過三種方法分別對兩種跟蹤數據下的所有冗余數據進行消除，得出消除過程的整體加速比指標的對比結果如圖5所示。

圖5 跟蹤數據4號的加速比對比

加速比表示基于同一項目任務的任意兩種處理系統的數據運行耗用與時間消耗的比值，其表達公式如下所示

(18)

式中，p表示CPU耗用數量；T1表示整體耗用時間；Tp表示任務處理時整體耗用的時間。

從圖5的對比分析結果可以看出，使用本文方法的加速比曲線整體走勢平緩，穩定性較強，

表明消除過程耗用時間較少，速度較快，可以降低網絡的延遲性，改善數據儲存問題。

6 結論

1)對原始數據進行特征相似度搜索和分類的預處理，可以有效地改善原始數據造成的冗余干擾和處理的惡性循環，加速比最高可達8，大幅提高后續的消除效率和處理難度。

2)采用數據替換的方法可以有效地消除冗余數據流量，同時又不破壞數據的原有特性，保證數據的完整性，高于其它兩種算法30GB以上，可以節省大量的網絡空間，優化多線程電子通信網絡。