張瑞,王曉菲



摘要:為了更好地保障網(wǎng)絡數(shù)據(jù)運行安全,提出了基于鄰域差分濾波的網(wǎng)絡數(shù)據(jù)增強方法,通過對網(wǎng)絡數(shù)據(jù)進行采集,結(jié)合鄰域差分濾波對采集所得數(shù)據(jù)進行分類,構(gòu)建大量標簽進行數(shù)據(jù)支持,有針對性地進行網(wǎng)絡數(shù)據(jù)增強,解決傳統(tǒng)數(shù)據(jù)增強方法訓練難度大、數(shù)據(jù)缺失等問題。實驗結(jié)果表明,基于鄰域差分濾波的網(wǎng)絡數(shù)據(jù)增強方法訓練更穩(wěn)定,可以更好地提高網(wǎng)絡數(shù)據(jù)運行精度和安全,增強效果明顯較好,具有更高的可行性和有效性。
關(guān)鍵詞:鄰域差分濾波;網(wǎng)絡數(shù)據(jù); 數(shù)據(jù)增強
中圖分類號:TN912? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)21-0035-02
開放科學(資源服務)標識碼(OSID):
隨著鄰域差分濾波技術(shù)的發(fā)展,基于鄰域差分濾波的網(wǎng)絡數(shù)據(jù)增強方法有所突破。當網(wǎng)絡數(shù)據(jù)樣本標記充分時,使用鄰域差分濾波方法可提高分類精度。但是,但由于部分環(huán)境下受到較強的干擾或攻擊行為影響,導致網(wǎng)絡的穩(wěn)定性和泛化能力都很差,網(wǎng)絡數(shù)據(jù)的收集和標簽數(shù)據(jù)獲取相對較為困難,且需要花費很多時間和精力[1]。基于上述方法,需要進一步進行網(wǎng)絡數(shù)據(jù)的增,對小數(shù)據(jù)集上的網(wǎng)絡數(shù)據(jù)進行有效的訓練和增強處理。網(wǎng)絡數(shù)據(jù)增強是克服信息受損的重要方法[2]?;卩徲虿罘譃V波的網(wǎng)絡數(shù)據(jù)增強方法將有限的數(shù)據(jù)合并或轉(zhuǎn)換為新數(shù)據(jù)。將灰度變換簡單的方法結(jié)合起來,將仿射變換應用于網(wǎng)絡。將幾何變換和網(wǎng)絡運算結(jié)合起來,可以在一定程度上減少過擬合法,提高網(wǎng)絡泛化能力。
1 基于鄰域差分濾波的網(wǎng)絡數(shù)據(jù)預處理
為了保證網(wǎng)絡環(huán)境的健康穩(wěn)定運行,首先需要對網(wǎng)絡異常數(shù)據(jù)進行采集和分類,以便后續(xù)進行增強處理,為保障研究效果,歸納總結(jié)了多種網(wǎng)絡異常數(shù)據(jù)采集方法[3]。以數(shù)據(jù)采集方法為核心,對特征數(shù)據(jù)進行預處理。在網(wǎng)絡流量異常檢測方面,幾乎所有的網(wǎng)絡流量在送往異常檢測器前都要經(jīng)過數(shù)據(jù)預處理[4]。
利用鄰域差分濾波進行網(wǎng)絡數(shù)據(jù)的采集篩選和異常檢測處理。針對采集篩選獲取網(wǎng)絡流量異常的數(shù)據(jù)集,進行通常數(shù)據(jù)特征粒度的分類。在網(wǎng)絡數(shù)據(jù)預處理的過程中,將包層進行 記錄,檢測數(shù)據(jù)的高維稀疏特征,并進一步對網(wǎng)絡結(jié)構(gòu)中的冗余數(shù)據(jù)進行剔除[5]。為保障網(wǎng)絡流量數(shù)據(jù)預處理的正確性,保證網(wǎng)絡數(shù)據(jù)增強效果,進一步對采集所得數(shù)據(jù)中維數(shù)過大的信息進行優(yōu)化,結(jié)合NP-hard方法對多維輸入空間的復雜度進行降維處理,隨著網(wǎng)絡數(shù)據(jù)中每個新變量的索引而增加,篩選網(wǎng)絡數(shù)據(jù)矢量的相似性,從而保證網(wǎng)絡數(shù)據(jù)預處理的精確度和有效性。網(wǎng)絡數(shù)據(jù)增強是克服數(shù)據(jù)不足的一種重要方法,基于數(shù)據(jù)預處理結(jié)果,進一步在有限的網(wǎng)絡數(shù)據(jù)中進行特征數(shù)據(jù)的組合和轉(zhuǎn)換處理,并進一步結(jié)合鄰域差分濾波算法生成新的特征數(shù)據(jù)。在此基礎(chǔ)上,進一步給出網(wǎng)絡數(shù)據(jù)的變換的數(shù)據(jù)增強方法,結(jié)合旋轉(zhuǎn)參數(shù),縮放數(shù)值,位移信息等進行處理。并進一步對網(wǎng)絡數(shù)據(jù)特征的對比度變換和附加噪聲進行消除?;陬A處理后的網(wǎng)絡標簽,對網(wǎng)絡領(lǐng)域進行定位。以幾何變換為基礎(chǔ)鄰域差分濾波進行網(wǎng)絡數(shù)據(jù)的增強運算,有效緩解網(wǎng)絡數(shù)據(jù)增強過程中常見的過擬合問題,提高網(wǎng)絡數(shù)據(jù)推廣能力。
2 網(wǎng)絡數(shù)據(jù)增強算法
將網(wǎng)絡數(shù)據(jù)中的顯性模式和隱性模式進行劃分。獲取一個隱含的密度模型,即網(wǎng)絡不能明確地給出數(shù)據(jù)分布的密度函數(shù)。以此實現(xiàn)對網(wǎng)絡數(shù)據(jù)函數(shù)式的 WAN全局優(yōu)化推廣,則對其算法進行優(yōu)化,進一步對網(wǎng)絡數(shù)據(jù)增強條件生成對抗網(wǎng)絡加入了分類信息中記為Y,使之能夠生成指定分類的數(shù)據(jù)。
從數(shù)據(jù)增強的角度出發(fā),通過改進生成對抗網(wǎng)絡的結(jié)構(gòu)和訓練算法,設計了一種基于生成對抗網(wǎng)絡的數(shù)據(jù)增強方法,并將其應用到數(shù)據(jù)增強網(wǎng)絡中。與其他網(wǎng)絡結(jié)構(gòu)相比,提出的鄰域差分濾波網(wǎng)絡結(jié)構(gòu)更適用于數(shù)據(jù)增強任務,當產(chǎn)生的樣本與原始數(shù)據(jù)難以區(qū)分時,可以進行類間分離,實現(xiàn)對學習復合數(shù)據(jù)點邊界的檢測。在訓練算法方面,在鄰域差分濾波算法的基礎(chǔ)上,結(jié)合分類器的訓練過程,推導出一個新的損失函數(shù),使數(shù)據(jù)處理和分類器的訓練同步,不需要額外的存儲空間。在特征相似指數(shù)選擇的基礎(chǔ)上,可以采用多種方法確定最小冗余條件,并進行去除。
假設在網(wǎng)絡數(shù)據(jù)結(jié)構(gòu)中,高正相關(guān)和高負相關(guān)均為冗余,基于此獲取網(wǎng)絡特征數(shù)據(jù)的相關(guān)絕對值,進行網(wǎng)絡數(shù)據(jù)長度的度量,研究發(fā)現(xiàn)網(wǎng)絡流量異常檢測在數(shù)據(jù)預處理階段主要存在兩個問題:一是網(wǎng)絡流量數(shù)據(jù)特征繁多,具有一定的冗余性,二是維數(shù)過高,在實際操作中會帶來許多意想不到的后果,三是網(wǎng)絡流量正常數(shù)據(jù)被提取并標記,成本較高。為解決上述問題,進一步對網(wǎng)絡數(shù)據(jù)進行特征融合,具體的數(shù)據(jù)特征融合方法如下圖所示:
在進行網(wǎng)絡數(shù)據(jù)增強的過程中,數(shù)據(jù)異常檢測和去噪是關(guān)鍵所在。針對這兩個問題,提出了網(wǎng)絡流量數(shù)據(jù)特征化及數(shù)據(jù)增強的新方法。對大小樣本網(wǎng)絡流量數(shù)據(jù)進行預處理,可以獲得高壓力縮率和大樣本流量,從而降低計算成本,提高后續(xù)網(wǎng)絡的異常檢測性能。針對網(wǎng)絡流量數(shù)據(jù)的特點,將網(wǎng)絡數(shù)據(jù)w-dba協(xié)議進行數(shù)據(jù)增強,并將其應用于網(wǎng)絡流量數(shù)據(jù)增強模塊,以生成符合原始數(shù)據(jù)集分布的無線網(wǎng)絡流量數(shù)據(jù)樣本,并且保持數(shù)據(jù)的多樣性。
進一步對網(wǎng)絡數(shù)據(jù)增強模型進行優(yōu)化,網(wǎng)絡數(shù)據(jù)增強模型能有效保證數(shù)據(jù)在增強過程中不存在過擬合和弱分類問題,從而實現(xiàn)準確、有效滿足用戶的個性化需求,適合于各種網(wǎng)絡場景和環(huán)境?,F(xiàn)有的網(wǎng)絡數(shù)據(jù)增強模型主要應用于人臉識別、目標檢測和目標跟蹤等網(wǎng)絡處理過程。在進行網(wǎng)絡數(shù)據(jù)增強處理的過程中,需要考慮建立需要代價因素進行優(yōu)化,通過設置有限的網(wǎng)絡訓練樣本,避免對網(wǎng)絡數(shù)據(jù)進行強化處理,從而達到限制特征分類精度的目的。在此基礎(chǔ)上,提出了一種基于鄰域差分濾波進行網(wǎng)絡增強數(shù)據(jù)選擇策略的優(yōu)化,這種策略對于具有連續(xù)值的數(shù)據(jù)集更為有效,不受值的絕對大小的影響,而更關(guān)注特征之間的數(shù)值比例。可以更好地進行數(shù)據(jù)增強處理?;谏鲜龇椒ㄟM一步優(yōu)化了網(wǎng)絡數(shù)據(jù)變化方向、大小和間隔,并采用網(wǎng)絡數(shù)據(jù)特征屬性提取算法實現(xiàn)了量化特征直方圖的標準化,在不影響數(shù)據(jù)特征和距離特征檢測結(jié)果的前提下,分析了網(wǎng)絡特征的變化、影響范圍和干擾程度,并對干擾和冗余成分進行了去除。在數(shù)據(jù)增強空間較大時,通常需要快速尋找優(yōu)化的任務分配方法,建立處理集合,減少處理時間,節(jié)省處理成本。由于網(wǎng)絡數(shù)據(jù)中心處理大量數(shù)據(jù),所以云數(shù)據(jù)中心需要頻繁地運行。為保證跨數(shù)據(jù)中心大數(shù)據(jù)處理的性能和可靠性,提出一種容錯調(diào)用策略。具體過程中如下圖所示。