張金龍,孫國同
(中電科普天科技股份有限公司,廣東 廣州 510310)
傳感器網絡是以傳感器為節點,采用無線方式完成通信的自組織網絡,廣泛應用于生態監測、健康護理、智慧交通以及智慧物流等領域。目前,隨著網絡攻擊不確定性和復雜性的增加,傳感器網絡的安全預測問題備受關注。傳感器網絡的數據具有多模態、冗余性以及差異性的特點,且傳感器之間存在異構性,給傳感器網絡的數據融合帶來了一定難度。此外,由于安全監控手段多樣,不同類型的安全監控設備對傳感器的安全評估精度存在一定的差異。文章重點研究如何將傳感器提供的信息通過融合后形成對安全監測環境的一致性表述。首先,采用卷積自編碼網絡(Convolutional Auto-Encode,CAE)對不同模態的異構數據進行編碼表示和解碼(重構),從而實現不同模態異構數據統一維度的特征表示,解決傳感器之間的異構性問題。其次,為有效解決不同模態數據的差異性,以卷積自編碼網絡為基礎,采用無監督交叉模態哈希檢索方法(模態內一致性、模態間一致性)約束解碼語義(特征重構),將模態內和模態間一致性約束應用于解碼(重構)與全局特征學習,解決編碼-解碼過程前后的特征損失問題,從而提升編碼表示的精度。最后,為有效利用標簽信息,利用線性回歸學習多模態數據的線性回歸二進制碼,并將其與多模態數據特征進行加權融合,實現安全類別預測。
卷積自編碼網絡實際上是一種卷積自編碼器,工作過程與傳統的編碼器一致。首先通過卷積核自動提取數據特征,并通過編碼表示數據語義,其次解碼數據語義,最后調整編碼和解碼的網絡參數,使解碼的數據與原始數據差異最小,從而實現數據重構。該方法通常稱為無監督的編碼和解碼方法,在參數訓練過程中不需要使用標簽數據,直接將重構后的數據與原始數據進行比較即可。卷積自編碼網絡加入卷積核,是為了增強編碼器的抗干擾能力,提升自編碼器的健壯性[1-3]。卷積自編碼網絡廣泛應用于機器學習、計算機視覺以及模式識別等領域,通過對原始高維數據采取編碼降維措施,盡可能保持樣本的全局和局部語義特征,利用編碼后的特征進行后續分類、降噪、重構以及回歸等應用[4-7]。
交叉模態檢索的方法來源于跨模態檢索/匹配方面的研究成果。隨著媒體數據文本、圖像和視頻等多模態技術的發展,不同模態的數據表現出一定的異構性。如何快速檢索這些數據描述的事件和主題,并用于主題檢測和信息推薦,成為媒體廣泛關注的問題。與傳統的單模態檢索方法相比,交叉模態檢索方法需要構建模態關系模型,學習不同模態數據之間的相似性與差異性,再比對不同模態之間的相似性,從而實現跨模態檢索。然而,如何學習異構數據之間的統一特征空間十分重要。這種學習易構數據統一特征空間的方法與矩陣分解、子空間、鄰域圖以及稀疏表示等方法密切相關[8-13]。交叉模態檢索方法通過學習多種模態數據并將其投影到統一特征空間,在統一特征空間中挖掘不同模態數據之間的相似性和差異性,能夠發掘不同模態數據之間的關聯。
隨著大數據技術的迅猛發展,不同來源和不同領域的數據實時融合處理成為可能。與傳統的單一數據相比,多源多模態數據能夠提供更多的信息。這些信息有些是冗余的,有些是互補的,但是通過對數據之間的補充和修正,能夠為用戶提供更加準確的信息。此外,不同領域基于多源多模態數據的融合,能夠形成對事物相對完整、一致的感知描述,從而提升信息的呈現效果和表達的健壯性。
然而,多模態數據融合往往需要通過數據格式轉換、數據重構、特征提取、語義匹配以及數據融合多個步驟,才能實現多模態數據語義上的融合。因此,文章提出一種多源數據約束性融合的方法,包含數據編碼、特征提取以及特征融合等過程。首先,通過采用自編碼網絡編碼原始數據,解決多源數據維度不一致的問題;其次,采用模態內一致性、模態間一致性以及基于標簽信息的線性回歸學習等方法,訓練卷積自編碼網絡的參數和線性回歸二進制碼,得到數據的全局特征和局部特征;再次,將數據特征與線性回歸二進制碼加權融合,實現統一特征空間的關聯;最后,基于融合后的特征,采用激活函數Sigmoid處理融合后的特征,并結合Softmax對處理后的結果輸出概率的最大類別實現類別預測。多源數據約束性融合的傳感器網絡安全預測技術架構,如圖1所示。

圖1 多源數據約束性融合的傳感器網絡安全預測技術架構
為簡化所提方法公式的復雜性,采用2類傳感器的數據進行說明。在后期使用過程中,可以將2類傳感器擴展到k(k>2)類傳感器。
將這2類傳感器的數據輸入CAE,與經典的卷積神經網絡(Convolutional Neural Networks,CNN)在卷積層之后使用全連接層得到固定長度的特征向量進行分類(全聯接層+Softmax輸出)不同,CAE可以接受任意尺寸的輸入數據,采用反卷積層采樣最后一個卷積層的特征映射,使其恢復到與輸入數據相同的尺寸,從而預測數據集合中的每一個維度,同時保留原始輸入數據集合中的空間信息,并在采樣的特征圖中進行逐像素分類。
使用2個CAE分別對第一類傳感器數據和第二類傳感器采取編碼-解碼學習措施,從而提取其編碼表示和解碼表示。
第一類數據的編碼表示和解碼表示分別為
第二類數據的編碼表示和解碼表示分別為
為訓練卷積自編碼網絡的參數θCAE,需要考慮以下3個問題。
2.2.1 標簽表示
標簽表示對于自編碼網絡的參數θCAE的訓練有很大幫助。由于不同傳感器的2類樣本數據本應該具有一致的語義標簽信息,可以在有限的標簽樣本中采用標簽監督不同傳感器樣本數據(或稱為不同模態數據)標簽的一致性。因此,引入線性回歸二進制碼擬合不同模態標簽數據,即
式中:L為語義標簽矩陣;W為回歸系數矩陣;B為2類數據解碼表示的拼接矩陣,有B=[Uv;Uu]。
2.2.2 數據在編碼-解碼過程的特征損失問題
針對數據在編碼-解碼過程存在的特征損失問題,采用模態內相似性衡量同一類傳感器樣本的局部相似性,保障數據在編碼-解碼前后的編碼表示和解碼表示的一致性,即
式中:Uv為第一類傳感器數據的解碼表示集合;Uu為第二類傳感器數據的解碼表示集合;為每一類模態數據與解碼表示的殘差。
2.2.3 提升不同模態數據之間全局特征學習的適應性為提升不同模態數據之間全局特征學習的適應性,在編碼過程中盡可能保持原始樣本的整體特征。因此,通過描述不同模態間的一致性,實現不同模態數據之間的有效關聯,即
式中:W=[Wv;Wu];Rij為第一類傳感器數據xiv與第二類傳感器數據yju相同的標簽信息。
為求解卷積自編碼網絡的參數θCAE,整合式(5)、式(6)、式(7),并將模態內和模態間最小化,有
式中:λ1、λ2、λ3為平衡函數,是為了避免出現過擬合而設置的正則化參數。
在求出W、B以及卷積自編碼網絡的參數θCAE的基礎上,結合式(1)和式(3)求解編碼表示,得到各類傳感器數據的特征后拼接特征。拼接方式參考式(5)的B拼接,得到編碼表示的拼接矩陣G,然后結合線性回歸二進制碼W加權實現特征融合L,即
在特征融合的基礎上,采用激活函數Sigmoid處理融合后的特征,并結合Softmax對處理后的結果輸出概率的最大類別,從而實現類別預測。Sigmoid函數是一種logistic函數,能夠將任意的值轉換到[0,1],函數表達式為
在對融合特征值L進行轉換后,將其放入softmax函數實現歸一化處理,從而確定σ(L)屬于第j個分類的概率。在各種類別的概率計算公式為
式中:y為分類類別;P[y|σ(L)|]為n種分類類別的概率值。
選取某互聯網公司的信息物理系統安全態勢數據作為數據集,采集公司連續15周的網絡邊界多種傳感器數據信息、網絡內部的數據信息以及部分主機的審計日志數據,共437 218條,其中正常數據有418 951條,異常數集據有18 267條。異常數據集的攻擊類型包含拒絕服務攻擊、漏洞掃描攻擊、非法進入攻擊以及非法獲取攻擊4大類。正常數據的類型標記屬性為0,拒絕服務攻擊、漏洞掃描攻擊、非法進入攻擊以及非法獲取攻擊類型標記屬性分別為1、2、3、4。安全態勢預測類別有安全、輕微危害、一般危害以及非常嚴重危害4個等級。
為比較不同算法在網絡安全態勢預測領域的預測精度,將本文模型與融合CNN的格拉姆角場(Gramian Angular Field,GAF)模式識別方法進行對比,通過多次隨機抽取30%的正常數據和10%的異常數據進行模型訓練與預測,得到的預測精度對比如圖2所示[14]。

圖2 算法精度對比
由圖2可知,多數情況下,所提算法預測精度比融合CNN的GAF算法高。同時,基于10次預測精度的曲線可知,所提算法健壯性較優。此外,由于在處理多傳感器數據時充分考慮了傳感器數據之間的冗余性和互補性,采用模態內一致性、模態間一致性以及基于標簽信息的線性回歸學習等方法,訓練卷積自編碼網絡的參數和線性回歸二進制碼,實現了多種信息之間的補充和修正,從而為安全預測提供相對完整、一致的語義信息。雖然融合CNN的GAF算法在特征提取方面性能較好,但是沒有從多模態數據之間一致性、模態內一致性的角度考慮特征的融合,因此在對抗數據的隨機性和噪聲時略遜一籌。
針對現有多傳感器數據融合難的問題,提出基于多源數據約束性融合的傳感器網絡安全預測方法。該方法彌補了傳統使用單一傳感器數據實現網絡安全態勢預測的劣勢。實驗表明,所提方法具有較高健壯性,通過關聯多種傳感器數據之間的關系,可為系統提供相對完整、一致的語義信息,有利于實現網絡安全預測。