郭世澤,王小娟,何明樞,任傳倫,俞賽賽
(1.北京郵電大學 網絡空間安全學院,北京 100876;2.北京郵電大學 電子工程學院,北京 100876;3.中國電子科技集團公司第三十研究所,四川 成都 610041)
隨著網絡和信息化技術的發展,網絡空間數據規模體量爆炸式增長、內涵外延邊界裂變式衍生、與實體空間鉸鏈式耦合,網絡威脅呈現通信加密、分片傳輸、特征頻變、時序混淆、深度偽裝、行為混雜等特點,網絡安全防御面臨威脅看不全、看不完、看不到、看不懂等一系列問題。作為網絡大國,我國網絡防線表現出大縱深、線長、面寬、點多等特點,面臨的網絡安全威脅形勢越來越嚴峻。傳統基于時域、依賴先驗知識的威脅監測方法存在分析效率低、準確率低、誤報率高等不足,難以應對國家網絡空間大規模數據分析和不斷演化涌現的網絡安全威脅,亟待從新的視角和對抗性思維理解中認識網絡空間和防御問題,提出新型的網絡空間數據流觀測與威脅行為分析理論,指導生成智能化的威脅監測方法,精確發現預判網絡空間安全隱患和識別預警國家級網絡威脅,提高我國網絡空間防御水平。
當前面向網絡流的主要分析方法是針對流數據的原始分布展開研究,通常以同一五元組確定的一條網絡流作為研究對象,一條網絡流由多個網絡數據包組成,而在一次網絡連接、傳輸過程中,如果流數據在分布、統計上與大部分背景流量存在較大的差異,那么就可以認為流數據有著異常的分布;如果流數據的分布或特點符合先驗知識,那么網絡流將被識別處理。可以看到,已有方法主要聚焦網絡流在原始時空域空間中的分布分析,如果在時空域上網絡流的分離性和表征性有限,那么即時訓練的模型或規則很難達到滿意的檢測效果。亟需加強基礎創新研究,提出新的理論來刻畫描述網絡空間數據流、表征分析各類網絡行為,解決大帶寬、小樣本、頻演化、流加密等條件下的威脅分析難題。
我們認為,應該在現有防御體系的基礎上,用對抗性的思維和視角,去審視思考網絡空間防御,進而提出“流譜”的概念。定義:“網絡空間中,可觀測的復雜網絡流按照某種時域到某變換域的映射方法,形成的可分離、可解釋、可計算的特征表示集合,稱之為網絡流譜,簡稱流譜。”具體到網絡空間防御應用方向,又具象成“行為譜”,即“以網絡行為作為表征向量的流譜”。這樣,如果把網絡正常行為作為基線,那么“行為譜”可以直接推導出“威脅譜”,從而實現對網絡威脅的高效分析。
具體而言,本文聚焦網絡空間防御中智能檢測及流譜空間中的表征技術開展研究,結構如下:第1節提出對抗防御理念并分析其內涵,第2節從方法、場景、應用性等方面對現有網絡流智能檢測技術現狀進行分析對比,第3節提出流譜基本理論,給出流譜、變換域空間的定義及網絡流特征矩陣、流譜變換域的數學表示,第4節從可分離性、表征性出發,給出面向流譜變換的指標評估體系,基于公開的CICIDS2017數據集對提出的流譜理論進行仿真實驗驗證,第5節總結全文。
按照安全機理不同,網絡空間防御可被劃分為內生防御、保護防御和對抗防御3種。其中,內生防御是指依靠網絡自身構造和運行因素而產生及演進的安全效應和能力,來遏制和抗擊網絡威脅或破壞行為。保護防御是指在網絡空間發生的,利用訪問控制、入侵檢測、應急響應等方法,遏制和抗擊網絡空間威脅或破壞行為。對抗防御是在網絡空間發生的,發現、定位、溯源、預警、處置、遏制和反擊敵在或通過網絡空間產生的威脅或破壞行為的各類措施與活動。其中,對抗防御主要用于有效遏制國家級、大規模、高隱蔽攻擊威脅,主要包括以下特點:
(1)非合作或弱合作條件防御。合作指的是被防御者與防御者之間的配合程度。一方面,大量的被防御者出于政策、體制、思維模式等考慮,不提供相應配合;另一方面,過度要求被防御者的配合,也會影響到被防御者的正常業務,為此,網絡空間防御的大量業務會在非合作或弱合作的條件下開展。這是思考和認識對抗防御的基本出發點。
(2)網絡空間狀態可觀測。在弱合作和非合作條件下開展對抗防御,就必須對網絡空間的狀態進行掌握,如何對龐大的空間狀態進行掌握,需要在現有監測手段的基礎上,提出一種新的空間觀測思路,能夠滿足在帶外對空間狀態掌握的需求。
(3)融入網絡空間防御大體系。對抗防御是一種新的防御視角和模式,是現有防御體系面對新威脅時必然產生的延展和加強,與現有體系相輔相成,互相支撐,共同見效。
因此,我們認為網絡空間需要建立完善的對抗防御機制,將攻擊、威脅、惡意行為進行針對性刻畫,在弱合作網絡中實現異常行為檢測。
目前,各類機器學習、深度學習技術和統計方法常被用于構建不同類型的入侵檢測系統來保護網絡。根據關注的研究點不同,現有研究大體可以歸為3類:一是關注修改模型或方法,用于提升數據集分類及檢測準確率;二是關注應用場景,例如小樣本檢測、非平衡數據、網絡流數據增強、特征篩選過濾等;三是關注技術方式,如使用無監督、半監督、自監督等非完全監督式學習方式進行檢測,具體內容如表1所示。

表1 現有網絡流監測研究工作匯總

續表
關注模型以及方法創新的網絡流檢測技術,往往從模型的結構出發,對成熟的機器學習、深度學習算法進行修改、優化、更新,以提升模型魯棒性、泛化性并最終提升檢測性能和準確度。
Yin等人[1]基于遞歸神經網絡的檢測系統的二分類和多分類性能均優于傳統分類方法,提高了入侵檢測的準確性,為入侵檢測提供了一種新的研究方法。Wang等人[2]首次對加密的網絡流分類域應用端到端方法,提出了一種具有一維卷積神經網絡(One-Dimensional Convolutional Neural Network, 1D-CNN)的端到端加密網絡流分類方法,并在公開數據集上驗證了其有效性。文獻[3]和文獻[4]利用支持向量機和貝葉斯等方法,對支持向量機的參數進行優化,提高了異常檢測的精度和準確度。文獻[5]和文獻[6]通過深度學習的方法提升了入侵檢測的準確性。Waskle等人[7]提出了一種利用主成分分析和隨機森林分類算法來開發高效入侵檢測系統(Intrusion Detection System,IDS)的方法。其中,主成分分析(Principal Component Analysis,PCA)將通過減少數據集的維數來幫助組織數據集,可以獲得更高的精度。Bassene等人[8]設計了基于圖的物聯網流分類方法(Group-based Internet of Things Classification,GBC-IoT),能夠通過網絡流分析識別連接的物聯網設備,處理開銷更小,準確率更高。Kwon等人[9]給出了基于深度神經網絡(Deep Neural Network,DNN)的網絡數據自動分類的初步結果,驗證了DNN對網絡數據分類的潛在有效性。文獻[10]和文獻[11]分別提出了基于稀疏自編碼的隨機森林檢測方法和優化卷積神經網絡(Convolutional Neural Network,CNN)和分層多尺度長短期記憶網絡(Long Short-Term Memory,LSTM)統一模型,提高了檢測的準確率。
基于模型及方法的網絡監測絕大部分有著較高的準確率、召回率等分類評估結果,但仍然存在著資源消耗過大、模型過擬合以及應用場景單一等問題。如Yin等人[1]提出的遞歸神經網絡模型會花費更長的訓練時間,通過GPU加速才能得到降低;文獻[3]和文獻[4]需要大量的迭代計算才能確定向量機的參數,同時這些方法在針對不同場景時往往無法遷移,其對數據的要求較高,可遷移性不強。
由于現有方法普遍對特定數據集和場景有效,對于廣泛網絡流檢測效果有限,所以針對特定場景、特定應用問題的相關研究也被提出。
有研究[12-14]針對物聯網網絡流進行分析,分別提出了新的基于深度學習模型的網絡流分類(Network Traffic Classification,NTC)技術、合成少數類(Synthetic Minority Over Sampling Technique,SMOTE)技術以及進化神經網絡(Evolutionary Neural Networks,ENN)的模型機制,在數據集上的測試結果表明,檢測的準確率和精確率得到了提升。有研究[15-20]針對網絡流分類的問題,分別提出了基于分組字節的兩級結構卷積神經網絡、評估審查技術(Program Evaluation and Review Technique,PERT)框架、基于網絡仿真器(Mininet)的簡單網絡拓撲仿真框架、基于虛擬連接(Virtual Connection)的智能系統原型、深度學習模型以及二值分類的方法,在實際的分類測試中對于相應的數據集均取得了較高的準確率。Xu等人[19]提出了一種基于混合深度神經網絡的低速拒絕式服務(Low-rate Denial of Service, LDoS)攻擊檢測方法。對實際數據集的測試結果表明,該方法只需要統計網絡流的時間就能夠有效檢測出波動HTTP網絡流下的LDoS攻擊。Raikar[21]實現了自動化的網絡資源管理,減少了人為對流量表征和分析的干預。
針對不同應用場景,網絡流監測的模型及方法在實驗仿真中都有較好的分類效果,但在實際應用中仍然存在性能較低的情況。以上提出的流量監測方法絕大部分是在實驗室環境內使用公共數據集進行測試和驗證,對于在現實場景中的表現還不清楚。例如,Zhou等人[14]就明確提出面對更加復雜的應用環境,需要在現實場景中進行進一步的測試與調整。而且如Yu等人[20]所述,某些低頻攻擊在實際場景中可能會產生更大的威脅,但是目前的大部分方法對其的檢測性能較差。
網絡流精準檢測往往依賴大量的先驗知識,這導致必須要有大量的標注數據才能達到滿意的識別效果,所以大量研究者將無監督、半監督、自監督等非完全監督式學習方法用于數據流監測。
文獻[22]、文獻[23]和文獻[24]各自提出了一種半監督方案,可以根據協議、應用程序和攻擊類型等角度對這些網絡流進行檢測及分類。Yang等人[25]將改進的條件變分自動編碼器(Improved Conditional Variational AutoEncoder,ICVAE)與DNN相結合,該方法在少數攻擊和未知攻擊中也具有較高的檢測率。文獻[26]、文獻[27]和文獻[28]分別提出了基于卷積神經網絡的有效載荷分類方法和基于遞歸神經網絡的有效載荷分類方法、DeepMAL模型以及無監督學習聚類方法BiGkmeans,無需特征方程以及專家的手工制作,即可實現網絡入侵檢測。有研究[29-35]分別采用了基于信息增益和多層感知器神經網絡的輕量級網絡IDS、基于相似度的模糊熵加權K最鄰近(K-Nearest Neighbor,KNN)的網絡流攻擊檢測方法、深度神經網絡和關聯分析技術、深度并行網中網模型、深度聚類算法與BIRCH聚類算法相結合、深度學習以及疊加的深度神經網絡,通過有監督學習方式對網絡流進行分類,提高網絡入侵檢測的準確性。
基于網絡流分類研究了各種有監督、半監督和無監督學習方式。在該過程中,需要對數據集進行測試和驗證,要求模型采用的數據集盡可能完善,包含所有的攻擊類型,這將直接影響其分類效果。然而,目前還存在及時完善的數據集難以獲取的問題。在模型測試中,Li等人[22]、Yang等人[25]、Hemalatha等人[34]都采用了多種數據集進行模型的訓練和測試,Gao等人[24]采用比KDD99數據集更全面的NSL-KDD數據集進行測試。但同時,全面數據集的構建往往需要大量的資源和高水平的專家知識,可能會導致資源消耗過多的情況。
從當前的研究內容和方法中可以得到,相比于圖像、語音、信號等數據,網絡流的監測往往需要對數據更高的理解程度;對數據的表征性、泛化能力要求更好;對特定行為的刻畫能力要求更高,這也對設計一種新的網絡流表征與監測方法提出了更高的要求。
網絡流威脅檢測是網絡防御的重要內容,而網絡流的特征表征是完成網絡流威脅檢測的基礎性科學問題。分離度高、表征性強的特征是網絡行為檢測分類的基礎,通過規則、模型、方法、技術去彌補數據復雜性帶來的不足所起到的作用是十分有限的。對當前一些網絡流智能監測技術進行分析,可以看到這些方法在特定數據集上已經有出色的表現,優化在原數據流上進行分析的方法對任務帶來的性能提升比較有限。因此,本文考慮從頻域、空頻域的變換域分析出發,構建流譜理論實現對網絡流的進一步表征,流譜理論將提供以下科學問題的解決思路:(1)建立不同威脅行為的流特征泛化模板,應對不同背景流量下威脅形式多變性問題;(2)研究多場景應用中的表征矩陣,達到對網絡流的本質性理解,提升表征矩陣的表達性、可解釋性、可觀測性;(3)構建對訓練數據依賴度低的網絡流行為檢測分類策略,減少對網絡行為數據標注的數量及質量要求。
在網絡空間中,可觀測的復雜網絡流按照某種時域到某變換域的映射方法,形成的可分離、可解釋、可計算的特征表示集合,稱為網絡流譜,簡稱流譜。行為譜是以網絡空間中的網絡行為作為表征的流譜,以正常網絡行為的行為譜作為基線,可以區分出異常網絡行為的威脅譜。流譜空間的構建過程,考慮將原數據域網絡流映射到新的變換域上,從變換域進行分析,找到更加本質性的網絡空間行為分析譜,基于流譜理論刻畫網絡行為譜、威脅譜。
域,一般指數域,設C是由一些復數組成的集合,其中包括0與1,如果C中任意兩個數的和、差、積、商(除數不為0)仍是C中的數,則稱C為一個數域。常見的數域包括復數域、實數域、有理數域等。在數域的基礎上,擴展衍生出許多其他域,例如,描述數學函數(物理信號)對時間關系的時域、描述二維圖像的空間域以及描述信號隨頻率變化關系的頻域等。本文提出了面向網絡流時域、空域、頻域、空頻域的流特征表達及分析過程,如圖1所示。

圖1 流譜理論中的網絡流分析域變換框架
網絡流一般由不同數目的網絡包組成,其與信號、光、圖像的表示都有一定的差異,在這里,定義網絡流的原域空間為F,其表示了網絡流最基本的表示形式,而流譜空間則是原始網絡流的變換域空間,用S表示。針對不同的網絡威脅、攻擊或行為,本文提到的流譜空間變換可以分為一維時域變換、二維空域變換,其分別針對網絡流的一維時域輸入f(t)以及二維空域輸入f(x,y),那么流譜空間的變換描述如表2所示。

表2 流譜空間變換描述
其中,f(t)是輸入網絡流時間特征矩陣(一維矩陣,向量),f(x,y)是輸入網絡流空域特征矩陣,r(t,v)、r(x,y,u,v)為正變換核,s(x,y,u,v)為反變換核,t表示網絡流特征的時間變化序列,v表示變換域上的映射序列,N表示離散時間序列的數目上限。T(u,v)為f(x,y)的正變換,給定T(u,v)后,可以用T(u,v)的反變換還原f(x,y)。
由此,就可以完成不同情況下的網絡流原域空間向變換域空間的變換,如果有:

則變換過程是可分的,同時,如果有:

那么變換過程就是對稱的。
在對網絡流進行流數據清洗、網絡流切片等數據預處理后,對于不同攻擊技術,分析各種攻擊技術特征,可以構建其特征矩陣。下面完成了對網絡威脅特征矩陣F的構建。
(1)攻擊戰術矩陣a:首先,對網絡威脅進行攻擊戰術劃分,構建攻擊戰術行向量。將涉及的攻擊戰術置1,不涉及的置0,可以得到攻擊戰術行向量為a。
(2)攻擊技術矩陣t:其次,進行攻擊技術關聯,構建攻擊技術矩陣。對照攻擊戰術與攻擊技術表,將涉及技術置1,不涉及的置0,即可得到攻擊技術矩陣為t。
(3)網絡流特征矩陣s:通過分析數據集的報文,可以提取網絡流數據的五元組、包大小、包持續時間,然后進行流數據清洗,去除無關數的數據,并對不同網絡包重復上述過程構成包序列特征集合,最后,經過特征提取和排列得到網絡流特征矩陣。將網絡流包按時間劃分為n個階段,其中n即為矩陣的t列數,通過觀察包頭元素熵變情況等方法,提取每個階段的網絡流包組的原子攻擊行為,得到網絡威脅的流特征矩陣s。
最終,結合得到的攻擊戰術行向量α、戰術關聯的攻擊技術矩陣t和網絡流特征矩陣s,通過網絡威脅表征矩陣的計算公式創建最后的目標矩陣,計算過程為:

上述求解過程中,a·t代表網絡威脅的隸屬關系,s代表網絡威脅的流特征,F代表對威脅攻擊的表征。將網絡威脅的攻擊戰術與攻擊技術進行關聯,從可拓展的攻擊技術池中提取攻擊戰術對應的攻擊技術,構建有映射關系的攻擊技術矩陣。通過提取的網絡攻擊流特征,可以使每種攻擊技術映射到相應的技術特征,構建技術特征矩陣。通過3個矩陣的構建,可以完整地表征出網絡威脅的攻擊戰術,以及每種攻擊戰術所對應的攻擊技術,每種攻擊技術所產生的特征表現。最終得到的網絡威脅表征矩陣反映了該攻擊對于網絡流特征的影響,作為區分該攻擊與其他網絡威脅的依據。
首先,對流譜變換的過程進行介紹。假設在原數據空間中,一個網絡流特征向量表示為Xe,在當前空間域下進行空間變換(平移、翻轉或其他復雜操作)映射到新的空間上,在新的空間上,其被表示為Xe',那么從原空間上的表示Xe映射到新的空間上的表示Xe'的過程就稱為基變換。假設變換空間上基向量e'使用原域二
維空間中的基向量e可以表示為:

則可以通過基向量的映射關系,求得:

那么這個變換過程就可以用上式中的矩陣表示,其包含了由原向量空間向變換域空間映射的過程,可以稱為原域到變換域的變換矩陣。也就是說,對于二維空間中的一種變換過程,可以通過矩陣表示出來,實質上是兩個基向量的系數組成的矩陣,可以稱為系數矩陣或表征矩陣。
同理,將基于基向量的變換映射到基于矩陣的變換上,就可以找到矩陣的變換基。其變換的目的是:改變原數據的表現形式,原數據并沒有發生改變。針對矩陣的變換域空間,可以從線性映射變換給出定義。假設有M個N維向量,將其變換為由R個N維向量表示的新空間(空間變換域)中,則可以將原空間向量表示為一個矩陣F,而新空間的變換核表示為:

其中,pi是一個行向量,表示新的變換域空間上的第i個基向量,qj是組成原矩陣的列向量,那么就可以實現式(8)描述的映射關系,這樣矩陣F就完成了從一個變換域映射到新的空間
S的過程:

由于其變換過程中的算子為相乘,完成了矩陣的基本線性映射,也就是說,對于一個原域空間上的矩陣,都可以看作由n個列向量組成,那么對矩陣的變換映射實際上就是對每一個列向量做新的空間S上的基變換映射,任意一個網絡流(表征為矩陣形式)都可以被表征到另一個空間中,而對于更復雜的情況,定義一個新的算子Δ,對于網絡流矩陣:

其中,F表示原始網絡流特征矩陣,Score表示新的空間S上的一組基,S就是矩陣在變換域上的系數矩陣,通過系數矩陣可以對原域空間上的行為進行表達。
在現有網絡流監測研究工作中,涉及變換域的絕大多數為時域變換,應用卷積神經網絡對網絡流進行監測時,多基于二維時域變換,采用二維卷積核來提取特征。文獻[20]將多個卷積池模塊與具有字節友好大小的多個過濾器進行級聯,形成兩層架構:第一層堆疊多個卷積池模塊,以從每個分組的字節中提取特征;第二層使用一層二維卷積濾波器將在包數的維數上執行卷積操作的滑動,提取包級的特征。文獻[26]提出了一種基于卷積神經網絡的有效載荷分類方法,其結構中包含3個卷積層:第一卷積層從原始數據中提取底層特征;第二卷積層從低級特征中提取高級特征,其卷積核大小逐漸減小;第三卷積層重新調整卷積核尺寸后提取更精細的特征。由此可見,每個卷積層都包含不同維數大小的二維卷積核,從單個角度提取特征。
針對流譜構建過程中的變換映射過程,需要構建一個合理有效的評估體系,完成流譜空間同構過程的可靠性判斷,以提高流譜對網絡流的表征性,并提升檢測的準確率,降低冗余度。本節將對流譜理論指標評估體系進行討論,主要從可分離性和表征性兩個方面展開。
(1)可分離性:可分離性描述了在一個拓撲空間里,任意的點、子集等彼此之間能被不相交的開集分開的程度。在流譜理論中,主要討論基底表征矩陣的可分離性,可以分為面向數據和面向結果的可分離性問題。
①面向數據的可分離性:針對數據的可分離性,高維數據通過數據壓縮后映射到低維子空間,此時針對低維數據進行可分離性的分析更直觀。可分離性可以從兩種分布來考慮:一是同類特征空間壓縮類內間距盡可能小;二是不同類特征空間拉伸類間空間盡可能大。為了度量這種特征占據空間的大小,可以采用編碼長度公式來進行測量。常見的編碼長度測量方法如表3所示,其中,A和B為兩點,其坐標為A(x1,y1),B(x2,y2)。

表3 常見編碼長度測量方法
②面向結果的可分離性:面向結果的可分離性是指將基底矩陣數據送入單層感知機、循環網絡等可分類網絡中,依據精確率、準確度等度量指標直接從分類結果上判斷數據是否存在可分性,常見的分類度量指標如表4所示。

表4 常見分類度量指標
其中,TP表示被正確分類的正例的數量,FP表示負例被錯分為正例的數量,FN表示正例被錯分為負例的數量,TN表示被正確分類的負例的數量。
精確率是針對預測到的向量化的特征而言的,指在所有被預測為正的樣本中實際為正的樣本概率。召回率是針對原始數據而言,在實際的特征提取并向量化后,得到的結果與預測所能向量化的結果的概率。準確率是指對于給定的測試數據集,分類器正確分類的樣本數與總樣本數之比,代表分類器對整個樣本判斷正確的比重。F1分數是精確率和召回率的調和平均數,綜合對精確率、召回率進行評估。
精確率、召回率和準確率是機器學習、深度學習研究領域中最為常用的評估指標。Anish等人[4]對比了入侵檢測系統采用不同分類方法下的檢測性能,選取準確率作為評估指標,對比分析后發現支持向量機(Support Vector Machines,SVM)算法相比樸素貝葉斯算法對于惡意網絡流的分離度更好。Bendiab等人[6]提出了一種新的物聯網惡意軟件流分析方法,選取精確率、召回率和準確率進行評估,證明了其檢測惡意軟件流的有效性。
在流譜理論中,基底矩陣的分離結果將直接影響空域上對于網絡流行為的表征。從分離結果來看,可以將基底矩陣送入分類模型中,根據精確率、召回率、準確率、F1分數等分類度量指標評估可分離性。
(2)表征性:表征性是指在將原始數據轉換成應用數據的過程中,應用數據更容易被有效分析利用的程度。
流譜理論旨在將網絡空間“流”從“時域”映射到“頻域”,將不同類型的業務行為固化成“譜”,然后在流譜空間上對網絡空間流進行有效直接的觀測、分析,從而對所有行為進行歸類表達,凸顯異常行為,把握整體安全態勢。在這個轉換映射過程中,流譜空間信息流的表征性將直接影響業務行為歸類的準確性,由此,需要綜合評估流譜空間信息流能夠被理解、能夠使用可認知方法進行解釋呈現的程度,可解釋性越高,表征性也就越高。
機器學習算法可以看成是一個黑盒子模型,訓練數據流入黑盒子,訓練出一個函數(模型),輸入新的數據到該函數得出預測結果。關于模型的可解釋性,可以通過一些與模型無關的可解釋模型,對原本的黑盒模型進行解釋,并生成度量值作為度量空間的組成部分。常用的評估方法如表5所示。

表5 常見可解釋評估方法
a(i)為樣本i到同簇其他樣本的平均距離,b(i)為樣本i到其他某簇的所有樣本的平均距離,Jcv(θ)為高偏差時交叉驗證集代價函數,Jtrain(θ)為測試集代價函數,M是針對樹模型分析中樹的數量。
本節在網絡威脅數據集上,對流譜理論在面向針對性威脅的對抗防御場景中的應用可行性進行驗證。實驗中,選取了包含不同攻擊類別的網絡流數據集進行流譜映射實驗。通過應用可行性分析證明利用流譜理論構建網絡對抗防御體系的有效性。使用的數據集中包含了普通的和常見惡意網絡流,以PCAP包的形式存儲,實現的攻擊包括暴力FTP、暴力SSH、DoS、Heartbleed、Web攻擊、滲透、僵尸網絡和DDoS。每個樣本數據包含80多個特征。
從優化目標出發,在劃分的訓練集上顯式構建多層映射網絡,正向構建可解釋模型并將原始特征映射到新的變換空間,完成500次迭代過程。
在多層映射網絡模型構建完成后,將特征矩陣同構到新的變換空間中,其數據的分離性得到了明顯的提升,如圖2所示。

圖2 流譜熱力圖
在原始網絡流熱力圖中,不同類別的流之間存在不同程度的相似度,在經過流譜的同構映射后,不同類別網絡流間的相似度被削弱,在圖2中表現為只剩下對角線上的網絡流(同類間)存在相似性。模型在已優化目標的指導下,通過增大不同類別數據間的間距、減小相同類別數據距離等方式將網絡流映射到一個特征相對獨立的子空間中,在這個映射空間中不同類別的流以很低的相似度獨立。本節實驗也是流譜理論在原始流特征數據上的最基本變換映射分析,其在網絡流行為分析任務中具備一定可行性,后續將繼續研究其在頻域、空頻域上的變換,并對其可行性進行討論,主要目標包括:(1)在時域上完成網絡流特征提取,得到網絡流特征向量或矩陣;(2)完成特征矩陣的空域映射,并找到一組空域變換基底矩陣,對基底的表征性進行評估并分析正交性及完備性;(3)對時域到頻域上的一維變換、空域到空頻域上的二維變換理論進行研究,分析傅里葉變換、拉普拉斯變換、小波變換等基本變換的特點以及其在流譜空間上的有效性;(4)從群、環、域出發,分析流譜理論變換空間的基本性質。
面對復雜的網絡環境,流譜理論旨在建立全新的防御視角,發展類平行空間的視角維度,實現對網絡空間威脅的全流程智能監測。首先,基于攻擊類型將網絡威脅進行分類,將產生的特征通過構建矩陣的方法聯系起來,產生映射關系。其次,從原子攻擊行為、文本內容特征、網絡流統計特征和協議連接特征等多個角度入手,提取表征網絡威脅攻擊技術的復合指標,并構建網絡威脅攻擊技術矩陣。由此,在網絡威脅分類的基礎上,任意攻擊可以被表示為攻擊戰術行向量、攻擊技術矩陣和流特征矩陣的組合,通過流譜理論的矩陣計算,得到網絡威脅表征矩陣的表征結果,實現對網絡威脅的可視化表征。最后,在完成網絡流行為表征的基礎上,對網絡流進行時域、空域、頻域及空頻域的變換映射,將流映射到流譜空間中,以達到更好的表征性,并對目標威脅、攻擊進行模板刻畫,達到對抗防御中不同場景的監測要求。
未來工作主要有:(1)針對未知協議,構建面向未知協議的流譜特征關聯分析體系,提升流譜理論在現實對抗環境下對未知協議的分析效果。(2)針對傳輸層安全性協議(Transport Layer Security,TLS)、安全套接字協議(Secure Sockets Layer,SSL)等復雜的特定威脅,開展流譜實例應用研究,構建威脅檢測模板,刻畫特定威脅的特征重要性、威脅族譜、特征熱力。(3)搭建流譜理論驗證平臺,針對網絡空間防御的典型場景,對比傳統分類模型,使用流譜模型理論及其應用模型進行攻擊檢測與異常發現的網絡流分類處理。