999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于語義向量與OCSVM的工控網絡異常行為識別①

2018-07-18 06:07:26王佳楠李澤宇李喜旺
計算機系統應用 2018年7期
關鍵詞:語義模型

王佳楠, 李澤宇, 李喜旺

1(中國科學院 沈陽計算技術研究所, 沈陽 110168)

2(中國科學院大學, 北京 100049)

3(國家電網公司 東北分部, 沈陽 110180)

在工業生產領域向網絡化、信息化、自動化、拓展化的發展過程中, 大量的網絡化控制設備和數據交換設施在提高工業生產效率的同時, 使得獨立工業生產終端不再成為一個相對安全的數據孤島, 多元化的數據接入方式使得工業控制終端更加容易受到外界的攻擊威脅[1]. 工業控制終端功能化的設計目標, 使其在設計時未能考慮安全防護的需要, 有限的計算存儲資源也制約了安全防護措施的接入, 導致近年來以“震網”病毒為代表的工業網絡安全事件時有發生[2]. 大量0-day漏洞的利用以及愈發豐富的變種攻擊手段使得傳統的基于漏洞庫的安全防護策略暴露出更加多的局限性[3], 設計準確高效且能夠應對未知類型攻擊的安全防護策略正逐漸成為當前研究關注的焦點.

現如今, 工業控制網絡行為有限、狀態有限的特性已逐漸成為工控網絡安全研究的切入點, 基于通信數據包的深度解析結果實現行為提取、鏈路檢測的邊界防護手段也已成為一種新的安全實現策略[4]. 在提取每一個數據包對應的操作將數據通信過程轉換為行為序列進行建模分析時, 通常需要有標注的異常序列樣本, 以建立起識別異常行為的序列標注問題模型[5], 但大量的有標注異常樣本數據從實際生產環境中獲得存在一定的難度. 單類支持向量機(One Class Support Vector Machine, OCSVM)能夠僅使用單一類別樣本實現二分類模型的建立, 為基于實際生產環境中的正常行為樣本數據建立異常行為識別模型提供了有效的解決途徑[6], 但為保留序列的上下文特性, 克服序列長短不一問題時, 所構造出的特征向量則會產生高維稀疏性問題.

針對實際生產環境中異常類別樣本數據難以獲得以及構建序列特征存在的高維稀疏性的問題. 本文采用了將語義向量模型[7]與單類支持向量機相結合的建模方式, 使用實際生產環境中的正常樣本數據基于OCSVM實現對異常行為識別模型的構建. 通過語義向量模型將不同長度的控制行為序列轉化為相同維度的特征向量, 保留序列中各控制行為間的上下文關系的同時滿足常見分類模型的建模需求. 最后, 通過仿真各種常見的攻擊方式構造出多種類型的異常行為序列作為測試數據集, 用以驗證所構建的異常行為識別模型的準確性.

1 控制行為定義與異常識別定位

本文以電力SCADA系統這一工業控制網絡的典型代表作為研究對象, 對其采用的IEC 104規約控制協議數據幀進行深度包檢測結果定義控制操作. 使用時間窗劃分法獲得控制行為序列, 并以此作為分析識別的對象建立對異常行為序列識別模型, 實現出現異常控制行為時及時報警并定位異常位置.

1.1 協議解析與操作定義

IEC 104規約是基于TCP/IP網絡的遠動設備與系統的通信傳輸標準, 該規約中報文幀格式包括定長幀與變長幀兩種. 每一幀均是一個應用規約數據單元(Applying Protocol Data Unit, APDU). 變長幀由應用規約控制信息(Applying Protocol Control Information,APCI)和應用服務數據單元(Application Service Data Unit, ASDU)組成[8]. APCI的長度為6字節, 定義了報文傳輸啟動/停止以及傳輸連接監視等控制信息, 控制報文的可靠傳輸. ASDU由數據單元標識符和一個或多個信息對象所組成. 而定長幀則只包含APCI部分,104規約的幀格式如圖1所示.

圖1 104規約幀格式

根據工業控制網絡行為有限、狀態有限的特性,對104規約數據包進行深度包檢測, 可以提取其對應的控制操作集合其中m為控制操作類型數. 對于以變長幀形式傳輸遙測、遙信、遙控、遙調等信息的I格式報文[9], 其ASDU部分中定義的127種數據包類型標識和47種傳輸原因, 則將每個類型的I格式幀對應的控制操作分別記為a1~a5969.對于不含APCI的定長幀格式傳輸的S格式報文和U格式報文, 根據圖2中所示的控制域格式可知, 僅用于提供報文序號確認的S格式報文的控制操作被記為a5970, 用于完成6種傳輸規約控制的U格式報文的控制操作則被記為a5971~a5976.

圖2 S格式與U格式報文控制域

1.2 控制行為劃分

在工業控制網絡中, 每個工業控制主機到相應受控單元的生產業務可以抽象為一系列的控制操作序列.當網絡遭受外界的惡意挾持攻擊時, 產生的業務異常通常體現在控制操作序列的異常. 采用時間窗劃分將操作行為序列細分為描述控制行為的操作子序列sk,并將其作為異常控制行為的識別對象, 既能夠保留控制行為中包含原始操作, 也包含了行為中各具體操作的頻率特性.

根據對通信數據包進行深度包檢測提取到的源IP地址、目的IP地址、源端口、目的端口、控制行為類型的五元組信息: <SrcIP,DestIP,SrcPort,DestPort,ai>, 將屬于相同通信鏈路的數據包按照產生的先后順序劃分至同一行為序列中.

為避免由于時間窗劃分對屬于同一控制行為的連續控制操作的誤分, 在以15 s為一個時間窗長度劃分的基礎上, 采用圖3中所示的以5 s為一個增量單位的滑動時間窗口機制, 完成對控制操作子序列的提取, 確保對控制行為的準確描述.

圖3 采用滑動窗口的序列劃分

1.3 異常行為識別的建模過程

在工控網絡的通信協議中, 控制行為的發出與響應過程有著較為嚴格約束, 一系列規范的控制操作組成了特定的控制行為. 結合各操作子序列sk中各相鄰控制操作間的上下文語義特性, 針對異常行為的序列識別建模分析需經過圖4中所示的共計以下6個數據處理過程.

1) 對所抓取的數據包進行深度包檢測, 提取包含通信鏈路與控制行為的五元組信息.

2) 根據通信鏈路進行數據混洗、合并, 按照時間窗劃分出控制操作序列.

3) 將得到的控制行為序列進行語義向量建模, 獲得序列的數值化、向量化表示.

4) 使用正常生產環境中控制行為序列的向量化樣本數據, 采用單分類算法構建異常行為識別模型.

5) 將由1)、2)步提取的未知行為類型的操作序列, 經過語義向量模型轉換為數值向量, 輸入異常行為識別模型中獲得識別結果.

6) 針對異常行為序列, 根據其對應的時間窗分片信息、通信鏈路IP、通信鏈路端口號定位出現異常的時間、工作節點、業務應用, 尋找異常原因.

圖4 異常行為識別的建模分析過程

2 序列特征提取與行為識別建模

采用語義向量模型將各時間窗內不同長度的行為序列轉換為統一維度的向量化表達滿足異常序列識別的建模的需求. 基于單分類算法實現僅使用單類正樣本完成異常行為識別的建模, 克服實際生產環境中異常行為序列難以獲取的問題.

2.1 采用語義向量數值化行為序列

使用傳統方式對操作序列進行向量化表達時, 通常統計序列中各控制操作或指定連續操作所出現的次數, 作為該序列的向量化表示[10]. 所獲得的數值向量無法涵蓋序列中相鄰操作的上下文語義關系, 在子操作類型較多時所得的向量還會產生高維稀疏性問題.

為獲得對控制行為序列準確的向量化表達, 結合相鄰控制操作間的上下文語義特性, 使用CBOW模型和Skip-gram模型將各控制操作轉換為包含具體操作含義的、在指定維度空間上的數值化向量化表達[11].并在此基礎上, 構建PV-DM和PV-DBOW模型, 將行為序列轉換為包含語義特性的向量化表達.

CBOW模型在給定序列中第t個操作前后c個操作的情況下預測第t個操作, 而Skip-gram模型則是給定第t個操作預測其前后c個操作[12]. 圖5為c=2時兩個模型的結構. 在CBOW模型中, 輸入層為操作wt前后c個操作對應的數值向量, 而投影層向量Xw為這2c個向量的累加和, 輸出層為包含m個葉子節點的Huffman樹, 其中m為操作集合A中操作的總數,Huffman樹的編碼則根據在整個訓練集中各單詞所出現的頻率對應的權值進行構建. 同理, Skip-gram模型的結構與CBOW模型的結構相似.

圖5 CBOW與Skip-gram模型結構

兩個模型的訓練目標分別為對于每一個操作at使得的概率值最大化. 使用隨機梯度下降訓練CBOW和Skip-gram兩個神經網絡模型的中間層參數Xw直至收斂, 最終獲得各個操作最優的向量化表達.

在對長度各不相同的行為序列進行向量化表達時,考慮序列內各操作具體含義的基礎上, 還需要考慮序列中各操作的頻率和操作之間的上下文關系. 在獲得各子操作向量化表達的基礎上, 采用相似的模型構建和優化手段, 構建圖6中的PV-DM和PV-DBOW模型[13]. 模型中操作的向量化表達采用對CBOW模型和Skip-gram的訓練優化結果. 按照相同的神經網絡訓練方式, 最終使得的概率值最大化, 即可得到各個行為序列最優的向量化表達.

使用所采集到的控制行為序列集合S作為訓練數據集訓練CBOW模型和Skip-gram模型獲得每個控制行為ai的向量化表達, 并在此基礎上進一步訓練PVDM和PV-DBOW模型, 實現將行為序列轉化為數值化向量表達. 將采集到控制行為序列集合S中的每一條行為序列si轉化為k維特征向量xi, 即可獲得用以構建異常識別模型的訓練數據集X, 其中k為語義向量模型中所指定的向量維度.

圖6 PV-DM與PV-DBOW模型結構

2.2 基于OCSVM構建異常識別模型

在實際的生產環境中, 異常行為序列樣本的獲取存在一定難度. 基于已知的先驗知識對異常控制行為進行仿真, 僅能獲得有限的異常樣本. 廣泛應用于異常識別的傳統支持向量機(Support Vector Machine,SVM)模型, 使用正負樣本分布不均衡的數據集訓練模型時同樣會產生過擬合多數類樣本的問題.

將SVM結合樹形層次結構調整模型的訓練過程,對多數樣本類數據進行聚類獲得關鍵簇集[14], 用遠離分類超平面簇的中心樣本代替簇內樣本, 能夠消除多數類中非支持向量樣本引起的樣本不均衡性. 結合集成學習訓練多個基分類器的策略, 可以進一步提升算法的泛化能力[15], 使模型對少樣本類擁有同樣準確性.工業控制網絡中, 異常行為沒有明確的界定范圍, 使用仿真異常樣本訓練出的異常識別模型對未知攻擊類型的異常行為無法保證較低的漏報率. 因此, 采用單分類模型對正常樣本在特征空間中分布的建模思想, 實現對未知樣本是否屬于正常狀態的判斷.

基于統計未知樣本點附近正常樣本點的數量[16],衡量未知樣本是否屬于目標類別的單分類模型, 需要花費大量的存儲計算開銷計算與已知類別樣本間的距離, 無法滿足高響應速率的需求. 將行為序列轉為向量化表達后, 各維特征的取值在樣本空間中的分布未知,無法適用于基于目標類型樣本空間中密度分布建模的單分類模型[17].

支持向量描述方法(Support Vector Data Describe,SVDD)采用在高維特征空間尋找包圍所有目標類別樣本點超球面的單分類模型思想, 采用與SVM相近的最小化樣本點到超球面間隔的思想, 尋找描述邊界超球面的支持向量. 在使用相同核函數的情況下與本文采用的OCSVM算法完全等價[18], 獲得目標對偶問題和分類決策函數的進一步簡化形式.

OCSVM的主要思想是將單分類問題等價為特殊的二分類問題, 即使用全部屬于同一類別的訓練樣本,通過核函數將輸入空間映射到高維空間, 尋找最優分類超平面, 將訓練樣本點盡可能與原點分開[19]. 使用高維空間中的分類超平面函數判斷輸入樣本點是否屬于已知類別, 其對應的二次優化問題如下:

最終獲得代表分類超平面的決策函數為:

引入拉格朗日函數將上述二次規劃問題轉換為:

對 ω, ρ, ξi分別求偏導可得:

其中, αi, βi分別為拉格朗日乘子. 并引入高斯核函數:

其中, g為高斯核函數參數, 將公式(5)(6)代入式(4)中得到其對偶問題為:

選取任一滿足0≤α*≤1/vl的α*, 計算出偏移量:

滿足0≤α*≤1/vl的向量叫支持向量, 最終求得決策函數如公式(10)所示, 其中NSV為支持向量個數.

基于OCSVM實現對異常行為識別模型的建立過程中, 將從正常生產狀態下通過時間窗劃分抽取到的多條行為序列si作為訓練數據集S, 采用所構建的文本模型將其轉換為指定k維的特征向量xi, 基于訓練樣本集X得到的OCSVM模型即可實現對所輸入的特征向量是否屬于正常類型的識別.

對于未知類型的行為序列s′, 將其經過語義模型轉為向量化表示后, 將所得的特征向量x′代入所訓練模型的決策函數f(x)中, 輸出該特征向量所屬的類別,實現對異常行為序列的識別.

3 仿真實驗分析

3.1 實驗環境與評估指標

本文采用的實驗環境是由一臺采用IEC 104規約進行通信的控制主機仿真器和一臺受控單元仿真器組成的業務控制系統, 并向網絡中接入流量傳感器模塊對數據包中的操作行為進行解析, 整理匯總出各條通信鏈路的行為序列.

通過調整仿真器的工作模式和所仿真終端的類型用以模擬包括遙信、遙控、遙測、遙調等多種正常工作狀態下的控制行為, 收集共計16 000條的正常行為序列. 在劫持控制終端后, 針對受控單元的攻擊主要包括隨機操作、篡改行為、重復指令、顛倒業務、未知指令等多種方式. 因此, 在所采集的正常行為序列的基礎上通過隨機構造、復制、裁剪、易序、偽造等手段,仿真以上5種攻擊類型的行為序列各200條, 獲得共計1000條異常行為序列.

為驗證語義向量模型結合OCSVM算法對異常行為序列識別的準確性, 使用所獲得的15 000條正常行為序列作為訓練數據集. 測試數據集則由正常行為序列和異常行為序列各1000條構成, 并采用以下兩個指標評估異常行為識別模型在測試數據集上的準確性:

準確率: Precision=TP/(TP+FP)

召回率: Recall=TP/(TP+FN)

其中TP (True Positive)表示識別為異常序列中識別正確的數量, FP (False Positive)表示識別為異常序列中識別錯誤的數量, FN (False Negative)則表示實際為異常行為序列但識別為正常的數量.

3.2 識別準確性分析

基于規則的異常行為識別策略通常采用已知的非法行為構建用以進行異常模式匹配的操作子序列集合.結合實際業務中對非法行為操作的定義, 構造出由423條非法子序列構成的模式匹配集合, 作為與本文采用的異常行為識別算法的對照.

為驗證語義向量模型對異常行為識別的準確性提升, 將基于操作和操作組合頻率統計的傳統行為序列的向量化方式作為對比. 同時, 使用LDA話題模型對傳統方式提取的特征向量進行降維[20], 將序列中各行為加權頻率轉化為在各個抽象“話題”上的分布權重,并采用OCSVM完成異常行為識別建模.

其中, 語義向量模型中行為序列特征向量對應的目標維數K=50, LDA話題模型的目標維數同樣為50,OCSVM算法模型參數分別取各自在訓練數據集上的最優參數, 并按照所使用的三種向量化方式分別對測試數據集中的數據進行向量化操作.

將測試集正常樣本五等分, 與3.1節中5種攻擊類型的異常行為序列分別構成5個測試子集. 分別由三種特征構建方法所得特征向量訓練的OCSVM模型與傳統異常模式匹配策略在各測試子集上的性能評估指標分別如表1所示.

表1 不同特征構造方式下的異常識別準確性(單位: %)

傳統向量化方式所構造的特征存在高維稀疏性,所得的向量中大部分特征維度的值為0, 將未進行降維的特征向量用于訓練所得到的異常識別模型的準確性較低. 相較于傳統向量化方式結合LDA降維算法, 語義向量模型所構造的特征向量在考慮時間序列中控制行為頻率特性的同時, 保留了控制行為之間的上下文關系, 使模型準確性進一步提高.

盡管基于規則的異常模式匹配策略對所識別出的異常行為有不錯的準確率, 但其根據先驗知識的匹配檢測思路使其在測試數據集上的召回率較低, 即存在大量漏報的情況, 因此無法滿足實際應用場景中對未知異常行為準確識別的需要.

從隨機操作、篡改行為、重復指令三個測試子集中各取100條異常樣本數據加入訓練集, 采用樹形層次結構與AdaBoost對傳統SVM模型進行優化作為與OCSVM模型的對比, 訓練數據的向量化方式均采用語義向量模型. 由表2中結果可知傳統SVM模型的準確性受正負樣本不均衡性的影響較大. 采用樹形層次結構與AdaBoost優化后的模型有效克服了正負樣本不均衡對模型訓練的影響, 但在顛倒業務和未知指令兩個測試集上的準確率較低并存在較為明顯的漏報,無法滿足對未知攻擊類型異常行為的識別需要.

表2 各類支持向量機異常識別的準確性(單位: %)

3.3 算法計算開銷比對

模型構建與識別的計算開銷是模型能否滿足實際應用需要另一衡量標準. 分別采用特征提取過程中向量化建模與行為序列向量化的耗時、OCSVM建模部分的迭代輪次與單位輪次迭代耗時及模型識別響應耗時5個指標對3.2節中三類模型的時間開銷進行對比.分別對各模型進行5次相同的建模計算與響應過程,對各階段具體的耗時取平均其結果如表3所示.

表3 各模型不同階段的計算開銷

由實驗結果可知, 盡管傳統方式在向量化建模和行為序列向量化過程中的耗時均較低, 但其構建特征向量的高維稀疏性使模型訓練過程中的單位迭代耗時和迭代收斂輪次均大于其他方式. 使用語義向量模型所得的特征向量訓練時需要更少的迭代輪次使模型趨于收斂, 盡管特征提取時產生了一定的時間開銷, 但僅占總開銷的一小部分. 同時, 所構建的OCSVM模型對異常行為序列的響應時間符合實際應用的需要.

4 結論與展望

本文以電力SCADA系統中常用的IEC 104規約通信協議為例, 通過對數據包內容進行深度解析, 根據不同數據包所對應的控制操作類型, 將生產業務過程抽象為控制行為序列進行建模實現對異常行為序列的識別. 根據工控網絡協議的語義特性和數據包之間的上下文關系, 采用語義向量模型將各時間窗內長度不同的行為序列轉換為相同維度的特征向量. 基于OCSVM算法實現了在僅使用正常樣本的條件下對異常行為的識別實現準確建模. 使用多種類型的行為序列驗證了所構造的模型對異常序列、未知序列的識別具備較高的準確性. 下一步將對單分類模型在異常行為識別的可靠性和準確性上進行進一步的優化提升.

猜你喜歡
語義模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
語言與語義
3D打印中的模型分割與打包
“上”與“下”語義的不對稱性及其認知闡釋
現代語文(2016年21期)2016-05-25 13:13:44
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
認知范疇模糊與語義模糊
“深+N季”組配的認知語義分析
當代修辭學(2011年6期)2011-01-29 02:49:50
語義分析與漢俄副名組合
外語學刊(2011年1期)2011-01-22 03:38:33
主站蜘蛛池模板: 欧洲熟妇精品视频| 韩日免费小视频| 青青青国产精品国产精品美女| 久久美女精品| 亚洲一区色| 国产成人成人一区二区| 久热中文字幕在线观看| 99久久精品国产综合婷婷| 免费又黄又爽又猛大片午夜| 国产精品毛片在线直播完整版 | 日韩国产黄色网站| 国产美女丝袜高潮| 无码内射在线| 日韩精品少妇无码受不了| 中文天堂在线视频| 亚洲精品国产成人7777| 99热亚洲精品6码| 色综合激情网| 欧美精品色视频| 国产久操视频| 国产免费一级精品视频 | 青青青国产视频手机| 亚洲精品无码抽插日韩| 国产精欧美一区二区三区| 欧美区国产区| 最新国语自产精品视频在| 亚洲人视频在线观看| 在线欧美一区| 日本成人不卡视频| 国产女人18水真多毛片18精品 | 久青草免费在线视频| 制服丝袜亚洲| 亚洲av无码片一区二区三区| 五月天久久综合| 香蕉在线视频网站| 亚洲第一成人在线| 欧美19综合中文字幕| 免费人成黄页在线观看国产| 亚洲人成电影在线播放| 美女潮喷出白浆在线观看视频| 国产精品偷伦视频免费观看国产| 精品国产91爱| 欧美综合成人| 国产无码高清视频不卡| 99久久无色码中文字幕| 欧美成人精品高清在线下载| 最新无码专区超级碰碰碰| 亚洲无码91视频| 青青久久91| 国产成人综合久久精品下载| 综合色天天| 欧美日本在线观看| 国产欧美日韩18| 欧美a级完整在线观看| 巨熟乳波霸若妻中文观看免费| 99久久精品视香蕉蕉| 91在线一9|永久视频在线| 成年人国产网站| 免费无码AV片在线观看国产| 国产欧美日韩另类| 亚洲AV无码不卡无码| 欧美成人手机在线观看网址| 久久久久亚洲Av片无码观看| 国产成人8x视频一区二区| 一级片一区| 亚洲综合狠狠| 免费xxxxx在线观看网站| 亚洲国产欧美自拍| 福利在线一区| 四虎影院国产| 久久精品国产精品青草app| 亚洲日韩精品欧美中文字幕| 美臀人妻中出中文字幕在线| 欧美五月婷婷| 一级片免费网站| 久久精品国产免费观看频道| 黄色成年视频| 国产精品女同一区三区五区| 91香蕉视频下载网站| 国产精品视频公开费视频| 亚洲精品色AV无码看| 成人福利在线看|