999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于受限玻爾茲曼機的電力信息系統多源日志綜合特征提取①

2020-11-24 05:46:44劉冬蘭孔德秋常英賢
計算機系統應用 2020年11期
關鍵詞:特征提取特征信息

劉冬蘭,孔德秋,常英賢,劉 新,馬 雷,王 睿

1(國網山東省電力公司電力科學研究院,濟南 250003)

2(國網山東省電力公司經濟技術研究院,濟南 250001)

3(國網山東省電力公司,濟南 250000)

1 引言

在能源與電力系統領域,電力大數據具有數據規模大、數據類型多等多個特征,因此,對數據進行采集存儲分析也比較困難[1].大數據挖掘分析及應用的關鍵要素是保障數據的真實性.各類網絡安全設備的日志信息反映的是用戶對網絡及業務系統的訪問情況,通過對各類安全日志信息進行深度挖掘,能夠分析出網絡中的惡意攻擊,能夠對公司安全隱患及時進行隱患消缺.

電力公司各單位為了確保公司網絡安全穩定運行,通過在網絡出入口處部署入侵檢測系統、入侵防御系統、防火墻等安全防護設備,從而更好地保障公司內部網絡安全性.在設備運行過程中,若有網絡訪問或攻擊等行為,設備都會通過安全日志記錄下來,從而達到實時監控網絡攻擊的效果.由于各類網絡安全設備功能有相似的地方,因此不同設備產生的安全日志會存在較高的重復率,網絡管理人員很難找出日志隱藏的關聯性,從而對網絡態勢進行融合分析就相對比較困難[2].但是,IDS、IPS 和防火墻等設備日志間缺乏協同機制,其語義級別低,設備日志信息結構多種形式并且數據分散在不同系統,包含的安全日志信息相互隔離,形成信息孤島,管理人員不能及時發現網絡攻擊并快速響應.因此,需要有一種方法來從各類日志信息中提取綜合特征,從而幫助管理人員從總體上把握信息系統的安全態勢.例如,基于這些特征可以在宏觀層面進行未知威脅檢測等工作.

目前,在網絡設備日志融合方面主要有基于邏輯關系的算法和基于規則推理的算法等[2-4].基于邏輯關系的算法核心思想是通過采用常規經驗來設計邏輯規則,進而對日志信息內在的邏輯關系進行融合處理[3].基于規則推理的算法核心思想是通過量化評估多源日志信息的不確定性,進而利用基于規則推理的思想去預測威脅[3].這些算法都需要一定程度的先驗知識和領域專家知識.在面向大量異構設備和不斷演化的網絡環境時,適配性問題較為突出.

酆勇等[5]提出了一種基于受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)來表達輸入語音超向量的說話人信息.陳龍等[6]提出了一種融合多源日志的基于事件“前提/結果”因果關系的事件場景關聯方法.江雨燕等[7]提出了基于RBM 的分布式主題特征提取模型可以更好地使用文檔中的多標記信息.程樂峰等[8]總結了深度學習、對抗學習和集成學習等7 種代表性機器學習在電力系統調度優化和控制決策等方面的應用.

人工神經網絡具有較強的非線性映射能力,特別是受限玻爾茲曼機(RBM)神經網絡具有較強的自編碼能力[9-17].前期有學者對文本特征提取[18-20]進行了相關研究.本文提出了基于受限玻爾茲曼機的多源日志信息綜合特征提取方法,采用受限玻爾茲曼機神經網絡對各類日志信息進行融合處理,有效解決了日志數據的異構性等問題,提升了電力信息系統安全態勢預測速度和精度.

2 基于RBM 的多源日志綜合特征提取方法

2.1 電力信息系統數據采集預處理

電力信息系統數據采集預處理,通過采集電力信息系統中各個設備包含的歷史數據和實時數據的日志信息,日志信息中包括設備狀態信息、動態傳輸數據信息、安全防護信息及故障信息.

首先獲取電力信息系統中各類設備,例如安全設備、網絡設備、主機及其他安全防護系統產生的日志信息,并對采集到的原始數據進行實時的預處理和分析,對原始數據的預處理包括數據去重、數據噪聲去除等.數據去重是確保所采集的數據是可信數據,將源數據中的無關數據和噪聲數據去除.經過預處理的數據進行分布式存儲,對所有存儲的數據創建數據索引,以便后續查詢追溯使用.

2.2 多源日志綜合特征提取方法的思想

對于每類日志信息r,構建初始化受限波爾茲曼機神經網絡RBMr,其中r為1 與t之間的正整數;t為日志信息的類數,記為{日志1,日志2,···,日志t},其數據維度分別為{M1,M2,···,Mt}.其中,日志信息的類別是按照設備劃分的,不同的設備是不同的類別;維度表示日志數據的字段數.

如圖1所示,初始化受限波爾茲曼機神經網絡RBMr為具有可見層和隱藏層的兩層網絡,將不同長度的日志信息數據輸入后將其編碼為長度為N的數據并輸出,可見層節點數與輸入數據的維度相對應為Mr個,隱藏層節點數為N個,隨機產生[0,1]之間的隨機數作為RBM 可見層節點和隱藏層節點之間的連接權值.

圖1 基于RBM 的多源日志信息綜合特征提取方法示意圖

受限玻爾茲曼機(RBM)是一個隨機神經網絡,它包含一層可見層和一層隱藏層.在RBM 神經網絡中通常事先設定隱藏單元數,可見單元數賦值為訓練數據的特征維數.隱藏單元數目的設定,通常采用訓練集乘以單個數據的比特數,進而采用低一個數量級的值設定為隱藏單元的數量[21].由于電力信息系統中數據冗余度較高,因此可以使用更少一些的隱藏單元.在本文方案中,N小于Mr的1/2 以上.N的大小上限是與數據維度相關,本文設定N的取值小于所有Mr的一半.

對于每類日志r,訓練相應的受限玻爾茲曼機神經網絡RBMr.訓練的輸入數據為日志r的數據,從受限玻爾茲曼機神經網絡RBMr的可見層神經元輸入數據,根據對比散度快速學習方法優化網絡權值,由此得到穩定的RBMr.神經網絡系統概率分布越集中,則系統的能量越小.能量函數的最小值,對應著系統的最穩定狀態.通過調整網絡的權值和偏置值使得網絡對該輸入數據的能量最低.穩定狀態是指當前的神經網絡具有最小的能量.

2.3 訓練學習RBM 模型

在RBM 模型訓練學習中,采用對比散度快速學習方法和隨機梯度上升法最大化對數似然函數對RBM 模型進行訓練學習,通過對規范化編碼后的日志信息進行處理.對比散度快速學習方法優化網絡權值的過程為:可見層v和隱藏層h的神經元數目分別設為n和m,a和b分別為可見層和隱藏層的偏置向量,W為v和h之間的權值矩陣[22,23].RBM 對應的圖是一個二分圖,層與層之間全部相連,但層內的神經元之間沒有連接線.原始特征向量作為最底層的神經元的輸入,進而向RBM 網絡從下往上傳遞,最后將提取到的特征向量轉化成抽象的特征向量并對數據進行降維處理[23].

對于可見層v和隱藏層h,vi表示第i個可見單元的狀態,hj表示第j個隱藏單元的狀態;從受限玻爾茲曼機神經網絡可見層神經元輸入數據,根據神經元vi更新隱藏層神經元hj的狀態;再由隱藏層神經元hj重構出可見層神經元vi的狀態,接著再由重構出的可見層神經元vi的狀態再重構出隱藏層神經元hj的狀態,完成一次受限玻爾茲曼機神經網絡訓練學習過程,直到神經網絡具有最小的能量值.

RBM 是一種基于能量的模型,所以我們可以使用能量函數來描述.對于給定的狀態(v,h),RBM 具備的能量為:

由于RBM 不同層的單元之間有連接,而層內單元之間無連接.因此,當對可見單元的狀態賦予確定的數值時,各隱藏單元之間的激活狀態相互獨立[24-28].因此,第j個隱藏單元的激活概率為:

當對隱藏單元的狀態賦予確定的數值時,各可見單元的激活狀態也相對獨立,則第i個可見單元的激活概率為:

訓練學習RBM 的任務是計算參數θ 值,進而模擬出給定的訓練數據,保持能量E(v,h|θ)守恒.通過采用最大化RBM 在訓練集上的對數似然函數可計算出參數θ,如下:

其中,T為包含的樣本數.

為得到參數的最優值,計算θ?的最大值? (θ)采用隨機梯度上升法進行計算:

由于電力信息系統獲得的觀測數據(即訓練樣本數據)的特征維度通常較高,因此對RBM 的訓練效率有更高的要求.對比散度方法是一種快速學習方法,方法處理開始時,初始化一個訓練樣本并作為可見單元的狀態輸入,隨后再根據上述式(3)計算所有隱藏單元的二值狀態[24].當隱藏單元的所有狀態值都確定后,再根據式(4)P(vi=1|計算第i個可見單元vi等于1 的概率,生成可見層的重構.此時訓練數據值時我們采用隨機梯度上升法最大化對數似然函數,可見層和隱藏層的權重調整方式及噪聲控制參數ai、bj的調整方式為:

其中,ε是學習率,〈·〉recon是表示進一步重構后模型定義的分布上的數學期望,〈·〉data是訓練數據集所定義的分布上的數學期望,是可見層神經元與隱藏層神經元在輸入數據下的二進制狀態乘積,是可見層神經元與隱藏層神經元在重構數據下的二進制狀態乘積.

當輸入v時,利用p(h|v)能計算出隱藏層h;當計算出h時,采用p(v|h) 又能計算出可視層,通過不斷調整參數,使從隱藏層計算出的可視層v1與最初的可視層v相同,則計算出的隱藏層即是可視層另外一種描述,所以可以把隱藏層當作可視層輸入數據的特征.

2.4 對比散度快速學習方法的優勢

本文在RBM 模型訓練學習中,采用對比散度快速學習方法優化網絡權值,相對于其他典型網絡權值優化方法[29-35]來說,本文方法具有如下優勢.

(1)對比散度快速學習方法克服了傳統誤差反向傳播算法易陷于局部極值的問題,是一種不依賴標簽的無監督學習方法,能夠在無監督方法中自動從原始數據中學習特征.

(2)對比散度快速學習算法可以高效訓練結構簡單的馬爾可夫隨機模型(包括RBM),每次訓練只需要進行k次(一般就是1 次)狀態轉移,從而極大提升了訓練效率.

(3)在對比散度快速學習中,重復訓練過程通過不斷更新參數,最后就能高效率地完成模型訓練.

(4)對比散度快速學習算法使推薦模型能夠包括異構內容信息,例如文本、圖像、音頻甚至視頻,具有從多種來源學習的表現形式的潛力.

(5)對比散度快速學習技術具有很高的靈活性,特別是隨著許多流行的深度學習框架的出現,如Tensorflow,Keras,Caffe,MXnet,DeepLearning4j,PyTorch,Theano等.這些工具大多以模塊化方式開發并具有活躍的社區和專業的支持,良好的模塊化使開發更有效率.

(6)對比散度快速學習算法可以很容易地將不同的神經網絡結構組合起來以形成強大的混合模型,因此,我們可以輕松地構建混合和復合推薦模型,以同時捕獲不同的特征和因素.

2.5 數據降維方法及其優勢

本文RBM 模型訓練過程中,通過利用隨機梯度上升法最大化對數似然函數對RBM 模型進行訓練學習,通過對規范化編碼后的日志信息進行處理,實現了數據降維并得到融合后的綜合特征,可以有效解決日志數據異構性帶來的問題.本文研究中采集的數據流量是公司網絡出口處的全部數據流量,包括各種安全日志、系統日志等信息,需要處理的數據是多維的,算法的時間復雜度與維數成指數級增加,因此就需要進行降維處理[36-38].

在特征降維技術中主成分分析方法(Principal Component Analysis,PCA)是最為經典和實用的特征降維技術,主成分分析的基本思想是通過構造原變量的一系列線性組合形成幾個綜合指標,以去除數據的相關性,并使低維數據最大程度保持原始高維數據的方差信息[39-41].我們通過對綜合日志特征進行降維,實現了數據降維,從而使數據集更容易使用,降低算法的計算開銷,去除數據噪聲,減輕過擬合,也就更容易獲取有價值的信息.我們通過對特征加權,特征越重要,所賦予的權值就越大,而不太重要的特征賦予較小的權值,模型中對每一個特征都賦予了一個權值,從而有效保障了日志信息的完整性.

數據降維分為特征選擇和特征提取兩種方法,文中采用的是特征提取方法,即經已有特征的某種變換獲取簡約特征.通過采用變換(映射)的方法,把原始特征變換為較少的新特征,由原始數據創建新的特征集,從而有效提取出網絡攻擊等特征信息.

3 基于RBM 的多源日志信息綜合特征提取系統

利用上述RBM 的訓練學習方法,構建用于提取綜合特征的受限玻爾茲曼機神經網絡RBMcom,RBMcom為兩層網絡,可見層節點數為t×N,隱藏層節點數為C,隨機產生[0,1]之間的隨機數作為神經網絡的連接權值,初始化RBMcom.基于RBM 的多源日志信息綜合特征提取系統構建如圖2所示.

對第一層受限玻爾茲曼機神經網絡RBMr隱藏層輸出的數據進行拼接組成數據序列,將所述數據序列作為訓練輸入數據對受限玻爾茲曼機神經網絡RBMcom進行訓練,所述數據序列的維度為t*N,根據對比散度快速學習方法優化網絡權值,由此得到穩定的RBMcom.基于訓練好的受限玻爾茲曼機神經網絡集合{RBM1,RBM2,···,RBMt,RBMcom},構建多源日志綜合特征提取系統.基于RBM 的多源日志信息綜合特征提取算法詳細過程如算法1 所示.

在算法1 中,通過將從電力信息系統采集的各類日志數據輸入相應的受限玻爾茲曼機神經網絡,經過不斷訓練學習,構建多源日志綜合特征提取系統,再將各類日志數據輸入RBM 神經網絡訓練即可獲得維度為C的綜合特征數據.

圖2 基于RBM 的多源日志信息綜合特征提取系統

算法1.基于RBM的多源日志信息綜合特征提取算法輸入:各個設備的日志信息{日志1,日志,…,日志t};輸出:維度為C的綜合特征數據.1.對于每類日志i,構建受限玻爾茲曼機RBMi.2.若輸入維度為Mi,構建可見層為Mi,隱藏層為N的RBMi.3.對于每類日志分別訓練RBMi.4.若共有t類日志,構建可見層為t*N,隱藏層為C的RBMcom.5.訓練受限玻爾茲曼機神經網絡RBMcom.6.構建多源日志綜合特征提取系統.7.將各類日志數據輸入相應的受限玻爾茲曼機神經網絡,即可獲得維度為C的綜合特征數據.8.結束.

4 實驗結果與分析

為了驗證基于RBM 的多源日志綜合特征提取方法的有效性,本文以某電力公司的網絡安全日志數據為例,測試本文算法的有效性.實驗采用的日志數據主要包括公司內外網IDS、IPS、防火墻、防病毒系統和數據庫訪問日志等.

我們基于前期研究搭建的電力系統中基于大數據的網絡安全態勢感知預警平臺[42],目前接入公司信息內外網共計43 套信息系統重點資產作為監控對象.平臺已采集公司威脅事件數據30TG,記錄攻擊威脅條數8160 兆條.采集的日志信息樣本集包括:攻擊觸發時間、攻擊威脅類型、危險等級、安全設備、客戶單位、攻擊源IP、攻擊目標IP.采集的日志信息樣本類型如表1所示.

表1 日志信息樣例

通過利用基于RBM 的多源日志綜合特征提取方法對采集的安全日志信息進行訓練學習,提取的攻擊類型包括:Web 攻擊、IPS、特征值警報、可疑域名、黑IP 警報、郵件敏感字、攻擊事件-SCAN、攻擊事件-DDOS 等.通過對提取的攻擊特征進行分析,若有攻擊則通過預警平臺前端頁面進行實時展示.

本實驗中,通過對公司內外網重點資產的攻擊日志進行實時監測分析,當監控到有IP 地址在對公司系統進行持續攻擊并多次觸發高危報警,便可以對該IP 的攻擊行為進行回溯取證,根據提取的日志特征研判攻擊類型,從而預測預警公司的網絡安全態勢.通過定位到該IP 地址攻擊行為的所有數據包,然后下載該攻擊數據包,對攻擊過程進行還原.實驗環境下監測到2019年11月的Top IP 前10 個主機總流量如圖3所示,攻擊數據包的信息如圖4所示.

圖3 Top IP 主機總流量

圖4 攻擊數據包信息

通過對攻擊數據包的通信協議進行分析研判發現,IP 地址114.254.131.230,TCP 端口號為41 731 的主機對IP 地址為:123.232.5.62,TCP 端口號為80 的攻擊是一主機被植入了木馬.通過查看詳細的TCP 信息發現,可進一步提取該主機的passwd 敏感路徑信息,如圖5所示.通過對受感染的終端進行具體定位,發現為某用戶上網時不慎導致木馬感染,之后立即對該木馬進行清除,并在全公司范圍內下發安全預警進行排查,對發現的隱患進行全面消缺.

圖5 提取攻擊特征找到被植入木馬的主機

實驗環境中,通過威脅預警平臺對安全設備日志特征進行提取分析,以實驗平臺中2019年10月和11月的數據為例,各類威脅次數排名Top5 的對比分析如圖6所示.

圖6 威脅類型次數排名Top5 的對比分析

圖6中,豎軸中的k表示1000 次.圖7展示了近30 天內被攻擊的Top1 資產系統,統計了月度內的威脅事件總數和攻擊源IP 等信息.從公司重點資產安全態勢中能夠清晰地展示各業務系統面臨的威脅,進而定位被攻擊資產并進行隱患消缺.

圖7 近30 天攻擊Top1 及威脅事件總數

5 結論

隨著“大云物移智鏈”信息新技術與電網業務的深度融合應用,網絡攻擊威脅越來越多.本文利用電網信息系統中安全日志信息中的異構數據源,研究了基于受限玻爾茲曼機的電力大數據多源日志綜合特征提取方法.通過采用受限玻爾茲曼機神經網絡對各類日志信息進行規范化編碼,有助于解決日志數據異構性帶來的問題;進而再用受限玻爾茲曼機神經網絡對規范化編碼后的日志信息進行處理,可以實現降維并得到融合后的綜合特征.最后通過在電力信息系統中搭建大數據預警監測實驗環境,驗證本文的日志綜合特征提取方法對威脅檢測的效果.實驗結果表明,本文提出的方法在提取電力信息系統中日志特征時具有較高的準確率,進而提高了網絡安全態勢預測的速度和預測精度.

猜你喜歡
特征提取特征信息
如何表達“特征”
基于Gazebo仿真環境的ORB特征提取與比對的研究
電子制作(2019年15期)2019-08-27 01:12:00
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
抓住特征巧觀察
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
一種基于LBP 特征提取和稀疏表示的肝病識別算法
基于MED和循環域解調的多故障特征提取
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
線性代數的應用特征
河南科技(2014年23期)2014-02-27 14:19:15
Walsh變換在滾動軸承早期故障特征提取中的應用
軸承(2010年2期)2010-07-28 02:26:12
主站蜘蛛池模板: 亚洲伦理一区二区| 99精品欧美一区| 亚洲日韩精品伊甸| 亚洲欧美激情另类| 中国丰满人妻无码束缚啪啪| 最新日韩AV网址在线观看| 色综合久久无码网| 这里只有精品在线| 99re免费视频| 欧美天堂久久| 亚洲天天更新| 97se亚洲综合| 99久久无色码中文字幕| 久久久无码人妻精品无码| 少妇被粗大的猛烈进出免费视频| 中文字幕亚洲电影| 欧美福利在线| 香蕉综合在线视频91| 永久在线精品免费视频观看| 亚洲成人黄色网址| 久久中文字幕不卡一二区| 亚洲欧美日韩天堂| 在线a网站| 国产成人一区| 国产精品蜜臀| 久久成人免费| 免费国产小视频在线观看| 国产精品9| 找国产毛片看| 日韩精品亚洲一区中文字幕| 91av国产在线| 国产91无码福利在线| 一区二区三区精品视频在线观看| 国产69囗曝护士吞精在线视频| 亚洲欧美另类视频| 91久久天天躁狠狠躁夜夜| 中文国产成人久久精品小说| 亚洲国产看片基地久久1024| 91精品国产一区自在线拍| 国产好痛疼轻点好爽的视频| 国内熟女少妇一线天| 在线色国产| 欧美一级在线| www.日韩三级| h网站在线播放| 亚洲愉拍一区二区精品| 亚洲va精品中文字幕| 亚洲永久免费网站| 欧美综合一区二区三区| 97在线国产视频| 日韩中文无码av超清| 亚洲欧美日韩高清综合678| 午夜毛片免费看| 亚洲91精品视频| 欧美伦理一区| 亚洲成年人网| 中文字幕免费视频| 免费看黄片一区二区三区| 91蜜芽尤物福利在线观看| 国产在线第二页| 亚洲黄色网站视频| 最新国产网站| 99这里精品| 亚洲h视频在线| a毛片在线播放| 成人夜夜嗨| 亚洲中文字幕日产无码2021| 9cao视频精品| 丰满少妇αⅴ无码区| 精品中文字幕一区在线| 国产成人综合久久精品尤物| 激情亚洲天堂| 国产日韩精品欧美一区喷| 五月激情婷婷综合| 97成人在线视频| 午夜性刺激在线观看免费| 色妞永久免费视频| 亚洲 欧美 日韩综合一区| 爽爽影院十八禁在线观看| 色国产视频| 久久精品66| 99久久免费精品特色大片|