999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

以未知對未知—智能安全自我進化*

2018-09-03 09:53:56林榆堅梁寧波
通信技術 2018年8期
關鍵詞:檢測

林榆堅,梁寧波

(北京安賽創想科技有限公司,北京 100083)

0 引 言

以信息技術為代表的新一輪科技和產業革命給世界各國主權、安全、發展利益帶來了許多新的挑戰。近年來,國家級網絡武器及其相關工具和技術的擴散,給各國關鍵基礎設施造成了極大挑戰。當前,全球互聯網治理體系變革進入關鍵時期,構建網絡空間命運共同體日益成為國際社會的廣泛共識。

全球網絡攻擊事件統計(如圖1所示)顯示,未知威脅攻擊、Account Hijacking賬戶劫持攻擊、Targeted Attack針對性攻擊、DDoS攻擊,攻擊比例上呈逐年上升趨勢。國計民生的基礎設施系統是攻擊的重點領域,其中涉及金融、能源、交通等,其目標性、隱蔽性極強,傳統的消缺補漏、靜態防御、“封、堵、查、殺”在這些攻擊面前捉襟見肘。

圖1 全球網絡攻擊事件統計

美國中情局對其黑客武器庫的失控,如同一把寶劍懸著以劃“域”而治。固守邊界防御思路治理下的各國關鍵基礎設施上空,大范圍安全事件隨時可能發生。2017年,WannaCry勒索病毒是一個典型的安全事件,短短4日,席卷150多個國家,造成80億美元損失,涉及金融、能源、醫療等眾多行業[1]。如何避免突擊式的補救,成為當下急需解決的問題。

改變以往的邊界防御思路,從數據安全保護角度出發,通過對業務數據進行動態評估,分析出業務數據的價值,從而根據不同價值等級進行動態的策略規則防護。

1 防御構想

動態防御,很早就是網絡安全領域追訴的目標,經歷了從設備聯動布防到現在對人工智能的關注。在當下網絡安全環境中,利用IPS、FW等設備的動態關聯,已經不能滿足動態的需要。人工智能以其高效數據處理和分析的速度、準確性等優勢,受到了人們的青睞。其中,數據和算法是保障高信度和高效度分析結果的核心。脫離全面有效數據的喂養,準確分析將無從談起;離開有效算法和算法集間的交叉驗證,就會走向信度和效度極度脆弱的一面。

構建真正意義上的“以未知對未知”的動態防御,數據和算法是核心。獲取全面的具有代表性的數據,才能避免人工智能魯棒性的出現,才能提供更加準確可靠的分析結果。算法決定檢測準確度的上限。只有對算法的優缺點進行驗證、分析,才能在實戰中做好算法集的動態調配。

“以未知對未知”,是在人工智能的技術前提下,基于Netflow和sFlow兩種協議字段融合,克服單一網絡協議的數據局限性弊端,降低網絡數據存儲量和運行主機的CPU負載率,結合算法集對流動變化的數據自適應,通過關鍵因素的風險區間和概率分布,對未來結果做出精準判斷,產出不斷進化的防御規則,以應對新時代網絡安全的需求。

2 “以未知對未知”的防御體系設計

“以未知對未知”防御體系設計(如圖2所示)共分三個部分。第一部分是未知數據的采集、梳理、融合、范化、精煉,形成標準的數據格式;第二部分是自適應算法集,包含支持向量機算法、Apriori與FP-Growth算法、隱式馬爾科夫算法、樸素貝葉斯算法等,每個算法單獨并行運算,威脅驗證后,提交給態勢數據庫;第三部分,態勢數據庫一方面將威脅情報梳理呈現,另一方面根據網絡狀況進行資源管理策略調整,影響安全防御系統策略變更。

圖2 “未知對未知”防御架構

2.1 數據采集方法研究

采集具有代表性的原始數據,是“未知對未知”防御的重要基礎。

由于網絡流量中包含了源/目的地址、源/目的端口、協議類型等豐富的網絡信息,能夠實時反映當前網絡中出現的安全信息和行為描述。因此,網絡流量為在網絡異常檢測方面最具有代表性的元數據。由于其他安全設備和網絡設備品牌各異,采集數據的協議也不盡相同。這些設備采集的和二次加工的數據暫且納入第三方信息管理平臺,為威脅驗證提供參考。

近幾年,應用比較廣泛的網絡流技術主要包括NetFlow(Ciso公司)、J-Flow(Juniper公司)、sFlow(HP,InMon,Foundry Networks公司)和NetStream(華為公司)。其中,J-Flow和NetStream這2種網絡流的原理和內容基本與NetFlow相類似,故可以認為目前應用的常見網絡流主要以NetFlow和sFlow為主[2]。

2.1.1 基于NetFlow的流量采集方法

NetFlow是由Cisco創造的一種流量輪廓監控技術,簡單來說就是一種數據交換方式。NetFlow提供網絡流量的會話級視圖,記錄下每個TCP/IP事務的信息,易于管理和易讀。

NetFlow利用標準的交換模式處理數據流的第1個IP包數據生成NetFlow緩存,隨后同樣的數據基于緩存信息在同1個數據流中進行傳輸,不再匹配相關的訪問控制等策略。NetFlow緩存同時包含了隨后數據流的統計信息。NetFlow有2個核心的組件:NetFlow緩存,存儲IP流信息;NetFlow的數據導出或傳輸機制,將數據發送到網絡管理采集器。

利用NetFlow技術可以檢測網絡上IP Flow信息,包括(5W1H):

who:源IP地址;

when:開始時間、結束時間;

where:從哪——From(源IP,源端口);到哪——To(目的IP,目的端口);

what:協議類型,目標IP,目標端口;

how:流量大小,流量包數;

why:基線,閾值,特征。

這些數據可以形成標準的七元組。用七元組來區分每一個Flow是其重要的特點。七元組主要包括,源IP地址、源端口號、目的IP地址、目的端口號、協議類、服務種類和輸入接口。

2.1.2 基于sFlow的流量采集方法

sFlow(RFC 3176)是基于標準的最新網絡導出協議[3]。sFlow已經成為一項線速運行的“永遠在線”技術,可以將sFlow技術嵌入到網絡路由器和交換機ASIC芯片中。與使用鏡像端口、探針和旁路監測技術的傳統網絡監視解決方案相比,sFlow能夠明顯降低實施費用,同時可以使面向每一個端口的全企業網絡監視解決方案成為可能。

sFlow系統的基本原理為:分布在網絡不同位置的sFlow代理把sFlow數據報源源不斷地傳送給中央sFlow采集器,采集器對sFlow數據報進行分析并生成豐富、實時、全網范圍的傳輸流視圖。

sFlow是一種純數據包采樣技術,即每一個被采樣的X包的長度被記錄下來,而大部分的包則被丟棄,只留下樣本被傳送給采集器。由于這項技術是基于樣本的,如果沒有復雜的算法來嘗試推測準確的會話字節量,那么幾乎不可能獲得每臺主機流量100%的準確值。使用這項技術時,交換機每隔100個數據包(可配置)對每個接口采一次樣,然后將它傳送給采集器。sFlow的規格也支持1∶1的采樣率,即對每一個數據包都進行“采樣”。對數據包最大采樣頻率的限制取決于具體的芯片廠商和sFlow的實現情況。

2.1.3 雙流量數據采集

因HTTP會話雙向性的特點,需采取網絡雙向流量分析,主要針對request請求和服務器的response響應進行實時分析,并且自動關聯分析磁盤陣列中全流量鏡像歷史數據,發現更深層次的攻擊事件。

如圖3所示,系統在用戶發出請求和服務器給予響應的過程中,會對兩者的HTTP請求包和響應包數據進行分析,判斷是否存在漏洞或者攻擊事件。如果有漏洞或者攻擊事件,則會記錄并交由其他模塊繼續處理。

圖3 雙向流檢測流程

通過不同層次的監控(內核級、應用層級主要包括進程操作、文件操作、注冊表操作、網絡訪問、網絡數據URL等)發現更全面的監控樣本,結合智能關聯分析形成有效的安全檢測體系,以挖掘更全面的惡意行為。

2.1.4 數據融合

NetFlow和sFlow兩種協議都屬于網絡流協議,但是存在一些差異。sFlow通過采樣的形式來獲取網絡流數據,基本包含了網絡中的所有信息,且具有“永遠在線”的特點。由于協議本身的設置,使得sFlow在獲取網絡流數據過程中雖然CPU負載率低,但是獲取的數據存在一些誤差,尤其在網絡流量較小時,難以滿足小規模網絡的要求。而NetFlow通過連續采集的方式來獲取網絡流數據,使得數據中不包括網絡中的一些部分重要信息(如:MAC地址、接口速率等),導致無法對上述重要信息進行研究分析。此外,由于通過連續采集的方式來獲取數據,使得其CPU負載率較高,尤其當網絡流量較大時,難以有效滿足大規模網絡的要求[4]。

將NetFlow和sFlow數據融合,相互彌補各自的不足、性能上的差異,是推動采集數據全面性的必經之路。融合不是簡單的結合,而是在兩個協議功能、性能優缺點分析的基礎上,對兩個協議字段進行融合。

2.2 算法研究

算法決定上限,也是說算法決定了智能安全功能展現的上限閾值。本文通過算法集研究實踐,分析不同算法特性來應對不同威脅的攻擊。具體地,主要對支持向量機算法、Apriori與FP-growth算法、隱式馬爾科夫算法和樸素貝葉斯算法等進行分析研究。

2.2.1 支持向量機算法

支持向量機是一種二分類模型,基本模型是定義在特征空間上的間隔最大的線性分類器[5]。間隔最大使它有別于感知機(感知機利用誤分類最小的策略,求得分離超平面,解有無窮多個;線性可分支持向量機利用間隔最大化求解最優分離超平面,解是唯一的);支持向量機還包括核技巧(將數據有時是非線性數據,從一個低維空間映射到一個高維空間,可以將一個在低維空間中的非線性問題轉換為高維空間下的線性問題來求解),使其成為實質上的非線性分類器。支持向量機的學習策略是間隔最大化,以形式化為一個求解凸二次規劃的問題,也等價于正則化的合頁函數的最小化問題。

支持向量機學習算法模型分類。

(1)線性可分支持向量機。當訓練集線性可分時,通過硬間隔最大化,學習一個線性的分類器,即線性可分支持向量機,又稱為硬間隔支持向量機。

(2)線性近似可分支持向量機。當訓練集近似線性可分時,通過軟間隔最大化,也學習一個線性的分類器,即線性支持向量機,又稱為軟間隔支持向量機。

(3)非線性支持向量機。當訓練集線性不可分時,通過核技巧和軟間隔最大化,學習非線性支持向量機。

SVM學習問題可以表示為凸優化問題,因此可以利用已知的有效算法發現目標函數的全局最小值。而其他分類方法(如基于規則的分類器和人工神經網絡)都采用一種基于貪心學習的策略來搜索假設空間,一般只能獲得局部最優解。

2.2.2 Apriori與FP-gowth算法

Apriori和FP-growth算法是比較有代表性的關聯規則算法。它們是無監督算法,可以自動從數據中挖掘出潛在的關聯關系。這一算法對挖掘潛在威脅很有幫助,如對圖2中自適應算法集及資源管理調整生成未知策略幫助很大。

Apriori算法是一種同時滿足最小支持度閾值和最小置信度閾值的關聯規則挖掘算法。使用頻繁項集的先驗知識,通過逐層搜索迭代的方式探索項度集。

FP-growth算法基于Apriori算法構建,但采用了高級的數據結構減少掃描次數,加快了算法速度。FP-growth算法只需要對數據庫進行兩次掃描,而Apr-iori算法對每個潛在的頻繁項集都會掃描數據集判定給定模式是否頻繁,因此FP-growth算法比Apr-iori算法快。

在自適應算法集,采用Apriori和FP-growth算法對NetFlow和sFlow兩個協議的融合數據進行關聯分析。

2.2.3 隱式鏈馬爾科夫算法

隱馬爾可夫模型(Hidden Markov Model,HMM)是統計模型,用來描述一個含有隱含未知參數的馬爾可夫過程。難點是從可觀察的參數中確定該過程的隱含參數,然后利用參數做進一步分析,如模式識別。被建模的系統被認為是一個馬爾可夫過程與未觀測到的(隱藏的)的狀態的統計,即馬爾可夫模型。

和HMM相關的算法主要分為三類,分別解決三種問題:

(1)已知隱含狀態數量、轉換率,根據可見狀態鏈得出隱含狀態鏈;

(2)已知隱含狀態數量、轉換率,根據可見狀態鏈得出結果概率;

(3)已知隱含狀態數量,通過多次觀測可見狀態鏈,反推出轉換率。

2.2.4 樸素貝葉斯算法

在所有的機器學習分類算法中,樸素貝葉斯和其他絕大多數的分類算法不同。對于大多數的分類算法,如決策樹、KNN、邏輯回歸、支持向量機等,都是判別方法,也就是直接學習特征輸出Y和特征X之間的關系,要么是決策函數Y=f(X),要么是條件分布P(Y |X )。但是,樸素貝葉斯卻是生成方法,直接找出特征輸出Y和特征X的聯合分布P(X , Y ),然后利用:

得出:

貝葉斯學派的思想可以概括為先驗概率+數據=后驗概率。也就是說,實際問題中需要得到的后驗概率,可以通過先驗概率和數據綜合得到。一般來說,先驗概率是對數據所在領域的歷史經驗,但是這個經驗常常難以量化或者模型化。于是,貝葉斯學派大膽假設先驗分布的模型,如正態分布、beta分布等。這個假設一般沒有特定的依據,雖然難以從嚴密的數學邏輯中推出貝葉斯學派的邏輯,但是在很多實際應用中,貝葉斯理論應用效果良好,如垃圾郵件分類和文本分類。

2.3 未知規則生成研究

在整個“以未知對未知”防御思路中,未知數據、算法集、未知規則是其核心。這個思路是改變傳統以特征庫匹配防御的思路,推出了新的動態防御思路。

未知數據是網絡空間中網絡設備、安全設備二次加工數據以及NetFlow和sFlow兩個協議融合的網絡流量數據,需對這些數據進行處理提煉。

自適應算法集是在對機器學習智能算法理解的基礎上進行建模識別,并檢測網絡威脅。檢測流程:(1)智能算法集依據客戶網絡環境數據及相關信息生成威脅識別模型;(2)威脅識別模型適配運行;(3)識別威脅分類;(4)識別威脅驗證(真實性、可觸發性驗證)優化算法模型;(5)結合已有策略進行調整。

3 理論驗證

本文通過加密流量檢測和DGA域名檢測兩個實驗,驗證“以未知對未知”理論的實踐效果。

3.1 加密流量檢測

數據加密通保證了網絡交易和聊天的私密性,防止了攻擊者(中間人攻擊)窺探或篡改用戶的網絡通信數據。但是,也被攻擊者利用普通的TLS或SSL流量來試圖掩蓋他們的惡意命令、遠程控制行為以及數據竊取活動。

為了防止惡意軟件通過加密流量竊取用戶的隱私,傳統做法是通過設置代理并解密通信數據來檢查所有的SSL和TLS流量。

如果是在惡意活動中,那么上述這種“可行方法”就是常說的中間人(MitM)攻擊。但是,即便是出于安全防御端的角度來看,這種方法仍然會被視為一種侵犯用戶隱私的行為。因為當用戶需要向銀行或加密郵件服務發送加密通信信息時,這種方法就會破壞加密信任鏈,導致用戶隱私受到侵害。此外,這種方法的計算量非常高,高到足以造成網絡性能的大幅下降,更不用說管理額外的SSL證書(流量被檢查之后需要重新簽名)所帶來的性能負擔。以犧牲隱私權和網絡性能為代價來換取安全性的方法是不值得的。

為此,從側面來尋找答案。通過分析NetFlow和sFlow發現,流量中包含大量的有價值信息,可以表示網絡上的兩臺設備正在交互,以及通信時長和發送的字節數等,但受語境限制,有些數據出現不完整現象。分析加密隧道協議發現,TLS數據流中未加密的元數據包含攻擊者無法隱藏的數據指紋,而且即使數據經過加密也無法隱藏這種指紋。在不進行任何解密的情況下,對海量數據進行篩選和歸類,通過“最具描述性的特征”來識別可以惡意流量和正常流量。

通過未知算法檢測加密流量,發現了隱藏惡意文件和指紋,基于NetFlow,檢測準確率為67%。配合SPL、DNS、TLS元數據以及HTTP等信息,檢測的準確率將高達99%。而傳統邊界類防護設備無法檢測加密流量。

3.2 檢測DGA域名

DGA(域名生成算法)是一種利用隨機字符生成C&C域名,從而逃避域名黑名單檢測的技術手段。例如,一個由Cryptolocker創建的DGA生成域xeogrhxquuubt.com,如果進程嘗試其他建立連接,那么機器就可能感染Cryptolocker勒索病毒。域名黑名單通常用于檢測和阻斷這些域的連接,但對不斷更新的DGA算法并不奏效。

檢測DGA域名的流程:(1)從DGA文件中提起域名數據;(2)特征提取:①元音字母個數統計;②去重后的字母數字個數與域名長度的比例;③平均jarccard系數;④HMM系數;(3)模型驗證。

根據DGA的特性,采取不同算法對其進行驗證。

為了更準確地評估不同算法檢測的準確率,采用準確率、召回率、F值評測進行評估。正確率是提取的正確數據條數/提取出的數據條數;召回率是提取的正確信息條數/樣本中的信息條數;F值是正確率*召回率*2/(正確率+召回率)。基于處理好的樣本,對傳統檢測技術和大數據關聯分析技術進行對比,實驗結果如表1所示。

表1 DGA檢測的正確率、召回率及F值預測結果/(%)

4 結 語

將“以未知對未知”的實踐嘗試應用到網絡空間中,將為動態化、自主化識別惡意軟件和攻擊行為提供保障。

猜你喜歡
檢測
QC 檢測
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
“有理數的乘除法”檢測題
“有理數”檢測題
“角”檢測題
“幾何圖形”檢測題
主站蜘蛛池模板: 日本免费福利视频| 亚洲视频无码| 国产成人乱码一区二区三区在线| 欧美精品伊人久久| 青青草国产在线视频| 亚洲天堂777| 日本国产精品一区久久久| 日韩在线播放中文字幕| 久久五月天国产自| 久青草免费视频| 国产福利免费观看| 69视频国产| 欧洲免费精品视频在线| 国产成人久久综合一区| 国产主播在线一区| 香蕉久久国产超碰青草| 中文字幕调教一区二区视频| 国产jizz| 91综合色区亚洲熟妇p| 欧美一级黄片一区2区| 好紧好深好大乳无码中文字幕| 亚洲va欧美ⅴa国产va影院| 在线中文字幕日韩| 国产一区三区二区中文在线| 中文字幕在线看视频一区二区三区| 天天色天天综合网| 免费激情网址| 国产一级妓女av网站| 欧美国产菊爆免费观看| 国产91蝌蚪窝| 美女扒开下面流白浆在线试听 | 成人日韩欧美| 久久这里只有精品免费| 亚洲欧美色中文字幕| 一级成人a做片免费| 欧美亚洲第一页| 中文成人在线| 午夜影院a级片| 久久一色本道亚洲| 国产门事件在线| 欧美一级在线看| 51国产偷自视频区视频手机观看| 69视频国产| 伊人久久婷婷五月综合97色| 丰满少妇αⅴ无码区| 在线无码九区| 国产成人免费手机在线观看视频 | 国产成人禁片在线观看| 成人午夜免费观看| 99成人在线观看| 成人在线不卡| 久久精品视频亚洲| 国产91视频免费| 国产美女一级毛片| 国产一级毛片在线| 国产91丝袜在线播放动漫| 欧美日韩一区二区在线免费观看 | 久久一级电影| 午夜三级在线| 久久99国产精品成人欧美| 欧美在线天堂| 中国美女**毛片录像在线| 国产黄色免费看| 久久精品亚洲热综合一区二区| 国产成人免费高清AⅤ| 久久精品中文字幕少妇| 在线精品亚洲一区二区古装| 亚洲an第二区国产精品| аv天堂最新中文在线| 一级毛片免费播放视频| 2020极品精品国产| 亚洲国产理论片在线播放| 亚洲第一综合天堂另类专| 国产网友愉拍精品| 色欲综合久久中文字幕网| 91精品综合| 免费一级α片在线观看| 91久久夜色精品| 在线观看精品国产入口| 大陆精大陆国产国语精品1024| 国产精品久线在线观看| 国产成人综合亚洲欧洲色就色 |