999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

網絡安全知識圖譜關鍵技術

2021-07-23 07:53:10李序連一峰張海霞黃克振
數據與計算發展前沿 2021年3期
關鍵詞:網絡安全方法模型

李序,連一峰,張海霞,黃克振

1.中國科學院大學,北京 100049

2.中國科學院軟件研究所,可信計算與信息保障實驗室,北京 100190

引 言

近年來,網絡安全事件頻發,網絡攻擊手段日益呈現復雜多變的特征,新型攻擊工具層出不窮,單純依靠入侵防御系統等被動防御手段已經無法有效地維護網絡空間安全,特別是近年來頻發的針對關鍵信息基礎設施的攻擊活動,對國家網絡空間安全保障工作帶來了巨大挑戰[1]。同時,大數據、人工智能等技術的發展,也為網絡安全防護提供了新的解決方案。互聯網中存在大量的網絡安全相關數據,例如防火墻、入侵檢測系統等監測到的網絡安全告警數據、網絡安全研究機構或廠商建立的漏洞信息庫(如CNNVD),以及互聯網安全論壇和廠商發布的安全通告等。安全分析人員通過挖掘此類數據中的信息,可以為網絡安全態勢感知提供支撐,實現安全預警預測,支持網絡安全決策。然而,網絡安全數據存在海量化、分散化、碎片化以及關系隱蔽化的特點,如何及時、精準地對海量數據進行分析處理,提取關鍵要素和關聯關系,挖掘潛在的有價值信息,是網絡安全領域面臨的重要問題。

1988年,Berners-Lee率先提出了語義網(Semantic Web)的概念[2],核心思想是在網頁數據中添加能夠被計算機所理解的語義信息,從而提升機器的理解能力。作為語義網的數據支撐,知識圖譜(Knowledge Graph)的概念由谷歌公司于2012年提出,旨在實現更智能的搜索引擎,并于2013年開始在學術界和業界普及。知識圖譜可以通過統一的框架將多源異構的數據組織起來,利用圖結構表達數據之間的語義關系,為數據的分析和挖掘提供了支持。隨著深度學習等人工智能技術的發展,知識圖譜技術在金融風控、證券投資、醫療和地理信息等領域得到了廣泛的應用。在網絡安全領域,通過對海量安全數據進行知識抽取、融合和推理,能夠實現多源異構數據的關聯挖掘,從而在目標畫像、APT檢測、攻擊溯源等方面發揮作用。

目前,網絡安全知識圖譜的研究尚處于起步階段,對于構建和應用網絡安全領域圖譜的整體技術框架的研究很少,本文重點對網絡安全領域知識圖譜的各類關鍵技術進行研究,提出了網絡安全知識圖譜的技術架構。

本文第1節介紹相關技術的國內外研究現狀,第2節提出網絡安全知識圖譜技術架構,從本體模型、實體抽取、關系抽取、圖譜構建與推理方法等方面詳細闡述知識圖譜關鍵技術,最后第3節對全文進行總結。

1 國內外研究現狀

知識圖譜的核心是本體結構[3]。本體是對一個特定領域中的概念及其之間關系的一種描述。知識圖譜描述的是真實世界中存在的實體或概念,強調實體和屬性值。一個本體可以用五元組來表達:O =(C,R,F,A,I),C是本體概念的集合,描述領域內的實際概念;R是關系集合,描述概念之間的關系;F是上下文關系的集合;A是公理集合,代表本體內存在的事實,可以對本體內的概念或關系進行約束;I表示實例的集合。

網絡安全知識圖譜在語義網技術作為知識表示的基礎上,最重要的是本體結構[4]。Undercoffer等人[5]提出了一個針對網絡攻擊的本體結構并應用到了分布式入侵檢測系統中,作者分析了4 000多種網絡攻擊,從目標和攻擊兩個維度進行建模;Herzog等人[6]定義網絡安全本體模型的核心概念包括資產、威脅、漏洞和對策,并描述了資產與漏洞、威脅與目標資產之間的關聯關系;Iannacone等人[7]面向網絡安全整體領域構建了一種本體,包含了15種實體及115個屬性;SYED等人[8]擴展了Undercoffer提出的面向入侵檢測系統的本體,提出了一個更為通用的網絡安全知識本體——UCO,可以將網絡安全本體映射為STIX格式,對應CVE等網絡安全知識庫以及DBPedia等通用知識庫。除此之外,國內很多學者也對網絡安全領域的本體構建進行了研究,賈焰等人[9]基于現有的漏洞數據庫和攻擊規則庫,構建了包含漏洞、資產、軟件、操作系統和攻擊在內的網絡安全實體;王通等人[10]根據威脅情報目標需求,參考威脅情報模型STIX和攻擊模式模型CAPEC構建了網絡威脅情報本體模型。

實體抽取又稱為命名實體識別,目前的命名實體識別技術主要包括基于規則的方法、基于統計學習的方法和基于深度學習的方法。基于規則的方法一般由領域專家手工構建規則模板,選擇詞語的統計信息、指示詞等作為特征,以模式匹配為主要手段,例如Balduccini等人[11]提出將本體與正則表達式相結合來抽取網絡日志中的實體,該方法采用遺傳算法生成正則表達式對日志段落中的信息進行標記,然后通過本體將標記信息匹配為實體;Liao等人[12]采用語法樹和正則表達式相結合的方法來識別網絡安全博客文本中的失陷指標(Indicators Of Compromise)。基于規則的方法對于實體識別的準確率較高,但是需要耗費大量人力來構建規則,并且規則的移植性較差。基于統計學習的方法是將命名實體作為序列標注或多分類任務來處理,主要采用最大熵、條件隨機場、隱馬爾可夫等模型。隨著機器學習技術的發展,出現了很多命名實體識別工具,例如Stanford NLP、Stanform NER等,但這些工具都是基于通用知識語料庫進行訓練的,直接應用到網絡安全領域的信息抽取中并不能取得較好的結果。賈焰等人[9]使用現有漏洞數據庫中的“influence platform”字段進行匯總,構建了實體字典,選擇Standform NER中的字典特征進行訓練,取得了較好的效果;Joshi等人[13]在條件隨機場(CRF)模型的基礎上采用網絡安全語料進行訓練。基于統計學習的方法可以自動抽取實體,但需要大量的人工標注數據。隨著深度學習技術的發展,神經網絡方法被廣泛應用到了命名實體識別任務中,并成為目前的主流方法,其中Huang等人[14]首次將BiLSTM-CRF模型應用到了命名實體識別中,利用雙向長短時記憶網絡(LSTM)進行特征提取和CRF進行實體標注;Houssem等人[15]利用LSTM進行網絡安全實體識別,也取得了較好的效果。

信息抽取中的另外一項任務是關系抽取,不同的關系將獨立的實體連接在一起形成知識圖譜。目前關系抽取主要分為三種方法:基于規則的模式匹配方法、基于監督學習的方法和基于半監督或無監督的方法。早期的關系抽取主要采用基于規則的模式匹配方法,由領域專家定義各類關系的規則,然后使用規則和文本進行模式匹配,但是領域專家無法對所有關系的規則進行窮舉。基于監督學習的方法把關系抽取作為多分類問題來處理,每一種關系都是一個類別,通過標簽數據對分類器進行訓練。這種方法依賴于標注數據的規模和特征的選擇,獲得大量標注數據的代價通常是非常高昂的。為了解決這個問題,出現了基于半監督或無監督的關系抽取方法,主要包括基于Bootstrapping的方法和遠程監督的方法,其中Bootstrapping方法利用少量實例作為初始種子(seed tuples)集合,通過學習得到新的模式(pattern),進而基于新的模式發現更多的實例,不斷迭代從非結構化數據中尋找和發現新的潛在關系三元組;Mintz等人[16]提出了遠程監督方法,通過將知識庫與非結構化文本對齊來自動構建大量訓練數據,然后構建特征用于訓練分類器;Riede對傳統的遠程監督學習方法進行改進,提出了增強的遠程監督假設,即“如果兩個實體之間存在某種關系,那么至少有一個提到兩個實體的句子可以表達這種關系”,使用無向圖模型預測實體之間的關系以及哪個句子表達了這個關系,與原始的遠程監督方法相比,錯誤率降低了31%;Zeng等人[17]使用卷積神經網絡來自動提取特征,解決了采用詞性標注、依存句法樹等技術構建特征時錯誤率偏高的問題;Miwa等人[18]提出了使用雙向LSTM和樹形LSTM同時對實體和句子進行建模的方法。在網絡安全領域的關系抽取中,Pingle等人[19]在網絡安全語料庫上訓練Word2Vec模型對實體進行詞嵌入,采用前饋神經網絡FFNN預測實體間的關系。

在網絡安全知識圖譜的構建和推理方面,綠盟科技[20]基于知識圖譜進行APT組織的追蹤分析,通過采集威脅情報、各機構發布的APT報告及安全通告等數據,定義APT攻擊本體,建立APT攻擊知識圖譜,實現對APT攻擊行為的追蹤溯源。瑞星公司構建了威脅情報及網絡安全知識圖譜[21],包含100億+實體以及400億+關系,其中,實體包含文件、漏洞、IP、黑客組織等網絡安全攻擊事件中涉及到的所有元素,與普通的威脅情報平臺相比,在惡意軟件領域可以發揮特長,將一些惡意軟件模糊搜索、自動歸類的技術應用到了知識圖譜的檢索中。在學術界,也有很多研究人員對知識圖譜在網絡安全領域中的應用開展了研究工作,Yulu等人[22]基于網絡安全知識圖譜對網絡攻擊進行溯源分析;Wei等人[23]通過知識圖譜來過濾不相關的警報日志;Narayanan集成不同來源的威脅情報構建網絡威脅情報圖譜[24],實現了簡單的網絡安全事件預測;陶源等人利用知識圖譜建立日志審計分析模型,以支持網絡安全等級保護工作[25]。

2 網絡安全知識圖譜技術架構

當前,知識圖譜相關技術發展迅猛,網絡安全作為新興的應用領域,相關的知識圖譜本體模型、實體抽取、關系抽取,以及圖譜構建及推理技術逐漸引起研究人員的重視。網絡安全知識圖譜技術架構主要分為三個層次,其中:

(1)本體構建層負責定義網絡安全領域的概念及其關系,例如網絡攻擊者、攻擊工具、木馬病毒、攻擊活動、安全事件、漏洞隱患、防護措施等;

(2)信息抽取層負責從多源異構的網絡安全數據中抽取相關實體及其關系,將信息抽取過程中得到的實體進行對齊和鏈接,并通過對抽取到的實體及關系進行評估校驗后構建知識圖譜;

采用文獻[27]Molish法對20%vol和72%vol紅棗白蘭地的致濁物進行定性分析,實驗結果,20%vol未出現紫紅色環,72%vol出現紫紅色環。表明20%vol紅棗白蘭地致濁物中不含有糖類,72%vol紅棗白蘭地致濁物中可能含有糖類,與紅外光譜圖結果相吻合。

(3)知識推理層負責在初步構建的知識圖譜基礎上,通過知識推理分析挖掘新的實體或隱含關系,對圖譜進行補全,提供網絡安全決策支持。

2.1 本體模型

網絡安全本體模型的構建應根據具體的目標需求來完成,例如針對APT攻擊,本體模型應重點圍繞APT攻擊相關的組織、技術、工具、歷史攻擊活動、掌握資源等要素定義實體、屬性及其關系;針對勒索病毒,則本體模型應重點定義病毒、代碼特征、利用漏洞、目標對象、軟硬件版本、傳播范圍、阻斷方式等要素。

圖1給出了針對通用網絡安全目標需求的本體模型示例。圖中每個節點代表本體模型的一類實體,節點間的連接代表實體間關系。例如,歸屬于某組織的攻擊者利用攻擊工具或惡意程序,發起對某個IP主機的攻擊事件,該攻擊工具或惡意程序利用了某款軟件存在的安全漏洞。

圖1 網絡安全本體模型示例Fig.1 An example of network security ontology model

2.2 實體抽取

網絡安全實體抽取任務主要面向的是網絡安全相關的非結構化文本,例如網絡安全網站、論壇和各類社交媒體上發布的內容。本文介紹基于經典的雙向長短時記憶網絡-條件隨機場(BiLSTM-CRF)模型的實體抽取方法。其中雙向長短時記憶網絡(BiLSTM)負責學習句子的上下文關系,條件隨機場(CRF)則負責處理實體類型之間的依賴關系,模型結構如圖2所示。

圖2 BiLSTM-CRF模型Fig.2 BiLSTM-CRF model

模型的第一層是詞嵌入層,通過Word2Vec工具,將單詞序列(w1,w2,w3,...,wT)中的每個單詞映射成低維向量xi∈Rd,d為詞向量的維度。

模型的第二層是雙向LSTM層,負責自動提取句子特征。將單詞序列的各個詞向量(x1,x2,x3,...,xT)作為雙向LSTM在各個時間點的輸入,再將正向LSTM輸出的隱狀態序列與反向LSTM在各個位置輸出的隱狀態進行拼接,得到完整的隱狀態序列(h1,h2,h3,...,hT)∈RTxm,接入一個線性層,將隱狀態向量從m維映射為13維向量(共有13種實體類別),從而得到自動提取的句子特征,記作L=(L1,L2,L3,...,LT)∈RTx13,Li∈R13的每一維Lij是把單詞wi分類為第j類實體的得分:

進而得到歸一化之后的概率如公式(2)所示,P(y|x)表示將單詞序列x的實體類別預測為y的概率,Y表示單詞序列x對應所有可能的實體類別序列構成的集合,|Y|=13T:

模型通過最大化似然函數進行訓練,一個訓練樣本(x,yx)的似然函數計算如公式(3)所示,其中P(yx|x)表示單詞序列x的實體類別序列為yx的概率:

最后由條件隨機場(CRF)層使用動態規劃Viterbi算法來得到預測值。

2.3 關系抽取

針對網絡安全關系抽取任務,由于缺乏中文標注的網絡安全實體關系數據集,因此傳統的模式匹配和監督學習方法并不適用。考慮使用遠程監督方法,在只需要少量標注數據集的基礎上進行模型訓練。本文介紹分段卷積神經網絡(Piecewise Convolutional Neural Networks,PCNN)模型[26],將遠程監督學習看作是一個多實例學習問題,使用卷積神經網絡(CNN)模型自動學習文本特征,在最后的池化操作中使用分段池化的方法,利用該模型進行網絡安全實體關系的識別。PCNN模型結構如圖3所示。

圖3 PCNN模型Fig.3 PCNN model

PCNN模型的第一層是詞嵌入層,將輸入的單詞轉化為詞向量。PCNN模型根據每個單詞相對兩個實體的位置信息進行拼接形成位置向量,然后在卷積層通過CNN模型來提取文本特征。常用的最大池化操作因為對句子長度特征池化,不適合關系抽取任務。PCNN模型將句子按照實體位置分為三段,分別對每段進行池化,最后通過softmax層計算句子屬于每類關系的得分。

PCNN使用多實例學習方法來降低錯誤標注帶來的影響。多實例學習每次使用一袋包含同一對實體的樣本,袋的標簽為實體對在知識圖譜中的關系,袋中的數據相互獨立。每次對M袋數據進行訓練,首先從每一袋數據中選取最具代表性的樣本,計算方式如下:

其中,qi表示第i袋樣本的數量,yi為第i袋數據的標簽,mji表示第i袋數據中的第j個樣本;然后,將該樣本的標簽視為此袋數據的預測標簽,計算交叉熵損失:

其中,M表示袋的數量,yi為第i袋數據的標簽,為第i袋數據中選出的最具代表性的樣本。

2.4 圖譜構建與推理方法

經過實體抽取和關系抽取之后,網絡安全數據中的實體和關系可以鏈接到本體模型中定義的概念及關系,通過Neo4j等圖數據庫可以存儲初步形成的知識圖譜。為保證圖譜的質量,還需對圖譜中的知識進行評估校驗,去除多數據源中的冗余知識,并研判解決存在沖突的信息,避免在知識推理過程中錯誤傳播。

由于很多網絡安全數據的組織形式比較簡單,信息抽取之后創建的知識圖譜中主要包含句子中顯式表達的關系,還需要在現有知識的基礎上通過知識推理,挖掘潛在的隱含知識,豐富網絡安全知識圖譜。網絡安全知識圖譜的知識推理可以結合具體的任務需求,綜合使用基于規則的推理和基于知識表示學習的推理方法。某些網絡安全數據可以根據專家經驗知識定義規則,例如對于某些具有鮮明特征的APT組織的攻擊手段或技術方法,可以由專家定義規則知識庫,將圖譜知識與規則庫進行模式匹配。

另一方面,知識表示學習可以將圖譜中離散的關系和實體映射成低維的連續向量,同時不損失知識圖譜中的原有語義。目前常用的方法主要是基于深度學習的知識表示學習,針對本文構建的網絡安全知識圖譜,將<實體,關系,實體>三元組映射成低維的向量,使用循環神經網絡模型進行多步知識推理。目前在知識圖譜推理的基礎研究中,結合領域知識圖譜的本體知識來構建圖譜表示模型的研究成果較少,研究針對網絡安全領域知識圖譜的表示模型,可以在一定程度上提高圖譜推理的準確率,實現更為精準、更具可操作性的安全決策推理。

3 小結

本文提出了網絡安全知識圖譜的技術架構,從本體模型定義、實體抽取、關系抽取、圖譜構建及推理等方面闡述了網絡安全領域知識圖譜的關鍵技術。當前,知識圖譜在信息檢索、推薦系統等領域得到了廣泛應用,在網絡安全領域中也開始發揮越來越重要的作用。將知識圖譜引入網絡安全領域中,可以將互聯網中零散的網絡安全數據組織在一起,挖掘網絡安全數據之間潛在的語義關系,幫助全方位掌握威脅信息,對當前的網絡安全態勢做出判斷,進而預警、預測未來可能發生的威脅。

本文提出的網絡安全知識圖譜的技術架構中知識抽取、推理等關鍵技術主要還是基于深度學習技術,然而使用深度學習技術構建知識圖譜仍然存在不準確、不全面的問題,首先深度學習技術依賴于大量的標注的語料庫,目前通用知識語料庫主要還是關注人物、事物等,將深度學習知識圖譜引入到領域圖譜中時會出現準確率大大降低等問題,可移植性較低;其次,知識圖譜涉及各個方面各個場景,并不像圖片、語音可以在單一的維度來訓練模型,從而達到足夠的精度和召回率;在知識推理方面,目前主流的方法還是基于深度學習與知識表示學習,單純依賴大量的標注數據,在網絡安全領域的知識圖譜中,有諸多的先驗知識無法有效使用并融合到深度學習的推理模型當中,以提高知識推理的精度。

后續可以圍繞如何提升網絡安全領域信息抽取的準確性,如何融合已有的專家知識構建網絡安全領域知識圖譜表示模型和推理模型,進一步開展更多的研究和探索工作,以提高網絡安全主動防御能力。

利益沖突聲明

所有作者聲明不存在利益沖突關系。

猜你喜歡
網絡安全方法模型
一半模型
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
網絡安全
網絡安全人才培養應“實戰化”
上網時如何注意網絡安全?
可能是方法不對
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
主站蜘蛛池模板: 亚洲综合婷婷激情| 国产区在线看| 国产小视频a在线观看| 无码精油按摩潮喷在线播放| 99热最新网址| 日韩国产亚洲一区二区在线观看| 久久人体视频| 国内精品伊人久久久久7777人| 国产国模一区二区三区四区| 亚洲综合精品香蕉久久网| 99热这里只有精品2| 国产极品嫩模在线观看91| 成人夜夜嗨| 亚洲伊人电影| 在线观看91精品国产剧情免费| 青青久久91| 香蕉视频国产精品人| 亚洲欧洲日韩综合色天使| 亚洲一级色| 成人午夜久久| 特级欧美视频aaaaaa| 精品91视频| 国模粉嫩小泬视频在线观看| 91福利在线观看视频| 免费日韩在线视频| 亚洲精品无码av中文字幕| 日韩a在线观看免费观看| 色吊丝av中文字幕| 伊伊人成亚洲综合人网7777| 国产成人精品日本亚洲| AV不卡国产在线观看| 日本免费福利视频| 国产偷倩视频| 国产www网站| 国产一区成人| 欧美成人A视频| a欧美在线| 夜夜操国产| 欧美激情视频二区| а∨天堂一区中文字幕| 国产激爽爽爽大片在线观看| 久久毛片基地| 欧美日韩专区| 国产精品无码一二三视频| 日韩欧美国产综合| 亚洲二区视频| 国产精品久久久久婷婷五月| 激情综合激情| 国产精品自在在线午夜| 成人韩免费网站| 亚洲精品第一页不卡| 国产中文在线亚洲精品官网| 成人av专区精品无码国产 | 日韩精品少妇无码受不了| 台湾AV国片精品女同性| 人妻一区二区三区无码精品一区| 美女扒开下面流白浆在线试听 | 一级高清毛片免费a级高清毛片| 免费大黄网站在线观看| 国产靠逼视频| 人妻出轨无码中文一区二区| 青青操视频免费观看| 国产一级视频在线观看网站| 91亚洲影院| 久久99国产精品成人欧美| 日本高清有码人妻| 亚洲天堂网2014| 国产人免费人成免费视频| 国产在线拍偷自揄拍精品| 国产精品女人呻吟在线观看| 国产在线精彩视频二区| 97影院午夜在线观看视频| 精品国产污污免费网站| 精品伊人久久久大香线蕉欧美| 极品尤物av美乳在线观看| 玖玖精品在线| 蜜桃臀无码内射一区二区三区 | 亚洲一区二区三区香蕉| 亚洲愉拍一区二区精品| 欧美激情伊人| 欧美国产日韩在线播放| 人妻精品久久无码区|