廉龍穎
(黑龍江科技大學 計算機與信息工程學院, 哈爾濱 150022)
隨著信息革命的不斷演進,網絡空間已成為繼陸、海、空、天之后的第五大空間[1]。在網絡空間里,安全問題的內涵和外延在不斷擴大,針對網絡空間安全面臨的嚴峻形勢,威脅情報技術應運而生。威脅情報是關于IT或信息資產所面臨的已經存在或正在顯露的威脅的循證知識[2]。這些知識通常存在于科學文獻、安全站點、黑客論壇等非結構化的文本數據中,且具有海量化、碎片化、分散性和隱形關聯性等特征。因此,如何從文本數據中抽取出網絡空間安全的威脅主體、攻擊方法、防御措施等內容是情報分析研究的熱點問題。
網絡空間安全知識圖譜可以從多維角度組織海量信息和知識,并能可視化呈現知識及其關系,為威脅情報隱形關聯分析提供了可能性。網絡空間安全知識圖譜構建主要包括命名實體識別、實體鏈接以及關系抽取等,其中命名實體識別是構建知識圖譜的首要工作。網絡空間安全實體識別是一種特定領域的命名實體識別,主要工作是識別網絡空間安全文本數據中的對象、方法和事件等不同類型的實體。常用的命名實體識別方法有基于規則的方法[3]、基于統計的方法[4]和基于神經網絡的方法[5]。基于規則的方法是早期命名實體識別中最有效的方式,依賴手工制定規則和權重賦值,通過實體與規則的相符情況來進行實體識別,但存在可移植性差、維護困難等問題。……