陳劍鋒,范航博
(1.中國電子科技網絡信息安全有限公司,四川 成都 610041;2.中國電科網絡空間安全技術重點實驗室,四川 成都610041;3.電子科技大學 計算機科學與工程學院,四川 成都 610041)
安全威脅情報(Security Threat Intelligence,STI)源自于情報學﹑網絡安全和大數據的重疊領域,能夠充分借鑒和吸收各交叉學科在網絡空間實踐中的獨特優勢。在網絡安全背景和大數據的賦能驅動下,采用情報學的方法來規范﹑提升安全威脅信息的生產﹑分發和使用效率,能夠促進企業﹑組織間建立協同防御信任聯盟,實現情報信息的多方共享和使用,達到“知已知彼”的有利效果。
安全威脅情報已成為近年各大安全行業研究和產品化的焦點,但網絡安全具有涉及要素眾多﹑關聯復雜﹑瞬息萬變和量化困難等特征,對威脅情報的落地帶來了極大困難。目前,在STI的標準化交換方面較,有影響力的框架﹑協議和標準包括IODEF﹑CIF﹑STIX﹑OpenIOC和Veris等[1]。所有這些規范的目標多是提供更豐富的描述能力﹑更精確的事件刻畫和更易被處理的協議格式。不過,這些優點很難同時獲得。在標準泛濫的當前,許多安全從業者和研究人員呼吁通過技術或非技術的綜合手段來提升安全威脅情報的標準化﹑規范化和知識化水平,使政府﹑行業與企業間建立更加便捷﹑通用和穩固的安全威脅情報共享體系機制,以發揮集體智慧的合力[2]。
學術界與產業界針對威脅情報的難點共享問題開展了廣泛研究,較有代表性的研究包括基于OpenIOC框架的本地攻擊指示器自動生成[3]﹑對網絡威脅情報的活動模型進行建立與具體應用模式分析[4]﹑通過語義網思想對安全設備進行語義概念提取與數據模型抽象[5]等。但是,縱觀這些研究,安全防御與監測預警領域亟需一種表達能力強﹑無歧義﹑高效的威脅情報共享方法,既可以促進威脅情報在使用者間交互的規范化﹑有序化,提高兼容性,又能通過豐富的語義加深使用者對情報內容的深入理解,便于自動化響應策略的執行,實現安全防御主體間的無縫銜接和功能自治。
文章第1部分將介紹威脅情報驅動的網絡空間防御這一新型理念,包括概念﹑價值和技術挑戰;第2部分引用本體思想,描述威脅情報的本體化建模﹑映射及適配等建模過程;第3部分提出可實用的威脅情報形式化共享方法;最后總結全文。
情報是在一定的空間和時間限制下,將具有所要求時效性﹑相關性﹑格式性和準確性的信息內容傳遞給需求方,用于解決具體問題所需要的特定知識。威脅情報是情報在網絡空間安全對抗領域的存在形式,是針對已經存在或正在顯露的威脅或危害資產行為,基于證據知識包含情境﹑機制﹑影響和應對建議,用于幫助解決威脅或危害進行決策的知識。
威脅情報涵蓋具有情報價值的網絡空間安全信息,包括可能威脅用戶的業務﹑網絡﹑軟件﹑服務器漏洞﹑風險﹑脆弱性和攻擊行為等。威脅情報對網絡安全的意義,如同商業情報對銷售﹑財務﹑市場營銷的意義。利用大數據﹑人工智能領域多樣化﹑成熟的信息處理及分析手段再現和還原攻擊的發生過程,能夠推演出對方預期的攻擊目標和效果,使防御者能夠盡早準備和響應,從而降低損失。
檢測﹑攔截APT(Advanced Persist Threat,Advanced Persist Threat,高級持續性威脅)攻擊的嚴峻挑戰,是當前安全從業人員面臨的首要困難。APT往往由經驗豐富的黑客發起,他們準備的攻擊資源﹑流程和策略都是精心選擇的,通常被稱為TTP(Tactics,Technology & Procedure),即戰術﹑技術和行為模式。TTP的準備工作極為費時費力,因而攻擊者在入侵一系列系統架構﹑資產類型都相似的目標任務中傾向于重復使用TTP。
攻擊者TTP盡管不是始終不變的,但其在短期內的穩定性仍然為安全防護者帶來了時間﹑空間窗口余量。非法流量和行為終究無法隱藏,這時較早受到入侵的防御者有可能獲取到關于攻擊的細節信息,而這些信息對于尚未遭受攻擊的其他防御者具備較高的價值。如果情報能夠充分共享,處置手段得當,那么這些目標能夠免疫未來的同源攻擊,避免潛在破壞和損失。此外,情報中關于威脅細節的披露也能使被攻擊的企業更快地從故障中恢復。
表1給出了安全威脅情報通常可能包含的8個層級及相關含義。不同層級代表了安全威脅情報內容的詳略程度。層次越低的數據,細節越豐富,結構化程度越高,但無法說明攻擊的全面情況;層次越高的數據,抽象程度越高,結構化程度越差。使用者雖然可以從情報中得到指導行動的建議并組織處置措施,但這些內容對機器而言往往是不可理解的。
安全威脅情報能夠作用于網絡空間防御的各個環節。將安全威脅信息情報化,是在新的威脅形式和風險環境下,網絡空間防御思路從以往面向漏洞的方法進化成面向威脅方法的必然選擇。安全威脅情報可以為態勢感知﹑早期預警和應急響應提供支撐。它和大數據安全分析﹑攻擊鏈擊破等思想,正在形成新一代防御體系的基石。

表1 安全威脅情報的層級說明
知識和情報的價值在于傳遞和共享。因此,未能投遞至最終用戶的情報沒有任何意義,無法理解或內容含混的情報也難以使用。威脅情報體系結構復雜﹑內容豐富﹑用法多樣﹑受眾廣泛。為了最大限度節約使用者的資源和精力,威脅情報的處理過程必須盡可能自動化,從而對機器與機器之間實現情報內容的可讀﹑可理解的規范化交換提出了迫切要求。
當前,眾多安全廠商已經為系統之間的情報交互設計了多種協議,但主要以格式要求嚴格﹑缺乏靈活性的專用﹑私有協議為主,無法完成威脅情報共建﹑共享﹑共用的預期目標。另外,情報使用者之間的能力鴻溝差距較大,并不是每一企業都具有正確解讀及應用主流格式安全威脅情報的能力。一般來說,企業在信息安全投入越高﹑經驗越豐富,就越能在及時﹑準確的安全威脅情報中受益;相反,企業就很難及時對威脅情報做出正確響應,信息無法按照標準方式與網絡﹑資產或業務操作活動進行關聯。
安全威脅情報應用的挑戰主要發生在共享環節。不考慮企業利益﹑策略和形象等方面因素,威脅情報共享的技術難題包括以下三方面。
(1)安全系統間威脅情報共享的可擴展性問題。不同情報交互協議的格式字段均在設計之初就嚴格限定,靈活性差,難以擴展,表達能力欠缺。
(2)安全系統間威脅情報共享的概念一致性問題。情報交互協議的要素定義不統一,元數據間孤立性強,缺乏語義和聯系,不同廠商的設備間難以對安全領域概念﹑術語和取值形成一致的約定和認知。
(3)安全系統間威脅情報共享的接口通用問題。協議主要依托廠商自行開發的專用﹑封閉模塊實現,在多個廠商間進行信息的適配與轉接工作量巨大。
企業間信息交互智能度的不足,導致一個個情報孤島的形成。因此,安全界迫切需要構建一種表達能力強﹑格式規范﹑擴展性好﹑易于處理的交互機制來打破威脅情報信息交換的瓶頸,最大化威脅情報應用的潛力。
Fensel定義本體是對一個特定領域中重要概念共享的形式化描述,實質上是關于概念的一致共享協議。它以規范化﹑無沖突的詞匯表達為特征。這種共享協議包括領域知識模型﹑概念框架﹑通信協議和領域知識的表示方法等。本體通過減少概念和術語上的歧義,為使用不同語言﹑具有不同背景和目的的個體提供一致性的框架和語義模型,從而使他們之間的理解和交流成為可能[6]。
本體的這種特性使得它尤其適用于威脅情報這類概念眾多﹑關聯復雜﹑更新迅速﹑信息共享需求迫切的場景。在表達方面,本體能夠將威脅情報領域的有關概念﹑定義和表達方式抽象并規范化為一張多維的語義網絡,從而更加系統﹑全面地揭示這些概念以及實例化后的事件間的相互關系,從而合理﹑正確地表達威脅情報中包含的威脅因素﹑威脅活動﹑安全事故等概念特征,進一步可以關聯攻擊模式﹑身份﹑觀察到的數據﹑威脅行為者﹑安全漏洞等細分信息。在共享方面,本體能夠消除和填補不同威脅情報來源﹑格式﹑數據類型之間的語義鴻溝,允許通過一致﹑無歧義的語義框架和映射規則,在多個情報個體之間實現信息的泛在理解和溝通。與現有的多格式威脅情報交換語言相比,基于本體的信息共享方式更能順應現代網絡安全領域事件信息和知識組織的需要,實現威脅情報在多個實體間的“一處生成,泛在共享”。
本體建模包括需求收集﹑目標分析﹑領域知識提煉﹑概念化﹑形式化﹑評價和編碼等相互銜接的過程。其中,領域需求是本體建模過程的輸入,指定了領域本體需要達到的目標和應用范圍;本體庫是本體設計過程的輸出,代表了領域概念知識向形式化﹑規范化結構的轉變。威脅情報本體設計流程如圖1所示。

圖1 威脅情報領域本體建模流程
常用的本體模型中的建模元語包括即類/概念﹑關系﹑函數﹑公理和實例五種[7]。類或概念表示的是對象的集合,在威脅情報領域指個體或事務,包括屬性﹑功能﹑行為和策略等;關系指代概念之間的交互作用,可以是1維也可以是n維,如防火墻規則中常用的五元組(源地址﹑目的地下載﹑源端口﹑目的端口﹑協議)就是威脅情報中關于策略的關系;函數是一類特殊的關系,該關系的前n-1個元素可以唯一決定第n個元素,在某種程度上可以描述計算相關性;公理指永真斷言,是概念體系推理的基礎和前提;實例是概念的具象化,代表在網絡空間中真實存在的個體,具有概念規定的所有屬性,也受概念間的關系影響。
事實上,威脅情報的本體模型定義了威脅情報的數據空間,即所有可能出現的威脅情報類型﹑內容的抽象集合。但是,與傳統靜態﹑固化的數據結構或規則框架不同,基于知識的本體是一個開放的體系,新概念﹑新關系和新公理等在不與已有知識矛盾的前提下可以動態添加,促進知識體系的自我更新和不斷完善。
本體概念映射是在不同的語言體系間搭建語義橋﹑建立語義聯系的過程。在威脅情報語境中,本體映射將原始威脅情報包含的信息基于本體語言進行重構,形成概念化﹑形式化標準描述,便于被其他使用者訪問和集成。映射后,威脅情報領域的重要概念如資產﹑威脅﹑信譽﹑脆弱性﹑對策以及概念之間的相互約束關系等被添加至本體中,由此形成的知識模型能夠用于實例數據的向本體結構的轉換。同時,知識體系中的一致性問題能夠得到檢測,以避免矛盾或沖突。
威脅情報原始信息通常以無結構的日志﹑半結構化的XML/JSON﹑以及結構化的數據庫記錄等形式存在。為了達到信息泛在理解和復用的目的,必須在領域本體模型的規范下對信息進行分析﹑整理和加工,利用形式化語言(基于框架的邏輯﹑一階謂詞邏輯﹑描述邏輯等)對結果進行描述,形成領域知識斷言。
映射過程中,對原始信息進行基于轉換規則的分析,區分內容中蘊含的用于描述實體的﹑描述屬性的或描述關系的信息,并將其映射至本體的相應部分中。對于結構化數據,可以通過數據庫中定義良好的結構來獲取公理,并對數據庫的關系模式進行語義分析,從而獲取構建本體所需的概念和關系。對于半結構化數據,可以利用隱含的結構信息來建立規則,或者通過預定義﹑自學習的方式來發現映射函數,最終轉換為本體;對于非結構化的數據可以利用基于語言學的﹑統計的和混合方法來獲取概念,通過基于模板的﹑概念聚類的﹑關聯規則或基于詞典的方法來獲取關系。由于非結構化數據的內容語法相差很大,當前對于未知格式或自然語言描述的威脅情報信息,識別的準確率還較低。圖2給出了結構化威脅信息標準(STIX)核心概念經過映射后的一類可視化結果。

圖2 STIX威脅情報核心概念的本體可視化
安全設備威脅情報本體適配是本體概念映射的對偶過程。威脅情報的使用者通過共享途徑接收以本體語言描述的威脅情報,通過對情報內容的解析﹑選擇和提取,將通用領域本體轉換為本地威脅描述語言,并對設備參數進行相應配置,以有效利用情報內容。在情報內容的解析和選擇過程中,使用者可以利用相關的本體查詢語言設置關注的威脅對象﹑區域信息或過濾條件,并執行查詢,從而快速提取感興趣的相關信息。
(2)CFD仿真工具,實現對旋流全流場精準優化設計,根據具體需求,優化出最佳入口旋流位置、切向速度、旋流強度,抗來水水質波動性更強,可以適應水質50%的變化。
設定情報生產者﹑情報傳遞者和情報使用者三類角色,基于本體思想,在基于領域知識模型的映射引擎﹑適配引擎的驅動下,威脅情報自網絡空間生成﹑轉換并運用至網絡空間。共享方法的框架如圖3所示。
情報生產者:一般是專業的安全分析機構,匯集和接收受害者上報的信息,經過處理﹑分析﹑編排后形成情報并發布。
情報傳遞者:一般由情報服務門戶﹑情報知識庫及情報傳遞節點構成,是聯結情報使用者與情報生產者的紐帶。
情報使用者:情報的最終用戶,在獲取情報內容后進行及時處置。使用者可以評估情報質量并反饋生產者,幫助其改進情報質量。

圖3 威脅情報的形式化共享框架
威脅情報的形式化共享,首先針對安全威脅情報的領域特點建立本體模型,包括對知識體系的定義和描述﹑概念的抽取﹑關系的建立等步驟。其次,將情報生產者使用本地描述語言生成的原始威脅情報,在領域本體模型的規范下,轉換為基于本體表示的形式,并發送至本體通信服務。再次,本體通信服務基于映射﹑語義分析和路由等機制,實現威脅情報的正確交付,包括本體的序列化﹑接口的服務化﹑目的地檢查等步驟。最后,情報使用者接收威脅情報,將通用領域本體轉換適配為本地描述語言,對設備參數進行相應配置以應對威脅,包括威脅本體的本地化﹑本體概念結構的適配和專用策略描述的轉換等步驟。
為了在不同的使用者間共享本體化情報,需要可以通過網絡承載的序列化數據格式來描述和記錄情報知識。RDF(Resource Description Framework,資源描述框架規范)是W3C在XML的基礎上推薦的資源表示標準模型,其中的節點用來表示資源,弧用來表示資源的屬性關系。RDF的數據模型由資源﹑屬性和陳述三元組的語法形式構成,可以作為描述領域本體模型這類復雜關系的基礎模型,進而將威脅情報領域本體中包含的知識以三元組的形式完整記錄下來。
RDF模型的默認描述語言是XML。通過XML強大的表達能力﹑廣泛的網絡接口成熟度和精確的查詢語言,實現對概念的檢索和本體的序列化。但是,實際應用中,XML較為臃腫,在編碼較大的本體模型時會耗費額外的存儲空間和流量。Turtle﹑N-triples或JSON-LD作為XML RDF的替代方案,在目前的系統中被主流的RDF數據庫如Apache Jena和GraphDB等所支持,在傳輸本體方面具有較好的兼容性和體積效費比。
分發是情報生命周期的重要環節,目標是在有效的時間內通過快速組織與實施,以正確的方式遞交正確的信息到需求方手中,實現情報按需﹑順暢﹑安全地共享。分發方式包括主動﹑被動兩類。
第一類,主動情報分發方法。基于安全威脅情報內容與用戶需求屬性的關系,向用戶分發相關數據。在新情報或例行情報產生后,生產者根據安全威脅信息的匹配度,將數據推送到相應的使用者。主動分發方式能夠確保時效性,使得最緊急﹑最關鍵的情報能在第一時間到達接收者,以指導響應工作的進行。
第二類,被動情報分發方法。它是一類需求驅動的情報分發方法。安全威脅情報提供者將可供選擇的情報種類以服務方式在門戶公開發布,用戶根據自己的需求查找相應的內容,隨后用系統提供的指定接口進行訪問。
以本體結構表達的威脅領域情報采用易于被計算機分析和處理的知識表達和信息組織模式,有利于使用者在接收后使用面向本體結構的查詢語言如SPARQL等,完成在傳統關系型數據組織方式中難以實現的復雜推理,從而迅速獲取在當前場景中最適合自己使用的知識。
使用者接收到的威脅情報可以分為基礎威脅情報﹑戰術威脅情取和戰略威脅情報三個層次。威脅情報可以回答的問題包括歸屬性問題﹑檢測性問題﹑指向性問題和預測性問題四類。
(1)歸屬性問題:區分特定的行為或者證據,主要回答攻擊者是誰﹑來自哪里﹑采用什么手段的問題,是最有價值的情報。但是,由于清晰明確的回答需要通過大量的指標分析印證才能得到,因而這類情報的收集和處理能力不是大多數企業具備的。
(2)檢測性問題:指向在互聯網上可以觀察到的事件,并通過特征匹配將其升級為安全事件。它能夠回答在哪里﹑發生了什么的問題。這類威脅情報是在實際傳遞中占比最廣泛的情報內容。
(3)指向性問題:預測哪些網絡﹑信息系統或計算機可能成為定向攻擊的目標。這類指標雖然非常有價值,但是它和特定的行業或者組織關聯更緊密,因此現在很少看到此方面內容的威脅情報提供。
(4)預測性問題:通過已有事件來預測其他事件的發生,基于攻擊者行為模式﹑受害者和第三方風險方面的信息做出判斷,通知潛在可能受攻擊的相關個體。
企業在接收到安全威脅情報后,可以執行的動作包括關閉系統﹑終止服務﹑封堵端口﹑更新規則﹑修改配置﹑安裝補丁﹑啟動蜜罐﹑隔離網絡﹑增添安全設備等。如何響應安全威脅情報取決于企業的安全目標和防御策略。由于情報服務成本較高,企業應充分研究情報服務提供商的優勢和局限性,對情報質量和性價比進行評估,依據希望達成的安全目標進行篩選組合,從而定制最適宜自身防護需求的解決方案。
本體是一類整合了知識表示﹑挖掘﹑共享和重用機制的信息模型,在網絡安全領域能夠較好地適應威脅情報組織﹑管理和交互過程的需要,因而得到了業界安全工作者的高度關注和積極研究。基于本體驅動的威脅情報運用代表了數據驅動安全的發展趨勢,為安全信息的泛在共享﹑普適理解和跨域協同注入了新的活力。可以預期,隨著威脅情報領域知識描述規范﹑知識交互協議﹑知識推理引擎和知識存儲容器的快速發展演化和成熟,網絡空間安全防護架構,將實現以知識為中心﹑生態為保障的嶄新變革。
[1] Barn um,Sean.Standardizing Cyber Threat Intelligence Information with the Structured Threat Information eXpression(STIX?)[J].MITRE Corporation,2012(11):1-22.
[2] Brown,Sarah,Joep Gommers,et al.From Cyber Security Information Sharing to Threat Management[C].Proceedings of the 2nd ACM Workshop on Information Sharing and Collaborative Security,2015.
[3] 徐文韜,王軼駿,薛質.面向威脅情報的攻擊指示器自動生成[J].通信技術,2017,50(01):116-123.
XU Wen-tao,WANG Yi-jun,XUE Zhi.Indicator Autogeneration of Compromise Oriented to Threat Intelligence[J].Communications Technology,2017,50(01):116-123.
[4] 陶昱瑋.網絡威脅情報活動模型建構與解析[J].保密科學技術,2017(08):21-28.
TAO Yi-wei.Construction and Analysis on Activity Models of Network Threat Intelligence[J].Secrecy Science and Technology,2017(08):21-28.
[5] 黃煒.語義網技術在網絡威脅情報分析系統的應用[D].北京:北方工業大學,2017.
HUANG Wei.Applications of Semantic Web Technology in Cyber Threat Intelligence Analyze Systems[D].Beijing:North China University of Technology,2017.
[6] Fensel,Dieter.Ontologies[C].Ontologies,Springer Berlin Heidelberg,2001:11-18.
[7] Gómez-Pérez,Asunción,Oscar C.Ontology Languages for the Semantic Web[J].IEEE Intelligent Systems,2002,17(01):54-60.