999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

SimMal:基于異構圖學習的惡意軟件關聯分析系統

2021-11-23 03:13:58章瑞康李文瑾顧杜娟
網絡安全與數據管理 2021年11期
關鍵詞:關聯分析模型

章瑞康,周 娟,袁 軍,李文瑾,顧杜娟

(綠盟科技集團股份有限公司,北京100089)

0 引言

隨著網絡環境日趨復雜,越來越多的惡意軟件混合使用不同的技術,已經發展成為影響網絡安全極為常見和嚴重的威脅之一。如惡意軟件“Stuxnet ”因為能夠對工業基礎設施造成巨大破壞引起了黑客的廣泛關注,與此同時也有相當數量的“Stuxnet ”被發現通過使用不同的技術來持續性攻擊特定類型的網絡和基礎設施[1];根據綠盟科技發布的網絡安全觀察報告,以“GandCrab ” 勒索軟件家族為例,其背后組織在一年半時間內非法獲取20 億美元,攻擊者通過暗網對“GandCrab ” 勒索軟件僵尸網絡進行管理面板,從而保持長時間匿名,并使用多種方式傳播,包括漏洞利用工具包、釣魚郵件、木馬程序。如今有許多惡意軟件使用多種攻擊技術和載體,具有高隱蔽性、持久化和規避傳統防御的特性[2]。

惡意軟件的復雜程度越高,對安全分析人員所需要的技術和知識水平要求就越高,惡意軟件分析需要一系列的方法和技術來進行,挖掘惡意軟件的威脅和意圖、識別所利用漏洞和確定攻擊來源等,這一系列分析幫助安全運維人員做出應急響應和防御措施。如圖1 所示,目前關于惡意軟件的檢測分析方法主要有人工分析、動態行為分析和惡意代碼分析,惡意代碼分析又分為靜態分析和動態分析[3]。靜態分析方法旨在提取惡意軟件代碼塊、strings 、控制流、函數調用等特征進行分析[4]。動態分析使用沙箱監控惡意軟件在運行過程中產生的行為數據,如API 調用序列、進程調用、文件操作、網絡通信等信息[5]。由于動態行為之間存在關聯性,有研究工作對其構建動態圖,使用圖神經網絡學習惡意軟件的特征表示,利用機器學習進行惡意/ 非惡意二分類或惡意軟件家族分類[6-8]。

圖1 惡意軟件分析技術

任何一種分析工具都有缺陷,例如靜態分析過程中,對惡意軟件的二進制代碼進行反匯編會產生不明確的結果;使用沙箱在虛擬化環境中監控惡意軟件的動態行為,如對受感染主機的文件修改、與外部控制服務器的通信等,借助沙箱完成自動化分析盡管可以節省人力資源和時間成本,但這并不是一個惡意軟件的全面化解決方案,沙箱環境和實際環境存在差異,惡意軟件在沙箱中可能具備規避檢測的能力,盡管沙箱幫助安全分析員獲取惡意軟件產生的動態行為數據,但從惡意軟件的行為數據上判斷潛在的家族或攻擊組織需要分析人員掌握大量的經驗知識。所以使用單個或少數幾種分析工具不足以應對復雜惡意軟件所帶來的挑戰,系統化的惡意軟件分析顯得十分必要,整合不同的惡意軟件分析結果將幫助分析人員深入了解惡意軟件的攻擊過程、攻擊意圖和產生的威脅。相關研究中,賈焰等人提出了一種構建網絡安全知識圖譜的實用方法,以漏洞知識為核心與網絡資產和攻擊事件相關聯,但沒有具體對惡意軟件進行分析建模[9];Xiao 等人將惡意軟件在運行時調用的API 構建為惡意軟件行為的有向無環圖,抽取出API 序列并通過SAE深度學習模型進行編碼,最后通過機器學習分類器預測惡意軟件家族[6],該方法僅考慮惡意軟件的API序列,并且隨著惡意軟件的發展變種等情況,分類器的性能也會顯著降低。

因此,本文設計了一種系統化的惡意軟件關聯分析方法SimMal,它集成了惡意軟件的動態及靜態分析數據,并融合安全專家的知識數據構建以惡意軟件為核心的異質網絡信息圖(以下簡稱異構圖),安全分析人員通過在線圖展示可以清晰地觀察惡意軟件攻擊過程中產生的數據外聯、惡意荷載C2服務器、攻擊目標等基礎信息,以及其使用的攻擊技術和利用漏洞等安全知識。為了挖掘惡意軟件家族,通過抽取離散特征構建機器學習分類器的方式泛化性和可解釋性不足,不能直觀獲取相同家族惡意軟件的關聯關系,并難以對未知家族的惡意軟件準確判斷。因此本文還設計了一種基于metapath2vec 改進的異構圖表示學習方法,計算惡意軟件間的相似共性,篩選出高度相似樣本輔助安全研究員分析,從而理清惡意軟件關聯脈絡,挖掘背后的惡意軟件家族和APT 組織,達到攻擊溯源的目的。

1 SimMal 系統框架

惡意軟件的靜態分析或動態行為分析產生了大量的離散型數據,比如惡意代碼的字符串特征、網絡流量、進程執行命令等,在信息安全領域中,存在許多通用的網絡安全知識,比如CVE (Common Vulnerabilities and Exposures) 漏洞庫;ATT&CK 攻擊技術矩陣;公開的APT 研究報告也記錄了APT 組織所使用的攻擊工具、惡意軟件和攻擊流程等信息。這些不同類型的數據存在關聯,傳統的惡意軟件分析通常是從惡意軟件個體本身的角度出發,去分析自身的屬性,很少從個體關聯關系的角度去分析惡意軟件攻擊場景,從而難以準確地挖掘出潛在的攻擊載體和組織。而圖計算和基于圖的認知分析彌補了這方面的不足,它可以充分表達事物的聯系和依賴屬性,將這些數據融合為異構圖,從關聯性角度分析惡意軟件[10]。

SimMal 系統將惡意軟件的動/ 靜態分析數據和外部補充的安全知識數據根據一定模式抽取轉換為異構圖的形式存儲,并支持多類型數據的查詢及關聯,清晰展開惡意軟件與其他類型數據的關聯并支持擴展從而進行深度挖掘;圖計算分析能夠自動計算惡意軟件之間的相似性,支持靜態屬性相似計算和動態行為數據相似計算,協助安全分析人員進行綜合研判。圖2 展示了SimMal 的整體框架,自底向上一共可分為四個部分,依次為數據抽取層、數據處理層、數據計算層和可視化關聯分析層。

圖2 SimMal 系統框架圖

如圖2 所示,數據抽取層收集了惡意軟件的動靜態特征數據和安全知識數據,這些海量的多源異構數據輸入到數據處理層后分為了結構化數據和非結構化數據,針對如APT 分析報告這種非結構化文本數據,SimMal 采取了正則匹配和自然語言處理技術(實體識別和關系抽取) 來識別文本中的惡意軟件、APT 組織、IOC 等關鍵字[9],依據實體唯一值(如惡意軟件md5、IP 地址值等) 融合以上多源數據包含的實體并建立實體之間的聯系。

SimMal 基于惡意軟件本體模型將融合后的數據轉換為結構統一的圖數據,并在圖數據庫HugeGraph中持久化存儲。本體是一種知識表示方法,它旨在建立一個面向具體應用領域的模型,明確領域內的概念、術語及相互關系。本研究參考MAEC(Malware Attribute Enumeration and Characterization) 惡意軟件描述語言和STIX(Structured Threat Information Expression)結構化威脅情報表達語言[11],設計了以惡意軟件為核心的本體結構,如圖3 所示。惡意軟件本體模型中包含多種類型實體,如Ssdeep 模糊哈希算法計算的文件hash 值;基于規則抽取的惡意軟件行為從而關聯到ATT&CK 攻擊技術;虛線框中列舉了惡意軟件的動態特征如通信Domain 和IP 地址、關聯URL等;APT 分析報告中解析出的觀測數據與惡意軟件特征進行對應關聯,形成包含惡意軟件、威脅情報和安全知識的本體模型。通過惡意軟件本體模型可以擴展出多種類型數據的關聯,如APT 威脅組織使用過的惡意軟件及其常用的攻擊技術,同一家族的惡意軟件的高頻特征。

圖3 惡意軟件本體結構

數據計算層提供惡意軟件相似性計算服務,包括Ssdeep 相似性計算和w-metapath2vec 異構圖相似計算。其中Ssdeep 是一種構建哈希散列特征碼的技術,基于文本的分片哈希算法計算惡意代碼的特征值。Ssdeep 值可以用來識別已知文件的修改版本,即使在新的文件中插入或修改數據[12]。Ssdeep 相似性計算從靜態特征維度上提供相似關聯,輔助研究人員分析惡意軟件之間是否存在變種關系。

基于w-metapath2vec 的異構圖計算從惡意軟件的動態行為數據角度,將圖上的節點轉換為向量的形式,通過比較向量的相似度來判斷惡意軟件之間的關聯性。metapath2vec 是一種可解釋性強的模型,它基于元路徑(metapath) 并根據Skip-gram模型學習異構圖的表示[13],由于在惡意軟件分析中不同的動態特征重要性和稀疏度不一,本文提出了帶權重的metapath2vec 算法模型w -metapath2vec,提高了惡意軟件向量表達能力和相似性計算結果的可信度。SimMal 計算模塊從靜態分析和動態分析維度協助安全分析人員展開關聯分析,進一步地通過對比與有惡意軟件家族或APT 組織標簽的樣本的相似性做出綜合研判。

在可視化關聯分析層,分析人員查詢某惡意軟件時,SimMal 自動推薦出與待查詢惡意軟件相似的其他惡意軟件,包括了Ssdeep 相似和異構圖相似兩種模式,并支持一鍵展開待查惡意軟件與推薦相似惡意軟件之間的關聯情況,驅動惡意軟件研究人員的分析能力。

2 異構圖計算框架

在上億節點數量級的惡意軟件異構圖中,僅靠安全分析人員手動地下鉆關聯分析難以挖掘出背后潛在的攻擊載體和攻擊技術,導致不能及時分析出惡意威脅和給出相應的緩解措施,Ssdeep 相似計算從單一的靜態特征維度判斷惡意軟件與惡意代碼文本相似性,無法從攻擊技術、網絡通信等動態行為上進行分析。為了高效并準確地計算惡意軟件在動態特征上的相似性,SimMal 異構圖計算框架提出帶權重metapath2vec 模型(w-metapath2vec),基于安全分析專家設定的關聯元路徑學習圖的特征表達,具有較強的可解釋性。

圖4 展示了異構圖計算框架,主要包括特征構圖模塊、metapath 構建模塊、w -metapath2vec 計算模塊和數據應用模塊。

圖4 異構圖計算框架

2.1 w-metapath2vec 模塊

在領域知識圖譜中,通常需要根據領域專家經驗來設計節點間的關聯模式,隨機游走/跳躍的節點關聯容易造成有歧義不具備相關性的表達。

元路徑metapath 作為一種表達源實體和目標實體間復合關系的形式,基于元路徑隨機游走的策略可以確保不同類型的節點語義關系被恰當輸入到Skip -gram 模型[14],從而有效保留異構圖的結構和語義相關信息。w-metapath2vec 設定多種元路徑,首先在給定一種元路徑模式下進行隨機游走,將自然語言文本中的上下文概念映射到異構圖中,從而學習異構圖中的節點特征[13],最后根據預定義的權重結合不同路徑下的節點表示。

元路徑metapath 定義如下:

其中,Ri代表了不同類型節點Vi和Vi+1之間的關系,L 表示該元路徑長度。一個為了表示惡意軟件相關性的典型示例是M →P →M,表示的是兩個惡意軟件(M) 之間創建了相同的進程(P),可以通過進程節點在異構圖中關聯起來。SimMal 結合了惡意軟件分析人員的專家經驗,共定義了10 種有意義的元路徑模式來表示惡意軟件相關性,表1 列舉了部分元路徑。

表1 惡意軟件metapath

不同的元路徑從不同的角度來衡量惡意軟件之間的相關性,惡意軟件在通信上的關聯首先可以通過一跳元路徑M →D →M 學習,其中D (Domain)表示通信域名;由于域名和IP 存在解析關系,由路徑M→D→I→M可以更深度地挖掘惡意軟件在通信上的關聯;元路徑M→B→Te→B→M從惡意行為(B:Behavior,Te;Technique)角度,表示不同惡意軟件的行為屬于同一種ATT&CK 技術。圖5 為metapath 示例。

圖5 metapath 示例

在metapath 指引下,隨機游走必須按照節點類型選擇下一跳,其概率轉移公式如下:

給定一條metapath,將會生成節點在該路徑下的表示向量,安全專家共定義了10 種不同元路徑模式,使用多視角融合算法來結合不同元路徑下的節點表示,假設給定n種元路徑模式,通過metapath2vec訓練后,每個節點都會產生n種向量表示,最終的向量表示為:

其中,wi表示在第i條元路徑下向量表示的Veci的權重(i=1,…,10),權重wi由惡意軟件分析專家根據關聯重要性定義,比如當互斥體類型的節點共現頻率高,即使性質不同的惡意軟件在互斥體節點上也能呈現強關聯性,那么與互斥體相關的元路徑權重則相對較低。

2.2 數據應用

w -metapath2vec 模型能夠計算出異構圖中每個惡意軟件的綜合表示向量,通過計算表示向量之間的余弦相似度可以得到任意兩個惡意軟件之間的相似性。在數據應用層中,根據相似度的值進行排序,得到每個惡意軟件TOP-K個相似的其他惡意軟件。

數據應用層以關聯性分析為基礎,同時結合Ssdeep靜態特征的對比分析,輔助安全分析人員進行綜合研判。在每天數以萬計的惡意樣本數據中,SimMal統計出有惡意家族和APT 威脅組織標簽的樣本集合,通過計算與新增樣本間的相似度來篩選出若干個疑似存在攻擊來源的惡意軟件并提供給惡意軟件分析人員,極大提高了惡意軟件分析的效率。

3 實驗和結果分析

本節進行了惡意軟件家族分類實驗,通過對比其他圖表示學習算法的實驗結果說明了w -metapath2vec 算法模型的有效性;另外本節列舉了具體的關聯分析案例,以安全分析人員的視角來使用Sim-Mal 系統,說明了SimMal 在輔助分析時的作用。

3.1 惡意軟件家族分類

在惡意軟件家族分類實驗中,本文抽取了來自9個惡意軟件家族共計47839個惡意軟件實例,具體統計數據見表2 。

表2 惡意軟件家族分類數據集

使用w-metapath2vec 模型對4 萬多個惡意軟件實體進行相似度計算,對每一個惡意軟件實例,取其TOP -K(K=1,3,5) 即相似分數排名為前1,3,5的其他惡意軟件構建集合,若第TOP -K惡意軟件的家族與當前惡意軟件家族相同,標記為正,否則為負。本文進行了5 輪測試,其中每一輪測試隨機從4 萬多個惡意軟件實體中抽取1000個樣本作為測試集,最后將平均準確率作為TOP -K的結果,如表3 所示。

表3 惡意軟件家族分類結果

從表3 可以看出,在w-metapath2vec 計算模型下,所有TOP -K的惡意軟件家族分類準確率均超過95%,其中TOP -1 相似計算準確率可高達97.9%,隨著TOP-K增大,準確率呈下降趨勢。

另外在惡意軟件家族分類實驗中,本文比較了其他圖表示學習模型:DeepWalk[15]和metapath2vec 。DeepWalk 為同質圖表示學習模型,將不同類型的節點都轉換為統一類型,生成同質圖后基于DeepWalk策略隨機游走并向量化;metapath2vec 模型中不考慮多視角元路徑,直接基于所有元路徑模式進行序列采樣。表4 列舉了不同模型下惡意軟件家族分類的TOP-K 平均準確率,可以發現w -metapath2vec 模型在所有TOP -K 中準確率都超過了其他兩個模型,說明w-metapath2vec 融合了不同場景下的惡意軟件相似性并納入專家經驗設置權重,可以更好地學習惡意軟件節點表示,提高了家族分類的準確率。

表4 不同模型惡意軟件家族分類結果

3.2 關聯分析場景

SimMal 系統協助安全分析人員從關聯分析角度挖掘惡意軟件之間的相關性,針對日增的惡意軟件數據,SimMal 提出的異構圖學習算法支持動態更新計算日增數據與帶家族標簽和APT 威脅組織標簽惡意軟件的相似度,篩選出相似度較高的惡意軟件,反饋給安全分析人員展開分析。

針對現網中的真實惡意軟件數據,以2021年2月某一天的惡意軟件數據為例,SimMal 發現在新增的惡意軟件數據中,惡意軟件84eeb5f5f8c04aab49fc-8e3b02912d4b(惡意軟件md5) 和46ada7d6ad61e06705-05ba8bd1752d46 與有家族標簽和APT 標簽的惡意軟件3503df1647988-0fdf484ace875ff3588(名稱LODCTR.EXE)具備多種共性,如圖6 所示,新增惡意軟件與LODCTR.EXE 之間在創建文件、通信IP 、創建進程和攻擊行為等方面存在強關聯性。

圖6 關聯分析案例

安全分析人員對上述三個惡意軟件進行分析判定,發現新增的惡意軟件84eeb5f5f8c04aab49fc8 -e3b02912d4b 和46ada7d6ad61e0670505ba8bd1752d46 與LODCTR.EXE 惡意軟件都屬于ramnit 蠕蟲家族,新增的兩個惡意軟件原始文件是phoenix winphlash 工具程序,被ramnit 蠕蟲家族感染后,在運行過程中創建名為DesktopLayer.exe 的可執行文件,并調用IE 瀏覽器,訪問ramnit 蠕蟲的C2 服務器fget - career.com,期間會創建大量臨時文件,因此在圖關聯上會展示出進程、通信IP 和文件三個維度的強關聯,研究人員的分析驗證了異構圖計算惡意軟件相似度的有效性。

Ssdeep 靜態特征關聯信息也幫助研究人員分析判斷惡意軟件之間是否存在變種等情況,例如SimMal發現惡意軟件202ea51fdc798076c0ab7f29a90d3619 和惡意軟件d05c0e74105255e91bd0f508da7d48e3 在Ssdeep特征值上相同,在異構圖上行為和通信維度相似,經分析發現兩者關聯同一篇APT 分析報告[16],屬于變種關系。

4 結論

本文提出的SimMal 系統以惡意軟件為核心,融合多源異構數據建立惡意軟件網絡異構圖,將離散的惡意軟件檢測數據整合到全面的可關聯擴展數據,獲取惡意軟件利用漏洞信息、使用的攻擊技術以及通信數據等,相當于給惡意軟件進行畫像,能清晰地展示并剖析惡意軟件,同時安全研究人員可以在知識圖譜中手動下鉆關聯分析,提高研究人員對惡意軟件的認知能力。

SimMal 系統利用了異構圖關聯表示的優勢,提出的w-metapath2vec 帶權多視角圖表示學習模型充分挖掘異構圖的語義和結構特征,相比DeepWalk 和metapath2vec 能更好學習到惡意軟件節點的表示,在惡意軟件家族分類的對比實驗中充分說明了該模型的有效性。基于惡意軟件的圖表示向量和Ssdeep值,SimMal 對惡意軟件進行相似度計算來找出具備多種共性的惡意軟件,從圖的關聯性角度輔助研究人員分析與惡意軟件存在動/ 靜態特征一致的其他惡意軟件實體,包括惡意軟件和惡意軟件家族等,還可通過分析惡意軟件的行為及使用工具與APT組織的行為及使用工具之間的關聯性來判斷攻擊者信息,從而挖掘惡意軟件潛在的攻擊載體和組織。

使用沙箱惡意軟件檢測或是使用其他機器學習算法對惡意軟件進行分類可以獲取惡意軟件離散的信息,而SimMal 系統整合惡意軟件離散信息并融合安全領域知識,有效地支持安全研究人員的深入分析,極大提高了人工分析效率。另外SimMal系統也存在一些不足之處,比如在異構圖計算框架中,w-metpath2vec 模型對每條元路徑的權重設計完全依賴于專家經驗,導致可擴展性不足。為彌補這一不足,考慮通過計算不同模式下向量間的距離來計算權重值,希望在未來的研究工作中得以實現并與人工設置的權重進行對比分析。

猜你喜歡
關聯分析模型
一半模型
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
隱蔽失效適航要求符合性驗證分析
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
電力系統不平衡分析
電子制作(2018年18期)2018-11-14 01:48:24
奇趣搭配
智趣
讀者(2017年5期)2017-02-15 18:04:18
電力系統及其自動化發展趨勢分析
3D打印中的模型分割與打包
主站蜘蛛池模板: 制服丝袜无码每日更新| 超清人妻系列无码专区| 91外围女在线观看| 欧美一级高清片久久99| 国内精品免费| 亚洲成人网在线播放| 麻豆国产精品| 刘亦菲一区二区在线观看| 国产91视频免费观看| 99资源在线| 国产区在线看| 超薄丝袜足j国产在线视频| 亚洲va欧美va国产综合下载| 97久久超碰极品视觉盛宴| 欧美人在线一区二区三区| 亚洲视频色图| 国产一区二区人大臿蕉香蕉| 久久精品亚洲专区| 天天爽免费视频| 成人福利在线看| 中文字幕在线视频免费| 国产成人免费手机在线观看视频 | 国内精品自在欧美一区| 67194在线午夜亚洲| 99精品伊人久久久大香线蕉| 自偷自拍三级全三级视频| www.99精品视频在线播放| 91丝袜在线观看| 试看120秒男女啪啪免费| 免费视频在线2021入口| 中文字幕中文字字幕码一二区| 精品久久蜜桃| 亚洲av无码牛牛影视在线二区| 99精品一区二区免费视频| 专干老肥熟女视频网站| 奇米影视狠狠精品7777| 欧美日本视频在线观看| 亚洲九九视频| 免费毛片在线| 国产综合另类小说色区色噜噜| 国产91高清视频| 日韩精品成人网页视频在线| 国产三级a| 亚洲无线观看| 亚洲AV人人澡人人双人| 亚洲人成影院午夜网站| 久久精品女人天堂aaa| 国产一区二区免费播放| 亚洲不卡影院| 欧美精品二区| 国产成年女人特黄特色毛片免 | 成人在线不卡视频| 99热国产在线精品99| 国产精品.com| 青青草国产精品久久久久| 亚洲侵犯无码网址在线观看| 一级全免费视频播放| 国产成人成人一区二区| 久草视频精品| 狠狠亚洲五月天| 激情综合激情| 日韩精品一区二区三区中文无码| 亚洲高清无码精品| av在线手机播放| 国产福利不卡视频| 亚洲第一成网站| 欧美α片免费观看| 欧美在线视频a| 日韩欧美中文字幕在线韩免费| 国产精品尹人在线观看| 3D动漫精品啪啪一区二区下载| 国产乱人免费视频| 大学生久久香蕉国产线观看| 素人激情视频福利| 日韩区欧美国产区在线观看| 色婷婷电影网| 毛片在线播放a| 国产黑丝一区| 欧美在线一级片| 有专无码视频| 亚洲性日韩精品一区二区| 中美日韩在线网免费毛片视频 |