基于知識圖譜增強的惡意代碼分類方法

2025-01-01 00:00:00夏冰何取東劉文博楚世豪龐建民

鄭州大學學報(理學版) 2025年2期

摘要：針對應用程序接口（application programming interface，API）序列識別的惡意代碼分類方法存在特征描述能力弱和調用關系缺失的問題，提出一種基于知識圖譜增強的惡意代碼分類方法。首先，基于函數調用圖抽取惡意代碼所含的API實體及其調用關系，在此基礎上構建惡意代碼API知識圖譜。其次，使用Word2Vec技術計算攜帶上下文調用語義的API序列向量，借助TransE技術捕獲API知識圖譜中的API實體向量，將這兩個向量的融合結果作為API特征。最后，將惡意代碼所含的API表示為特征矩陣，輸入TextCNN進行分類模型訓練。在惡意代碼家族分類任務中，與基線模型相比，所提方法的準確率有較大提升，達到93.8%，表明知識圖譜可以有效增強惡意代碼家族分類效果。同時，通過可解釋性實驗證實了所提方法具有應用價值。

關鍵詞：惡意代碼； API序列；語義抽取；知識圖譜；可解釋性

中圖分類號： TP309.5

文獻標志碼： A

文章編號： 1671-6841（2025）02-0061-08

DOI： 10.13705/j.issn.1671-6841.2023165

Malware Classification Method Based on Knowledge Graph Enhancement

XIA Bing HE Qudong^1，2， LIU Wenbo^1，2， CHU Shihao^1，2， PANG Jianmin3

（1.The Frontier Information Technology Research Institute， Zhongyuan University of Technology，

Zhengzhou 450007， China; 2.Henan Key Laboratory on Public Opinion Intelligent Analysis，

Zhengzhou 450007， China; 3.Key Laboratory of Mathematical Engineering and Advanced

Computing， Zhengzhou 450001， China）

Abstract： Aiming at the weak feature description ability and the lack of call relations in malware classification methods with application programming interface（API） sequences， a malware classification method based on knowledge graph enhancement was proposed. Firstly， on the basis of a function call graph， an API entity and its call relations contained in malware were extracted so as to construct an API knowledge graph for malware. Secondly， the Word2Vec technology was used to get an API sequence vector that was blended with context semantics， and the TransE technology was used to learn an API entity vector in the knowledge graph， then the blending result of the two vectors was used as the API feature. Finally， with the feature matrix that contained API， the classification model was trained on TextCNN. In the task of malware family classification， compared with the baseline models，the proposed method had a significant improvement in accuracy，reaching 93.8%， thus indicating that the classification effect of malware family could be effectively enhanced by such a knowledge graph. Meanwhile， the method was also confirmed of application value by the explainability experiment.

Key words： malware; API sequence; semantic extraction; knowledge graph; explainability

0 引言

根據國家互聯網應急中心發布的《互聯網安全威脅報告》，惡意代碼引發的網絡安全事件占比高達38%，對網絡空間安全產生嚴重威脅^［1^］。因此，開展惡意代碼檢測工作意義重大。

開展惡意代碼分類識別是惡意代碼檢測的一項基礎工作。同一類別的惡意代碼往往存在開發風格一致、代碼復用等情況，這為基于特征的惡意代碼靜態檢測提供了分類依據。靜態檢測不運行惡意代碼樣本，通過逆向工程提取文件所含函數參數、函數變量、函數調用關系和匯編指令等靜態特征，利用訓練好的檢測模型，快速批量地分析惡意代碼樣本。依據惡意代碼所在文件線性地址的先后順序，可快速抽取內部調用的應用程序接口（application programming interface，API），進而生成惡意代碼API序列。由于API序列信息具有一定程度的前后關聯性，因此API序列能捕獲惡意代碼行為特征，進而實現惡意代碼分類^［2-3^］。然而，上述方案無法完整捕獲惡意代碼行為，僅捕獲了API先后順序屬性，存在特征表示能力弱和API間復雜調用關系缺失的問題。

針對上述問題，本文基于函數調用圖抽取API實體及其調用關系，構建惡意代碼API知識圖譜，將具有可推理、可解釋的知識表示學習應用到惡意代碼分類中，提出一種基于知識圖譜增強的惡意代碼分類方法。實驗結果表明，所提方法能提高惡意代碼分類任務中的語義特征描述能力。主要貢獻如下：1）提出一種惡意代碼知識圖譜構建方法。基于預定義的8種惡意代碼知識本體，設計一種API調用關系圖實現方法，在此基礎上抽取惡意代碼實體和關系，采用三元組形式構建惡意代碼知識圖譜。2）提出一種基于知識圖譜增強的惡意代碼分類方法。分別抽取API序列信息和API調用信息并生成嵌入向量，將兩個向量融合拼接得到API知識圖譜增強特征向量，輸入TextCNN進行惡意代碼分類模型訓練。實驗結果表明，所提模型的分類準確率達到93.8%。

1 相關工作

1.1 基于靜態特征的惡意代碼分類

常見的惡意代碼種類包括病毒、蠕蟲、木馬和勒索軟件等。準確描述惡意代碼的行為特征是惡意代碼靜態檢測的關鍵。喬延臣等^［4^］通過逆向技術獲取惡意程序的匯編代碼，將匯編指令看作詞，函數看作句子，將每個惡意程序轉化為一個文檔，然后使用CNN實現惡意程序的分類。Nataraj等^［5^］將惡意代碼文件映射為灰度圖像，抽取圖像的gist特征，并基于此特征使用K近鄰算法進行分類。郎大鵬等^［⁶^］提出基于多特征融合的惡意代碼分類方法，分別提取灰度共生矩陣、操作碼序列、操作碼3個特征后用隨機森林分類器實現分類。Huang等^［7^］提取惡意代碼的一致執行序列、軟件基因、指令序列、控制流圖和調用圖等特征，借助圖卷積神經網絡實現惡意代碼檢測。

API是系統鏈接庫中預先定義的函數，操作系統在執行內存分配、系統資源管理等行為時，通常通過API來操作。因此，API調用序列在一定程度上可以表示惡意代碼的行為特征。Salehi等^［2^］將惡意代碼中的API及API參數作為分類特征，采用降維方法與多元分類器實現惡意代碼分類。Zhang等^［3^］將惡意代碼的API及其對應的參數和類別作為輸入特征，采用多個門控CNN和BiLSTM學習API調用之間的序列相關性，進而實現惡意代碼分類。Li等^［8^］使用沙箱技術抽取API序列，借助LSTM模型學習惡意代碼API序列特征。于媛爾等^［9^］融合程序的敏感權限信息和敏感API信息構建特征庫，使用隨機森林算法實現惡意軟件家族分類。

1.2 基于知識圖譜的軟件安全分析

知識圖譜是一種基于圖的數據結構，由節點和邊組成，節點表示實體，邊表示實體間關系。知識圖譜能夠很好地表示實體、概念、客觀事實及其之間的關系，具有可推理、可解釋等特點。從知識涵蓋的領域來看，知識圖譜分為通用知識圖譜和領域知識圖譜，本文構建的惡意代碼知識圖譜屬于領域知識圖譜。

知識圖譜的技術優勢已在軟件安全分析和分類任務中得到應用。王婷等^［10^］將文本實體鏈接到外部知識庫實現實體增強表示，提出了一種基于知識增強的文本分類方法。王樂^［¹¹^］通過提取NVD和CVE數據庫的漏洞類型、源代碼、供應商等數據構建軟件漏洞知識圖譜，借助知識圖譜鏈式推理技術，提出一種基于知識圖譜的軟件安全漏洞挖掘方法。Chowdhury等^［12^］提出一種基于知識圖譜的惡意代碼行為捕獲方法，所構建的知識圖譜包含樣本類型、行為、惡意代碼家族、代碼結構等信息。Bai等^［13^］提出一種通過API知識圖譜檢測安卓惡意代碼變種的方法，依據API調用關系構建API知識圖譜，用于檢測安卓惡意代碼變種。

2 惡意代碼知識圖譜構建

2.1 本體及關系定義

構建知識圖譜首先要定義本體及其之間的關系。本體是知識圖譜中的概念，可以將其理解為一類實體的集合，其描述了現實存在的事物。實體間存在的各種內在關聯用關系來描述，圖譜中豐富的關系有助于發掘深層知識和語義理解^［14^］。

2.1.1 本體定義

API調用之間的關系可以描述惡意代碼行為，因此以API調用關系為基礎構建了8種知識圖譜本體。1） FileName本體：待分析樣本的名稱，將樣本名放到圖譜中是為了增加樣本的描述信息。2） FileType本體：文件類型，主要包括PE、ELF、MS-DOS，不同系統上的惡意代碼具有不同的鏈接庫和不同的交互邏輯等特征。3） MD5本體：樣本MD5值，由于文件名可能會重復或者命名不規范，因此用樣本MD5值作為該樣本的唯一標識。4） Caller_API本體：對于某個API，其前驅API函數稱為Caller。5） Callee_API本體：對于某個API，其后繼API函數稱為Callee。通過Caller_API和Callee_API這兩個本體可以清晰地描述某個API調用的前后關系。6） API_Name本體：Caller_API和Callee_API統稱為API_Name，這些API名稱可以清晰地表達惡意代碼的操作行為。7） EntryAPI本體：API調用圖的入口API。8） EndAPI本體：API調用圖的結束API。EntryAPI和EndAPI描述了API調用的起始關系。

2.1.2 關系定義

惡意代碼的8種本體間存在關聯關系，這些關系清晰地表達了惡意代碼行為，有助于惡意代碼分類。惡意代碼三元組如表1所示，顯示了所建立的6種惡意代碼本體間的關系。

表1所示的三元組在樣本名稱與樣本MD5值間建立一一對應關系，即以MD5值作為樣本的唯一標識；HasAPI關系連接了樣本中的所有API；FileType表示該樣本的文件類型；Call表示API間的調用與被調用關系；EntryAPI表示該樣本的入口API；EndAPI表示該樣本的結束API。建立上述關系后，采用三元組方式表示惡意代碼分析結果。

2.2 API調用關系圖構建

API調用關系是惡意代碼知識圖譜的核心。由于現有工具能分析出惡意代碼的函數調用圖以及函數內部的控制流圖（control flow graph，CFG），但無法給出API的調用關系圖。因此，基于函數調用圖提出一種構建API調用關系圖的方法。API調用關系圖過濾過程如圖1所示，顯示了樣本“Backdoor.Win32.Afcore.a”的API調用關系圖構建過程，具體步驟如下。

Step 1 通過逆向分析生成函數調用圖。

Step 2 對函數調用圖中的每個函數進行如下操作：1）獲取函數CFG，將基本塊視為節點，判斷節點中是否包含API調用。2）對不包含API調用的節點N跳轉到3）。3）分析節點N的前驅和后繼，將節點N的前驅節點定義為N_P，后繼節點定義為N_C。若存在節點N_C且含API調用，則將節點N_C作為節點N_P的直接后繼，并刪除節點N；若不存在節點N_C，則直接刪除節點N。4）反復上述過程直到遍歷所有節點。如果存在生成的API圖則替換該函數，否則從函數調用圖中刪除該函數。

Step 3 遍歷完所有函數則停止，否則執行Step 2。這樣就得到了惡意代碼的API調用關系圖。

用戶自定義函數在編譯過程中通常會被剝離，并用類似“fcn.00404268”的名稱代替，在分析時并不清楚該函數的名稱，不利于分析惡意代碼的語義。因此，在構建API調用關系時過濾掉用戶自定義函數。如圖1中的“GetTempPathA-fcn.00404268-CreateFileA”這條調用關系，在實現過程中刪除了灰色的“fcn.00404268”用戶自定義函數，將“GetTempPathA”和“CreateFileA”直接連接。

2.3 惡意代碼知識抽取

在知識圖譜中，知識越豐富則知識表示學習的效果越好。惡意代碼的FileName、FileType、MD5知識可利用逆向工具分析得到，如樣本“Backdoor.Win32.Afcore.a”的文件類型是“PE”，MD5值為“10586070da6e1859b5b6dab5efae60f2”。對于Caller_API、Callee_API、API_Name、EntryAPI、EndAPI知識，則需要從2.2節中構建的API調用關系圖中抽取。為此，基于API調用關系圖給出一種惡意代碼知識抽取算法。

算法1 惡意代碼知識抽取算法

輸入： Binary Malware

輸出： Knowledge_List

1. Knowledge_List=［］

2. API_Three_Tuple=［］

3. Des=Read describe from Malware.elf

4. G=API Call Relation Graph

5. for API in G do

6. API_Three_Tuple.append（caller+callee+API_Name+EntryAPI+EndAPI）

7. end for

8. Knowledge_List.append（Des+API_Three_Tuple）

9. return Knowledge_List

根據算法1描述，輸入為二進制惡意代碼樣本。算法第4行為構建的API調用關系圖，每個節點為一個API，前驅API稱為Caller，后繼API稱為Callee。算法第5～7行從API調用關系圖入口開始，遍歷每個節點及其后繼節點，即Caller和所有Callee。將每個Callee與調用它的Caller、API_Name、EntryAPI和EndAPI合并，就得到所有API調用三元組。最后，結合樣本描述得到該樣本的所有知識。

2.4 API序列提取

Salehi等^［2^］和Zhang等^［3^］提出的方法表明，API序列在一定程度上可以描述惡意代碼的行為特征。為驗證提出的惡意代碼知識圖譜對惡意代碼分類方法有性能提升，進行了基于API序列的惡意代碼分類實驗，但是所提取的API序列不用于知識圖譜構建。

借助函數執行路徑來抽取API序列會引發路徑爆炸或循環調用等問題，因此依據文件線性地址建立API序列。使用逆向分析工具Radare2分析二進制惡意代碼樣本，通過工具中的“afl”功能抽取并過濾出樣本中的所有API及其線性地址；再根據線性地址的先后順序對API進行排序，得到樣本的API序列；最后在分類標簽和API序列之間建立關聯。

2.5 惡意代碼知識圖譜構建

完成惡意代碼知識抽取后，需要將其存儲為結構化數據，接著將結構化數據中的實體、關系與相關的本體概念對應，生成惡意代碼知識圖譜三元組，最后將三元組存儲到Neo4j圖數據庫，完成惡意代碼知識圖譜構建。圖2為構建的惡意代碼知識圖譜。

3 基于知識圖譜增強的惡意代碼分類方法

3.1 總體設計

基于知識圖譜增強的惡意代碼分類方法總體設計框架如圖3所示，由惡意代碼特征提取、特征表示學習和分類模型3個部分組成。首先通過逆向工程提取惡意代碼樣本中的API序列和API調用關系，接著將API以地址的先后順序作為排序依據，建立惡意代碼API序列數據集。將API調用關系、惡意代碼類型、樣本名等信息及其之間的關系作為知識，建立惡意代碼知識圖譜，再使用Word2Vec技術將惡意代碼序列特征數據集中的每個API轉為詞向量，使用TransE技術將知識圖譜中的每個實體轉為實體向量，實現一個API在兩個向量空間中的表示。然后，將兩個向量拼接為一個向量，得到知識圖譜增強的惡意代碼特征矩陣。最后，以該特征矩陣作為輸入，構建TextCNN網絡，訓練惡意代碼分類模型。

3.2 特征表示學習

3.2.1 API序列向量化

Word2Vec^［15^］是谷歌公司提出的一種詞嵌入模型，實現了將詞轉化為可計算的、融合上下文的語義向量。因此，通過向量的余弦距離可以衡量詞之間的相關性。由于Word2Vec生成的是靜態向量，具有很好的通用性，可移植到不同的任務中，所以采用該技術作為詞嵌入模型。

Word2Vec有CBOW和Skip-gram兩種訓練模式，前者通過上下文來預測中間詞，后者通過中間詞來預測上下文。CBOW模式更適合小型語料庫，而Skip-gram模式在大型語料庫中表現更好。由于所選用的數據集詞典長度在5 000以內，因此采取CBOW模式訓練詞向量。本文方法中的詞為API序列中的每一個API。

3.2.2 知識圖譜表示學習

知識表示學習將知識圖譜中的實體和關系嵌入向量空間，使實體和關系變成可計算的低維稠密向量^［16^］，得到的向量表示結果可應用于語義增強、知識推理等場景。

知識圖譜通常采用三元組方式來表示，即［頭實體head，關系relation，尾實體tail］的形式，簡寫為［h，r，t］。選取Bordes等^［17^］提出的TransE模型作為知識表示學習模型，其原因在于該模型將每個三元組中的關系r看作從頭實體h到尾實體t的翻譯，通過不斷調整h、r、t，使得（h+r）盡可能地逼近t，越接近則三元組的嵌入效果越好。與此同時，TransE模型參數少，計算復雜度低，語義表示能力強。

在實際學習過程中，為了增強知識表示的區分能力，TransE模型采用最大間隔方法^［18^］，定義的優化目標函數為

L=∑（h，r，t）∈S

∑（h′，r′，t′）∈S-

max（0， fr（h，t）+γ-fr′（h′，t′）），（1）

式中：S為正確三元組集合；S-為錯誤三元組集合；max（x，y）返回x，y中較大的值；γ為正確三元組得分與錯誤三元組得分之間的間隔距離。S-是利用TransE將S中每個三元組的h、r、t其中之一隨機替換為其他實體得到的。

3.3 惡意代碼分類模型

3.3.1 特征矩陣

惡意代碼分類模型的輸入是一個特征矩陣，由惡意代碼API序列中的詞向量和知識圖譜中的實體向量拼接而成。其中，詞向量采用Word2Vec技術將API序列嵌入向量空間，維數dim為100，用Vw表示；實體向量采用TransE技術來對惡意代碼知識圖譜進行表示學習，將三元組中的每個實體及其關系嵌入向量空間，維數dim為100，用Ve表示。特征矩陣的拼接過程如圖4所示。

首先檢索API序列，從Word2Vec模型中取出API的向量Vw，從TransE模型中檢索該API在知識圖譜中的向量Ve，接著將Vw與Ve進行拼接，得到維數dim為200的知識圖譜增強的特征向量Vew。以上述方式遍歷一個樣本的所有API，最后形成尺寸為n×200的特征矩陣，作為深度學習模型的輸入。特征矩陣計算過程可表示為

FeatureMatrix=∑n=1（Vwn+Ven），（2）

式中：Vwn表示API序列中的第n個API詞向量；Ven表示該API在知識圖譜中的實體向量。

3.3.2 模型結構

TextCNN是由Kim^［19^］提出的文本分類模型，與傳統的應用于計算機視覺的CNN模型相比，TextCNN對模型的輸入層進行了一些變形，使文本能夠以特征矩陣的形式輸入神經網絡。TextCNN模型結構如圖5所示。模型輸入是一個s×d的特征矩陣，其中：s表示文本序列中詞的數量；d代表向量的維數。模型包含卷積層和池化層，最后連接一個帶Softmax的全連接層。

在卷積層中，設置卷積核的尺寸分別為2、3、4，卷積核數量為256。使用3個尺寸的卷積核，保證了每次滑動的位置都是一個API的完整特征，從而全面學習特征矩陣的語義信息。卷積過程可表示為

y=LeakyReLU∑s-h+1i=1W×A［i：i+h-1］+b，（3）

式中：W表示卷積核；h為卷積核的高度；A［i：i+h-1］表示特征矩陣A的第i行到第i+h-1行；b為偏置；LeakyReLU為激活函數。

在池化層中，采用最大池化max_pool1d進行池化操作，將每一個卷積層輸出的向量都通過最大池化方法映射為一個具體的數值，然后再將池化后的結果進行合并，得出一個全新的特征向量，用作全連接層的輸入。

在全連接層中，將所有特征圖堆疊成一個長度固定的特征向量，并應用Dropout來保持特征不變性并防止過擬合。模型輸出采用Softmax分類器，其輸出是分類標簽的概率分布。

通過監督學習的方式訓練模型，模型訓練的損失函數可表示為

loss=-1N∑i∑Cc=1yi，cpi，c，（4）

式中：N為樣本總數；C為分類任務中的類別數；pi，c為樣本屬于類別c的概率；若樣本分類預測正確則yi，c為1，不正確則為0。

4 實驗與結果分析

4.1 數據集

實驗使用VxHeaven^［20^］惡意代碼數據集，從中選出Hupigon、Buzus、Small、OnLineGames、Delf、Agent和Vapsup 7個惡意代碼家族。為避免數據量帶來的誤差，每個家族隨機選取1 000個左右的樣本，使每個家族惡意代碼數量基本持平。訓練時，將數據集的80%作為訓練集，10%作為測試集，10%作為驗證集。

4.2 基線方法與評價指標

為評價模型在惡意代碼分類任務上的性能，引入文獻［8］和文獻［21］中典型模型作為基線對比。其中，文獻［8］采用LSTM模型，訓練數據為API序列；文獻［21］采用邏輯回歸模型，訓練數據為TF-IDF值和API序列。

經統計發現，95%的API序列長度在600個詞以內，因此實驗模型固定序列長度為600。詞向量維數dim為100，每個知識的維數dim為100。為評估惡意代碼分類性能，采用準確率、精確率、召回率和F1值作為模型的評價指標。

4.3 模型準確率對比

為驗證本文所提出的將知識圖譜與API序列融合的方法能夠提高惡意代碼分類準確率，與采用API序列及加其他特征的方法進行了對比，不同方法的準確率結果對比如表2所示?？梢钥闯觯c本文方法相比，文獻［8］和文獻［21］的準確率均有所減少。這表明引入知識表示學習的API調用關系更好地描述了惡意代碼的行為，增強了惡意代碼語義特征的描述能力，進而提升惡意代碼分類準確率。

4.4 消融實驗

選取了文本分類中常用的TextCNN、BiLSTM和FastText模型進行了惡意代碼分類預測消融實驗，將“API序列”和“知識圖譜+API序列”兩種特征進行對比分析，消融實驗結果如表3所示。在兩種特征下，TextCNN模型均取得了最好的實驗效果，鑒于此，實驗均采用該模型進行。在TextCNN模型中，單純使用API序列作為特征時，分類準確率為90.3%，加入知識圖譜后，分類準確率有所提升。實驗結果表明，知識圖譜提升了惡意代碼分類的準確率。

4.5 可解釋性實驗

同一家族或同一類型的惡意代碼，往往具有特定API行為特征。為探究是哪些API對惡意代碼分類結果產生了影響，采用可解釋性預測模型LIME^［22^］。以API序列和訓練后的TextCNN分類模型作為輸入，進行可解釋性實驗。Agent家族的特征權重結果如圖6所示，由上至下為該類別中對分類結果影響權重最大的API排序。

以Agent家族的惡意代碼為例，InitCommonContrals、SafeArrayPtrOfIndex、Creat、CoCreateGuid、Add這5個API對分類結果產生了最大的正影響，擁有這5個API的樣本被分類為Agent家族的概率較大。ImageList、SetBkColor這2個API對分類結果產生了最大的負影響，即包含這2個API的樣本被分類為Agent家族的概率較小。

通過人工分析發現，InitCommonContrals函數實現了通用控件的初始化；SafeArrayPtrOfIndex函數可以獲取指向數組元素的指針；CoCreateGuid函數通過調用RPC功能的函數UuidCreate來創建GUID；Creat是C語言中的函數，用來創建文件；Add函數實現了內容的增加。這些函數的組合實現了文件創建和內容增加，并通過遠程過程調用實現數據傳輸，屬于典型的木馬行為。綜上所述，本文提出的惡意代碼分類方法行之有效，具有實際應用價值。

5 結語

本文針對當前基于API序列的惡意代碼分類任務無法完整捕獲行為特征的不足，提出一種基于知識圖譜增強的惡意代碼分類方法。實驗結果表明，引入知識表示學習的API調用關系和API序列兩種特征的結合，可以更好地描述惡意代碼的行為，增強惡意代碼語義特征的描述能力，提升惡意代碼分類的效果。下一步研究計劃通過虛擬機捕獲隱含的API調用關系，豐富與完善惡意代碼知識圖譜，融合二進制代碼指令行為特征和圖神經網絡，進一步提升惡意代碼分類效果。

參考文獻：

［1］國家互聯網應急中心.互聯網安全威脅報告［EB/OL］.［2023-06-23］.https：∥www.cert.org.cn/

publish/main/upload/File/CNCERT-report202201.pdf. 2022.

CNCERT. Internet security threat report［EB/OL］. ［2023-06-23］. https：∥www.cert.org.cn/publish/main/upload/File/CNCERT-report202201.pdf. 2022.

［2］ SALEHI Z， GHIASI M， SAMI A. A miner for malware detection based on API function calls and their arguments［C］∥Proceedings of the 16th CSI International Symposium on Artificial Intelligence and Signal Processing. Piscataway：IEEE Press， 2012： 563-568.

［3］ ZHANG Z Q， QI P P， WANG W. Dynamic malware analysis with feature engineering and feature learning［C］∥Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto：AAAI Press， 2020： 1210-1217.

［4］喬延臣，姜青山，古亮，等. 基于匯編指令詞向量與卷積神經網絡的惡意代碼分類方法研究［J］. 信息網絡安全， 2019（4）： 20-28.

QIAO Y C， JIANG Q S， GU L， et al. Malware classification method based on word vector of assembly instruction and CNN［J］. Netinfo security， 2019（4）： 20-28.

［5］ NATARAJ L， KARTHIKEYAN S， JACOB G， et al. Malware images： visualization and automatic classification［C］∥Proceedings of the 8th International Symposium on Visualization for Cyber Security. New York： ACM Press， 2011： 1-7.

［6］郎大鵬，丁巍，姜昊辰，等. 基于多特征融合的惡意代碼分類算法［J］. 計算機應用， 2019， 39（8）： 2333-2338.

LANG D P， DING W， JIANG H C， et al. Malicious code classification algorithm based on multi-feature fusion［J］. Journal of computer applications， 2019， 39（8）： 2333-2338.

［7］ HUANG Y Z， QIAO M， LIU F D， et al. Binary code traceability of multigranularity information fusion from the perspective of software genes［J］. Computers & security， 2022， 114： 102607.

［8］ LI C， ZHENG J J. API call-based malware classification using recurrent neural networks［J］. Journal of cyber security and mobility， 2021： 617-640.

［9］于媛爾，張琳琳，趙楷，等. 基于敏感權限和API的Android惡意軟件家族分類方法［J］. 鄭州大學學報（理學版）， 2020， 52（3）： 75-79， 91.

YU Y E， ZHANG L L， ZHAO K， et al. Android malware family classification method based on sensitive permissions and API［J］. Journal of Zhengzhou university （natural science edition）， 2020， 52（3）： 75-79， 91.

［10］王婷，朱小飛，唐顧. 基于知識增強的圖卷積神經網絡的文本分類［J］. 浙江大學學報（工學版）， 2022， 56（2）： 322-328.

WANG T， ZHU X F， TANG G. Knowledge-enhanced graph convolutional neural networks for text classification［J］. Journal of Zhejiang university （engineering science）， 2022， 56（2）： 322-328.

［11］王樂. 基于知識圖譜的軟件安全漏洞挖掘技術研究［D］. 西安：西安工業大學， 2021.

WANG L. Research on software security vulnerability mining technology based on knowledge graph［D］. Xi′an： Xi′an Technological University， 2021.

［12］CHOWDHURY I R， BHOWMIK D. Capturing malware behaviour with ontology-based knowledge graphs［C］∥IEEE Conference on Dependable and Secure Computing. Piscataway：IEEE Press， 2022： 1-7.

［13］BAI Y D， CHEN S， XING Z C， et al. ArgusDroid： detecting Android malware variants by mining permission-API knowledge graph［J］. Science China information sciences， 2023， 66（9）： 192101.

［14］昝紅英，竇華溢，賈玉祥，等. 基于多來源文本的中文醫學知識圖譜的構建［J］. 鄭州大學學報（理學版）， 2020， 52（2）： 45-51.

ZAN H Y， DOU H Y， JIA Y X， et al. Construction of Chinese medical knowledge graph based on multi-source corpus［J］. Journal of Zhengzhou university （natural science edition）， 2020， 52（2）： 45-51.

［15］MIKOLOV T， CHEN K， CORRADO G， et al. Efficient estimation of word representations in vector space［EB/OL］.［2022-12-21］. https：∥doi.org/10.48550/arXiv.1301.3781.

［16］劉知遠，孫茂松，林衍凱，等. 知識表示學習研究進展［J］. 計算機研究與發展， 2016， 53（2）： 247-261.

LIU Z Y， SUN M S， LIN Y K， et al. Knowledge representation learning： a review［J］. Journal of computer research and development， 2016， 53（2）： 247-261.

［17］BORDES A，USUNIER N，GARCIA-DURAN A， et al. Translating embeddings for modeling multi-relational data ［J］. Advances in neural information processing systems， 2013：2787-2795.

［18］王昊奮，漆桂林，陳華鈞. 知識圖譜：方法、實踐與應用［M］. 北京：電子工業出版社， 2019.

WANG H F， QI G L， CHEN H J. Knowledge graph：methods，practices，and applications ［M］. Beijing： Publishing House of Electronics Industry， 2019.

［19］KIM Y. Convolutional neural networks for sentence classification［C］∥Proceedings of the Conference on Empirical Methods in Natural Language Processing. Stroudsburg： Association for Computational Linguistics， 2014： 1746-1751.

［20］VxHeaven Dataset［EB/OL］.［2023-06-12］. https：∥1vx.ug/archive/Vx-Heaven.

［21］周楊. 基于行為特征的Windows惡意代碼檢測與分析［D］. 北京：中國人民公安大學， 2021.

ZHOU Y. Windows malicious code detection and analysis based on behavior characteristics［D］. Beijing： Chinese People′s Public Security University， 2021.

［22］RIBEIRO M T， SINGH S， GUESTRIN C. "Why should I trust You？"： explaining the predictions of any classifier［C］∥Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York： ACM Press， 2016： 1135-1144.

鄭州大學學報(理學版)2025年2期

鄭州大學學報(理學版)的其它文章: 硫-鐵自養反硝化人工濕地強化農村黑臭水體深度脫氮; 求解高光譜解混的三算子分裂方法; 多值交互時序邏輯的模型檢驗研究; 基于區塊鏈的民航旅客隱私信息保護方案; 不協調廣義多尺度序決策信息系統的知識獲取; 一種基于知識蒸餾的邊緣聯邦學習算法