面向數字貨幣特征的細粒度代碼注入攻擊檢測

2021-06-04 00:25:44李占魁馬建峰喬新博

計算機研究與發展 2021年5期

孫聰李占魁,2 陳亮馬建峰喬新博

1(西安電子科技大學網絡與信息安全學院西安 710071) 2(華為技術有限公司西安 710075)

數字貨幣在近年來長足發展的同時，已被廣泛用于勒索軟件等惡意程序[1].此類惡意程序的傳播和注入過程常依賴于系統漏洞和通用惡意行為，如代碼注入攻擊[2].此外，勒索軟件通常為被攻擊者生成唯一的勒索地址，或要求被攻擊者發送支付交易哈希值，以便于數字貨幣兌換[3]，此類惡意特征在勒索軟件有效載荷及其進程內存地址空間中具有特定特征，因而，面向數字貨幣相關的內存特征進行代碼注入攻擊檢測是發現勒索軟件攻擊的有效手段.

代碼注入攻擊指注入者實體復制代碼到受害者實體，并在受害者上下文中執行惡意代碼的行為.基于主機的代碼注入攻擊[4](host-based code injection attack, HBCIA)相比遠程代碼注入攻擊[5]隱蔽性更高：注入者與受害者均為駐留在同一操作系統上的進程，注入者進程利用系統調用接口對受害者進程地址空間實施代碼注入，從而訪問受害者進程空間中所有信息并實施惡意行為.目前HBCIA檢測方案可分為動態和靜態2類.動態檢測通過監控實時的系統調用序列和進程、線程環境變化發現HBCIA[6-8]；靜態檢測則通過靜態分析代碼[9-10]或內存取證(即檢測惡意軟件執行一段時間后的系統內存轉儲文件)[11-13]識別HBCIA行為.靜態檢測相比動態檢測開銷較小，準確性和安全性較高.

現有主流HBCIA靜態檢測系統通過在內存轉儲文件中提取包括進程鉤子、系統調用序列、網絡字符串、內存頁特征、shell code等細粒度內存特征來檢測注入攻擊行為[12-13]，但所考慮的特征不包括數字貨幣相關的特征，無法區分勒索軟件和一般惡意程序.而現有針對勒索軟件的內存取證檢測方案，只針對勒索軟件相關的內存特征[2-3]或僅考慮比特幣客戶端軟件的內存特征[14]及與內核對象數量有關的粗粒度特征[15]，沒有充分結合當前細粒度HBCIA檢測方法的分析能力，也難以檢測出勒索軟件對較新的代碼注入攻擊的利用.

針對這些問題，本文提出一種面向數字貨幣特征的細粒度HBCIA檢測方法(digital currency oriented fine-graind HBCIA detection, Dicof). Dicof在現有檢測方案的38種內存特征基礎上，首先提出全局類、內存類和木馬類共13種細粒度的通用內存特征，對現有檢測方案進行擴展；然后，針對勒索軟件利用數字貨幣進行贖金支付的特點，提出了2種與數字貨幣支付有關的勒索行為內存特征.基于新特征方案，本文實現了一個細粒度HBCIA靜態檢測系統，分別使用基于樹的分類模型和多層感知器神經網絡模型對所提出內存特征方案進行性能評價，在Windows 10系統應用程序樣本集上的實驗評估結果表明，新特征方案的15種特征有效提升了現有檢測系統Quincy對HBCIA的檢測性能，惡意軟件家族檢測度提升了1.1個家族，惡意軟件家族檢測完整度提升了1.2個家族，查準率提升了5.7%，查全率提升了3.4%；對于典型勒索軟件的查準率和查全率分別提升了38.7%和37.3%. Dicof系統還具有較好的內存特征提取性能及對未知惡意軟件家族的檢測能力.

本文的主要貢獻包括3個方面:

1) 提出了一種細粒度基于主機的代碼注入攻擊內存取證特征方案，其中包含13種能有效提升現有系統惡意軟件家族檢測度的通用內存特征;

2) 針對勒索軟件的支付行為，提出了2種面向數字貨幣的內存特征，使得基于主機的代碼注入攻擊檢測系統能夠準確檢測勒索軟件行為;

3) 實現了內存特征提取算法和相應檢測系統，評估結果顯示相比現有細粒度檢測系統具有更高的惡意軟件檢測度和性能，并顯著提升了對勒索軟件的檢測能力.

1 相關工作

內存取證分析旨在從不同操作系統和硬件平臺的易失存儲器出發獲取有效的語義信息，從而獲得惡意行為執行的證據.從一個正在運行的系統的內存轉儲文件出發，發現惡意行為的運行時特征，已在內核層面[16-17]和應用程序層面[11-13,18-19]均被證明可行.在內核層面，結合靜態分析和內存遍歷可識別內核代碼和數據的完整性，用于檢測rootkit惡意行為[16]；通過從內存轉儲構造內存圖，可將內核對象識別問題轉化為內存圖特征的深度學習問題，從而避免內存遍歷和簽名掃描的局限性，并用于檢測直接內核對象操作(direct kernel object manipulation, DKOM)攻擊[17].在應用程序層面，內存取證已用于推斷即時消息應用的關鍵信息和操作[18]、檢測內存代碼的完整性[19]、檢測惡意軟件的代碼加載行為[11]、基于主機的代碼注入攻擊[12]及注入代碼執行頁隱藏[13].在發現應用程序的惡意行為時，此類方法通常依賴于內存結構列表遍歷和基于簽名的掃描來發現惡意特征.與依據動態監測結果構建內存轉儲的檢測[8]不同，Quincy系統[12]在內存轉儲上通過簽名掃描方法發現細粒度內存特征并構建特征向量，其特征粒度比Membrane[11]更細，且利用監督學習檢測注入攻擊行為，獲得了更高的檢測精度.

2 Dicof內存特征方案

本節提出一種包含數字貨幣特征的細粒度HBCIA內存特征方案，用于對內存轉儲中的關鍵惡意特征及勒索軟件特征進行識別.分通用內存特征和數字貨幣內存特征進行介紹.

2.1 通用細粒度內存特征

針對現有細粒度HBCIA內存特征方案[12]在識別全局特征、隱蔽通信和木馬行為方面的不足，本文提出13種新內存特征，用以識別相關的惡意進程行為，提高HBCIA檢測的準確度.具體特征類型及描述如表1所示.全局特征類從進程或線程屬性側面區分HBCIA攻擊者進程和被攻擊者進程，其中的特征能夠快速劃分大量良、惡性內存區域；內存類特征包含HBCIA攻擊者或被攻擊者進程利用隱蔽通信機制相關的內存特征；木馬類特征包含了與反取證臨時文件刪除、網頁重定向、自動傳播、剪切操作相關的木馬類惡意內存特征.

Table 1 The Type, Description and Usage of General Memory Features of Dicof表1 Dicof內存特征方案的通用內存特征類型、描述及用途

特別地，在木馬類特征中引入了對勒索軟件加密行為內存特征的判定.當前常見勒索軟件行為包括用戶機加鎖和目標文件加密2類.加密勒索相比用戶機加鎖，要求的系統權限更少因而更靈活.加密勒索的注入過程一般會搜索有價值的用戶文件類型,如WannaCry[20]一般加密預定的178種文件擴展名[2]，動態生成對稱密鑰加密用戶文件，并利用預置的強公鑰加密對稱密鑰，要求被攻擊者支付贖金以獲得攻擊者控制的遠程服務器上的解密私鑰.典型的例子包括CTB-Locker[21].因識別密鑰本身較困難，針對已介紹的勒索注入行為，在特定進程內存頁中查找是否同時存在文件類型(擴展名)掃描、對稱加密和公鑰加密相關的系統調用和字符串，從而有效判定加密勒索惡意行為.

2.2 數字貨幣內存特征

表1中的勒索行為特征，雖然具有一定區分度，但一些安全通信應用仍具有類似的代碼特征，因而本節進一步結合勒索軟件的支付行為，提出相關的數字貨幣內存特征，便于實現更準確的勒索軟件惡意行為檢測.

為獲得勒索贖金，攻擊者通常要求使用滿足2個條件的支付系統：1)被攻擊者支付便利；2)攻擊者接收贖金時能保持匿名性.滿足這2個條件的支付系統包括2類：1)數字貨幣.基于數字貨幣匿名交易機制的溯源困難性，勒索軟件(如CryptoLocker[22])要求使用比特幣進行交易支付贖金.2)支付券.勒索軟件(如TeslaCrypt[23])要求購買支付券并發送支付碼給攻擊者.此外，為被攻擊者支付方便，勒索軟件一般提供直接URL鏈接指向支付和私鑰獲取頁面，并將其實現為一個TOR(the onion router)網絡服務，勒索軟件實例包括CTB-Locker，TeslaCrypt，CryptoWall[24]，KeRanger[25]，Cerber[26]等，由于TOR網絡的匿名通信特性，保證了很難識別出提供惡意服務的物理主機.提出內存特征：

1) dcurrency_static.在內存轉儲的每個內存區域中查找是否含有與數字貨幣交易相關的字符或常量，包括發送地址、接收地址、交易ID、本地備份wallet文件的路徑名.查找內存轉儲中是否存在與支付券有關的字符串常量或購買鏈接(典型的支付券包括Paysafecard，MoneyPak，CashU等)，從而識別本特征.

2) dcurrency_TOR.在內存轉儲的每個內存區域中查找是否含有形如http://id1.hostname/id2的域名及包含“onion”字符串的域名，或是否含有TOR瀏覽器安裝鏈接信息.以上域名中id1為多個勒索攻擊共用的隱藏服務ID，id2為一個針對被攻擊者的唯一比特幣勒索地址.被攻擊者通過URL訪問為其定制的TOR頁面從而獲得id2和勒索金額.

2.3 內存特征提取算法

算法1.Dicof內存特征提取算法.

輸入：特征集合F，內存區域集合M={m1,m2,…,mn}，特征模式PatternPool=F|→pattern_listf∈F；

輸出：特征向量映射F:f|→V.

①V←0;

③ for eachmk∈Ms.t. (addr+offProtection)∈mkdo

④F(glb_proc_protection)←

IsSet(mk[addr+offProtection]);

⑤ for eachthrd∈ETHREAD[1..s]∧

⑥F(glb_thrd_delay)←∨thrd(mk2

mk[addr+offcreate_time]>ΔT);

⑦F(glb_thrd_promote)←∨thrd(mk2

⑧ end for

⑨ end for

⑩ for eachf∈FAPIdo

F(f)←∨m∈MbPMatched(m,

PatternPool(f));

(m,domainsbank)|>0);

PatternPool(f)), s.t.tr∈backCFA

(CFG(mk),random()/DeleteFile(),

N);

3 Dicof系統實現

Dicof系統結構如圖1所示:

Fig. 1 Dicof system architecture圖1 Dicof系統結構

首先，使用Antivmdetection[27]對VirtualBox虛擬機進行硬化，并使用VirtualBox內存轉儲功能，輸出獲取運行過良性或惡意二進制樣本的內存轉儲文件(即算法1中的內存區域集合M).虛擬機硬化能防止如CryptoWall等勒索軟件的反仿真模塊實施沙箱規避隱藏.其次，Dicof系統的內存分析模塊解析內存轉儲文件，一方面獲取轉儲時刻每個進程和線程對應的2個重要的內存數據結構(EPROCESS和ETHREAD)的屬性信息，另一方面，所有與代碼調用模式相關的特征捕獲均基于對內存轉儲中二進制的靜態反匯編，獲得可能的控制流集合，用于后續特征識別.其中基本內存區域分析和內核對象分析使用Volatility，二進制分析使用IDA Pro.第三，Dicof系統的特征提取模塊執行算法1，分別實現對Dicof內存特征方案所述15個關鍵特征的復雜模式匹配、閾值比較和特征向量生成.根據分析粒度需要，在執行算法1的具體步驟時，需要以具體操作的內存區域為粒度構建特征向量.最后，這15個新HBCIA特征與Quincy系統特征提取模塊輸出的38個HBCIA特征一起，提交給分類與評估模塊，執行對不同機器學習分類模型的性能評估.

4 性能分析與評價

4.1 樣本集

本文實驗采用Windows 10系統平臺上的應用程序樣本集，該樣本集由977個良性二進制樣本、87個惡意二進制樣本及對應的惡意二進制樣本簽名3部分組成.其中，良性二進制樣本一部分是對Windows 10系統目錄中的標準可執行文件的執行轉儲，另一部分是對第三方軟件庫[28]的各類標準可執行文件的執行轉儲，第三方軟件的類型覆蓋了壓縮工具、進程查看工具、CPU狀態查看工具等.惡意二進制樣本中，73個取自Quincy系統公開的HBCIA惡意樣本集[12]，其中的每個HBCIA惡意二進制樣本都代表一個惡意軟件家族，良性及惡意樣本的簽名見文獻[29].另外14個是對從github和VirusTotal[30]下載的勒索軟件進行虛擬機執行轉儲得到的，使用的勒索軟件包括HiddenTear，Cerber，WannaCry，CryptoWall，TeslaCrypt的開源版本和VirusTotal版本.針對每個惡意二進制樣本，人工編寫惡意二進制樣本簽名.

應用程序樣本經內存轉儲后，單個內存轉儲文件可劃分為大量內存區域.內存區域數量與用于內存轉儲的虛擬機客戶機內存大小相關，本文設置虛擬機客戶機內存為1.1 GB.表2為對內存區域的去重前/后結果.

Fig. 3 Ranking of the importance of features for random forest圖3 基于隨機森林模型的特征重要性

為去重后的每個內存區域獲取一個53維的HBCIA特征數據條目，維度與總特征數量一致.每個數據條目均以所屬進程名，內存區域虛擬地址組成的ID作為索引.根據內存區域是否匹配惡意二進制樣本簽名，為每個數據條目打上良或惡性分類標簽.獲取到的所有具有良或惡性標簽的數據條目構成機器學習初始數據，完成特征提取過程.

4.2 內存特征提取時間評價

圖2為在本文樣本集中的單個應用程序內存樣本上提取每個內存特征的平均時間.由圖2可見，相對于內存轉儲文件規模而言，特征提取時間開銷在合理范圍內.對于Fseq中與序列行為有關的特征，計入使用IDA Pro對指定內存區域進行二進制靜態反匯編及生成控制流路徑集合的時間，因而消耗時間更長.此外，良性二進制樣本和惡意二進制樣本對應的特征提取時間開銷無明顯差異.

Fig. 2 Average extraction time cost of the 15 memory features圖2 15個內存特征的平均提取時間

4.3 內存特征重要性評價

本節討論本文提出的15種內存特征與Quincy系統38種內存特征之間的相對重要性.針對本文15種內存特征與Quincy的38種內存特征組成的特征集合，基于隨機森林模型執行結合5折交叉驗證過程的遞歸特征擦除過程(recursive features elimination with cross validation， RFECV)，以選擇最佳的特征子集.在此過程中獲取本文內存特征方案中的每個特征的相對重要性.

圖3展示了重要性排在前35的特征，其中包含13種本文提出的內存特征.僅6種特征的重要性對模型的平均貢獻超過了3.5%，其中包含本文提出的特征glb_thrd_delay.可見，本文提出的多數內存特征對現有細粒度HBCIA檢測性能的提升有明顯貢獻.特別地，與數字貨幣和勒索軟件相關的特征troj_ransom，dcurrency_static，dcurrency_TOR貢獻度相對有限，原因是本文用于訓練的惡意二進制樣本中，由勒索軟件產生的轉儲區域較少(14個勒索軟件，87個惡意二進制樣本)，導致相關內存特征的貢獻度較低.

4.4 Dicof系統分類模型性能評價

本節采用4種基于樹的分類模型(Adaboost,extremely randomized trees,gradient boosting,random forest)以及多層感知器(multi-layer perception, MLP)神經網絡模型，評估對比Dicof系統與現有Quincy系統的檢測性能差異.MLP神經網絡的輸入層(第0層)接受一個n維特征向量(f1,f2,…,fn)作為輸入，其中fk對應每個內存區域的第k個HBCIA內存特征，每個fk均以浮點數表示.隱藏層(第1層)由m個神經元構成的全連接層組成.根據神經元權重、神經元偏差及第0層輸出，采用ReLU函數作為激活函數計算神經元輸出.輸出層(第2層)為由單個神經元構成的全連接層.采用Sigmoid函數作為激活函數計算分類模型輸出.超參數空間如表3所示：

Table 3 The Hyperparameters of MLP表3 多層感知神經網絡方法參數

本文采用的性能度量指標主要包括：

1) 惡意軟件家族檢測度(D).檢測到的惡意軟件家族總數.其中，某惡意軟件家族被檢測到當且僅當該惡意軟件家族對應的所有惡意數據條目中至少有一個被檢測到.

2) 惡意軟件家族檢測完整度(C).完整檢測到的惡意軟件家族總數.其中，某惡意軟件家族被完整檢測到當且僅當該惡意軟件家族對應的所有惡意數據條目都被檢測到.

3) 查準率Precision=TP/(TP+FP).

4) 查全率Recall=TP/(TP+FN).

5)AUC值.ROC曲線下的面積，用于度量分類模型的正確率.

其中，TP(true positive)為預測為惡意的實際惡意樣本數；FP(false positive)為預測為惡意的實際良性樣本數；FN(false negative)為預測為良性的實際惡意樣本數.

對于所有特征數據條目按照6∶4比例隨機劃分訓練集和測試集.其中，對于惡意數據條目，以惡意軟件家族為單位劃分訓練集和測試集，勒索軟件作為其中1個惡意軟件家族.為減小訓練集和測試集劃分的偶然性，選擇對訓練集和測試集隨機劃分10次，分別訓練不同分類模型，對各分類模型在對應測試集上進行預測，求得各個性能指標均值，作為該分類模型評估的最終結果.Quincy系統和Dicof系統10次隨機劃分下的各指標均值，在不同分類模型上的性能比較結果分別如表4所示.進一步橫向對比MLP神經網絡模型和基于樹的分類模型，我們發現MLP分類模型整體性能并未體現優勢.一方面說明本文HBCIA的局部特征間缺乏特有的關聯性，難以發揮深度學習模型的優勢，另一方面本文場景的數據規模也制約了深度學習分類模型的性能.根據分析，以基于樹的分類模型的性能均值作為最終指標值，得出Dicof系統相比Quincy系統，惡意軟件家族檢測度提升了1.1個家族，惡意軟件家族檢測完整度提升了1.2個家族，查準率提升了5.7百分點，查全率提升了3.4百分點.

Table 4 Performance Comparison of Dicof and Quincy Under Different Classification Models表4 Dicof系統與Quincy系統在不同分類模型下的性能對比

進一步比較Dicof系統與Quincy系統在典型勒索軟件檢測方面的性能.將14個勒索軟件轉儲得到的二進制樣本和相應的161個惡意內存區域單獨生成的惡意特征數據條目，與所有良性特征數據條目一起，進行訓練集和測試集6∶4隨機劃分10次，記錄查準率、查全率和AUC指標均值，在Quincy系統表現較好的Adaboost分類模型下的度量結果及度量指標均值結果如表5所示.對于本文所選的勒索軟件樣本，Dicof的查準率和查全率分別提升了38.7百分點和37.3百分點.另一方面亦可見，雖然Quincy系統的內存特征并未考慮勒索軟件，但仍能達到一定的檢測精度，說明現有勒索軟件在實施攻擊時仍在一定程度上蘊含著主流的HBCIA行為.

Table 5 Performance Comparison of Dicof and Quincy Towards Classifying Ransomware

4.5 對未知惡意軟件家族的檢測能力評價

為評估Dicof系統對未知的HBCIA惡意軟件的檢測能力，首先根據本文樣本集中所有惡意軟件在VirusTotal上的公開時間，對樣本集中惡意軟件家族按照公開時間先后進行排序.然后，依據該次序以6∶4比例產生一個較早期訓練集和一個較新測試集，在測試集中將已經出現在訓練集中的惡意軟件家族的惡意樣本刪除，僅保留在訓練集中未出現的惡意軟件家族對應的惡意樣本，最終訓練集和測試集分別保留554和175個惡意內存區域.訓練集和測試集中的良性內存區域按照6∶4隨機劃分.選擇MLP神經網絡，在較早期訓練集上生成一個MLP神經網絡分類模型，在較新測試集上評估模型的分類性能.圖4以ROC曲線的形式展示了Dicof系統和Quincy系統對未知惡意軟件家族的分類性能.由圖可見在MLP分類模型上，Dicof系統和Quincy系統均表現出良好的分類性能，AUC值均在0.99以上，說明本文內存特征方案具備檢測未知HBCIA惡意軟件家族的能力.

Fig. 4 Detection ability on unknown malware families圖4 對未知惡意軟件家族的檢測能力評估結果

5 總結

本文提出了一種細粒度的HBCIA內存特征方案，在引入多種細粒度通用內存特征的基礎上，提出與勒索軟件行為檢測相關的數字貨幣內存特征，并實現了兼容勒索軟件內存取證的HBCIA檢測系統Dicof.從特征提取開銷、特征重要性、分類性能、未知惡意軟件家族檢測能力等方面對系統進行評價，實驗結果表明，新內存特征方案具有較顯著的HBCIA特征描述能力，特征提取開銷較小；Dicof系統比現有Quincy系統具有更強的惡意軟件家族檢測能力和勒索軟件檢測能力，并具備較好的未知惡意軟件家族檢測能力.未來工作將通過研究HBCIA行為之間的深度關聯性，定義和識別更為復雜的時態關系特征，進一步提升HBCIA分類檢測的精確性.