陳娌礪


【摘要】 ? ?域名解析系統已經發展成為了國際互聯網中一個完全不可能被忽視且重要的一個關鍵的基礎網絡設施和信息服務,難以避免被域名利用者非法利用。在深入地分析研究了網絡僵尸病毒網絡與DGA等惡意域名的應用之后,對當前網絡市場上各種主流惡意域名安全檢測解決技術特點進行了分析比較,并初步提出了一種基于字符特征來改善網絡惡意域名檢測技術的理論框架。該技術基本框架以支持向量機為主要的分類器,融合了一些改進的字符串特征和其他的各種統計學方法特征。實驗數據表明,該技術框架在離線訓練時長、對未知DGA惡意域名家族的檢測能力方面表現優秀,可以較好地滿足運營商大網環境下對惡意域名的檢測分析要求。
【關鍵詞】 ? ?惡意域名 ? ?機器學習 ? ?DGA域名 ? ?支持向量機
引言:
域名解析系統(DomainNameSystem,dns)作為目前互聯網最重要的信息技術和核心信息基礎服務設施之一,把難以被他人記憶的互聯網協議地址通過映射成為容易被他人記憶的域名[1-2]。許多網絡服務都是基于域名服務而進行。
惡意網站域名指的是任何濫用該網站域名進行任何惡意操作的網站域名,主要含義指的是包括網站內容為包括傳播各種惡意軟件、促進惡意命令和控制(commandandcontrol,c&c)服務器[3]進行通信,發送惡意垃圾郵件、托管網絡詐騙和進行網絡安全釣魚的惡意網頁[4]等。
惡意域名對于人們進行網絡活動中的經濟和個人信息都有很大的威脅,域名安全檢測也成為信息安全里的重要研究內容。
一、相關工作
1.1 實現方法
當前,有兩種主要的方法來實現惡意域名[5]:fast-flux和domain-flux。fast-flux方法是[6]將連續執行每個域名和輸入主機IP地址的快速映射從而對輸入IP進行初始限制地址配置和其他安全技術策略丟棄或暫時丟棄,這可能導致安全專業人員無法在短時間內準確,快速地定位攻擊服務器的惡意黑客的網絡地理中心。domain-flux[7]有效保護攻擊者實際執行的候選命令,并完全控制整個服務器(commandandcontrol,c&c),以防止惡意的候選域名在完全受控的虛擬機上被訪問。
1.2相關研究
惡意網址檢測方面主要有2個比較流行的做法:第一個是直接維護一個黑名單,第二個是用data-driven的方式,即設計良好的特征+機器學習分類模型來實現對惡意網址的自動分類。接下來主要為大家介紹一種基于機器學習的惡意網頁檢測技術。
一些現有的研究項目及其工作主要使用一些所謂的機器和深度學習技術,這些技術主要包括決策樹,支持向量機(helper vector machine,svm),聚類等。文獻[8]使用決策樹算法基于被動DNS數據構建分類器。文獻[9]從分析DNS流量和網絡數據的角度總結了周期性域名發現的特征,并重構了J48決策樹進行分類。
當前,用于檢測和處理現有的域名檢測的各種方法具有其自身的特性。但是,無論是公司頂級域名服務器,權威頂級域名服務器還是帶有遞歸域名解析器的域名服務器,都很難獲得域名流量數據和解析數據。
基于上述問題,本文分析了惡意Domain-Flux域名的特征,根據特征的內在差異選擇特征,并選擇與DNS流量不同的輕量級數據和結構。
二、域名特征選取及方案設計
2.1域名字符特性分析
由于DGA域名算法生成的惡意注冊域名經常使用字符的一些隨機字母和數字組合,在字符的概率分布方面,這些字符通常與善意域名有顯著差異。選取字符特征有:字符長度、域名后綴、數字個數、數字比率、連續數字最大長度、連續字母最大長度、連續相同字母最大長度、最長元音距、域名字符熵值九個特征。
2.2特征改進
本文基于一個開放源代碼的分詞數據庫,對域名的字符結構進行了全面的分析,并從英語域名字符組中提取了最長和可能最特殊的含義。例如,一個域名,名稱為google.com,通常由域名google和com的兩個單字符子字符串組成。則該字符串長度為2。將選取特征中連續字母最大長度改為拆詞后字符串長度。特征改進前后如圖1所示,對比正負樣本區分更明顯。
2.3分類算法選擇
本次實驗中,我們要使用一個目前應用十分廣泛的算法支持向量機(supportvectormachine,svm),這個算法對正常域名和DGA域名之間的特征差異性關系進行了精確區分,svm分類算法的主要分類理論依據之一其實就是特征結構分類風險的全局最小化。svm分類算法結構是一種非常嚴謹的分類數學理論推導和重要的分類理論數據基礎,分類的算法正確率高、穩定性好、泛化分類能力強,可以很好地快速得到全局最優值的解。
三、實驗與分析
3.1數據集
本次實驗的數據集由正常域名和惡意域名兩個組成部分,共二十多萬。使用 alexa 的排名相對比較靠前的域名作為正常域名。本文主要是通過對網絡上所公開的域名黑名單進行列表分析,并且將去重的域名進行列表分析形成本文的域名樣本。正負樣本比例約為一比一。其中模型的訓練數據占2/3,測試數據占1/3。
3.2實驗對比
本文與特征改進前的方法進行了對比試驗,對比結果如圖2所示。
四、結束語
本文主要提出了一種基于domain-flux惡意域名的異常檢測的系統,結合了九個主要特征,主要實現了基于svm算法檢測的惡意域名的異常檢測方案。該方法的檢測準確率,查全率和Fl值均達到95%,具有良好的檢測效果。另外,本文的工作也可以離線完成,不再接收DNS流量,數據收集簡單。該檢測解決方案解決了檢測大量數據中的問題,具有良好的實用價值。
未來,改進的技術方向將主要針對不合理使用計算資源來優化總體狀況,并對檢測到的惡意域名進行第二次調查以提高其準確性。
參考文獻
[1] MockapetrisPV.DomainNames:ConceptsandFacilities[S].RFC1034,1987.
[2] MockapetrisPV.DomainNames:ImplementationandSpecification[S].RFC1035,1987.
[3]郭曉軍.面向DGA類型Bot的命令控制通信過程研究[J].網絡安全技術與應用,2017(8):48-49.
[4]AminRM,RyanJJCH,vanDorpJR.DetectingTargetedMaliciousEmail[J].IEEESecurityandPrivacyMagazine,2012,10(3):64-71.
[5]GhafirI,PrenosilV.DNSTrafficAnalysisforMaliciousDomainsDetection[C]//ProceedingsofConferenceonSignalProcessingandIntegratedNetworks.WashingtonD.C.,USA:IEEEPress,2015:613-618.
[6]NazarioJ,HolzT.AstheNetChurns:Fast-fluxBotnetObservations[C]//ProceedingsofMaliciousandUnwantedSoftwareMALWAREConference.WashingtonD.C.,USA:IEEEPress,2008:24-31.
[7]GueridH,MittigK,SerhrouchniA.CollaborativeApproachforInter-domainBotnetDetectioninLargescaleNetworks[C]//ProceedingsofInternationalConferenceonCollaborativeComputing:Networking,ApplicationsandWorksharing.WashingtonD.C.,USA:IEEEPress,2013:279-288.
[8]BilgeL,KirdaE,KruegelC,etal.EXPOSURE:FindingMaliciousDomainsUsingPassiveDNSAnalysis[C]//Proceedingsofthe18thAnnualNetwork&DistributedSystemSecurityConference.[S.l.]:ISOC,2011:1-17.
[9]ZouFutai,ZhangSiyu,RaoWeixiong.HybridDetectionandTrackingofFast-fluxBotnetonDomainNameSystemTraffic[J].ChinaCommunications,2013,10(11):81-94.
陳娌礪:1996.07;女;民族:漢族;籍貫:湖北省石首市;學歷:碩士;研究方向:應用數學。