摘要: 近些年出現(xiàn)的采用Fast-flux技術(shù)的僵尸網(wǎng)絡(luò),給網(wǎng)絡(luò)安全帶來了極大的威脅。因此,有效檢測Fast-flux僵尸網(wǎng)絡(luò)就成為網(wǎng)絡(luò)安全研究者關(guān)注的熱點問題。目前的檢測方法都存在誤報率較高的問題。針對這個不足,通過對Fast-flux僵尸網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析,選取Fast-flux僵尸網(wǎng)絡(luò)的六個典型特征,提出了基于SVM的Fast-flux僵尸網(wǎng)絡(luò)的檢測方法。實驗表明,基于SVM的Fast-flux僵尸網(wǎng)絡(luò)檢測方法明顯地降低誤報率。
關(guān)鍵詞:
中圖分類號: TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:2095-2163(2011)01-0024-04
0引言
僵尸網(wǎng)絡(luò)能夠?qū)嵭校模模希印⒗]件、竊取個人信息、網(wǎng)絡(luò)仿冒等攻擊行為,對網(wǎng)絡(luò)安全產(chǎn)生了極大的危害。因此,越來越多的研究者開始研究僵尸網(wǎng)絡(luò)。研究表明,為了提高網(wǎng)絡(luò)的健壯性和存活率,僵尸網(wǎng)絡(luò)普遍采用Fast-flux技術(shù)[1]。
Fast-flux技術(shù)是為一個域名配置多個IP地址,并且這些IP地址以非常快的頻率更換,從而實現(xiàn)域名到IP地址的動態(tài)映射。通過動態(tài)變換IP地址,每次用戶訪問某個域名時,實際上訪問的并不是同一主機(jī)。利用此特征,僵尸網(wǎng)絡(luò)控制者可以將其控制的肉雞中服務(wù)能力比較強(qiáng)、具有公有IP的肉雞作為代理,其他一些服務(wù)能力比較弱的主機(jī)通過與這些代理通信,代理將通信重定向到后面真正的控制者,完成控制者與肉雞的通信過程。僵尸網(wǎng)絡(luò)控制者通過頻繁的更換域名到代理IP的映射,從代理網(wǎng)絡(luò)中剔除不可用的以及服務(wù)能力較弱的代理,提高網(wǎng)絡(luò)的健壯性和可用性。
1相關(guān)工作
1.1傳統(tǒng)僵尸網(wǎng)絡(luò)檢測方法
Hyunsang Choi,Hanwoo Lee等人提出基于僵尸網(wǎng)絡(luò)DNS查詢?nèi)后w性特征的檢測方法[2-3]。該方法通過對校園網(wǎng)DNS數(shù)據(jù)分析發(fā)現(xiàn):在僵尸網(wǎng)絡(luò)活躍時,受控主機(jī)將同時發(fā)出DNS查詢這一群體性特征。但是,這種方法不能區(qū)分迅雷、BT等下載站點,因為當(dāng)客戶端同時下載一個資源時,也具有相同的行為。
Shouhuai Xu、Ravi Sandhu等人提出一種基于主機(jī)DNS訪問與網(wǎng)頁訪問關(guān)系的僵尸網(wǎng)絡(luò)檢測方法[4]。這種方法需要獲取大量主機(jī)頁面訪問的數(shù)據(jù)以及DNS訪問數(shù)據(jù),并且需要將兩種數(shù)據(jù)組合。數(shù)據(jù)量巨大,在大規(guī)模的網(wǎng)絡(luò)中實現(xiàn)困難。
Kazuya Takemori等人提出基于信息熵理論的僵尸網(wǎng)絡(luò)檢測方法。該方法通過分析一段時間的校園網(wǎng)DNS數(shù)據(jù)發(fā)現(xiàn):當(dāng)僵尸網(wǎng)絡(luò)活躍時,某些域名的熵發(fā)生了劇烈變化[5-6]。但是Kazuya Takemori等人的方法在某些網(wǎng)站訪問量劇增的時候會出現(xiàn)誤報。如:2008年北京奧運(yùn)會開幕式當(dāng)天,奧運(yùn)會官網(wǎng)的訪問量變化非常劇烈。
1.2Fast-flux僵尸網(wǎng)絡(luò)檢測方法
Jose Nazario等人對Fast-flux僵尸網(wǎng)絡(luò)進(jìn)行長期觀察,提出了Fast-flux僵尸網(wǎng)絡(luò)的九個基本特征,并詳細(xì)分析了Fast-flux僵尸網(wǎng)絡(luò)的地域分布、生存時間、網(wǎng)絡(luò)大小等基本特征[7]。Thorsten Holz利用已經(jīng)發(fā)現(xiàn)的Fast-flux僵尸網(wǎng)絡(luò)的特征,采用線性劃分的方法將Fast-flux服務(wù)和RRDNS(輪轉(zhuǎn)域名系統(tǒng))、CDN(內(nèi)容分發(fā)網(wǎng)絡(luò))相區(qū)分,獲得了很好的效果[1]。
Chenfeng Vincent Zhou等人提出了一種分布式入侵檢測系統(tǒng)對采用Fast-flux 技術(shù)的釣魚網(wǎng)站的檢測方法[8]。但是該方法需要各地的IDS都得和其他IDS交換數(shù)據(jù)來檢測Fast-flux域名,并不能在前端檢測。
Alper Caglayan等人采用主動和被動方式實現(xiàn)FFSN的實時監(jiān)測[9-10],但是其所采用的數(shù)據(jù)都是在非常小的時間段內(nèi)獲取的,如果某個網(wǎng)站將其服務(wù)遷移到不同的機(jī)器,將出現(xiàn)誤報。
Emanuele Passerini等利用FFSN(Fast-flux服務(wù)網(wǎng)絡(luò))的九個特征,采用樸素貝葉斯算法,對FFSN進(jìn)行檢測[11]。
Yang Wang利用僵尸網(wǎng)絡(luò)IP數(shù)和AS(自治系統(tǒng))數(shù)兩個特征,采用SVM對FFSN服務(wù)進(jìn)行檢測[12],取得了很好的效果。但因其只采用了90個正常域名,39個Fast-flux域名的數(shù)據(jù)集,而數(shù)據(jù)集太小,則無法代表網(wǎng)絡(luò)中的真實環(huán)境。
Jiayan Wu等人對現(xiàn)有的線性劃分、KNN(K最近鄰)和樸素貝葉斯的FFSN檢測方法進(jìn)行了對比[13]。
本文通過對哈爾濱工業(yè)大學(xué)兩臺DNS服務(wù)器的長期數(shù)據(jù)進(jìn)行分析,選取了Fast-flux僵尸網(wǎng)絡(luò)的六個典型特征,采用線性核函數(shù)的SVM方法對Fast-flux僵尸網(wǎng)絡(luò)進(jìn)行檢測,取得了比較好的效果。
2特征選取及SVM算法選取
2.1Fast-flux特征選取
本文中,用來區(qū)分Fast-flux僵尸網(wǎng)絡(luò)域名和正常域名選取的特征如表1所示,特征主要分為三大類。第一類是域名的特征,第二類是網(wǎng)絡(luò)特征,第三類是代理的分布特征。
(1)TTL特征
Fast-flux僵尸網(wǎng)絡(luò)為了提高健壯性,會頻繁地變換IP地址。為了做到這一點,僵尸網(wǎng)絡(luò)控制者會將DNS緩存的時間設(shè)置的比較小,以便當(dāng)控制者改變IP地址時,被控機(jī)器能及時地連上控制主機(jī),因此,Fast-flux僵尸網(wǎng)絡(luò)域名的TTL都會比較小。對于一些采用CDN,或者RRDNS技術(shù)的大型網(wǎng)站,其緩存時間TTL也會比較小,但是,還可以采用剩下的五個特征來區(qū)分。
圖1為2011-03-18到2011-03-21哈爾濱工業(yè)大學(xué)202.118.224.101上捕獲的375 885個A類查詢的權(quán)威回答域名的TTL分布。由圖1可知,對于A類應(yīng)答,TTL小于等于600S的域名為23.98%, TTL小于300S的占9.63%。Fast-flux技術(shù)的基本特征就是會頻繁地更換IP地址,一般的TTL都小于600S,因此若只對TTL小于600S的域名進(jìn)行分析,可以大大減少數(shù)據(jù)量和工作量。
(2)單個域名A記錄IP個數(shù)特征
Fast-flux僵尸網(wǎng)絡(luò)每隔一段時間都會更新一下其代理機(jī)器,因此,在一段時間內(nèi),Fast-flux僵尸網(wǎng)絡(luò)域名查詢得到的IP地址會持續(xù)的增加,累計得到的IP數(shù)也會非常大。
而對于正常的域名,提供服務(wù)的機(jī)器是固定的。因此,得到的IP地址一段時間之后會穩(wěn)定不變,并且IP地址的個數(shù)比較小。圖2和圖3分別顯示了僵尸網(wǎng)絡(luò)域名和正常域名IP地址的增長情況。
(3)IP所屬自治域特征
表2顯示的四個典型Fast-flux僵尸網(wǎng)絡(luò)域名與正常域名得到IP所屬自治域的對比。由表2可知,Fast-flux僵尸網(wǎng)絡(luò)域名獲取的IP所屬的自治域都比較多,分布在幾十甚至上百個不同的自治域中;而對于正常的域名來說,IP地址一般都分布在一個自治域中。
(4)IP所屬國家特征
表2顯示的是四個典型的Fast-flux僵尸網(wǎng)絡(luò)和四個訪問量比較大的域名所屬國家的對比。由表2可知,采用Fast-flux技術(shù)的僵尸網(wǎng)絡(luò)來說,受感染主機(jī)的分布影響,用來做代理的主機(jī)將分布在不同的國家,而正常的FFSN服務(wù)或者正常的域名的IP一般都在一個國家中或少數(shù)幾個國家中。這一特征對區(qū)分Fast-flux僵尸網(wǎng)絡(luò)和正常的Fast-flux服務(wù)非常有用。一般正常的Fast-flux服務(wù)的IP地址都屬于一個國家,而Fast-flux僵尸網(wǎng)絡(luò)的IP地址則分布在不同的國家。
(5)其他特征
如Emanuele Passerini[11]文中闡述的原因,還采用了域名注冊時間、所屬組織機(jī)構(gòu)這些特征,作為區(qū)分Fast-flux僵尸網(wǎng)絡(luò)的特征。
2.2SVM算法選取
SVM是基于結(jié)構(gòu)風(fēng)險最小化理論,在特征空間中建構(gòu)最優(yōu)分割超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且整個樣本空間的期望風(fēng)險以某個概率滿足一定上界。支持向量機(jī)的目標(biāo)就是要根據(jù)結(jié)構(gòu)風(fēng)險最小化原理,構(gòu)造一個目標(biāo)函數(shù)將兩類模式盡可能地區(qū)分開來。
通常分為兩類情況來討論:(1)線性可分;(2)線性不可分。
對于本文選取的六個特征,對應(yīng)于Fast-flux僵尸網(wǎng)絡(luò)域名和正常域名的劃分,這是一個線性可分的問題。對應(yīng)于線性可分問題,采用SVM,會存在一個超平面使得訓(xùn)練樣本完全分開。該超平面可描述為:
g(x)=wtx+w0 (1)
其中,w是權(quán)向量,w0是閾值權(quán)或者偏置。對于g(x)>0,則該樣本在決策面的上方;反之,則在決策面的下方。
最優(yōu)超平面是使得每一類數(shù)與超平面距離最近的向量與超平面之間的距離最大的平面,即要求使公式(2)最小化的w。
3實驗驗證
本文中所采用的數(shù)據(jù)來自于tcpdump捕獲的哈爾濱工業(yè)大學(xué)兩臺DNS服務(wù)器從2011-03-18T12-41-00到2011-04-01T08-23-00的所有DNS查詢應(yīng)答數(shù)據(jù)120G和采用DIG跟蹤的一些Fast-flux僵尸網(wǎng)絡(luò)的DIG數(shù)據(jù)。
本文將2011-01-09到2011-03-18的DNS數(shù)據(jù)和2011-01-09到2011-03-18的55個Fast-flux僵尸網(wǎng)絡(luò)域名[14]的DIG數(shù)據(jù)作為訓(xùn)練集。將2011-03-18到2011-04-01的DNS數(shù)據(jù)以及2011-03-18活躍的8個Fast-flux僵尸網(wǎng)絡(luò)域名的DIG數(shù)據(jù)作為測試集。
因為數(shù)據(jù)量巨大,每天都有超過1 000萬條查詢,所以,對數(shù)據(jù)進(jìn)行預(yù)處理,只考慮一段時間內(nèi)累計IP數(shù)大于4或者IP 對應(yīng)的自治域或國家數(shù)大于2的域名。因為對于域名IP數(shù)比較小,并且都在同一國家和自治域的域名,不可能是采用Fast-flux技術(shù)的域名。
對訓(xùn)練集進(jìn)行預(yù)處理之后,剩余9 945個域名,通過人工驗證的方法,對其進(jìn)行標(biāo)記。55個Fast-flux域名DIG跟蹤得到32個仍然活躍的Fast-flux僵尸網(wǎng)絡(luò)域名。將以上數(shù)據(jù)作為訓(xùn)練集。
對測試集進(jìn)行預(yù)處理之后,剩余19 753個域名,并加入8個Fast-flux僵尸網(wǎng)絡(luò)域名8天的DIG數(shù)據(jù)作為測試集。通過交叉驗證的方法,獲取最優(yōu)參數(shù),即c=8.0,g=0.5。采用Thorsten Holz的線性劃分方法與本文的算法來對比,如表3所示。
由表3可知,采用Thorsten Holz線性劃分的方法產(chǎn)生了233個誤報,比SVM多231個。但是這種方法沒有漏報的域名,而采用SVM算法產(chǎn)生了兩個漏報的域名。
兩種方法誤報的一些域名如表4所示。由表可知,一些正常的域名,域名映射的IP數(shù)量非常大,并散布得非常廣,具有Fast-flux的特征。想要對其進(jìn)一步區(qū)分,要采用域名的注冊時間這一特征。一般而言,Fast-flux僵尸網(wǎng)絡(luò)的域名都是新注冊的,而正常域名的注冊時間都比較早。如正常域名europe.pool.ntp.org是在1997-01-18注冊的,而Fast-flux僵尸網(wǎng)絡(luò)域名sdlls.ru的注冊時間為2011-05-11。但是也有例外,如表5中的Fast-flux僵尸網(wǎng)絡(luò)域名send-safe.com,在2001年就已經(jīng)注冊了,不過這個域名在2011-05-04進(jìn)行了更新。
表5顯示的是采用SVM的方法漏報的兩個域名。通過進(jìn)一步研究發(fā)現(xiàn),send-safe.com漏報是因為這個僵尸網(wǎng)絡(luò)不夠活躍,處于消亡期。在對其的跟蹤過程中,該域名一共有16個IP地址,這16個IP地址分布在4個國家和7個自治系統(tǒng)中,和很多正常的域名具有相同的特征。而對于sdlls.ru這個域名,產(chǎn)生漏報的主要原因是訓(xùn)練樣本中,兩種類別的數(shù)據(jù)不平衡,Fast-flux的數(shù)據(jù)比較少,對Fast-flux特征訓(xùn)練不夠,出現(xiàn)了過擬合的現(xiàn)象。
4結(jié)束語
本文通過對Fast-flux僵尸網(wǎng)絡(luò)長期分析研究,選取了Fast-flux僵尸網(wǎng)絡(luò)的六個典型特征,采用SVM的方法對Fast-flux僵尸網(wǎng)絡(luò)進(jìn)行檢測,獲得了較小的誤報率和較高的準(zhǔn)確率。但是,由于Fast-flux僵尸網(wǎng)絡(luò)域名的樣本比較小,為了進(jìn)一步降低漏報率,下一步的工作將是采集更大的Fast-flux僵尸網(wǎng)絡(luò)域名的數(shù)據(jù)集,提高分類器的能力。
參考文獻(xiàn):
[1] HOLZ T,GORECKI C,RIECK K,et al. Measuring and Detect- ing Fast-Flux Service Networks[C]// Network & Distributed Sy- stem Security Symposium,2008.
[2] CHOI H,LEE Hanwoo,LEE Heejo, et al. Botnet Detection by Monitoring Group Activities in DNS Traffic[C]// Proceedings ofIEEE Int’l Conf. Computer and Information Technology, 2007: 715-720.
[3] CHOI H,LEE H,KIM H. BotGAD: detecting botnets by cap- turing group activities in network traffic[C]// The Fourth Inter- national ICST Conference on Communication System software a- nd middleware. ACM, 2009:1-8.
[4] XU Shouhuai. Analyzing DNS Activities of Bot Processes[C]//4th International Conference on Malicious and Unwanted Soft- ware, 2009: 98-103.
[5] TAKEMORI K. Detection of NS Resource Record Based DNSQuery Request Packet Traffic and SSH Dictionary Attack Ac- tivity[C]// Intelligent Networks and Intelligent Systems, 2009:2- 46-249.
[6] ROMAA D A L,KUBOTA S. DNS Based Spam Bots Detection in a University[C]// Intelligent Networks and Intelligent System- s,2008: 205-208.
[7] NAZARIO J, HOLZ T. As the Net Churns: Fast-Flux BotnetObservations[C]// 3rd International Malicious and Unwanted Soft- ware, 2008: 24-31.
[8] ZHOU Chenfeng,KARUNASEKERA C,PENG S T. A Self-He- alinng, Self-Protecting Collaborative Intrusion Detection Arch- itecture to Trace-Back Fast-Flux Phishing Domains[C]// IEEENOMS Workshops, 2008: 321-327.
[9] CAGLAYAN A,TOOTHAKER M,DRAPEAU D, et al. Real- time detection of fast flux service networks[C]// Conference For Homeland Security, Cybersecurity Applications and Technology, 2009: 285-292.
[10] CAGLAYAN A,TOOTHAKER M,DRAPEAU D, et al. Beha-vioral Patterns of Fast Flux Service Networks[C]// Cyber Secu-rity and Information Intelligence Track. Hawaii International C-onference on System Sciences, 2010:1-9.
[11] PASSERINI E,PALEARI R,MARTIGNONI L, et al. Fluxor: detecting and monitoring fast-flux service networks[C]// 5th C-onference on Detection of Intrusions and Malware & Vulnera-bility Assessment. Springer, 2008: 5137/2008:186-206.
[12] YANG Wang. Fast-flux服務(wù)網(wǎng)絡(luò)檢測方法研究[D]. CNKI, 2-009.
[13] WU Jiayan,ZHANG Liwei,QU Sheng, et al. A comparative study for fast-flux service networks detection[C]// Networked Computing and Advanced Information Management. Sixth Inte-rnational Conference, 2010:346-350.
[14] Abuse.ch. http://www.abuse.ch/ .