◆蔡洪民 陳沁群 吳道明 郭偉匡
(廣州中醫(yī)藥大學 醫(yī)學信息工程學院 廣東 510006)
基于聚類分析的IPv6異常流量識別研究
◆蔡洪民 陳沁群 吳道明 郭偉匡
(廣州中醫(yī)藥大學 醫(yī)學信息工程學院 廣東 510006)
隨著Internet的發(fā)展,下一代互聯(lián)網(wǎng)IPv6必然會最終代替目前的IPv4網(wǎng)絡。相對IPv4而言,IPv6網(wǎng)絡只是在網(wǎng)絡層進行了比較大的改進,因此大多數(shù)網(wǎng)絡安全問題對于IPV4和IPv6是相同的,例如DOS攻擊、中間人攻擊等。因此,IPv6網(wǎng)絡安全形勢同樣不容樂觀。作為教育網(wǎng)會員單位,作者所在單位于2011年接入CERNET2網(wǎng)絡。本文基于Wireshark進行IPv6數(shù)據(jù)包的捕獲解析并存儲,然后使用Matlab聚類工具箱中的K均值算法和神經(jīng)網(wǎng)絡工具箱中的SOM算法,分別對包含多類攻擊數(shù)據(jù)的IPv6流量進行處理從而實現(xiàn)了對于CERNET2網(wǎng)絡的異常流量聚類識別。實驗表明,本系統(tǒng)能夠識別發(fā)生IPv6網(wǎng)絡中的DOS攻擊等幾類針對ICMPv6的攻擊,加強了校園網(wǎng)絡的安全。
Wireshark;K均值算法;自組織特征映射網(wǎng)絡
目前,IPv6 已經(jīng)在全球范圍內迅速發(fā)展:Internet2 主干網(wǎng)帶寬達到N*10G,正在逐步升級到100G,Internet2主干網(wǎng)連接了60000多個科研機構,并且和超過50個國家的學術網(wǎng)互聯(lián);歐盟下一代學術主干網(wǎng) GEANT 也進展迅速;我國啟動了下一代互聯(lián)網(wǎng)示范工程 CNGI,由CERNET 網(wǎng)絡中心聯(lián)合清華大學、北京大學等 25 所高校共同建設的 CNGI-CERNET2 是示范網(wǎng)絡核心網(wǎng)的重要組成部分。2004 年12月,CERNET2 主干網(wǎng)正式開通,至今已穩(wěn)定運行多年。
IPv6作為可控、可信、可擴展的下一代互聯(lián)網(wǎng)的核心技術,它將以各種優(yōu)勢代替IPv4并最終得到普及應用。首先,它擁有128位地址空間,相對于IPv4的32 位地址空間,它為互聯(lián)網(wǎng)的未來發(fā)展提供了無限充足的地址空間;其次,可匯聚的、分級的地址結構大大減少了各級路由表的大??;另外,自動地址配置等功能方便了人們的使用,并使得大量智能終端上網(wǎng)成為可能,從而為物聯(lián)網(wǎng)的發(fā)展給予很大的支撐;最后,lPv6內置IPSec,有更好的安全特性。
同時,鑒于IPv4網(wǎng)絡安全的經(jīng)驗教訓,IPv6大規(guī)模的應用使我們更加審慎的考慮其安全問題。IPv6相對于IPv4的主要變化在網(wǎng)絡層,IPSec協(xié)議僅負責網(wǎng)絡層以下安全,而不負責其上層應用的安全,所以IPv4網(wǎng)絡中的安全問題并沒有完全解決。有些安全問題的原理和特征基本沒有發(fā)生變化,例如應用層攻擊、中間人攻擊、病毒、蠕蟲等。IPv6協(xié)議中引入的新協(xié)議如ICMPv6等,也能夠被利用來完成對系統(tǒng)和網(wǎng)絡的攻擊,如鄰居地址欺騙攻擊等。
顯然,要解決IPv6下的安全問題,傳統(tǒng)的安全技術如防火墻、入侵檢測等安全產(chǎn)品需要重新升級和部署后才能應用在IPV6環(huán)境中。因此,研究IPV6環(huán)境下的入侵檢測具有重要的理論和實際意義。本文基于Matlab聚類工具箱中的K均值算法和神經(jīng)網(wǎng)絡工具箱中的SOM算法,分別對包含針對ICMPv6攻擊的IPV6流量進行聚類分析,從而實現(xiàn)了對IPV6網(wǎng)絡下的異常流量的識別,加強了網(wǎng)絡安全。
1.1 Wireshark 與tShark
Wireshark是一個網(wǎng)絡封包分析軟件,Wireshark使用WinPcap作為接口,直接與網(wǎng)卡進行數(shù)據(jù)報文交換,是擷取網(wǎng)絡封包并進行協(xié)議解析顯示出詳細的網(wǎng)絡封包信息的工具。
Wireshark同時提供了命令行的抓包程序tshark和數(shù)據(jù)包編輯工具editpcap等一系列命令行工具,能夠無縫地融入unix/windows腳本語言,使嗅探、分析的工作更加強大。
本文數(shù)據(jù)包捕獲部分使用Wireshark實現(xiàn),數(shù)據(jù)包存儲后進一步使用tShark對IPv6數(shù)據(jù)包進行數(shù)據(jù)提取和過濾處理。
1.2 THC-IPv6攻擊工具箱
THC-IPV6是一套完整的工具包,可用來攻擊IPv6和ICMPv6協(xié)議的固有弱點,THC-IPv6包含了易用的庫文件,可二次開發(fā)。THC-IPv6由先進的主機存活掃描工具,中間人攻擊工具,拒絕服務攻擊工具構成,具體包括 dos-new-ip6、flood_router6、flood_router26、dump_router6、dump_dhcp6、exploit6、fuzz_ip6、fake_mld6、smurf6等數(shù)十種IPv6攻擊工具。
本文進行網(wǎng)絡數(shù)據(jù)捕獲時,使用THC-IPv6工具箱在IPV6內網(wǎng)進行DoS攻擊等攻擊測試,從而獲取真實的IPv6網(wǎng)絡數(shù)據(jù)。
1.3 Matlab
MATLAB是美國MathWorks公司出品的商業(yè)數(shù)學軟件,用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計算的高級技術計算語言和交互式環(huán)境,主要包括MATLAB和Simulink兩大部分。MATLAB包括擁有數(shù)百個內部函數(shù)的主包和三十幾種工具包。
本文實現(xiàn)過程中分別使用Matlab聚類工具箱中的K均值算法和神經(jīng)網(wǎng)絡工具箱中的SOM算法對IPv6數(shù)據(jù)包進行聚類分析,從而實現(xiàn)對IPv6異常流量的分類識別。
2.1 設計目標
隨著互聯(lián)網(wǎng)的發(fā)展,下一代互聯(lián)網(wǎng)即IPv6網(wǎng)絡必然取代目前的IPv4網(wǎng)絡,當然這需要一個長期的過程。相應地,IPv6網(wǎng)絡的安全問題必將成為研究的關鍵問題。正如引言中所提及的,IPv6網(wǎng)絡安全問題與IPv4網(wǎng)絡安全問題既存在相同的問題,又存在新出現(xiàn)的問題。本文基于上述IPv6網(wǎng)絡存在的網(wǎng)絡安全問題,采用K均值算法和SOM算法對IPv6網(wǎng)絡數(shù)據(jù)包進行聚類分析,從而通過分類識別IPv6網(wǎng)絡中的異常流量,進而發(fā)現(xiàn)未知的網(wǎng)絡攻擊。
本文使用Wireshark軟件捕獲IPv6數(shù)據(jù)包,使用tShark軟件對IPv6數(shù)據(jù)進行提取和預處理,然后載入Matlab軟件,通過使用聚類工具箱中的K均值算法和神經(jīng)網(wǎng)絡工具箱中的SOM算法對IPv6流量進行聚類分析,從而從大量IPv6數(shù)據(jù)包中分類識別異常流量。
2.2 數(shù)據(jù)包分類預處理
經(jīng)過使用Wireshark進行捕包并進行協(xié)議解析,發(fā)現(xiàn)THC-IPv6攻擊工具箱中flood_router6等多種攻擊工具都是基于ICMPv6協(xié)議;同時發(fā)現(xiàn)使用NMAP進行端口掃描和操作系統(tǒng)類型探測是基于TCP或UDP協(xié)議。因此本文算法處理的數(shù)據(jù)源為從IPv6網(wǎng)絡數(shù)據(jù)中提取的TCP、UDP和ICMPv6三類數(shù)據(jù)包的特征值。具體提取過程是啟動Wireshark捕獲并存儲IPv6網(wǎng)絡數(shù)據(jù)包,根據(jù)上述分析結果,調用Wireshark附帶的命令行工具tShark對捕獲的數(shù)據(jù)包進行預處理,從大量數(shù)據(jù)包中提取TCP、UDP和ICMPv6三類數(shù)據(jù)包的特征值,并導出保存為CSV文件。提取的特征值字段分別如表1、2、3所示:

表1 TCP特征值表

表2 UDP特征值表

表3 ICMP6特征值表
2.3 IPV6異常流量聚類識別的工作流程
Matlab聚類工具箱中的K均值算法和神經(jīng)網(wǎng)絡工具箱中的SOM算法都是無監(jiān)督的學習算法,能夠在指定類別的前提下數(shù)據(jù)進行分類。對于包含網(wǎng)絡攻擊流量的IPv6數(shù)據(jù)包來說,使用上述兩種無監(jiān)督算法都能夠將正常流量和異常流量分開。因此,本文對于IPv6網(wǎng)絡數(shù)據(jù)的處理分別采用K均值和SOM算法兩種不同的聚類方法進行分析并進行兩種方法的對比,從而將異常流量與正常流量分開,從而對IPv6網(wǎng)絡中的異常流量進行識別。
為了實現(xiàn)上述研究的目的,首先在IPv6網(wǎng)絡環(huán)境中節(jié)點運行Wireshark對網(wǎng)絡數(shù)據(jù)流進行監(jiān)控,然后一方面使用NMAP對目的主機進行端口掃描和操作系統(tǒng)類型探測,另一方面調用THC-IPV6工具箱中的各類DoS工具對局域網(wǎng)主機進行模擬攻擊。持續(xù)一段時間后停止Wireshark后將捕獲的包含有攻擊數(shù)據(jù)的IPv6數(shù)據(jù)包保存。然后運行tShark工具,根據(jù)相關過濾語法,從中分別提取TCP、UDP、ICMPv6三類數(shù)據(jù)包的特征值字段,并生成相應的CSV格式的特征值文件。
此后運行Matlab工具,導入相應的CSV文件,分別調用聚類工具箱的K均值算法和神經(jīng)網(wǎng)絡工具箱的SOM算法對IPv6數(shù)據(jù)進行基于聚類分析。聚類分析的過程中,生成Silhouette輪廓圖來衡量分類效果的優(yōu)劣,從而調整聚類指定類別的個數(shù)。根據(jù)實驗仿真結果,實現(xiàn)對IPv6流量的分類,從而識別出IPV6異常流量。

圖1 本IPV6異常流量識別系統(tǒng)流程圖
本系統(tǒng)在某大學Cernet2校園網(wǎng)環(huán)境中進行測試,效果良好。本系統(tǒng)測試的拓撲結構為兩臺IPv6主機,一臺IPv6服務器,這三臺設備通過支持IPv6的接入交換機接入IPv6校園網(wǎng)。實驗環(huán)境中的兩臺IPv6主機通過NMAP掃描探測工具和THC-IPv6攻擊工具箱中的多種攻擊工具對一臺IPv6服務器分別進行多次持續(xù)的攻擊測試。
本文基于上文3.4節(jié)中的相關實驗流程對IPv6網(wǎng)絡數(shù)據(jù)包進行捕獲、協(xié)議分析、存儲、數(shù)據(jù)預處理、聚類分析等一系列過程,通過Matlab聚類工具箱的K均值算法和神經(jīng)網(wǎng)絡工具箱中的SOM算法分別進行聚類分析,從而根據(jù)分類結果識別出IPv6網(wǎng)絡異常流量[7]。本文實驗中對一萬多條數(shù)據(jù)包特征值進行聚類分析,實驗結果表明兩種聚類分析的方法都能有效地進行無監(jiān)督分類,并且分類結果上基本一致,具體分類數(shù)據(jù)對比如表4所示。很明顯,K均值方法的第1類對應SOM方法的第7類,K均值方法的第5類對應SOM方法的第3類。實驗仿真結果如圖2所示。

表4 兩種聚類算法結果對比

圖2 本文對IPv6數(shù)據(jù)包進行聚類分析的實驗結果
本文通過使用Wireshark、tShark、Matlab三種工具,分別實現(xiàn)了IPv6網(wǎng)絡數(shù)據(jù)包捕獲、協(xié)議解析、數(shù)據(jù)包特征值提取、聚類分析、生成圖例等一系列步驟,通過K均值算法和SOM算法對IPv6數(shù)據(jù)包的特征值進行聚類分析處理,從而實現(xiàn)了在對IPv6數(shù)據(jù)流正確分類的前提下識別出IPV6網(wǎng)絡中的異常流量[8]。實驗結果表明,本文研究過程中采用的方法和手段是恰當?shù)?,研究方案是可行的?/p>
與IPv4網(wǎng)絡一樣,IPv6網(wǎng)絡攻擊與防御之間的對抗將長期存在[9]。因此,我們要重視IPv6網(wǎng)絡中的異常流量。但有些網(wǎng)絡攻擊流量與正常網(wǎng)絡流量在網(wǎng)絡流特征值的提取后差異很小,從而無法區(qū)分將正常流量和異常流量分開,這就給IPV6異常流量識別增加了難度。因此,如何提高基于機器學習的IPv6異常流量分析的識別率和準確率是一件困難的事情,這些是以后要繼續(xù)開展的研究工作。
[1]袁正.基于SOM及K均值聚類方法的分布式入侵檢測模型的研究[D].天津理工大學,2008.
[2]付小青,張愛明.基于SOM的入侵檢測算法的特征選擇[J].華中科技大學學報(自然科學版),2007.
[3]許素霞,宋曉宇,傅秀芬,陳長瑤.基于SOM網(wǎng)絡的智能入侵檢測系統(tǒng)[J].計算機仿真,2008.
[4]趙澤然.一種支持IPv6的入侵檢測系統(tǒng)的設計與實現(xiàn)[D].東北大學,2010.
[5]孫有曄.IPv6網(wǎng)絡中DDoS攻擊源回溯研究[D].天津大學,2011.
[6]王朔.改進的聚類分析算法在入侵檢測中的研究[D].武漢科技大學,2014.
[7]薛曉敏.基于IPv6的協(xié)議解析和DoS_DDoS攻擊檢測[D].暨南大學,2007.
[8]譚玉琴,李祥和,陳迎春.基于改進的SOM入侵檢測研究[J].信息工程大學學報,2011.
[9]沈清姿.IPv6網(wǎng)絡入侵檢測關鍵技術研究[J].杭州電子科技大學,2012.
2015賽爾網(wǎng)絡下一代互聯(lián)網(wǎng)技術創(chuàng)新項目(NGII20150402)。