王康利,黃 海,李軍政
(國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心 河南 鄭州 450002)
一種基于序列特征的Skype流量識別方法
王康利,黃 海,李軍政
(國家數(shù)字交換系統(tǒng)工程技術(shù)研究中心 河南 鄭州 450002)
作為最受歡迎的基于P2P技術(shù)的VOIP客戶端,Skype采用專有通信協(xié)議及多種高強度的加密技術(shù)保證通信安全,具有很強的保密性和便捷性。為了準確識別Skype流量,本文在分析Skype電話網(wǎng)絡(luò)結(jié)構(gòu)和通信協(xié)議的基礎(chǔ)上,提出了一種基于序列特征的 Skype流量識別方法,并設(shè)計和驗證了相應(yīng)的實驗系統(tǒng)。實驗結(jié)果表明,該實驗系統(tǒng)具有很高的識別效率。
P2P;Skype;序列特征;流量識別
對等網(wǎng)絡(luò)(Peer to Peer,P2P)[1],是一種新型通信模式。在P2P網(wǎng)絡(luò)環(huán)境中,所有節(jié)點都動態(tài)參與到路由、信息處理和帶寬增強等工作中,而不是單純依靠中心服務(wù)器來完成這些工作。作為P2P網(wǎng)絡(luò)演進到混合模式后的典型應(yīng)用,Skype[2]的出現(xiàn)給用戶帶了諸多便利。Skype可以提供多項服務(wù),如語音通話、文字傳輸、語音通話,視頻會議等。據(jù)TeleGeography[3]研究數(shù)據(jù)顯示,2010年Skype通話時長已占全球國際通話總時長的25%。Skype用戶免費通話時長和計費市場累計已經(jīng)超過了2500億分鐘。目前,Skype已經(jīng)擁有6.63億的注冊用戶,同時在線超過3000萬。然而,Skype以P2P技術(shù)為基礎(chǔ)的特點也帶來了占用網(wǎng)絡(luò)帶寬,加重網(wǎng)絡(luò)負載等眾多問題。因此,Skype流量識別對優(yōu)化網(wǎng)絡(luò)環(huán)境和提供差異化服務(wù)等具有重要的意義。
當前針對Skype網(wǎng)絡(luò)流量識別研究工作已經(jīng)有了一定的基礎(chǔ)。文獻[4]率先對Skype協(xié)議進行了較全面的解析,研究了Skype網(wǎng)絡(luò)拓撲結(jié)構(gòu)并分析了skype在不同網(wǎng)絡(luò)狀況下行為特征。文獻[5-7]對skype的研究主要集中在網(wǎng)絡(luò)架構(gòu)和身份驗證階段。文獻[8]提出了一種識別Skype轉(zhuǎn)播流(經(jīng)超級節(jié)點轉(zhuǎn)發(fā))的方法,但沒有考慮識別直播流,識別策略不完善。文獻[9]提出了基于UDP傳輸?shù)腟kype報文未被整體加密的重要特征,并結(jié)合使用貝葉斯分類器針對Skype具有的VOIP統(tǒng)計特性識別Skype流量,但該方法只對UDP流進行了識別,忽略了基于TCP傳輸?shù)男帕盍?。文獻[10]也忽略了TCP信令流的識別。文獻[11]提出了一種識別Skype流的實時算法Skype-Hunter,該算法的設(shè)計運用了傳統(tǒng)特征字識別法和基于行為特征的識別技術(shù),實驗證明此算法性能優(yōu)于傳統(tǒng)統(tǒng)計流量分類器。文獻[12-13]分別設(shè)計出了單包特征和包序列特征自動生成系統(tǒng),提出了Skype流新特征。
目前,Skype流量識別研究面臨的困難主要有:1)網(wǎng)絡(luò)拓撲復(fù)雜性。Skype是基于P2P技術(shù)的由普通節(jié)點、超級節(jié)點、登錄服務(wù)器等構(gòu)成的VOIP網(wǎng)絡(luò),Skype采用不同的通信模型進行信息傳輸,導(dǎo)致了Skype流量的復(fù)雜性。2)協(xié)議復(fù)雜性。Skype屬于商業(yè)軟件,采用各種私用協(xié)議通信。Skype沒有公開的協(xié)議規(guī)范。3)加密復(fù)雜性。Skype通信過程中廣泛采用了加密技術(shù)、混淆技術(shù)等,為Skype流量識別增加了難度。如Skype采用動態(tài)端口進行數(shù)據(jù)傳輸,使傳統(tǒng)端口識別法不再適用。
本節(jié)將簡要分析Skype網(wǎng)絡(luò)體系結(jié)構(gòu)、通信機制及通信時的媒體流特征。
2.1 skype網(wǎng)絡(luò)體系結(jié)構(gòu)
Skype采用的是混合式P2P模型,結(jié)合了集中式結(jié)構(gòu)和分布式拓撲的優(yōu)點,網(wǎng)絡(luò)中存在中間服務(wù)器,用戶節(jié)點是分布的。在分布式模式的基礎(chǔ)上引入了超級節(jié)點(Super Node,SN)和普通節(jié)點((User Node,UN)的概念。Skype的體系結(jié)構(gòu)如圖1所示[14]。

圖1 Skype網(wǎng)絡(luò)體系結(jié)構(gòu)
注冊服務(wù)器是Skype惟一的中間服務(wù)器,它負責完成客戶端的注冊,存儲并管理用戶名和密碼信息,當用戶登錄系統(tǒng)時,對用戶進行身份認證。注冊服務(wù)器還需要檢驗并保證用戶名的全球惟一性;普通節(jié)點即普通主機終端,只需要下載了Skype的應(yīng)用,就具有提供語音呼叫和文本消息傳送的能力;超級節(jié)點類似于普通節(jié)點的網(wǎng)絡(luò)網(wǎng)關(guān),所有普通必須與超級節(jié)點連接,并向 Skype的登錄服務(wù)器注冊以加入Skype網(wǎng)絡(luò)。超級節(jié)點實際是滿足某些要求的普通節(jié)點,這些要求包括:具有公網(wǎng)地址、具有足夠的CPU、存儲空間足夠大、具有足夠的網(wǎng)絡(luò)帶寬。也就是說,任何符合條件的主機終端都可以成為超級節(jié)點,當然前提是加載了Skype應(yīng)用。Skype的網(wǎng)體系結(jié)構(gòu)圖是我們后續(xù)研究工作的基礎(chǔ)框架。
2.2 Skype媒體流特征
Skype的信息傳輸包括語音通信、視頻會議、文件傳輸?shù)取H绻鸖kype通信雙方都位于公眾網(wǎng)中,雙方SCs之間使用TCP傳輸信令流,使用 UDP包直接進行數(shù)據(jù)交換;如果一方位于防火墻之后或私有網(wǎng)絡(luò)中,那么私有網(wǎng)絡(luò)一方首先要同公網(wǎng)中的 SN建立 TCP鏈接,然后由 SN進行數(shù)據(jù)轉(zhuǎn)發(fā);如果雙方都位于防火墻之后或私有網(wǎng)絡(luò)中,那么雙方的數(shù)據(jù)都需要 SN進行轉(zhuǎn)發(fā)[15]。Skype在整個通信過程中采用了專有的通信協(xié)議及多種高強度的加密技術(shù)保證通信安全。然而,作為一種網(wǎng)絡(luò)通信服務(wù),提供實時、良好的通信質(zhì)量也非常重要。為了減少解密過程復(fù)雜性,Skype僅僅在傳輸層以上采用專有協(xié)議,且基于UDP的Skype報文沒有整體加密,凈荷頭部具有一定的規(guī)律。在本文中,我們將采用文獻[8]中包序列特征生成系統(tǒng) APSC (automated packet-sequence signature construction)發(fā)現(xiàn)Skype媒體流特征。

圖2 Skype媒體流序列特征狀態(tài)圖
經(jīng)實驗表明,Skype媒體流具有如圖2所示的序列特征狀態(tài)圖。圖中S0代表初始狀態(tài),Sn,n=1,2,3,4表示Skype媒體流的凈荷負載的第三字節(jié)的值(具體如表1所示),箭頭表示兩個狀態(tài)間的序列變換??梢钥闯龌赨DP協(xié)議的Skype流負載的第三字節(jié)值一般局限于一定范圍內(nèi) (0x02,0x0d~0x7d,0x0f~0x7f,0x05~0x75),且UDP流的第一個數(shù)據(jù)包第三字節(jié)為0x02,最后一個數(shù)據(jù)包的第三字節(jié)通常在 “0x0d~0x7d”之間。

表1 Skype媒體流序列的第三字節(jié)特征值
結(jié)合以上對 Skype的研究分析,文中提出了基于綜合流序列特征和IP地址匹配的Skype流量識別方法。Skype應(yīng)用識別一方面要對數(shù)據(jù)進行采集和預(yù)處理;另一方面要對采集到的預(yù)處理后的數(shù)據(jù)運用Skype應(yīng)用識別策略進行網(wǎng)絡(luò)流量識別,從而對各種類型的網(wǎng)絡(luò)流量進行不同的統(tǒng)計分析與處理,兩者并行處理。圖3為Skype流量識別系統(tǒng)框架。
與此框架圖形對應(yīng)的識別流程圖如圖4所示。具體的識別原理為:
1)首先對獲取的網(wǎng)絡(luò)數(shù)據(jù)包進行分流處理;
2)利用圖2中所提出的Skype媒體流序列特征與采集到的網(wǎng)絡(luò)流量進行匹配,可以識別出相應(yīng)的Skype媒體流量;
3)基于UDP協(xié)議的Skype信令流的所有數(shù)據(jù)包的第三字節(jié)必然為02這一特點,可以識別出Skype的UDP信令包;
4)由于Skype的TCP信令包所請求的IP地址大多為UDP包所請求過的IP地址,又根據(jù)Skype數(shù)據(jù)中TCP和UDP對通信雙方總有一方使用同一Skype端口這一特點,可以得出數(shù)據(jù)包中只要源IP+Port和目的IP+Port兩者一個在Skype的IP+Po rt庫中,就可判定為Skype的TCP包信令包。
1)實驗環(huán)境(數(shù)據(jù)集)
①本實驗是在解放軍信息工程大學(xué)重點實驗室進行的,實驗數(shù)據(jù)取自數(shù)據(jù)采集終端。由于檢測速度等原因,本實驗采用非實時檢測 (在數(shù)據(jù)采集終端上開啟 wireshark抓包軟件獲取數(shù)據(jù),將捕獲到的數(shù)據(jù)包信息存儲至數(shù)據(jù)庫中,然后對數(shù)據(jù)庫中的記錄進行檢測識別)。

圖3 Skype流量識別系統(tǒng)框架

圖4 Skype流量識別流程圖
②為了不失一般性,實驗數(shù)據(jù)應(yīng)盡可能涵蓋多種網(wǎng)絡(luò)環(huán)境(windows,linux),每臺PC上運行各種常見的網(wǎng)絡(luò)應(yīng)用,主要包括:Web瀏覽器軟件,F(xiàn)TP文本傳輸客戶端,SMTP簡單郵件傳輸,迅雷下載軟件,騰訊 QQ聊天軟件,Skype軟件等,為后續(xù)的識別工作準備足夠的數(shù)據(jù)。獲取的數(shù)據(jù)中包括Skype數(shù)據(jù)包以及一些其他應(yīng)用的數(shù)據(jù)包。
2)性能指標
本文使用正確率(precision)和召回率(recall)來衡量識別系統(tǒng)性能:正確率指在Skype流量識別實驗中被正確識別的Skype通信數(shù)據(jù)所占識別為Skype通信量的比率;召回率指在skype流量識別實驗中被正確識別的Skype通信量數(shù)據(jù)占總Skype通信量的比率。
3)實驗結(jié)果及分析
從表2可以看出,Skype的UDP數(shù)據(jù)包識別正確率和召回率可達98%以上,TCP包的識別效果略低于UDP包,但也可達97%以上。實驗結(jié)果證明,本文所提出的識別系統(tǒng)具有很高的準確率,可用于Skype流量識別。

表2 實驗結(jié)果
文中通過對Skype協(xié)議內(nèi)部結(jié)構(gòu)及其通信機制的研究,提出了基于綜合序列特征識別法和IP地址相關(guān)識別法的Skype應(yīng)用識別框架并進行了實驗驗證。實驗結(jié)果表明,本文提出的Skype流量識別方法,能夠?qū)?Skype流量進行準確識別,指導(dǎo)網(wǎng)絡(luò)管理和優(yōu)化網(wǎng)絡(luò)性能,進而為Skype應(yīng)用技術(shù)的改進提供理論指導(dǎo)。目前,關(guān)于Skype協(xié)議的研究仍然存在很多問題,如Skype版本的不斷更新可能引起的Skype特征及通信機制的變化,純 TCP的 Skype流量識別等。而且,現(xiàn)在很多關(guān)于 Skype協(xié)議分析的文章都是基于真實網(wǎng)絡(luò)數(shù)據(jù)分析,無法得知協(xié)議的全貌。這些問題都有待進一步研究。
[1]魯剛,張宏莉,葉麟.P2P流量識別[J].軟件學(xué)報,2011,22(6):1281-1298.
[2]Skype website[EB/OL]Available from:http://www.Skype.com.
[3]TeleGeography website[EB/OL].Available from:http://www.Telegeography.com.
[4]Baset SA,Schulzrinne HG.An analysis of the Skype peerto-peer internet telephony protocol[C]//INFOCOM’06: Proceedings of the 25th IEEE International Conference on Computer Communications 2006.
[5]Alshammari R,Zincir-Heywood A N.Unveiling skype encrypted tunnels using GP[J].IEEE CEC,2010:1-8.
[6]Zhang D,Zheng C,Zhang H,et al.Identification andAnalysis of Skype Peer-to-Peer Traffic[C]//5th International Conference on Internet and Web Applications and Services,2010:200-206.
[7]Branch P A,Heyde A,Armitage G J.Rapid identification of skype traffic flows[J].Proc.of the 18th Int.Work.on Net.and Operating Systems Support for Digital Audio and Video,2009:91-96.
[8]Suh K,F(xiàn)igueiredo DR.,Kurose J,Towsley D.Characterizing and detecting skype-relayed traffic[C]//Proceedings of IEEE INFOCOM,Barcelona,Spain,2006.
[9]Bonfiglio D,mellia M,Meo M,et al.Revealing skype traffic: when randomness plays with you[J].ACM Sigcomm Computer Computer Communacation Review,2007,37(4):37-48.
[10]孫瑞錦,許博,周玉明.一種實時檢測基于 UDP的 Skype語音流的算法[J].解放軍理工大學(xué)學(xué)報:自然科學(xué)版,2008(10):507-511.
[11]Adami D,Callegari C,Giordano S,et al.Pepe.kypehunter:A real-time system for the detection and classication of skype traffic[J].International Journal of Communication Systems.2012,25(3):386-403.
[12]Ye M,Xu K,Wu J,et al.Autosig-automatically generating signatures for application[C]//in proc.of IEEE CIT,2009.
[13]Yuan Z,Xue Y,Dong Y.Harvesting unique characteristics in packet sequences for effective application classication[C]// in Proc.of IEEE CNS,2013.
[14]王振華,王攀,張順頤.基于綜合統(tǒng)計特征的Skype流量分析與識別[J].南京郵電大學(xué)學(xué)報,2006,26(1):1-7.
[15]Sándor Molnár and Marcell Perényi.On the identification and analysis of Skype traffic[J].INternational JOurnal of Communication Systems,2011(24):94-117.
Identification method of Skype traffic based on sequence signatures
WANG Kang-li,HUANG Hai,LI Jun-zheng
(China National Digital Switching System Engineering&Technological R&D Center,Zhengzhou 450002,China)
As one of the most popular VOIP client based on P2P technology,Skype uses proprietary communication protocol and a variety of high-strength encryption technology to ensure the safety communication,so it has strong confidentiality and convenience.To identify the skype traffic accurately,on the basis of the analysis of Skype network structure and the foundation of the communication protocol,a identification strategy was proposed via the unique sequence signatures.Then,we design and implement the practical system.The experimental results show that our practical system with high efficiency in identifying Skype flows.
P2P;Skype;sequence signatures;traffic identification
TN912.3
A
1674-6236(2016)15-0013-03
2016-01-14 稿件編號:201601101
國家科技支撐計劃(2014BAH30B01);國家自然科學(xué)基金(61379151);創(chuàng)新群體項目資助(61521003)
王康利(1993—),女,河南新鄉(xiāng)人,碩士研究生。研究方向:智能信息處理、信息安全。