基于多協議多階段的P2P內容分析技術研究

2011-01-01 00:00:00肖智鵬張宏莉葉建偉

智能計算機與應用 2011年3期

摘要：當前網絡環境中，Ｐ２Ｐ下載軟件流量占用了寬帶接入的大量帶寬，這造成了網絡帶寬的巨大消耗，因此，對Ｐ２Ｐ流量的檢測和控制是十分必要的。提出了一種基于多協議多階段的深度數據包檢測的Ｐ２Ｐ流量識別的方法，該方法較已有方法具有識別準確度高、執行效率高、擴展性強的特點。基于這種方法，實現了一個多協議可擴展的Ｐ２Ｐ流量識別系統，系統以分層化可擴展插件的形式設計，可以對各種不同協議的Ｐ２Ｐ流量業務，進行高效、準確的識別。實驗表明，系統能夠以９９．９０％以上的準確度完成對Ｐ２Ｐ流量業務的識別。

關鍵詞：

中圖分類號：ＴＰ３９３文獻標識碼：Ａ文章編號：２０９５－２１６３（２０１１）０１－００４３－０４

０引言

Ｐ２Ｐ（ＰｅｅｒｔｏＰｅｅｒ）是近年來出現的一種新的網絡應用，其出現啟動了網絡邊緣未獲使用的資源。在當前Ｉｎｔｅｒｎｅｔ中流行的Ｃ/Ｓ配置模式中，用戶的ＰＣ機僅僅是被作為一個顯示網頁的工具；而Ｐ２Ｐ體系結構則可以使用這些ＰＣ機分擔網絡中心的任務。

Ｐ２Ｐ技術出現后，網絡計算模式從集中式向分布式轉移，網絡應用的核心也從中央服務器向網絡邊緣設備擴散。當前網絡環境中，Ｐ２Ｐ下載軟件流量占用了寬帶接入的大量帶寬，文獻[１]的研究表明，Ｐ２Ｐ應用與Ｗｅｂ應用上、下行流量間的比例分別為１：１．２５和１：７，兩者比較，差別接近６倍。這造成了網絡帶寬的巨大消耗，甚至會引起網絡擁塞，大大降低了網絡性能，劣化了網絡服務質量，妨礙了正常的網絡業務的開展和關鍵應用的普及，嚴重影響了用戶使用正常的Ｗｅｂ、Ｅ－ｍａｉｌ以及視頻點播等業務，簡單的擴容已無法滿足容量增長的需要，因此實現Ｐ２Ｐ流量的分類、標識和控制是解決目前網絡狀態的根本途徑。

１相關工作

目前，針對各類不同Ｐ２Ｐ流量，國內外對此已有廣泛的關注，并提出過一些基本的識別模型或展望了Ｐ２Ｐ流量統計趨勢。

文獻[２]的研究表明，盡管受版權等問題的困擾，當前Ｐ２Ｐ應用仍呈現快速增長的趨勢，并且變得越來越隱蔽。目前，國內外對Ｐ２Ｐ文件共享系統的研究大多集中在資源查找[３]、下載協作[４]、流量測量、關鍵算法等方面。

於建華、廖祥等人在文獻[５]介紹了Ｐ２Ｐ流量識別方法，分析了相應的優缺點，然后提出一種基于流傳輸特性的Ｐ２Ｐ流量識別模型，對流量識別模型進行了分析。刁娜在文獻[６]中結合Ｐ２Ｐ網絡中出現的問題，分析了Ｐ２Ｐ對網絡流量的影響，提出了Ｐ２Ｐ流量識別的幾項關鍵技術并對其優缺點做出評價。在文獻[７]中，劉剛等人研究了ＢｉｔＴｏｒｒｅｎｔ流量的捕獲方法，并設計和實現了具體的流量捕獲方案，得出了可以用于建模的自相似性參數的量化結果。

在文獻[８]中，ＹＡＮＧＸ和Ｇ．ｄｅＶｅｃｉａｎａ系統地分析了Ｐ２Ｐ網絡的服務能力（ＳｅｒｖｉｃｅＣａｐａｃｉｔｙ）。該文將Ｐ２Ｐ網絡中的文件分布劃分為兩個階段，即瞬時階段和穩定階段。對瞬時階段，該文進行了深刻的理論分析，并建立了一個分支過程模型；還提出了對穩定階段建模的方法。在文獻[９]中，ＣＹＲＩＬＳｏｌｄａｎｉ分析了基于ＴＣＰ流特性的Ｐ２Ｐ性能檢測，介紹Ｐ２Ｐ網絡通用的以及一些流行的文件共享系統，討論不同的方法來衡量Ｐ２Ｐ流量，得出一個描述的Ｐ２Ｐ行為，基于這些結果，制定了基于Ｌｉｎｕｘ下的ｅＤｏｎｋｅｙ探測器。在文獻[１０]中，ＫＡＲＡＧＩＡＮＮＩＳＴｈｏｍａｓ、ＢＲＯＩＤＯＡｎｄｒｅ等人制定了系統的方法來確定Ｐ２Ｐ流量在傳輸層的特性，通過大量的統計研究表明Ｐ２Ｐ流量不斷增加。

在上述文獻中，提出的方法主要存在以下問題：不能夠具體地考慮到每種Ｐ２Ｐ流量的特征，導致識別的正確率偏低，誤報率較高；識別的結果數據不方便作為其他系統或應用的輸入，這種情況是因為無法對識別出的流量作進一步的分類。

２基于多協議多階段的深度數據包檢測的Ｐ２Ｐ

流量識別方法

雖然不同的Ｐ２Ｐ協議采用的思想一致，但是不同協議在實現過程中存在著巨大差異，比如ＢｉｔＴｏｒｒｅｎｔ協議和ｅＭｕｌｅ協議。ＢｉｔＴｏｒｒｅｎｔ協議中有種子的概念，種子中包含了下載過程中需要用到的所有信息；而ｅＭｕｌｅ協議則不然，需要通過一系列的交互過程完成資源的下載和校驗。因此不同協議，在識別過程中應該采用更有針對性的方法，本文就此提出一種基于多協議與多階段相互結合的深度數據包檢測的Ｐ２Ｐ流量識別方法。

該方法中，對于不同協議，采用不同的特征進行識別，而不同協議之間又是處于同一層次的，因此可以采用相同的底層分析方法，只是上層以插件的形式加以區分，這樣既提高了準確度，也可以共用底層同樣的協議還原方法。對于同一協議，通過對Ｐ２Ｐ類協議的分析和研究，發現資源的搜索、下載與共享是分成不同階段的，每個階段負責的功能不同，所以同一協議應當采用分階段的識別方法，使得對于該種協議的識別廣度增強，漏報率減少，而且更有針對性；同時識別數據還可作為其他系統的輸入數據，實用意義更強。

２．１ＢｉｔＴｏｒｒｅｎｔ流量識別方法

２．１．１ＢｉｔＴｏｒｒｅｎｔ的分階段識別

經過對ＢＴ客戶端工作流程以及ＢｉｔＴｏｒｒｅｎｔ協議的分析，在ＢｉｔＴｏｒｒｅｎｔ協議的第二階段，客戶端連接ｔｒａｃｋｅｒ服務器時，會發送ＧＥＴ請求包，這時會有特征字符串“ＧＥＴ／ａｎｎｏｕｎｃｅ？ｉｎｆｏ＿ｈａｓｈ＝”出現，再根據該數據包的特征，提取出該下載的文件的ｉｎｆｏ＿ｈａｓｈ值、已下載數據量和未下載數據量大小。在ＢｉｔＴｏｒｒｅｎｔ協議的第三階段，客戶端握手時，會有特征字符串“０ｘ１３ＢｉｔＴｏｒｒｅｎｔｐｒｏｔｏｃｏｌ”出現[１１]，再根據該包的特征，提取出該下載的文件的ｉｎｆｏ＿ｈａｓｈ值。

２．１．２編碼轉換算法

在ＢｉｔＴｏｒｒｅｎｔ協議連接服務器階段，發送ＧＥＴ請求包采用的是服務器ＨＴＴＰ／ＨＴＴＰＳ協議，因此在這個階段，初步提取出的ｉｎｆｏ＿ｈａｓｈ值是以ＵＲＬ編碼的數據，要將其轉換為ＡＳＣＩＩ編碼。算法流程如圖１所示。

按照如圖１算法編寫編碼轉換函數，函數是以ＵＲＬ編碼的字符串，作為輸入，字符串必須以‘＼０’結尾；以ＡＳＣＩＩ編碼的字符串，作為輸出，字符串末尾會自動添加‘＼０’。

２．２ｅＭｕｌｅ流量識別方法

２．２．１ｅＭｕｌ流量的信息識別

ｅＭｕｌｅ報文的格式如下：

每個數據包以協議代碼開始，后面跟著的是包的長度（３２－ｂｉｔｕｎｓｉｇｎｅｄ的整數）。現在的協議代碼有下面三個：

ＰＲ＿ＥＤ２Ｋ＝０ｘｅ３，

ＰＲ＿ＥＭＵＬＥ＝０ｘｃ５，

ＰＲ＿ＺＬＩＢ＝０ｘｄ４

包數據通常以８－ｂｉｔ的代碼開始，用于指示包的內容。如果以ＰＲ＿ＺＬＩＢ協議發送包，包的數據則是經過壓縮的。

根據如上對ｅＭｕｌｅ協議特點的分析，可以在如下幾個階段識別出ｅＭｕｌｅ流量的信息。客戶端與服務器端的ＴＣＰ通信時，是建立連接階段[１２]；客戶端與服務器端的ＵＤＰ通信時，為搜索階段；客戶端與客戶端的ＴＣＰ通信時，則是初次握手階段。

２．２．２ｅＭｕｌ流量的識別流程

ｅＭｕｌｅ流量識別的流程見圖２。首先，對源數據流做協議還原，得到ＴＣＰ流和ＵＤＰ流。

對于ＴＣＰ流，匹配應用層數據，匹配第一字節是否為０ｘｅ３，匹配第二字節是否為０ｘ０１，若是，則提取出１６字節的ｈａｓｈ值。注意：提取時，應按照Ｌｉｔｔｌｅ－Ｅｎｄｉａｎ的格式提取，因為在ｅＭｕｌｅ協議中用到的所有報文都以Ｌｉｔｔｌｅ－Ｅｎｄｉａｎ形式而非Ｂｉｇ－Ｅｎｄｉａｎ形式出現。

對于ＵＤＰ流，匹配應用層數據，匹配第一字節是否為０ｘｅ３，匹配第二字節是否為０ｘ１６，若是，提取ｈａｓｈ值，再提取文件名。因為在客戶端與服務器端的ＵＤＰ通信的搜索階段，文件名以明文傳輸。若未匹配成功，則表明該流量不是ｅＭｕｌｅ數據流。

２．２．３數據的提取與轉換算法

由于ｅＭｕｌｅ協議中，所有消息都是用Ｌｉｔｔｌｅ－Ｅｎｄｉａｎ編碼，而不是Ｂｉｇ－Ｅｎｄｉａｎ編碼，故提取ｅＭｕｌｅ流量詳細信息時，需要注意提取ｈａｓｈ位的順序，比如，某個捕獲的流量數據包，其報文內容中，ｈａｓｈ字段是ＡＡ４０４Ｄ８Ｆ８８４Ｆ１８７０Ｄ９２Ｄ１Ｂ２ＣＦＢ７３３９Ｃ２，而正確的ｈａｓｈ值應該是８Ｆ４Ｄ４０ＡＡ７０１８４Ｆ８８２Ｃ１Ｂ２ＤＤ９Ｃ２３９７３ＦＢ。

提取文件大小時，最初提取的結果都是字符串形式的數字，要將其轉換成真正的數值。由于不同類型表示的數字均存在范圍限制，而本系統中數字的范圍很大，Ｃ語言庫提供的函數不能滿足要求，故重新編寫了串轉換函數，算法流程如圖３所示。

３基于多協議多階段的Ｐ２Ｐ流量識別系統設計

３．１系統總體設計流程

如圖４所示，整個系統由多臺前端機和一臺數據服務器組成。前端機主要由流量捕獲模塊、ＢＴ流量識別模塊、ｅＭｕｌｅ流量識別模塊、進程間通信模塊、并發調度模塊以及信息發送模塊組成。主要功能是捕獲、識別Ｐ２Ｐ流量以及將識別的信息傳輸到數據服務器。數據服務器由并發管理模塊、數據整合模塊和中心數據庫組成。主要功能是存儲Ｐ２Ｐ流量的詳細信息，從而為其他系統，比如流量調度系統或流量限速系統，用作數據輸入。

系統的整體框架可描述為：將路由器截獲的大規模網絡流量，下發到多臺服務器進行處理和分析。每臺服務器上都運行本系統，系統對流量進行第一次分析，識別其是否為ＢＴ流量：若是，則將該流量提出，發往專門處理Ｐ２Ｐ流量的

機組；若不是，則流量進入下個插件，識別其是否為ｅＭｕｌｅ流量。若是，同樣發往專門處理Ｐ２Ｐ流量的機組；若不是，則進入下個插件，依次循環下去，直到最后。無插件認領的流量，進入ｏｔｈｅｒｓ機組處理。

注意：這里插件的順序是可調換的，這也是本系統的特點之一。可根據不同的應用背景，動態地改變插件的順序，以此適應不同的應用環境。這樣既提高了系統整體的效率，節約了系統開銷，又極大地增加了代碼的可重復利用率。

３．２結果演示

在前端機上，運行ＢＴ流量識別進程、ｅＭｕｌｅ流量識別進程、進程間通信進程、多機間通信進程，其中，進程間通信進程負責接收ＢＴ流量識別進程發來的信息，并通知多機間通信進程發送給中央數據服務器。在數據服務器上運行多機間通信進程，負責Ｐ２Ｐ流量信息的接收和入庫。

根據對截獲的離線數據包的分析識別，得到如表１所示的數據信息。其中，ｐｒｏｔｏ為１表示該數據是ＢＴ數據包，為２表示該數據是ｅＭｕｌｅ數據包；ｐｈａｓｅ為１表示在ＢＴ協議的請求資源階段的數據報文，為２表示在ＢＴ協議的下載資源階段的數據報文，為３表示在ｅＭｕｌｅ協議中客戶端與服務器建立連接階段的數據報文，為４表示ｅＭｕｌｅ協議中請求對等方資源階段的數據報文。表１中只是列出少部分識別結果。

３．３結果分析

為了便于分析和檢驗識別的效果，測試的結果都是基于離線的。經過對入庫數據的抽樣檢驗和分析，如表２所示，樣本１中的ｅＭｕｌｅ識別比率達到９９．９６％，ＢＴ識別比率達到９９．８４％，系統總體識別比率達到９９．９０％。

表３顯示的是對捕獲的離線數據以及數據庫中識別的數據多次抽樣的結果，該表是根據表２的方法得到的。通過對表２和表３的進一步研究，可知系統識別的正確率可以達到９９．９０％以上。由于表３中只是列出部分結果，本文總共做了５０次抽樣檢驗，在對這５０次檢驗中發現，ＢＴ識別的正確率一般低于ｅＭｕｌｅ識別的正確率，對系統實現進一步分析后，可知由于某些仿ＢＴ協議的特征與ＢＴ協議十分類似，所以導致正確率偏低于ｅＭｕｌｅ識別的正確率。

４結束語

本文提出了一個簡單高效的解決Ｐ２Ｐ流量識別方法，該方法識別準確度高，執行效率也很高。基于這種方法，本文構建了一個Ｐ２Ｐ流量識別平臺，該平臺最大的特點就是可擴展性，平臺通過功能插件的形式，對采用各種不同協議的Ｐ２Ｐ流量業務，進行高效、準確的識別。經過抽樣檢驗和分析，計算出識別正確率達到９９．９０％以上。

參考文獻：

[１] ＡＬＬＯＴ．Ｍｏｄｅｌｉｎｇｐｅｅｒ－ｔｏ－ｐｅｅｒｎｅｔｗｏｒｋｔｏｐｏｌｏｇｉｅｓｔｈｒｏｕｇｈｓｍ－ａｌｌｗｏｒｌｄｍｏｄｅｌｓａｎｄｐｏｗｅｒｌａｗｓ[Ｃ]／／ＩＸＴｅｌｅｃｏｍｍｕｎ－ｉｃａｔｉｏｎｓＦ－ｏｒｕｍ，２００１：１５－２４．

[２] ＫＡＲＡＧＩＡＮＮＩＳＴ．Ａｎａｌｙｓｉｓｏｆｒｅｓｏｕｒｃｅｔｒａｎｓｆｅｒｓｉｎｐｅｅｒ－ｔｏ－ｐｅｅｒｆｉｌｅｓｈａｒｉｎｇａｐｐｌｉｃａｔｉｏｎｓｕｓｉｎｇｆｌｕｉｄｍｏｄｅｌｓ．ＰｅｒｆｏｒｍａｎｃｅＥｖａｌｕａｔｉｏｎ，２００６：１４９－１７４．

[３] ＬＩＵＬ，ＲＹＵＤＫ，ＬＥＥＫＷ．Ｋｅｙｗｏｒｄｆｕｓｉｏｎｔｏｓｕｐｐｏｒｔｅｆｆｉ－ｃｉｅｎｔｋｅｙｗｏｒｄ－ｂａｓｅｄｓｅａｒｃｈｉｎｐｅｅｒ－ｔｏ－ｐｅｅｒｆｉｌｅｓｈａｒｉｎｇ[Ｃ]／／Ｉ－ＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｌｕｓｔｅｒＣｏｍｐｕｔｉｎｇａｎｄＧｒｉｄ．Ｃｈｉｃａｇｏ，２００４：２６９－２７６．

[４] ＳＨＥＲＷＯＯＤＲ，ＢＲＡＵＤＲ，ＢＨＡＮＡＣＨＡＪＥＥＢ，ｅｔａｌ．Ａｃｏｏｐ－ｅｒａｔｉｖｅｂｕｌｋｄａｔａｔｒａｎｓｆｅｒｐｒｏｔｏｃｏｌ[Ｃ]／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＩＥＥＥＩ－ＮＦＯＣＯＭ，２００４：８６－９５．

[５] 於建華，廖祥，孫莉．Ｐ２Ｐ流量識別方法的研究及實現．計算機工程，２００６，１３：１５－１７．

[６] 刁娜，李建濤，張志勤．Ｐ２Ｐ流量識別技術研究．計算機工程與設計，２００８，１１：２７７２－２７７５．

[７] 劉剛，方濱興，胡銘曾，等．ＢｉｔＴｏｒｒｅｎｔ流量的捕獲方法及自相似性的評價．計算機應用研究，２００６，５：２０５－２０６，２０９．

[８] ＹＡＮＧＸ，ｄｅＶｅｃｉａｎａＧ．ＳｅｒｖｉｃｅＣａｐａｃｉｔｙｏｆＰｅｅｒ－ｔｏ－ＰｅｅｒＮ－ｅｔｗｏｒｋｓ．ＩＥＥＥ，２００４：７８６－７９１．

[９] ＳＯＬＤＡＮＩＣ．Ｐｅｅｒ－ｔｏ－ＰｅｅｒＢｅｈａｖｉｏｕｒＤｅｔｅｃｔｉｏｎｂｙＴＣＰＦｌｏｗｓＡｎａｌｙｓｉｓ[Ｃ]／／Ｐｒｏｃ，２００３：１２－１５．

[１０] ＫＡＲＡＧＩＡＮＮＩＳＴ，ＢＲＯＩＤＯＡ，ＦＡＬＯＵＴＳＯＳｍ，ｅｔａｌ．Ｔｒａｎｓ－ｐｏｒｔｌａｙｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｐ２ｐｔｒａｆｆｉｃ．ＩｎＩＭＣ＇０４：Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ｔｈＡＣＭＳＩＧＣＯＭＭｃｏｎｆｅｒｅｎｃｅｏｎＩｎｔｅｒｎｅｔｍｅａｓｕｒｅ－ｍｅｎｔ，２００４：１２１－１３４．

[１１] ＳＥＮＳ，ＳＰＡＴＳＣＨＥＣＫＯ，ＷＡＮＧＤ．Ａｃｃｕｒａｔｅ．ｓｃａｌａｂｌｅｉｎｎｅｔ－ｗｏｒｋｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＰ２Ｐｔｒａｆｆｉｃｕｓｉｎｇａｐｐｌｉｃａｔｉｏｎｓｉｇｎａｔｕｒｅｓ[Ｃ]／／ＩＸＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＦｏｒｕｍ，２００４：６８－７０．

[１２] ＫＡＲＡＲＧＩＡＮＮＩＳＴ，ＢＲＯＩＤＯＡ，ＦＡＬＯＵＴＳＯＳＭ．Ｔｒａｎｓｐｏｒｔｌ－ａｙｅｒｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆＰ２Ｐｔｒａｆｆｉｃ[Ｃ]／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＡＣＭＳＩ－ＧＣＯＭＭ，２００４：８０－８６．

[１３] ＳＥＮＳ，ＳＰＡＴＳＣＨＥＣＫＯ，ＷＡＮＧＤ．Ａｃｃｕｒａｔｅｓｃａｌａｂｌｅｉｎｎ－ｅｔｗｏｒｋｉｄｅｎｔｉｆｉｃａｔｉｏｎｏｆｐ２ｐｔｒａｆｆｉｃｕｓｉｎｇａｐｐｌｉｃａｔｉｏｎｓｉｇｎａｔｕｒｅｓ[Ｃ]／／ｗｗｗ０４Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎ－ｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．２００４：５１２－５２１．

[１４] ＨＡＮＳＨ，ＪＡＭＥＳＷＫＨ．ＴｈｅａｒｃｈｉｔｅｃｔｕｒｅｏｆＮＧＭＯＮ：ＡｐａｓｓｉｖｅｎｅｔｗｏｒｋｍｏｎｉｔｏｒｉｎｇｓｙｓｔｅｍｆｏｒｈｉｇｈｓｐｅｅｄＩＰｎｅｔｗｏｒｋｓ．ＬｅｃｔｕｒｅＮｏｔｅｓＩｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２００２：２５０６－２５０７．

智能計算機與應用2011年3期

智能計算機與應用的其它文章: 面向互聯網新聞的話題檢測與追蹤; 面向互聯網的計算語言學研究; 用于擊鍵特征識別的壓力感應鍵盤設計; BP神經網絡在短道速滑智能體決策過程中的應用; 一種針對大規模URL關鍵字的多模匹配算法; 基于SVM的Fast-flux僵尸網絡檢測技術研究