穆 桃,陳 偉,陳松健
(南京郵電大學 計算機學院, 南京 210023) (*通信作者電子郵箱chenwei@njupt.edu.cn)
基于多層網絡流量分析的用戶分類方法
穆 桃,陳 偉*,陳松健
(南京郵電大學 計算機學院, 南京 210023) (*通信作者電子郵箱chenwei@njupt.edu.cn)
對用戶進行準確分類對提高客戶定制服務的質量具有重要作用,但用戶出于隱私保護的考慮,經常不配合網絡服務商,拒絕提供個人信息,如地理位置信息、興趣愛好等。為解決這一問題,在保護用戶隱私的前提下,通過分析網絡層、應用層等多層網絡流量,然后利用K-means聚類、隨機森林算法等機器學習方法,預測出用戶的地理位置類型(比如公寓、校園等)和興趣愛好,并分析地理位置類型與用戶興趣愛好的關系,以提高對用戶分類的準確性。實驗結果表明,此方案可以自適應地劃分用戶所屬用戶類型和地理位置類型,通過關聯用戶的地理位置類型和用戶類型提高了用戶行為分析的準確性。
流量分類;地理位置;用戶偏好;K-means聚類;隨機森林
日常生活中,人們越來越習慣利用無線網絡上網,產生的上網流量也日益增多。用戶的網絡流量主要應用于兩方面:一方面利用網絡流量來檢測網絡中可能存在的入侵行為[1]和檢測惡意軟件[2]等網絡異常行為[3];另一方面是通過網絡流量的分類,利用機器學習方法來預測地理位置和分析用戶網絡行為[4-5]。目前越來越多的服務傾向于利用用戶的上下文信息(比如位置類型)來預測用戶的偏好[6],但由于在基于用戶真實地理位置所提供的服務中,服務商需要分享用戶的隱私信息,這往往讓用戶認為是一種對個人隱私的威脅。
在現實生活中,僅僅依據用戶的位置類型來推斷用戶的偏好是不充分的,不能因為用戶所在的位置類型而認為該位置類型的用戶的網絡偏好是一樣的。為解決這一問題,在對于用戶的網絡流量[7-8]的分析后,需要進一步研究用戶對每個應用程序類別的興趣程度。通過對用戶的歷史網絡訪問數據進行分析,并根據用戶興趣將用戶分成不同類型用戶。將用戶的地理位置和用戶類型結合用于分析用戶偏好,可以主動向用戶提供感興趣的內容。
本文首先利用被動方式監測用戶的網絡流量并對網絡流量進行數據預處理,建立用戶設備指紋集,將一個或多個IP地址對應到某一確定的用戶身份。然后使用隨機森林算法分析網絡層統計信息,用來預測用戶地理位置類型。之后利用應用層的統一資源定位符(Uniform Resource Locator, URL)類別信息通過K-means將用戶分成8種用戶類型。最后,通過對用戶地理位置類型和用戶類型之間的聯系,發現通過地理位置和用戶類型相結合,比文獻[9]更準確地為用戶提供服務。
本文的主要工作有:
1)通過分析網絡協議(Internet Protocol, IP)地址、IMEI(International Mobile Equipment Identity)、用戶賬號信息(userid)和推送服務信息(appid),建立了用戶設備指紋集,在分析用戶類型前,可以確定唯一用戶;
2)通過網絡層信息和應用層URL分類信息分別確定了用戶的地理位置類型和用戶類型;
3)將用戶地理位置類型和興趣愛好相結合,提高了用戶分類的準確性。
對網絡流量分類的目的是為了檢測和分析網絡中的應用程序和用戶的行為。Zhang等[10]提出了在短時間內不用管理員身份就可以通過流量分析正確推斷出用戶在線活動的分層分類系統。文獻[11]也通過設計一個基于位置的熵值法的網絡流量分析平臺將用戶聚成固定用戶組和靜態用戶組,并分別利用智能時分法和基于時間的馬爾可夫法來對這兩組用戶進行預測。文獻[12]利用網絡流量創建了一個APP_URL表來記錄該網絡中所有應用程序與遠程惡意服務器連接過的日志。通過日志所建立的黑名單,可以檢測到惡意的應用程序。在提高分類算法的性能上,文獻[13]使用將相關信息與分類過程結合的無參流量,提出了即使在非常少量訓練集的極端情況下,依然能夠有效提高性能的分類方法。這些研究工作與本文都是利用網絡流量來監測和分析網絡流量。
傳統的基于地理位置向用戶發送服務是在用戶允許的情況下,通過GPS(Global Positioning System)等技術分享用戶的實際地理位置實現的,但是,通常情況下用戶并不樂意分享個人的隱私信息。機器學習方法利用網絡流量信息來預測用戶的地理位置類型可以解決這個問題。通過被動檢測方式獲得用戶的網絡流量,用戶不需要分享自己的地理位置就可以獲得服務。文獻[9]提出了利用這種方法并以較高的準確率預測住宅區、餐廳、校園和機場旅游四類地理位置類型,但是,即使預測了用戶所屬的地理位置類型,并不能僅以地理位置直接推斷用戶的網絡偏好,因此,本文通過網絡層統計信息預測用戶所在的地理位置類型,并通過應用層URL分類信息聚類出8種用戶類型。將用戶的地理位置類型和用戶類型相結合,能更可靠地推斷出用戶偏好。
通過網絡層和應用層的特征屬性[14],例如,流的總數、傳輸控制協議(Transmission Control Protocol, TCP)數目、應用程序的URL等,可以盡可能地準確統計出用戶的網絡行為特征。最后利用機器學習算法可以更加直觀地了解用戶在網絡中的行為特性。目前,對網絡流量分析所使用的機器學習方法主要是兩類:第一類是無監督機器學習[15]方法,比如文獻[16]和文獻[17]所提出的K-means和Autoclass;第二類是C4.5[18]、隨機森林[19]、K最近鄰算法和神經網絡等監督機器學習方法。
本文工作主要是利用網絡流量中多層信息推斷用戶類型,其中包括使用網絡層統計信息和應用層URL分類信息來預測用戶的位置類型和用戶類型。圖1為系統架構。
數據預處理 為了后續工作中能夠更加方便地利用捕獲到的數據,本文將得到的數據進行預處理,例如提取用戶IP地址、URL信息等,并存儲到數據庫中。
用戶設備指紋集 在長時間數據捕獲的過程中,由于動態主機配置協議(Dynamic Host Configuration Protocol, DHCP)的原因,有可能某一個用戶使用不同的IP地址來上網。為了增強對用戶的行為的分析,需要將用戶所使用過的IP地址通過本文建立的用戶設備指紋集來找到,并將用戶的數據進行整合。
網絡流量分類 通過將網絡流量按照網絡層特征統計和應用層URL分類兩種方法進行特征提取。網絡層特征統計包括每個用戶的所有數據包的多個特征。應用層URL類別按照應用程序的類別(比如,游戲、教育、社交網絡等)進行分類。
地理位置類型預測和用戶類型聚類 類似文獻[9]的方法,利用網絡層的統計信息通過隨機森林分類方法來預測用戶的位置類型,得到了85%的預測率。依據用戶訪問的各應用程序的類別百分比通過K-means聚類方法將用戶分成多種類型。根據對應用程序的偏好將相似用戶歸為一類,有利于分析多個用戶的偏好。在預測出用戶所在的位置類型后,通過分析用戶的類型,能有針對性地向用戶推送服務。

圖1 根據用戶網絡流量信息分別預測地理位置類型和聚類用戶類型
3.1 數據包捕獲和預處理
1)在Linux平臺下利用tshark和aircrack-ng捕獲網絡流量數據并以.cap格式存儲。通過在校園、火車站、餐廳、宿舍四種位置類型20天的采集,獲取了大概70 GB的數據。
2)獲取數據包中〈捕獲時間,基本服務設置號(Basic Service Set Identifier, BSSID),服務設置號(Service Set Identifier, SSID),媒介訪問控制(Media Access Control, MAC)地址,源IP地址,源端口,目地IP地址,目的端口,協議,數據包長度,URL〉信息。其中BSSID、SSID和用戶MAC地址為可選項,其他信息必須存在,否則視為無效信息。
3.2 用戶設備指紋的收集方法
在無線網絡中,由于DHCP,用戶使用過的IP地址不固定,無法獲得用戶全部網絡流量。在內網與外網交接處,由于網絡地址轉換(Network Address Translation, NAT)協議將用戶內部IP地址映射到外部IP地址,用戶的IP地址無法確定。
基于以上原因,通過移動設備國際識別碼IMEI 、userid和推送服務中的appid建立的用戶設備指紋集確定用戶設備。通過用戶設備所具有的以上特征就能確定用戶所使用過的IP地址。
IMEI是手機的唯一標識,通過對比用戶的IMEI,即使用戶使用的IP地址不唯一,也可以將用戶長時間所使用的多個IP地址與用戶對應起來。在本文收集的IMEI信息中,IMEI有三種存在形式:
1)原始形式,由15位數字組成;
2)采用MD5對原始15位數字進行加密;
3)由字母數字和其他特殊符號組成的多位字符串。
userid是指用戶登錄各種應用軟件所使用的賬號。例如捕獲的數據包中存在以”cntaobao”開頭經過UTF8編碼過的淘寶賬號名稱。通過檢測相同的userid是否存在于不同的IP地址中,就可以確定這些IP地址是否為相同用戶。
appid是指推送服務中對用戶設備相應軟件的獨立標識。 通過檢測推送服務器向設備中應用程序所發送的服務信息中的appid,可以確定此用戶的移動設備上是否安裝過相應軟件。

表1 不同地理位置類型的用戶數據
表1列出了在不同地理位置類型中用戶數目的獲取情況。可以看到通過202個帶有設備指紋集的用戶將總共1 936個IP地址縮減到1 187個IP地址,即將1 936個IP地址對應到實際的1 187個實際用戶。對于沒有設備指紋集的IP地址,通過〈捕獲時間,IP地址〉標識為一個用戶。另外,利用有效流量信息(網絡層信息和應用層URL信息)對實際用戶過濾,最終得到1 024個有效用戶。
多層網絡信息提取內容分為兩種:提取用戶網絡層的統計信息和對每個用戶的應用層URL信息進行分類統計。
4.1 網絡層統計特征
本文將用戶的網絡層流量特征分為粗粒度層、協議層、流層和數據包層四個層次[9],總共52個特征值。表2介紹了網絡層統計特征提取的具體內容,其中流定義為五元組〈源IP地址,源端口號,目的IP地址,目的端口號,協議〉,并用〈最小值,最大值,平均值,中值,標準差,偏態,峰態〉來統計流層和數據包層里的特征。式(1)、(2)為此次實驗偏態和峰態所使用的計算公式:

(1)

(2)


表2 網絡層統計特征分類
4.2 應用層URL信息特征
1)關鍵字提取。通過對URL中應用程序對應關鍵字(例如微信在URL中對應的關鍵字為”weixin”)進行過濾,總計得到了5 602個不同的URL,650個關鍵字。
2)關鍵字分類。將應用程序對應的關鍵字分為20個類別,每個類中的關鍵字個數如表3所示。不需要了解到用戶的具體偏好,只需了解用戶對不同類別是否感興趣。在統計關鍵字過程中,在不失去原有類別特性的前提下通過關鍵字相同部分將多個關鍵字歸為同一關鍵字。比如“郵件”中,可能出現”gmail””hotmail”和”qqmail”等不同的電子郵件服務商,歸為郵件類別中關鍵字”mail”。
3)計算URL類別。將每個類別中關鍵字出現的總次數占總類別的百分比作為這個類別的特征值進行提取。

表3 應用層URL分類
4.3 多層網絡信息處理
4.3.1 用戶地理位置分類
與文獻[9]相似,利用隨機森林分類算法通過網絡層統計信息來預測用戶地理位置。隨機森林通過自主法(boot-strap)[20]重采樣技術,不斷生成訓練樣本和測試樣本,由訓練樣本生成多個分類樹組成隨機森林。也因此稱隨機森林為包含多個決策樹的分類器。通過隨機森林算法利用用戶的網絡層統計信息將用戶進行聚類,其優點是隨機森林能夠在不用特征選擇的前提下處理高維度的數據,并且快速處理大量的離散型數據集或者連續型數據集。
隨機森林的處理流程如下:
1)從原始訓練集N中應用boot-strap法生成K個新的自助樣本集,每個自助樣本集是每棵分類樹的全部訓練數據。
2)每個自助樣本集生長為單個分類樹。在樹的每個節點處,假設有M個特征變量,則在每個節點處隨機挑選m個特征變量(m≤M)。按照節點不純度從m個特征變量中選擇一個特征進行節點分裂。
3)對每棵樹不作任何剪枝,根據生成的多個樹分類器對新的數據進行預測,分類結果按樹分類器的投票多少而定。
對于只有一個IP地址的用戶,可以直接計算上述52個特征值作為此用戶的網絡層統計特征;而對于包含多個IP地址的用戶,通過用戶所屬的位置類型(宿舍、餐廳等)不同來區別此用戶的位置,最終通過用戶的IP地址標識每個用戶。通過用戶地理位置類型的預測,可以推測該用戶的短期或長期偏好。例如,如果預測用戶是在車站或餐廳這種短時間逗留的位置類型,那么在一段時間內,可以向用戶推送與車站或者餐廳相關的服務。另外,如果用戶是在長期活動的位置類型(校園或公寓),那么用戶可能長期對校園或公寓相關的服務感興趣。
4.3.2 用戶類型聚類
在對應用層URL信息特征處理中,為對用戶進行全面分析,本文將用戶所有的IP地址中的應用層URL信息都統計起來并利用K-means聚類算法將用戶分成8種不同的用戶類型。然后根據每種用戶類型中每個應用層URL類別百分比范圍,通過時間段劃分人工校正錯誤的用戶類型。如果每種用戶類型的URL類別所占的百分比各不相同,說明用戶對不同類別的應用程序的感興趣程度也不相同。例如,假設在類型1中社交網絡和教育方面所占的比重較大,說明該類型用戶對社交網絡和教育比較感興趣。將用戶分類的原因在于在對用戶的網絡流量統計之后,憑據大量的、零碎的實驗數據無法直接有效地去評估用戶的興趣、愛好,這給本文對所有用戶進行全面、廣泛的統計帶來很多不便。通過K-means算法利用用戶的網絡流量將用戶進行分類,利用系統、模型化的方式去統計用戶所屬的類型,有利于更直觀地研究用戶的興趣愛好。K-means算法[21]是將樣本基于歐氏距離聚成多個分類,聚成速度快且使用簡單。具體算法流程如下:
1) 隨機取得k個初始中心點μ1,μ2,…,μk∈Rn;
2) 重復下面兩步直到收斂
對于每個點i,計算歐氏距離,劃分進相應的簇
ci:=argmin‖xi-μj‖2
對每個類j,重新計算中心點
其中:樣本數據集為X={xi|i=1,2,…,m};k為樣本最后聚類數;ci=j表示點i到類別j的距離最短,即屬于類別j(j∈k);μj代表每次迭代后重新產生的中心點。
通過對應用層URL信息的提取將用戶分成多個類別,并且當這些類別有很明顯的用戶興趣偏向時,一方面可以全面了解用戶的所有網絡涉獵范圍,另一方面,可以在對真實用戶的預測中有效判斷用戶的偏好。另外,只通過用戶的地理位置類型判斷用戶的偏好會只關注用戶的短期興趣而忽略了長期興趣,并且只依據地理位置而判斷用戶的偏好依據不足。根據用戶對應用軟件類型的偏好將用戶劃分為不同的用戶類型,可以在預測用戶地理位置類型之后,進一步了解到用戶的長期興趣,因此,通過分析用戶地理位置類型與用戶類型之間的關系(比如不同地理位置類型中用戶類型的百分比不同),并結合兩者信息,可以提高對用戶的服務質量。
本章對用戶地理位置類型進行預測和用戶類型聚類,并分析兩者之間的相關性得出實驗結果。
5.1 用戶地理位置類型預測
通過隨機森林算法將用戶根據網絡層統計特征分成四種不同的地理位置類型,得到的每個用戶類型預測概率和混淆矩陣如表4和表5所示。

表4 地理位置類型預測結果

表5 地理位置類型預測混淆矩陣
表4中每列參數含義如下:
1)TPRate(True Positive Rate):真正率。是指在原始真樣本中最后被正確預測為真樣本的概率。其計算公式為:
TPRate=TP/(TP+FN)
(3)
其中:TP表示樣本的真實類別為真時,最后預測得到的結果也為真;FN表示樣本的真實類別為真時,最后預測得到的結果卻為假。
2)FPRate(False Positive Rate): 假正率。是指在原始假樣本中最后被預測為真樣本的概率。其計算公式為:
FPRate=FP/(FP+TN)
(4)
其中:FP表示樣本的真實類別為假時,最后預測得到的結果卻為真;TN表示樣本的真實類別為假時,最后預測得到的結果也為假。
3)Precision:預測正確率。是指在預測結果中,預測為真的樣本中,預測結果為真的概率。其公式如下:
Precision=TP/(TP+FP)
(5)
4)ROC Area(Receiver Operating Characteristics Curve):ROC曲線描述的是每個測試類別樣本中的真正率和假正率的變化。在ROC曲線中橫軸表示假正率,縱軸表示真正率。曲線下的區域面積是對預測模型有效性的一個評估,取值范圍為[0,1]。ROC區域的面積越大,預測模型的有效性越高。理想情況下,ROC區域的值為1。
表5中每行代表用戶實際地理位置類型,每列代表用戶預測的地理位置類型。最終能夠在1 024個用戶中正確預測到870個用戶,預測率為85%。
5.2 用戶類型劃分
在對用戶的網絡流量進行統計、分析后,需要更詳細地分析用戶的興趣愛好。通過對用戶類型進行分析和研究,得出不同用戶的偏好。
5.2.1 用戶類型聚類
在對用戶網絡流量的分析基礎上,通過多次實驗,最后利用聚類速度較快的K-means將上述使用URL分類后的用戶聚類成8個類型。
表6中列出了在每個類型中百分比為前10的URL類別。對于每一個用戶類型,作了以下分析:
類型1 社交學習型用戶(Social network and Education, SE)。這種類型的用戶主要訪問的是社交網絡和教育,分別所占百分比約為36%和20%。說明這類用戶的興趣愛好相對比較集中,可能是利用社交網絡交友和通過文件共享、技術學習等方式學習。
類型2 社交分享型用戶(Social network and File-Sharing,SF)。該類型用戶主要訪問的是圖像和社交網絡,分別所占百分比約為52%和26%,其他類型訪問量不多。這類用戶可能通過圖像軟件拍攝大量照片,然后通過社交網絡分享這些照片。年齡段可能集中于熱愛自拍或者攝影的青年人群。
類型3 游戲交友型用戶(Games and Social network,GS)。該類型用戶特別愛好游戲這類,所占百分比約為46%,同時社交網絡所占百分比約為27%,另外購物和快餐訪問量也比較多。這類用戶可能比較喜歡室內游戲,并可能通過快餐和購物來訂購外賣和購物,同時通過金融類別中的相應軟件來付款。
類型4 學習型用戶(Education,Ed)。該類型用戶主要訪問教育類別,所占百分比約為52%。這類用戶可能大部分時間通過訪問教育性網站來獲取信息,有可能是學生或者老師這類人群。
類型5 事業型用戶(Job-Searching,JS)。這類用戶非常關注科技技術方面的公司,技術所占百分比約為56%,同時在新聞和事業方面所占百分比約為12%,說明這類用戶也對時事新聞和工作有所偏好。這類用戶可能從事的行業可能為IT方面并正在找工作。另外,用戶訪問量第二大的是游戲類別,所占百分比約為6%,說明該類用戶熱衷游戲。
類型6 社交型用戶(Social Network,SN)。這類用戶愛好比較單一,偏向社交網絡這一類。該類型用戶可能在數據收集的這段時間或長時間中比較悠閑,用戶上網的目的只是用來聊天交友,放松自己;或者這類用戶偏愛社交網絡,對其他類型的興趣不大。
類型7 健康生活型用戶(Health and Lifestyle,HL)。這類用戶并不完全集中于某一類型的訪問,在生活方式、旅游和社交網絡等方面都有訪問。在生活方式和快餐方面有所關注,說明用戶比較關心日常生活需求;同時對旅游和健康方面也有所喜愛,說明這類用戶有足夠的經濟基礎來支持現有的生活,比較注重健康,甚至短期有出游的打算。該類型年齡層次可能為中老年人。
類型8 娛樂學習型用戶(Entertainment and Education,EE)。娛樂在這類用戶訪問量中占55%左右,用戶在教育和文件分享學習方面所占的百分比分別約為13%和6%。這類用戶對于學習和娛樂兩者兼顧,但是上網的內容比較側重于娛樂放松。
5.2.2 用戶類型規則制定
通過對表6中所有用戶聚類類別的分析,在表7中,規定了每個用戶類型中多個URL類別的具體范圍。

表6 各用戶類型中URL類別所占百分比 %

表7 用戶類型中不同URL類別百分比范圍制定
5.2.3 用戶類型校正和確認
用戶所在的類別并不是一成不變的。用戶上網的內容可能與用戶在某一時間段所處的環境、遇到的問題等有關;同時,用戶的年齡、閱歷、交際范圍、工作性質都有可能對用戶某一時間段或長期的上網的內容有關。基于這些原因,本文利用上述用戶聚類的規則,將用戶的URL訪問類別根據時間段進行劃分和統計,用戶在每個時間段中所屬的用戶類型可能會有所不同,因此,將用戶在總時間段中出現次數最多的用戶類型作為該用戶所屬的類型,即對用戶的長期興趣進行預測,當用戶的長期興趣與用戶的實際的偏好不同時,應該根據用戶最近的短期偏好或者用戶的地理位置預測類型向用戶推送服務(此次實驗選取的時間段為15 min。)
表8表明了利用K-means聚類算法所聚成的8個類別的百分比和在通過人工判別修改后每個類別所占的百分比。其中改變較大的是HL類型,該類型的用戶數占總用戶數目從3.8%增長到了11.9%;其次是Ed類型中用戶數目百分比下降了7.7%;SE類型用戶數卻增長了5.6%;其余的類型變化不大,SN類型用戶數目沒有改變。

表8 用戶聚類并人工修改后的用戶類型百分比
5.3 地理位置類型與用戶類型相關性
僅通過地理位置類型去判斷用戶偏好,會將用戶都統歸為四種基于地理位置類型的用戶。比如,推測出用戶位于車站,只對用戶推送旅游、天氣等與車站相關的服務,這并不能為用戶提供高質量服務。同樣,只對用戶推送與公寓、校園和餐廳相關的服務無法滿足用戶的實際需求。
通過表9可以看到,在對用戶分類后,用戶的用戶類型分布與用戶所在的地理位置類型是有關系的。比如在校園中ED類型的用戶占比率最大;因為校園中大部分用戶可能是學生和老師群體,他們更傾向于利用無線終端設備來學習;同時發現SN、ED和SE用戶類型在公寓、學校和餐廳中比重都在用戶類型中的前三位,只是在順序上有變化;主要原因是用戶在利用無線網絡上網的過程中更加傾向于娛樂休閑、聊天和學習這三個方面。而在車站中,HL型用戶比重僅次于SN型用戶占百分比;說明在車站中大部分偏愛社交軟件,但有很多用戶對于車站類型的相關服務(比如旅游軟件、天氣查詢等)也很感興趣。

表9 地理位置分類預測結果中不同用戶類型的人數
另外,在同一地理位置類型中的用戶是屬于不同類型的用戶。比如,在公寓中,用戶類型比重從大到小前三位的分別是SN、SE和ED,在學校中比重較大的三種用戶類型依次是ED、SN和SE,在餐廳中比重較大的前三位用戶類型依次是SN、ED和SE,在車站中用戶類型數目前三位分別是SN、HL和ED。說明在同一位置類型中,用戶的偏好與地理位置類型相關程度不一樣,因此,僅根據地理位置類型來判斷用戶的偏好是不夠的。
用戶的偏好在同一地理位置類型中是存在差異性的,相同的用戶類型在不同的地理位置類型中所占的比重也不一樣。地理位置類型與用戶類型的結合,為用戶的偏好提供了更準確的判斷。
本文通過對用戶的多層網絡信息的提取,能夠以85%的準確率預測出用戶的地理位置類型,并對用戶以興趣愛好進行劃分,在現實中能夠將用戶的地理位置和用戶類型相結合,進而提供更準確的個性化服務。然而,今后還有很多工作要做。首先在用戶設備指紋集方面,將繼續挖掘其他可以確定用戶的“指紋”識別信息;其次,將提高在地理位置類型中數量較少的用戶類型對用戶偏好的預測率;最后,本文中的用戶大部分是在校園里,這也跟用戶使用無線終端設備上網的方式有關,今后將考慮更多其他位置類型的用戶。
References)
[1] AHMED M, MAHMOOD A N. Network traffic analysis based on collective anomaly detection [C]// Proceedings of the 2014 IEEE 9th Conference on Industrial Electronics and Applications. Piscataway, NJ: IEEE, 2014: 228-237.
[2] BEKERMAN D, SHAPIRA B, ROKACH L, et al. Unknown malware detection using network traffic classification [EB/OL]. [2016- 01- 12]. https://www.researchgate.net/publication/304605520_Unknown_malware_detection_using_network_traffic_classification.
[3] LAI Y, CHEN Y, LIU Z, et al. On monitoring and predicting mobile network traffic abnormality [J]. Simulation Modelling Practice and Theory, 2014, 50: 176-188.
[4] XIA N, MISKOVIC S, BALDI M, et al. GeoEcho: inferring user interests from geotag reports in network traffic [C]// Proceedings of the 2014 IEEE/WIC/ACM International Joint Conferences on Web Intelligence and Intelligent Agent Technologies. Washington, DC: IEEE Computer Society, 2014, 2: 1-8.
[5] FUKUDA K, ASAI H, NAGAMI K. Tracking the evolution and diversity in network usage of smartphones [C]// Proceedings of the 2015 ACM Conference on Internet Measurement Conference. New York: ACM, 2015: 253-266.
[6] TANG H, LIAO S S, SUN S X. A prediction framework based on contextual data to support mobile personalized marketing [J]. Decision Support Systems, 2013, 56(4): 234-246.
[7] 蔡君,余順爭.基于復雜網絡社團劃分的網絡流量分類[J].計算機科學,2011,38(3):80-82.(CAI J, YU S Z. Internet traffic classification based on detecting community structure in complex network [J]. Computer Science, 2011, 38(3): 80-82.)
[8] AL KHATER N, OVERILL R E. Network traffic classification techniques and challenges [C]// Proceedings of the 2015 10th International Conference on Digital Information Management. Piscataway, NJ: IEEE, 2015: 43-48.
[9] DAS A K, PATHAK P H, CHUAH C N, et al. Contextual localization through network traffic analysis [EB/OL]. [2016- 02- 04]. http://spirit.cs.ucdavis.edu/pubs/conf/infocom14.pdf.
[10] ZHANG F, HE W, LIU X, et al. Inferring users’ online activities through traffic analysis [C]// Proceedings of the 4th ACM Conference on Wireless Network Security. New York: ACM, 2011: 59-70.
[11] HE H, QIAO Y, GAO S, et al. Prediction of user mobility pattern on a network traffic analysis platform [C]// Proceedings of the 10th International Workshop on Mobility in the Evolving Internet Architecture. New York: ACM, 2015:39-44.
[12] ZAMAN M, SIDDIQUI T, AMIN M R, et al. Malware detection in Android by network traffic analysis [C]// Proceedings of the 2015 International Conference on Networking Systems and Security. Piscataway, NJ: IEEE, 2015: 1-5.
[13] ZHANG J, XIANG Y, WANG Y, et al. Network traffic classification using correlation information [J]. IEEE Transactions on Parallel and Distributed Systems, 2013, 24(1): 104-117.
[15] 劉建偉,劉媛,羅雄麟.半監督學習方法[J].計算機學報,2015,38(8):1592-1617.(LIU J W, LIU Y, LUO X L. Semi-supervised learning method [J]. Chinese Journal of Computers, 2015, 38(8): 1592-1617.)
[16] BAKHSHI T, GHITA B. User traffic profiling [C]// Proceedings of the 2015 Internet Technologies and Applications. Piscataway, NJ: IEEE, 2015: 91-97.
[17] ANGELOV P, KANGIN D, ZHOU X, et al. Symbol recognition with a new autonomously evolving classifier autoclass [C]// Proceedings of the 2014 IEEE Conference on Evolving and Adaptive Intelligent Systems. Piscataway, NJ: IEEE, 2014: 1-7.
[18] 徐鵬,林森.基于C4.5決策樹的流量分類方法[J].軟件學報,2009,20(10):2692-2704.(XU P, LIN S. Traffic classification method based on C4.5 decision tree [J]. Journal of Software, 2009, 20(10): 2692-2704.)
[19] WANG Y, XIANG Y, ZHANG J. Network traffic clustering using random forest proximities [C]// Proceedings of the 2013 IEEE International Conference on Communications. Piscataway, NJ: IEEE, 2013: 2058-2062.
[20] 屠金路,金瑜,王庭照.bootstrap法在合成分數信度區間估計中的應用[J].心理科學,2005,28(5):1199-1200.(TU J L, JIN Y, WANG T Z. The application of bootstrap method in the estimation of synthetic fractional reliability [J]. Psychological Science, 2005, 28(5): 1199-1200.)
[21] 汪中,劉貴全,陳恩紅.一種優化初始中心點的K-means算法[J].模式識別與人工智能,2009,22(2):299-304.(WANG Z, LIU G Q, CHEN E H.K-means algorithm for optimizing initial center point [J]. Pattern Recognition and Artificial Intelligence, 2009, 22(2): 299-304.)
This work is supported by the National Natural Science Foundation of China (61202353, 61272084).
MU Tao, born in 1992, M. S. candidate. Her research interests include wireless network security, user privacy protection .
CHEN Wei, born in 1979. Ph. D., professor. His research interests include wireless sensor network, network security.
CHEN Songjian, born in 1992. M. S. candidate. His research interests include wireless network security, user privacy protection.
User classification method based on multiple-layer network traffic analysis
MU Tao, CHEN Wei*, CHEN Songjian
(SchoolofComputerScience&Technology,NanjingUniversityofPostsandTelecommunications,NanjingJiangsu210023,China)
Accurate classification of users plays an important role in improving the quality of customized services, but for privacy considerations users, often do not meet the network service providers, refusing to provide personal information, such as location information, hobbies and so on. To solve this problem, by analyzing the multi-layer network traffic such as network layer and application layer under the premise of protecting user privacy, and then using machine learning methods such asK-means clustering and random forest algorithm to predict the user’s geographic location types (such as apartments, campuses, etc.) and hobbies, and the relationship between geographic location types and the user interests was analyzed to improve the accuracy of user classification. The experimental results show that the proposed scheme can adaptively partition the user types and geographic location types, and improve the accuracy of user behavior analysis by correlating the user’s geographic location type and the user type.
traffic classification; geographic localization; user preference;K-means clustering; random forest
2016- 08- 01;
2016- 10- 19。
國家自然科學基金資助項目(61202353, 61272084)。
穆桃(1992—),女,湖南臨湘人,碩士研究生,主要研究方向:無線網絡安全、用戶隱私保護; 陳偉(1979—),男,江蘇淮安人,教授,博士,CCF會員,主要研究方向:無線傳感器、網絡安全; 陳松健(1993—),男,江蘇蘇州人,碩士研究生,主要研究方向:無線網絡安全、用戶隱私保護。
1001- 9081(2017)03- 0705- 06
10.11772/j.issn.1001- 9081.2017.03.705
TP393.08
A