999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于數(shù)據(jù)包的三層挖掘技術(shù)分析研究

2011-10-26 06:20:00陳淼譚順華西南科技大學(xué)信息學(xué)院621000
中國科技信息 2011年11期
關(guān)鍵詞:頁面數(shù)據(jù)挖掘資源

陳淼 譚順華 西南科技大學(xué)信息學(xué)院 621000

基于數(shù)據(jù)包的三層挖掘技術(shù)分析研究

陳淼 譚順華 西南科技大學(xué)信息學(xué)院 621000

本文基于VC和MySQL軟件開發(fā)平臺,采用數(shù)據(jù)包的分層挖掘技術(shù)對網(wǎng)絡(luò)數(shù)據(jù)包進行深度挖掘和統(tǒng)計分析。

數(shù)據(jù)包;分層挖掘;重復(fù)粒度

引言

據(jù)CNNIC發(fā)布26次調(diào)查報告[1]顯示,截至2010年12月,我國網(wǎng)民已達3.84億。在如此龐大的一個網(wǎng)絡(luò)用戶群體中,資源訪問是廣大網(wǎng)民的主要活動之一。針對類似校園網(wǎng)的大型網(wǎng)絡(luò)拓撲,流入這種拓撲結(jié)構(gòu)的重復(fù)訪問數(shù)據(jù)將成為本文關(guān)注的熱點。因其重復(fù)暫用網(wǎng)絡(luò)帶寬和消耗資源,提高了網(wǎng)絡(luò)資源訪問的成本,在海量重復(fù)數(shù)據(jù)傳輸?shù)睦鄯e過程中,這種浪費是呈正相關(guān)的。本文以某大學(xué)校園網(wǎng)流量監(jiān)測平臺為基礎(chǔ),配合數(shù)據(jù)包三層挖掘技術(shù)提取分析了這種重復(fù)資源的消耗狀況。

一、數(shù)據(jù)源

原始數(shù)據(jù)包捕獲是進行數(shù)據(jù)挖掘研究的基礎(chǔ),數(shù)據(jù)的可靠性決定了我們挖掘分析的準確度。在本次研究中我們利用winpcap提供的用戶接口捕獲校園網(wǎng)絡(luò)拓撲中共享網(wǎng)絡(luò)上主機的收/發(fā)數(shù)據(jù)包。經(jīng)過測試,我們結(jié)合winpcap接口開發(fā)的數(shù)據(jù)包捕獲軟件捕包效率可以達到99.63%以上,見下表1[2],可以忽略漏掉的少量數(shù)據(jù)包對實驗結(jié)果的影響。

表1 數(shù)據(jù)包獲取實驗數(shù)據(jù)

二、分層挖掘模型

數(shù)據(jù)挖掘是建立在統(tǒng)計學(xué)抽樣、人工智能和模式識別等思想的基礎(chǔ)模型上,發(fā)掘出我們感興趣的數(shù)據(jù)特征。如圖1。在分層挖掘過程中,首先針對原始數(shù)據(jù)包進行第一層數(shù)據(jù)挖掘。在Web資源訪問過程中都需要主機首先向資源服務(wù)器發(fā)送資源請求信息,然后資源服務(wù)器才會根據(jù)請求消息響應(yīng)傳送資源。根據(jù)GET請求特征,將原始數(shù)據(jù)包中的資源請求信息和資源響應(yīng)數(shù)據(jù)提取分離出來分別存入數(shù)據(jù)庫。在第二層挖掘中根據(jù)數(shù)據(jù)庫中的數(shù)據(jù)信息,關(guān)聯(lián)第一層挖掘記錄的兩張表,進行數(shù)據(jù)統(tǒng)計分析,從中提取出重復(fù)訪問資源信息,驗證資源重復(fù)訪問對網(wǎng)絡(luò)帶寬重復(fù)使用造成的資源浪費。在第三層挖掘中,根據(jù)第二層挖掘信息,提取出用戶訪問熱點頁面,建立一個頁面資源訪問比例模型。

圖1 三層數(shù)據(jù)挖掘模型

三 第一層挖掘

針對已經(jīng)捕獲的80端口原始數(shù)據(jù),我們根據(jù)數(shù)據(jù)包分析方法[2]提取出其中的源和目的IP與端口信息。這個基本特征將構(gòu)成數(shù)據(jù)包分析的四元向量<S_IP,S_Port,D_IP,D_Port>,通過這個四元向量,我們可以從中重組出通信會話數(shù)據(jù)。在GET消息提取中,我們同樣根據(jù)關(guān)鍵字段信息,建立GET請求消息分析模型,提取出其中的URI、Referer、Host三個字段信息,構(gòu)成資源定位標準。在資源定位標準的三個字段信息提取過程中,URI、Referer、Host是三個固定的關(guān)鍵字,在數(shù)據(jù)包中他們都以ASCII碼編碼方式存在,通過他們的結(jié)束標識符“ ”即可從原始數(shù)據(jù)包中按字節(jié)讀取出字段信息。

這種基于原始數(shù)據(jù)包的第一層挖掘技術(shù)避開了傳統(tǒng)數(shù)據(jù)挖掘基于固定結(jié)構(gòu)的文本信息挖掘更具優(yōu)勢。在原始數(shù)據(jù)包層進行挖掘,把HTTP標準協(xié)議作為基礎(chǔ)模型,這種數(shù)據(jù)挖掘技術(shù)更加具有普適性和通用性,可以大大提高數(shù)據(jù)挖掘效率。經(jīng)過對數(shù)據(jù)源的第一層挖掘,我們從133G的80端口進出數(shù)據(jù)中挖掘出360. 8萬條資源請求消息,說明用戶在上網(wǎng)活動中資源請求是相當頻繁的。

四、第二層挖掘

在第二層挖掘中,通過數(shù)據(jù)庫統(tǒng)計輔助處理,我們分析出360.8萬條Web資源訪問請求中存在的不同的獨立資源請求總計僅有193.5萬次,資源請求重復(fù)率高達46.36%,接近總訪問次數(shù)的一半。這種情況意味著針對類似校園網(wǎng)這種特殊網(wǎng)絡(luò)拓撲,在資源訪問過程中存在著相當高比例的重復(fù)請求事件,接近一半的數(shù)據(jù)在網(wǎng)絡(luò)上的傳輸屬于帶寬重復(fù)占用,這勢必造成一種巨大的資源浪費。其中同一資源訪問重復(fù)率最多的高達6.96萬次,相對次之的也有6.94萬次。

這種情況表明,校園網(wǎng)中集群用戶在網(wǎng)頁瀏覽和資源請求中會對同一Web頁面和該頁面關(guān)聯(lián)的資源進行重復(fù)訪問請求。這樣,進入類似校園網(wǎng)拓撲的資源數(shù)據(jù)流中就會多次出現(xiàn)同一資源。通過上面數(shù)據(jù)和圖表的觀察分析,這種重復(fù)性地資源傳輸所占據(jù)的比例是很高的,這必然會在一定程度上限制高速互聯(lián)網(wǎng)的發(fā)展。

五、第三層挖掘

通過以上兩層數(shù)據(jù)挖掘,已經(jīng)完成重復(fù)資源請求模型分析。在頁面重復(fù)訪問統(tǒng)計中,我們針對頁面重復(fù)訪問累計排名,可以從中挖掘出當前的熱點頁面,如圖2所示。通過資源熱度分析,可以幫助我們建立用戶興趣模型。不僅可以分析出當前熱點話題,而且還可以了解用戶興趣愛好,這樣將有利于幫助我們進行更高層的應(yīng)用挖掘。從媒體角度出發(fā),可以通過該興趣模型,將媒體的視角傾向于大眾的眼光。這樣,網(wǎng)絡(luò)的服務(wù)才能趨于完美,更關(guān)注網(wǎng)民的意愿。

圖2 熱點頁面分析

六、結(jié)語

在本文的分層數(shù)據(jù)包挖掘分析中,首先根據(jù)原始數(shù)據(jù)包結(jié)構(gòu)特征,完成數(shù)據(jù)包的層次結(jié)構(gòu)挖掘,最終形成重復(fù)Web資源粒度挖掘決策樹。在今后的研究中,將進一步優(yōu)化海量信息熱點挖掘算法,配合動態(tài)資源訪問策略解決校園網(wǎng)熱點信息重復(fù)資源訪問傳輸?shù)膯栴}。

[1]中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告. 2010年1月

[2]Miao Chen, Shun-hua Tan, Guo-hai Y,ang Yi-zhi Wang. Research on network business identification technology based on IP packets. IEEE ICACIA2010

[3]WANG Hui, SUN Zhi-gang, DAI Bin, HE Jun-feng, GONG Zheng-hu. Dynamic flow control mechanism in large-scale streaming media multicast systems.Journal on Communications 1000-436X(2010)10-0088-10

[4]Shunhua Tan, Miao Chen,Guohai Yang and Yizhi Wang;Research on Network Data Mining Techniques, 2011International Conference on Information and Industrial Electronics

10.3969/j.issn.1001-8972.2011.11.051

猜你喜歡
頁面數(shù)據(jù)挖掘資源
大狗熊在睡覺
刷新生活的頁面
基礎(chǔ)教育資源展示
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
一樣的資源,不一樣的收獲
資源回收
資源再生 歡迎訂閱
資源再生(2017年3期)2017-06-01 12:20:59
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
主站蜘蛛池模板: 国产中文一区a级毛片视频| www.av男人.com| 香蕉网久久| 免费一级毛片| 日韩亚洲高清一区二区| 在线观看视频99| 黄色网在线| 91视频青青草| 97青草最新免费精品视频| 亚洲精品无码专区在线观看| 香蕉色综合| 在线免费看黄的网站| 亚洲人成影院在线观看| 亚洲AV永久无码精品古装片| 19国产精品麻豆免费观看| 免费在线色| 亚洲中文字幕无码mv| 中文纯内无码H| 亚洲精品无码av中文字幕| 国产在线观看一区精品| 青青草国产在线视频| 国产理论一区| 欧美中出一区二区| 亚洲天堂日韩av电影| 国产97视频在线观看| 久久久亚洲国产美女国产盗摄| 免费看美女毛片| 一区二区理伦视频| 夜夜操国产| 日韩无码黄色网站| 精品久久久久久中文字幕女| 91久久偷偷做嫩草影院电| 青青青视频91在线 | 国产国语一级毛片| 97人妻精品专区久久久久| 韩日免费小视频| 国产好痛疼轻点好爽的视频| 亚洲国产综合自在线另类| 成人精品亚洲| 特级毛片8级毛片免费观看| 99re精彩视频| 欧美三级不卡在线观看视频| 欧美国产在线看| 在线日韩一区二区| 91麻豆国产精品91久久久| 亚洲色图欧美视频| 四虎AV麻豆| 免费在线观看av| 国产视频 第一页| 97国产精品视频自在拍| 高清亚洲欧美在线看| 无遮挡国产高潮视频免费观看| 免费黄色国产视频| 在线精品视频成人网| 久久中文无码精品| 免费看的一级毛片| 亚洲国产成人综合精品2020 | 国产h视频在线观看视频| 成人午夜天| 国产毛片一区| 日韩毛片在线播放| 国产福利拍拍拍| 亚洲日韩精品无码专区97| 好久久免费视频高清| 2020国产精品视频| 另类专区亚洲| 夜夜操天天摸| 夜色爽爽影院18禁妓女影院| 欧洲欧美人成免费全部视频 | 精品小视频在线观看| 欧洲熟妇精品视频| 91精品啪在线观看国产91| 国产成年女人特黄特色大片免费| 18禁黄无遮挡免费动漫网站| 午夜精品福利影院| 精品一区二区三区视频免费观看| jizz亚洲高清在线观看| 亚洲免费黄色网| 日本一本正道综合久久dvd| 欧美日本在线| 亚洲日韩精品综合在线一区二区 | 中文字幕av一区二区三区欲色|