999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高效識(shí)別用戶(hù)上網(wǎng)行為和提高大數(shù)據(jù)準(zhǔn)確性的研究

2016-08-29 07:08:45李艷霞張海波
關(guān)鍵詞:用戶(hù)檢測(cè)方法

張 穎, 李艷霞, 郭 新, 張海波

(1. 北京服裝學(xué)院 計(jì)算機(jī)信息中心, 北京 100029; 2. 清華大學(xué) 信息化技術(shù)中心, 北京 100084;3. 北京城市學(xué)院 實(shí)驗(yàn)室管理中心, 北京 100083)

?

高效識(shí)別用戶(hù)上網(wǎng)行為和提高大數(shù)據(jù)準(zhǔn)確性的研究

張穎1, 李艷霞2, 郭新3, 張海波1

(1. 北京服裝學(xué)院 計(jì)算機(jī)信息中心, 北京100029; 2. 清華大學(xué) 信息化技術(shù)中心, 北京100084;3. 北京城市學(xué)院 實(shí)驗(yàn)室管理中心, 北京100083)

針對(duì)網(wǎng)絡(luò)產(chǎn)生的大量用戶(hù)上網(wǎng)行為記錄數(shù)據(jù),探討如何在海量數(shù)據(jù)中提取有用的信息,為學(xué)校領(lǐng)導(dǎo)提供決策支持和科學(xué)依據(jù)。提出了建立網(wǎng)絡(luò)行為特征和AC算法檢測(cè)模型來(lái)識(shí)別網(wǎng)絡(luò)用戶(hù)上網(wǎng)行為的方法,該方法通過(guò)檢測(cè)模型識(shí)別服務(wù)器響應(yīng)的content-type類(lèi)型,判斷其是否為提前預(yù)設(shè)的類(lèi)型,如果是則將其標(biāo)注為有效訪問(wèn)。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效識(shí)別用戶(hù)實(shí)際點(diǎn)擊訪問(wèn)網(wǎng)站行為,為學(xué)校大數(shù)據(jù)分析提供準(zhǔn)確的數(shù)據(jù)來(lái)源,進(jìn)而能夠?yàn)閷W(xué)校領(lǐng)導(dǎo)者的決策提供有力的支持。

大數(shù)據(jù)分析; 用戶(hù)上網(wǎng)行為; AC算法

隨著信息技術(shù)的不斷發(fā)展,人們?cè)谙硎芫W(wǎng)絡(luò)帶來(lái)的方便的同時(shí),也產(chǎn)生了大量用戶(hù)上網(wǎng)的行為記錄,如何對(duì)用戶(hù)的上網(wǎng)行為進(jìn)行統(tǒng)計(jì)和分析,從這些海量的數(shù)據(jù)中提取企業(yè)和學(xué)校關(guān)心的數(shù)據(jù),是一個(gè)比較困難的問(wèn)題。現(xiàn)有的商業(yè)軟件還無(wú)法有效識(shí)別出某個(gè)HTTP請(qǐng)求是由用戶(hù)訪問(wèn)網(wǎng)站發(fā)起,還是在用戶(hù)訪問(wèn)中由瀏覽器自動(dòng)發(fā)起的。例如,用戶(hù)通過(guò)使用瀏覽器訪問(wèn)北京服裝學(xué)院網(wǎng)站(www.bift.edu.cn)的過(guò)程中,HTTP請(qǐng)求有近100個(gè),其中只有1個(gè)HTTP請(qǐng)求是由用戶(hù)訪問(wèn)該網(wǎng)站產(chǎn)生的,其余的HTTP請(qǐng)求是瀏覽器為了下載和顯示該網(wǎng)站上的圖片等信息自動(dòng)發(fā)起的。如何識(shí)別出用戶(hù)訪問(wèn)網(wǎng)站產(chǎn)生的HTTP請(qǐng)求,對(duì)分析用戶(hù)訪問(wèn)網(wǎng)站的行為至關(guān)重要。

然而,目前還沒(méi)有一種成熟且有效的技術(shù)能夠?qū)崿F(xiàn)這一功能。有的軟件通過(guò)檢測(cè)返回的Referer字段和統(tǒng)計(jì)次數(shù)來(lái)識(shí)別用戶(hù)的實(shí)際點(diǎn)擊行為,但是每個(gè)瀏覽器對(duì)HTTP協(xié)議的實(shí)現(xiàn)有一些差別。目前已經(jīng)發(fā)現(xiàn),IE6的瀏覽器Referer的值是可以被篡改的。對(duì)于新版瀏覽器,雖然無(wú)法纂改Referer值,但部分用戶(hù)基于隱式權(quán)的需要,可以設(shè)置瀏覽器發(fā)送的請(qǐng)求不包含Referer信息[1]。這些用戶(hù)在訪問(wèn)時(shí)會(huì)被誤認(rèn)為實(shí)際的點(diǎn)擊請(qǐng)求,從而造成識(shí)別準(zhǔn)確率低的問(wèn)題。

文獻(xiàn)[2]提出了上網(wǎng)行為檢測(cè)方法,該方法只能針對(duì)FireFox,Chrome,Safari這3種瀏覽器中的一種,根據(jù)預(yù)設(shè)的Accecpt頭進(jìn)行的檢測(cè),該方法雖然檢測(cè)出的結(jié)果精確,但是只能對(duì)以上的3種瀏覽器進(jìn)行檢測(cè),有較大的局限性。

針對(duì)這一問(wèn)題,筆者提出了基于AC算法的識(shí)別網(wǎng)絡(luò)用戶(hù)上網(wǎng)行為的方法。該方法通過(guò)識(shí)別基于HTTP協(xié)議響應(yīng)的content-type類(lèi)型是否為提前預(yù)設(shè)的類(lèi)型,采用網(wǎng)絡(luò)行為特征和AC多模匹配算法建立檢測(cè)模型,利用該模型對(duì)用戶(hù)實(shí)際點(diǎn)擊進(jìn)行標(biāo)注,從而比較準(zhǔn)確地識(shí)別出用戶(hù)的實(shí)際點(diǎn)擊訪問(wèn)網(wǎng)站行為,大大減少了訪問(wèn)網(wǎng)站時(shí)由于瀏覽器自動(dòng)發(fā)出大量HTTP請(qǐng)求造成的識(shí)別干擾,方便網(wǎng)管人員進(jìn)行統(tǒng)計(jì)。

1 HTTP用戶(hù)實(shí)際點(diǎn)擊網(wǎng)絡(luò)行為分析

基于HTTP協(xié)議的用戶(hù)實(shí)際點(diǎn)擊行為,可使用服務(wù)器響應(yīng)標(biāo)頭中的content-type類(lèi)型進(jìn)行檢測(cè)判斷。content-type是HTTP協(xié)議header中一個(gè)重要的參數(shù),它用于標(biāo)識(shí)發(fā)送或接收到的數(shù)據(jù)的類(lèi)型,瀏覽器根據(jù)該參數(shù)來(lái)決定數(shù)據(jù)的打開(kāi)方式。

html是一切網(wǎng)頁(yè)語(yǔ)言的基礎(chǔ),當(dāng)前流行的jsp、asp、php文檔都以html為基礎(chǔ),只是用程序代碼動(dòng)態(tài)輸出html代碼,特點(diǎn)是同一文檔根據(jù)不同情況可以輸出不同的html代碼。jsp、asp、php文檔都要經(jīng)過(guò)編譯后生成html代碼,也就是我們?cè)跒g覽器中看到的結(jié)果[3]。基于這個(gè)特性,可以認(rèn)定用戶(hù)實(shí)際點(diǎn)擊網(wǎng)頁(yè)響應(yīng)的content-type類(lèi)型,絕大多數(shù)都是“text/html”。當(dāng)然,如果某個(gè)網(wǎng)頁(yè)中有嵌套的iframe等情況,這時(shí)一個(gè)網(wǎng)頁(yè)中可能存在多個(gè)“text/html”,因而雖然實(shí)際用戶(hù)只點(diǎn)擊了一次網(wǎng)站,通過(guò)該方法檢測(cè)出的結(jié)果可能就出現(xiàn)多條檢測(cè)記錄,這是該方法的一個(gè)弊端。

2 方法模型

2.1模型概述

該方法包括以下步驟:dev設(shè)備對(duì)HTTP的服務(wù)器響應(yīng)報(bào)文做DPI[4]檢測(cè),提取其中的content-type類(lèi)型;通過(guò)AC多模匹配算法,快速、高效地檢測(cè)出該類(lèi)型是否為預(yù)先設(shè)置的類(lèi)型(例如“text/html”等可以明確判斷是客戶(hù)端實(shí)際點(diǎn)擊行為),如果匹配成功,則將該HTTP請(qǐng)求標(biāo)記為用戶(hù)訪問(wèn)網(wǎng)站行為,將相關(guān)的URL搜集以報(bào)文方式發(fā)送給數(shù)據(jù)中心。數(shù)據(jù)中心的管理員再根據(jù)相應(yīng)的需求對(duì)URL進(jìn)行統(tǒng)計(jì)分析,得出哪些網(wǎng)站用戶(hù)的關(guān)注度高,從而為學(xué)校的發(fā)展提供有力的決策支持。方法模型如圖1所示。

圖1 方法模型圖

2.2AC多模匹配算法

早在1975年,貝爾實(shí)驗(yàn)室的兩位研究人員Alfred V. Aho 和Margaret J. Corasick就提出了以他們的名字命名的高效匹配算法——AC算法。

該算法的基本思想是:

(1) 在預(yù)處理階段,AC自動(dòng)機(jī)算法建立3個(gè)函數(shù)——轉(zhuǎn)向函數(shù)goto、失效函數(shù)failure和輸出函數(shù)output,由此構(gòu)造了一個(gè)樹(shù)型有限自動(dòng)機(jī);

(2) 在搜索查找階段,通過(guò)這3個(gè)函數(shù)的交叉使用掃描文本,定位出在文本中所有出現(xiàn)的位置;

(3) 此算法有兩個(gè)特點(diǎn),一是掃描文本時(shí)完全不需要回溯,二是時(shí)間復(fù)雜度為O(n),時(shí)間復(fù)雜度與的數(shù)目和長(zhǎng)度無(wú)關(guān)。

多模式匹配AC算法的核心仍然是尋找模式串內(nèi)部規(guī)律,達(dá)到在每次失配時(shí)的高效跳轉(zhuǎn)。這一點(diǎn)與單模式匹配KMP算法和BM算法是一致的。不同的是,AC算法尋找的是模式串之間的相同前綴關(guān)系。

AC算法有限狀態(tài)自動(dòng)機(jī)的存儲(chǔ)占用了大量的內(nèi)存資源,降低了算法的cache性能,巨大的存儲(chǔ)開(kāi)銷(xiāo)是影響AC算法性能的重要因素。一些研究者基于優(yōu)化AC有限狀態(tài)自動(dòng)機(jī)存儲(chǔ)空間,提出了相關(guān)的改進(jìn)方法,以提升AC算法的性能[5-9]。

3 實(shí)例分析

以用戶(hù)在瀏覽器地址欄輸入北京服裝學(xué)院網(wǎng)址www.bift.edu.cn,訪問(wèn)北京服裝學(xué)院主頁(yè)為例,鍵入回車(chē)后可以看到圖2所示內(nèi)容。瀏覽器共發(fā)起了98個(gè)HTTP請(qǐng)求,其中絕大多數(shù)是圖片(content-type類(lèi)型為img/*)、腳本(content-type類(lèi)型為application/javascript)、樣式表(content-type類(lèi)型為text/css),實(shí)際上只有第一個(gè)請(qǐng)求是用戶(hù)發(fā)起的請(qǐng)求,content-type類(lèi)型為text/html,此時(shí)把這個(gè)請(qǐng)求給記錄下來(lái)才是有效的數(shù)據(jù)。

圖2 學(xué)校主頁(yè)請(qǐng)求信息

但是對(duì)于復(fù)雜的頁(yè)面,例如包含了子頁(yè)面的情況,訪問(wèn)父頁(yè)面會(huì)帶來(lái)對(duì)子頁(yè)面的加載訪問(wèn),這時(shí)也會(huì)產(chǎn)生HTTP請(qǐng)求,content-type類(lèi)型仍為text/html,因?yàn)榇朔治龇椒ㄒ蕾?lài)于特定的content-type類(lèi)型,這里很明顯對(duì)于子頁(yè)面的訪問(wèn)非用戶(hù)的點(diǎn)擊行為,會(huì)生成干擾數(shù)據(jù),影響后續(xù)的行為分析。

如繼續(xù)使用上述例子,點(diǎn)擊首頁(yè)的“校園內(nèi)網(wǎng)”,如圖3所示。

圖3 校園內(nèi)網(wǎng)請(qǐng)求信息

除了第一個(gè)HTTP請(qǐng)求content-type類(lèi)型為text/html外,后續(xù)還有若干個(gè)請(qǐng)求的類(lèi)型也為text/html,如圖4所示。

圖4 校園內(nèi)網(wǎng)后續(xù)請(qǐng)求信息

可見(jiàn),這次用戶(hù)點(diǎn)擊行為生成的訪問(wèn)記錄有很大部分為干擾記錄。

對(duì)于上述問(wèn)題,可以在針對(duì)單一Web應(yīng)用的場(chǎng)景下抑制無(wú)效記錄的產(chǎn)生,如開(kāi)發(fā)Web應(yīng)用時(shí),對(duì)子頁(yè)面的URL進(jìn)行規(guī)劃,例如包含特定的字符標(biāo)記,如果有此類(lèi)URL訪問(wèn)記錄被記錄下來(lái),則根據(jù)預(yù)先的字符標(biāo)記,可以過(guò)濾掉此類(lèi)無(wú)效記錄。

4 實(shí)際應(yīng)用

對(duì)于HTTP訪問(wèn)記錄的初步過(guò)濾,可以在DPI設(shè)備上采用錨定的AC算法快速匹配content-type,此算法在只關(guān)注content-type某幾種類(lèi)型(如text/html、application/binary)的情況下,不需要進(jìn)行傳統(tǒng)的AC算法匹配需要做的失敗態(tài)躍遷,時(shí)間復(fù)雜度為O(1),此處為通用處理,面向互聯(lián)網(wǎng)的場(chǎng)景和面向特定Web應(yīng)用的場(chǎng)景均適用,但是存在無(wú)法過(guò)濾非真實(shí)用戶(hù)訪問(wèn)記錄的問(wèn)題。

對(duì)于單一Web應(yīng)用,可以采用針對(duì)URL的特定字符標(biāo)記進(jìn)行二次過(guò)濾(也可以在DPI設(shè)備上實(shí)現(xiàn)),就能得到準(zhǔn)確的訪問(wèn)記錄。可以根據(jù)PV量的大小,采用簡(jiǎn)單的SQL或是Hadoop大數(shù)據(jù)在線/離線分析[10]過(guò)濾等,統(tǒng)計(jì)URL被訪問(wèn)的情況,生成圖形化報(bào)表,從而分析用戶(hù)上網(wǎng)行為,為熱點(diǎn)推送、運(yùn)維數(shù)據(jù)決策等用戶(hù)定制化服務(wù)提供數(shù)據(jù)支持。

當(dāng)然,從降低實(shí)現(xiàn)部署成本角度出發(fā),也可以基于傳統(tǒng)的X86硬件+Linux+開(kāi)源WebServer+各類(lèi)開(kāi)源軟件實(shí)現(xiàn),軟硬件成本更低,不需要網(wǎng)絡(luò)設(shè)備介入,對(duì)于每個(gè)URL訪問(wèn)都進(jìn)行記錄。例如開(kāi)源WebServer nginx,是一個(gè)高性能的HTTP和反向代理服務(wù)器,也是一個(gè)IMAP/POP3/SMTP代理服務(wù)器[11]。可以記錄每個(gè)訪問(wèn),包括時(shí)間、URL、content-type等,之后只需要在線/離線分析記錄即可,并且對(duì)于大數(shù)據(jù)量記錄的分析,使用nginx可以使服務(wù)器的性能提高50%以上[12]。不論使用哪種方式,最終的分析效果是一致的。

5 結(jié)論

基于AC算法不拘泥于瀏覽器的類(lèi)型,在面向互聯(lián)網(wǎng)的場(chǎng)景中能有效識(shí)別用戶(hù)的上網(wǎng)行為,但存在一定局限性;在面向特定Web應(yīng)用的場(chǎng)景中效果較好,能精確識(shí)別用戶(hù)上網(wǎng)行為,但是依賴(lài)于對(duì)Web應(yīng)用使用的URL作事前規(guī)劃,有一定局限性;實(shí)現(xiàn)部署可以采用專(zhuān)用軟硬件,也可以采用通用硬件+開(kāi)源軟件的方案以降低部署成本。高效識(shí)別用戶(hù)上網(wǎng)行為能夠?yàn)槠髽I(yè)大數(shù)據(jù)分析提供準(zhǔn)確的數(shù)據(jù)來(lái)源,為企業(yè)領(lǐng)導(dǎo)者的決策提供有力的支持。

References)

[1] 陳春艷.跨站請(qǐng)求偽造攻擊的基本原理與防范[J].電腦知識(shí)與技術(shù),2014(5):902-904.

[2] 陳釗毅,袁偉.一種識(shí)別用戶(hù)實(shí)際點(diǎn)擊訪問(wèn)網(wǎng)站行為的方法及系統(tǒng):201210047328[p].2012-08-08.

[3] Jackson J C. web技術(shù)[M].北京:清華大學(xué)出版社,2007.

[4] 李云波.基于深度包檢測(cè)技術(shù)入侵檢測(cè)系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].沈陽(yáng):東北大學(xué),2009.

[5] Aho A V,Corasick Mar J. Efficient string matching: an aid to bibliog raphic search [J]. Communications of the ACM,1975,18(6):333-340.

[6] Yu Jianming, Xue Yibo, Li Jun. Memory efficient string matching alg orithm for netw ork intrusion management system[J] . Tsinghua Science and Technolog y, 2007, 12(5):585-593.

[7] 徐紅,秦志光.一種面向入侵檢測(cè)的改進(jìn)AC算法[J].微電子學(xué)與計(jì)算機(jī),2010(11):109-112.

[8] 盧汪節(jié),鞠時(shí)光.入侵檢測(cè)系統(tǒng)中一種改進(jìn)的AC算法[J].計(jì)算機(jī)工程與應(yīng)用,2006(15):146-148.

[9] Hou Zhengfeng, Shu Yindong, Han Jianghong, et al. The Study and Improvement of AC_BM Multi-pattern Matching Algorithm[J].Energy Procedia,2011(13):36-42.

[10] 喬媛媛.基于Hadoop的網(wǎng)絡(luò)流量分析系統(tǒng)的研究與應(yīng)用[D].北京:北京郵電大學(xué),2014.

[11] 吳迪,徐國(guó)勝.一種基于Nginx的安全設(shè)備代理方案[C]//中國(guó)通信學(xué)會(huì).第九屆中國(guó)通信學(xué)會(huì)學(xué)術(shù)年會(huì)論文集.北京:中國(guó)通信學(xué)會(huì),2012.

[12] 喬鑫.Nginx:新一代web服務(wù)器軟件[J].科技浪潮,2009(1):11-12.

Research on effective recognition of user’s actual click behavior to improve accuracy of large data

Zhang Ying1, Li Yanxia2, Guo Xin3, Zhang Haibo1

(1. Computer Information Center, Beijing Institute of Fashion Technology, Beijing 100029, China;2. Information Technology Center, Tsinghua University, Beijing 100084, China;3. Laboratory Management Center, Beijing City University, Beijing 100083, China)

How to extract useful data from these massive amounts of data and provide support and scientific basis for the management of the school have become a problem. Therefore, the method of establishing the network behavior characteristic and using AC algorithm to detect model is proposed, which can identify the behavior of Internet users. The method identifies the content-type of the server response by the model, and judges whether the returned type is a preset type, and if so, it is marked as an effective access. Experimental results show that the proposed method can effectively identify the user’s actual Internet behavior, it can provide accurate data source for the school big data analysis, and then can provide the strong support for the school leader’s decision.

big data analysis; user actual click behavior; AC algorithm

DOI:10.16791/j.cnki.sjg.2016.04.041

2015- 09- 29

北京服裝學(xué)院科學(xué)研究項(xiàng)目(2014A-08)資助

張穎(1980—),女,山東煙臺(tái),碩士,助理研究員,研究方向?yàn)樾@信息化建設(shè).

E-mail:jsjzhy@bift.edu.cn

TP311

A

1002-4956(2016)4- 0153- 03

猜你喜歡
用戶(hù)檢測(cè)方法
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
關(guān)注用戶(hù)
關(guān)注用戶(hù)
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
關(guān)注用戶(hù)
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚(yú)
主站蜘蛛池模板: 亚洲欧洲自拍拍偷午夜色| 亚洲男人的天堂久久香蕉| 99这里只有精品免费视频| 国产乱子伦视频三区| 99re免费视频| 欧美在线精品怡红院| 色欲国产一区二区日韩欧美| 国产成人区在线观看视频| 国产亚洲欧美日本一二三本道| 亚洲一区无码在线| 中文字幕人妻无码系列第三区| 天天躁夜夜躁狠狠躁图片| 青草精品视频| 国产又色又爽又黄| 99视频在线精品免费观看6| 被公侵犯人妻少妇一区二区三区| 久操线在视频在线观看| 亚洲91精品视频| 亚洲一区二区三区中文字幕5566| 2020最新国产精品视频| 国产婬乱a一级毛片多女| 一级香蕉人体视频| 为你提供最新久久精品久久综合| 亚卅精品无码久久毛片乌克兰| 国产精品性| 91香蕉国产亚洲一二三区| 在线日本国产成人免费的| 国产理论最新国产精品视频| 国产成人精品日本亚洲77美色| 久久人体视频| 国模极品一区二区三区| 亚洲AⅤ综合在线欧美一区| 欧美日韩在线第一页| 久久99久久无码毛片一区二区| 精品伊人久久久大香线蕉欧美| 国产00高中生在线播放| 一本色道久久88| 2020精品极品国产色在线观看| 日韩国产黄色网站| 91系列在线观看| 国产成人综合在线观看| 欧美国产精品不卡在线观看 | 国产欧美高清| 欧美日在线观看| 无码有码中文字幕| 国产精品13页| 国产精品第一区| 巨熟乳波霸若妻中文观看免费 | 亚洲天堂2014| 91免费国产高清观看| 免费国产好深啊好涨好硬视频| 99在线视频免费| 国产偷倩视频| 99久久精品免费观看国产| 精品免费在线视频| 九九热在线视频| 亚洲视频a| 91香蕉国产亚洲一二三区| 日本欧美中文字幕精品亚洲| 色偷偷综合网| 欧美成人午夜影院| 91国内视频在线观看| 欧美另类视频一区二区三区| 91久久国产综合精品| 午夜啪啪网| 日韩精品毛片人妻AV不卡| 毛片大全免费观看| 久久99国产综合精品1| 中文字幕调教一区二区视频| 91小视频在线播放| 国产拍在线| 久久毛片网| 亚洲精品爱草草视频在线| 国产情精品嫩草影院88av| 女人一级毛片| 青青草原国产| 国产成人亚洲毛片| 亚洲无限乱码一二三四区| 亚洲日韩高清无码| 色婷婷综合激情视频免费看| 国产精品尹人在线观看| 午夜福利视频一区|