999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

一種針對(duì)天貓購物平臺(tái)的網(wǎng)頁URL去重策略研究

2018-06-22 08:21:46舒遠(yuǎn)仲

◆舒遠(yuǎn)仲 梁 濤 王 娟

一種針對(duì)天貓購物平臺(tái)的網(wǎng)頁URL去重策略研究

◆舒遠(yuǎn)仲 梁 濤 王 娟

(南昌航空大學(xué)信息工程學(xué)院 江西 330063)

本文在分析了Bloom Filter缺點(diǎn)的基礎(chǔ)上,結(jié)合天貓購物平臺(tái)網(wǎng)頁URL的特征,對(duì)網(wǎng)頁URL去重策略進(jìn)行了改進(jìn),以此來提高網(wǎng)頁URL去重效果及減小Bloom Filter誤判率。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的去重策略在針對(duì)天貓購物平臺(tái)網(wǎng)頁URL去重時(shí),準(zhǔn)確度上要優(yōu)于傳統(tǒng)的Bloom Filter。

布隆過濾器;網(wǎng)頁URL去重;哈希處理;誤判率;天貓

0 引言

隨著互聯(lián)網(wǎng)的快速發(fā)展以及網(wǎng)絡(luò)購物平臺(tái)的興起,越來越多的人加入到“網(wǎng)購大軍”中。以2016年“雙十一”為例,據(jù)第三方數(shù)據(jù)公司星圖數(shù)據(jù)11月12日發(fā)布的《星圖數(shù)據(jù)1112:雙十一網(wǎng)購大數(shù)據(jù)分析報(bào)告》[1]顯示,2016年雙十一全網(wǎng)總銷售額為1770.4億元,其中化妝品類銷售總額為212.4億元,占全網(wǎng)銷售總額的12.0%。由此也帶來了一些的問題:部分商家銷售假冒偽劣產(chǎn)品,使得消費(fèi)者權(quán)益受到侵害。因此,相關(guān)部門需要采取相應(yīng)措施對(duì)網(wǎng)售商品進(jìn)行監(jiān)督管理。

網(wǎng)購平臺(tái)的商品具有海量 、增長(zhǎng)迅速、更新頻繁的特點(diǎn),在給消費(fèi)者提供更多選擇的同時(shí),也給監(jiān)管部門帶來了巨大的挑戰(zhàn)。監(jiān)管部門需要獲取網(wǎng)售商品的信息,用于與基礎(chǔ)庫上的信息進(jìn)行比對(duì),從而達(dá)到監(jiān)管的目的。為了獲取商品信息,需要使用網(wǎng)絡(luò)爬蟲自動(dòng)抓取網(wǎng)頁并提取網(wǎng)頁內(nèi)容。通常在給定的一個(gè)或多個(gè)統(tǒng)一資源定位符URL(Uniform ResourceLocator)種子集情況下,從種子網(wǎng)頁開始采集,在抓取網(wǎng)頁的過程中,不斷將新的URL放進(jìn)待爬行的URL隊(duì)列中,直到滿足一定條件(如待爬行隊(duì)列為空、達(dá)到指定爬行數(shù)量)停止爬行[2]。如何選擇符合主題的URL,如何過濾已抓取過的信息對(duì)系統(tǒng)來說至關(guān)重要。

本文提出了針對(duì)上述問題的解決方案。以天貓網(wǎng)購平臺(tái)為例,針對(duì)其網(wǎng)頁URL的特點(diǎn),通過對(duì)URL去重方式的改進(jìn),使得網(wǎng)絡(luò)爬蟲能夠更準(zhǔn)確、更快速地抓取所需要的網(wǎng)頁。

1 天貓網(wǎng)購平臺(tái)網(wǎng)頁URL分析

天貓采用是動(dòng)態(tài)URL,即同一商品對(duì)應(yīng)的網(wǎng)頁可能存在多個(gè)URL。通過對(duì)這些URL的分析,找出它們之間的聯(lián)系,從而可以簡(jiǎn)化URL去重。如表1,選取多個(gè)URL實(shí)例來分析其特點(diǎn)。

表1 天貓網(wǎng)購平臺(tái)網(wǎng)頁URL實(shí)例

從表1中可以得出,同一店鋪同一產(chǎn)品可能對(duì)應(yīng)多個(gè)URL;不同店鋪同一產(chǎn)品對(duì)應(yīng)URL不同;同一店鋪不同產(chǎn)品對(duì)應(yīng)的URL也不一樣。但對(duì)各個(gè)URL具體分析后,可以發(fā)現(xiàn):每個(gè)URL中都含有參數(shù)id,對(duì)于同一店鋪同一產(chǎn)品,盡管對(duì)應(yīng)多個(gè)URL,但參數(shù)id的值是一致的;不同店鋪同一產(chǎn)品URL中的參數(shù)id的值不一樣;同一店鋪不同產(chǎn)品URL中的參數(shù)id的值不一樣。

2 布隆過濾器

布隆過濾器(Bloom Filter)是1970年由布隆提出來的。它實(shí)際上是一個(gè)很長(zhǎng)的二進(jìn)制向量和一系列隨機(jī)映射函數(shù)。布隆過濾器可以用于判斷一個(gè)元素是否存在于一個(gè)集合中。它的優(yōu)點(diǎn)是空間效率和查詢時(shí)間都遠(yuǎn)遠(yuǎn)超過一般的算法,缺點(diǎn)是有一定的誤識(shí)別率和刪除困難。布隆過濾器是一種空間利用率高的算法,特別適合于海量數(shù)據(jù)集的表示和查找,盡管存在一定的誤判率,但在海量信息搜集的系統(tǒng)中,不失為一種可行的解決方案[3-5]。

2.1布隆過濾器原理及判斷方法

如圖1所示,布隆過濾器原理如下:

圖1 布隆過濾器(Bloom Filter)原理

(1) 設(shè)數(shù)據(jù)集合S={S1,S2,S3,……,Sn},含有n個(gè)元素,為待操作的集合;

(2) Bloom Filter用一個(gè)長(zhǎng)度為m的位向量V來表示集合中元素,位向量初始化全為0;

(3) 選取k個(gè)相互獨(dú)立的哈希函數(shù)h1,h2,h3,……,hk;

(4) 用Bloom Filter表示集合S的所有元素。首先,對(duì)集合里的元素Si通過k個(gè)哈希函數(shù)產(chǎn)生k個(gè)哈希值h’1,h’2,h’3,……,h’k,將位向量V的h’1,h’2,h’3,……,h’k位上的值置為1。由于通過個(gè)哈希函數(shù)將位向量V相應(yīng)位置為1,多個(gè)集合元素進(jìn)行增加操作時(shí),可能會(huì)出現(xiàn)向量相應(yīng)位置已經(jīng)為1,此時(shí)不對(duì)相應(yīng)位的值進(jìn)行操作。

在判斷一個(gè)元素X是否屬于該集合時(shí),我們只需要對(duì)X使用相同的k個(gè)哈希函數(shù)得到k個(gè)哈希值,如果位向量V上對(duì)應(yīng)位置上的k個(gè)值全為1,那么我們就認(rèn)為該元素存在于該集合中;反之,我們就認(rèn)為該元素不存在于該集合。如圖2所示,元素X1是該集合的元素,X2不是該集合的元素。

圖2 判斷元素是否屬于該集合

顯然,這個(gè)判斷并不能保證結(jié)果100%的正確。當(dāng)我們判斷一個(gè)元素元素不屬于該集合時(shí),這個(gè)判斷是100%正確的,但當(dāng)我們判斷一個(gè)元素屬于該集合時(shí),這個(gè)判斷可能是個(gè)誤判[6-8]。

2.2布隆過濾器的缺點(diǎn)及誤判率

雖然布隆算法的空間效率及查詢時(shí)間都遠(yuǎn)遠(yuǎn)超過其他算法,但是布隆過濾器還是存在缺點(diǎn)。

(1)Bloom Filter存在一定的誤判率。對(duì)于已經(jīng)映射在集合中的元素,通過集合查找運(yùn)算一定可以判定該元素在集合中,但對(duì)于尚未映射到集合中的元素,可能存在誤判,即不在集合中的元素誤判為在集合中。

假設(shè)集合S中含有n個(gè)元素,需要使用k個(gè)哈希函數(shù)進(jìn)行處理,Bloom Filter長(zhǎng)度為m,則某一位被置為1的概率為1/m,為0的概率為(1-1/m)。所以在集合S中的元素全部用Bloom Filter表示后,某位仍為0的概率為:

則誤判的概率為

(2)Bloom Filter無法從Bloom Filter集合中刪除一個(gè)元素。因?yàn)橐粋€(gè)元素對(duì)應(yīng)的位可能與另一個(gè)元素對(duì)應(yīng)的位存在共同位。如圖3所示。

圖3 存在共同位的元素

元素X1、X2是同一集合的元素,當(dāng)刪除元素X1,即把元素X1對(duì)應(yīng)位置為0時(shí),X2對(duì)應(yīng)位則變?yōu)?11,此時(shí)元素X2被判斷為不在集合中。所以,一個(gè)簡(jiǎn)單的改進(jìn)方法就是使用計(jì)數(shù)型布隆過濾器(Counter Bloom Filter),在Bloom Filter 進(jìn)行集合元素添加操作時(shí),對(duì)相應(yīng)的向量位進(jìn)行加1操作。如圖4所示。

圖4 Counter Bloom Filter

3 網(wǎng)頁URL去重

針對(duì)天貓網(wǎng)頁URL的特點(diǎn)及Bloom Filter存在誤判率的缺點(diǎn),本文提出一種基于Bloom Filter的改進(jìn)的URL去重的策略。如圖5所示。

(1)抓取一個(gè)URL,分析判斷URL中是否含有參數(shù)id。對(duì)于不存在參數(shù)id的URL直接舍棄;

(2)提取參數(shù)id并對(duì)其進(jìn)行多個(gè)哈希處理;

(3)判斷處理后的id是否存在于布隆過濾器中,如果不存在,則直接將此URL放入待抓取URL隊(duì)列中,并將處理后的id添加到布隆過濾中,同時(shí)將id存儲(chǔ)到id數(shù)組中;

(4)如果處理后的id存在于布隆過濾器中,為了避免布隆過濾器的誤判,則判斷id是否存在于id數(shù)組中,如果不存在,則將此URL放入待抓取URL隊(duì)列中,同時(shí)將id存儲(chǔ)到id數(shù)組中;如果存在,則說明此商品URL已存在于待抓取URL隊(duì)列中,則舍棄該URL;

(5)初始化的id數(shù)組為空,插入數(shù)據(jù)時(shí)應(yīng)有序插入。這樣,對(duì)于查找判斷一個(gè)id是否存在于該數(shù)組時(shí)可使用二分法進(jìn)行,從而可以節(jié)省查找時(shí)間。

圖5 改進(jìn)后的URL去重策略

4 實(shí)驗(yàn)分析

由于進(jìn)行的是仿真實(shí)驗(yàn),通過采集天貓網(wǎng)頁URL,將URL緩存于內(nèi)存空間,分別使用傳統(tǒng)Bloom Filter與改進(jìn)后的Bloom Filter對(duì)URL進(jìn)行去重,比較兩者對(duì)于比較時(shí)間、準(zhǔn)確度上的區(qū)別。結(jié)果如圖6、圖7所示。

圖6 傳統(tǒng)與改進(jìn)后Bloom Filter去重的時(shí)間對(duì)比

圖7 傳統(tǒng)與改進(jìn)后Bloom Filter去重的準(zhǔn)確度對(duì)比

通過實(shí)驗(yàn)結(jié)果可以看出,在準(zhǔn)確度上,改進(jìn)后的Bloom Filter要優(yōu)于傳統(tǒng)Bloom Filter,在時(shí)間上,略慢于傳統(tǒng)Bloom Filter。

5 結(jié)束語

本文研究了Bloom Filter的基本工作原理,并對(duì)其在網(wǎng)頁URL去重中的應(yīng)用進(jìn)行改進(jìn),結(jié)果表明改進(jìn)后的策略去重準(zhǔn)確率提高。同時(shí),改進(jìn)后的策略在去重速度上仍有改進(jìn)的空間。

[1]星圖數(shù)據(jù).星圖數(shù)據(jù)1112:雙十一網(wǎng)購大數(shù)據(jù)分析報(bào)告EB/OL].http//www.syntun.com.cn/xing-tu-shu-ju1112- shuang-shi-yi-wang-gou-da-shu-ju-fen-xi-bao-gao.html,2016.

[2]黃正德.主題爬蟲關(guān)鍵技術(shù)研究[D].黑龍江:哈爾濱工程大學(xué),2013.

[3]蘇國榮,楊岳湘,鄧勁生.一種去除重復(fù)URL的算法[J].廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2010.

[4]黃誠.一種高速URL過濾算法的研究與應(yīng)用[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2016.

[5]劉佐達(dá),張久嶺,陳茂科,李星.一種面向BBS信息檢索的主題網(wǎng)絡(luò)爬蟲算法[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2010.

[6]張宗華,屈英,葉志佳等.基于多特征匹配和Bloom filter的重復(fù)數(shù)據(jù)刪除算法[J].深圳大學(xué)學(xué)報(bào)(理工版),2016.

[7]ZHANG Guo,ZHANG Jianhui,WANG Binqiang,ZHANG Zhen.On-line Popularity Monitoring Method Based on Bloom Filters and Hash tables for Differentiated Traffic[J].中國通信,2016.

[8]趙艷紅,李洪奇,朱麗萍等.基于Bloom Filter的去重方法研究[J].計(jì)算技術(shù)與自動(dòng)化,2016.

主站蜘蛛池模板: 欧美日韩国产精品综合| 欧美精品不卡| 玖玖精品在线| 91精品国产综合久久香蕉922 | 欧美a√在线| 欧美一区国产| 青青草91视频| 亚洲男女在线| 嫩草影院在线观看精品视频| 免费看的一级毛片| 都市激情亚洲综合久久| 国产成人精品一区二区免费看京| 99在线视频免费| 久久综合色天堂av| 国产自无码视频在线观看| 国产丝袜丝视频在线观看| 欧美三级自拍| 在线免费亚洲无码视频| 国产九九精品视频| 欧美日本激情| 欧美一区二区丝袜高跟鞋| 91香蕉视频下载网站| 国产丝袜无码精品| 91在线国内在线播放老师 | 中文字幕在线视频免费| 亚洲免费人成影院| 极品尤物av美乳在线观看| 草草线在成年免费视频2| 久久综合色播五月男人的天堂| 亚洲高清中文字幕| 日本不卡免费高清视频| 丁香亚洲综合五月天婷婷| 婷婷久久综合九色综合88| 亚洲av无码牛牛影视在线二区| 99久久人妻精品免费二区| 成人av手机在线观看| 亚洲第一网站男人都懂| 亚洲天堂免费| 欧美国产三级| 国内精品久久九九国产精品| 亚洲成人网在线观看| 国产在线第二页| 爆操波多野结衣| 亚洲热线99精品视频| 国产精品欧美激情| 国产不卡国语在线| 青青青草国产| 亚洲午夜福利精品无码不卡| 亚洲欧美不卡中文字幕| 99久久精品国产麻豆婷婷| 国产视频入口| 人妻中文字幕无码久久一区| 九色综合伊人久久富二代| 手机精品视频在线观看免费| 亚洲成a人片在线观看88| 人人91人人澡人人妻人人爽 | 国产精品亚洲综合久久小说| 国产新AV天堂| 波多野吉衣一区二区三区av| 亚洲视屏在线观看| 亚洲精品无码高潮喷水A| 天天综合网色中文字幕| 91在线一9|永久视频在线| 91美女在线| 日本不卡在线| 日韩精品毛片| 欧美丝袜高跟鞋一区二区| 国产一二三区在线| 全裸无码专区| 国产精品自拍露脸视频| 青青草国产在线视频| 自拍偷拍欧美日韩| 欧美第二区| 国产精品女熟高潮视频| 国产一线在线| 国产成人av大片在线播放| 在线视频亚洲色图| 久久6免费视频| 久热精品免费| 免费无码又爽又黄又刺激网站| 久久综合九九亚洲一区| 欧美乱妇高清无乱码免费|