999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

互聯網網頁去重技術問題研究

2014-04-29 00:44:03張紅霞郭小粉
中國電子商情 2014年12期
關鍵詞:文本方法

張紅霞 郭小粉

引言:本文提出了一種基于關鍵詞提取的網頁去重算法。該算法考慮了文本的內容信息,其基本思路是:首先解析網頁,提取每篇網頁文檔的標題關鍵詞,以基于窗口搜索的方式尋找正文中與標題關鍵詞相關度高的其它關鍵詞以構成該項篇網頁文檔的關鍵詞集,并根據關鍵詞集中的所有關鍵詞為網頁文檔建立倒排表,文檔去重就是計算兩篇文檔的關鍵詞重疊率,如果重疊率高于某個閡值時,認為兩篇文檔內容重疊。該算法的優點是考慮了正文中與主題相關度高的非高頻詞,避免了僅使用統計值依賴高頻詞去重的缺陷。

一、算法

目前對于網頁去重的研究方法主要有基于聚類的方法、排除相同URL方法、基于特征碼的方法等。

(l)基于聚類的方法是基于網頁的文本內容進行的,它以6763個漢字作為向量的基,文本的漢字字頻就構成了代表網頁的向量。通過計算向量的夾角決定是否是相同網頁。這種方法的優點是簡單,容易實現。缺點就是對大規模網頁聚類的類別數目大,難以確定,計算量大;只利用字頻信息,沒有利用文本的結構信息;實時性差,對于新網頁需要重新聚類以決定是否重復。因此,在實際應用中難以適用。

(2)排除相同URL方法是各種元搜索引擎去重的主要方法。這種方法主要分析來自不同搜索引擎的網頁URL,相同的URL認為是相同的網頁,然后去重。這種方法的優點也是簡單,容易實現,可去除一部分相同的網頁。其缺點是只利用了URL信息未利用網頁的文本內容,不能對轉載造成的重復網頁去除。

(3)基于特征碼的方法是利用標點符號多數出現在網頁文本中的特點,以句號兩邊各五個漢字作為特征碼來唯一地標識網頁。因為特征碼的精確匹配可以與先進的檢索系統聯系起來,去重效率較高。

二、關鍵詞提取算法

本文提出的網頁去重算法是基于關鍵詞提取的去重算法,該算法考慮了文本的內容信息,其基本思路是:首先解析網頁,提取每篇網頁文檔的標題關鍵詞,以基于窗口搜索的方式尋找正文中與標題關鍵詞相關度高的其它關鍵詞,文檔去重就是計算兩篇文檔的關鍵詞重疊率,如果重疊率高于某個闌值時,認為兩篇文檔內容重疊。

概括地說,基于關鍵詞比較的網頁去重算法分三步實現:解析網頁,從每個網頁中提取標題和正文內容。以標題關鍵詞為種子點,以基于窗口搜索的方式查找正文中的關鍵詞。計算兩篇網頁文檔的關鍵詞重疊率以確認兩網頁是否重復。

(l)網頁解析。W亡b網頁與普通文本相似,但其有自身的特點,這為網頁分析提供了一些線索。

(2)搜索正文關鍵詞。對解析得出的標題和正文,首先經過分詞、去停用詞之后形成一系列的詞串,其中標題分詞后形成的詞串我們稱為標題關鍵詞集,正文分完詞后形成的詞串我們稱為正文詞集。采用基于窗口搜索的方式尋找正文詞集中與標題關鍵詞集相關度高的詞(稱為正文關鍵詞)。基于窗口搜索的方式搜索正文關鍵的思路是:正文中如果幾個詞經常與標題關鍵詞在同一窗口中共同出現,則認為它們與標題關鍵詞在表達該文檔上相關度很高,即它們是正文關鍵詞。將所有的標題關鍵詞和正文關鍵詞統稱為該網頁文檔的關鍵詞。

(3)計算關鍵詞重疊率。文檔去重的過程就是比對兩篇文檔的所有關鍵詞,為了避免文檔間的兩兩對比,本文通過建立關鍵詞倒排表,文檔中的每一個關鍵詞都在關鍵詞倒排表中查詢出現的文檔號,并求交集。

三、實驗結果

實驗所用的數據是四大門戶網站(sina,sohu,163,263)的娛樂體育新聞,為了驗證上述算法,本文分別采用文獻叫中算法(以下稱Forman算法)、文獻中的算法(以下稱lyer算法)和本文算法從去重效果和速度兩個方面做了比較。

評價去重效果時有兩種情況:一種將不相同的兩篇文檔判定為相同文檔,本文稱為混淆錯誤 CE(Confused Error),另一種是將相同的兩篇文檔判定為不相同,本文將這種判定錯誤稱為排斥錯誤 EE(Exclusive Error)。

混淆錯誤率計算公式:

四、實驗結果分析

Forman算法是基于文檔內容進行對比的方法,當文檔中相同的文檔塊經hash映射后(這里采用MDS)相同的個數超過一定范圍則認為文檔相似,否則不相似。實驗中如果兩篇文檔分塊后做hash,如果80%的哈希值相同,則認為這兩篇文檔是重復文檔。Iyer算法是基于關鍵詞提取的用于論文剽竊檢測的算法,同樣認為樹結構中有80%的哈希值相同,則認為兩篇文檔是重復文檔。

從表2中可以看出,Forman算法的混淆錯誤率很低,因為該算法對文檔相似的檢驗很嚴格,排斥錯誤率高是由于只根據語句判定相似,而沒有考慮文本所表達的含義。Iyer算法混淆錯誤率較低,排斥錯誤率高的原因是當樹的上層剪枝錯誤時去重算法失效。本文算法混淆錯誤率比Forman算法和Iyer算法高的原因是還存在不同的文檔判定為相同文檔的可能性,但由于本文算法在提取關鍵詞充分考慮了文檔正文所表達的含義,排斥錯誤率低。從綜合評價指標F來看本文算法比其它兩種算法效果更好。

為了對上述方法進行運行速度的比較,本文建立了大小為124個文檔,1191個文檔和10287個文檔三個數據集。表3為去重判定時間比較。

從表3中可以看出,Forman算法運行所需時間最多,因為所有的文檔都要進行分段后計算哈希值,計算后還要進行哈希值比較,因此耗時多。Iyer算法雖然對文檔中每句話都抽取關鍵詞,但是由于組成樹狀結構,比對過程中可以剪枝,因此速度稍快。本文算法以標題中的詞為種子點只考慮與標題詞相關的詞生成的詞匯集,去掉大量與主題無關的信息,因此速度較快。從實驗結果可看出,在去重效果和運行速度上本文算法都具有一定的優勢。

參考文獻

[1]張海軍,潘偉民,木妮娜,欒靜. 一種自定義順序的字符串排序算法[J]. 小型微型計算機系統.2012(09).

(作者單位:河南農業職業學院)

猜你喜歡
文本方法
初中群文閱讀的文本選擇及組織
甘肅教育(2020年8期)2020-06-11 06:10:02
在808DA上文本顯示的改善
學習方法
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
論《柳毅傳》對前代文本的繼承與轉化
人間(2015年20期)2016-01-04 12:47:10
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
捕魚
主站蜘蛛池模板: 久久国产精品国产自线拍| 四虎国产在线观看| 香蕉久久国产超碰青草| 亚洲日韩精品欧美中文字幕 | 性色在线视频精品| 亚洲第一综合天堂另类专| 免费毛片全部不收费的| 精品国产香蕉伊思人在线| 亚洲欧美自拍中文| 久久一本日韩精品中文字幕屁孩| 欧美精品高清| 亚洲日本在线免费观看| 国产拍揄自揄精品视频网站| 宅男噜噜噜66国产在线观看| 欧美自慰一级看片免费| 色天堂无毒不卡| 久久精品无码中文字幕| 好吊妞欧美视频免费| 综合亚洲色图| 亚洲高清在线播放| 亚洲综合第一区| 国产9191精品免费观看| 99尹人香蕉国产免费天天拍| 国产AV无码专区亚洲精品网站| 免费毛片视频| 一级一级一片免费| yjizz国产在线视频网| 一级爱做片免费观看久久| 欧美精品三级在线| 在线观看av永久| 九色最新网址| 国产精品19p| 中文字幕色站| 久久99这里精品8国产| 亚洲av无码久久无遮挡| 尤物亚洲最大AV无码网站| 老司国产精品视频91| 精品国产香蕉在线播出| 亚洲国产综合自在线另类| 欧美国产中文| 色综合五月婷婷| 国产成人久久777777| 青青草原偷拍视频| 亚洲国产精品成人久久综合影院| 国产成人禁片在线观看| 亚洲AV色香蕉一区二区| 国产精品色婷婷在线观看| 亚洲成a人片77777在线播放| 日韩精品少妇无码受不了| 99热国产这里只有精品9九| 四虎成人精品| 国产香蕉97碰碰视频VA碰碰看 | 国产成人精品男人的天堂下载 | 欧美亚洲国产日韩电影在线| 三区在线视频| 亚州AV秘 一区二区三区| 一级成人a毛片免费播放| 久久综合九色综合97婷婷| 国产91精品调教在线播放| 99热最新网址| 国产精品3p视频| 亚洲另类色| 超清无码熟妇人妻AV在线绿巨人| 亚洲黄色高清| 国产亚洲欧美在线中文bt天堂| 亚洲无线国产观看| 小蝌蚪亚洲精品国产| 亚洲成aⅴ人在线观看| 这里只有精品在线播放| 伊人国产无码高清视频| 成人久久18免费网站| 日韩精品无码免费专网站| 亚洲人成网7777777国产| 啪啪啪亚洲无码| 日韩中文字幕免费在线观看 | 国国产a国产片免费麻豆| 91亚洲免费| 一级毛片免费播放视频| 久久亚洲国产视频| 亚洲中文字幕97久久精品少妇| 国产综合欧美| 免费在线国产一区二区三区精品|