標簽)分割而成的.所以本文將HTML頁面切割成塊集合B,再從塊集合B中選擇不包含噪聲信息,但包含完整正文內容的正文內容塊.5.1 塊節點密度特征
本文采用密度特征來判斷塊節點是否為正文內容塊,下面給出3個密度定義:
定義7.設n∈B為DOM樹Td中的一個塊節點,則n的文本密度定義為:
(2)
其中Tn為塊節點n包含的純文本字符數(不含鏈接文本),T為Td代表的整個文檔中的純文本字符數(不包含鏈接文本).
Ptext反映了在全局頁面中,文本內容在某個塊節點中的相對集中程度.我們發現Ptext越大,往往意味著該節點越有可能包含待發現的正文內容塊.
定義8.設n∈B為DOM樹Td中的一個塊節點,則n的鏈接密度定義為:
(3)
其中lNn為節點n中所包含的鏈接數,lN為Td代表的整個文檔中所包含的鏈接數.
Plink反映了在全局頁面中,鏈接在某個塊節點的相對集中程度.我們發現Plink越大,往往意味著該塊節點包含噪聲信息的可能性越大.
定義9.設n∈B為DOM樹Td中的一個塊節點,則n的節點文本密度定義為:
(4)
其中Tn為塊節點n的純文本字符數(不含鏈接文本),lTn為塊節點n的文本字符數(包含鏈接文本).
Ptextl反映了在某個節點的純文本集中程度.我們發現Ptextl越大,往往意味著該節點越有可能包含待發現的正文內容塊.
給出了3個密度度量后,可以定義塊節點的綜合密度特征值H(b):
(5)
其中b∈B表示該塊節點,size(b)表示該塊節點中子孫節點個數.p1,p2,p3分別代表節點的密度特征,取p1=ptext,p2=1-plink,p3=ptextl.α是調節塊節點b的子孫節點數量對H值影響的參數,在實驗中取α=0.3.當α設置過低時,選取的塊可能帶有噪音信息,當α設置過高時,利用綜合密度特征H可能選取錯誤的塊.
5.2 正文特征生成
通過4.1節我們可以得到網頁標記類集合M,在同一標記類中的網頁,正文內容塊的位置是相同的,所以在同一類網頁中通過密度特征選擇正文內容塊,再提取正文內容塊的特征作為該類網頁正文內容的抽取規則,如算法2所示.在網頁中塊的特征可以有三種表示方法,塊class屬性對應的值,塊id屬性對應的值和塊的路徑path.為了方便算法表示,本文給出了每個標記類中正文內容塊特征的定義,即每個標記類正文內容的抽取規則.
定義10.給定聚類結果中標記類的標記c={ci|ci=Ci.c},定義該標記類網頁正文內容塊的特征為一個三元組L(c)=,其中class表示正文內容塊b的class屬性對應的值,id表示正文內容塊b的id屬性對應的值,p表示正文內容塊的標簽路徑,p={p|p=p(b)且b∈B}.
將聚類的結果經過算法2可以得到每個標記類對應正文內容塊的特征L(c),即為該標記類網頁的正文內容提取規則.在L(c) 中記錄正文內容塊的三個特征,根據這三個特征可以從網頁中提取出正文內容塊.在一個Web網頁中并不是每個塊都有id和class屬性,所以在L(c)中,本文按優先級id>class>p依次進行提取,當id和class屬性不存在時用路徑p來提取正文內容塊.最后,從正文內容塊中提取出正文內容.

算法2.getBlock輸入:標記類集合M={C1,C2,…,Cn},表示聚類結果為n個標記類輸出:抽取規則集合N={L1,L2,…,Lk},表示n個標記類對應的k個正文內容塊特征集合,其中k<=n.BeginForeachCi∈MthenBF←?//BF={,,…,} Foreachw∈Ci.Wthen 將網頁w轉化為DOM樹結構,提取網頁中的塊集合B 計算塊b∈B對應綜合密度特征H(b) 選擇H(b)最高的塊b,提取其特征L(b),記錄該塊的特征和其綜合密度特征為bf= 若?bfi∈BF且bfi.L=bf.L則bfi.H=bfi.H+bf.H否則add(BF,bf) Endfor 從BF集合中選擇H最高的L作為該標記類對應的抽取規則,add(N,L)EndforEnd
6 方法評估
為了驗證本文提出方法的有效性,我們實現了相應的原型系統.該原型系統分為兩個過程:基于網頁聚類的正文特征生成和網頁正文內容提取.實驗環境為CPU(Inter Pentium CPU,3.10GHz)+RAM(8GB)+Window7+Eclipse3.10.在實驗中,采用工具Jsoup對網頁進行解析和塊的提取.
實驗中所使用的數據集WebSet來自包括5個網站的1500個網頁.該數據集通過半手工方式(種子URL+爬蟲+手工篩選)從互聯網網上收集得到的,來源于網易、搜狐、新浪、人民網和新華網,這些網頁分布在網站中的不同主題類目.在具體實驗過程中,我們又從WebSet中產生2個子集:1)網頁聚類數據集WebSet-1.包括500個網頁從WebSet中手工選取,來自5個站點并且覆蓋每個站點中的主題.2)網頁正文內容抽取數據集WebSet-2.包括1000個網頁.
我們對數據集WebSet-1中的網頁進行聚類處理并生成正文特征,其結果如圖2所示.在實驗中,網易和新浪中出現在同一主題模塊的頁面中產生多個類別.圖3展示了在聚類過程中,不同網站的頁面中平均塊節點個數,在圖3結果中網易、搜狐和新浪的頁面中平均塊節點個數量遠遠超出新華網和人民網.而在這些塊節點中絕大多數是只包含噪音信息的塊節點,因此除了網站中網頁本身的設計結構的差異,網頁中的噪音信息在一定程度上也影響網頁的聚類結果.

圖2 網頁聚類結果Fig.2 Experimentalresultofwebpageclustering圖3 網頁分塊結果Fig.3 Experimentalresultofwebpagesegmentation
在網頁正文提取方面,本文對數據集WebSet-2中的網頁進行內容的提取.實驗分為兩種,第一種是不利用網頁聚類處理的結果,只通過塊節點的綜合密度特征來對網頁正文內容進行提取,其結果如表1所示.第二種是利用網頁聚類和生成的正文內容塊特征(抽取規則)來進行網頁正文內容的提取,其結果如表2所示.從表1和表2的對比中我們可以發現網頁聚類能夠顯著提高網頁正文內容提取的準確率,基本能夠消除因為正文內容字符數較少導致提取錯誤的塊的問題.在5個站點中,網易的提取結果并不理想.這是因為在網易財經模塊中大部分網頁并不存在正文內容塊,而是將推薦鏈接等噪音信息與正文內容嵌入在同一個塊中,導致實驗中提取的正文內容塊包含部分噪音信息.
表1 無聚類處理的正文內容提取結果
Table 1 Experimental result of web information extraction with no clustering processing

DataSet網頁總數準確率網易20088%搜狐20096.5%新浪20095%新華網20097%人民網20092%
表2 基于網頁聚類的正文內容提取
Table 2 Experimental result of web information extraction with clustering processing

DataSet網頁總數準確率網易20092%搜狐200100%新浪20098%新華網200100%人民網20099.5%
在時間性能方面,因為網頁結構的復雜程度不同,所以不同網站中網頁聚類和正文特征生成所耗費的時間也存在差異.實驗中,平均對每100個網頁進行聚類并生成正文特征的時間為4571ms.在網頁正文內容提取方面,在無聚類的情況下,平均抽取一個網頁的時間為26ms,在有聚類的情況下平均抽取一個網頁的時間21ms.從實驗結果來看,在有聚類的情況下平均抽取一個網頁的時間比無聚類情況下要快5ms.
文獻[8]也是一種基于網頁聚類的正文提取方法,該方法采用樹編輯距離計算網頁之間的相似度,并且利用DOM樹的結構差異來確定網頁的抽取規則,其準確率為82.5%.與該方法相比本文采用的方法的準確率高達97.9%,并且本方法采用路徑集合來計算網頁之間的相似度降低了網頁聚類的時間消耗.文獻[1]中的CEPR算法在網易,新浪,新華網和人民網的數據集上精確率達到99.29%,98.57%,94.72%和95.11%,基本與本方法相當.然而,CEPR算法平均抽取一個網頁的時間為375ms,不適合針對大規模網頁的處理.
7 總 結
本文結合現有的Web信息提取方法,基于網頁分割的正文提取和基于統計的密度特征正文提取,再結合網頁聚類,提出了一種基于網頁聚類的正文信息提取方法.該方法利用對結構相同的網頁進行統一的提取操作,來提高網頁正文內容抽取的準確率.在實驗中,我們將有聚類處理和無聚類處理的網頁正文內容提取進行對比,其準確率顯著上升.本方法適用于提取來自同一網站的網頁,不需要復雜的計算,簡單實用.
未來的工作重點主要包含兩個方面:一方面,將本文提出方法運用到大規模網頁處理的環境中.另一方面,已有的Web信息抽取方法主要提取粗粒度的Web內容,面向精準的細粒度結構化Web信息抽取的精度仍不是很理想,因此,我們的研究重點將轉為對網頁中細粒度的實體提取.
[1] Wu Gong-qing,Hu Jun,Li Li,et al.Online web news extraction via tag path feature fusion [J].Journal of Software,2016,27(3):714-735.
[2] Wang J,Wang J.qRead:a fast and accurate article extraction method from web pages using partition features optimizations[C].Proceedings of the 7th International Joint Conference on Knowledge Discovery,Knowledge Engineering and Knowledge Management (IC3K 2015),Lisbon,Portugal,2015:364-371.
[3] Zhang Nai-zhou,Cao Wei,Li Shi-jun.Amethod based on node density segmentation and label propagation for mining web page [J].Journal of Computer Science and Technology,2015,38(2):349-364.
[4] Cai D,Yu S,Wen J R,et al.Extracting content structure for web pages based on visual representation[C].Proceedings of the 5th Asian-Pacific Web Conference(APWEB 2003),Xi′an,China,2003:406-417.
[5] Yin X,Lee W S.Using link analysis to improve layout on mobile devices[C].Proceedings of the 13th International Conference on World Wide Web(WWW 2004),New York,USA,2004:338-344.
[6] Wu S,Liu J,Fan J.Automatic web content extraction by combination of learning and grouping[C].Proceedings of the 24th International Conference on World Wide Web(WWW 2015),Florence,Italy,2015:1264-1274.
[7] Joshi S,Agrawal N,Krishnapuram R,et al.A bag of paths model for measuring structural similarity in Web documents[C].Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD 2003),Washington,USA,2003:577-582.
[8] Yang Tian-qi,Qiu Tao-fen.A method of automatic web information extraction based on page clustering[C].Proceedings of the 8th World Congress on Intelligent Control and Automation(WCICA 2011),Taipei,2011:390-393.
附中文參考文獻:
[1] 吳共慶,胡 駿,李 莉,等.基于標簽路徑特征融合的在線Web新聞內容抽取[J].軟件學報,2016,27(3):714-735.
[3] 張乃洲,曹 薇,李石君.一種基于節點密度分割和標簽傳播的Web頁面挖掘方法[J].計算機學報,2015,38(2):349-364.
[8] 楊天奇,邱韜奮.一種Web信息自動抽取的網頁聚類方法[C].第8屆智能控制與自動化世界大會(WCICA 2011),臺北,2011:390-393.
主站蜘蛛池模板:
国产精品大尺度尺度视频|
国产一区在线视频观看|
亚洲欧洲天堂色AV|
国产日韩欧美中文|
日韩欧美高清视频|
国产精品自在拍首页视频8|
欧美在线三级|
久久永久免费人妻精品|
40岁成熟女人牲交片免费|
色综合日本|
国产欧美日韩免费|
欧美亚洲国产精品第一页|
国产精品亚欧美一区二区|
欧美日韩在线成人|
全部免费特黄特色大片视频|
国产精品久久久久久搜索
|
日韩精品视频久久|
国产精品专区第1页|
成人午夜免费观看|
成人日韩视频|
亚洲av无码成人专区|
亚洲国产综合精品一区|
国产成a人片在线播放|
精品久久久久久成人AV|
蜜芽国产尤物av尤物在线看|
91口爆吞精国产对白第三集|
一本大道香蕉中文日本不卡高清二区|
精品福利视频导航|
欧美日韩另类在线|
美女国产在线|
91久草视频|
日韩大片免费观看视频播放|
欧美区国产区|
国产在线专区|
久久人午夜亚洲精品无码区|
欧美不卡二区|
国产人人射|
亚洲欧美国产五月天综合|
欧美三級片黃色三級片黃色1|
国产午夜一级淫片|
国产三级国产精品国产普男人|
91年精品国产福利线观看久久|
欧美中文字幕在线二区|
久久精品视频亚洲|
久久久久人妻一区精品色奶水|
波多野结衣第一页|
www精品久久|
国产成人喷潮在线观看|
国产欧美成人不卡视频|
国产精品免费电影|
91久久国产成人免费观看|
国产美女主播一级成人毛片|
国产一在线|
免费观看国产小粉嫩喷水
|
91福利片|
青青青国产视频手机|
91国内外精品自在线播放|
日韩毛片在线播放|
国产激情无码一区二区免费
|
国产偷国产偷在线高清|
激情無極限的亚洲一区免费|
hezyo加勒比一区二区三区|
中国精品自拍|
日韩中文字幕免费在线观看
|
中文字幕乱码中文乱码51精品|
伊人婷婷色香五月综合缴缴情|
国产精品美乳|
青青操视频在线|
久久久91人妻无码精品蜜桃HD|
一级毛片免费播放视频|
91欧洲国产日韩在线人成|
丁香五月亚洲综合在线|
2021亚洲精品不卡a|
欧美在线黄|
四虎在线观看视频高清无码|
久久这里只有精品免费|
鲁鲁鲁爽爽爽在线视频观看|
国产精品亚洲精品爽爽|
在线免费观看AV|
婷婷色狠狠干|
无码久看视频|
亚洲综合18p|