999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本標點密度連續和的網頁正文抽取

2020-02-14 05:58:28湯佳杰曹永忠顧浩
計算機時代 2020年1期

湯佳杰 曹永忠 顧浩

摘 ?要: 為了簡化網頁正文抽取操作與提高網頁正文抽取的準確性,提出了一種基于文本標點密度連續和的抽取方法(TPDS)。TPDS基于網頁中文本標點分布的密度并計算密度的連續和,選取所有文本塊中連續和最大的文本塊,將其確定為網頁最佳文本塊并抽取正文內容。從不同的門戶網站隨機選取的網頁作為測試數據集,實驗結果表明,TPDS可有效過濾網頁噪聲信息得到正文內容。該方法在不同網頁上具有很好的適用性,抽取性能優于CETR、CETD、CEPR和CETD-TPC算法。

關鍵詞: 正文抽取; 文本密度; 標點分布; 標簽樹

中圖分類號:TP391 ? ? ? ? ?文獻標識碼:A ? ? 文章編號:1006-8228(2020)01-69-04

Abstract: In order to simplify the extraction process of web page text and improve the accuracy of web page text extraction, a method based on text punctuation density continuous sum extraction (TPDS) is proposed. TPDS is based on the density of text punctuation distribution in web pages and calculates the continuous sum of density. The continuous and largest text blocks in all text blocks are selected, which are determined as the best text block of the web page and the body content is extracted. The webpage randomly selected from different portals is used as the test data set. The experimental results show that TPDS can effectively filter the webpage noise information to obtain the body content, and the method has good applicability on different webpage, and the extraction performance is better than CETR, CETD , CEPR and CETD-TPC algorithms.

Key words: content extraction; text density; punctuation distribution; tag tree

0 引言

Web技術快速發展,Web網頁成為信息發布的主要載體。中國互聯網絡中心發布第43次《中國互聯網絡發展狀況統計報告》[1]指出,我國網民規模達8.29億,互聯網普及率達到59.6%;網站數量為523萬個,網頁數量為2816億個。Web網頁數量如此龐大,顯然無法依靠人工抽取所有網頁主體信息,而需要通過計算機來輔助完成網頁信息抽取。但是Web網頁中除了主體信息外,還包括大量的噪聲信息[2],如商家廣告、興趣內容推薦、網頁導航欄目等。

大量的網頁噪聲數據會導致在檢索網頁主體信息時的操作變得困難和復雜,不利于后期的管理與分析。因此在對網頁進行爬取時,需要對噪聲信息進行過濾,以保證能夠得到正確的網頁主體信息。

隨著互聯網技術的不斷發展,CSS、JavaScript技術的廣泛應用,不同的網頁結構呈現出多樣化與個性化特點,這使得Web信息抽取工作難上加難。通過研究發現,Web網頁結構中的文本布局具有如下的表現:

⑴ Web網頁中正文部分集中在網頁的三分之一到三分之二處,這段內網頁的某些標簽將會反復出現,且其中文本內容較長,文本塊較多,含有的標點符號也相應增加;

⑵ Web網頁中噪聲部分一般處于網頁的邊緣地區,多為短文本、圖片以及大量的超鏈接,噪聲塊的文本標點密度連續小;

⑶ Web網頁中正文內容多分布在相同類型的標簽中,其主要內容節點之間是連續的,連續內容節點共享同一個父節點。

1 相關工作

Web信息抽取主要是將網頁中半結構化的文本數據抽取出來,轉換為結構化信息,使之能夠為其他系統所利用。近年來,隨著人們對Web網頁正文信息提取需求的不斷增加,國內外眾多研究人員提出許多解決方案。

基于包裝器的方法是首先由人工制定好抽取規則,然后使用程序依據規則返回規定格式的數據完成信息抽取。手工構建包裝器可以解決特定網站的信息抽取問題,但是無法適應不同的網頁結構,不同網站都需要依據其網頁結構重新構造包裝器規則,費時費力。

為了解決人工構建的包裝器的不足,人們提出了基于模式匹配的方法。姬鑫等[3]人實現了基于模板頁的相同噪音塊清洗方法和基于class 屬性的同類噪音塊和特殊噪音塊清洗方法,在此基礎上提出基于起始塊和終止塊的新聞內容抽取方法,但未實現對分頁新聞內容的抽取。Hassan A.Sleiman等[4]人實現了模式匹配的抽取算法,該算法不依賴于提取規則,無監督地進行信息抽取。

李偉男等[5]人基于視覺的網頁分割算法VIPS提出了使用模擬退火算法改進的二階隱馬爾可夫模型得到最優模型參數,結合改進的Viterbi算法獲取最佳狀態序列的Web信息抽取方法。劉利等[6]人設計的WIEHF方法利用DOM樹計算出容器標簽的PSD、TSD、SD,對元素進行篩選,根據元素在內容里的出現頻率與標點符號找出網頁正文。

針對上述問題,本文設計的TPDS算法利用DOM樹將網頁分割成多個不同的塊區域,通過計算不同塊的文本標點分布密度連續和,選取最大連續和對應的文本塊為最佳文本塊,實現了一種簡單、有效的抽取方式。該方法不需要進行訓練且無須人工參與,可以適用于不同的網頁結構,通過在不同的數據集上的測試,驗證了算法具有良好的抽取性能。

2 基于文本標點密度連續和的抽取算法

基于文本標點密度連續和的網頁正文抽取算法的主要流程如圖1所示。主要分為網頁預處理、算法特征值計算和信息抽取三個步驟。

2.1 預處理

在網頁DOM結構中,網頁被表示為一組標簽并且標簽之間具有層次關系。根據標簽的不同功能,將html標簽分為如下四類[7]:交互標簽、樣式標簽、網頁描述標簽、容器標簽。

在進行網頁特征計算之前,需要對目標網頁的標簽進行過濾,在網頁正文內容的抽取過程中,一般只需要操作容器標簽,其他類型的標簽(如交互標簽,樣式標簽,網頁描述標簽)將被過濾掉。

2.2 文本標點密度連續和特征

定義1 DOM塊:DB(v)是以節點v為根節點的子樹,其中v為非文本節點,若DB(v)不為空時,則稱子樹DB(v)為DOM塊。

從網頁中選取兩個DOM塊,圖2是文本塊,可以發現在文本塊中,文本標點信息更加集中,具有更少的超鏈接文本。而在圖3噪聲塊中,超鏈接文本信息較多,文本標點信息之間相對分散。

其中,[SE]是由算法抽取的Web網頁結果構成的正文集合,[SM]是由人工從Web網頁中抽取的正文內容集合,[SE∩SM]是算法實際抽取的正確正文內容。精度P是衡量提取的文本與實際文本相關程度的指標,召回率R表示應該抽取結果中被正確抽取的正文內容的比例,F值則是衡量抽取性能的一個綜合指標。

根據這些評價指標分析不用的抽取算法,并將其與本文提出的算法進行比較。表1給出了CETR、CETD、CEPR、CETD-TPC與TPDS算法在不同數據集上測試的結果。

從表1的對比實驗結果可以發現,TPDS方法在大部分情況下都表現出良好的抽取性能。TPDS在部分網頁上的抽取結果相比其他算法有點欠缺,但是綜合考慮抽取結果的平均情況,都優于其他的抽取算法,所以,TPDS算法在不同網頁中的適用性更強,抽取的性能更高。

4 結束語

本文提出了一種基于文本標點密度連續和的抽取算法,TPDS算法操作簡單,無需訓練和人工干預,可用于多源、異構、海量的網頁正文內容抽取,在不同的數據集上的測試結果表明。與其他算法相比,抽取性能更高、適用性更強。

然而,基于文本標點密度連續和的抽取算法仍有較大的提升空間。本文中設計的算法僅是基于文本標點密度,連續標簽與連續文本塊的特征來選取最佳文本塊。是否可以與網頁中其他的特征進行融合,進一步提高抽取的性能、準確性以及實用性,是進一步研究的重點。

參考文獻(References):

[1] CNNIC.第43次中國互聯網絡發展狀況統計報告[R]. 北京:中國互聯網中心,2019.

[2] 劉鵬程,胡駿,吳共慶.基于文本塊密度和標簽覆蓋率的網頁正文抽取[J].計算機應用研究,2018.35(6):1645-1650.

[3] 姬鑫,鐘誠.基于分塊的新聞網頁信息抽取算法[J].計算機應用與軟件,2015.32(4):317-322.

[4] Hassan A.Sleiman,Rafael Corchuelo. TEX: An efficient and effective unsupervised Web information extractor[J]. Knowledge-Based System,2013.39:109-123

[5] 李偉男,李書琴,景旭,等.基于模擬退火算法和二階HMM的Web信息抽取[J].計算機工程與設計,2014.35(4):1264-1268

[6] 劉利,戴齊,尹紅風,賈真,胡萬亭.基于多特征融合的網頁正文信息抽取[J].計算機應用與軟件,2014.31(7):47-49+77

[7] Liu Qingtang,Shao Mingbo,Wu Lingjing,et al.Main Content Exraction from Web Pages Based on Node Characteristics[J].Journal of Computing Science and Engineering,2017.11:39-48

[8] Carey H J,Manic M.HTML web content extraction using paragraph tags[C]//IEEE, International Symposium on Industrial Electronics.IEEE,2016:1099-1105

主站蜘蛛池模板: 免费播放毛片| 97在线观看视频免费| 亚洲电影天堂在线国语对白| 一级黄色网站在线免费看| 99久久精品美女高潮喷水| 国产v精品成人免费视频71pao| 欧美亚洲国产精品久久蜜芽| 素人激情视频福利| 亚洲成人网在线播放| 国产全黄a一级毛片| 五月婷婷伊人网| 69av免费视频| 国产成人无码播放| 久久香蕉欧美精品| 日韩二区三区无| 亚洲最大福利视频网| 日本爱爱精品一区二区| 日韩毛片在线播放| 国产探花在线视频| 午夜三级在线| 国产一区二区精品高清在线观看| 亚洲丝袜中文字幕| 亚洲天堂网视频| 成人福利在线看| av色爱 天堂网| 一个色综合久久| 国产呦视频免费视频在线观看| 99热这里只有精品久久免费| 欧美在线中文字幕| 国产一区二区三区免费观看| 亚洲日韩精品综合在线一区二区| 日韩精品一区二区三区大桥未久 | 欧美一级特黄aaaaaa在线看片| 欧美日韩资源| 狠狠色狠狠综合久久| 欧美国产综合色视频| 亚洲成人在线免费| www.亚洲色图.com| 九色91在线视频| 国产九九精品视频| 九色在线观看视频| 一级一级一片免费| 97人人做人人爽香蕉精品| 欧美第二区| 久久综合九九亚洲一区| 一级毛片在线播放| 四虎亚洲国产成人久久精品| 日韩精品无码免费专网站| 色首页AV在线| 五月婷婷激情四射| 国产精品妖精视频| 亚洲免费福利视频| 国产AV毛片| 日本一本正道综合久久dvd| 好紧太爽了视频免费无码| 日韩欧美亚洲国产成人综合| 免费一级α片在线观看| 国产黄在线免费观看| 国产精品va| 丁香亚洲综合五月天婷婷| 蜜桃视频一区二区| 国产黄网站在线观看| 91亚洲精选| 国产麻豆永久视频| 97国产在线视频| 亚洲三级成人| 在线观看亚洲天堂| 欧美黄色网站在线看| 在线观看精品自拍视频| 亚洲综合第一区| 夜精品a一区二区三区| 综合久久五月天| 亚洲色欲色欲www在线观看| 欧美性爱精品一区二区三区 | 免费国产黄线在线观看| 色偷偷一区| 国产区免费精品视频| 亚洲人成网7777777国产| 欧美激情综合| 黄片在线永久| 青青操视频在线| 久久国产拍爱|