999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于視覺特征的網頁正文提取方法研究

2010-05-18 07:27:58安增文徐杰鋒
網絡安全與數據管理 2010年3期
關鍵詞:頁面規則信息

安增文,徐杰鋒

(中國石油大學(華東)計算機與通信工程學院,山東 東營 257000)

隨著互聯網的迅速發展,互聯網上的信息量以幾何級數倍增。人們需要在海量的信息庫中查找自己需要的信息。雖然搜索引擎能幫助人們快速地搜索到想要的信息,但每個網頁除了正文內容外還摻雜了很多用戶不需要的信息。例如,為了方便用戶瀏覽而加入的導航鏈接、出于商業利益而加入的廣告鏈接、版權信息以及相關主題閱讀推薦鏈接等。這些信息摻雜在網頁中,影響了用戶對主題內容的瀏覽。因此,如何從包含大量噪音內容的網頁中將正文信息準確、完整地提取出來成為眾多研究者研究的課題。

1 相關工作

在Web信息抽取領域,已經有大量的研究工作,包括 HTML結構分析方法(如 XWRAP和 Lixto)、基于自然語言處理的方法(如SRV和WHISK)、機器學習方法等。但是這些方法都是針對特定網站或特定格式的,不具有通用性,并且不能完成自動抽取。眾多的Web網頁正文信息提取方法都有各自的優缺點。

[1]采用機器學習的方法提取網頁正文信息。此方法通過對網頁集的學習,不斷生成新的模板,從而建立模板庫。提取信息時,查找對應的模板,利用模板中主題結點信息,直接定位主題信息塊,快速提取主題信息。雖然此方法采用自動抽取的方式,其智能化程度也在一定程度上方便了用戶的使用,但對于一個新的網頁,若找不到匹配的模板,此方法就不適用了。而且隨著模板數量的增加,模板庫的維護工作也變得越來越復雜。

從頁面視覺特征的角度對網頁結構進行挖掘也是很有效的途徑。典型的代表就是微軟亞洲研究院提出的VIPS(Vision-based Page Segmentation)算法[2]。 它利用背景顏色、字體顏色和大小、邊框、邏輯塊和邏輯塊之間的間距等視覺特征,通過制定相應的規則把頁面分成了各個視覺信息塊。這能在一定程度上滿足復雜頁面對算法的要求,但由于視覺特征的復雜性,運用的啟發知識往往較為模糊,需要人工不斷地總結調整規則,因此如何保證規則集的一致性是一大難點。

有許多研究者考慮使用HTML標簽信息來劃分頁面。其中,中科院計算所軟件研究室提出利用TABLE標記和視覺特征對頁面進行語義塊劃分,并識別各語義塊屬性的算法TVPS(Table and Vision based Page Segmentation)[3]。TVPS算法中的分塊方法只考慮了各個最底層的TABLE標記,但是實際情況中網頁樣式結構和TABLE標記的嵌套關系都非常復雜,網頁正文信息不一定全在最底層的TABLE標記中。如果只考慮最底層的TABLE標記,會遺漏部分正文信息。

參考文獻[4]根據正文字數多、標點符號多2個特征,提出一種基于正文特征的網頁正文信息提取方法。該方法利用HTML標簽對網頁內容進行分塊,把具有正文特征的塊保留,不具有正文特征的塊舍棄,從而進行網頁正文信息的提取。這種方法對于新聞、財經、科技等類型網頁提取效果較好,但對于圖片多文字少或對于用戶回帖字數較少的論壇型網頁提取效果較差。

以往的基于分塊的網頁信息提取算法都是對整個網頁進行處理,并分完塊后再對頁面塊進行取舍,確定正文塊。這類方法對與頁面主題無關的噪音信息也進行了處理,增加了算法的復雜度。本文在前人工作的基礎上結合參考文獻[3]、[4]、[7],提出采用逐層分塊逐層刪減的方法對Web網頁進行信息提取,以降低算法的復雜度,提高抽取的準確度,并用試驗驗證其可行性。

2 正文提取算法

Web網頁通常分為3種類型:主題型網頁、圖片型網頁、目錄型網頁[5]。主題型網頁通常通過成段的文字描述1個或多個主題(如新聞網頁);圖片型網頁中內容是通過圖片體現的,只用少量文字對圖片進行說明;目錄型網頁通常不會用成段的文字描述,而是提供指向相關網頁的超鏈接,也可稱為索引頁。本文所研究的網頁正文提取是針對主題型網頁展開的。

2.1 VIPS算法

VIPS算法充分利用了Web頁面的布局特征。它首先從DOM樹中提取出所有合適的頁面塊,然后根據這些頁面塊檢測出它們之間所有的分割條,包括水平和垂直方向;最后基于這些分割條,重新構建Web頁面的語義結構。對于每一個語義塊又可以使用VIPS算法繼續分割為更小的語義塊。該算法分為頁面塊提取、分隔條提取和語義塊重構3部分,并且是遞歸調用的過程,直到條件不滿足為止。在此僅對頁面塊提取方法做簡單介紹。

整個VIPS算法自頂向下,圖1(a)顯示的是一個表格,該表格是整個Web頁面的一部分,它的DOM樹結構如圖1(b)所示。在頁面塊的提取過程中,當遇到<TABLE>結點時,它只有1個有效的孩子結點<TR>。根據參考文獻[2]中規則,進入<TR>標簽。 該<TR>結點具有 5個<TD>孩子結點,但是它們中只有 3個是有效結點,而且第1個孩子結點的背景顏色與父親結點的顏色不同。根據參考文獻[2]中規則,該<TR>結點將被分割,而第 1個<TD>結點在本次迭代中不進行分割,將其保存到頁面塊池中。第2個和第4個<TD>結點為無效結點,因此將被刪除。對于第3個和第5個<TD>結點,根據參考文獻[2]中規則,在本次迭代中不再分割,被保存到頁面塊池中。因此最終得到3個頁面塊VB2_1、VB2_2和VB2_3。

2.2 頁面塊提取和過濾

圖1 一個Web頁面及對應DOM樹結構

由于VIPS算法的重點是對網頁進行分塊,所以其要對網頁上的所有內容進行處理。而對于網頁信息提取,只有與主題相關的正文信息才有意義,其他內容(如導航欄、相關閱讀、廣告鏈接、用戶評論等)都屬于噪音信息,只需要識別出來,并不需要對其進行處理。如果直接利用VIPS算法對網頁進行頁面塊的劃分,則會將那些與正文內容無關的噪音內容也進行處理,需要大量的內存來保存結點信息,增加了算法的時間和空間開銷,也不利于提高提取的準確度。所以本文采用逐層分塊逐層刪減的方法,將網頁中的噪音信息盡早地刪除,以節省開銷、提高準確度。本文在頁面塊提取和過濾階段只利用了VIPS算法中的頁面塊提取方法,并未進行分隔條的提取和語義塊的重構,而是在過濾完成后對保留的頁面塊進行相應的處理。

由于VIPS算法中的頁面塊提取過程是結合DOM樹和視覺特征,利用人工制定的規則來判斷該結點是否需要再分,并用頁面塊池來存儲要被繼續提取的頁面塊,所以可以對每一層完全提取后頁面塊池中保存的頁面塊進行相應的判斷,將與標題內容無關的噪音塊刪除。這樣將每1次提取出來的頁面塊中的噪音塊都刪除,當頁面塊提取完后,剩下的頁面塊即為要進行信息提取的頁面塊。

對網頁信息的抽取包括:頁面主題、發表時間、正文內容,抽取流程如圖2所示。

圖2 正文信息抽取算法流程

(1)構建DOM樹。由于HTML書寫的隨意性,首先對HTML代碼進行預處理,例如對書寫不規范的標簽進行補全處理,以免在后面的程序處理中造成錯誤,并去除一些無用標簽,如<script>、注釋信息等。網絡上有很多網頁預處理工具可以將不規范的html代碼規范化,例如HTML Tidy等。構造DOM樹的過程中要保存每個結點的字體大小、顏色、粗細、背景色等視覺信息,方便后續處理。

(2)對網頁進行逐層分塊逐層刪減。根據對大量網頁的統計,處于網頁最上方和最下方的頁面塊基本全部是網站的導航鏈接和版權聲明,這2個頁面塊可以直接刪除。而頁面塊的中心位置與網頁的左邊框或右邊框的距離小于一定閾值的基本全為廣告信息。在實驗數據中有的廣告可以占到網頁寬度的40%??梢岳眠@一特征將網頁四周的噪音塊刪除。定義網頁的左上角頂點為坐標原點,網頁的右下角頂點坐標為(WIDTH,HEIGHT),每個頁面塊的中心點坐標為(Center_X,Center_Y),定義4個閾值:上臨界值(TOP)、下臨界值(BOTTOM)、左臨界值(LEFT)、右臨界值(RIGHT),據此可以得出對頁面塊進行刪減的2個判斷規則:

規則 1:IF Center_X<LEFT‖Center_X>RIGHT, 則刪除該塊。

規則 2:IF Center_Y<TOP‖Center_Y>BOTTOM, 則刪除該塊。

進行完第1次頁面塊提取后可以利用這2個判斷規則將位于頁面四周的導航欄、廣告內容、版權聲明等頁面塊刪除。

網頁中不僅包括正文標題、發表時間、主題相關圖片、正文內容等要抽取的信息,還包括相關閱讀等與頁面主題相關但不需要抽取的信息以及圖片廣告、搜索欄等噪音內容。在頁面塊提取過程中記錄該頁面塊的中心位置的坐標、文字長度(TextLength)、鏈接文字長度(Link-TextLength)、圖片數量(ImageNum)。記正文字數和鏈接個數的比值為F。設置閾值T(試驗中T=2)。據此可以得出對頁面塊進行刪減的3個判斷規則:

規則 3:IF F<T&&ImageNum=0,則說明該塊為相關閱讀或文字廣告鏈接,刪除該塊

規則 4:IF F<T&&ImageNum>0&&CENTER_Y>HEIGHT/2,即鏈接較多,文字較少且位于網頁的下方,則為圖片廣告,刪除該塊。

規則 5:IF TextLength<100,可能為搜索欄或用戶評論等噪音,刪除該塊。

對逐層提取出來的頁面塊按照以上5個判斷規則逐層將噪音塊刪除。

2.3 正文信息提取

逐層分塊逐層刪減后仍保留在內存塊池中的頁面塊被認為是正文頁面塊,下面的工作是對這些頁面塊進行信息抽取。在正式提取內容前要對這些頁面塊進行分隔條提取和語義塊的重構,以保證提取內容的語義完整性。

(1)提取頁面主題。包含主題的頁面塊一般具有以下視覺特征:字號比其他頁面塊都大;字體顏色與其他塊不同;周圍有較多的空白;位置在網頁的上方。在此假定滿足以上條件中的3個或3個以上即被認為是頁面主題塊。

(2)提取發表時間。本文利用視覺信息識別包含發表時間的頁面塊。在視覺上,發表時間一般位于頁面主題下方,且字號相對其他內容塊較小。利用參考文獻[3]中提到的位置和詞性雙重約束的方式對發表時間進行識別:考慮頁面塊標題和正文之間的文字,判斷它們的詞性,對詞性為“數詞(m)”或“時間詞(t)”的文字串,把它挖掘出來作為發表時間。本文采用中國科學院計算技術研究所軟件室研發的詞法分析器ICTCLAS[6]進行詞性的判斷。其對時間信息的分析結果如下所示:

“2004-06-15/m 08:/m 57:/m 45/m”、“2004 年/t06月/t 5日/t05:/m 37/m”。

(3)提取正文內容。需要注意的是:有的正文中有小標題,其視覺信息與其他正文內容不同,這上面的分塊中已有體現。

3 試驗與分析

為驗證該方法的可行性,從新浪、搜狐、網易、新華網、人民網5大熱門網站中各抽取100篇網頁,共500篇網頁進行試驗,網頁內容涉及新聞、財經、軍事等多個領域。從頁面標題、發表時間、提取的完整率和準確率等方面進行評價。為驗證其性能,從中抽取200篇進行人工抽取,并進行比對。實驗結果如表1所示。

表1 實驗結果

準確率和完整率的計算公式如下:

準確率=(正確提取正文信息網頁個數/網頁總數)×100%

完整率=(完整提取正文信息的網頁個數/正確提取正文信息網頁個數)×100%

通過對實驗結果的分析發現,有些網頁的發表時間前后都帶有網站的鏈接,導致該頁面塊被當作噪音刪除。實驗數據表明,正文抽取完整率和準確率都達到90%以上,證明了該方法的可行性。

本文在VIPS算法的基礎上結合網頁正文抽取的特點,實現了一種根據頁面視覺特征對Web頁面進行逐層分塊逐層刪減的正文信息抽取方法。下一步將對判斷規則進行完善,以達到更好的抽取效果。

參考文獻

[1]歐健文,董守斌,蔡斌.模板化網頁主題信息的提取方法[J].清華大學學報,2005,45(S1):1743-1747.

[2]CAI D, YU S, WEN J R, et al.VIPS:A vision-based page segmentation algorithm.Microsoft Technical Report,MSR-TR-2003-79.2003:10.

[3]于滿泉,陳鐵睿,許洪波.基于分塊的網頁信息解析器的研究與設計[J].計算機應用,2005,25(4):974-976.

[4]孫桂煌,劉發升.基于正文特征的網頁正文信息提取方法[J].現代計算機,2008(9):34-37.

[5]JOHNSON R,HOELLOR J,ARENDSEN A,etal.Spring框架高級編程[M].蔣培,譯.北京:機械工業出版社,2006.

[6]張華平.ICTCLAS[EB/OL].[2009-08-15].http://mtgroup.ict.ac.cn/~zhp/ICTCLAS.htm.2002.

[7]黃文蓓,楊靜,顧君忠.基于分塊的網頁正文信息提取算法研究[J].計算機應用,2007,27(B06):24-26.

猜你喜歡
頁面規則信息
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
撐竿跳規則的制定
數獨的規則和演變
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
TPP反腐敗規則對我國的啟示
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導航技術
主站蜘蛛池模板: 一本综合久久| 乱码国产乱码精品精在线播放| 欧美精品影院| 四虎国产精品永久一区| 欧美激情网址| 亚洲最新在线| 在线亚洲精品福利网址导航| 欧美午夜网| 国产精品.com| 在线亚洲小视频| 丝袜亚洲综合| 国产亚洲一区二区三区在线| 国产欧美视频在线| 一区二区自拍| 日韩午夜福利在线观看| 亚洲精品色AV无码看| 粉嫩国产白浆在线观看| 一级毛片免费的| 亚洲AV无码精品无码久久蜜桃| 欧美在线一二区| 国产视频一二三区| 国产成人综合久久精品下载| 22sihu国产精品视频影视资讯| 高清不卡一区二区三区香蕉| 老司机久久99久久精品播放| 中文字幕在线欧美| 特级毛片免费视频| 成人小视频网| 国产亚洲高清视频| 在线国产资源| 午夜老司机永久免费看片| 素人激情视频福利| 国产人妖视频一区在线观看| 国产精品亚洲αv天堂无码| 人妻出轨无码中文一区二区| 日本免费一级视频| 精品国产免费观看| 国产va欧美va在线观看| 国产91精品最新在线播放| 国产主播在线观看| 国产精品片在线观看手机版 | 亚洲天堂网2014| 国产人免费人成免费视频| 亚洲男人天堂久久| 国产一区二区免费播放| 亚洲国产精品不卡在线| 一级毛片中文字幕| 成人免费午夜视频| 在线无码九区| 国产手机在线小视频免费观看| 亚洲天堂视频网站| 欧美成人精品在线| v天堂中文在线| 亚洲成人在线免费观看| 亚洲人在线| 亚洲欧州色色免费AV| 欧洲亚洲一区| 在线色国产| 9999在线视频| 国产人成乱码视频免费观看| 日韩欧美中文字幕在线韩免费| 伊人91视频| 国产香蕉97碰碰视频VA碰碰看| 国产成人综合亚洲欧洲色就色| 午夜免费小视频| 免费无码AV片在线观看国产| 日日拍夜夜操| 99久久精品视香蕉蕉| 欧美另类图片视频无弹跳第一页| AV网站中文| 亚洲 欧美 中文 AⅤ在线视频| 亚洲另类色| 国产精品污视频| 日韩在线播放中文字幕| 国产成人精品高清不卡在线 | 久青草国产高清在线视频| 日本午夜三级| 中文字幕色站| 97国产成人无码精品久久久| 欧美视频二区| 亚洲第一成年人网站| 国产va在线观看免费|