基于節點權重的網頁去噪方法的研究

2017-10-23 02:16:22王健，張金

計算機技術與發展 2017年10期

關鍵詞：頁面信息方法

王健，張金

(南京郵電大學計算機學院，江蘇南京 210003)

基于節點權重的網頁去噪方法的研究

王健，張金

(南京郵電大學計算機學院，江蘇南京 210003)

隨著網絡信息的不斷增多，網頁信息不僅成為用戶的重要信息來源，同時也是數據挖掘、信息檢索等研究的重要數據來源。為提供高質量的文本信息源，頁面去噪已經成為網頁處理中不可忽視的步驟。隨著網頁制作技術的不斷提升，頁面中的視覺元素日益增多，網頁節點信息愈加豐富。視覺信息已經成為頁面去噪中不可忽視的重要部分。從用戶的角度，在瀏覽網頁時，視覺的信息網頁能夠第一時間反映頁面中模塊的重要程度。傳統的頁面去噪技術過多地忽略了頁面的視覺特性，面對現今復雜的頁面結構，去噪效果大大下降。文中在綜合視覺信息和節點信息的基礎上，提出了一種基于節點權重的去噪方法，該方法充分考慮了節點的視覺特性和內容特性。實驗結果表明，該方法在網頁去噪的準確率和召回率上有所提高。

視覺特性;節點權重;準確率;召回率

0 引言

互聯網的飛速發展使得網絡上的信息急劇增加，網絡已經與人們的生活緊緊相聯。網絡就像一個巨大的信息庫，提供了各種各樣的信息。人們可以從中查詢自己需要的知識，在豐富了生活的同時，給工作和學習也帶來了巨大的益處。但是，在網頁規模不斷擴大的同時，網絡上的信息并不像圖書館的書那樣編排得分類整齊，使得搜索和獲取信息變得非常困難。不僅如此，當瀏覽網頁獲取信息時，往往發現網頁中充斥著大量的無關信息，如導航欄、廣告信息、浮動提示窗等，稱之為“噪聲”。這些“噪聲”往往與頁面的正文內容無相關性，而且影響了網頁的可觀性，因此網頁的噪聲給信息的獲取增加了一道門檻。

面對海量信息，用戶能夠快速定位所需信息就成了當務之急。為幫助用戶獲取更精確的信息，信息檢索[1]、文本挖掘[2]等技術應運而生。而數據源的質量將直接與這些技術息息相關。網頁中的噪聲內容對于檢索技術來說，不僅有可能導致搜索的主題漂移[3]，而且會影響索引建立，使得上述技術的處理效率和效果不夠完美。因此，研究網頁去噪技術，即去除頁面中無關的導航欄、無用標簽等信息，準確抽取網頁的正文內容，是非常有必要的。

目前的網頁去噪領域已存在許多研究成果，噪聲的處理也能提高頁面正文的提取效果。隨著硬件水平的提高，能夠展現的頁面內容也越來越豐富，網頁的制作技術也百花齊放。網頁的制作者為了使網頁美觀，為頁面增加了更多的樣式修飾,提升了用戶體驗，但同時隨之而來的是越來越復雜的頁面結構，以及越來越多的噪聲信息。傳統的頁面從HTML4發展到HTML5[4],原有的table布局也被取代。傳統的頁面去噪聲技術已經不能適應復雜的新型網頁結構。因此研究出相對簡單的去噪算法，能夠應對復雜的新型網頁的處理需求，讓算法具有更好的健壯性，也是一個很有挑戰性的課題。

1 相關工作

目前國內外關于頁面噪聲去除的研究中，已經取得了不少成果，采用的方法多種多樣，涉及各個領域。但從去噪方法的成果來看，可以分為如下幾種：

(1)基于DOM結構的方法。

DOM(Document Object Model)即文檔對象模型[5]的縮寫,根據網頁的標簽結構信息能夠將網頁松散的HTML代碼表示成結構清晰的DOM樹，因此較多的頁面去噪工作都是在DOM結構的基礎上進行的。文獻[6]提出了基于DOM的頁面分塊方法，利用這種方法去除頁面的噪音信息，抽取正文內容。文獻[7]在建立DOM樹的基礎上，以頁面中文本節點的視覺特性為特征，分別使用聚類等方法對DOM節點進行分類，得到頁面的正文信息。由于DOM結構的節點中包含的語義等信息較少，文獻[8]在DOM樹的基礎上移入STU(Semantic Textual Units,語義文本單元)，添加語義特征，構造相應的STU-DOM樹,并對其進行基于樹結構的過濾和基于特征的剪枝，完成對網頁的去噪工作。

由于在制作網頁時，為了可維護性，采用嵌套的方式書寫HTML的標簽，將網頁信息轉換成DOM結構的方法有較好的可適應性。但是直接將網頁轉換成對應的DOM,不考慮網頁原有的布局位置等信息，在HTML代碼不具有嵌套規范的情況下，生成的DOM樹將嚴重影響葉子節點的分析以及后續的剪枝操作。

(2)基于生成模板的方法。

該方法通常是根據一類網站共同的結構特征。在此假設的基礎上，通過訓練模式匹配和歸納學習生成包裝器得到該類網站的模板。包裝器的目的就是把網頁中有用的結構信息以結構化的形式存儲起來，在抽取頁面時，利用生成的包裝器去除頁面中的噪音。李文立等利用標簽對形式生成的樹結構抽取網頁模板[9],效果較好，但沒有對前期的頁面進行去噪操作,抽取頁面正文的算法時間復雜度較高且沒有分類，模板健壯性較低。文獻[10]采用一些網頁作為訓練集找到相應的Xpath,將其用來抽取相似網頁的正文。基于生成模板的方法，往往由于訓練集的數量問題，不僅效率較慢，且訓練集的不準確會嚴重影響網頁的清洗率。

(3)基于統計的方法。

該方法克服了傳統網頁內容抽取方法需要針對不同網頁結構的問題，具有一定的普遍性，不需要生成模板，大大提高了正文抽取速度。文獻[11]針對制定規則，提出對標簽建立標簽庫，并根據中文字符數最多的決定網頁正文塊，但不利于短正文頁面的抽取。孫承杰等[12]提出正文信息只能位于

節點，將頁面HTML表示成DOM樹后對每個

節點進行處理，比較節點中的中文字符數量。該方法雖利用了中文網頁的特性，實現簡單，健壯性強，但未考慮英文網頁，且對短正文網頁效果不理想。

(4)基于視覺分塊的方法。

通常在瀏覽網頁時，人們往往將不同的功能區域看成不同的語義塊。較早的分塊方式是按照HTML的樹形結構進行[13]，但隨著HTML的發展，僅僅依賴樹形結構，不足以滿足通用性。2003年，微軟亞洲研究院提出基于頁面視覺分塊的算法(VIsion-based Page Segmentation,VIPS)，利用頁面的可視化信息在樹形結構的基礎上進行網頁分塊。然而它僅僅是一種分塊算法，利用已有的視覺信息，并未對頁面進行凈化操作，可以在算法的基礎上加入規則進行頁面凈化操作。文獻[14]通過修改VIPS算法迭代過程，在塊劃分后進行一系列的分隔條提取和語義塊重構，采用制定規則對頁面進行去噪操作。VIPS算法充分考慮了用戶的視覺習慣，但由于分隔條提取和語義塊重構需要過多的人工參與，復雜度較高，且缺乏對網頁中和信息的利用。

文中在VIPS算法分塊的基礎上，提出樣式樹，再根據鏈接比及樹路徑距離生成相應的權重樹，自動調整權重，根據權重進行剪枝操作，生成去噪頁面。

2 樣式樹定義

樣式樹由DOM樹演化而來[15]，主要包含兩類虛擬節點:樣式節點(Style nodes)和元素節點(Element nodes)。樣式節點描述了節點布局或者展現風格，樣式節點A的表現樣式SA是一個序列。其中li是一個二元組(Tag,Styles)元素,通常Styles表示為{width:300,height:200,bg-Color:red},n表示樣式長度。節點E描述節點的屬性信息，表示為E(Tag,Attrs,Content),其中Tag表示節點標識，Attrs表示屬性信息，Content表示節點的文本信息。基本樣式樹如圖1所示。

圖1 基本樣式樹

3 基于節點權重的網頁去噪算法

3.1算法基本思想

基于節點權重的去噪算法在VIPS基礎上，將VIPS生成的基本視覺塊樹進行樣式樹的轉化，利用樣式樹節點中的樣式特性，將葉子節點劃分成細粒度的樣式樹，再對樣式樹進行權重標注，根據權重標注進行剪枝，生成去噪頁面。基本流程如圖2所示。

圖2 從樣本頁面到凈化頁面的總體流程

通常生成的樣式樹，無權重表示，在屬性節點的基礎上，引入權重節點的概念。權重節點T表示為QT，記為Q(k,d,t,m)。其中，k表示鏈接比，即當前節點中鏈接數占總鏈接數的比值；d表示樹路徑距離，即當前節點與容器節點在樹形結構上的距離；t表示文本比，即當前節點文本占總文本的比例；m表示節點私有屬性的權重系數。為了使H(Qi)的值落在[0,1]之間，使用節點的標簽個數n將H(Qi)歸一化。

(1)

其中，ki表示第i個標簽的鏈接比；ti表示第i個標簽的文本系數；di表示第i個標簽的樹路徑距離；D表示權重樹中的節點路徑和。

3.2視覺塊樹細粒度化

通常，VIPS生成的視覺樹,只是初步提取了頁面的基本布局信息，粗粒度的視覺塊樹將噪聲和正文融合到了相同的塊中，必須進行細粒度化。此時對生成的樣式樹進行樣式節點和屬性節點的標注。對已經標注完的塊節點，進行子元素的相似度分析。子元素的樣式節點用二元組表示，屬性節點標識為E(Tag,Attrs,Content)，由于li的Styles是以鍵值對的形式存在，在此將鍵值對轉化為樣式系數Ci,將塊標簽Tag表示為HTML中對應的NODE值，此時li表示為(Ti,Ci)。節點相似度判斷如下：

(2)

當相關系數較小時，將子節點進行分裂。采用自頂向下的層次遍歷方式，完成對視覺樹的初步分裂。

3.3細節樹剪枝

此時得到的是一棵基于樣式的視覺樹，在樣式和基本屬性上已經不可細分，在此基礎上進行噪聲的判斷。根據大量線上頁面的統計，噪聲區域往往有比正文區域更多的鏈接比，更少的文本比，以及更淺的樹距離。故此處引入權重節點的概念，對細粒度化的視覺塊樹進行自頂向下的標注，對權重低的節點進行剪枝操作。在初次遍歷的過程中，可進行一次簡單的預處理，對含有樣式樹節點中含有鍵值對display:none和position：fixed的節點進行刪除操作，前者是網頁中不做顯示的元素，后者是懸浮窗，據大量網頁的觀察，兩者都是判斷噪聲節點的重要依據。

剪枝算法描述如下：

(1)獲取樣式樹，設樣式樹為Ti；

(2)For(樣式樹的每個節點Qi)

(3)if(該節點的css屬性中含有position:fixed,display:none等鍵值對時) then

(4)刪除該節點；

(5)Else if

(6)計算出文本比，節點的距離深度，計算權重值H(Qi)；

(7)For(樣式樹的每個節點QT)；

(8)刪除平級節點中權重小的節點。

4 實驗

4.1數據集

為了驗證文中算法的去噪效果，使用該算法對含有噪音的網頁進行處理。考慮到頁面抽取時信息獲取的客觀性，選取網易、新浪等頁面各200個，考研論壇等論壇型網頁200個，從網頁處理的整體效果出發，進行網頁去噪的實驗。

4.2評價指標

在實驗中，常見的評測指標有準確率和召回率。由于準確率和召回率介于[0,1]之間，而且不相互獨立。所以文中引入同時兼顧準確率和召回率的F1，即F-measure，作為綜合評價指標。

準確率為：

P=t0/t1

(3)

召回率為：

R=t0/t2

(4)

其中，t0表示當前頁面被抽取出的正文塊；t1表示當前頁面中全部的正文塊；t2表示被當做正文中抽取出來的信息塊。

由于在F-measure公式中β通常用來調節準確率和召回率的權重，而此處重點考慮的是網頁抽取的準確率和召回率，所以取β為1，最終用來判斷實驗效果的公式如下：

(5)

4.3實驗結果與分析

為了驗證文中算法，分別進行了兩組實驗，結果如表1和表2所示[16]。

表1 文中算法

表2 基于行塊分布函數算法

從上述實驗可以看出，文中算法在準確率和召回率方面要優于基于行塊分布函數算法的頁面處理效果。基于行塊分布函數的方法雖然實現簡單，但是對去除標簽后的文本分塊的數量選取將直接影響網頁正文提取的準確率，而且去除標簽同時也去除了頁面中大量可用的視覺信息，當噪音文本與正文文本混雜時，將會被提取。文中充分考慮了頁面的視覺特征，在當前視覺元素豐富的網頁中,從網頁制作者的方向出發，利用大量的視覺特性，提取視覺系數，再利用正文內容特征，合理去除頁面中的噪音塊，使正文塊更易被識別。

5 結束語

文中在VIPS分塊的基礎上，引入了樣式樹的概念，取消了原有的基于視覺繁雜的啟發式的規則，只使用了VIPS粗粒度的視覺分塊，對粗粒度的視覺塊樹進行細粒度的劃分，進一步考慮了視覺塊之間的相關性，再對標注完權重的樣式樹進行去噪操作。實驗結果表明，該算法可以更好地去除頁面中導航欄等局部噪聲以及隱藏中正文塊的全局噪聲。該算法主要針對主題型頁面、論壇型頁面，但當正文內容和噪音內容相似度較高時，去噪效果不夠理想，這是該算法的局限性。在以后的研究中，將進一步分析這些網頁的特征，尋求改進方法，增強算法的健壯性。

[1] 歐石燕,唐振貴,蘇翡斐.面向信息檢索的術語服務構建與應用研究[J].中國圖書館學報,2016,42(2):32-51.

[2] Witten I H,Frank E.Data mining:practical machine learning tools and techniques[M].[s.l.]:Morgan Kaufmann Publishers Inc.,2011:206-207.

[3] 高琪,張永平.超鏈接導向搜索算法中主題漂移的研究[J].計算機應用,2009,29(11):3100-3102.

[4] 劉華星,楊庚.HTML5-下一代Web開發標準研究[J].計算機技術與發展,2011,21(8):54-58.

[5] 李效東,顧毓清.基于DOM的Web信息提取[J].計算機學報,2002,25(5):526-533.

[6] 胡金棟.網頁正文提取及去重技術研究[D].杭州:浙江大學,2011.

[7] 汪建偉,楊冬青,高軍,等.一種基于分類算法的網頁信息提取方法[J].計算機科學,2008,35(3):91-93.

[8] 王琦,唐世渭,楊冬青,等.基于DOM的網頁主題信息自動提取[J].計算機研究與發展,2004,41(10):1786-1792.

[9] 李文立,王樂超,宋春雷.基于HTML樹和模板的文獻信息提取方法研究[J].計算機應用研究,2010,27(12):4615-4617.

[10] Fu Y,Yang D,Tang S,et al.Using XPath to discover informative content blocks of web pages[C]//Proceedings of third international conference on semantics,knowledge and grid.[s.l.]:[s.n.],2007.

[11] 趙文,唐建雄,高慶鋒.基于統計的中文網頁正文抽取的研究[J].電腦知識與技術,2008(1):120-123.

[12] 孫承杰,關毅.基于統計的網頁正文信息抽取方法的研究[J].中文信息學報,2004,18(5):17-22.

[13] 劉晨曦,吳揚揚.一種基于塊分析的網頁去噪音方法[J].廣西師范大學:自然科學版,2007,25(2):149-152.

[14] 穆瓊.基于視覺特征的網頁清洗研究與實現[D].北京:北京郵電大學,2013.

[15] Yi L,Liu B,Li X.Eliminating noisy information in Webpages for data mining[C]//Proceedings of the 9th ACMSIGKDD international conference on knowledge discovery and data mining.New York:ACM,2003:296-305.

[16] 高慶寧,吳鵬，張晶晶.基于文檔對象模型與行塊分布算法的網頁信息抽取[J].情報理論與實踐,2016,39(4):133-137.

ResearchonWebPageDenoisingMethodBasedonNodeWeight

WANG Jian，ZHANG Jin

(College of Computer,Nanjing University of Posts and Telecommunications,Nanjing 210003,China)

As the network information is increasing continuously,website information is not only an important information resource of users,but also important data source for data mining,information retrieval and other studies.To provide the text information with high quality,website denoising has become a nonnegligible step for webpage processing.With the continuous improvement of webpage making technology,visual elements in webpage are raised increasingly,and the information of webpage node becomes richer and richer.Visual information has been a nonnegligible and important part in webpage denoising.From a user’s point of view,the visual information can immediately reflect the importance of module in the page when browsing the web page.Traditional webpage denoising technology is neglected in the visual characteristics of webpage too much.Facing to the current complex webpage,the denoising effects are decreased greatly.Based on the comprehensive visual information and node information,a noise weight-based denoising method is proposed which fully considers the visual and content characteristics of nodes.The experimental results indicate that its accuracy rate and recall rate is improved to certain content.

vision characteristics;node weight;accuracy rate;recall rate

TP301

1673-629X(2017)10-0083-04

2016-11-15

2017-03-07 < class="emphasis_bold">網絡出版時間

時間：2017-07-19

教育部專項研究項目(2013116)

王健(1991-)，男，碩士，研究方向為大數據。

http://kns.cnki.net/kcms/detail/61.1450.tp.20170719.1110.056.html

10.3969/j.issn.1673-629X.2017.10.018

基于節點權重的網頁去噪方法的研究

0 引 言

1 相關工作

2 樣式樹定義

3 基于節點權重的網頁去噪算法

4 實 驗

5 結束語

0 引言

4 實驗