基于決策樹的自適應網頁正文抽取方法

2019-04-12 07:01:42呂容政劉嘉勇

現代計算機 2019年7期

呂容政，劉嘉勇

（1.四川大學電子信息學院，成都610065；2.四川大學網絡空間安全學院，成都610065）

0 引言

Web 頁面是目前人們獲取信息的主要方式之一，也是輿情監測、數據分析和處理的一個重要來源。常見的Web 網頁中除了主要的內容外，還包含大量與主題內容無關的噪聲信息，如廣告鏈接、推薦鏈接、導航信息等。因此，過濾網頁中的噪聲信息，抽取網頁的正文內容，具有重要的研究價值和應用前景。現有的常見Web 信息抽取技術有基于特定網站模板，基于視覺特征，基于DOM 結構和基于數理統計。目前基于DOM 樹結構和基于模板的抽取技術得到了廣泛的運用。

基于模板的Web 信息抽取技術是假設網頁使用相同或者相似的模板構建的，這類方法通過具有相同或者相似模板的網頁訓練生成一個通用的模板結構進行網頁的信息抽取。Bar-Yossef 等人[1]采用基于模板的方式進行正文抽取，但是這種方法難以應對網頁結構的更新和修改。Song 等人[2]將文本密度定義為標簽內所有文字與所有標簽數量之比，這種定義對于標簽量大的正文密度評估會有較大偏差，而且計算量較大。基于統計原理的技術在理論上易于實現，但其難點在于確定一個合理的閾值,因此對于內容豐富度網頁差異很大的網頁效果不理想[3]。李偉男等人[4]基于VIPS 算法，提出了改進的隱馬爾可夫模型，實現Web信息抽取。基于VIPS 算法的Web 信息抽取的優點是面對許多表現形式單一、代碼層次上區別很大的網頁時，有很好的抽取性能，但是這種方法需要對網頁進行渲染，相對于其他方法，需要占用更多的計算資源。

在實際應用中，基于密度及文本特征的新聞正文抽取算法往往適應性不高[5]。本文利用節點多個特征，提出一種基于決策樹的自適應網頁的正文抽取方法。本文以網頁中一個葉子結點為單位，分析計算特征向量，然后使用決策樹分類方法判斷節點是屬于正文還是噪聲。之后通過信噪比衡量正文信息和噪聲信息的相對比重，最終抽取出網頁的正文。相對基于文本塊密度和標簽路徑覆蓋率的網頁正文抽取[6]，本文引入信噪比有效減少了由于分類錯誤而導致的誤差。另外，通過選取信噪比值最高的結點，可有效避免閾值需要人工確定的問題，實現網頁正文抽取算法的自適應。

1 特征向量提取

對于Web 上的網頁，依據其網頁類型可以將它們分為三類[7]：主題型網頁、Hub 型網頁和圖片型網頁。本文的研究對象是主題型網頁，即從主題型網頁中抽取網頁主題相關的正文信息。由于主題型網頁不僅承載有主體內容，有時還會添加一些導航、推薦或者廣告鏈接。本文將網頁正文定義為以網頁主體內容區域，網頁中其他除主體內容以外的部分定義為噪聲[8]。

考慮到HTML 文檔中

1.1 標簽語義

目前HTML 文檔結構都遵從于w3c 制定的規范,因此部分標簽可能一定的語義[10]。例如

互信息用于表示信息之間的關系，是兩個隨機變量統計相關性的測度，衡量的是某個特征向量和特征類別之間的統計相關性[11]，因此本文采用互信息方法提取標簽語義維度的特征向量，計算公式如公式（1）：

其中，MI 是標簽的互信息量，m 為標簽類別數，P（ci）表示類別ci 的概率，P（t,ci）表示包含特征t 且屬于類別ci的概率；P（t）表示特征t 的概率。

互信息量較高的向量通常在某個類別ci中出現的概率高，而在其他文本類別中出現概率低，也就可能被選作類別ci的特征。為了探明某個標簽的語義，本文通過對鳳凰網988 篇已知正文和噪聲的網頁樣本進行了統計，然后計算向量互信息,其中網頁樣本中正文標簽節點的數目為30304，噪聲樣本共含有331043 個節點，經過統計得出結論如表1。

表1 正文與噪聲樣本中標簽數量與互信息量

如表1，經過互信息計算，可以得出

1.2 標簽文本密度

在標簽文本密度向量上，胡俊等人[12]對于網頁的文本密度定義為長文本標簽比LTR，設T 是DOM 樹或其子樹，長文本標簽比LTR 為T 中非鏈接長文本節點的文本長度總和與T 中非鏈接標簽數量的比值。這種方法要提前設置長文本的閾值，對于不同的網頁文本的閾值不一樣，在這種情況下，以上定義方法不能很好地表征不同的網頁。通常情況下正文的文本密度比較集中，噪聲文本為分散文本，文本字符長度會比較小，因此本文將一個標簽內去除停用字符剩下的有效字符數定義為標簽所含的文本密度，計算如公式（2）。

其中Tn表示第n 個葉子結點的文本密度，ci表示一個有效字符，m 表示當前葉子結點以內的有效字符個數。

這種計算方法在網頁壓縮的情況下仍然能夠表征文本密度向量。根據w3c 規范，標簽節點上可以有指定的屬性，但屬性只是負責控制顯示樣式，因此與標簽內的文本沒有關系。這種文本密度的計算方法有效地防止了標簽上添加過多的屬性導致文本密度減小問題。

本文采用統計的方法得出文本標簽文本密度向量的概率密度分布。本文對988 篇有效網頁的DOM 文檔的正文與噪聲葉子節點密度進行了統計并得出相關直方圖與概率分布圖。正文節點文本密度概率分布圖如圖1，噪聲節點文本密度概率分布圖如圖2 所示。

圖1 正文樣本中節點文本密度概率分布圖

圖2 噪聲樣本中節點文本密度概率分布圖

從直方圖與概率分布圖中可以看出，正文部分的文本密度分布比較廣泛，因為一般正文部分以一個標簽包含一個自然段的內容。而噪聲區域的文本密度量大多都小于20，因為噪聲區域的大多是一些簡短的導航或者鏈接。

1.3 標簽兄弟節點相似度

在網頁當中，往往正文都是經過特定編輯器編輯產生，而編輯器大多采用某些固定的模板來排版。因此功能區域相同的區塊往往標簽都具有相似性。本文將擁有相同父節點的DOM 結點定義為兄弟節點，本文定義兄弟節點的相似度為兄弟節點之間標簽類別相同數量。

如圖3，圖中1、2 號標簽在同一父節點下有兩個相同的標簽，因此，兄弟節點相似度為2。同理4、5、6 號節點的兄弟節點相似度為3。而7、8 號標簽在同一個父節點下除了節點本身沒有其他與之相同的標簽，因此相似度為1。

圖3 標簽兄弟節點相似度示意圖

對于兄弟節點相似度，本文同樣采用統計的方法獲得兄弟節點相似度直方圖與概率分布圖。本文最終獲取到988 篇有效樣本。正文節點標簽相似性直方圖與概率分布圖如圖4，噪聲節點標簽相似度直方圖與概率分布圖如圖5。

圖4 正文樣本標簽兄弟節點相似度概率分布圖

圖5 噪聲樣本標簽兄弟節點相似度概率分布圖

從圖4 與圖5 可以得出，正文當中的標簽會出現兄弟節點相似度很大的節點，而噪聲當中很少出現類似的節點。這是因為正文當中有大量的語句，往往一條語句由同一種標簽包含，因此相似度高。而噪聲區域鏈接、推薦、廣告等內容相對分散，故節點相似度相對較低。

1.4 標簽外鏈

外鏈是互聯網的血液，是鏈接的一種；沒有鏈接的話，信息就是孤立的，結果就是我們什么都看不到。一個網站是很難做到面面俱到的，因此需要鏈接到別的網站，將其他網站所能補充的信息吸收過來。但是這對于網頁正文信息來說是屬于噪聲信息。通過遍歷DOM 樹節點信息獲取

2 正文抽取算法

在對一篇網頁訓練或者處理之前，首先需要進行預處理。考慮到

本文用以文本為主體內容的網頁進行分析，從“標簽語義”、“文本密度”、“兄弟節點相似度”以及“標簽外鏈”四個特征來分析網頁的正文內容與噪聲。將HT?ML 標簽葉子節點分為兩類，正文類與噪聲類，正文記為Y，噪聲記為N，記類別集合C，那么有C={Y,N}。一個HTML 標簽節點可以由以下特征來描述：

（1）標簽語義，如

（2）標簽文本密度，一般來說，文本量越大，越有可能是正文，標記為T。

（3）標簽相似兄弟節點相似性，標記為S。

（4）標簽的外鏈，一般來說正文部分是不包含外鏈接的，標記為L。

所以HTML 葉子節點的特征向量可以表示為：{M,T,S,L}，根據決策樹分類算法，在構建決策樹時需要計算估計每個特征向量的信息增益[13]，本文通過對988 篇來自鳳凰新聞網頁的有效樣本做統計，以每篇網頁的DOM 樹葉子結點作為一個樣本，根據統計結果得到網頁正文與噪聲在HTML 文檔中的分布特征。根據四個特征向量的特征計算每個特征向量的信息增益，建立決策樹模型，根據建立好的決策樹將DOM 樹葉子結點分類為正文與噪聲；然后根據分類結果計算每個DOM樹中非葉子節點的信噪比，選取信噪比最高的DOM 節點即為網頁正文區域。

2.1 DOM樹葉子節點分類

對于一個未知類別的節點，根據決策樹分類的方法，按如下步驟對一個節點進行分類：

（1）設node={M,T,S,L}分類的一個節點。

（2）當前對一個葉子節點進行分類，僅有兩種可能C={Y,N}，其中Y 表示當前節點是正文，N 表示當前節點是噪聲。

（3）首先選定標簽語義特征向量M 來劃分所有的樣本，根據公式（3）計算標簽語義特征向量M 的信息熵，然后通過公式（3）：

其中Gain 表示節點的復雜度，Gain 越高，說明復雜度越高。信息增益說白了就是分裂前的數據復雜度減去孩子節點的數據復雜度的和，信息增益越大，分裂后的復雜度減小得越多，分類的效果越明顯。節點復雜度可以由公式（4）：

其中Pi表示類i 的數量占比。以二分類問題為例，如果兩類的數量相同，此時分類節點的純度最低，熵等于1；如果節點的數據屬于同一類時，此時節點的純度最高，熵等于0。同理對于其他三個特征向量，通過公式（3）和公式（4）得出信息增益。

（4）由四個特征向量的信息增益構建出二叉樹，最終得到分類結果。

2.2 自適應正文提取

經過上一階段的分類，將一片HTML 文檔中每一個DOM 樹葉子節點分為了正文或者噪聲兩類。在自適應正文提取階段，本文通過計算DOM 樹中每一個非葉子節點的信噪比,選取信噪比最高的DOM 節點即為正文區域。本文使用公式（5）定義一個DOM 樹非葉子節點的信噪比。

其中x 表示某一結點，mi表示x 的子節點，I（mi）表示一個正文子節點的信息量，n 表示當前結點的直接子結點數目。I（mi）的計算方式如公式（6）。

其中α表示正文兄弟節點相似度。ci表示正文結點內的一個有效字符。N（mi）表示一個噪聲子節點的噪聲量，DOM 樹葉子節點標簽所含的噪聲量計算方式如公式（7）。

其中β表示噪聲兄弟節點的相似度，li表示噪聲結點內的一個有效字符。為了防止父節點和子節點中所含信息與噪聲相等，信噪比相同，最終導致提取正文不夠精確，引入一個衰減系數λ（λ＞1）。信噪比越高，表示節點信息所含有的信息量越大，信噪比越小，表示網頁當中的無用信息越多，或者是文章主體內容不明顯。考慮到標簽的信息含量不僅與所含文本相關，而且相同的標簽在同一功能區具有協同作用，因此本文α和β取值均為該結點兄弟節點相似度的值。

通過計算每個DOM 樹非葉子結點的信噪比，選取信噪比最大的節點就是網頁正文區域，相對于向菁菁等人[14]只針對單一的新聞網頁的正文抽取，本文通過信噪比得出網頁正文區域的這種方式無需根據網頁的類別調整閾值，因此具有對不同網頁的適應能力。

3 實驗結果與分析

3.1 葉子結點分類結果分析

本文通過Python 編寫數據采集程序從網易新聞、騰訊新聞、CCTV.com、人民網、新浪網和搜狐網六個網站采集樣本，并精確定位1000 個樣本的正文與噪聲，存儲在本地磁盤。在計算過程當中，忽略掉因為格式或者編碼等原因出錯的12 篇網頁，去除

表2 DOM 樹葉子結點分類結果混合矩陣

由表2 可知，通過決策樹分類算法所提取的四個特征向量對于噪聲節點的分類效果比較好，但是對于正文節點的分類效果相對較差，這是因為一些網頁中正文部分會夾雜一些文本長度短、外鏈接等元素，這些類型的節點更加符合噪聲的特征，因此被誤判。所以本文中節點分類僅僅是本文噪聲提取的其中一步，在計算非葉子結點信噪比時，正文中所混雜的少量噪聲和噪聲中被誤判為正文節點會被“平滑”。因此在本文的分類結果可以適用。

3.2 正文提取實驗及結果

正文抽取的評判標準為通過算法抽取正確性與實際精確定位的網頁正文相比較，相似度超過95%即判斷為抽取正確。本文使用向量空間模型[15]，將兩篇待對比的文章使用詞頻向量表示，通過計算兩個向量之間的夾角判斷文本的相似度。本文使用開源DOM 樹解析庫XPath 結合正則表達式精確定位正文與噪聲，經過XPath 與正則表達式提取到的正文可以認為是標準正文。

正文提取的實驗數據和DOM 樹分類實驗的數據一樣，通過特征向量提取章節提取特征向量{M,T,S,L}，然后計算出四個特征向量的信息熵，構建出決策樹分類模型，將樣本分為正文類與噪聲類；然后根據分類結果計算每一個DOM 樹非葉子節點的信噪比，根據信噪比的大小最終得到DOM 樹節點的正文區域。

本文選取陳西安[16]的智能Web 新聞文本采集方法研究和楊柳青等人[17]基于布局相似性的網頁正文內容提取研究作為對比實驗，以正文抽取的準確性作為評價指標。文獻[16]研究方法是一種基于文本標簽特征挖掘的網頁正文提取方法。文獻[17]楊柳青等基于布局相似性的網頁正文內容提取研究，該算法基于同一網站下的網頁具有在內容布局和樣式結構上非常相似的特點，本質上是一種基于模板的正文抽取算法。算法當中的相關參數根據訓練樣本調整為作者論文當中給出的最優參數。本文的網頁正文抽取算法并不需要其他額外的閾值設定。

實際測試樣本從網易新聞、騰訊新聞、CCTV.com、人民網、新浪網和搜狐網和六個新聞網站主頁上抓取以主題型的有效網頁，每個網站中的網頁來自五個不同的專題或頻道，總共1200 篇。分別用三種算法做正文提取，實際抽取結果正確率對比表如表3。

表3 正文抽取結果對比表

由表4 結果可以看到，相對于文獻[16]陳西安的網頁抽取算法，在新聞網頁的抽取準確性上相對較高，但是在某些類型網頁上抽取準確率相對更低，適本文算法對于不同的網站適應性更強，這是因為在他的網頁抽取算法當中，算法需要確定一個閾值，該閾值根據經驗選取，但是對于不同種類的網頁，最優閾值很可能發生變化，因此算法對不同類型網頁表現出不穩定。相對于文獻[17]楊柳青等的網頁正文的算法，因為基于布局相似性的原理，所以對于網頁布局變化小的站點比較適用，并且抽取速度較快，從表4 可以看到該方法在新聞類網站上的抽取效果顯著，對于搜狐網站的抽取正確性相對較低。由于網頁的輕微修改就可能對正文的抽取產生很大干擾，以至于不能正確抽取網頁正文，所以該方法對某些站點的正文提取正確率不高。本文以DOM 樹結點為單位，使用四個維度的特征向量提高對網頁內容的表征性，根據信噪比來自適應確定正確區域，抽取結果表明，本算法適應性好，性能穩定，相對于另外兩種正文抽取算法本算法的準確性更高和適應性更強。

4 結語

本文提出的基于決策樹的自適應網頁正文抽取算法能夠有效提取出HTML 網頁當中的正文部分。算法選取了四個相互獨立，同時又能較好地表征文本屬性的向量，利用決策樹分類算法將DOM 樹葉子節點做分類，然后借鑒通信工程領域的信噪比定義，有效地“平滑”了由分類錯誤帶來的誤差，最終實現了網頁正文抽取。本算法根據樣本訓練出的模型能夠很好地適應不同類型題材的未知樣本，模型訓練完成，對于不同類型的網頁不再需要額外調節參數，因此適應性比較強。在實際程序實現當中，由于需要遍歷DOM 樹的所有非葉子節點，并計算信噪比，對于DOM 結構復雜的網頁所需時間相對較長。是否必須對所有非葉子節點都遍歷并計算信噪比，日后將做進一步研究，以減小算法運行的時間代價。