呂容政,劉嘉勇
(1.四川大學電子信息學院,成都610065;2.四川大學網絡空間安全學院,成都610065)
Web 頁面是目前人們獲取信息的主要方式之一,也是輿情監測、數據分析和處理的一個重要來源。常見的Web 網頁中除了主要的內容外,還包含大量與主題內容無關的噪聲信息,如廣告鏈接、推薦鏈接、導航信息等。因此,過濾網頁中的噪聲信息,抽取網頁的正文內容,具有重要的研究價值和應用前景。現有的常見Web 信息抽取技術有基于特定網站模板,基于視覺特征,基于DOM 結構和基于數理統計。目前基于DOM 樹結構和基于模板的抽取技術得到了廣泛的運用。
基于模板的Web 信息抽取技術是假設網頁使用相同或者相似的模板構建的,這類方法通過具有相同或者相似模板的網頁訓練生成一個通用的模板結構進行網頁的信息抽取。Bar-Yossef 等人[1]采用基于模板的方式進行正文抽取,但是這種方法難以應對網頁結構的更新和修改。Song 等人[2]將文本密度定義為標簽內所有文字與所有標簽數量之比,這種定義對于標簽量大的正文密度評估會有較大偏差,而且計算量較大。基于統計原理的技術在理論上易于實現,但其難點在于確定一個合理的閾值,因此對于內容豐富度網頁差異很大的網頁效果不理想[3]。李偉男等人[4]基于VIPS 算法,提出了改進的隱馬爾可夫模型,實現Web信息抽取。基于VIPS 算法的Web 信息抽取的優點是面對許多表現形式單一、代碼層次上區別很大的網頁時,有很好的抽取性能,但是這種方法需要對網頁進行渲染,相對于其他方法,需要占用更多的計算資源。
在實際應用中,基于密度及文本特征的新聞正文抽取算法往往適應性不高[5]。本文利用節點多個特征,提出一種基于決策樹的自適應網頁的正文抽取方法。本文以網頁中一個葉子結點為單位,分析計算特征向量,然后使用決策樹分類方法判斷節點是屬于正文還是噪聲。之后通過信噪比衡量正文信息和噪聲信息的相對比重,最終抽取出網頁的正文。相對基于文本塊密度和標簽路徑覆蓋率的網頁正文抽取[6],本文引入信噪比有效減少了由于分類錯誤而導致的誤差。另外,通過選取信噪比值最高的結點,可有效避免閾值需要人工確定的問題,實現網頁正文抽取算法的自適應。
對于Web 上的網頁,依據其網頁類型可以將它們分為三類[7]:主題型網頁、Hub 型網頁和圖片型網頁。本文的研究對象是主題型網頁,即從主題型網頁中抽取網頁主題相關的正文信息。由于主題型網頁不僅承載有主體內容,有時還會添加一些導航、推薦或者廣告鏈接。本文將網頁正文定義為以網頁主體內容區域,網頁中其他除主體內容以外的部分定義為噪聲[8]。
考慮到HTML 文檔中