鄒永強,鐘志農
(國防科技大學 電子科學與工程學院,湖南 長沙410073)
目前,互聯網的網頁除了表達主題的文本內容之外,還常常包括與主題無關的導航區、超鏈接、廣告信息、版權信息等噪聲信息。這些噪聲對后續處理是十分不利的,一方面它增加了處理的工作量,耗費了不必要的資源;另一方面它使得處理的效果大打折扣,使結果出錯的概率大大增加。因此網頁噪聲過濾是每個面向網絡文本處理的應用技術都要考慮的,尤其是在網絡文本挖掘和網絡人物追蹤等對精度和速度要求都比較高的應用中,其重要性更是不言而喻。
網頁噪聲過濾的目的是快速準確地識別并清除網頁內的噪聲,它是提高各種網頁分析系統性能的一項關鍵技術。許多學者為了提高網頁濾噪的準確度和效率進行了卓有成效的研究,紛紛提出各自的方法并且不斷加以改進[1-6]。而參考文獻[7]提出了一種快速且簡單的正文提取方法,它不需要構造DOM樹而是直接把HTML源文件看作是文本塊的集合,僅通過分析每個文本塊的字符數就可以提取出正文。與基于DOM的方法相比,這種方法在處理速度上有很大的優勢。
本文在分析總結新聞網頁特征的基礎上利用基本文本塊的字符數統計規律,提出了一種高效的過濾方法,它有很高的提取準確率和過濾速度,并且此方法在提取出新聞正文文本的同時還提取出了新聞網頁的標題和報道時間。
盡管網頁結構、網頁布局千差萬別,但還是有一定的規律可循。在參考文獻[7]中,網頁源文件被分割成多個文本塊,然后根據文本塊字符數的統計規律,在通過一定的處理后得到nshort和nlong兩個閾值,最后根據這兩個閾值得到要提取的文本塊集合。該方法處理速度較快,但是精度上卻有所欠缺,而且會發生大段文本塊遺漏的現象。問題主要出在閾值的選取上,本文希望通過對參考文獻[7]的方法進行改進從而提高提取精度、減少文本塊的遺漏,同時實現新聞標題和報道時間的提取。
新聞網頁一般包括新聞標題、新聞報道時間、作者、新聞正文等新聞有效信息,也常常包括導航區、超鏈接、版權信息以及圖片控件廣告等噪聲信息。通過大量觀察發現新聞有效信息絕大多數處于網頁源文件的中間位置,而且由相對較長且位置緊湊的多個段落組成。這些緊挨著的段落字數多少不同,中間還可能插有少量的鏈接。而噪聲信息一般來說字數比較少,而且大多一般處在邊緣位置。
再來看新聞網頁HTML源文件的特征。HTML源文件由各種標簽和標簽所修飾的內容組成。這些標簽根據作用的不同可以分為網頁布局元素(如