一種DOM樹標簽路徑和行塊密度結合的Web信息抽取方法

2017-09-18 21:38:56馬曉慧李泓瑩

智能計算機與應用 2017年4期

馬曉慧++李泓瑩

摘要：本文提出了一種標簽路徑和行塊分布函數相結合的信息抽取方法來實現Web頁面的信息抽取。該方法將Web頁面解析成DOM樹，使用視覺特征和標簽過濾的規則將樹進行剪枝，引入標簽路徑特征的方法粗略劃分出網頁的正文內容和噪音內容，最終使用行塊分布函數的方法進行抽取，獲得正文文本。實驗結果表明，這種抽取方法有效地防止了正文內容誤刪及噪音內容漏刪的現象，使得提取的正文信息更加準確，準確度達到91%，召回率達到95%，F值達到93%。本算法對于包含過多短文本的網頁抽取的準確度還有待提高。

關鍵詞： DOM樹；視覺特征；標簽路徑特征；行塊分布函數

中圖分類號：TP391

文獻標志碼：A

文章編號：2095-2163（2017）04-0013-05

0引言

Web頁面是目前人們獲取信息的主要方式之一，也是輿情監測、數據分析和處理的一個重要來源。常見的Web頁面除了包含有用的正文信息外，還包含了大量的與正文主題無關的鏈接、圖片、腳本等內容。因此，從紛雜的信息中快速準確地提取所需信息就顯得尤為重要，Web頁面的信息抽取也成為了研究的一個熱點問題。

劉秉權[1]等提出了基于DOM樹的方法，根據HTML標簽把網頁解析為一顆樹，在樹上通過DES算法、MDR算法等應用算法抽取網頁中有效信息。聶卉[2]等深入研究了一種基于GATE語義標注的Web信息自動抽取技術，這種技術通過領域本體對網頁進行語義標注準確定位目標項，再通過從構建好的DOM樹中抽取語義項的特征描述構建樣本實例，最后運用歸納算法實現抽取。陳鑫[3]則重點探討了在經過初步過濾后的HTML中，結合正文區的密度，以行為自變量，行塊長度為因變量建立線性行塊分布函數，通過分布函數圖找出閾值，從而得到有效的正文內容。朱澤德[4]等建立了一個融合結構和語言特征的統計模型，利用高斯平滑運算對密度序列進行計算以獲取平滑文本密度，再由最大子序列分割平滑文本密度抽取正文內容。張乃洲等[5]用節點密度熵為度量分割DOM樹，再采用K最近鄰標簽傳播的半監督法和SVM分類器對頁面進行分類，抽取有用類。微軟亞洲研究院[6]最早開展了基于視覺特征的信息抽取技術研究，可將人對一個網頁的視覺感受作為依據，區分出不同主題的主題塊，對所需主題塊進行提取。孫璐等人[7]還在此方法基礎上做出了實用升級改進，利用VIPS算法將去除無關信息的DOM樹來拓展執行語義分塊，而后根據位置特征找到基準塊，以此作為中心，遍歷DOM樹找到所有相似塊并引入抽取處理，提高了抽取效率。此外，還有基于模板的技術。顧韻華等人[8]在領域本體的引導下建立了雙模板——DIV塊模板和表格模板，可用其分別實現粗粒度和細粒度的信息抽取。郭少華等[9]基于模板提出正交過濾算法，過濾掉模板中的噪音信息，改善了生成的模板。隨著研究的深入，后期出現了基于機器學習等多種抽取技術，在上述抽取方式中，以DOM樹方法應用最為廣泛。本文即在DOM樹的基礎上提出了一種根據標簽特征、行塊分布函數以及鏈接密度精確抽取正文的方法。研究設計內容可做如下論述。

[BT4]1抽取系統實現框架

本文致力于探討的這種研究方法大致可分為3步。首先將經過規范化的網頁解析成DOM樹，由標簽過濾和鏈接密度過濾的方式去除不必要的分枝，使一顆結構復雜的樹簡潔化。其次，遍歷DOM樹，對樹中的所有標簽路徑、文本標簽及標點個數提供數理運算統計，分別計算所有可到達文本長度之和與標簽路徑的比值和所有可到達標點路徑之和與標簽路徑的比值，大致區分正文和噪音部分。最后，使用行塊分布函數法對已劃分出的正文和噪音完善推演、并設計進一步的過濾、抽取，最終能夠高精度地從網頁中抽取得到有效信息。

[BT5]1.1構建DOM樹

DOM樹具有結構性強，將無序網頁有序化的特點，能夠清晰地展示一個網頁的結構。因此，為了使網頁結構更加直觀，方便正文抽取工作，首先可將網頁轉換成DOM樹。設計過程可詳述如下。

1.1.1規范化HTML語法

在將網頁解析成DOM樹前，需使用W3的HTML Validator工具檢驗HTML代碼是否合法，對不合法的代碼進行修正，獲取規范的HTML文檔。本文所采用的部分語法規范準則如表1所示。

1.1.2解析DOM樹

通過標簽屬性對，將獲取的HTML文檔解析為一顆以html為根節點的DOM樹，現以圖1所示網頁為例，解析后生成的DOM樹結構如圖2所示。

1.2降噪處理

初步構建好的DOM樹分支多，其中大量分支放置著無意義內容，如腳本信息、鏈接廣告等。這樣的樹若是不拓展設置降噪環節，不但會將之后正文抽取的工作復雜化，還會在一定程度上降低抽取的效率和精確度。本文用視覺特征和標簽過濾的方法對網頁做降噪處理，對通常不含正文文本內容的標簽做剪枝處理，得到一個簡潔的DOM樹。這里將給出研究分述如下。

1.2.1視覺特征降噪

經比對多個網頁發現，大量的網頁布局基本類似，都由head、foot、right、left、center這5個區域中的任意幾個構成，其中97%的網頁均含有head、foot區域，right、left區域選擇性擁有。以圖1為例，對應的區域結構則如圖3所示。

[JP2]參閱文獻[10]所示，依據其中提出的可視布局去除網頁噪音的算法，去除網頁中的head，foot區域。設計得到步驟如下：[JP]

1）顯示已解析的DOM樹，由此獲取網頁實際大小。

2）由網頁的實際大小分別得出上、下邊界的閾值，相應記為top、lower。

3）將網頁內除body標簽外的所有元素取得的絕對坐標及其實際大小同由閾值劃分的區域展開比較。以任一元素Element為例，其所屬區域左上角的原點絕對坐標為（X，Y），且設定所占區域大小為（Height，Width）。若Element.Y+Element.Height<=top，則元素Element屬于head。若Element.Y>=lower，則元素Element屬于foot。據此規則對DOM樹進行遍歷，對區域進行劃分，去除head、foot區域，實現初步噪音處理。未去除的元素均暫時作為正文。endprint

1.2.2標簽過濾

在初步獲取的正文文本中，可能包含right、left區域，這些區域中的元素都作為正文包含其中，需要通過標簽過濾的方式再次去除網頁噪音。這里的標簽過濾分為2種，一種是過濾不含正文的標簽，另一種是通過鏈接密度過濾正文中難以識別的超鏈接。

[JP2]網頁中的標簽大體可分為2類，一類是構建網頁框架，顯示正文文本的有用標簽，一類是用來修飾網頁使其美觀的無用標簽。本文的目的是抽取正文信息，因此需刪去DOM樹上的無用標簽，如：script和hidden的標簽及其內容，文本樣式修飾標簽

[BT4]2實驗數據比對與分析

[JP2]為驗證本抽取方法的有效性，隨機爬取了新聞、軍事、體育和財經等4種類型的800個網頁，使用單一的基于視覺特征網頁信息抽取[11]方法、行塊分布函數分別進行抽取，并同本抽取方法展開了研究對比。[JP]

[BT5]2.1實驗數據集

本文的數據集來源于8個網站，分別是：今日頭條、環球網、網易軍事、新浪軍事、搜狐體育、體壇周報、東方財富、鳳凰財經，從中隨機抽取800個網頁，因而得到抽取網頁數據的結果信息則如表2所示。

[BT5]2.2評價標準

在從Web頁面中抽取有效信息的實驗中，采用準確率（Precision）、召回率（Recall）和F 值作為實驗結果的性能評估指標。準確率、召回率、F值的計算公式可分見公式（4）～（6）。

P=〖SX（〗TP〖〗TP+FP〖SX）〗[JY]（4）

R=〖SX（〗TP〖〗TP+FN〖SX）〗[JY]（5）

F=〖SX（〗2PR〖〗P+R〖SX）〗[JY]（6）

其中，TP為抽取出的所有信息中的有效信息量，FP為抽取出的所有信息中包含的無效信息量，FN為未被抽取出的信息中的有效信息量。

2.3比對結果及分析

在抽取的這8個網站中，今日頭條網站中含有噪音內容較少，正文以段落長文本為主體，無圖片及鏈接的干擾。環球網、體壇周報與新浪軍事網結構類似，噪音內容集中在頭部、尾部及右側區域，正文中有圖片插入，文字為長文本。網易軍事網站中的網頁正文區域以圖片為主，文字為輔，文本內容較少，多為1～2句話。搜狐體育除以長文本構成的正文區域外，右側區域也含有比賽時間這類短文本正文內容。東方財富與鳳凰財經這2個財經類網站的正文中有大量短句格式，二者區別在于，東方財富中網頁內容均由短句、數字構成，而鳳凰財經中網頁內容中除短句外也含有長文本，廣告鏈接插在正文中。

將研究選用的800個網頁分別用視覺特征網頁信息[11]的方法、行塊分布函數法與本文方法進行信息抽取，抽取結果如表3所示。由表3中的數據可以看出，本文方法的抽取效果較為理想，但對于包含過多短文本的網頁抽取的準確度還有待提高。

3結束語

[HT5”SS][ST5”BZ][WT5”BZ]

本文提出了一種Dom樹標簽路徑剪枝和行塊密度結合的Web信息抽取方法。將Web頁面解析成DOM文檔，在此基礎上根據路徑標簽比和行塊分布函數對信息進行抽取，獲取精確度頗高的抽取結果。經實驗表明，本文研發方法的準確率達到91%，由此可知方法設計效果高效可行，但對于類似財經類這種包含過多短文本的網頁，對其抽取的準確度還有待后續的改進提高。在今后的研究中，將對本文方法設計引入進一步優化處理，擴大抽取方法的適用范圍，提高抽取系統的性能。

參考文獻：

劉秉權，王喻紅，葛冬梅，等. 基于結構樹解析的網頁正文抽取方法[C]//黑龍江省計算機學會2007年學術交流年會論文集. 大慶：黑龍江計算機學會，2007：14-17.

[2] 聶卉，黃貴鵬. 基于GATE語義標注的Web信息的自動抽取[J]. 圖書情報工作，2010，54（5）：110-114.

[3] 陳鑫. 基于行塊分布函數的通用網頁正文抽取[EB/OL]. [2016-02-23]. https：//www.doc88.com/p-912707793066.html.

[4] 朱澤德，李淼，張健，等. 基于文本密度模型的Web 正文抽取[J]. 模式識別與人工智能，2013，26（7）：667-672.

[5] 張乃洲，曹薇，李石君. 一種基于節點密度分割和標簽傳播的Web頁面挖掘方法[J]. 計算機學報，2015，38（2）：349-364.

[6] Cai Deng，Yu Shipeng， Wen Jirong， et al. VIPS： A visionbased page segmentation[R]. Redmond， WA：Microsoft corporation，2003.

[7] 孫璐，陳軍華，廉德勝. 一種基于視覺特征的Deep Web信息抽取方法[J]. 計算機與數字工程，2016，44（6）：1107-1111，1126.

[8] 顧韻華，高原，高寶，等. 基于模板和領域本體的Deep Web信息抽取研究[J]. 計算機工程與設計，2014，35（1）：327-332.

[9] 郭少華，郭巖，李海燕，等. 可擴展的網頁關鍵信息抽取研究[J]. 中文信息學報，2015，29（1）：97-103.

[10]荊濤，左萬利. 基于可視布局信息的網頁噪音去除算法[J]. 華南理工大學學報（自然科學版），2004，32（S1）：84-87，98.

[11]安增文，徐杰鋒. 基于視覺特征的網頁正文提取方法研究[J]. 微型機與應用，2010（3）：38-41.[ZK）][FL）]endprint

智能計算機與應用2017年4期

智能計算機與應用的其它文章: 一種基于Java Web的敏感詞過濾方法研究與實現; 輕量級加密算法mCrypton的不可能差分分析; 一種串并聯汽車模擬器的控制設計與實現; 基于TV—維納濾波的散斑噪聲抑制; 一種基于線性回歸的新型推薦方法; 機車接地燈診斷電路故障的Multisim仿真