摘要:在Web頁面常用到表格這種元素。本文提出一種根據表格語義來進行信息抽取方法。首先提出了一種短語語義相似度的度量方法,然后利用短語語義的相似度確定表格標題行(列),并對表格行(列)與抽取字段的對應關系進行計算,最后計算表格的整體語義,度量該表格與所要抽取的內容有多大相關度。
關鍵詞:Web信息抽??;表格;短語語義
中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)12-20ppp-0c
A Research on the Method of Web Information Extraction Based on Table Semantic
YU Cheng-Jian
(Computer Engineering Dept. of Guangzhou City Polytechnic, GuangZhou 510405,China)
Abstract: The table tag is often used in web page. In thispaper a method of web information extraction is presented which is based on table semantic. First, a method for calculating semantic likelihood between two phrase is carried out. Then use the likelihood to determine the title row or column of the table, the correlation between titles and fields is determined at the same time. Base title of the table, a simply method is presented which can be used to calculate correlativity between this table and what we wanted to extract.
Key words: web information extraction; table; phrasal semantic
1 引言
互聯網是一個信息的海洋且高速增長?;ヂ摼W已成為人們獲取信息的重要來源?;ヂ摼W上的信息是海量的、動態的、分布的和非結構化的。在帶給我們豐富的信息的同時,也給我們有效而準確地查找信息帶來了不少困難。Web信息抽取就是從網頁中抽取人們所需要的信息,已成為研究熱點。本文針對Web頁面大量使用表格(TABLE)元素這
一現象,提出一種根據表格的語義進行信息抽取的方法。
2 研究的思路
在互聯網上存在大量的商務信息。抽取信息并進行分析對于商業競爭有重要的意義。根據有關文獻的總結,按抽取所采用的原理和方法的不同,可以將信息抽取方法分成五類:基于自然語言處理方式的信息抽取、基于包裝器歸納方式的信息抽取、基于ontology方式的信息抽取、基于HTML結構的信息抽取和基于Web查詢的信息抽取。
通過對大量的Web頁面進行觀察發現,表格(TABLE)元素被大量使用,粗略分析進來,應該有兩個原因:一、用表格來布置界面。Web頁面是一種純文本文件。各元素在頁面中的顯示位置沒有顯式的說明,而是依賴于客戶端(瀏覽器)根據各元素的順序及大小依次排定。雖然一些標志有一定的定位作用,比如:
和
可以強制分行,
HTML語言是一種基于標志的語言,與表格相關的標志有三個:
| 。很自然會想,能不能通過這些標志來抽取信息呢?顯然,僅根據表格的標志元素來抽取信息,適應性不好。因為這種方法往往要借助于模板,如果頁面改變,需要重新定義。 |
通過分析人在閱讀表格的一些思維過程發現,有兩個因素幫助人們理解一個表格:一方面是表格的形式,行和列的對應關系,這從直觀的角度告訴人們這一表格所展現的內容各個字段的關系。另一方面,每一個格中內容的含義也幫助人們判斷表格的語義,幫助人們表格內容的理解。
要解決好基于表格的Web信息抽取系統必須解決好以下幾個問題:
(1)抽取模板的確定;這主要是根據后續數據挖掘的要求確定要抽取的字段,并對每一個字段進行設置;
(2)識別行表格和列表格;行表格指的是標題在一行;
(3)標題行(列)的識別;
(4)標題與字段的映射,實現信息抽取。將表格的行(列)映射到模板的字段。識別行表格和列表格以及標題行(列)的識別可以放到同一步驟中實現。
3 基于表格語義的Web信息抽取
3.1 模板的設置
標題的確定和信息抽取都離不開模板的支持,模板是整個抽取系統中最重要的一項設置。
模板的設置是針對每一個要抽取的字段而言的。模板應包括以下內容:
(1)字段名稱:希望抽取到的字段的名稱;
(2)關鍵字:這個字段可能對應的關鍵字,之間用逗號隔開;
(3)詞性:字段的詞性,一般而言有數量詞、字符串、貨幣和時間等。
3.2 表格標題的確定
如何確定表格的標題是本文的關鍵問題之一。要確定表格的標題,就必須對標題的特征進行分析。
特征之一:標題單元格的內容與模板中的關鍵字在語義上有較大的相似度。模板中每一個字段都有相應的關鍵字集合,關鍵字集合由人工進行收集。
特征之二:如果是行表格,那么在同一行,標題單元格與其它單格的相似度小,而其他單元格之間的相似度較大。
特征之三:標題與同行(對于行表格而言)單元格之間有屬性上的對應關系。例如,“價格”應對應于數量詞。
根據上面的分析,可以采用了以下幾個步驟來確定表格的標題:
第一步,為了處理的方便,用一個二維數組來存儲表格單元數據;
第二步,對表格中每一個單元的數據進行分詞處理。
第三步,確定每一單元格的置信度。這里所說的置信度是指每一個單元是標題的可能性有多大。我們定義一個規則:計算與模板中關鍵字的語義相似度。可能出現以下情況:
①與其中一個字段的關鍵字的相似度大于0,那么置信度就取該相似度;
②與其中多個字段的關鍵字的相似度大于0,那么置信度就取最大的那個相似度;
③與任何字段的關鍵字的相似度都為0,那么置信度等于0。
第四步,調整各單元的置信度。
基本思路:從兩個方面來考查。
一方面標題單元格與同行及同列單元格的相異度。我們考查列表格即表格的標題在同一列(對于行表格可作類似地分析)。
在同一行,標題與其它單元格是相異,而其它單元格是相似的。比如“價格”這一行,“價格”與“1200元”、“1350元”的相異度大,而“1200元”與“1350元” 的相異度小。
在同一列“價格”與“廠家”、“型號”、“顏色”、“通話時長”、“待機時長” 的相異度大。
設計這樣一種算法,選取任一單元格,讓其與同行和同列的單元格比較,如果相異度較大,則增加該單元格的置信度;如果相異度較小,則該單元格的置信度小幅增加或不增加。例如對于“價格”這一單元格,在行方向要考查與“1200元”、“1350元”的關系,在列方向要考查與“廠家”、“型號”、“顏色”、“通話時長”、“待機時長”等的關系。對每對關系都計算一次該單元格的置信度。
依此類推,對所有的單元格進行同樣的計算。
第四步,確定表格標題所在的行或列。
分別求取各行和各列的置信度的算術平均值,選取平均置信度最大者為標題行或列。
3.3 表格的語義推斷與信息抽取
在確定了一個表格標題所在的行或列的情況下,就可以開始信息抽取了。這有兩個主要的方面:一是整個表格所表達的語義與我們所要抽取信息之間的相關度有多大,例如,如果要抽取手機方面的商業信息,那就應該確定所選定的表格有多大的可能性是一個有關手機的表格;二是確定每一個標題單元與字段的對應關系。
3.3.1 表格的整體語義
表格的整體語義指的是所指表格是否是所要表格,其中的可信度有多大。稍微轉換一下來說就是,一個表格屬于某一類表格的可信度有多少。這容易讓人聯想到的是貝葉斯方法。但貝葉斯方法要求知道先驗概率,但可能有以下兩個問題:一是在Web中存在大量的表格,難以得到關于一類表格的先驗概率;二是由于各種表格太多,先驗概率接近于零。這兩種情況對于使用貝葉斯方法來說都不理想。
因此,本文提出這樣一種度量方法:
(1)從網上找到足夠多的手機行情的表格,對各種字段出現的概率進行統計,字段n的概率表示為P(n);
(2)計算某一表格的整體語義P,公式如下:
3.3.2 標題單元格與字段的對應關系
從上面的討論中已經可以知道:表格的標題所在的行或列,并且知道標題行(列)中的單元格置信度?,F在要解決的問題是標題與抽取字段的對應關系。我們將標題單元格和模板中的字段分別排成兩列,如圖1:
兩兩之間連線,在線上標記出相似度。
從中選取可行的組合,計算相似度的乘積。結果最大的組合為所選的組合。
字段關系確定后,下一步的任務就是從同行(列)的其它單元格抽取內容,填入數據庫中相應的字段。
4 總結
Web上蘊藏著海量的信息。要使機器達到人類的閱讀水平是一件困難的事。這主要是因為一般的文本和Web頁面大量的使用自然語言,而自然語言的處理和理解是人類的各種智能的綜合反映,讓機器來實現難度可想而知。人們希望機器能象人一樣閱讀網頁,并從中提取有用的信息。
本文是根據作者就讀碩士學位時的課題寫成。提出基于表格語義判斷的Web信息抽取進行了研究,做了以下幾項工作:
(1)提出了一種短語語義相似度的度量方法。該方法如下:將短語進行分詞處理;將分詞后的每一個詞映射到一個詞群,開成一個新的基于詞群的串;比較兩個新串中最大的相同系列的數目;用這一數目與短語中的詞的數量進行比較,得出兩個短語的相似度;
(2)提出了利用短語語義的相似度確定表格標題行(列)的方法。通過對表格標題的特征進行分析,制定了每一單元格是標題的可信度的計算方法;然后根據每一單元格的可信度,確定表格的標題行和列;
(3)提出了表格整體語義的評測方法。根據同類表格中關鍵詞的出現概率來計算表格的整體語義是否是一個手機信息的表格;
(4)提出了表格行(列)與抽取字段的對應關系的計算方法。首先把標題單元格中的內容與模板中的關鍵字進行比較,確定單元格與字段的相似度,然后根據相似度乘積最大的原則確定單元格與字段的對應關系。
參考文獻:
[1] 涂承勝,魯明羽,陸玉昌.Web挖掘研究綜述[J].計算機工程與應用,2003(10):90-93.
[2] 涂承勝,魯明羽,陸玉昌.Web內容挖掘技術研究[J].計算機應用研究,2003(11):5-15.
[3] 陳少飛,郝亞南,李天柱,等.Web信息抽取技術研究進展[J].河北大學學報(自然科學版),2003,23(1):106-111.
[4] 孟令謙.基于ontology的中文信息抽取系統的研究與實現[D].成都:電子料技大學,2004.
[5] 李毅.半結構化文檔中語義信息抽取方法的研究[D].北京:清華大學,2004.
[6] 薛惠忠.Web信息的抽取與集成[D].南京:東南大學,2004:4-7.
[7] 張蕾.基于語義的漢語句法分析系統的研究與實現[D].西安:西北大學,2005.
[8] 吳愛珍.HTML表格的抽取與集成[D].武漢:武漢大學,2004.
[9] 李躍進.基于Internet的信息抽取技術的研究[D].大連:大連理工大學,2005.
[10] 朱強,徐鵬,李涓子.半結構化文檔中非標志化表格的抽取[J].計算機工程,2005,31(18):81-83.
[11] 鐘麗娟.基于分類和關鍵詞組抽取的信息檢索算法[J].系統仿真學報,2004,16(5):1009-1014.
[12] 姚天順,朱靖波.自然語言理解——一種讓機器懂得人類語言的研究(第2版).北京:清華大學出版社,2002.
[13] 李保利,陳玉忠,俞士漢.信息抽取研究綜述[J].計算機工程與應用,2003(10):1-5.
[14] 張樹瑜,杜國寧,朱仲英.基于Web的半結構化信息抽取技術研究[J].系統工程與電子技術,2004,26(5):610-612.
[15] 田紅.表格信息抽取引擎的設計與實現[D].西安:西北師范大學,2004.
[16] 高雋.人工神經網絡原理及仿真實例[M].北京:機械工業出版社,2003.
收稿日期:2008-03-04
作者簡介:余承?。?970-),系統分析師,主要從事智能信息處理和數字圖像處理技術方面的研究。
注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”