999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于表格語義的Web信息抽取方法的研究

2008-12-31 00:00:00余承健
電腦知識與技術 2008年12期

摘要:在Web頁面常用到表格這種元素。本文提出一種根據表格語義來進行信息抽取方法。首先提出了一種短語語義相似度的度量方法,然后利用短語語義的相似度確定表格標題行(列),并對表格行(列)與抽取字段的對應關系進行計算,最后計算表格的整體語義,度量該表格與所要抽取的內容有多大相關度。

關鍵詞:Web信息抽??;表格;短語語義

中圖分類號:TP393文獻標識碼:A文章編號:1009-3044(2008)12-20ppp-0c

A Research on the Method of Web Information Extraction Based on Table Semantic

YU Cheng-Jian

(Computer Engineering Dept. of Guangzhou City Polytechnic, GuangZhou 510405,China)

Abstract: The table tag is often used in web page. In thispaper a method of web information extraction is presented which is based on table semantic. First, a method for calculating semantic likelihood between two phrase is carried out. Then use the likelihood to determine the title row or column of the table, the correlation between titles and fields is determined at the same time. Base title of the table, a simply method is presented which can be used to calculate correlativity between this table and what we wanted to extract.

Key words: web information extraction; table; phrasal semantic

1 引言

互聯網是一個信息的海洋且高速增長?;ヂ摼W已成為人們獲取信息的重要來源?;ヂ摼W上的信息是海量的、動態的、分布的和非結構化的。在帶給我們豐富的信息的同時,也給我們有效而準確地查找信息帶來了不少困難。Web信息抽取就是從網頁中抽取人們所需要的信息,已成為研究熱點。本文針對Web頁面大量使用表格(TABLE)元素這

一現象,提出一種根據表格的語義進行信息抽取的方法。

2 研究的思路

在互聯網上存在大量的商務信息。抽取信息并進行分析對于商業競爭有重要的意義。根據有關文獻的總結,按抽取所采用的原理和方法的不同,可以將信息抽取方法分成五類:基于自然語言處理方式的信息抽取、基于包裝器歸納方式的信息抽取、基于ontology方式的信息抽取、基于HTML結構的信息抽取和基于Web查詢的信息抽取。

通過對大量的Web頁面進行觀察發現,表格(TABLE)元素被大量使用,粗略分析進來,應該有兩個原因:一、用表格來布置界面。Web頁面是一種純文本文件。各元素在頁面中的顯示位置沒有顯式的說明,而是依賴于客戶端(瀏覽器)根據各元素的順序及大小依次排定。雖然一些標志有一定的定位作用,比如:

可以強制分行,

可以實現的層位置可以較隨意。但相對于其它語來說,排版的功能相當有限。為了內容組織和頁面美觀的需要,大量的Web頁面使用了表格元素。二、便于意義的表達。用表格來表達產品的特性,直觀、簡潔明了,便于用戶閱讀。這樣做有以下幾個優點:顧客瀏覽方便;同類商品可以使用同一模板,網站的開發方便;便于與后臺的數據庫對應。

HTML語言是一種基于標志的語言,與表格相關的標志有三個:

、和
。很自然會想,能不能通過這些標志來抽取信息呢?顯然,僅根據表格的標志元素來抽取信息,適應性不好。因為這種方法往往要借助于模板,如果頁面改變,需要重新定義。

通過分析人在閱讀表格的一些思維過程發現,有兩個因素幫助人們理解一個表格:一方面是表格的形式,行和列的對應關系,這從直觀的角度告訴人們這一表格所展現的內容各個字段的關系。另一方面,每一個格中內容的含義也幫助人們判斷表格的語義,幫助人們表格內容的理解。

要解決好基于表格的Web信息抽取系統必須解決好以下幾個問題:

(1)抽取模板的確定;這主要是根據后續數據挖掘的要求確定要抽取的字段,并對每一個字段進行設置;

(2)識別行表格和列表格;行表格指的是標題在一行;

(3)標題行(列)的識別;

(4)標題與字段的映射,實現信息抽取。將表格的行(列)映射到模板的字段。識別行表格和列表格以及標題行(列)的識別可以放到同一步驟中實現。

3 基于表格語義的Web信息抽取

3.1 模板的設置

標題的確定和信息抽取都離不開模板的支持,模板是整個抽取系統中最重要的一項設置。

模板的設置是針對每一個要抽取的字段而言的。模板應包括以下內容:

(1)字段名稱:希望抽取到的字段的名稱;

(2)關鍵字:這個字段可能對應的關鍵字,之間用逗號隔開;

(3)詞性:字段的詞性,一般而言有數量詞、字符串、貨幣和時間等。

3.2 表格標題的確定

如何確定表格的標題是本文的關鍵問題之一。要確定表格的標題,就必須對標題的特征進行分析。

特征之一:標題單元格的內容與模板中的關鍵字在語義上有較大的相似度。模板中每一個字段都有相應的關鍵字集合,關鍵字集合由人工進行收集。

特征之二:如果是行表格,那么在同一行,標題單元格與其它單格的相似度小,而其他單元格之間的相似度較大。

特征之三:標題與同行(對于行表格而言)單元格之間有屬性上的對應關系。例如,“價格”應對應于數量詞。

根據上面的分析,可以采用了以下幾個步驟來確定表格的標題:

第一步,為了處理的方便,用一個二維數組來存儲表格單元數據;

第二步,對表格中每一個單元的數據進行分詞處理。

第三步,確定每一單元格的置信度。這里所說的置信度是指每一個單元是標題的可能性有多大。我們定義一個規則:計算與模板中關鍵字的語義相似度。可能出現以下情況:

①與其中一個字段的關鍵字的相似度大于0,那么置信度就取該相似度;

②與其中多個字段的關鍵字的相似度大于0,那么置信度就取最大的那個相似度;

③與任何字段的關鍵字的相似度都為0,那么置信度等于0。

第四步,調整各單元的置信度。

基本思路:從兩個方面來考查。

一方面標題單元格與同行及同列單元格的相異度。我們考查列表格即表格的標題在同一列(對于行表格可作類似地分析)。

在同一行,標題與其它單元格是相異,而其它單元格是相似的。比如“價格”這一行,“價格”與“1200元”、“1350元”的相異度大,而“1200元”與“1350元” 的相異度小。

在同一列“價格”與“廠家”、“型號”、“顏色”、“通話時長”、“待機時長” 的相異度大。

設計這樣一種算法,選取任一單元格,讓其與同行和同列的單元格比較,如果相異度較大,則增加該單元格的置信度;如果相異度較小,則該單元格的置信度小幅增加或不增加。例如對于“價格”這一單元格,在行方向要考查與“1200元”、“1350元”的關系,在列方向要考查與“廠家”、“型號”、“顏色”、“通話時長”、“待機時長”等的關系。對每對關系都計算一次該單元格的置信度。

依此類推,對所有的單元格進行同樣的計算。

第四步,確定表格標題所在的行或列。

分別求取各行和各列的置信度的算術平均值,選取平均置信度最大者為標題行或列。

3.3 表格的語義推斷與信息抽取

在確定了一個表格標題所在的行或列的情況下,就可以開始信息抽取了。這有兩個主要的方面:一是整個表格所表達的語義與我們所要抽取信息之間的相關度有多大,例如,如果要抽取手機方面的商業信息,那就應該確定所選定的表格有多大的可能性是一個有關手機的表格;二是確定每一個標題單元與字段的對應關系。

3.3.1 表格的整體語義

表格的整體語義指的是所指表格是否是所要表格,其中的可信度有多大。稍微轉換一下來說就是,一個表格屬于某一類表格的可信度有多少。這容易讓人聯想到的是貝葉斯方法。但貝葉斯方法要求知道先驗概率,但可能有以下兩個問題:一是在Web中存在大量的表格,難以得到關于一類表格的先驗概率;二是由于各種表格太多,先驗概率接近于零。這兩種情況對于使用貝葉斯方法來說都不理想。

因此,本文提出這樣一種度量方法:

(1)從網上找到足夠多的手機行情的表格,對各種字段出現的概率進行統計,字段n的概率表示為P(n);

(2)計算某一表格的整體語義P,公式如下:

3.3.2 標題單元格與字段的對應關系

從上面的討論中已經可以知道:表格的標題所在的行或列,并且知道標題行(列)中的單元格置信度?,F在要解決的問題是標題與抽取字段的對應關系。我們將標題單元格和模板中的字段分別排成兩列,如圖1:

兩兩之間連線,在線上標記出相似度。

從中選取可行的組合,計算相似度的乘積。結果最大的組合為所選的組合。

字段關系確定后,下一步的任務就是從同行(列)的其它單元格抽取內容,填入數據庫中相應的字段。

4 總結

Web上蘊藏著海量的信息。要使機器達到人類的閱讀水平是一件困難的事。這主要是因為一般的文本和Web頁面大量的使用自然語言,而自然語言的處理和理解是人類的各種智能的綜合反映,讓機器來實現難度可想而知。人們希望機器能象人一樣閱讀網頁,并從中提取有用的信息。

本文是根據作者就讀碩士學位時的課題寫成。提出基于表格語義判斷的Web信息抽取進行了研究,做了以下幾項工作:

(1)提出了一種短語語義相似度的度量方法。該方法如下:將短語進行分詞處理;將分詞后的每一個詞映射到一個詞群,開成一個新的基于詞群的串;比較兩個新串中最大的相同系列的數目;用這一數目與短語中的詞的數量進行比較,得出兩個短語的相似度;

(2)提出了利用短語語義的相似度確定表格標題行(列)的方法。通過對表格標題的特征進行分析,制定了每一單元格是標題的可信度的計算方法;然后根據每一單元格的可信度,確定表格的標題行和列;

(3)提出了表格整體語義的評測方法。根據同類表格中關鍵詞的出現概率來計算表格的整體語義是否是一個手機信息的表格;

(4)提出了表格行(列)與抽取字段的對應關系的計算方法。首先把標題單元格中的內容與模板中的關鍵字進行比較,確定單元格與字段的相似度,然后根據相似度乘積最大的原則確定單元格與字段的對應關系。

參考文獻:

[1] 涂承勝,魯明羽,陸玉昌.Web挖掘研究綜述[J].計算機工程與應用,2003(10):90-93.

[2] 涂承勝,魯明羽,陸玉昌.Web內容挖掘技術研究[J].計算機應用研究,2003(11):5-15.

[3] 陳少飛,郝亞南,李天柱,等.Web信息抽取技術研究進展[J].河北大學學報(自然科學版),2003,23(1):106-111.

[4] 孟令謙.基于ontology的中文信息抽取系統的研究與實現[D].成都:電子料技大學,2004.

[5] 李毅.半結構化文檔中語義信息抽取方法的研究[D].北京:清華大學,2004.

[6] 薛惠忠.Web信息的抽取與集成[D].南京:東南大學,2004:4-7.

[7] 張蕾.基于語義的漢語句法分析系統的研究與實現[D].西安:西北大學,2005.

[8] 吳愛珍.HTML表格的抽取與集成[D].武漢:武漢大學,2004.

[9] 李躍進.基于Internet的信息抽取技術的研究[D].大連:大連理工大學,2005.

[10] 朱強,徐鵬,李涓子.半結構化文檔中非標志化表格的抽取[J].計算機工程,2005,31(18):81-83.

[11] 鐘麗娟.基于分類和關鍵詞組抽取的信息檢索算法[J].系統仿真學報,2004,16(5):1009-1014.

[12] 姚天順,朱靖波.自然語言理解——一種讓機器懂得人類語言的研究(第2版).北京:清華大學出版社,2002.

[13] 李保利,陳玉忠,俞士漢.信息抽取研究綜述[J].計算機工程與應用,2003(10):1-5.

[14] 張樹瑜,杜國寧,朱仲英.基于Web的半結構化信息抽取技術研究[J].系統工程與電子技術,2004,26(5):610-612.

[15] 田紅.表格信息抽取引擎的設計與實現[D].西安:西北師范大學,2004.

[16] 高雋.人工神經網絡原理及仿真實例[M].北京:機械工業出版社,2003.

收稿日期:2008-03-04

作者簡介:余承?。?970-),系統分析師,主要從事智能信息處理和數字圖像處理技術方面的研究。

注:“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。”

主站蜘蛛池模板: 99久久这里只精品麻豆| 一级毛片基地| 亚洲国产成熟视频在线多多| 高潮毛片免费观看| yy6080理论大片一级久久| 亚洲人成人伊人成综合网无码| 精品国产乱码久久久久久一区二区| 999福利激情视频| 国内精自线i品一区202| 99热国产这里只有精品无卡顿"| 亚洲福利一区二区三区| 美美女高清毛片视频免费观看| 人妻91无码色偷偷色噜噜噜| 久久精品人人做人人爽97| 无码中文字幕精品推荐| 欧洲欧美人成免费全部视频| 国产91无码福利在线| 亚洲天堂网视频| 91麻豆国产在线| 国禁国产you女视频网站| 国产成人精彩在线视频50| 亚洲日韩国产精品综合在线观看| 欧美在线精品怡红院| 日韩午夜伦| 成人亚洲视频| 最新精品久久精品| 一本色道久久88| 国产精品林美惠子在线观看| 国产精品自拍合集| 青青极品在线| 国产91视频免费| 免费视频在线2021入口| 亚洲精品第一页不卡| 国产特级毛片aaaaaaa高清| 天堂成人在线| 自偷自拍三级全三级视频| 香蕉视频在线观看www| 中文字幕日韩视频欧美一区| 久久婷婷色综合老司机| 亚洲国产亚综合在线区| 久久精品66| 久草视频中文| 国产精品天干天干在线观看| 97亚洲色综久久精品| 国产精品刺激对白在线| 国产波多野结衣中文在线播放 | 伊人色在线视频| 久久夜色撩人精品国产| 国产微拍精品| 女人18毛片久久| 色爽网免费视频| 国产成人欧美| 欧美成人第一页| 一区二区午夜| 51国产偷自视频区视频手机观看| 亚洲最新网址| 影音先锋亚洲无码| 日韩高清中文字幕| 国产特级毛片aaaaaa| 亚洲欧美综合在线观看| 欧美日韩成人在线观看 | 玖玖精品视频在线观看| 国产成年女人特黄特色大片免费| 911亚洲精品| 欧美国产日产一区二区| 久草中文网| 9丨情侣偷在线精品国产| 国产精品黄色片| 天天色天天操综合网| 色噜噜久久| 日韩精品亚洲精品第一页| 亚洲综合香蕉| 在线观看亚洲精品福利片| 波多野结衣一区二区三视频| 十八禁美女裸体网站| 九九香蕉视频| 不卡国产视频第一页| 91美女在线| 性视频一区| 视频在线观看一区二区| 中文无码伦av中文字幕| 波多野结衣在线一区二区|