摘 要:針對基于Web頁面信息本體的信息抽取中,需人工根據待抽信息項的概念和對應的實例值來建立本體的缺點,設計一個頁面信息本體的自動學習方法。論文利用前期在基于DOM的頁面相似路徑歸納學習算法和基于PAT-tree的自動關鍵詞識別算法上的研究成果,使用改進的TF#8226;IDF統計方法和復合事件的關聯規則算法完成概念和概念間關系的學習,建立頁面信息本體,減少建立本體的人工工作量。
關鍵詞:本體學習;信息抽?。籔ATtree;關聯規則
中圖分類號:TP391.1 文獻標識碼:A
An Automatic Ontology Learning Approach Based on Web Information Items for Web Information Extraction
LIU Jiagang1,LONG Jun2,LI Zejun1
(1.Department of Computer Science, Hunan Institute of Technology, Hengyang 421002,China;
2.College of Information Science and Engineering, Central South University, Changsha 410075,China)
Abstract:According to the weakness of building ontology needs manually designated concepts and instances from the basic information of web, an automatic ontology learning approach based on web information items is designed. Utilizing preresearch that an arithmetic of an inductive learning based on DOM for the similar path of information items and an approach for identifying automatic keyword based on PATtree, the learning for the concepts and the relation between concepts is implemented by using an approved TFIDF statistic method and an algorithm of composite event association rule, the information item ontology is built, the manual workload for building ontology is reduce
Key words:ontology learning;information extraction;PATtree;association rule
1 引 言
本體正在越來越多的計算機應用中發揮重要作用。基于概念模型的多記錄信息抽取是通過設計構造描述特定內容的本體和基于本體的Web信息抽取規則來實現抽取[1],這類信息抽取有比較高的抽取正確率?;诒倔w的Web信息抽取關鍵是建立本體模型和基于本體的Web信息抽取規則。本體的構建過程中,領域特性表現得極其明顯,建立領域本體的過程需要領域專家的參與,過程復雜、周期較長[2]。文獻[3]提出構建樣本頁面信息本體的方法,即在樣本頁面中對用戶感興趣的信息項構建本體。只要描述要抽取信息項的概念、類型和實例中的值,就能完成用戶所需信息項的本體描述,這為基于本體的Web信息抽取提供了一種新的思考方法。但這種方法需要手工設定要抽取信息項的概念、類型和實例中的值來制定Web頁面信息項本體,處理大量Web頁面時,人工工作量仍然比較大。本文在文獻[3]的頁面信息本體定義的基礎上,自動學習出頁面信息項本體,為該方法的實際推廣降低了人工工作量。
2 頁面信息本體定義
一個網頁中待抽取的信息項形式如圖1,其中PreA…PreE表示網頁中要抽取信息項的前導符、Content表示網頁中要抽取的信息項。文獻[3]中頁面信息本體就圍繞要抽取的信息項建立。
圖1網頁的待抽信息項中所含的內容就是需要抽取的目標信息,因此可以根據本體形式化定義的格式對每一個所需要抽取的信息項建立本體。用形式化定義的本體結構將第一個數據項“ContentA_value”描述成為“ContentA”概念結構,可以得到以下形式描述:
ConceptContentA
Super: {PreA};
Type: String;
Value: {ContentA_value}
EndContentA
文獻[3]將本體形式化描述的[Super:{Super-name}*]部分用來表示由概念構成的一個前導詞;{
計算技術與自動化2011年3月
第30卷第1期柳佳剛等:一種用于Web信息抽取的頁面信息本體自動學習方法
3 頁面信息本體自動學習技術路線
以HTML格式表示的Web頁面文檔是當前Internet信息的主要組織形式。本文旨在實現從HTML頁面中自動學習頁面信息本體,從Web頁面數據中找出本體語義概念的模式及其關系。
圖2給出了用于Web信息抽取的頁面信息本體自動學習的基本處理過程。其主要技術路線是:收集想要進行信息抽取的Web頁面,對頁面進行預處理去掉圖像、動畫、音頻、超鏈接等;使用文檔結構模型(DOM)對經過預處理的頁面集合進行機器歸納學習運算,得出同一類Web頁面中穩定出現的信息塊;將信息塊中的文本數據看成一個文檔,建立改進的PAT-tree,使用互信息統計的技術,識別出候選短語集合;再利用改進的TF#8226;IDF統計方法計算候選短語的重要程度權重,通過對權重值排序輸出用于構建本體中概念的領域關鍵詞;使用關聯規則算法計算領域概念和人工總結的抽取分隔符之間的支持度和置信度得出待抽信息項的前導關鍵詞;再在PATtree上對前導關鍵詞進行前綴搜索識別與其關聯的半無限長串,得出本體中概念的值。
圖2 頁面信息本體自動學習的過程
3.1 Web頁面集的預處理
預處理需要包括三個步驟:(1)因為一個Web頁面中包含了圖像、動畫、音頻、超鏈接等豐富的信息表達方式,但最主要的信息還是文字信息。過濾掉那些不包含句子主題或關鍵概念的“噪音”文檔,如圖像、動畫、音頻、超鏈接等;(2)由于HTML本身的原因,絕大多數HTML文檔的書寫一般都不規范。這不利于對HTML所含數據的處理。因此,在處理前需要進行HTML標簽的規范化處理,形成語法規范的XHTML文檔[4];對于規范化的XHTML文檔,DOM能夠在內存中將其表示為一棵樹的結構。使用解析器Parser就可以遍歷樹的方法得到文檔中信息項的內容[5]和DOM樹路徑[6]。
3.2 信息塊歸納學
Web頁面中有很大一部分是數據導向型頁面。數據導向型頁面的內容通常是從數據庫中得到數據,再分別插入已有的模板中,在HTML生成樹上以某個或某幾個嵌套的表格形式呈現(包括表的行TR、表的單元TD、表頭TH等)。這些嵌套結構就構成了信息塊。用戶感興趣的信息,即目標信息,也在這些信息塊集合當中。在這些嵌套的表格中,相同結構的信息塊內部的數據容器基本相同(如統一采用表格標簽作為數據容器);相同結構的信息塊處于DOM樹的同一層次,即“兄弟”或“堂兄弟”(如存放在同一層次的
對于一個數據導向型頁面組成的頁面集合,Web頁面中的所含的語義信息也都集中在這些嵌套的表格容器當中。
在我們之前的研究[7]中利用啟發式方法從具有相同結構的一類頁面中學習出穩定出現的信息塊路徑。因此這里仍然用該算法對經過預處理的頁面集進行啟發式學習,求出穩定出現的信息塊路徑。
3.3 概念的識別
獲得穩定出現的信息塊路徑后,頁面中穩定表達的語義信息也都存儲在這些信息塊中。接下來的任務是從信息塊中分離出文本包含的短語,再利用短語完成語義概念的識別。
1)短語的抽取
在我們前期的研究[8]中設計了一種改進的PATtree來存儲中文文檔的半無限串,通過使用基于互信息的上下文相關依賴評價算法來自動識別中文文檔中的短語?,F在將前一步驟得到的信息塊作為一個文檔,對每個文檔按照文獻[8]的方法建立改進的PATtree,再利用基于互信息的上下文相關依賴評價對信息塊中的文檔進行信息評價,完成候選短語項的抽取。詳細的算法過程請參閱文獻[8]。
2)在信息塊集中學習領域概念
從上一步中得到可能的多字短語集合。之所以是“可能的”,是因為其中還會有一般詞匯,它們也可能在信息塊文檔中頻繁出現,接著必須將這些一般詞匯過濾掉。過濾候選短語集的算法思路是首先確定短語對特定領域重要程度的量化衡量公式Weight,然后規定一個閾值W。對于每個短語c,如果有下列關系成立:Weight(c)≥W,那么c被保留在候選短語集合中;如果Weight(c) 之前已為每一個信息塊文檔構造了一棵修改的PATtree,這是一個僅僅只包含一個信息塊文檔中半無限串的PATtree。在這個樹中為每個短語c定義詞項頻率tfic,見公式(1): tfic=frequencyicfrequencyimax (1) 說明:frequncyic表示短語c的有效節點的頻率,frequcnyimax是這個PAT-tree中所有frequncyic中的最大值。在PAT-tree中有效節點的頻率可以在線性時間內求得。 因為每個信息塊文檔記錄都建立一棵修改的PATtree,則計算短語項的總頻率應為ttfc=∑i∈Ntfic。對于前面學習出的所有穩定出現的信息塊集,構建一個包含了所有N個信息塊文檔的整體PATtree,可以定義的逆文檔頻率idfc和權值wc計算公式,見公式(2),(3): idfc=log Nnc(2) wc=ttfc×idfc(3) 說明:nc是整個返回文檔集所包含的短語c的數目。 整體PATtree中的權值wc表示短語c的區分能力。公式(2)計算idfc值的主要思想是:如果包含短語c的返回文檔數越少,也就是nc越小,idfc越大,則說明短語c具有很好的區分能力。如果某個信息塊文檔中包短語c的數目為s,而其它剩下的信息塊文檔中包短語c總數為m,顯然所有包含c的文檔數nc=s+m,當s大的時候,nc也大,按照公式(2)得到的idfc的值會小,就說明短語c類別區分能力不強。但是實際上,如果一個短語在一個信息塊文檔中出現頻率高,則說明短語能夠很好代表這文檔的特征,這樣的短語應該給它們賦予較高的權重,這就是idfc的不足之處。為了把握短語在各文檔中分布比例對權重的影響,這里引入信息論中信息增益的方法來實現。把信息塊文檔集合看作一個符合某種概率分布的信息源,依靠信息塊文檔數據集合的信息熵和文檔中短語的條件熵之間信息量的增益關系確定該短語在文本中所能提供的信息量,并作為該短語在文本中的權重。見公式(4)。 IGphrase(c)=H(N)-H(N|phrase(c))(4) 公式(4)中H(N)為: H(N)=-∑i∈NP(i)log 2P(i)(5) 其中: P(i)=PhraseSet(i)∑i∈NPhraseSet(i)(6) 說明:PhraseSet(i)表示第i個信息塊文檔中短語的個數,即第i個信息塊文檔的PATtree中有效節點的個數;∑i∈NPhraseSet(i)是整個信息塊文檔集的短語個數,即整體PATtree中有效節點的個數;H(N|phrase(c))表示在短語c出現的條件下計算的結果。 改進后的權值函數可表示為: w'c=ttfc×idfc×IGphrase(c)(7) 在PATtree結構中有效節點的個數可以通過遍歷樹得到。 通過公式(6),計算每一個候選短語的權值W,設定一個閾值,將大于閾值的短語輸出,得到信息塊集合的領域概念集K。 3.4 概念間關系的學習 在文獻[3]的本體形式化描述中,需要一個由概念構成的前導詞來表示本體中的父概念Supername。通常在文檔中,前導詞和待抽取的數據間往往存在著一些標點符號,它的在文檔中的作用通常是起分割符的作用以引出待抽取的數據,例如:“:”、“——”、“……”等等。前面已經使用啟發式方法學習出穩定出現的信息塊路徑,再對信息塊內的文檔信息使用統計方法識別出領域概念集合K,此時,構成本體形式化描述:Supername的概念也存在于集合K中。本文從文檔中學習出文獻使用的本體的基本思想是:在穩定出現的信息塊中,根據人工總結的分割符,抽取出所有可能的領域概念和分割符構成的事件對,然后使用關聯規則求出構成本體中前導詞關鍵詞和分割符構成的事件對。 由于本體中領域概念和分隔符是不相同的事件,因此這里使用復合事件的關聯規則算法來求解。給定復合事件集εEX={EX1,EX2,…,EXn},其中每一個復合事件都是一個由概念和分隔符組成的二元事件序列;EXi= support(EAkEAh)= |{EXi|EAk∪EAhEXi}|n (7) confidence(EAkEAh)= |{EXi|EAk∪EAhEXi}||EXi|EAkEXi|(8) 這里討論的每一個事件都是二元事件,因此|EAk|=|EAh|=1。計算過程中,設定兩個閾值minsup和minconf分別表示最小支持度和最小置信度。通過對前面的領域概念集合和人工總結的分隔符集合構成的事件對計算支持度和置信度,將大于最小支持度和最小置信度的事件對輸出。 為每個穩定數據塊建立的PATtree中已包含輸出事件對中的概念,只需要在PAT-tree中使用前綴搜索的方法,查找概念以及概念對應的分隔符。從分隔符開始直到這個數據塊結束,將所經過的文檔用前綴搜索輸出最大的文檔串。這個文檔串就是緊跟分隔符字符串。根據前導符和要抽取信息在物理位置上的連貫性,分隔符后面的文檔串就是要抽取的數據,即本體形式化描述中{ 4 實驗結果及分析 為了驗證本文的本體自動學習算法,選用“中國高校教材圖書網(www.sinobook.com.cn/press)”作為測試的信息源,以“計算機/網絡”分類集中137個頁面的圖書數據為實驗對象。先對Web頁面進行預處理除去動畫、廣告;然后使用文獻[7]的方法對Web的DOM路徑進行啟發式學習輸出文檔的信息塊;對信息塊內的內容使用文獻[8]的方法建立PATtree,使用改進的互信息方法和改進的TF#8226;IDF方法求出領域概念;最后使用復合事件關聯規則分析方法給出概念和人工總結的分隔符形成的事件對,完成PATtree的前綴搜索給出本體形式化描述。 實驗過程中,領域概念學習的評價仍然采用IE領域廣泛使用的召回率R(Recall)、準確率P(Precision)和F1評估值(F1=2RPR+P)三個指標加以衡量和比較。表1給出了領域概念學習的評價結果。 采用復合事件的關聯規則進行分析事件對,設定minsup=0.1和minconf=0.25兩個閾值。表2中列出了部分事件對的支持度與置信度,將大于最小閾值的事件對輸出,再進行PATtree的前綴搜索。 5 結束語 在文獻[3]使用的本體描述模型基礎上,利用前期我們已經取得的研究成果,以改進的TF#8226;IDF的統計計算方法來識別出穩定信息塊中含有的領域概念,通過復合事件的關聯規則來識別概念間的關系,輸出本體。 雖然本文給出的方法在識別關鍵詞時精度還有待提高,而為每一個數據塊內容建立PAT-tree也需要消耗較長的處理時間,并且處理的Web頁面是結構有一定規律的數據導向型頁面。但本文的方法解決了文獻[3]進行Web信息抽取時,必須人工設定每個頁面的信息項本體問題,減少了使用這種方法的人工工作強度。將本文方法和之前取得的研究成果[7]相結合,則能形成完成的基于本體的Web信息抽取方法。 下一步將研究在復雜類型的有領域主題的網頁中自動學習本體,提高概念學習的準確率和召回率。 參考文獻 [1] 許建潮,侯錕. Web信息的自主抽取方法[J]. 計算機工程與應用, 2005,41(14):185-189. [2] 徐靜,孫坦,黃飛燕. 近兩年國外本體應用研究進展[J]. 圖書館建設, 2008, (8):84-90. [3] 周明健, 高濟, 李飛. 基于本體論的Web信息抽?。跩]. 計算機輔助設計與圖形學學報, 2004, 16(4): 535-541. [4] 劉輝,陳靜玉,徐學洲. 基于模板流程配置的Web信息抽?。跩]. 計算機工程, 2008,34(20):55-57. [5] 支宗良,陳少飛. 一種基于XQuery的優化Web信息抽取方法[J]. 計算機應用, 2008,28(1):152-154. [6] 冀高峰,湯庸,道煒,等. 基于XML的自動學習Web信息抽?。跩]. 計算機科學, 2008,35(3):87-90. [7] 柳佳剛,陳山,黃櫻. 一種改進的基于本體的Web信息抽取[J]. 計算機工程,2009,36(4):39-41. [8] 柳佳剛,陳山. 基于PATtree的中文關鍵詞自動檢索模式的研究[J]. 計算技術與自動化, 2009,28(2):119-123. 注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文