

[摘要] 指出本體的涵義、類別和構(gòu)成以及基于語義的領(lǐng)域本體的構(gòu)建模式和設(shè)計(jì)標(biāo)準(zhǔn)。在詳細(xì)闡述信息抽取的涵義、特征、類型以及與信息檢索關(guān)系的基礎(chǔ)上,重點(diǎn)探討基于領(lǐng)域本體構(gòu)建的Web信息抽取。從基于本體的信息抽取的原理,特點(diǎn)、方法和過程幾個(gè)方面論述基于領(lǐng)域本體構(gòu)建的Web信息抽取的實(shí)現(xiàn)。最后指出目前存在的兩大技術(shù)瓶頸。
[關(guān)鍵詞] 領(lǐng)域本體 本體構(gòu)建 信息抽取
1 引言
隨著計(jì)算機(jī)技術(shù)和Internet的迅猛發(fā)展,Web已成為跨全球的信息源,如何快速、準(zhǔn)確地從浩瀚的信息資源中尋找所需的信息已經(jīng)成為困擾用戶的一個(gè)難題。檢索不能只盯著字面,而應(yīng)當(dāng)關(guān)注字面下隱藏的“內(nèi)容”[1]。如何才能確定一篇文章、一張圖片、一段視頻或者音頻流的內(nèi)容呢?以查全率、查準(zhǔn)率和檢索速度為評判標(biāo)準(zhǔn)的關(guān)鍵詞檢索很難有大的作為,基于內(nèi)容的檢索就成為研究熱點(diǎn)。
目前Web數(shù)據(jù)大都以半結(jié)構(gòu)化為主的HTML形式出現(xiàn),缺乏對數(shù)據(jù)本身的描述,不含清晰的語義信息,模式也不太明確,對于數(shù)據(jù)查詢是十分不易的,這使得應(yīng)用程序無法直接解析并利用Web上的海量信息[2]。在這樣的背景下,為了增強(qiáng)Web數(shù)據(jù)的可用性,出現(xiàn)了Web信息抽取(information extraction,簡稱IE)技術(shù)。Web信息抽取是將信息抽取技術(shù)應(yīng)用于Web網(wǎng)頁,其面向的對象不是純文本文件,而是半結(jié)構(gòu)化的網(wǎng)頁文本。
在語義層次上,本體是Web 信息共享和交換的基礎(chǔ)。將本體引入信息科學(xué),就是從語義層次上考察事物的運(yùn)動狀態(tài)及狀態(tài)的變化方式,把本體意義上的信息賦予更具體的內(nèi)涵。因此,將本體應(yīng)用到信息抽取可以從語義上消除歧義,提高信息抽取系統(tǒng)的抽取性能。目前,面向語義的Web 信息集成方法一般都基于本體,主要是利用對數(shù)據(jù)本身的描述信息實(shí)現(xiàn)抽取,對網(wǎng)頁結(jié)構(gòu)依賴少,而且本體提供機(jī)器可識別的領(lǐng)域概念知識及其關(guān)系,具有簡單的推理能力,對抽取出的實(shí)體之間聯(lián)系領(lǐng)域知識有識別能力。本文主要探討信息抽取系統(tǒng)中領(lǐng)域本體的構(gòu)建方法和Web信息抽取的實(shí)現(xiàn)。
在基于領(lǐng)域本體的信息抽取中,領(lǐng)域本體通過對概念的嚴(yán)格定義和概念與概念之間的關(guān)系來確定概念精確含義,提供對該領(lǐng)域知識的共同理解,確定領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并從不同層次的形式模式上給出這些詞匯和術(shù)語間相互關(guān)系的明確定義,實(shí)現(xiàn)對該領(lǐng)域知識的推理。這將為信息抽取提供統(tǒng)一的概念和術(shù)語標(biāo)準(zhǔn),提高信息抽取的準(zhǔn)確性。
2 本體
2.1 本體的涵義
本體最開始是一個(gè)哲學(xué)的概念,用來描述事物的本質(zhì)。后來本體被用于人工智能、計(jì)算機(jī)等方面。在自然語言處理中,本體被認(rèn)為是特定領(lǐng)域內(nèi)概念及概念之間關(guān)系的集合,它能夠有效地表達(dá)特定領(lǐng)域內(nèi)的概念、實(shí)體、關(guān)系等通用知識。本體描述語言能夠描述復(fù)雜的關(guān)系并具有簡單的推理能力。作為一種有效表示概念層次結(jié)構(gòu)和語義的理論和方法,本體已經(jīng)被廣泛應(yīng)用于計(jì)算機(jī)科學(xué)和信息管理領(lǐng)域,并且被成功應(yīng)用于構(gòu)建新的智能信息組織和檢索系統(tǒng)。
2.2 本體分類
本體按照研究主題分為5種類型:知識表示本體、通用本體、領(lǐng)域本體、語言學(xué)本體和任務(wù)本體。本體的研究和開發(fā)工作是在不同層次上進(jìn)行的。根據(jù)本體的研究層次,可分為頂級本體、領(lǐng)域本體、任務(wù)本體和應(yīng)用本體。①頂級本體。主要研究非常通用的概念,描述的是最普遍的概念及概念之間的關(guān)系,它們完全獨(dú)立于特定的問題或領(lǐng)域,與具體的應(yīng)用無關(guān),可以在一個(gè)很大的范圍內(nèi)共享。②領(lǐng)域本體。研究與一個(gè)特定領(lǐng)域相關(guān)的術(shù)語或詞匯,描述的是特定領(lǐng)域中的概念和概念之間的關(guān)系。③任務(wù)本體。定義通用任務(wù)或推理活動,描述的是特定任務(wù)或行為中的概念及概念之間的關(guān)系。任務(wù)本體和領(lǐng)域本體處于同一個(gè)研究和開發(fā)層次。④應(yīng)用本體。描述特定的應(yīng)用,它既可以應(yīng)用特定領(lǐng)域本體中的概念,又可以應(yīng)用出現(xiàn)在任務(wù)本體中的概念[3]。本文重點(diǎn)探討領(lǐng)域本體的構(gòu)建以及與信息抽取的關(guān)系。
2.3 本體構(gòu)成
本體的具體構(gòu)成過程,可以用下面的公式形象地給出。組成本體的5個(gè)基本的建模元語為:C,R,F(xiàn),A,I。
本體(ontology)=概念(concepts)+關(guān)系(relations)+函數(shù)(functions)+公理(axiom)+實(shí)例(instances)
概念(concepts):其含義非常廣泛,可以指任何事物,如描述、功能、行為、策略和推理過程等,本體中的這些概念通常構(gòu)成一個(gè)分類層次。
關(guān)系(relations):關(guān)系代表了在領(lǐng)域中概念之間的交互作用。
函數(shù)(functions):函數(shù)是一類特殊關(guān)系。在這種)表示y是x的母親。
公理(axiom):代表永真斷言,是定義在“概念”和“屬性”上的限定和規(guī)則,比如概念乙屬于概念甲的范圍。
實(shí)例(instances):屬于某概念類的基本元素,即某概念所指的具體實(shí)體。概念的定義一般采用框架結(jié)構(gòu),包括概念的名稱、與其它概念之間關(guān)系的集合以及用自然語言對該概念的描述。基本的關(guān)系有4種:part-of,kind-of,instance of和attribute of[3]。
在實(shí)際應(yīng)用中,不一定要嚴(yán)格地按照上述5類元素來構(gòu)造本體,一些輕量級的本體僅由C,R,I組成。同時(shí)概念之間的關(guān)系也不僅限于上面列出的4種基本關(guān)系,可以根據(jù)特定領(lǐng)域的具體情況定義相應(yīng)的關(guān)系,以滿足應(yīng)用的需要。
3 基于語義的領(lǐng)域本體構(gòu)建
3.1 領(lǐng)域本體構(gòu)建模式
基于本體的信息抽取由領(lǐng)域內(nèi)的相關(guān)概念、屬性、關(guān)系、約束及術(shù)語或?qū)嵗葮?gòu)成。主要是利用領(lǐng)域本體對領(lǐng)域內(nèi)數(shù)據(jù)的描述信息來實(shí)現(xiàn)抽取,本體的構(gòu)建是信息抽取的基礎(chǔ)與核心,領(lǐng)域本體構(gòu)建的好壞將直接影響到信息抽取的性能,如何構(gòu)建出良好的本體對提高信息抽取的精確度有直接的影響。但目前還不能構(gòu)建出通用型本體,只能對特定領(lǐng)域構(gòu)建。
首先要構(gòu)建一個(gè)形式本體,即能進(jìn)行形式化表達(dá)的本體論模型,然后用計(jì)算機(jī)軟件形式表達(dá)出來,其一般構(gòu)造方法可以設(shè)計(jì)成三段法。這樣構(gòu)造的形式本體論是一個(gè)動態(tài)系統(tǒng),其概念、關(guān)系和軟件均可根據(jù)發(fā)展的需要而不斷更新。
第一段:概念化。所謂概念化就是確定某一領(lǐng)域的元概念。概念之間的關(guān)系可以包括同義關(guān)系、反義關(guān)系、屬中關(guān)系、交叉關(guān)系、全異關(guān)系等。這與分類法和主題表有一定類似,但卻沒有分類法和主題表體系固定的限制,也不像分類法和主題表那樣龐大。元概念選擇可以根據(jù)需要增減,以這些元概念為核心,再根據(jù)信息學(xué)內(nèi)容和表現(xiàn)形式進(jìn)一步分類,就很容易與實(shí)際存在的信息或知識相連通。
第二段:模型化。在本體概念確定后,所謂模型化就是用圖示法將某領(lǐng)域的元概念和元關(guān)系表示出來,構(gòu)筑成形式本體論的關(guān)系模型,用網(wǎng)絡(luò)聯(lián)絡(luò)。與普通樹型數(shù)據(jù)結(jié)構(gòu)的元數(shù)據(jù)不同的是,形式本體論容許各級概念的交叉滲透。
第三段:軟件化。所謂軟件化就是用適當(dāng)?shù)能浖ぞ邔⒈倔w論模型轉(zhuǎn)化為能在計(jì)算機(jī)上運(yùn)行的軟件。由于形式本體論可以軟件化,故適合用計(jì)算機(jī)處理,這是其特點(diǎn)和優(yōu)點(diǎn)。一旦確定了本體論模型,就可以用程序設(shè)計(jì)語言將形式本體論表示出來,制成軟件界面。而通過該軟件界面就可以將世界上所有與該領(lǐng)域相關(guān)的信息資源、知識資源和研究資源聯(lián)絡(luò)起來,構(gòu)筑成具有特定功能的系統(tǒng)。
3.2 本體的設(shè)計(jì)準(zhǔn)則
本體的構(gòu)建遵循以下準(zhǔn)則:①清晰明了。本體必須能有效地說明所定義的類、概念、屬性、屬性值的含義。本體中所有的類名、概念、屬性等術(shù)語應(yīng)該能清楚地表達(dá)所要傳遞的意義,不能有二義性。②一致性。本體應(yīng)該是一致的,即本體所定義的公理、某些推理以及本體的描述文檔都應(yīng)該具有一致性。③可擴(kuò)展性。本體應(yīng)該為可預(yù)料到的任務(wù)提供概念基礎(chǔ),并可支持在已有概念基礎(chǔ)上定義新的術(shù)語,以滿足特殊需求,而無需修改已有的概念定義。④簡潔高效編碼。概念的編碼應(yīng)該簡潔高效,以便計(jì)算機(jī)容易處理。
3.3 本體的構(gòu)建步驟
以領(lǐng)域本體為例,構(gòu)建步驟如圖1所示:
3.3.1 需求分析確定領(lǐng)域本體的應(yīng)用目的、領(lǐng)域與范圍、表示方法與用途等。
3.3.2 羅列領(lǐng)域中重要的概念、術(shù)語在領(lǐng)域本體創(chuàng)建的初始階段,盡可能地列舉出該領(lǐng)域內(nèi)所有夠看到、想到的概念和術(shù)語。
3.3.3 構(gòu)建領(lǐng)域本體框架羅列出領(lǐng)域中大量的概念、術(shù)語,這是一張無組織結(jié)構(gòu)的匯表,需要按照一定的邏輯規(guī)則對它們進(jìn)行分類形成不同的子領(lǐng)域,在同一子領(lǐng)域下的概念、術(shù)語相關(guān)性較強(qiáng)。另外,對其中的每一個(gè)概念、術(shù)語重要性要進(jìn)行評估,選出關(guān)鍵性的概念、術(shù)語,放棄那些不必要或者超出領(lǐng)域范圍的概念、術(shù)語,確立概念及概念間的等級關(guān)系,盡可能準(zhǔn)確而簡要地表達(dá)出領(lǐng)域的知識,從而形成一個(gè)領(lǐng)域知識的框架體系,得到領(lǐng)域本體的框架結(jié)構(gòu)。構(gòu)建領(lǐng)域本體框架包括:①定義領(lǐng)域本體中的類,即劃分子領(lǐng)域本體;②定義領(lǐng)域本體中的概念及概念間的關(guān)系,采用自上向下的方法定義領(lǐng)域本體中的概念(先定義領(lǐng)域中綜合的、概括性的概念,然后逐步細(xì)化說明);③定義屬性值(屬性值既可以是一個(gè)具體數(shù)值也可以是一個(gè)描述),即通過屬性值來說明屬性的取值類型、值個(gè)數(shù)及有關(guān)值的其他特征;④創(chuàng)建實(shí)例,即創(chuàng)建概念的特征詞。
3.3.4 對領(lǐng)域本體編碼、形式化選用合適的本體描述語言對上述所建立的領(lǐng)域本體進(jìn)行編碼、形式化,以便對領(lǐng)域本體進(jìn)行計(jì)算機(jī)處理。
3.3.5 領(lǐng)域本體的確認(rèn)和評價(jià)評價(jià)包括本體的清晰性、一致性、可擴(kuò)展性等方面[4]。
4 信息抽取
4.1 信息抽取涵義
信息抽取(information extraction)是從自然語言形式的文本中抽取用戶感興趣的事實(shí)、事件以及卷入其中的特定類型的實(shí)體等信息,并將這些信息轉(zhuǎn)換為結(jié)構(gòu)化的數(shù)據(jù)并存儲的過程[5]。信息抽取是自然語言處理(natural language process,NLP)和人工智能(artificial intelligent,AI)結(jié)合的結(jié)果,是從自然語言文本中抽取指定類型的實(shí)體、關(guān)系、事件等事實(shí)信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出,供用戶查詢和使用的文本處理技術(shù)。廣義上,信息抽取技術(shù)的抽取對象并不局限于文本,其他形式存在的信息也可以作為信息抽取的對象,而抽取的結(jié)果則變?yōu)橄鄳?yīng)的結(jié)構(gòu)化數(shù)據(jù)。信息抽取技術(shù)的最終目的就是從自由文本中抽取、分析信息,從而得到有用的、用戶感興趣的信息。信息抽取系統(tǒng)可以看作是把信息從不同文檔中轉(zhuǎn)換成數(shù)據(jù)庫記錄的系統(tǒng)。因此,成功的信息抽取系統(tǒng)將把互聯(lián)網(wǎng)變成巨大的數(shù)據(jù)庫[6]。
4.2 信息抽取特征
信息抽取作為自然語言處理中一個(gè)發(fā)展很快的研究領(lǐng)域,有如下特征:①信息抽取是當(dāng)前文本挖掘中最為突出的一項(xiàng)技術(shù),這一技術(shù)結(jié)合了自然語言處理、語料資源以及語義技術(shù),目前正趨于成熟;②信息抽取不是從文件集中選取一個(gè)與用戶需求相關(guān)的子集,而是從文本中直接抽取與用戶需求相關(guān)的事實(shí)或信息;③信息抽取是一個(gè)從無結(jié)構(gòu)的自由文本或其他信息資源中抽取出結(jié)構(gòu)化、無二義性信息的過程[7]。
4.3 信息抽取與信息檢索
與信息抽取密切相關(guān)的一項(xiàng)研究是信息檢索(information retrieval,IR)技術(shù)。信息抽取與信息檢索密切相關(guān),但二者存在差異,主要表現(xiàn)在三個(gè)方面:①實(shí)現(xiàn)功能不同。信息檢索系統(tǒng)主要是從大量的文檔集合中找到與用戶需求相關(guān)的文檔列表;而信息抽取系統(tǒng)則旨在從文本中直接獲得用戶感興趣的事實(shí)信息。②處理技術(shù)不同。信息檢索系統(tǒng)通常利用統(tǒng)計(jì)及關(guān)鍵詞匹配等技術(shù),把文本看成詞的集合,不需要對文本進(jìn)行深入分析;而信息抽取往往要借助自然語言處理技術(shù),通過對文本中的句子以及篇章進(jìn)行分析處理后才能完成。③適用領(lǐng)域不同。由于采用的技術(shù)不同,信息檢索系統(tǒng)通常是領(lǐng)域無關(guān)的,而信息抽取系統(tǒng)則是領(lǐng)域相關(guān)的,只能抽取系統(tǒng)預(yù)先設(shè)定好的有限種類的事實(shí)信息[8]。雖然信息抽取與信息檢索有區(qū)別,但兩種技術(shù)是互補(bǔ)的。在海量文本處理過程中,信息抽取系統(tǒng)往往以信息檢索系統(tǒng)的輸出為輸入,而信息抽取技術(shù)又可以用來提高信息檢索系統(tǒng)的性能。二者的結(jié)合能夠更好地滿足用戶的信息處理需求。
4.4 信息抽取類型
信息抽取技術(shù)隨著需求的增加而不斷豐富,近年來國內(nèi)外涌現(xiàn)出多種信息抽取方法,根據(jù)抽取原理和抽取方式的不同,分為以下幾類:基于自然語言處理方式、基于包裝器歸納方式、基于HTML結(jié)構(gòu)方式和基于Web查詢方式等。信息抽取系統(tǒng)各有其特點(diǎn),但多采用基于模板和模式匹配,或者是采用基于統(tǒng)計(jì)的學(xué)習(xí)方法。這些方法都需要在前期準(zhǔn)備大量的手工標(biāo)注訓(xùn)練文本,然后對訓(xùn)練文本進(jìn)行學(xué)習(xí)。但是訓(xùn)練文本不可能覆蓋整個(gè)領(lǐng)域內(nèi)出現(xiàn)的所有語言習(xí)慣。另外,信息抽取雖然能抽取出實(shí)體,但是缺乏領(lǐng)域知識來識別抽取實(shí)體之間的關(guān)系。要克服這些局限,其一是增強(qiáng)模板的知識表達(dá)能力,其二是運(yùn)用某種歧義消解機(jī)制。針對這種情況,在Web信息抽取中引入一種能處理語義的基于本體的信息抽取技術(shù)[9]。
5基于領(lǐng)域本體構(gòu)建的Web信息抽取的實(shí)現(xiàn)
5.1 基于本體的信息抽取
基于本體的信息抽取技術(shù)是一種把本體和信息抽取技術(shù)結(jié)合起來實(shí)現(xiàn)信息抽取的技術(shù),近年來受到了廣泛關(guān)注,已成為信息抽取研究的一個(gè)熱點(diǎn),并廣泛應(yīng)用于半結(jié)構(gòu)化信息抽取技術(shù)中。基于本體的信息抽取技術(shù)主要是在信息抽取任務(wù)中引入相應(yīng)的領(lǐng)域知識——領(lǐng)域本體來指導(dǎo)抽取過程 [10]。作為一種自然語言處理系統(tǒng),信息抽取系統(tǒng)需要強(qiáng)大知識庫的支撐。在不同的信息抽取系統(tǒng)中,知識庫的結(jié)構(gòu)和內(nèi)容是不同的,但一般來說,都要有一個(gè)領(lǐng)域本體,該領(lǐng)域本體通常是面向特定領(lǐng)域或場景的,是通用概念層次模型在特定領(lǐng)域或場景的細(xì)化或泛化。基于領(lǐng)域本體的信息抽取系統(tǒng)能提供用戶感興趣的特定信息,并通過領(lǐng)域本體為信息源提供必要的語義標(biāo)注信息,從而使系統(tǒng)對領(lǐng)域內(nèi)的概念、概念之間的聯(lián)系有統(tǒng)一的認(rèn)識,有效地提高信息抽取的性能,提高信息抽取的準(zhǔn)確率與覆蓋率,并進(jìn)一步提高系統(tǒng)的查準(zhǔn)率和召回率,為用戶提供更有價(jià)值的信息。
5.2 基于本體的信息抽取特點(diǎn)
本體信息抽取是新型的信息抽取方式,它利用本體網(wǎng)格而不是扁平結(jié)構(gòu)的辭典與詞表來識別抽取內(nèi)容,本體信息抽取可以在語義層面理解抽取內(nèi)容,從語義信息入手進(jìn)行抽取,并可通過本體實(shí)例對抽取內(nèi)容進(jìn)行語義標(biāo)注,可大大提高信息的召回率和精確度[11]。由于基于本體的信息抽取是一種基于本體、能處理語義的信息抽取系統(tǒng),更為重要的是基于本體的信息抽取模型非常適合作為下一代Web技術(shù)的通用語義抽取模型,因?yàn)橄乱淮鶺eb技術(shù)——semantic Web是基于本體的Web技術(shù)。
5.3基于本體的信息抽取方法
5.3.1 知識工程的方法由專家對語料庫本體進(jìn)行分析、調(diào)整而人工制定規(guī)則、模板。根據(jù)選定的訓(xùn)練集中的數(shù)據(jù)來確定本體中出現(xiàn)的概念和關(guān)系,建立本體;手工統(tǒng)計(jì)概念和關(guān)系中出現(xiàn)的關(guān)鍵字,然后根據(jù)規(guī)則進(jìn)行抽取。因?yàn)楸倔w的構(gòu)建和規(guī)則的制定是建立在特定的訓(xùn)練集上的,實(shí)際的抽取過程中如果抽取的文本結(jié)構(gòu)和表述方式發(fā)生變化時(shí),對于抽取的結(jié)果影響非常大。這種方法需要有經(jīng)驗(yàn)的工程師來開發(fā),個(gè)人的直覺能夠?qū)ο到y(tǒng)的性能產(chǎn)生很大的影響,性能較好,開發(fā)周期長。
5.3.2 自動訓(xùn)練方法給出根據(jù)本體中的概念進(jìn)行標(biāo)注的例子文檔集,通過機(jī)器學(xué)習(xí)的方法來推導(dǎo)模板和模板的自動填充知識庫和規(guī)則。也應(yīng)用統(tǒng)計(jì)學(xué)的方法來抽取。使用這種方法的開發(fā)者并不需要掌握語言工程知識,但需要大量的經(jīng)過標(biāo)注的訓(xùn)練數(shù)據(jù)。如果需要對這類系統(tǒng)的核心數(shù)據(jù)進(jìn)行修改,則相應(yīng)的所有訓(xùn)練數(shù)據(jù)也需要重新標(biāo)注[10]。
5.4 基于本體的信息抽取過程
基于本體的信息抽取的基本設(shè)計(jì)思路如下:在領(lǐng)域?qū)<业膸椭拢⑾嚓P(guān)領(lǐng)域的本體。在構(gòu)建完整的領(lǐng)域本體的基礎(chǔ)上,收集信息源中的數(shù)據(jù),并參照已建立的本體,參考本體論對異構(gòu)信息進(jìn)行標(biāo)引,將概念關(guān)系生成標(biāo)注規(guī)則,這些規(guī)則是抽取與領(lǐng)域相關(guān)的信息的一組原則,利用本體庫得到的形式化地表達(dá)。還要利用這些概念關(guān)系參與文本的語法分析,把語法分析的結(jié)果和本體標(biāo)注規(guī)則結(jié)合在一起生成信息標(biāo)注器,再通過信息抽取器得到所需要的信息。本體論可以從語義信息入手進(jìn)行抽取,這樣可大大提高信息的召回率和精確度[12h]。基于本體的信息抽取過程如圖2所示:
6 結(jié)束語
目前,基于本體的Web信息抽取技術(shù)的研究雖然取得了一定進(jìn)展,但仍是一個(gè)新的研究領(lǐng)域,處于探索階段。首先需要解決的問題是如何構(gòu)建高質(zhì)量的本體。本體的設(shè)計(jì)是一個(gè)創(chuàng)造性的過程,而領(lǐng)域本體的構(gòu)建更是一個(gè)極具挑戰(zhàn)性的工作。因?yàn)楸倔w的建立需要領(lǐng)域?qū)<业膮⑴c且需要耗費(fèi)大量的人力和物力,特別是領(lǐng)域內(nèi)實(shí)例術(shù)語的獲取。依靠手工獲得是不現(xiàn)實(shí)的,現(xiàn)在大量的研究致力于自動構(gòu)建本體,自動獲取本體的概念和關(guān)系,并利用信息抽取技術(shù)來自動獲取本體中的實(shí)例。如何才能構(gòu)建出高質(zhì)量的本體,充分發(fā)揮本體的全部潛能,提高信息抽取的準(zhǔn)確性是問題的瓶頸。其次,在一個(gè)新領(lǐng)域上建立信息抽取系統(tǒng)需要許多該領(lǐng)域?qū)<液褪煜LP (neuro-linguistic programming)系統(tǒng)的計(jì)算機(jī)語言學(xué)家的共同努力,既費(fèi)時(shí)又費(fèi)力。由于本體的自動構(gòu)建技術(shù)還很不成熟,領(lǐng)域知識的自動獲取還依賴于信息抽取技術(shù)。今后,只有提高本體的自動構(gòu)建技術(shù)和信息抽取技術(shù),使得兩種技術(shù)相互促進(jìn),基于本體的信息抽取技術(shù)才能有個(gè)更大的發(fā)展空間。
參考文獻(xiàn):
[1] 陳立娜,張紅,馬莉.基于本體的旅游信息抽取.計(jì)算機(jī)應(yīng)用軟件,2010(4): 146-161.
[2] 陸進(jìn)科,李新穎.基于Ontology的文本信息抽取.計(jì)算機(jī)應(yīng)用研究,2003(7): 46-48.
[3] 宋煒,張銘.語義網(wǎng)簡明教程.北京:高等教育出版社,2004.
[4] 于江德,李學(xué)鈺,樊孝忠.信息抽取中領(lǐng)域本體的設(shè)計(jì)和實(shí)現(xiàn).電子科技大學(xué)學(xué)報(bào),2008(9): 746-749.
[5] 俞士汶,段慧明,朱學(xué)鋒,等.綜合型語言知識庫的建設(shè)和利用.中文信息學(xué),2004,18(5):1-10.
[6] 何召衛(wèi),陳俊亮.基于本體關(guān)系匹配的信息抽取.計(jì)算機(jī)工程,2007 (11): 207-209.
[7] 周峰,吳斌,石川.復(fù)雜網(wǎng)絡(luò)構(gòu)建中信息抽取技術(shù)綜述.數(shù)字圖書館論壇,2008(6):28-33.
[8] 劉遷,焦慧.信息抽取技術(shù)的發(fā)展現(xiàn)狀及構(gòu)建方法的研究.計(jì)算機(jī)應(yīng)用研究,2007(7):6-9.
[9] 陳靜,朱巧云,貢正仙.基于Ontology的信息抽取研究綜述.計(jì)算機(jī)技術(shù)與發(fā)展,2007(10): 84-91.
[10] 徐靜,孫坦,黃飛燕.近兩年國外本體應(yīng)用研究進(jìn)展.圖書館建設(shè),2008 (8): 84-90.
[11] 徐萍,邵波.基于本體信息抽取的競爭情報(bào)預(yù)處理分析.情報(bào)雜志,2008(9): 33-38.
[12] 柳佳剛,賀令亞,陳山.基于Web的信息抽取技術(shù)現(xiàn)狀與發(fā)展.福建電腦,2007(7): 48-49.
[作者簡介] 張莉萍,女,1966年生,副研究館員,碩士,發(fā)表論文10余篇,出版專著1部。