摘要:本文主要是對歷史人物知識的修正與獲取進行研究,探討如何從歷史人物簡介中獲取人物知識。由于自然語言技術目前尚不足支持自動的知識獲取,半自動獲取方法是一種可行的方案。本文在總結歷史人物知識描述的特點基礎上,提出了一種知識修正的方法,它是自然語言到目標知識表示語言的過渡橋梁。同時,我們還介紹使用該方法在歷史人物知識獲取中獲得歷史人物知識庫。
關鍵詞:歷史人物知識獲取;歷史人物知識表示;合一算法;知識修正
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)17-21379-03
1 引言
近年來,從文本中獲取歷史人物知識受到很大關注,并且成為一個重要的研究領域。一般而言,從文本中獲取歷史人物知識有3種途徑:第一種途徑是從文本中直接自動的抽取概念和關系。然而,一個完全自動的方法并不是總有效的,因為文本知識往往是有二義的、不規則的。因此,如果在機器沒有一定量的“背景知識”時,實現完全自動獲取是不現實的。例如:若抽取飛機自衛電子對抗設備這一概念,一個獲取算法需要一定的背景知識。第二種途徑是專家知識獲取。在構造專家系統時不可避免地會遇到專家知識獲取的“瓶頸”問題:盡管專家擅長給出例子和其他形式的決定,但難于精確表達他的知識,因此,直接從例子中構造出規則才能緩解這個問題。第三種途徑是半自動的獲取方法,這需要知識工程師的必要干預。
從文本中獲取歷史人物知識是知識獲取和創建知識庫的重要途徑之一。而要獲取歷史人物文本知識常常會涉及到多種知識源的問題,不同的知識源可能會引起下面的問題:(1)知識的不一致性,例如:概念名稱的不一致性、主旨不同制式元的知識之間本身的不一致性。(2)知識粒度不同,即不同知識源描述同一概念或事件的詳細程度不同,甚至缺少一定的知識描述。(3)知識的精度不同。
那么,如何發現歷史人物知識之間的不一致性,盡量保證所獲取知識的完備性和精確性?這就是建立大型專業歷史人物知識庫系統的關鍵問題之一。另外,從知識服務的角度來說,如何將相關的知識聯系起來,這也是值得討論的問題。
很顯然,要獲取到精確一致的較完備的歷史人物知識,知識修正是很有價值的方法,許多學者對知識修正作過有益的研究[3-6]。為此,本文提出了一種知識修正和獲取方法。該方法主要有兩部分構成:第一部分是合一求精算法和知識修正方法,目的就是盡可能獲取到更完備的、精確一致的歷史人物描述;第二部分是編譯系統.該系統通過對規范概念框架的編譯、分析和知識連接而最后生成歷史人物知識庫。
該方法的特點:(1)首先將文本知識中的歷史人物轉化成框架的形式,以便修正知識,保證了所獲取知識的一致性;(2)基于框架抽取和合一求精過程,保證了所獲取知識的小粒度和高精度。
2 文本知識的特點以及概念的表示
2.1 文本知識的特點
目前,我們主要從中國歷史人物[7]和《中國歷史杰出人物》[8]中獲取歷史人物知識.歷史人物文本知識主要有以下5個特點[1]:
(1)歷史人物知識大多屬于事實性知識或結構性知識或過程性知識;
(2)歷史概念主要分為概念性概念、同型性概念和客體:概念性概念主要是上層概念,屬性取值待定;而同型性概念是指屬性取值固定的,型號是一樣的。客體就是具體的個體;
(3)歷史人物知識一般是用從上到下(Top-Down)的方式描述的.描述歷史人物對象的知識元素分布在不同的段落里;
(4)歷史概念有多種不同的描述角度;
(5)不同知識源的知識之間存在如下問題:知識不一致,知識粒度不同和精度不同。所謂的不一致主要有以下的常見形式:分類標準的不一致,有內在約束關系屬性的屬性值之間的不一致,同一歷史事件/概念的名稱不一致和屬性的屬性值的類型不一致。
下面,舉例說明兩種歷史人物知識源之間的知識是不一致的、粒度不同的。
例1:概念名稱描述的不一致性
偉大的馬克思主義者,無產階級革命家毛澤東在1893年12月26日生于一個農民家庭。毛潤之,1893年12月26日生于湖南湘潭韶山沖一個農民家庭。事實上,“毛澤東”和“毛潤之”都是同一個軍事人物。
在《浙江通志、奉化市志》中描述的是蔣介石,而在《蔣中正家事啟示》中描述的卻是蔣中正。事實上,“蔣介石”和“蔣中正”都是同一個軍事人物。
例2:屬性的屬性值類型不一致。例如20世紀80年代和1980年。
例3:屬性的屬性值精度不同。 例如戰斗機的作戰半徑很廣和作戰半徑約1500千米。
例4:知識粒度不同:在描述“毛澤東”時, 第一種描述為“毛澤東,湖南湘潭人,1893年12月26日生于一個農民家庭”,而第二種描述為“1893年12月26日生于湖南湘潭韶山沖一個農民家庭”。如果提取一個屬性“出生背景” 第一個知識源的屬性值為:生于一個農民家庭,而第二個知識源的屬性值為:生于湖南湘潭韶山沖一個農民家庭。因為后者描述更詳細,所以知識粒度更細。
2.2 概念的表示
Def Concept 概念名C
{屬性1:<屬性值1,限|<屬性值2,限制條件>|…|<屬性值n,限制條件>
屬性2:<屬性值1,限制條件>|<屬性值2,限制條件>|…|<屬性值k,限制條件>
……
屬性m:<屬性值1,限制條件>|<屬性值2,限制條件>|…|<屬性值j,限制條件>
關系1: <側面1, 側面值>|<側面2, 側面值>|…|<側面I, 側面值>
……
關系w: <側面1, 側面值>|<側面2, 側面值>|…|<側面v, 側面值>
詞料集:同一詞集|上下義關系詞(Hyponymy)集|反義關系(Antonymy)詞集
公理集:屬性公理集|關系公理集
轉換函數集:時間轉換函數 |模糊轉化函數|一致性檢查函數
}
例如:Def Concept 毛澤東
{出生日期:1893年12月26日
身高: 1.83米
性別:男
年齡:83歲
籍貫:湖南湘潭人
政治面貌:黨員
……
}
3 基于多值上下文的知識修正與獲取
3.1 知識修正與知識獲取
我們的知識獲取方法主要有三個階段(見圖1):第一步“人-機交互”的概念框架抽取和多值上下文抽取階段;第二步知識修正階段;第三步編譯器對規范框架進行語法檢查,并將相關的知識進行合并、連接,最后形成歷史人物知識庫。 知識修正主要包括:知識求精和知識一致性檢查。知識求精主要通過合一求精算法實現,一致性檢查主要通過概念框架的內部驗證和概念之間的交叉驗證實現。其中,橢圓表示知識的說明體,長方形是對知識的處理,箭頭表示知識的流向和處理的順序。
下面,主要討論第2步的合一求精算法.假設不同知識源對概念C的屬性描述部分分別為:C=C1={
合一求精算法的描述如下:
(1)令概念C’={},即初始化為空集。
(2)取出C1中的第1個序偶
(3)考察C2中的每一個序偶
Case1:若Vi是V’j的子串,則將
Case2:若存在轉換函數f,使得f (Vi)V’j, 則將
(4) 重復步驟(3),直到考察完所有的
(5)重復步驟(2)(3)(4),直到C1的屬性部分為空集為止;
(6)若C2的屬性部分非空,則將剩余部分復制到C’;
(7)對C1 和C2的關系部分、詞料庫、公理集等做類型操作.最后得到較完備的概念C’的描述。
(8) 對C’進行一致性檢查,利用公理集檢查相應屬性的屬性值或關系的關系值的一致性。
(9) 通過屬性聯通學習概念的其他名稱,修改同義詞庫。
一致性檢查是知識修正中很重要的環節。首先,通過概念本體中的屬性公理和一致性檢查函數可以對概念框架進行內部檢查,以便發現不一致的知識;然后,通過有FCA的理論從歷史人物文本中所獲取的屬性依賴集對概念框架進行交叉驗證,發現不一致的知識。因為,所用的屬性公理是可靠的,所以當發現不一致時就說明概念框架是不一致的;最后,對發現的不一致的知識進行修正,得到協調一致的概念框架系統。
有了較精確的協調一致的概念框架系統,就可以進行知識的程序獲取。類似于文獻[1,10],我們運用InOut-模型(如圖2毛澤東的InOut模型)作為表示概念和關系的機制,在一個InOut-模型中,一個接點代表一個概念或屬性或關系或相應的值,并且每個接點都對應儀一個InOut-序列(包含概念和關系間的連接.一個接點的InOut-序列具有如下的形式:來源,語義關系,目標。語義關系可是屬性。首先,編譯器對每個概念框架進行語法檢查。如果合法,則編譯器生成這個框架的InOut-模型。否則,反饋出錯信息。最后,編譯器將相關的InOut-序列連接起來,形成更大的InOut序列,最后生成歷史人物知識庫。
3.2 該獲取方法的特點
該方法的特點:(1)首先將歷史人物知識中的對象概念(Object Concept)提取轉化成多值上下文,然后利用形式概念分析(FCA)的理論刻畫出屬性之間的各種依賴關系和相應的概念格,以便修正框架知識,保證了所獲取知識的一致性;(2)基于概念本體的框架抽取和合一求精過程,保證了所獲取知識的小粒度和高精度。通過知識求精和知識修正使得多個知識源之間的知識粒度、知識精度和不一致性得到修正,保證了所獲取知識的質量。
4 總結
本文首先介紹了歷史人物知識的特點,并舉例說明了不同知識源的知識之間存在的一些重要問題:不一致性,知識粒度不同和知識精度不同等。基于上述問題,我們提出了一種歷史人物知識獲取方法。該方法有兩大部分組成:第一部分是基于框架的合一算法,用來合并相同的概念,以盡量保證概念的屬性/關系以及屬性值/關系值等的完備性和精確性;第二部分是編譯系統。該系統通過對文本的編譯、分析和知識連接而最后生成歷史人物知識庫。
實踐證明,利用合一算法可以加快文本知識到規范化文本知識的轉化過程, 保證所獲取到一致的、完備和精確的概念描述,從而提高文本知識獲取的效率和質量。我們方法的重要基礎就是需要創建大量的歷史人物概念本體以及建立相應的公理以及創建概念本體和公理的質量。將來,我們將進一步整合和優化創建的概念本體和公理,以便更高效地獲取領域知識。
參考文獻:
[1] Lei Yuxia,Cao Cungen, Sui Yuefei. Acquiring Military Knowledge from Texts in the Electronic Encyclopedia of China.ICYCS’2001.Vol.1,P:367-371.2001.
[2] 雷玉霞,曹寶香.基于知識分析的軍事知識聯通研究[J].信息技術與信息化, 2005,(04):126-128.
[3] 郝天永,曹存根.基于PADL的古代人物簡歷知識獲取[J].計算機科學, 2005,(03).
[4] Santos,E.,Jr.Dinh,H.T. Consistency of test cases in validation of Bayesian knowledge-bases[J].Tools with Artificial Intelligence, ICTAI 2004,P: 468- 475, 2004.
[5] D Richards, P Compton. An alternative verification and validation technique for an alternative knowledge representation and acquisition technique[J].Knowledge-Based Systems. Volume 12, Issues 1-2 , P:55-73, 1999.
[6] C Vicat, P Brezillon, C Nottola.Knowledge validation in the building of a knowledge-based system[J].Expert Systems with Applications, P: 391-397,1995.
[7] SA Wallace, JE Laird. Toward automatic knowledge validation.http://ai.eecs.umich.edu.2002.
[8] Bernhard Ganter,Rudolf Wille. Formal Concept Analysis: Mathematical Foundations.Springer,1999.
[9] LEI Yuxia. Attribute-based Analysis of the Part-whole Relation on Artifacts. The proceedings of the china association for science and technology. Vol.2 No.4:566-569, 2005.
[10] Cao Cungen. Extracting and Sharing Knowledge from Medical Texts. Journal of Computer Science and Technology, 2002,(03):295-303.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文