閆昱姝 雷玉霞
摘 要:知識融合是知識管理和知識工程的重要環節,從文本中獲取專業知識是人們獲取新知識的首選方式。對于多源文本知識,由于作者描述的角度和側重點不同,往往導致文本知識描述的整體性、知識粒度和精度有所差異,從而引起知識的不一致問題。為得到粒度小、精度高且完備的文本知識,提出一種基于本體的多源文本知識融合算法。利用本體概念框架將文本知識結構化,并將概念框架進行融合。實驗結果表明,該算法有效解決了文本知識的不一致問題,提高了知識融合效率。
關鍵詞:知識融合;文本知識;知識不一致;概念框架
DOI:10.11907/rjdk.172864
中圖分類號:TP312
文獻標識碼:A 文章編號:1672-7800(2018)005-0062-03
Abstract:Knowledge fusion is an important part of knowledge management and knowledge engineering. Acquiring professional knowledge from text is the preferred way for people to acquire new knowledge. For multi-source text knowledge, different description angles and focuses of the authors, often lead to the differences in integrity of text knowledge description, knowledge granularity and precision and cause the problem inconsistent of knowledge.In order to obtain small-size, high precision and complete text knowledge, this paper proposes a multi-source text knowledge fusion algorithm based on ontology. Text knowledge are structured by ontology conceptual framework and integrated with it. Experimental results show that the presented knowledge fusion algorithm can effectively solve the problem of text knowledge inconsistency and improve the efficiency of knowledge fusion.
Key Words:knowledge fusion; text knowledge; inconsistent problem of knowledge; conceptual framework
0 引言
知識是人類社會進步的重要推動力。隨著數字化、信息化時代的到來,知識來源也變得更加多樣化。其中,文本知識是人類直接獲取所需知識的有效途徑,因此對文本知識的研究顯得尤為重要[1]。知識融合是知識管理和知識工程的重要組成部分,主要研究分布式知識庫系統中知識的轉換、集成和融合,并產生新知識,是知識科學和信息融合的交叉學科[2]。通過融合將多源知識綜合為新知識,提高知識的內涵、層次和置信度[3],從而進一步完善知識庫,為人類提供基于知識的服務。目前,知識融合方法種類很多,而基于貝葉斯準則的知識融合算法、基于證據組合理論的知識融合算法應用最為廣泛。由于貝葉斯決策準則具有最小的分類錯誤率[4],將貝葉斯理論應用于知識融合中,可將一個較大問題分解成若干個易解決的小問題,然后利用極大后驗概率假設,最終得到最佳融合結果。證據組合理論D-S是由Dempster[5]于1967年提出,并于1976年由Shafer[6]進一步發展和完善的結果。D-S定義信任函數和基本概率分配,并依據最大支持度準則進行最終融合。在現代社會中,雖然人們可以從各種媒體中得到所需知識并拓展視野,但從文本中獲取知識依舊是人們的第一選擇。動物學是人類自然科學的重點研究方向,對同一動物的描述,由于來源不同,其內容也不盡相同。為解決該問題,本文針對多源文本知識,采用概念框架的知識表示方法,提出一種基于本體的知識融合算法。利用概念框架,將領域知識結構形象化,最大程度地實現對知識庫本身的進一步挖掘,從而提供面向對象的知識服務。
1 相關工作
對于本文提出的多源文本知識融合算法,利用本體對文本知識進行處理,并選擇恰當的知識表示方法將文本清晰化與結構化。
1.1 本體知識
本體是知識的一種組織方式,定義了組成某領域詞匯表的基本術語及其關系,并結合這些術語和關系定義了詞匯表的外延規則,反映出事物本質特征。本體與知識實例的結合構成了知識庫,成為人們知識共享和重用的有效工具[7],如圖1所示。
1.2 知識表示方法
知識表示是人工智能領域的一個核心問題[8]。在知識工程中,常用的知識表示方法有謂詞邏輯表示法、產生式表示法、框架表示法、腳本表示法、語義網絡表示法與面向對象表示法等。從知識可重用性和可共享性角度出發,基于本體的知識表示方法逐漸成為研究熱點[9]。本文以基于本體的概念框架形式表示知識,使文本知識的結構脈絡更加形象化。
1.3 不一致類型分析
多源文本知識存在較強的異構性,易引起知識的不一致,以下是幾種常見的不一致類型:
(1)概念名稱不一致。在不同來源的文本中,對同一事物的描述往往存在一定差異。例如:我國珍惜保護動物大熊貓在臺灣被稱為貓熊,其實是同一種生物。
(2)時間/日期不一致。本文將時間/日期的不一致類型分為兩大類:古代紀年類型和近現代紀年類型,如圖2所示。
(3)計量單位類型不一致。常用單位有長度單位、質量單位和時間單位,而不同文本對同一事物的測量標準不同,從而導致單位不一致的情況產生。例如:在描述身高時,既可描述為以厘米為單位,也可描述為以米為單位,均可表示同一人身高。常用單位的具體類型如圖3所示。
2 融合算法
不同文本對同一概念的描述往往不同,因此需要找到一種避免由異構引起差異的方法。本文提出一種文本知識融合算法,對不同來源的文本知識進行框架處理,當所獲得的概念名稱相同而內容不同時,將概念屬性進行融合,形成新的、完備的概念框架[10]。
3 實驗分析
在查閱資料后,從百度百科[11]、維基百科[12]、互動百科[13]、《漢語大辭典》[14]、《環境科學大詞典》[15]中獲取關于大熊貓的介紹。F1、F2、F3、F4、F5分別表示來源于百度百科、維基百科、互動百科、漢語大辭典、環境科學大詞典的5個概念框架。其屬性用mi表示,m1~m13分別表示的屬性為:學名、英文名稱、所屬類別、體色、特點、存活時間、稱號、主要棲息地、野生數量、圈養數量、食物、野生壽命、圈養壽命、別名、現存數量、體長。對概念框架進行屬性分析,如圖4、圖5及表1所示。
通過將來源于百度百科、維基百科等的大熊貓文本知識進行融合,得到融合的匹配復雜度為9.26,框架融合度為0.52,而直接兩兩融合的匹配復雜度為12.28,框架融合度為0.48。實驗結果表明,本文提出的融合算法能夠有效提高知識融合效率。
4 結語
本文首先介紹了與研究內容相關的本體知識和知識表示方法的選擇,然后對知識不一致類型進行分析,提出多源文本知識融合算法,用實例驗證算法的可行性和有效性,最后對實驗結果進行分析。實驗結果表明,本文提出的多源文本知識融合算法有效解決了文本知識的不一致問題,提高了知識融合效率。下一步工作將繼續探索在概念名稱不同、內容相同的情況下,如何將不同來源的文本知識更好地融合在一起。
參考文獻:
[1] DENG Y, SHI W K. Experts′ knowledge fusion in model-based diagnosis based on Bayes networks [J].Journal of Systems Engineering and Electronics, 2003,14(2):25-30.
[2] 徐賜軍,李愛平,劉雪梅.基于本體的知識融合框架[J].計算機輔助設計與圖形學學報,2010,22(7):1230-1236.
[3] 周芳,王鵬波,韓立巖.多源知識融合處理算法[J].北京航空航天大學學報,2013,39(1):109-114.
[4] 王爽,郭軍海,張艷,等.導彈目標識別的最小貝葉斯風險分類器[J].現代防御技術,2012,40(1):60-64.
[5] DEMPSTER A P. Upper and lower probabilities induced by a multivalued mapping[J]. Annals of Mathematical Statistics, 1967,38(2):325-339.
[6] SHAFER G. A mathematical theory of evidence[M].Princeton,NJ:Princeton University Press,1976.
[7] 李娜.基于本體的文本知識修正與獲取[D].青島:中國石油大學(華東),2009.
[8] 韓永花,雷玉霞,陳娟,等.多框架知識的不一致性檢測及其修正算法[J].計算機工程與應用,2016,52(23):94-97.
[9] 張德海.NKI國家和地區地理知識的獲取與分析[D].昆明:云南師范大學,2002.
[10] 雷玉霞,陳娟,韓永花,等.Frame知識的不一致性分析與修正[J].計算機工程與應用,2016,52(22):155-158.
[11] 百度百科[EB/OL].https:∥baike.baidu.com/item/%E5%A4%A7%E7%86%8A%E7%8C% AB/34935.
[12] 維基百科[EB/OL].https:∥zh.wikipedia.org/wiki/%E5%A4%A7%E7%86%8A%E7%8C%AB.
[13] 互動百科[EB/OL].http:∥www.baike.com/wiki/大熊貓&prd;=so_1_doc.
[14] 傅玉芳.漢語大詞典 [J].辭書研究,1994(3):80-81.
[15] 《環境科學大詞典》編委會.環境科學大辭典(修訂版)[M].北京:中國環境科學出版社,2008.
(責任編輯:黃 健)