摘要:介紹了本體和本體映射的概念,以及目前本體映射的主要方法#65377;針對目前本體映射方法中存在的不足,提出了一種新的本體映射方法——基于分類的本體映射方法,解決了本體概念相似度計算量過大的問題,并實現了基于該映射方法的原型工具COMT,最后通過一個本體映射實例加以驗證#65377;
關鍵詞:本體; 本體映射; 語義互操作
中圖分類號:TP393; TP311文獻標志碼:A
文章編號:1001-3695(2007)10-0213-03
近年來,本體技術在人工智能#65380;知識表示#65380;語義Web#65380;信息檢索等研究領域的應用日益廣泛#65377;盡管構造本體的主要目的是知識共享和復用,但目前真正用于共享和復用的實例卻并不多見,主要原因是本體庫之間存在不可避免的異構性[1],而本體映射是一種用于解決本體庫間異構性的重要方法#65377;
1本體映射概述
1.1本體
本體的概念來源于哲學領域,簡單地說是指形成現象的根本實體(與“現象”相對)#65377;在信息系統中(如傳統的數據庫系統以及語義Web等),本體被看成是解決語義互操作性的重要方法#65377;本體在語義Web中具有重要的地位,是解決語義層次上Web信息共享和交換的基礎#65377;
本體在計算機領域有多種不同的定義,其中最為著名并被引用得最廣泛的是Gruber的“本體是概念化的明確的規范說明”[1];Fensel定義“本體是對一個特定領域中重要概念的共享的形式化的描述”[2];Swartour將本體定義為“本體是一個為描述某個領域而按繼承關系組織起來作為一個知識庫的骨架的一系列術語”#65377;盡管本體的定義方式有很多種,通過對這些定義的比較可以看出,它們均將本體當做城市領域內部不同主體之間進行交流的一種語義基礎,本體提供一種明確定義的共識[3]#65377;
1.2本體映射
構造本體在許多領域均得到應用,但是存在許多問題#65377;盡管構造本體的主要目的是知識共享和復用,但目前真正用于共享和復用的實例卻并不多見[4]#65377;造成這個問題的原因是本體的多樣性,人們往往喜歡根據自己的實際需要來構造自己的本體,這就導致了同一領域內存在多個本體,它們用于表示同一個系統,表達方式上卻有一些差別#65377;這些本體是異構的,它們之間不能進行互操作,用戶之間也不能相互理解[5]#65377;
同一領域內的不同本體之間要進行互操作,就必須解決本體異構性的問題#65377;一般可以采用三種方法:
a)本體間建立包含關系#65377;目標本體簡單地包含源本體,來自源本體的所有數據概念均能夠在目標本體中出現#65377;
b)本體間建立映射關系#65377;通過映射源本體的實體可以轉換為目標本體的實體#65377;
c)找一個公共的本體#65377;將多個數據源對應的本體進行合并,生成一個完整的公共本體#65377;
上面三種方法中,第一種方法的缺點是信息的概念只能被復用而不能被修改;第三種方法缺乏足夠的靈活性,不能夠適應大的開放式環境[5]#65377;
解決本體異構性的最好方法就是本體映射#65377;本體映射是指兩個本體存在語義級的概念關聯,通過語義關聯實現將原本體映射到目標本體的過程[6]#65377;本體映射認為是解決這個問題的一個重要方法,它解決了不同本體之間的知識共享和重用問題#65377;
1.3本體映射方法
目前,有很多文獻提出多種映射方法,按本體定義模型進行分類可以分為:
a)基于通用公共上層本體庫的本體概念映射#65377;領域本體庫基于某個公共上層本體庫(如DOLCE[7])為基礎所構建,通過分析領域本體庫與公共上層本體庫之間的關系來計算本體概念之間的相似度#65377;
b)基于本體概念相似度的本體映射#65377;直接計算概念之間的相似度#65377;其具體的計算方法又有很多種,如基于自然語言處理的概念相似度計算方法[8]#65380;基于本體代數的方法[9]等#65377;
c)基于本體概念層次結構相似性的本體映射#65377;以圖論方法和本體語言的結構特點來進行相似性分析,如果兩個概念的相鄰節點(子概念#65380;父概念)是相似的,那么它們的相似性程度增加[8]#65377;
d)基于b)c)兩種方法的擴展映射方法#65377;前兩種方法的加權綜合,基于概念及概念的相關內容來綜合加權計算概念間的相似度,從而最大限度地提高本體映射的質量#65377;
上面的幾種方法存在一些不足,方法a)要求被映射的本體庫均基于同一個上層本體庫構建,這在實際中很難實現;方法b)~d)均是從計算角度,通過本體概念間的相似度計算得出可能的映射,并提交領域專家判斷,但缺陷是計算量過大#65377;為了解決計算量過大的問題,本文提出了基本分類的本體概念映射方法#65377;
2基于分類的本體映射方法
為了解決概念相似度計算復雜度的問題,本文提出了基于分類的本體概念映射方法#65377;這種映射方法的基本思想是:通過分類將本體庫劃分為若干小型的本體樹,對于分類樹的根節點(也稱為本體庫的分類節點)建立相似映射,這樣所有的相似度計算均限制在建立了相似映射的分類樹根節點所在分類樹之間,從而大大降低了概念相似度計算的復雜度#65377;
3本體映射工具框架及其實現
3.1原型工具框架COMT
根據上文提出的基于分類的本體映射算法,實現了一個本體映射的原型工具,即COMT(classificationbased ontology mapping tool)#65377;該原型工具的框架如圖2所示#65377;
從圖2中可以看出,主要由以下幾步來實現:
a)用戶從界面輸入兩個OWL文件,它們分別描述的是兩棵分類本體樹,由領域專家通過對本體樹進行劃分得到#65377;
b)利用Jena API解析兩個OWL文件得到兩個分類本體樹的拓撲結構圖,包括每個分類本體樹中本體概念間的繼承關系#65377;
c)計算兩棵分類本體樹所有概念之間的笛卡爾積,得到所有需要計算其相似度的概念對#65377;
d)對每個概念對,搜索一個合適的樣本文檔(使用Google Web API實現)#65377;
e)利用上文給出的相似度計算公式計算出所有概念的相似度#65377;
f)提示用戶手動輸入概念相似度閾值(通常由領域專家視具體情況而定,其值為0~1,上文設定為0.6)#65377;
g)對概念對的相似度進行篩選,得到其中相似對大于閾值的概念對,即通過相似度計算確定為可以進行映射的概念#65377;最后將這些可能的映射概念對提交給領域專家進行最后的篩選和確認#65377;
3.2映射工具實現
下面通過一個本體庫間的映射實例來驗證基于分類的本體映射方法以及原型工具框架,以article和tradename兩個本體庫中的分類樹為例,如圖3所示#65377;
使用本體映射的原型工具來計算這兩個分類樹中的概念相似度:
a)輸入描述上述兩棵分類樹的OWL文件,如圖4所示#65377;
b)計算這兩棵分類樹中所有概念對的概念相似度,如圖5所示#65377;
c)由領域專家設定閾值,得到相似度大于閾值的概念對,即為可能的相似概念對,如圖6所示#65377;
4結束語
本體是人與機器#65380;程序間知識交流的語義基礎[5],使用本體的目的是為了知識的共享和重用#65377;本體映射是解決不同本體概念間的語義沖突的重要方法#65377;目前,本體映射需要領域專家的干預,是一個非常復雜和繁瑣的過程#65377;本文提出基于分類的本體映射方法在一定程度上解決了本體映射中計算相似度時計算量過大的缺陷#65377;下一步的工作重點主要集中在三個方面:a)改進此算法中使用到的取詞(stemming)技術,目前的取詞算法還不能對以連接詞連接的復合單詞提取正確的詞根;b)提高該映射工具計算相似度的效率,主要是在搜索樣本文檔方面的效率;c)該映射工具目前只能對用英文描述的本體分類樹進行映射,還不支持用中文描述的本體,這也是下一步工作的重點#65377;
參考文獻:
[1]GRUBERC T R. A translation approach to portable ontologies specifications[J]. Knowledge Acquisition, 1993,5(2):199-220.
[2]FENSEL D. The semantic Web and its languages[J]. IEEE Computer Society, 2000,15(6):67-73.
[3]郁書好,郭學俊.基于語義Web的本體及本體映射研究概述[J].微機發展,2005,15(8):20-26.
[4]USCHOLD M, TATE A. Putting ontologies to use[J]. The Knowledge Engineering Review Journal, 1998,13(1):1-3.
[5]鄭麗萍.本體映射的研究[D].濟南:山東大學,2005:5-20.
[6]黃煙波,張紅宇,李建華,等.本體映射方法研究[J].計算機工程與應用,2005,41(18):27-29,33.
[7]GANGEMI A, GUARINO N, MASOLO C, et al. Sweetening wordnet with DOLCE[J]. AI Magazine, 2003,24(3):13-24.
[8]KALFOGLOU Y, SCHORLEMMER M. Ontology mapping: the state of the art[J]. The Knowledge Engineering Review Journal, 2003,18(1):1-31.
[9]MELNIK S, MOLINAGARCIA H, RAHM E. Similariy flooding: a versatile graph matching algorithm and its application to schema matching[C]//Proc of the 18th International Conference on Data Engineering. San Josè: Morgan Kanfmann Publishers Inc, 2002:117125.
[10]DING Ying, FOO S. Ontology research and development, part 2: a review of ontology mapping and evolving[J]. Journal of Information Science, 2004,28(5):383-396.
[11]FEUERLICHT G, MEESATHIT S. Design method for interoperable Web services[C]//Proc of the 2nd International Conference on Service Oriented Computing. New York:ACM Sigsoft, 2004:299-307.
“本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文”