摘 要:本體技術是目前比較熱門的一個研究方向,這里探討本體和數字圖書館的相關概念,提出利用本體理論和方法建立數字圖書館中知識的劃分與分類,采用分類法詳細探討本體在數字圖書館中的重要應用及其所發揮的功能,意在揭示本體在數字圖書館中的重要意義,從而更加有利于用戶高效便捷地利用圖書館的資源,促進知識創新和應用。
關鍵詞:本體技術;知識劃分;數字圖書館;分類法
中圖分類號:G250文獻標識碼:B
文章編號:1004-373X(2008)24-109-04
Application of Ontology Technologies in Digital Library
QIU Baoyan,LV Xianghui,QIAO Hong
(School of Management and Economics,Shandong Normal University,Ji′nan,250014,China)
Abstract:Recently,research on the application of ontology technologies is quite a popular research direction,this article discusses the relevance concept of ontology and Digital library,the partition,classification of knowledge segments are developed in the light of ontology,and discusses the important application of ontology in digital library and its function in detail through classification,to reveal the importance of ontology in digital library,thereby it is beneficial to users making use of the library resource conveniently and rapidly,it improvesthe knowledge innovation and application.
Keywords:ontology technology;knowledge partition;digital library;classification
1 引 言
目前社會各領域信息的飛速膨脹阻礙了各領域用戶對信息的查找、訪問及維護,面對信息資源日新月異的增長,如何有效組織復雜的海量信息,提供高效便捷的信息服務,成為數字圖書館界迫切需要解決的難題。本體自20世紀90年代初提出以來,在知識表達、智能推理、信息共享、知識工程及其相關的領域得到了廣泛的應用。本體技術依賴其對于概念體系在語義和知識層次上的有效組織,在數字圖書館中得到了廣泛的應用,提供了公共的理解問題的基礎。
2 關于本體
本體最早是哲學上的一個概念,近年來被引入人工智能和其他計算機科學領域,如數據庫設計、電子商務和知識管理等。最早的本體定義是1991年Neches等提出的:“給出構成相關領域詞匯的基本術語和關系,以及利用這些術語和關系構成的規定這些詞匯外延的規則的定義”。
1993 年,Grube將本體定義為概念模型的明確的規范說明。后來, Studer在進行了深入研究后,將其定義為“共享概念模型的明確的形式化規范說明”[1],其中概念模型,是指通過抽象出客觀世界中一些現象的相關概念而得到的模型;明確,是指所使用的概念及概念的約束都是有明確定義的;形式化,是指本體能被計算機處理;共享,是指本體中體現的是共同認可的知識,反映的是相關領域公認的概念集。本體的目標是捕獲相關領域的知識,提供對該領域知識的共同理解,確定該領域內共同認可的詞匯,并從不同層次的形式化模式上給出這些詞匯(術語)和詞匯間相互關系的明確說明。
雖然不同研究者對本體有不同的描述,但是從內涵上來看,他們的認識是一致的,都把本體當作某個領域內不同主體(人、代理、機器等)之間進行交流(對話、互操作、共享等)的語義基礎。其實,本體就是通過對于概念、術語及其相互關系的規范化描述,勾畫出某一領域的基本知識和描述語言,是一個已經得到公認的形式化的知識表示體系,包含詞表(或名稱表/術語表),詞表中的術語全是與某一專業領域相關的,而邏輯聲明全部用來描述術語的含義及關系[2]。
2.1 本體的作用
(1) 本體為人和主體之間的溝通和交流提供了共享的基礎,也方便了不同領域的系統開發人員和研究人員之間的溝通,它是人機在語義上交互的最好的基礎。
(2) 本體支持對于知識的重用。本體提供了獨立于應用的描述方法使之可在不同系統間重用。例如在基于構件的軟件開發過程中,開發知識系統時知識工程師可以將本體論概念引入知識工程,詳細說明模型中的概念、實例、關系和公理等實體,并以此建立領域本體。然后針對屬性提出本體建模概念化分析的形式化方法,解決知識共享中的問題。此舉有效地提高了工作效率,促進了來自不同領域的研究人員和組織間的交流。
(3) 本體提供了一種結構化的表示領域知識的形式化方法。在本體中,明確說明了領域概念及概念之間的關系,并且支持對領域規則的描述,是領域知識的形式化表示。
(4) 知識本體可以明確領域假設,使領域公理得到明確描述從而達成共知。
2.2 本體的分類
2.2.1 按照領域依賴程度分類
(1) 頂層(top-level)本體:其描述最普通的概念及概念之間的關系,如空間、時間、事件、行為等,完全獨立于特定的問題和領域,其他本體都是該類本體的特例。
(2) 領域(domain)本體:描述的是特定領域(醫學、地理等)中的概念及概念之間的關系。
(3) 任務 (task)本體:描述的是特定任務或行為中的概念及概念之間的關系。
(4) 應用(application)本體:描述的是依賴于特定領域和任務的概念及概念之間的關系。
在這個分類當中,領域本體和任務本體處于同一個研發層次,它們都能應用頂層本體中定義的詞匯來描述自己的詞匯。應用本體既能應用領域本體中的概念,也能引用任務本體中的詞匯。
2.2.2 按照細化程度分類
Guarino從2種不同的維度對本體進行劃分。除了依據對領域的依賴程度分類,還提出了以詳細程度分類。詳細程度是相對的、模糊的一個概念,是描述或刻畫建模對象的程度。參考(reference)本體:詳細程度高;共享(shareable)本體:詳細程度低。
2.2.3 按照形式化程度分類
(1) 高度非形式化:用自然語言松散表示;
(2) 結構非形式化:用限制的結構化的自然語言表示;
(3) 半形式化:用半形式化(人工定義的)語言表示;
(4)嚴格形式化:所有術語都具有形式化的語義,能在某種程度上證明完全性和合理性。
2.2.4 按照是否具備推理功能分類
(1) 輕量級本體(Lightweight Ontology):輕量級本體不具備邏輯推理功能,例如敘詞表和WordNet。
(2) 中級本體(Middle Ontology):中級本體邏輯推理功能簡單,系統可以識別一階謂詞邏輯的表達式。
(3) 重量級本體(Heavyweight Ontology):重量級本體具有復雜的邏輯推理功能,系統可以識別更加復雜的二階謂詞邏輯的表達式,并為更加復雜的推理功能的實現預留了接口,如Cyc本體系統。
除了上述幾種分類方法外,1999年,Perez和Benjamins在分析和研究了各種本體分類法的基礎上,歸納出10種本體:知識表示本體、常識本體、頂級本體、元(核心)本體、領域本體、語一言本體、任務本體、領域一任務本體、方法本體和應用本體。這種分類法是對Guarino提出的分類方法的擴充和細化,但是這10種本體之間存在交叉,層次不夠清晰。
2.3 本體構建原則
(1) 清晰性:本體應該用自然語言對所定義術語給出明確的、客觀的語義定義;
(2) 完全性:所給出的定義是完整的,完全能表達所描述術語的含義;
(3) 一致性:由術語得出的推論與術語本身的含義是相容的,不會產生矛盾;
(4) 可擴展性:即向本體群中添加通用或專用的術語時,不需要修改其已有的內容;
(5) 本體約束最小:對待建模對象給出的約束應該盡可能少,只要能夠滿足特定的知識共享需求即可;
(6) 編碼偏好程度最小:概念的描述不應該依賴于某一種特殊的符號層的表示方法[3]。
2.4 本體構建方法論
Mike Ushold Micheal Gruninger的骨架法(Skeletal Methodology)在企業本體基礎之上,是相關商業企業間術語和定義的集合,該方法只提供本體開發的指導方針。該框架包括以下組成部分:
2.4.1 框架組成部分
(1) 確定本體的目的和使用范圍;
(2) 構造本體。具體包括3步:本體捕獲:即確定關鍵的概念和關系,給出精確定義,并確定其他相關的術語;本體編碼:選擇合適的表示語言表達概念和術語;已有本體的集成:對已有本體的重用和修改;
(3) 評估:根據需求描述、能力問題等對本體以及軟件環境、相關文檔進行評價;
(4) 文檔記錄。M.GruningerM.S.Fox在進行 TOVE本體的研究和開發時,總結了設計和評估本體的方法學,包括背景和需求描述、非形式化的能力問題描述、詞匯和術語確定、形式化的能力問題描述、用一階謂詞邏輯進行規范描述、調整解決方案,使本體趨于完備。
2.4.2 領域本體構建方法
Natalya F.Noy和Deborah L.McGuinness提出了被稱為“七步法”的領域本體構建方法。即:
(1)確定本體的專業領域和范疇;
(2) 復用現有的本體;
(3) 列出本體中的重要術語;
(4) 定義類和類的等級體系;
(5) 定義類的屬性;
(6) 定義屬性的分面;
(7) 創建實例。
以上幾種方法各有自己的優勢和不足,雖然都允許系統之間的互操作,并可進行知識的共享與重用,但與IEEE標準相比,還沒有一種方法體系是完全成熟的。
3 數字圖書館
數字圖書館是社會信息基礎結構中信息資源管理、存儲和傳輸的基本組織形式,擁有豐富的超容量多媒體介質的數字化信息資源,依托網絡為信息需求者提供快捷高效的數字化信息服務[4]。發展基于知識的數字圖書館的必要性在于:
(1) 數字圖書館資源的知識化組織,不僅是一些簡單元數據的表示,也是對所反映內容的有效組織,這需要建立廣泛的基礎性和領域性本體,并能不斷學習與進化。
(2) 不同的人對知識的理解與應用不同,網絡怎樣認知人的知識需求,并在合適的時間給人合適的知識,這是基于知識的數字圖書館的發展目標[5]。但各類信息常在具體系統條件限制下用專門語言定義組織為內部結構和格式,難以有效進行機器支持的檢索、解析、處理和交換,更不要說進行跨文獻單元、數據類型、數據層次和系統范圍的信息挖掘、抽取、綜合分析描述、轉換了。
目前,國內學術界對數字圖書館知識管理的研究尚未全面展開,現有的研究成果多限于內部信息資源知識化的管理,在實踐應用研究方面,還缺乏系統的理論、成熟的模型以及完整的評估體系。而把本體應用于數字圖書館知識管理,極大地解決了語義知識缺乏的問題,并使其具有智能推理和自學習能力,為XML與RDF等技術提供語義支持。
另外,盡管在知識工程界主要把本體作為信息組織的工具,目前本體研究和實踐也大多運用于人工智能中的知識表達,例如語義網絡和框架,但由于本體開發的努力已經集中于基于形式邏輯和基于Web的知識表示中,這也使得本體在數字圖書館中能夠得到廣泛的應用[6]。
4 本體在數字圖書館中的應用
4.1 在數字圖書館信息資源整合中的應用
本體由于其在眾多紛繁復雜的信息資源中具備明確、規范、可共享、包含語義信息等優勢,快速、有效地整合各種信息資源,所以在數字圖書館中發揮重要作用,主要包括:
(1) 靈活處理各類信息資源[7]。例如,可以方便添加各種類、屬性,如填加聯系方式類型等,并嚴格定義其與現有信息資源的關系;可以動態增加類的屬性,并隨時反應到系統中,然后通過在程序中調用本體,得到領域的最新知識,并動態地反映到應用系統中,而不用程序員修改程序。
(2) 有效識別信息資源的類型。因為對每個概念(如name,time,place等)都有明確、客觀的描述,所以調用本體可以識別哪些是描述內容的信息,如屬性…_name,…_keyword,…_abstract,…_description等;識別哪些是描述時間的信息,如屬性…_time,…_date,…_year等;識別哪些是描述地點的信息,如屬性…_address,…_place,…_country等。
(3) 信息資源的內容對應用程序透明。基于本體的系統在應用程序部分將和領域無關,因為領域知識全部存放在本體中,這樣,對系統來說,領域中的各種信息資源在外在形式上是存在很多共性的,只是具體內容不同,就更容易將其整合到一起進行處理。
(4) 提供資源庫領域知識的規范描述。
(5) 提供元數據映射方案,集成到數字圖書館體系中的元數據服務中,成為協議的一部分。
(6) 提供智能代理與信息環境之間基于語義的理解機制。
(7) 作為跨平臺、跨系統之間的通信中介。
4.2 在數字圖書館知識地圖中的應用
知識地圖這個概念最早由布魯克斯(B.C.Brooks)提出,它是知識管理的有效方式和手段,用來描述組織流程中的知識,以圖表的方式將業務流程中的知識流展現出來,包括知識的收集、存儲和共享。知識地圖是可以幫助人們明確在哪里能夠找到知識的工具,利用知識地圖將流程中的關鍵知識整合進來,可以達到提高工作效率的作用。
知識地圖在數字圖書館知識管理系統中可發揮如下作用:知識的分類、存儲、表示、導航以及隱性知識顯性化等。而在系統中,知識的分類、導航可充分利用本體的復雜結構進行合理、細致的分類及準確、快速的導航定位。原因在于:
首先,本體的基礎概念模型本身就是一張很好的知識地圖。因此,構建領域本體的過程也繪制出了領域的知識地圖。而且,本體構建結果中的各種類的層次圖可以作為領域知識地圖的一部分。例如人員類及其子類,就很好地展示了數字圖書館相關人員的情況,即有關數字圖書館人員的知識。
其次各種本體工具中的圖形自動生成功能可用于知識地圖的顯示。在基于本體的知識管理系統中,可根據需要,動態生成各種知識地圖。
比如,中國學術期刊網目前提供了以圖形方式顯示所輸入檢索詞的相似詞。用戶可以根據這幅圖更準確地了解檢索詞,因此這幅圖對用戶明確檢索需求、修改檢索條件等無疑會起到很大作用。遺憾的是,目前中國學術期刊只能提供星狀的幅射圖形,不能提供更加復雜、細致的結構圖。可是,如果系統是基于本體的,就完全可以提供反映領域常識的、有層次、結構復雜的圖形。
4.3 在知識服務中的應用
知識服務,即以信息知識的搜尋、組織、分析的知識和能力為基礎,根據用戶的問題和環境,融入用戶解決問題的過程之中,提供能有效支持知識應用和知識創新的服務。
目前,數字圖書館知識服務需要一個新型的技術基礎,支持數據挖掘、知識發現、知識析取、知識應用和智能化服務(智能Web服務)[8]。無疑,本體技術仰仗其豐富的語義和廣泛的關系,是實現以上目標的最佳手段,將本體建設和相應的代理引擎設計相結合即可解決問題。
用DAML-S在服務模型基礎上定義流程模型本體,綜合人工智能規劃和工作流程研究成果,定義Web服務中的流程類型和流程控制等信息,可以較好地表示Web服務自動集成中的流程分類、合成、控制和時間約束等細節。
5 結 語
數字圖書館的出現,將是圖書館發展史上的一個里程碑,它幫助人們最快地獲取所需要的知識,并為思路的展開創造了更多的機會。而本體的應用可以改善目前數字圖書館的一些不足,使之朝著基于知識的方向發展,最終能夠提供知識服務。另外,除了上述文中提到的應用以外,本體還可通過語義對網頁與文字進行提取與標引[9-11],通過聚類對信息資源進行主題分類、站點導航等,這些無疑都更加豐富了數字圖書館的應用。
參考文獻
[1]Studer R,Benjamins V R,Fensel D.Knowledge Engineering:Principles and Methods[J].Data and Knowledge Engineering,1998(25):161-197.
[2]Uschold M,Gruninger M.Ontologies:Principles,Methods and Applications[J].The Knowledge Engineering Review,1996,11(2):93-155.
[3]Gruber T.Towards Principles for the Design of Ontologies Used for Knowledge Sharing[J].International Journal of Human-computer Studies ,1995,43(5/6):907-928.
[4]鄧凱,吳家春,王洪偉.本體論在知識圖書館中的應用初探[J].情報科學,2003,21(1):106-109.
[5]劉佳.Ontology在基于知識的數字圖書館中的應用[J].情報資料工作,2006(3):55-59.
[6]陳文彬.Ontology在圖書服務網絡中的應用[J].現代圖書情報技術,2003(6):8-12.
[7]張哲.利用本體和主題詞表的集成查詢元數據[J].情報雜志,2004,23(4):16-18.
[8]樓向英.Ontology:概念及其在數字圖書館中的應用[J].圖書館雜志,2002(11):45-47.
[9]劉嬌蛟,龔麗,李建華.基于本體實現對網頁文本的自動主題分類[J].計算機工程,2003,29(11):95-97.
[10]賀嬌.基于術語本體的網頁標引方法[J].情報雜志,2004(3):28-29.
[11]王泰森.一個基于本體論全文自動標引方案[J].情報科學,2003(9):950-952.
作者簡介 仇寶艷 女,1983年出生,山東濟南人,工學碩士。研究方向為本體與知識管理。
呂祥惠 女,1983年出生,山東萊蕪人,工學碩士。研究方向為本體與知識管理。
喬 鴻 女,1973年出生,山東煙臺人,博士,副教授。研究方向為數字圖書館與知識管理。