摘要:通過對傳統專業文獻檢索的基本原理和方法的分析研究,結合目前語義萬維網的最新技術,提出基于本體的專業文獻檢索體系結構#65377;并開發基于本體的計算機網絡課程文獻檢索系統#65377;該系統建立了描述課程知識結構的本體,并能對各知識點對應的專業文獻進行同義詞分析#65380;知識點的相互關聯等語義檢索#65377;
關鍵詞:語義萬維網;本體;專業文獻;語義檢索
中圖分類號:TP393.01
文獻標識碼:A
1緒論
傳統文獻檢索都是基于關鍵字的語法匹配和全文檢索技術,主要借助于目錄#65380;索引和關鍵詞等方法來實現#65377;此技術的優點是簡單#65380;快捷和容易實現,但由于缺乏必要的智能性,在信息快速增長的今天,難以適應時代發展的需要#65377;主要體現在:用戶本意表達困難;無法準確揭示信息的實質內容;檢索算法采用詞形匹配而非詞義匹配;容易形成“詞匯孤島”問題#65377;語義萬維網是目前Internet的發展方向,是能夠根據語義進行判斷的網絡#65377;簡單地說,是一種能理解人類語言的智能網絡#65377;語義萬維網具有著良好的概念層次結構和對邏輯推理的支持,現已被廣泛應用于知識表達#65380;知識共享及重用#65377;將語義萬維網技術應用到文獻檢索中,即是在文獻資源層上增加了能表達文獻主要內容和學科結構的語義層#65377;在此基礎上進行基于語義的文獻檢索,解決了傳統文獻檢索技術的缺點和不足#65377;
2關鍵技術介紹
2.1語義萬維網及本
體語義萬維網的“語義”信息是蘊含在各資源節點的邏輯聯系中#65377;其體系結構如圖1所示#65377;
在其體系結構中,第一層是Unicode和URI,它是整個語義Web的基礎,Unicode(統一編碼)處理資源的編碼,URI(統一資源定位器)負責標識資源;第二層是XML+名空間+XML模式,用于表示數據的內容和結構;第三層是RDF+RDF模式,用于描述資源及其類型;第四層是本體詞匯,用于描述各種資源之間的聯系;第五層是邏輯,在下面四層的基礎上進行邏輯推理操作;第六層是驗證,根據邏輯陳述進行驗證以得出結論;第七層是信任,在用戶間建立信任關系#65377;其中第二#65380;三#65380;四層是語義Web的關鍵層,用于表示Web信息的語義,也是現在語義Web研究的熱點所在#65377;
圖1語義萬維網的體系結構
2.2本體
本體層在語義萬維網體系結構中,處于核心支配地位#65377;本體是概念模型的明確規范化說明,領域本體則是對具體領域中概念和關系的抽象描述,本體提供了語義交換的橋梁,能夠在不同的智能體之間達成有關術語概念的共識,具體到專業文獻學習中的文獻檢索和知識組織,本體的作用可以概括為以下幾點:(1)描述文獻所屬學科的專業領域知識結構#65377;(2)表示文獻內容與知識組織體系之間的鏈接#65377;(3) 利用復合(集成)本體從不同的角度對文獻資源進行標引#65377;(4)利用多種模式表現和理解文獻集合#65377;
3系統結構及實現
3.1系統結構
為了能具有更好的可擴展性,本系統采用三層架構,由數據服務器#65380;WEB 服務器和 WEB 終端所組成,整個系統結構如圖2所示:
圖2系統結構
用戶訪問層為用戶通過瀏覽器訪問學習資源管理平臺提供了一個可視化的接口#65377;開發該城所采用的主要技術包括XHTML#65380;JavaScript#65380;JSP 等#65377;其中XHTML 和JavaScript 主要在客戶端,由瀏覽器執行;JSP 則在管理平臺端,由Weblogic應用服務器執行#65377;應用服務器層主要采用Servlet 和EJB 等技術開發的應用組件構成,這些組件完成語義分析#65380;語義推理功能#65377;由于應用服務器層處理的信息主要是XML 格式的RDF/RDFS 信息,因此,采用了HP 公司開發的Jena API 來處理RDF 模型#65377;數據存儲層主要包括三個部分:領域知識本體#65380;元數據庫#65380;資源數據庫#65377;這三個部分涉及到知識本體的建模#65380;形式化表示#65380;資源語義描述#65380;RDF 數據的存儲等內容#65377;
3.2本體構建
本系統以計算機網絡課程為例,創建了領域本體#65377;該本體描述了計算機網絡課程的基本概念及結構,并針對每個知識點提供相應的學習文獻#65377;
建模工具選用 Protégé3.1,在Protégé3.1 編輯器中,本體結構以樹形的層次目錄結構顯示,用戶可以通過點擊相應項來編輯或增加類#65380;子類#65380;屬性#65380;實例等本體元素,另外,用戶可以不用考慮具體的本體描述語言,而在概念層次上設計領域本體模型#65377;
3.3語義解析及推理
在構建本體和組織存儲實例數據之后,就需要在應用程序中對其進行解析和應用#65377;系統選擇RDF 模型進行元數據語義編碼#65377;根據領域本體和推理規則來完成對有關元數據的推理處理,得出隱含的信息,服務于后續的查詢操作#65377;在本體數據讀取#65380;語義推理和文獻檢索時,主要采用了惠普實驗室開發提供的 Jena API 接口方法#65377;
3.4檢索結果分析
為了使實驗具有可比性,我們在進行檢索時使用了兩套檢索方案#65377;第一種是在本體的語義模型上使用同義傳遞規則和同義對稱規則及RDF的上下位包含關系的可傳遞性規則進行,而第二種則是不加入任何推理成分,僅采用現在最常用的關鍵字匹配模式進行檢索#65377;實驗結果見表1:
表1檢索結果統計
從表中的實驗數據看,語義檢索查找得到的文獻數多于關鍵字匹配檢索#65377;主要原因在于系統可以根據用戶指定的關系進行擴展查找#65377;如使用“FDDI”作為檢索關鍵字,在計算機網絡領域中“FDDI”#65380;“ISO 9314”#65380;“光纖分布式數據接口”均可視為對同一事物的不同描述,即同義詞#65377;我們的本體中定義了“FDDI”和“ISO 9314”之間存在同義關系,“ISO 9314”和“光纖分布式數據接口”之間存在同義關系#65377;語義檢索系統利用同義傳遞規則會發現“FDDI”,“ISO 9314”,“光纖分布式數據接口”三者之間是互為同義關系的,因此這三個概念都作為檢索關鍵字#65377;而關鍵字匹配檢索則只能用“FDDI”來檢索,這將漏選主題詞為“ISO 9314”和“光纖分布式數據接口”的資源#65377;
4小結
專業文獻的學習和檢索在目前網絡學習和遠程教育中是必不可少的重要環節#65377;本文基于本體,通過抽取文獻的元數據和專家咨詢建立了文獻元數據和學科領域本體,在此基礎上進行語義分析和推理,形成語義索引層,使學習者可以在檢索時,不僅能得到與檢索條件精確匹配的信息資源,而且還能查詢到與檢索條件具有語義相關,但在語法上并不精確匹配的隱含信息資源;由于系統的開發是基于國際標準的,因此在專業中的推廣應用將會使其發揮更大的作用#65377;
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。