摘要:隨著互聯網的發展,傳統搜索引擎越來越不能滿足人們檢索信息的需要,而語義網技術又不夠成熟,在此情況下構建領域本體庫用于領域檢索是一個行之有效的方法。文章基于語義網應用基礎技術,特別是本體技術,構建了一個計算機文獻檢索系統的框架,有一定的參考價值。
關鍵詞:本體;搜索引擎;JENA;RDQL;元數據
引言
傳統搜索引擎進行信息檢索大都基于關鍵詞機械匹配技術,將用戶輸入的檢索信息分割成分詞進行匹配。由于參與匹配的是字符的外在形式,而不是它們所表達的概念,所以經常出現檢索不全、答非所問的情況。產生這些問題的根本原因在于大部分Web頁信息基于HTML、XML語言,是一種無結構或者半結構的數據,只能供人閱讀,計算機不能理解它們的含義。 科學家們正在研究新的技術以改變這種狀況,其中最令人矚目的就是語義Web技術。語義Web通過擴展現有的萬維網,在信息中加入表示其含義的內容,使計算機可以自動對網頁信息進行理解、分類和推理等,協助人們高質量地完成各種工作。語義網上的信息檢索,能充分挖掘輸入的搜索信息的內在含義,檢索出它的同義、近義、上位、下位等信息,還能進行推理,這大大提高了信息查準率,也提高了用戶滿意度。
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文