基于語義的科技文獻檢索技術研究

2019-12-25 08:00:14曹玥賈硯池王崢

微型電腦應用 2019年12期

曹玥, 賈硯池, 王崢*

(1.四川大學華西醫院，成都 610041;2.西南財經大學天府學院，成都 610074)

0 引言

在信息高速時代中，從大量的海量信息數據中檢索出符合自己查找的內容，傳統的檢索技術手段變得越來越低效[1]，傳統的信息檢索手段一般是基于關鍵詞匹配，這種匹配方式獲得的結果大多是松散的，不成體系的。這種獲得知識的手段往往是機械的，非智能的。為了解決上述的科技文獻檢索的問題，利用語義Web來進行檢索，語義技術的核心是本體技術，通過本體技術獲得精準的科技文獻檢索結果，相較于機械式的檢索方式，根據語義的檢索，具有智能化的推理檢索[2]，合理地對檢索結果進行概念擴展，對于檢索結果的查全率和查準率獲得極大的提高，同時伴隨著Lucene、Nutch和各種爬蟲技術的高速發展，全文檢索的搜索引擎也被大量使用在檢索過程中，基于本體技術的層次化的語義相似度思路上的研究成果也十分豐碩，本文通過闡述信息語義共享和本體技術的運用，分析和實現語義檢索模型的語義擴展和規范化推理過程，對檢索詞的量化擴展，可以給用戶提供令人滿意的信息檢索效果。

2 科技文獻檢索及其語義問題

2.1 語義概述

語義網的概念最早由T.Berners-Lee和J.Hendler于1998年提出[3]。語義Web主要是為了說明兩個實體間的關系而產生的，主要是用于網頁數據。從那時起，語義Web的概念就一直在擴展。目前，語義學的重要意義是用包含語義學的鏈接來描述世界上兩個實體之間的關系，形成一個包羅萬象、具有推理能力的龐大知識庫。語義網擴展了當前互聯網的功能，顯示出事物都是相互聯系的，語義網可以理解為進行人與計算機交互的實體[4]，語義網可以促進人們更好地利用互聯網中的數據。

關聯概念模型用于知識建模、知識存儲、知識共享和推理知識生成新知識。語義Web包括xml、rdf、owl、本體等重要概念。本體是對現實世界的抽象描述，它只包含有價值的數據。語義Web的總體結構及其不同層次的語義表達功能,如圖1所示。

圖1 語義網層次結構

科技文獻數據模型多，語義模糊，數據稀疏，難以建立固定的結構化模型。利用語義本體對科技文獻數據進行建模，可以較好地解決這些困難。不同的信息檢索模型采用不同的語義本體對科技信息的數據進行描述，語義本體是這種模型的基礎，該模型可以統一地管理這些元數據，對語義本體來說，這樣的做法更加精確，可以發揮出更好的效果。

2.2 語義信息共享

支持語義的信息檢索模型主要是為了對數據進行數據的操作，數據共享主要考慮語義共享和語法共享兩個重要的知識點[5]，語義共享注重信息的內容，語法共享考慮對數據訪問的問題，在數據領域中，需要保證在數據信息共享的過程中，語義轉換的信息不會產生數據丟失，對應于上下文的語義環境對數據進行語義描述。

語義映射還可以應用于更廣泛的領域，提供了該領域概念的統一描述。本文提出的語義配置和映射是相似的，但又有所不同。語義映射是一種解決由不同系統表達的相同概念的方言問題。其次，語義網通過融合語義的擴展定義和擴大當前的Web，尤其針對語義Web，進行語義的科技文獻檢索中，十分需要向體系結構以及語義實現技術的結合。

3 語義檢索模型及語義本體技術

在本體技術中，本體重點考察的是客觀事物的抽象本質，本體是相關研究領域的詞匯關系與術語的綜合，本體是共享概念模型的形式化描述，本體的概念是包含四層意思，分別是指概念模型、形式明確以及數據共享，概念模型的表現含義獨立于語義的環境狀態。明確的意義是指概念上的定義的約束形式，數據共享保證相關領域的概念集合，針對是某種概念的總體集合而非獨立的個體信息。針對本體概念的形式化描述，分別具有不同的構建方式，本體具有的幾種特征要素獨自是其聲明、公理、概念、屬性以及關系[6]。本體的描述語言OWL是在DAML描述語言發展而來，OWL Lite保證用戶的簡單約束，表現一個分明的層次分類方法，其轉換速度更為迅速，而OWL DL則是支持推理功能的系統，利用推理方法增加計算的完全性與可靠性，提供良好的邏輯處理方法與可推理性的計算性質。OWL Full提供豐富的表達能力，在OWL Full中，自身既可以作為語義個體存在[7]，也可以作為多個個體的集合，也可在本體的基礎上，支持預定義推理成分。OWL Lite、OWL Full都可以作為RDF的約束化擴展。而RDF則可以作為OWL Full的文檔[8]。

相比于傳統的科技文獻檢索，基于語義檢索的模型具有更高效的檢索過程、更加準確的檢索結果的手段，傳統的科技文獻檢索包含截詞檢索、全文檢索、布爾邏輯檢索以及字段限制檢索[7]，突出了本體在科技文獻檢索的優勢明顯，本體可以用來表示豐富多彩的相關領域現象的知識的邏輯抽象，本體對知識的獲得和積累是等級結構嚴密的、知識描述全面和概念規范化的機器推理和自動化處理方式[9]，并且保證知識的不斷的動態更新，本體對相關領域的知識具有刪除、修正和改變的可操作性。本體的作用及其應用模式如圖2所示。

圖2 本體在檢索系統中的應用模式

4 用本體技術實現科技文獻檢索

4.1 系統分析和總體架構

需要在相關領域的專家指導下，幫助建立起相關領域的本體，將數據源根據嚴謹的數據結構方式補充到數據源中的文獻當中[10]，對于用戶界面的響應將查詢個體轉換成規范化格式，匹配出相關知識領域的集合，經過定制化處理后，將獲得的檢索結果呈獻給用戶，完整地實現了由字面匹配向語義概念匹配的提高。結構的構建圖如圖3所示。

該系統功能的架構流程包括系統的本體構建，將本體與關系數據庫的映射關系，建立區語義索引，在實現檢索引擎的功能，加入本體索引的文件，利用推理機對用戶輸入的關鍵詞進行合理化的概念推理和擴展，使用Jena工具對本體施行快速化的查詢操作,如圖4所示。

系統的開發語言采用Java語言，該語言可移植性強，是面向對象的、分布式的編程語言，開發環境IDE采用eclipse，該開發環境集成了許多語言開發包。本文所使用的的全文索引應用包Lucene是定義了索引文件格式，是基于Java語言的語義開發工具，可以兼容不同的文本格式，具有強大的查詢引擎，降低了學習擴展的索引能力，默認包含了模糊查詢方式、文本布爾操作方式以及分組查詢操作。

圖3 方案設計結構圖

圖4 果樹栽培技術領域本體及文獻數據映射的科技文獻檢索示例圖

系統的總體構架包含用戶頁面模塊、本體構建模塊、文獻映射模塊以及檢索處理模塊，各個模塊之間保持著協作和聯系的關系狀態，共同組成一個完成的總體，實現一個完整的查詢功能，其系統體系結構如圖5所示。

用戶登錄進用戶頁面，用戶發送用戶請求，系統產生響應模式，用戶可以操縱檢索處理模塊，通過由相關領域專家和本體編輯工具構建出本體，本體資源主要由推理機和本體庫組成，推理機接收到檢索索引提示，通過本體庫發出索引，文獻資源單位依據索引，返回出合適的科技文獻數據。

4.2 模塊設計與算法實現

在考慮本體與科技文獻的數據庫的映射關系，將本體與文獻數據相結合，構建起對應的關系，數據庫的信息由海量的文獻數據信息組成，當本體庫與文獻數據庫聯系在一起，檢索該領域知識的某些個體知識，生成合理的索引構建，每個文獻實例的產生會與它檢索的最為靠近的數據概念組合在一起放入到索引文件中去，形成一個完整的總體，其流程如圖6所示。

圖5 系統體系結構

圖6 本體/文獻映射模塊結構圖

在基于Lucene的檢索引擎設計當中，在它的基礎上進行二次開發，建立起一個面向對象的高效檢索引擎，通過語義檢索建立的索引文件，采用推理機制實現對原始搜索信息的推理優化，具體如圖7所示。

圖7 推理引擎與檢索引擎關系

根據Jena API對本體建模語言的數據結構存儲分發到數據庫后臺，通過輸入的查詢語句，放入到Lucene的推理引擎，對查詢語句優化后，實現加載推理范式。

4.3 實驗結果與分析

該系統的測試任務是測試三種檢索效果算法的平均精度和檢索時間性能。這三種搜索算法分別是：全文檢索;基于語義檢索以及基于語義推理的檢索。在實踐中，我們需要處理的問題是，由于實驗系統中的文檔集合的大小有限，一些問題不能滿足文檔的臨界值。例如，在使用全文搜索算法搜索“試題”時，共有93個文檔，但實際相關文檔只有32個，所以當文檔的臨界值為40和50時，準確率無法計算。在這種情況下，我們不是估計準確率，而是根據相關領域問題的文檔臨界值的平均準確率來進行算術平均運算，期其測試比較結果如表1所示。

表1 三種檢索算法的平均查準率比較

5 總結

本文從實際出發，與傳統的科技文獻檢索作比較，研究了文獻檢索與語義Web的聯系，通過使用語義模型的本體技術對檢索方式進行改善，針對科技文獻檢索的模型，提高檢索的準確率，分析了概念之間、實例之間的語義關系，最后通過將全文檢索方式、本體檢索方式和基于語義推理檢索的方式，采用優秀的面向對象的編程方法，以本體技術為核心支撐點，采用邏輯推理方式進行語義檢索，得到用戶需要的檢索結果。在未來的研究中，提高文獻數據的清理算法效率，減少重復檢索記錄和檢索時間，需要深入考慮各種語義關系的排序方式，以滿足不同用戶的檢索需求。