桑琰云
(煙臺大學圖書館,山東 煙臺 264005)
不論是基于分類目錄的搜索引擎檢索技術,還是基于含有指定目標的全文搜索引擎技術,都存在查準率、查全率偏低的問題,也就是檢索利用的有效率偏低。再加上用戶檢索用詞的自由化,不同系統數據庫標引語言的兼容,一詞多義或者多詞同義,還有分詞的歧義與錯誤,常常會導致自然語言與規范語言的差異。上個世紀80年代在SIGIR會議論文中,[1]就出現了對語義信息檢索的討論。隨著語義網信息和語義信息處理發展水平的不斷提升,語義網信息檢索的關注度才有所提升,但還是相對薄弱。2003年開始,國家的973計劃開始將語義的相關基礎研究、技術研究、模型研究、方法研究作為重點支持對象。筆者通過維普資訊數據庫平臺發現,從2005年開始,相關語義的文章才開始出現,以“語義信息”為題名或者關鍵詞的文章有20余篇,但是如果細化至“語義網信息”、“語義網檢索”、“語義網信息檢索”,涉及的文章一般只有四五篇,因此筆者旨在語義信息研究的基礎上,以多層次為切入點,探索多層次語義網信息檢索的相關理論。
語義的核心是共享,[2]是自由,它的存在將實現從字符檢索到概念檢索的過渡。語義網(Semantic Web)是一個通用的語義框架,不僅將文檔對象、數據共享和集成,更是將世界對象資源及資源之間多而雜的關聯關系通過機器可閱讀和理解的信息利用語義、語法和邏輯規則集合在一起組成的網絡。在語義網中定義和鏈接的數據都能被各種不同的應用以更為有效的方式查詢、重用和集成。無論是簡單的描述語言還是復雜的描述性語言都是由某種語言作為載體,對知識進行客觀描述,讓機器能夠具有智能評估的作用,在一定程度上提高我們分析網絡信息語義的能力。有了語義網資源,計算機不需要人工的干預就可以對不同來源的這些語義網資源進行配置、聚合和解釋,“使用有限的科學術語進行提問和基本數據極端復雜性之間的差距將有可能縮小”。[3]
本體——表達的核心,“它給出了構成相關領域詞匯的基本術語和關系,以及結合術語和關系來定義詞匯的外延規則”。[4]其目標是在語義正確的基礎上具有對語言的描述理解能力和完成推理的能力。計算機界的本體研究始于20世紀90年代初期的知識基礎社(knowledge base community)研究之后,各個學科都開始致力于本體的研究。借鑒不同領域的本體的不同內涵,筆者認為語義網的本體是表示語義網中實體、類、屬性、角色、功能等特定詞匯及詞匯之間關系的具有“四化”特點(概念化、明確化、規范化、理解化)的集合。是語義網檢索的核心部分,是語義共享的基礎。劉康[5]根據不同的分類體系對本體有不用的分類,無論哪種分類的本體,其特定詞匯的概念和面向對象中詞匯的概念有著本質的區別。萬維網上的DAML本體庫、Schema Web、Protege本體庫等都是目前語義網資源的主要來源。[6]在這里需要提及的是元數據。元數據是關于數據的數據,它為數字化信息集合提供規范、普遍的描述方法和檢索工具。元數據本身可以看成是本體的一種形式,或者是“元”元數據,或者是簡單的本體。前者注重的是資源分類體系和資源本身的信息描述,后者注重的則是表達資源語義邏輯的知識體系,因此,對一個系統中實體進行分析并提取屬性的過程即為元數據的創建過程,在此基礎上再加之異構分析、關聯分析等就可以創建本體了。元數據解決了資源的語義描述問題,而本體解決了資源集合的相互關系問題。[7]語法和語義、微觀和宏觀,兩者的滲透和結合就能夠完成在元數據框架下的語義檢索。
筆者認為該類資源是從資源描述的角度看,是構建在本體中描述文檔類和屬性的資源。該類資源用RDF的二元數據模型作為基礎模型,用RDFSchema作為描述詞匯表,模型中用于描述本體文檔資源的都可以被看成是“節點”。但由于RDF的不全面性,RDFS作為其擴展更具完善性。
表征各類對象的實例數據。語義網支持互操作和集成不同來源的數據,[3]尤其是關聯數據。此要求比較普遍。大多數的檢索者還是想從本體的知識庫中搜集到特定類目的實例信息。與傳統資源不同的是,該類型的語義網資源是基于結構化查詢與處理的。
表征文檔與數據之間的語義關系數據。目前興起的語義關聯檢索的研究已有涉入。知識組織的技術方法除了可以組織隱含在知識資源中的知識結構之外,還要使其中的語義元素能夠被計算機所交互。目前來看,我們現在的傳統檢索方式出于弱語義的知識表征階段,它相對于自然語言而言承載著一定的語義,但還是有所差距。語義關聯資源不僅局限于有直接關聯的主題之間,還包含對非直接關聯的主題之間的語義間接關聯。
實例數據資源和語義關聯資源單純用RDF(S)已經不能夠完全表達語義,這就需要另外的本體語言OWL和DAML+OI來完成。[8]
根據朱成兵的語義網體系結構的劃分,再結合筆者上述對語義網資源的特質描述,可以得出語義網的機構有一定的層次。零加工和初次加工或者多次加工的原始信息、元數據或模式信息,信息的層次越高,信息越抽象,越需要機器自動化處理,因此,語義網至關重要的是要建立出語義網的信息層次結構。
筆者把這層等同于傳統信息檢索的知識數據庫層,當然這層的基礎還是離不開Unicode及其表征網絡社會關系的URI,[9]用于負責處理信息資源的編碼和信息資源的標識。有了這個編碼和標識基礎就能為知識結構層打造基礎。之后,通過使用標準XML把不用維度、不同指標的信息數據納入到自身的“命名空間”[8]內。該層從語法上表述信息的結構和內容,比如一詞多式、一詞多義、習慣用語等,也可以理解為普通的語言層次,不能表達機器可以理解的形式化的語義,缺乏靈活性。
該層對應著語義分類內容的知識數據庫。也是這個語義網的整體架構,包括主題設計、子主題設計、事實表、維度表等的設計。[9]從知識數據庫的定義內涵我們可以引申出該層所包含的3個方面,即語義倉庫結構設計、語義倉庫管理、語義倉庫應用。該層次對應的是一種解決方案,能夠解決分散異構數據的綜合、集成。該層的建立需要在傳統知識庫的基礎上以數據挖掘、模糊數學[8]和OLAP技術為新的方法,利用一定的語言規范(如RDF)進行主題詞的編碼、同義詞的編碼、詞語變化的編碼、語言線索的編碼等。這樣不僅可以多方面地集成數據源,而且可以消除“數據監獄”的問題達到數據的統一性,真正使數據具有“多維集”的特征,并被機器所理解。該層可以是視圖,可以是物化視圖,當然也可以是文檔。實現淺層概括層或者原始數據到深層數據層的信息轉換。
2.2.1 主題品質層
該層及其之后的程度層都是在深層概括層之下的細化層次,嚴格意義講是分層結構。在概括層的基礎上進行ETL設計,表達每一個語義的特征層次結構,每層由個體、特性、動作等語義結構有序地組織而成。例如對于問題:“2011年工資水平”,“高”與“低“即為該品質層所要解決的語義問題。而對于高的人數所占的比例則可以認為是程度層所解決的語義問題。
2.2.2 主題程度層
該層是與上層處于同一層次的層,即為深層概括層之下的細化層次。表征的是語義的程度,比如工資高的人數所占的比例。比如一個本體對象的顏色、紋理、形狀、運動矢量等等都是該層所反映的。
該層次包含了邏輯層、證明層和信任層。[9]邏輯層用于描述推理規則,是對用戶需求進行分析、定位、驗證的基礎。證明層是用于提供的驗證機制,可以證明所提供給用戶的信息源、數據源和結論都是正確的、可靠的。信任層通過“證明”交換和數字簽名(Digital Signature)技術,可以建立信任關系,保證語義網的可靠性以及用戶和代理之間的信任性。
根據咨詢用戶的查詢請求進行匹配、提煉,通過與語義倉庫中的相關知識域相鏈接,最終得到咨詢用戶相匹配的咨詢結果。筆者認為除此之外,該層還應該包括以往咨詢用戶之間的互動,或者包含用戶相關的意群互動,這樣當用戶想知道更多咨詢答案的來龍去脈就很簡單了。
這些層次結構通過從低到高的逐層拓展形成了一個功能、內容逐漸增強的檢索體系(詳見圖1)。
語義檢索是指借助于本體和查詢條件進行語義推理得到查詢結果并輸出到客戶端的過程。該過程通過本體構建、復用、確立等級體系、語義映射關系、[10]數據攝取、信息互操作、可視化等一系列步驟才能實現語義網信息檢索。

圖1 多層次語義網的層次結構
根據數據庫中一定的標準進行主題劃分,可以根據數據庫所屬的咨詢檢索范疇或者學科屬性或者咨詢需求等完成主題劃分,之后根據主題來進行事實表的設計和維度表屬性的設計,當然這步必須與主題的劃分一一對應又緊密相連。之后根據不同種類進行主題分割或交叉。然后通過ETL技術對已分類的數據進行獲取、過濾、清洗、轉換、裝載、校驗,[9]傳統的信息檢索止于此,也就是上文提到的知識結構層。而語義信息網則需要在此層數據的基礎上進一步加深表示。這就需要元數據的設計,從而實現以上數據的本體表示。這也是實現檢索的關鍵環節,即進入語義倉庫層。這一步包含了對知識結構層內知識概念的同義詞、上位詞、下位詞、屬性等的關系的語義擴展,包括確立概念的等級體系、概念之間的語義映射關系及語義關系的推理原則等。[10]語義細化得出主題特征層和主題程度層,根據具體領域的應用并參照應用的擴展性來建立新命名空間的新本體,完成了索引模塊。對已建立好的索引模塊中的本體信息資源所在的本體進行語義推理,針對用戶的查詢請求對本體的各種文件進行查詢匹配,最后將匹配的結果排序輸出。[11]該過程與圖1中層次結構圖是相呼應的。
單從用戶的端口看,用戶輸入咨詢信息后,首先進入到關鍵詞提取程序,進入關鍵詞的術語開始進行術語形式匹配,從而得到相應的本體信息,例如類、實例、屬性等,[12]這樣就將知識數據庫中的概念與關鍵詞查詢中的術語聯系了起來。在用戶輸入查詢請求后,轉換為語義網表示的信息,從而得到本體信息進行語義查詢,最終進入檢索模塊。
最后筆者認為在索引模塊和檢索模塊還有一個語義的擴展,就構成了上文提到的接口互動層。

圖2 多層次語義網檢索模式
語義網的信息檢索離不開資源的收集、索引的建立、語義的集成和用戶的檢索,其中索引的建立和語義的集成又是重中之重。當然,這一系列的檢索流程中有些還有待進一步研究。比如本體的集成、本體的評價、語義化、查詢消歧、[1]單一語義映像、多層語義互聯、語義空間統一[13]等等都是難點。
基于多層次的語義信息檢索與傳統的網絡文獻檢索相比才可謂真正的信息檢索,其檢索平臺作為一個基于資源和以用戶為中心聚合資源的服務系統,都有其自身主題的抽象或者概括,即語義框架。多層次的語義網信息檢索在基于前提條件和效果匹配的前提下考慮了輸入輸出參數的匹配,很好地滿足了用戶的非功能性要求。它更能表達和處理信息的語義內容,提供的不僅僅是相關文檔的鏈接,傳統遍歷、信息組合的過程已經通過語義信息檢索的方式表現出來。
[1] 黃敏.語義檢索研究綜述[J].圖書情報工作,2008(6):63-66.
[2] 湯怡潔,周子健.語義Web環境下語義推理的研究與實現[J].圖書館雜志,2011(3):69-75.
[3] The eScience Revolution:Rensselaer Researchers to Create Semantic Web Platforms for Massive Scientific Collaboration.[2009-10-01].http://www.eurekalert.org/pub_releases/2009-10/rpi-ter100109.php.
[4]Neches R,Fikes R E,Gruber T R,et al.Enabling technology for knowledge sharing[J].AI Magazine,1991(3):36-56.
[5] 劉康,黃奇.語義網中的重量級本體的設計[J].圖書情報工作,2006(6):42-45.
[6] 王雨英.基于本體的信息檢索研究[D].中國海洋大學,2006.
[7] 花開明,陳家訓,楊洪山.基于本體與元數據的語義檢索[J].計算機工程,2007(24).
[8] 杜文華.語義網描述語言比較研究[J].情報雜志,2004(9):40-42.
[9] 章志龍.基于語義網的博客搜索系統研究[D].武漢理工大學,2009.
[10] 王知津,王麗娜,胡玲玲.智能檢索環境下的索引編制[J].圖書館雜志,2011(1):16-19.
[11] 李桂華,汪學明.語義信息檢索框架設計及其算法研究[J].計算機技術與發展,2010(8):41-44.
[12] 袁杰,等.基于本體的領域Web搜索模型與架構[J].計算機時代,2008(5):22-25.
[13] 席彩麗,李瑩.面向數字圖書館的分面語義架構研究[J].現代情報,2010(12):15-17.