●張莉萍 (嘉興學院 圖書館,浙江 嘉興 314001)
嘉興地處杭嘉湖平原,環境優美,人杰地靈。先秦以來受吳越文化影響,自明清時即有“文化之邦”的美譽,傳統文化底蘊深厚,崇文重學,名人輩出,群星璀璨,嘉興籍文人的作品是祖國文化寶庫中一顆耀眼的明珠?;I建“嘉興地方文獻”數據庫,對嘉興籍文人的文獻進行系統的加工整理,還本正源,知往鑒來,有利于嘉興地方文獻資源的有效利用和長期保存。數據庫將以大量不同資源類型展現嘉興地方文獻的豐富多彩,從一個側面還原嘉興優秀歷史文化的傳承和輝煌歷史文化成果。對弘揚嘉興優秀的地方文化成果,促進文化大市的建設有重要作用。[1]
網絡環境下,特色化是決定圖書館未來命運的關鍵問題,要想在眾多的圖書館中爭得一席之地,就必須突出自己的特色,強化自己的優勢,凸現自己的品牌,樹立自己的形象,因而特色化信息資源建設就顯得舉足輕重。
如何籌建特色數據庫,采用什么樣的信息資源組織模式,是關系到特色庫質量的關鍵問題。資源組織體系包括數據組織、信息組織和知識組織三個層次。數據組織僅解決了異構數據庫中信息實體的合并問題,無法反映信息實體間客觀存在著的多種聯系。如何在異構資源系統集成的基礎上,揭示客觀存在于不同資源系統中的信息實體之間的關系便成為信息組織要完成的任務。但信息組織的深度僅限于信息實體和文獻層面,沒有揭示信息實體內部的概念和語義,因而從信息組織系統中所獲取的還是文獻(信息)的集合,而不是知識的集合。[2]實現知識的有效獲取,滿足用戶的知識需求,便成為知識組織要完成的任務。知識組織基于數據集成和信息集成,是對信息的優化,側重于概念和關系(本體),是數字資源組織的高級階段,是數據組織、信息組織發展的必然。它不僅能夠實現數字圖書館異構系統局部資源的功能優化,而且可使數字圖書館眾多的資源集合成一張巨大的知識網絡,使數字圖書館的最終目標——面向用戶的知識檢索與知識服務成為可能。
所謂知識組織,是以知識組織方法為指導,以數據組織、信息組織為基礎,以知識組織體系為支撐,組織資源結構中概念及概念關系的一種組織方式。任何領域的知識成果,都要以概念的形式固定下來,概念是知識的基本單元。概念間存在著多種復雜關系,通過各種邏輯關系聯系起來的概念集合,就形成概念系統,有它特有的、不同于其他知識體系的概念集合。知識組織的主要對象是內在于知識體系中的知識結構和概念及關系。知識體系不是各種知識內容的匯集,而是相互間具有邏輯關系,具有一定層次結構,結構性是知識體系的基本本質。
知識組織的重點和精髓在于對知識及知識的關聯進行有效描述、處理和表示。圍繞知識組織的精髓,產生了本體、主題圖、概念圖、詞網等新型知識組織體系。由于本體作為一種有效表示概念層次結構和語義的理論和方法,具有良好的概念層次和對邏輯推理的支持,能在語義和知識層面上描述信息系統的概念建模工具,有知識組織體系的功能,能夠實現對知識結構的描述與揭示,從而成為知識組織的主流技術,被廣泛應用于計算機科學和信息管理領域,并且被成功應用于構建新的智能信息組織和檢索系統。[3]
知識本體的實質即概念及其之間的關系。概念包含著特殊和單一的屬性,在邏輯上形成“種—屬—具體個體”范疇,這三類屬性范疇是密切相關的。概念之間的各種關系使人類知識形成一個相互關聯的立體網狀體系。因此,我們可以這樣理解本體:知識本體是反映概念及概念之間關系的知識整體。從形式上,一個本體論可以用語義網格來表示;在語義網格中,每個結點表示一個概念,而結點之間的聯系表示概念之間的關系。在實現上,可以用關系數據庫來存放和管理一個本體論。本體是一種技術,它可以在許多涉及知識表示與共享的環境下應用。[4]
“嘉興地方文獻”特色數據庫的本體屬于領域本體,首先要在領域專家的幫助下,建立相關領域的本體;收集信息源中的數據,參考本體論對異構信息進行標引,并參照已建立的本體把收集來的數據規定格式存儲在元數據庫中,實現異構信息的組織。
首先要構建一個形式本體,也就是能進行形式化表達的本體論模型,然后用計算機軟件形式表達出來,其一般構造方法可以設計成三段法。這樣構造的形式本體論是一個動態系統,其概念、關系和軟件均可根據發展的需要而不斷更新。
第一段:概念化。所謂概念化就是確定某一領域的元概念。概念之間的關系可以包括同義關系、反義關系、屬種關系、交叉關系、全異關系等。這與分類法和主題表有一定類似,但卻沒有分類法和主題表體系固定的限制,也不像分類法和主題表那樣龐大。
第二段:模型化。在本體概念確定后,所謂模型化就是用圖示法將某領域的元概念和元關系表示出來,構筑成形式本體論的關系模型,用網絡聯絡。與普通樹型數據結構的元數據不同的是,形式本體論允許各級概念的交叉滲透。
第三段:軟件化。所謂軟件化就是用適當的軟件工具將本體論模型轉化為能在計算機上運行的軟件。由于形式本體論可以軟件化,故適合用計算機處理,這是其特點和優點。一旦確定了本體論模型,就可以用程序設計語言將形式本體論表示出來,制成軟件界面。而通過該軟件界面皆可以將世界所有與該領域相關的信息資源、知識資源和研究資源聯絡起來,構筑成具有特定功能的系統。
傳統檢索技術多采用詞切分、單漢字以及詞切分和單漢字相結合,檢索主要借助與目錄、索引和關鍵詞等方法來實現。此技術的優點是簡單、快捷,但缺點是無法挖掘信息之間的內在聯系,無法理解用戶的需求,無法有效地處理互聯網上的海量異構信息。[5]
傳統的基于關鍵詞匹配是基于學科分類的檢索工具,之所以不能令人滿意,最主要的原因之一就是由于在信息資源的組織和查詢中,沒有考慮到信息資源所蘊涵的語義關系,無法挖掘概念之間的內在聯系,搜索出更深層的信息聯系,導致了信息檢索效果的查全率和查準率比較低。因此,基于信息組織的關鍵詞匹配的信息檢索技術無法達到對知識的檢索和利用。
由于本體具有良好的概念層次結構,并且支持邏輯推理,這使得本體在信息檢索,特別是知識檢索中得到了更廣泛的應用。借助于本體論的信息檢索技術能夠挖掘出信息之間的內在聯系,使得信息檢索的結果能更準確、更全面地反映用戶的要求,可以實現知識檢索的目的。
針對當前信息檢索工具難以滿足知識獲取的需求,在檢索機制中引入本體,使檢索系統能對查詢請求和信息源進行語義分析,實現基于語義理解的知識檢索。檢索時,可以借助本體論將用戶的需求轉換成規定的格式,并在元數據庫中進行匹配,然后通過符合要求的元數據從異構信息源中查找到原始信息,并將結果反饋用戶,這樣用戶與信息系統的溝通效率便得到了很大的提高。
另一方面,本體論可以在用戶檢索的過程中為其提供多個檢索入口。由于本體論是對概念之間關系的深層次揭示,可以形成龐大而有效的本體網絡。因此,它能夠為用戶提供更多的檢索點,比如可以提供某一事物在分類法、中圖法、科圖法、敘詞表和不同語種的表示,這樣,用戶只需從自己最熟悉的檢索點進入,而且還可以檢索到所有相關信息,而不用去熟悉各種不同的異構信息庫及其檢索策略。此外,還可以提供某一概念的上位詞、下位詞、同義詞、反義詞等來方便用戶擴大或縮小檢索范圍,提高檢索效率?;诒倔w的信息檢索系統的一般模型如圖1所示。

圖1 基于本體的信息檢索系統的一般模型。
“嘉興地方文獻”特色數據庫的籌建,就是要借助于本體論的知識組織和知識檢索功能,借助現代計算機技術,改變以往基于信息的資源組織和檢索的不足,采用全新的知識組織和檢索模式,解決信息系統語義異構的問題,構建一個基于本體的知識管理系統,實現基于知識的數據組織與檢索?!凹闻d地方文獻”特色數據庫不僅僅是建立一個存放各種數據的結構,關鍵是要利用本體論揭示領域內嚴謹豐富的理論和表達的豐富知識,把形式多樣、來源廣泛或特殊收藏的、關于“嘉興地方文獻”這一主題的數字化資源,按照客觀事物存在的本質和組成關系進行知識的組織,對這一領域的知識內容和資源的相互關系進行揭示,形成有序的、便于利用和長期保存的特色資源集合,爭取實現在對特色領域內的信息資源進行組織時,進行本體論理論應用于數據庫建設的有益嘗試,將特色庫建設成為具有系統性、學術性、有一定深度和廣度的學術資源數據庫。
(1)“嘉興地方文獻”元概念確定。在搜集和整理嘉興文獻資源時,確定“嘉興地方文獻”這一領域的元概念,并以數字化的表現形式提供資源。
(2)構建文獻本題論模型。為了能構建出適合的地方文獻本體,本體論的構建需地方文獻方面的專家、語言學家和信息學專家等的跨學科領域合作“嘉興地方文獻”本體構建如圖2所示:

圖2 “嘉興地方文獻”本體構建
[1]馬文峰,杜小勇.數字資源整合的發展趨勢[J].圖書情報工作,2007(7):66-70.
[2]楊建林.基于本體的文本信息檢索研究[J].情報理論與實踐,2006(5):598-601.
[3]朱慶生,鄒景華.基于本體論的論文檢索[J].計算機科學,2005(5):172-176.
[4]花開明,等.基于本體與元數據的語義檢索[J].計算機工程,2007(12):220-224.
[5]宋煒,張銘.語義網簡明教程[M].北京:高等教育出版社,2004.
[6] TBerners-Lee,JHendler,O Lassila.The Semantic Web[J].Scientific American,2001.