王世波,熊小慧
(齊齊哈爾大學 經濟與管理學院,黑龍江 齊齊哈爾 161006)
基于XML的數(shù)字圖書館異構數(shù)據(jù)庫集成及檢索研究
王世波,熊小慧
(齊齊哈爾大學 經濟與管理學院,黑龍江 齊齊哈爾 161006)
通過分析數(shù)字圖書館中存在的異構數(shù)據(jù)問題,結合實際情況,對數(shù)字圖書館異構數(shù)據(jù)庫的集成和檢索進行研究,提出相應的異構數(shù)據(jù)集成和檢索模型.
異構數(shù)據(jù)庫;XML;集成
數(shù)字圖書館通過運用電子信息技術來存取和管理信息資源,方便信息的使用者按照各自的需求智能存取信息,這些信息以數(shù)字化的形式存儲在數(shù)字圖書館內并且能夠隨著時間的推移而不斷增長[1].由于數(shù)字圖書館數(shù)據(jù)庫的發(fā)展過程中存在異構數(shù)據(jù)的現(xiàn)象,這給讀者查詢帶來極大的不便.因而需要對異構數(shù)據(jù)進行整合和集成,使之能夠實現(xiàn)跨庫檢索,便于讀者的查詢和訪問,實現(xiàn)圖書館信息資源的真正共享.
XML語言屬于標記語言的一種,可以利用它來描述數(shù)據(jù),如存儲、轉換及程序處理等.通過運用XML語言的描述性標記特點,人們可以很方便地進行數(shù)據(jù)定義,對描述的術語及術語間的結構化關系進行擴展.XML語言與所使用的操作系統(tǒng)以及程序開發(fā)使用的語言無關,只使用文本編輯軟件就能夠設計開發(fā)出符合規(guī)則的XML文檔.XML的優(yōu)點使得越來越多的信息通過其進行存儲、表示和交換.Xquery標準可以讓查詢變得簡潔,同時容易被理解,最主要的是能夠對大量的基于XML的信息源(可以是數(shù)據(jù)庫中的表,也可以是XML文檔)進行靈活查詢.因此,Xquery可以將這些不同數(shù)據(jù)源的數(shù)據(jù)翻譯成XML文檔來查詢異構的數(shù)據(jù)源.
異構數(shù)據(jù)庫系統(tǒng)是多個相關的數(shù)據(jù)庫系統(tǒng)交織在一起形成的集合,通過這個系統(tǒng)將原有的各個獨立系統(tǒng)有機結合,實現(xiàn)系統(tǒng)互通、數(shù)據(jù)互訪,每個DBS都有各自的后臺數(shù)據(jù)庫管理系統(tǒng)并能夠維持自治和應用.集成后的數(shù)據(jù)除了具有集成性以外,不能破壞相應的安全性及完整性和一致性.
XML為異構數(shù)據(jù)庫系統(tǒng)的信息轉換設計了相應格式,能夠實現(xiàn)異構數(shù)據(jù)互操作.可以使用XML作為數(shù)據(jù)集成的相互操作語言,再使用某一編程技術(如JAVA、DELPHI等)作為編程的方法來實現(xiàn)異構數(shù)據(jù)庫的集成.XML可以實現(xiàn)異構數(shù)據(jù)信息變換,它使用文檔類型定義描述標準格式,XML文檔中的數(shù)據(jù)可以使用Xquery查詢獲取,非XML文檔數(shù)據(jù)也可以通過映射功能獲得,可見XML技術可以作為異構數(shù)據(jù)相互集成的可行方案.
國內數(shù)字圖書館的建設是從上世紀90年代以后開始的,在理論與實踐兩方面取得了很大成績.隨著互聯(lián)網及網頁技術的出現(xiàn)和發(fā)展,圖書館的數(shù)字化資源為廣大用戶獲取網絡化知識信息提供了有效途徑[2].
然而,隨著數(shù)字圖書館的建設,不同階段建設的軟件系統(tǒng),其信息內容可能就會分散在不同的物理網絡之上.這些物理網絡上的節(jié)點計算機千差萬別,其硬件配置、網絡服務器、操作系統(tǒng)及DBMS可能是不相同的,也就形成了“異構”——即“異構數(shù)據(jù)庫系統(tǒng)”.圖書館在建設過程中不可避免地形成了各種各樣的應用系統(tǒng).這些應用系統(tǒng)的數(shù)據(jù)資源多種多樣,除了保留有各種書目、學術期刊、學位及會議論文庫等眾多數(shù)字資源以外,還包括報紙以及歷來的期刊、書目的借閱和歸還記錄.另外這些資源的存儲結構、讀取方式不盡相同,有的是以數(shù)據(jù)庫形式存放(如ORACLE,SQL SERVER,DB2等),而有的則是直接采用文件的形式保存在硬盤上,甚至有的僅以文件形式存放在光盤上.讀者想要獲取這些資源要么是到各個資源所在的軟件系統(tǒng)中獲取,要么是通過一個集成的平臺進行數(shù)據(jù)的查找獲取.大多數(shù)的讀者由于對數(shù)字圖書館各階段的系統(tǒng)了解程度不同,準確獲得所需數(shù)據(jù)的并不多.因此,需要搭建一個統(tǒng)一的檢索查詢界面,方便廣大圖書館用戶獲取數(shù)字資源,增強其操作性,也是未來數(shù)字圖書館的發(fā)展趨勢.
隨著數(shù)字圖書館的發(fā)展,需要將各個數(shù)字化軟件系統(tǒng)進行有機結合,為廣大用戶提供一個集成信息檢索平臺.因為XML本身具有擴展性和自我描述的特點[3],XML技術為實現(xiàn)這種新型的信息管理系統(tǒng)提供了一個機會.XML不僅可以實現(xiàn)數(shù)據(jù)交換,還可以方便地實現(xiàn)不同應用系統(tǒng)之間的數(shù)據(jù)交換[4-6].通過建立數(shù)字圖書館的數(shù)據(jù)中心來解決數(shù)字圖書館中的異構數(shù)據(jù)庫帶來的數(shù)據(jù)孤立和異構問題,最終建立以數(shù)據(jù)為中心的數(shù)字圖書館應用系統(tǒng)[7-8].數(shù)字圖書館中的異構數(shù)據(jù)是指結構不同,或者是平臺不同而造成的數(shù)據(jù)格式平臺不統(tǒng)一,在圖書館發(fā)展的不同階段形成的不同存儲格式的數(shù)據(jù).基于XML的數(shù)據(jù)集成模型見圖1.

圖1 基于XML的異構集成檢索模式
在此模型中,各個分布的、異構的數(shù)據(jù)庫可以分別對應一個XML接口,經由XML信息引擎聯(lián)入INTERNET,借由用戶視圖及集成模式形成XML文檔供用戶訪問,從而解決數(shù)字圖書館各分立系統(tǒng)單獨訪問給使用者帶來不便的問題.有的學者也曾經提出過類似的模型[9-10],本文中的模型不需要集成層的源映射,只是借由XSL得到的查詢數(shù)及DTD轉換XML文檔就能夠為使用者提供查詢服務,同時針對新加入的數(shù)據(jù)源頭進行更新,以保證用戶能夠獲取到的數(shù)據(jù)為數(shù)字圖書館的完整數(shù)據(jù).
模型本身借助XML語言的自身特點,它既可以描述結構化數(shù)據(jù),即非常規(guī)范的二維表結構數(shù)據(jù),也可以描述半結構化的甚至是非結構化的數(shù)據(jù),這就為我們提供了一種異構數(shù)據(jù)集成的方法.因此,可以將圖書館發(fā)展過程中使用的不同數(shù)據(jù)庫后臺實現(xiàn)格式統(tǒng)一,用一致的文檔對外提供查詢服務,實現(xiàn)集成,方便數(shù)字圖書館各個系統(tǒng)的使用者實現(xiàn)一次登錄就能夠全網瀏覽使用的目的.
本文的方法首先在教務管理各子系統(tǒng)中使用,通過對齊齊哈爾大學教務管理各子系統(tǒng)的集成發(fā)現(xiàn),XML確實能夠描述多種多樣的數(shù)據(jù),能夠將多個異構數(shù)據(jù)源數(shù)據(jù)整合在一個文檔中.因教務管理相關子系統(tǒng)在發(fā)展的過程中也存在異構數(shù)據(jù),和數(shù)字圖書館系統(tǒng)非常相近,加之本方法具有較好的通用性,因此可以將此方法運用到數(shù)字圖書館各系統(tǒng)的集成,便于用戶檢索利用.XML不僅可以將互聯(lián)網提供的信息傳遞功能供人使用,同時也為人類多種多樣的活動服務,它能容易地將關系數(shù)據(jù)庫中的數(shù)據(jù)表屬性和XML的文檔描述一一對應,從而實現(xiàn)精準查詢和數(shù)據(jù)獲取.因此,通過運用XML技術能夠有效兼容原有Web應用系統(tǒng),實現(xiàn)各Web系統(tǒng)中的信息轉換及共享,從而有效地解決異構數(shù)據(jù)庫的集成,為異構數(shù)據(jù)交互和共享提供幫助,成為解決異構數(shù)據(jù)庫互操作的有效途徑.
[1]申傳斌.基于XML的數(shù)字圖書館異構數(shù)據(jù)庫互連[J].現(xiàn)代情報,2005(7):99-102
[2]劉科,鄭巧英,徐汝興.基于JAVA技術解決數(shù)字圖書館異構平臺數(shù)據(jù)庫訪問[J].現(xiàn)代圖書情報技術,2002(3):10-13
[3]張曉林.基于XML的信息組織與處理:1.XML技術體系[J].情報科學,2001,19(8):832-839
[4]吳揚揚,陳鍛生.一個基于XML的Web信息源集成方案[J].計算機工程與應用,2001(10):34-37
[5]李軍懷,張景,周明全,等.基于XML的企業(yè)異構數(shù)據(jù)集成方法研究[J].計算機工程,2002,28(9):63-65
[6]王福.基于XML與Web Service的數(shù)字資源統(tǒng)一檢索平臺研究[J].貴圖學刊,2009(4):47-48
[7]莊青青.XML技術在數(shù)字圖書館跨庫檢索中的應用[J].情報探索,2011(7):89-90
[8]李衛(wèi)峰,胡孔法.基于XML WEB SERVICE的數(shù)字圖書館統(tǒng)一檢索技術研究[J].情報雜志,2008(9):27-28
[9]羅艷.基于XML的異構數(shù)據(jù)交換技術研究[D].南昌:南昌大學,2011
[10]王芳.基于XML的異構數(shù)據(jù)交換技術研究[D].南昌:華東交通大學,2009
The research of digital library heterogeneous database integration and retrieval based on XML
WANG Shi-bo,XIONG Xiao-hui
(School of Economics and Management,Qiqihar University,Qiqihar 161006,China)
Analyses the problem of the heterogeneous database in the digital library,it gives a model for heterogeneous database integration and retrieval,which researches the heterogeneous database integration and retrieval according to what is actually happening the digital library.
heterogeneous database;XML;integration
TP311.13
A
10.3969/j.issn.1007-9831.2016.12.006
2016-10-16
王世波(1979-),男,黑龍江尚志人,副教授,在讀博士,從事信息系統(tǒng)開發(fā)與集成研究.E-mail:wangshibo05@163.com
1007-9831(2016)12-0025-03