張宏偉 齊明明 史 磊 李 楊
(黑龍江中醫(yī)藥大學(xué)圖書館,黑龍江 哈爾濱 150040)
統(tǒng)一檢索也叫異構(gòu)數(shù)據(jù)源整合檢索,是以多個(gè)分布式異構(gòu)數(shù)據(jù)源為對(duì)象的檢索系統(tǒng)[1],可以實(shí)現(xiàn)不同規(guī)模、不同類型資源庫的資源整合與一站式檢索服務(wù),實(shí)現(xiàn)檢索結(jié)果的統(tǒng)一展現(xiàn)和知識(shí)關(guān)聯(lián)發(fā)現(xiàn)。系統(tǒng)向用戶提供統(tǒng)一的檢索接口,將用戶的檢索要求轉(zhuǎn)化為不同數(shù)據(jù)源的檢索表達(dá)式,并發(fā)地檢索廣域網(wǎng)上和圖書館本地的多個(gè)分布式異構(gòu)數(shù)據(jù)源,并對(duì)檢索結(jié)果加以整合,在經(jīng)過去重和排序等操作后,以統(tǒng)一的格式將結(jié)果呈現(xiàn)給用戶[2]。
統(tǒng)一檢索系統(tǒng)是針對(duì)圖書館內(nèi)部來源不同的數(shù)字資源進(jìn)行數(shù)據(jù)整合與檢索的一站式搜索與知識(shí)發(fā)現(xiàn)服務(wù)系統(tǒng)[3]。基于元數(shù)據(jù)倉儲(chǔ)的統(tǒng)一檢索系統(tǒng)除具備異構(gòu)數(shù)據(jù)源檢索分發(fā)、結(jié)果頁面分析、結(jié)果去重合并、結(jié)果集統(tǒng)一和分類展示等功能外,其重大改進(jìn)在于實(shí)現(xiàn)多數(shù)據(jù)源的元數(shù)據(jù)本地化采集、存儲(chǔ)和管理,實(shí)現(xiàn)基于本地元數(shù)據(jù)倉儲(chǔ)的資源整合檢索與全文獲取服務(wù)[4]。因此,基于元數(shù)據(jù)倉儲(chǔ)的統(tǒng)一檢索系統(tǒng)不僅僅是一種統(tǒng)一檢索系統(tǒng),更是一種本地化的知識(shí)發(fā)現(xiàn)與服務(wù)系統(tǒng)[5]。
元數(shù)據(jù)倉儲(chǔ)平臺(tái)是實(shí)現(xiàn)圖書館數(shù)字資源整合與利用的最有效手段,它的主要工作是采集各異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)信息,構(gòu)建的難點(diǎn)在于元數(shù)據(jù)的采集、存儲(chǔ)管理及數(shù)據(jù)同步。
建成一個(gè)良好的元數(shù)據(jù)倉儲(chǔ),是信息服務(wù)的基礎(chǔ),只有擁有規(guī)范的、高質(zhì)量的元數(shù)據(jù),才有可能建成靈活實(shí)用的資源服務(wù)體系。元數(shù)據(jù)采集設(shè)計(jì)示例如圖1所示。

圖1 元數(shù)據(jù)采集設(shè)計(jì)示例
2.1.1 采集對(duì)象分析
元數(shù)據(jù)采集的主要對(duì)象為能夠提取元數(shù)據(jù)信息的數(shù)據(jù)庫。一般有本地自建數(shù)據(jù)庫、分布式自建數(shù)據(jù)庫以及外購數(shù)據(jù)庫。
2.1.2 本地自建數(shù)據(jù)庫
本地自建數(shù)據(jù)庫是圖書館對(duì)內(nèi)部資源進(jìn)行加工整理而形成的專題或特色數(shù)據(jù)庫,其表結(jié)構(gòu)等數(shù)據(jù)庫詳細(xì)信息均可獲得,因此對(duì)于該部分?jǐn)?shù)據(jù)庫的元數(shù)據(jù)獲取相對(duì)容易。
行業(yè)數(shù)據(jù)庫的建設(shè)應(yīng)遵循一定的指導(dǎo)原則,應(yīng)具有可使用性、互操作性和可持續(xù)性。這樣在后期的使用、升級(jí)或者構(gòu)建其他服務(wù)時(shí)才能順利進(jìn)行。
2.1.3 分布式自建數(shù)據(jù)庫
分布式自建數(shù)據(jù)庫為其他機(jī)構(gòu)建立的數(shù)據(jù)庫,其對(duì)象數(shù)據(jù)不在本地。這部分?jǐn)?shù)據(jù)與行業(yè)數(shù)據(jù)庫類似,可以抽取出元數(shù)據(jù)信息,但是其數(shù)據(jù)庫不在本地,所以其對(duì)象數(shù)據(jù)調(diào)用服務(wù)過程與行業(yè)數(shù)據(jù)庫會(huì)有所不同。
當(dāng)用戶向本地Web服務(wù)器發(fā)送檢索請(qǐng)求時(shí),查找到自己想要信息并調(diào)用其詳細(xì)內(nèi)容時(shí),如果對(duì)象數(shù)據(jù)在本地,則直接在本機(jī)構(gòu)內(nèi)數(shù)據(jù)庫中獲取數(shù)據(jù)返回到發(fā)布頁面;如果不在本地的話,可以直接從異地?cái)?shù)據(jù)庫中取回?cái)?shù)據(jù)返回到本地發(fā)布端,此過程并不會(huì)把異地?cái)?shù)據(jù)庫中的數(shù)據(jù)取回來放在自己的服務(wù)器上,而是同步顯示在發(fā)布端。
2.1.4 外購數(shù)據(jù)庫
外購數(shù)據(jù)庫一般都是封裝好的,我們無法獲得其元數(shù)據(jù)信息。但是對(duì)于少數(shù)可以提供其元數(shù)據(jù)信息表的,我們提供導(dǎo)入工具。
數(shù)據(jù)庫可以按照特定格式導(dǎo)出數(shù)據(jù)庫內(nèi)容。對(duì)于不同性質(zhì)的數(shù)據(jù)庫,如圖書、期刊數(shù)據(jù)庫,可以分別按照其元數(shù)據(jù)必備字段要求導(dǎo)出,支持的格式包括xls、txt、dbf、xml等,但是建議最好是xml文件,這樣易于統(tǒng)一管理。
對(duì)于外購電子資源,根據(jù)電子資源供應(yīng)商提供的服務(wù)方式,可以通過開放Z39.50協(xié)議、Web Service接口、相關(guān)API接口等獲取該電子資源供應(yīng)商授權(quán)的元數(shù)據(jù)信息。
2.2.1 元數(shù)據(jù)存儲(chǔ)架構(gòu)
數(shù)字圖書館需要整合大量的館藏資源、外部電子資源與網(wǎng)絡(luò)資源。因此,從數(shù)據(jù)存取效率和存儲(chǔ)安全性方面考慮,建議元數(shù)據(jù)倉儲(chǔ)采取架構(gòu)在多個(gè)物理服務(wù)器之上的分布式服務(wù),支持?jǐn)?shù)據(jù)分布以及負(fù)載均衡兩種基本分布方式,并支持兩種方式的組合運(yùn)用。
方式一是根據(jù)數(shù)據(jù)分類、功能不同,把內(nèi)容分開存儲(chǔ)。將整個(gè)元數(shù)據(jù)倉儲(chǔ)的數(shù)據(jù)根據(jù)內(nèi)容不同分為兩類,分別存放于數(shù)據(jù)庫(a)和數(shù)據(jù)庫(b)中,(a)(b)內(nèi)容不同。
方式二是內(nèi)容相同,數(shù)據(jù)不分開,只是每套數(shù)據(jù)分別存儲(chǔ)在不同的數(shù)據(jù)庫中,數(shù)據(jù)庫(a)和數(shù)據(jù)庫(b)內(nèi)都存放全部元數(shù)據(jù)倉儲(chǔ)內(nèi)容,(a)(b)內(nèi)容相同。
資源調(diào)度服務(wù)器分發(fā)任務(wù)的方式可以根據(jù)網(wǎng)絡(luò)流量、檢索并發(fā)或者來訪IP地址來進(jìn)行任務(wù)分發(fā)。
元數(shù)據(jù)倉儲(chǔ)數(shù)據(jù)庫集群系統(tǒng)服務(wù)模式如圖2所示。當(dāng)用戶向元數(shù)據(jù)倉儲(chǔ)平臺(tái)Web服務(wù)器發(fā)送檢索請(qǐng)求時(shí),其請(qǐng)求可能會(huì)被資源調(diào)度服務(wù)器分配到檢索集群中的任意一個(gè)檢索服務(wù)器,如分配給(a),(a)檢索后并從原數(shù)據(jù)庫中取回檢索結(jié)果,資源調(diào)度服務(wù)器在發(fā)布集群中選擇一個(gè)發(fā)布服務(wù)器,如(b),則(b)選擇接受數(shù)據(jù),并返回結(jié)果,將結(jié)果頁面以一定方式顯示給用戶。

圖2 數(shù)據(jù)庫集群服務(wù)模式
2.2.2 元數(shù)據(jù)庫管理
構(gòu)建元數(shù)據(jù)庫倉儲(chǔ)一樣要有很好的維護(hù)性。元數(shù)據(jù)倉儲(chǔ)管理重點(diǎn)在于其中的數(shù)據(jù),所以當(dāng)數(shù)據(jù)有了新的變化,增加或減少,元數(shù)據(jù)倉儲(chǔ)管理端都應(yīng)該能夠方便地進(jìn)行處理。
①當(dāng)自建原數(shù)據(jù)庫內(nèi)數(shù)據(jù)發(fā)生變化時(shí),元數(shù)據(jù)庫需要隨之變化。②當(dāng)增加新的自建數(shù)據(jù)庫時(shí),元數(shù)據(jù)庫需要增加同步的數(shù)據(jù)庫量。③數(shù)據(jù)庫增加新內(nèi)容或者增加新的數(shù)據(jù)庫,由于網(wǎng)絡(luò)環(huán)境不能實(shí)現(xiàn)同步,可通過表單提交元數(shù)據(jù)信息。
元數(shù)據(jù)同步更新可以分為實(shí)時(shí)和非實(shí)時(shí)。非實(shí)時(shí)同步可以通過查看數(shù)據(jù)庫表的關(guān)系得到。其操作步驟一般為:①查看數(shù)據(jù)庫表的關(guān)系;②在源機(jī)器上根據(jù)表的關(guān)系導(dǎo)出數(shù)據(jù);③在目標(biāo)機(jī)器上根據(jù)表的關(guān)系使用命令刪除數(shù)據(jù);④在目標(biāo)機(jī)器上根據(jù)表的關(guān)系使用命令導(dǎo)入數(shù)據(jù)。
但是這種方式有很大的時(shí)間損耗,數(shù)據(jù)不能實(shí)時(shí)更新,因此我們采用實(shí)時(shí)同步的方式。元數(shù)據(jù)實(shí)時(shí)同步分為兩種方式,一種為主動(dòng)的,一種為被動(dòng)的。主動(dòng)的元數(shù)據(jù)同步:元數(shù)據(jù)庫服務(wù)器定時(shí)查找對(duì)象數(shù)據(jù)庫是否有更新,如果有更新,則進(jìn)行增量同步。被動(dòng)的元數(shù)據(jù)同步:對(duì)象數(shù)據(jù)庫更新后,定期上傳更新數(shù)據(jù)到元數(shù)據(jù)服務(wù)器。
由于機(jī)構(gòu)內(nèi)各個(gè)專題庫數(shù)據(jù)庫結(jié)構(gòu)各異,如果要設(shè)定數(shù)據(jù)庫對(duì)元數(shù)據(jù)倉儲(chǔ)服務(wù)器的自動(dòng)上傳,需要對(duì)每個(gè)數(shù)據(jù)庫進(jìn)行改造,因此我們采用主動(dòng)的元數(shù)據(jù)同步方式,由元數(shù)據(jù)服務(wù)器定期檢測(cè)對(duì)象數(shù)據(jù)庫,進(jìn)行增量同步。
檢索服務(wù)是統(tǒng)一檢索系統(tǒng)的主要功能。為了具備更好的用戶體驗(yàn),采用簡潔的檢索入口(類似Baidu的一框式搜索),通過元數(shù)據(jù)內(nèi)容全文索引來檢索和返回結(jié)果,對(duì)結(jié)果進(jìn)行合并、排重、排序等處理,并通過全文調(diào)度引擎分析全文鏈接,提供全文獲取服務(wù)。基于元數(shù)據(jù)倉儲(chǔ)統(tǒng)一檢索系統(tǒng)架構(gòu)如圖3所示。

圖3 基于元數(shù)據(jù)倉儲(chǔ)統(tǒng)一檢索系統(tǒng)架構(gòu)
統(tǒng)一檢索系統(tǒng)為用戶提供簡單檢索入口。用戶在檢索前,可以選擇資源類型進(jìn)行檢索,如期刊、圖書、學(xué)位論文、會(huì)議、報(bào)紙等。每種資源類型還可以選擇相應(yīng)的元數(shù)據(jù)字段,以進(jìn)一步縮小檢索范圍。用戶也可以直接輸入檢索詞進(jìn)行檢索,系統(tǒng)默認(rèn)在所有資源元數(shù)據(jù)中進(jìn)行檢索。
系統(tǒng)將用戶的檢索請(qǐng)求轉(zhuǎn)化為統(tǒng)一的檢索表達(dá)式,并發(fā)送到本地的元數(shù)據(jù)倉儲(chǔ)中,根據(jù)檢索范圍分發(fā)到對(duì)應(yīng)的元數(shù)據(jù)庫索引中進(jìn)行檢索。檢索結(jié)果通過處理引擎進(jìn)行合并、排重、排序等操作后,以統(tǒng)一的格式將結(jié)果呈現(xiàn)給用戶。
統(tǒng)一檢索提供一站式的檢索入口和檢索結(jié)果展現(xiàn),能夠減輕用戶學(xué)習(xí)檢索不同數(shù)據(jù)源的負(fù)擔(dān);采用多元數(shù)據(jù)庫分布式全文檢索,能夠有效提升檢索效率,節(jié)省用戶檢索時(shí)間;檢索結(jié)果合并,為用戶呈現(xiàn)格式統(tǒng)一、分類聚合、多種排序的檢索結(jié)果,大大方便用戶的瀏覽和選擇。
統(tǒng)一檢索系統(tǒng)提供高級(jí)檢索功能。用戶可以對(duì)選中的多個(gè)數(shù)字資源同時(shí)進(jìn)行檢索,可以輸入復(fù)雜的組合檢索條件來提高檢索精度,包括組配檢索、日期限制、排序限制以及字段內(nèi)部的截詞和邏輯檢索等。
統(tǒng)一檢索系統(tǒng)提供統(tǒng)一的檢索結(jié)果展現(xiàn)方式,包括檢索結(jié)果概覽和細(xì)覽,用戶可以在一個(gè)頁面中瀏覽不同資源庫中檢索出的結(jié)果信息。可以瀏覽每條結(jié)果的詳細(xì)信息,甚至直接下載全文。
檢索結(jié)果概覽支持多庫結(jié)果的統(tǒng)一展現(xiàn),同時(shí)提供不同資源庫的檢索結(jié)果集分類和分面展現(xiàn)。這些展現(xiàn)方式都可以在一個(gè)頁面上集中體現(xiàn),方便用戶根據(jù)自己的需要選擇性查看。
結(jié)果細(xì)覽頁面提供該檢索結(jié)果的全文獲取方式。不同資源類型所提供的全文獲取服務(wù)不同,從總體上來看,資源全文獲取服務(wù)可以包括以下幾部分。
①電子資源服務(wù),包括電子資源全文下載和電子資源在線閱覽。電子資源全文下載需具有電子資源訪問權(quán)限。電子資源在線閱覽分為兩種,一種為常見的非結(jié)構(gòu)化文檔,如Word、PDF、PPT、Excel、HTML、圖片等,可以提供格式轉(zhuǎn)換和在線查看;另一種為電子資源。
②館藏服務(wù),查看各個(gè)參與圖書館的館藏信息,并提供圖書館藏狀態(tài)查看、預(yù)借、續(xù)借服務(wù)(需要與圖書館OPAC系統(tǒng)集成)。一般顯示3個(gè)有此館藏的圖書館名稱,點(diǎn)擊“更多”可以展開該頁面,顯示全部有此館藏的圖書館列表(需要與館際互借和文獻(xiàn)傳遞系統(tǒng)集成)。
③互聯(lián)網(wǎng)服務(wù),互聯(lián)網(wǎng)公共搜索引擎,如百度新聞、百度文庫、豆瓣書評(píng)等,需要進(jìn)行統(tǒng)一檢索配置。互聯(lián)網(wǎng)專業(yè)搜索引擎,如國家知識(shí)產(chǎn)權(quán)局專利檢索、標(biāo)準(zhǔn)技術(shù)網(wǎng)標(biāo)準(zhǔn)搜索等,需要進(jìn)行統(tǒng)一檢索配置。
④文獻(xiàn)傳遞服務(wù),虛擬參考咨詢要與本館虛擬參考咨詢系統(tǒng)集成,館際互借要與館際互借和文獻(xiàn)傳遞系統(tǒng)集成。
文獻(xiàn)資源的檢索與利用是科研工作的重要組成部分,基于元數(shù)據(jù)倉儲(chǔ)的統(tǒng)一檢索系統(tǒng)能夠整合圖書館現(xiàn)有數(shù)據(jù)庫資源、外購的各種數(shù)據(jù)資源以及互聯(lián)網(wǎng)搜索引擎資源,提供資源的一站式檢索與服務(wù)。可以實(shí)現(xiàn)不同規(guī)模、多種資源庫的資源整合與檢索,實(shí)現(xiàn)檢索結(jié)果統(tǒng)一展現(xiàn),縮短了讀者查找文獻(xiàn)的時(shí)間,延長了讀者科研的壽命。
[1]徐榮華.基于元數(shù)據(jù)倉儲(chǔ)的資源整合應(yīng)用[J].圖書館雜志,2012(4):67-73.
[2]李洪梅.數(shù)字圖書館異構(gòu)資源統(tǒng)一檢索研究[J].圖書館學(xué)刊,2013(2):49-53.
[3]葛川,陳洪梅,劉嵐.數(shù)字資源統(tǒng)一檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代情報(bào),2011(4):49-52.
[4]蔣繼平,姚倩.文獻(xiàn)資源整合中的統(tǒng)一檢索系統(tǒng)應(yīng)用研究[J].大學(xué)圖書館學(xué)報(bào),2011(1):72-76.
[5]鄧曉音.統(tǒng)一檢索平臺(tái)評(píng)價(jià)標(biāo)準(zhǔn)及比較研究——以CALIS“外文期刊網(wǎng)”及交大圖書館“思源探索”檢索平臺(tái)為例[J].情報(bào)科學(xué),2012(12):1844-1848.