〔摘 要〕數(shù)字資源整合是現(xiàn)階段圖書館發(fā)展的必然趨勢。筆者根據(jù)所在單位開展數(shù)字資源整合平臺(tái)的建設(shè)經(jīng)驗(yàn), 介紹了國內(nèi)外有代表性的資源整合系統(tǒng),對比了國內(nèi)主要的資源整合模式,明確了資源整合的目標(biāo),具體描述了基于元數(shù)據(jù)倉儲(chǔ)的數(shù)字資源整合平臺(tái)的建設(shè)過程,主要包括元數(shù)據(jù)倉儲(chǔ)的建設(shè)、統(tǒng)一檢索系統(tǒng)的建設(shè)和資源調(diào)度系統(tǒng)的建設(shè)。
〔關(guān)鍵詞〕元數(shù)據(jù);倉儲(chǔ)整合;資源整合;統(tǒng)一檢索
〔中圖分類號(hào)〕G250.73 〔文獻(xiàn)標(biāo)識(shí)碼〕B 〔文章編號(hào)〕1008-0821(2012)10-0046-04
“我們淹沒在信息的海洋中,卻飽受著知識(shí)的饑渴”這句話恰到好處的形容了我們所面臨的信息環(huán)境[1]。隨著計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,圖書館所面臨的信息環(huán)境發(fā)生了巨大的變化,館藏資源除了傳統(tǒng)的印刷型文獻(xiàn)以外,還包括數(shù)字圖書、數(shù)字期刊以及網(wǎng)絡(luò)資源等不同類型的資源。由于這些資源分布于不同的數(shù)據(jù)庫當(dāng)中,每種數(shù)據(jù)庫的構(gòu)建方式、支持平臺(tái)都不盡相同,同時(shí)數(shù)據(jù)的組織形式、管理模式以及存儲(chǔ)格式也不盡相同,這就出現(xiàn)了數(shù)據(jù)庫之間的異構(gòu)性問題。不同的數(shù)據(jù)庫之間知識(shí)關(guān)聯(lián)程度較低,而且內(nèi)容交叉重復(fù)。當(dāng)用戶檢索文獻(xiàn)時(shí),由于各數(shù)據(jù)庫的檢索界面和檢索方法都不一樣,用戶需要在不同的數(shù)據(jù)庫之間進(jìn)行切換和重復(fù)操作,無法實(shí)現(xiàn)“一站式”的便捷檢索,同時(shí)查準(zhǔn)率、查全率也難以得到保障。因此,如何有效地對數(shù)字資源進(jìn)行集成、重組、整合,建立具有關(guān)聯(lián)性的資源體系,以解決“數(shù)字信息孤島”,提高數(shù)字資源的利用率成為圖書館迫切需要解決的問題[2]。
1 國內(nèi)外資源整合系統(tǒng)的介紹
20世紀(jì)90年代,國外圖書館和IT界就開始了有關(guān)數(shù)字資源整合方面的相關(guān)研究[3]。相繼開發(fā)出一些功能完善、應(yīng)用成熟的數(shù)字資源整合系統(tǒng),如ExLibris公司開發(fā)的SFX、MetaLib和DigiTool等產(chǎn)品,探索出一套完整的數(shù)字資源整合解決方案[4];Iunovative Innovativefaces公司的MAP(Millnenium Access Plus)系統(tǒng),通過WebOPAC的搜索功能及Innopac Milennium版的管理模塊將館內(nèi)的各類型的電子資源整合到一套資源存取管理工具中[5]。此外,還有UnionSearch Platform、ENCompasswith Link Finder Plus、WebFeat、Ilink、Chameleon iportal、Iport、Zportal、Xdierctory and Xflow、Uportal等系統(tǒng),在國外也有很廣泛的應(yīng)用[5]。特別是由ProQuest的Serial Solutions部門開發(fā)設(shè)計(jì)的Summon服務(wù)系統(tǒng),近年來引起了業(yè)界的廣泛關(guān)注,獲得了由軟件和信息協(xié)會(huì)(SIIA)頒發(fā)的2011年的CODIE獎(jiǎng),被譽(yù)為最好的企業(yè)檢索解決方案[6],成為北京大學(xué)圖書館數(shù)字資源整合的3個(gè)備選系統(tǒng)之一[7]。
我國圖書館探索數(shù)字資源整合研究始于2003年,之后逐漸受到關(guān)注。在理論研究方面,《電子圖書館整合檢索之理論與實(shí)踐》(臺(tái)灣的陳昭珍學(xué)者所著)是我國第一部數(shù)字資源整合方面的著作,該書分析了圖書館進(jìn)行數(shù)字資源整合的必要性以及整合模式,介紹了Z39.50協(xié)議在數(shù)字資源整合中的應(yīng)用,并對今后的整合檢索發(fā)展趨勢作了一些前瞻性的展望[8]。李家清的《信息資源整合》、賈宏的《數(shù)字圖書館網(wǎng)絡(luò)信息資源整合及其技術(shù)分析》,以及馬文峰主持的國家基金項(xiàng)目“數(shù)字資源整合的理論與方法”,都對數(shù)字資源整合理論進(jìn)行了深入的探討。在應(yīng)用實(shí)踐方面,由于相關(guān)研究起步較晚,目前國內(nèi)相對成熟的數(shù)字資源整合系統(tǒng)并不多,具有代表性的有清華同方的異構(gòu)統(tǒng)一檢索平臺(tái)USP(Union Search Platform)、北京拓爾思(TRS)的資源整合門戶(TRS IIP)和參考鏈接系統(tǒng)(TRS Info Linker)[1],還有超星的讀秀和Medalink(百鏈)系統(tǒng)等。
2 資源整合案例——以沈陽航空航天大學(xué)圖書館為例 近幾年,沈陽航空航天大學(xué)圖書館(以下簡稱我館)加大了數(shù)字資源的引進(jìn)和自建力度。目前,我館以各種形式開通的中外文數(shù)據(jù)庫達(dá)到了28個(gè),自建專題數(shù)據(jù)庫5個(gè),數(shù)據(jù)存儲(chǔ)達(dá)到42.6 TB,此外還開通了多個(gè)免費(fèi)的數(shù)據(jù)庫,形成了以引進(jìn)數(shù)字資源為主、自建數(shù)據(jù)資源為輔的類型多樣、內(nèi)容廣泛的館藏?cái)?shù)字資源體系。2011年,我館成功申報(bào)了中央財(cái)政支持地方高校發(fā)展專項(xiàng)基金項(xiàng)目“遼寧省航空航天專題數(shù)字資源共享平臺(tái)建設(shè)”,以此為契機(jī),為了提高我館數(shù)字資源的利用效率,把異構(gòu)資源統(tǒng)一檢索平臺(tái)作為項(xiàng)目建設(shè)的重點(diǎn)工作,進(jìn)而實(shí)現(xiàn)數(shù)字資源的深度整合。
2.1 資源整合系統(tǒng)的選擇
數(shù)字資源整合是在各種數(shù)字資源自主性、分布性、異構(gòu)性的基礎(chǔ)上,運(yùn)用各種集成技術(shù)和手段將各類數(shù)字資源集成在統(tǒng)一的利用環(huán)境下,實(shí)現(xiàn)“一步到位”的檢索,讓用戶極其方便的利用各種數(shù)字資源,為其節(jié)省寶貴的時(shí)間和精力[9]。數(shù)字資源整合需要借助相對成熟的軟件系統(tǒng),整合系統(tǒng)的選擇就顯得至關(guān)重要。對于國外的資源整合系統(tǒng),考慮到成本高、空間距離遠(yuǎn)以及技術(shù)支持響應(yīng)速度慢等因素,首先被排除掉,不作為備選方案。國內(nèi)的資源整合系統(tǒng),理論上有兩種實(shí)現(xiàn)統(tǒng)一檢索的資源整合方式,即通過抽取元數(shù)據(jù)的深度資源整合和通過技術(shù)層面的外掛式資源整合。我館重點(diǎn)調(diào)研和試用了清華同方的異構(gòu)統(tǒng)一檢索平臺(tái)USP、超星的讀秀和Medalink(百鏈)兩個(gè)系統(tǒng)。
清華同方的USP采用了雙層的B/S結(jié)構(gòu)體系,包括用戶注冊和引擎配置模塊、統(tǒng)一檢索模塊以及檢索結(jié)果顯示模塊三部分[10]。它的工作原理是分析異構(gòu)數(shù)據(jù)庫的各個(gè)字段,進(jìn)行字段間的映射,再把用戶的檢索請求轉(zhuǎn)換成能被不同數(shù)據(jù)庫接受的檢索表達(dá)式,通過數(shù)據(jù)庫廠商提供的數(shù)據(jù)接口并發(fā)檢索本地或互聯(lián)網(wǎng)上的多個(gè)數(shù)據(jù)庫,最后對檢索結(jié)果進(jìn)行去重、排序,并以統(tǒng)一的格式將檢索結(jié)果輸出到結(jié)果頁面上。USP的檢索過程相當(dāng)于代替用戶同時(shí)登陸多個(gè)異構(gòu)數(shù)據(jù)庫進(jìn)行檢索并把檢索結(jié)果返回給用戶。如圖1所示。
圖1 USP檢索原理
讀秀和Medalink學(xué)術(shù)搜索,是由超星公司研制開發(fā)的基于海量元數(shù)據(jù)及全文數(shù)據(jù)的中外文知識(shí)搜索和文獻(xiàn)傳遞系統(tǒng)。讀秀學(xué)術(shù)搜索是全球最大的中文文獻(xiàn)資源服務(wù)平臺(tái),Medalink整合了國內(nèi)高校圖書館購買的100多個(gè)外文數(shù)據(jù)庫的元數(shù)據(jù),也被稱作“外文讀秀”[11]。元數(shù)據(jù)是關(guān)于數(shù)據(jù)的who、what、when、where、why and how,是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”[12]。讀秀和Medalink的工作原理是將所有可利用的異構(gòu)數(shù)據(jù)庫內(nèi)資源對象的元數(shù)據(jù)記錄導(dǎo)入到一個(gè)新的數(shù)據(jù)庫中,歸并、查重、處理后重新生成全文索引,當(dāng)用戶提出檢索請求時(shí),為用戶提供指向數(shù)字資源的超鏈接。如圖2所示。
圖2 元數(shù)據(jù)檢索原理
我館自2011年3月開始,先后對上述兩個(gè)資源整合系統(tǒng)進(jìn)行了全面、深入的試用,覆蓋了我館的館藏書目、28個(gè)商業(yè)數(shù)據(jù)庫以及5個(gè)自建數(shù)據(jù)庫。對于本地資源,主要測試、評估對數(shù)據(jù)的映射、收割和導(dǎo)入,以及對信息的揭示和資源獲取的速度等方面;對于外網(wǎng)資源,進(jìn)行了對元數(shù)據(jù)索引中數(shù)字資源規(guī)模、質(zhì)量的考察,以及與我館所購數(shù)字資源覆蓋程度的比對。通過試用對比發(fā)現(xiàn),基于跨庫檢索模式的資源整合系統(tǒng),僅僅通過建立一個(gè)代理界面來接受用戶的檢索請求,并將這些請求轉(zhuǎn)換成相應(yīng)的數(shù)字資源系統(tǒng)方法和檢索語言,并將各個(gè)資源系統(tǒng)返回的檢索結(jié)果進(jìn)行排序和整合[13]。這種整合模式,盡管技術(shù)簡單、操作方便,而且不占用大量的存儲(chǔ)空間,但是限于目前計(jì)算機(jī)的處理能力和網(wǎng)絡(luò)寬帶等因素,需要很長的時(shí)間才能將檢索結(jié)果返回到用戶統(tǒng)一操作界面,浪費(fèi)了用戶大量的時(shí)間,同時(shí)檢索結(jié)果的去重、查全率和查準(zhǔn)率并不能得到有效的保障。而基于元數(shù)據(jù)倉儲(chǔ)的資源整合系統(tǒng),通過對元數(shù)據(jù)的聚合,為資源整合打下了一個(gè)實(shí)際的同構(gòu)基礎(chǔ)。經(jīng)過收集、轉(zhuǎn)換后,不僅數(shù)據(jù)格式統(tǒng)一、結(jié)構(gòu)清晰,而且可以按照用戶的需求建立多種分類體系,甚至可以實(shí)現(xiàn)對數(shù)據(jù)更高級(jí)的組織和管理。另外,在整合資源規(guī)模,特別是外文資源方面,超星的資源整合系統(tǒng)遠(yuǎn)遠(yuǎn)好于清華同方的系統(tǒng),也更適合于我館,可以很好的彌補(bǔ)我館外文文獻(xiàn)的不足,所以,我館選擇了與超星合作,進(jìn)行數(shù)字資源統(tǒng)一檢索平臺(tái)的建設(shè)。
2.2 資源整合的目標(biāo)
采用了基于元數(shù)據(jù)倉儲(chǔ)的數(shù)字資源整合模式,整合資源包括本地資源和遠(yuǎn)程訪問資源,其文獻(xiàn)類型有紙質(zhì)圖書、電子圖書、電子期刊、會(huì)議論文、學(xué)位論文、報(bào)紙、專利、標(biāo)準(zhǔn)、互聯(lián)網(wǎng)免費(fèi)資源等。為用戶提供統(tǒng)一的檢索界面,實(shí)現(xiàn)“一站式”的獲取服務(wù)。檢索結(jié)果的輸出不但速度快、無重復(fù),而且要實(shí)現(xiàn)文獻(xiàn)類型的聚類以及多角度的導(dǎo)航。利用OpenURL(開放鏈接) 解析功能,實(shí)現(xiàn)檢索結(jié)果與OPAC系統(tǒng)、數(shù)據(jù)庫全文、網(wǎng)站網(wǎng)頁地址、參考咨詢以及館際互借等服務(wù)的無縫鏈接,讓用戶通過最恰當(dāng)?shù)耐緩侥軌颢@取目標(biāo)內(nèi)容和服務(wù)。允許用戶采用選擇、排序、二次檢索等方式處理檢索結(jié)果,保證用戶能夠方便、靈活地保存和輸出檢索結(jié)果(下載、打印、E-mail發(fā)送等)。
2.3 中心數(shù)據(jù)庫倉儲(chǔ)數(shù)據(jù)的建設(shè)
元數(shù)據(jù)的抓取要通過數(shù)據(jù)收割工具,將不同文獻(xiàn)系統(tǒng)中的數(shù)據(jù)收割、轉(zhuǎn)換、裝載到數(shù)據(jù)倉庫中,數(shù)據(jù)抓取共分為3個(gè)步驟:第一步是本館已經(jīng)收集完整的圖書元數(shù)據(jù)、中文期刊元數(shù)據(jù)以及外文期刊元數(shù)據(jù),直接通過Z39.50協(xié)議存儲(chǔ)到元數(shù)據(jù)庫中;第二步是本館未收集到的元數(shù)據(jù)部分,通過OAI-PMH協(xié)議的收割元數(shù)據(jù)工具,收割支持OAI-PMH協(xié)議的開放資源的元數(shù)據(jù),將其更新并存儲(chǔ)到元數(shù)據(jù)庫中。OAI-PMH元數(shù)據(jù)收割取協(xié)議(OAI Protocol for Metadata Harvesting,OAI-PMH),簡稱OAI協(xié)議,是一個(gè)在分布式的網(wǎng)絡(luò)化環(huán)境下獲取特定元數(shù)據(jù)信息的標(biāo)準(zhǔn)協(xié)議,該協(xié)議通過定義一個(gè)標(biāo)準(zhǔn)的接口,使服務(wù)器能夠?qū)⑵浯鎯?chǔ)的元數(shù)據(jù)信息有選擇地提供給外部應(yīng)用程序或其他服務(wù)器[14];第三步是對于不支持OAI協(xié)議的數(shù)據(jù)庫,提供基于網(wǎng)頁分析的元數(shù)據(jù)抓取工具Spider,可以抓取不支持OAI協(xié)議的元數(shù)據(jù)存儲(chǔ)到元數(shù)據(jù)庫中。
元數(shù)據(jù)的處理要借助于智能查重排序分析、OLAP分析以及報(bào)表工具等數(shù)據(jù)分析預(yù)處理工具,對關(guān)系表實(shí)施映射合并處理,提前建立索引,通過相關(guān)的事實(shí)表、維表用以支持多維業(yè)務(wù)試圖,從而實(shí)現(xiàn)對倉儲(chǔ)數(shù)據(jù)的多維分析,以建立標(biāo)準(zhǔn)的元數(shù)據(jù)格式;元數(shù)據(jù)存儲(chǔ)在中心元數(shù)據(jù)庫中,主要分成索引目錄、關(guān)系映射數(shù)據(jù)庫,各自發(fā)揮著不同的作用。索引目錄被用于檢索,而關(guān)系映射數(shù)據(jù)庫則被用于元數(shù)據(jù)與原文之間的關(guān)聯(lián);元數(shù)據(jù)倉儲(chǔ)通過提供OAI-DP服務(wù),可以實(shí)現(xiàn)其它應(yīng)用系統(tǒng)調(diào)用并返回XML格式的結(jié)果。資源調(diào)度系統(tǒng)與元數(shù)據(jù)倉儲(chǔ)進(jìn)行集成,能夠提供調(diào)度任務(wù)的分發(fā)記錄;元數(shù)據(jù)自動(dòng)更新工具,可以實(shí)現(xiàn)對元數(shù)據(jù)實(shí)時(shí)更新和發(fā)布。元數(shù)據(jù)的應(yīng)用流程如圖3所示。
元數(shù)據(jù)收割、抓取元數(shù)據(jù)查重、索引處理元數(shù)據(jù)統(tǒng)一檢索資源調(diào)度獲取全文圖3 元數(shù)據(jù)的應(yīng)用流程
2.4 統(tǒng)一檢索系統(tǒng)的建設(shè)
元數(shù)據(jù)以統(tǒng)一格式存儲(chǔ)之后,為了搜尋方便,需要建立一個(gè)元數(shù)據(jù)搜索引擎。搜索進(jìn)程不斷監(jiān)聽新的搜索任務(wù),一旦發(fā)現(xiàn)有新的搜索任務(wù),則向指定的數(shù)據(jù)提供者URL發(fā)出帶不同命令行參數(shù)的OAI請求,并得到相應(yīng)的響應(yīng)結(jié)果,這就是搜索引擎的基本工作過程[15]。其算法選擇如下:首先為這些元數(shù)據(jù)創(chuàng)建一系列索引表,按照題名、創(chuàng)建者、日期、主題等元數(shù)據(jù)信息的集合形式排列。當(dāng)用戶有檢索需求時(shí),輸入一個(gè)關(guān)鍵字,搜索引擎會(huì)到一系列索引表中進(jìn)行搜尋, 如果搜尋到符合條件的檢索信息,會(huì)把與此有關(guān)的元數(shù)據(jù)信息全部抽取出來,以提高查全率;同時(shí),為了提高查準(zhǔn)率,需要對索引關(guān)鍵詞進(jìn)行篩選。利用過濾器對關(guān)鍵詞實(shí)施篩選,要從已經(jīng)標(biāo)準(zhǔn)化的元數(shù)據(jù)中進(jìn)行提取,將其格式信息完全過濾掉,進(jìn)而獲得關(guān)鍵字,而不是全部元數(shù)據(jù)信息,接下來,把通過關(guān)鍵字形成的索引表傳送給搜索引擎,再根據(jù)索引進(jìn)行搜尋,搜尋到的結(jié)果就是元數(shù)據(jù)當(dāng)中的關(guān)鍵字,而這部分關(guān)鍵字則對應(yīng)著元數(shù)據(jù)十分完整的信息,用戶利用關(guān)鍵字可以很方便地找到元數(shù)據(jù)對應(yīng)的數(shù)據(jù)資源信息,整個(gè)檢索過程即索引列表——關(guān)鍵字——元數(shù)據(jù)——資源數(shù)據(jù)。
資源整合系統(tǒng)支持快速檢索和高級(jí)檢索,支持對文章內(nèi)容的全文檢索;支持多面搜索,即檢索一種文獻(xiàn)類型資源時(shí),還可以顯示出其它文獻(xiàn)類型資源信息;同時(shí)通過自然語義分析,調(diào)整用戶檢索詞的分詞體系以達(dá)到精確檢索、智能檢索的目標(biāo)。系統(tǒng)利用聚類緩存技術(shù)及數(shù)據(jù)庫集成技術(shù),使得檢索結(jié)果的反饋時(shí)間以秒級(jí)計(jì)算。檢索結(jié)果的輸出支持統(tǒng)一格式顯示,不但能夠?qū)崿F(xiàn)排序、合并及去重,還能夠?qū)崿F(xiàn)對檢索結(jié)果的多角度聚類和分組。如圖4所示。
圖4 沈陽航空航天大學(xué)圖書館統(tǒng)一檢索界面
2.5 資源調(diào)度系統(tǒng)的建設(shè)
資源調(diào)度系統(tǒng)是幫助圖書館及用戶在檢索與原文獲取之間建立鏈接的系統(tǒng),主要解決圖書館文獻(xiàn)服務(wù)中上下文敏感幫助和原文鏈接服務(wù)。該系統(tǒng)是基于OpenURL標(biāo)準(zhǔn)的多級(jí)調(diào)度系統(tǒng),能夠自動(dòng)更新調(diào)度知識(shí)庫,允許自定義本地調(diào)度規(guī)則并定制個(gè)性化調(diào)度服務(wù)[16]。資源調(diào)度系統(tǒng)采用了動(dòng)態(tài)腳本技術(shù)來制定調(diào)度規(guī)則,這樣便于增加新的資源與服務(wù),能更有效地實(shí)現(xiàn)資源與服務(wù)的調(diào)度。同時(shí)支持向第三方提供資源注冊的接口、標(biāo)準(zhǔn),便于數(shù)據(jù)商對資源注冊信息進(jìn)行批量更新。
OpenURL是一種開放式的鏈接框架結(jié)構(gòu),可以將信息源、信息服務(wù)和用戶需求很好地融合在一起。OpenURL全文鏈接同時(shí)附帶有元數(shù)據(jù)信息、資源地址信息,利用維護(hù)鏈接解析器,依照相應(yīng)規(guī)則動(dòng)態(tài)生成開放鏈接的“URL”,一對一、一對多地實(shí)現(xiàn)資源之間的鏈接,并對資源之間的關(guān)系進(jìn)行動(dòng)態(tài)的管理。資源調(diào)度遵循著就近最快原則,即對不同資源設(shè)立權(quán)重,根據(jù)客戶端來源情況判斷優(yōu)先調(diào)度最快資源;遵循自動(dòng)傳遞優(yōu)先于人工傳遞原則,對于常用資源實(shí)現(xiàn)自動(dòng)傳遞,自動(dòng)傳遞無法判斷的需求自動(dòng)轉(zhuǎn)到人工傳遞。3 結(jié) 語
數(shù)字資源整合是信息社會(huì)發(fā)展的必然,是實(shí)現(xiàn)信息共享的前提,是提供優(yōu)質(zhì)化服務(wù)的基礎(chǔ)[17]。基于元數(shù)據(jù)倉儲(chǔ)的數(shù)字資源整合系統(tǒng),具有強(qiáng)大的資源整合功能、完善的數(shù)據(jù)集成功能、高效的后續(xù)服務(wù)功能,為用戶提供了方便、快捷的“一站式”服務(wù)。當(dāng)然,基于元數(shù)據(jù)倉儲(chǔ)的數(shù)字資源整合方案也存在著一些問題,如元數(shù)據(jù)存儲(chǔ)需要占用大量的硬件空間、數(shù)據(jù)更新可能不及時(shí)等,但是總體來看,它還是現(xiàn)階段比較優(yōu)秀的數(shù)字資源整合方案。
參考文獻(xiàn)
[1]閆志紅.我國高校圖書館數(shù)字資源整合模式研究[D].重慶:重慶大學(xué),2008.
[2]屈冠軍.基于實(shí)現(xiàn)跨庫檢索的數(shù)字資源整合技術(shù)探討[J].圖書館,2009,(6):86-88.
[3]Anna Coleman,Paul Bracke,Subramaniam Kathik.The Integration of Non—OAI Resources for Federated Searching in DLIST,an Epfints Repository[J].D—Lib Magazine,2004,(10).
[4]姜愛蓉,王平,鄭小惠.分布異構(gòu)資源整合管理系統(tǒng)的技術(shù)特點(diǎn)和應(yīng)用趨勢——MetaLib SFX綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2004,(4):1-5.