王燕紅,陽廣元(西南民族大學圖書館)
機構知識庫 (Institutional Repository,簡稱 IR)聯盟(以下簡稱IR聯盟)既是一種解決單個學術機構在構建自身IR時面臨的資金缺乏、內容征集難、技術條件不成熟等制約因素的有效方案,又是避免各機構資源重復建設和促進各機構資源分布式整合與統一管理,實現各機構資源的最大化開放存取的一種有效途徑。[1-3]近年來,我國研究者對IR聯盟進行了不同角度的深入研討,并取得了一些學術成果。本研究以“中國知網”、“萬方數據知識服務平臺”和“維普中文期刊服務平臺”為樣本來源數據庫,以(題名/關鍵詞=((機構知識庫or機構庫or機構倉儲or機構資源庫or機構存儲庫or學術倉儲or機構典藏庫or機構知識倉儲or機構存儲or機構典藏)and聯盟)or機構知識庫聯盟or機構庫聯盟or機構倉儲聯盟or機構資源庫聯盟or機構存儲庫聯盟or學術倉儲聯盟or機構典藏庫聯盟or機構知識倉儲聯盟or機構存儲聯盟or機構典藏聯盟or機構聯盟知識庫)[1-5]為檢索式,在所有學科專題中進行“精確匹配”檢索,對檢索結果去重和剔除(如編輯寄語等)非相關文獻后,最終獲得我國IR聯盟研究有關的文獻51篇。筆者對學術文獻的主題及內容梳理發現,目前我國學者對基于關聯數據的知識發現的研究主要集中在IR聯盟的定義、IR聯盟構建模式、研究成果和實踐經驗介紹、綜述或其他研究內容等四類主題。
目前,國內學者對IR聯盟還沒有形成一個比較統一的界定和認識,比較典型的定義如下。
(1)王文華、渠芳等認為IR聯盟是指多個機構以一個機構為基地聯合構建IR,并通過合作的方式將各自所擁有的資源庫整合以對外提供統一的數字化服務。[1,6,7]
(2)曾蘇等認為IR聯盟是指兩個以上大學、研究機構及相關組織通過合作的方式構建IR或共享IR資源,以集中存繳、元數據收割等方式統一提供知識傳播和知識服務,實現不同機構間知識產出的共享、利用。[5]
(3)孟祥保認為IR聯盟是指兩個及其以上學術機構間采用統一技術平臺和管理方式進行各機構學術資源的收集、管理及分布式數字整合,以實現各機構學術資源的最大化開放存取。[2]
(4)王穎潔等認為IR聯盟包括兩層涵義。① IR聯盟的構建。其側重于沒有IR實體建設經驗的機構按照某種合作(如地域、學科等)關系,以事先按調研和建設目標制定的建設方案開展并實施IR聯盟的構建。② IR聯盟化。其側重于已有IR實體建設經驗的機構按某種利益和聯系,并依托已有技術經驗和實力不斷吸納相關新機構加入,以實現各機構間知識資源的整合、交換與共享。[8]
(5)陳慧香等認為IR聯盟是指兩個及以上高校、研究所與相關機構以合作協調的形式,將聯盟內各成員的資源與科研成果以構建共享IR群和提供統一數字化服務為目的而進行整合,最終實現不同成員間資源的共享與利用。[9]
從上述學者們的定義可知:① IR聯盟的成員數至少兩個;② IR聯盟是以自愿合作、相互協調的方式構建;③ 目的是降低各成員的成本投入,實現成員間資源整合與共享、經驗分享和統一數字化服務;④ 最終實現各成員資源的最大化傳播和利用。
IR聯盟構建模式是指構建IR聯盟所采用的程序及方法,包括構建目標、政策框架、構建流程、組織方式、管理機制及功能定位等,目前IR聯盟的構建模式主要有以下四種。[6,7,10-13]
(1)集中存儲式IR聯盟。指聯盟機構成員都直接將自己所擁有的元數據與內容提交到整個聯盟所建立和擁有的唯一服務器上,并通過統一的服務平臺進行管理和提供各項服務(包括作為數據提供方為其他服務提供方提供元數據采集服務)(見圖1)。集中存儲式IR聯盟的優點是能有效解決單個IR建設的弊端,降低各機構參與IR建設的成本,避免不必要的重復建設,實現運營成本和利用兩方面的“規模性”效益,并在技術標準及服務等方面實現統一性,有效控制IR內容的質量,便于內容元數據的分布式協調統一管理和最大化開放存取。集中存儲式IR聯盟的不足主要表現在:① 因各機構發展現狀及趨勢不一致導致IR政策制定及實施效率偏低;② 因集中存儲式IR聯盟無法體現各機構的品牌效益而缺乏歸屬感,從而制約各機構內容的提交;③ 易引發多方面(如貢獻率或利用率是否均衡、投入產出比是否合理等)矛盾而影響集中存儲式IR聯盟的可持續發展;④ 因文化及管理方面的差異性導致建立全國或全球范圍的集中存儲式IR聯盟缺乏可行性。

圖1 集中存儲式機構知識庫聯盟
(2)分布式IR聯盟。指聯盟機構成員均在構建屬于自己獨立IR的基礎上,以聯盟形式構建一個統一分布式檢索服務平臺,數據和資源本身仍以分布式的方式存儲在各機構的IR中(見圖2)。分布式IR聯盟的主要優點是在保持各成員品牌標志及個性化的同時實現資源的最大化開放存取等;主要缺點是檢索效率低、不一致問題多等。

圖2 分布式機構知識庫聯盟
(3)分布采集式IR聯盟。指聯盟機構成員均在構建屬于自己獨立IR和檢索平臺的基礎上,以聯盟統一規劃發展要求構建聯盟統一檢索服務平臺,并從各成員獨自管理的IR中將元數據(原始數據仍保留在各獨立IR中)采集并存儲到聯盟中心搜索數據庫里,數據和資源本身仍以分布式的方式存儲在各機構的IR中,其與分布式IR聯盟的主要區別是分布采集式IR聯盟需要將分散在各獨立IR中的元數據采集并存儲在聯盟的中心元數據庫中(見圖3)。分布采集式IR聯盟的優點主要有:① 各成員IR構建技術與實踐經驗的共享有利于加快無IR成員的IR構建;② 聯盟只負責宏觀政策指導,各成員高度自治,利于各成員按自身發展規劃進行IR政策的制定與管理;③ 便于各成員個性化發展自身IR特色,保留其品牌標志和效率;④ 擴大各成員成本資源來源渠道,緩解成本投入壓力。分布采集式IR聯盟的主要缺點是聯盟成員的高度自治性導致各成員獨立IR建設存在不一致性,主要表現為:① 分布式IR聯盟強調成員高度自治性而非強制要求統一軟件,從而導致IR應用軟件系統不一致;② 因各成員IR應用軟件系統不一致而導致元數據標準應用不一致,并需要在統一跨庫檢索時進行元數據轉換;③ 因聯盟只負責宏觀政策指導而會導致各成員在自身發展規劃背景下制定不一致的政策與管理策略,從而對IR內容質量等造成影響。

圖3 分布采集式機構知識庫聯盟
(4)集中存儲和分布采集相結合的IR聯盟,又稱為聯合式IR聯盟,是指由多個機構或特定部門間按某種協議或聯合組織等方式構建的IR聯盟,既通過集中提交方式聚合資源,又通過分布式采集方式收集元數據(見圖4)。聯合式IR聯盟的主要優點有:① 降低成員的IR構建成本;② 保留集中存儲式成員的品牌標志和效率;③ 便于加盟成員依據自身發展規劃有選擇地采取不同的加盟方式,利于成員的差異化發展等。聯合式IR聯盟的最大缺點是效率不高和不一致性問題多。
同時,渠芳還提出了一種基于SaaS理念的能避免集中存儲式IR聯盟數據冗余、混亂和分布采集式IR聯盟高成本等弊端,以及滿足用戶學術交流與個性化需求的IR聯盟構建模式(見圖5)。[14]

圖4 聯合式IR聯盟

圖5 基于SaaS理念的機構知識庫聯盟建設平臺的總體框架
(1)研究現狀。王穎潔在概述國內外IR聯盟發展現狀的基礎上,以陜西高校IR聯盟構建實踐為例,從建設基礎、建設意愿、建設阻礙因素、構建模式四方面深度剖析了區域性IR聯盟構建面臨的困境與解決方案,指出應在現有國內外區域性IR聯盟構建實踐經驗的基礎上,探索出一條適合我國國情的行之有效的區域性IR聯盟發展途徑。[15]崔曉西等采用問卷調查的方式全面分析了我國IR及IR聯盟的發展現狀,指出應把握IR聯盟發展趨勢以進一步促進高校IR資源的共享利用、挖掘潛在的高校資源并促進服務的創新。[16]黃筱瑾等概述了我國當前IR聯盟的建設現狀,指出我國IR聯盟的構建應從構建模式的最優選擇、建設政策的完善、爭取多方支持、優化人員結構和尋求可持續的資金保障等五方面來推進我國IR聯盟的建設與快速發展。[17]陳美華等從軟件系統功能、服務特性、組織模式和資金保障機制四方面全面概述了美國IR聯盟的建設現狀,指出應采取適合我國國情的IR聯盟構建模式(分布采集式與集中存儲式并行),發揮IR聯盟優勢以積極開發IR技術、經驗共享及平衡發展,構建有效地資金保障機制。[18]陳娜從構建模式、發展現狀及存在問題三方面全面剖析了我國高校IR聯盟建設現狀,指出應從完善政策框架、制定與強制性自存儲制度、構建資源質量保障機制以及妥善處理好知識產權四方面促進我國高校IR聯盟的建設。[19]周艷等深度剖析了國內外IR聯盟的研究現狀,構建了基于開放存取理念的IR聯盟模型。[20]陳慧香等從理論層面和實踐層面深度剖析了國內外IR聯盟的研究現狀和差異,指出未來應從IR聯盟模式的最優選擇、加強IR聯盟平臺的構建、拓展IR聯盟的服務功能、建立數據管理標準和規范以及支持聯盟數據關聯等五方面推進我國IR聯盟的發展。[9]邵波等在概述了國內外IR聯盟研究現狀的基礎上,指出未來應加強四方面的工作:統一數據交換接口;統一學者數據模型;建立數據管理標準;制定版權管理標準。[21]
(2)實踐項目介紹與分析。王文華從組織結構、技術結構和成本三個方面重點闡述了英國倫敦IR聯盟構建的典型項目:SHERPA-LEAP知識聯盟庫,指出IR聯盟的構建將有助于各成員機構節約成本,促進它們之間的資源共享、深度合作和跨學科新知識創新,并面臨各成員機構收錄內容不一致的新挑戰。[1]孟祥保從發展歷程、系統結構、服務功能以及管理策略四方面深度剖析了韓國全國性IR聯盟dCollection,指出應從建設模式、建設步驟、建設經費、資源建設內容、管理與使用等方面深入汲取其建設經驗,以聯盟方式加快我國IR的建設和學術資源的最大化開放存取。[2]渠芳從IR聯盟構建的可行性、服務內容、構建模式、運行機制四方面全面深入地剖析了徐州高校教學聯合體IR聯盟的建設經驗,指出我國應加快IR聯盟的構建,以促進IR的可持續發展。[6]傅曄從建設現狀、建設經驗等兩方面深入剖析了臺灣學術機構典藏(TAIR),指出應在汲取TAIR經驗的基礎上,從爭取相關行政主管機關重視與支持、發揮聯盟優勢實現IR技術與經驗共享、明確著作權方案實現先易后難、區別對待的建設模式、制定“自上而下”的強制性資源繳存制度等方面來構建省域級高校IR聯盟。[22]朱志伯等認為目前IR聯盟構建模式主要有四種:分布式模式、集中式模式、收割式模式和混合式模式,并深度比較了這四種模式的優缺點,然后從可行性和構建模式等兩方面闡述了南通高校聯合體IR聯盟的建設模式。[13]田麗君等從建設模式、建設規模和服務效果三方面深入剖析了芬蘭Doria和Theseus兩個IR聯盟,指出應以政府主導、項目拉動、統籌規劃,采取統一平臺、分散建設、集中呈現的建設模式,強化IR間資源共享力度與范圍,采取集中技術服務模式和企業化管理運營模式為IR聯盟的可持續發展注入生機與活力。[23]張鳳梅等從建設背景與措施等兩方面全面剖析了旅游院校五星IR聯盟的建設模式及意義,指出IR聯盟將通過提供統一的資源服務來提升資源被發現和利用的幾率,最大化的實現資源的共享及服務效率。[24]符敏華深入剖析了大陸CALIS與臺灣TAIR兩個IR聯盟之間的異同,指出應從資源建設的基礎環節、重要環節、增值環節和用戶粘度四方面加強大陸高校IR聯盟的構建。[25]
學者們還從應用領域、服務平臺、職能規范、風險管理、工作流模式、認證與授權等角度對IR聯盟進行了深入的剖析,如,都平平等從學科網資源聚合角度深度剖析了基于域的IR聯盟,指出域IR聯盟將促進資源的收割、共享及利用,為人才培養和學科建設提供更廣泛、更高效和更科學的服務;[26]周艷等深度剖析了國內外IR聯盟的研究現狀,構建了基于開放存取理念的IR聯盟資源知識整合服務平臺。[20]張麗娟等指出應從三方面規范IR聯盟職能和規避風險:形成基于“合理使用”角度的許可規范;完善許可協議中的款目字段及內容;深入挖掘使用許可協議跟其他環節的深層關聯。[27]司莉等深入探討了澳大利亞IR聯盟實踐項目——澳大利亞聯機研究儲(Australian Research Repositories Online to the World,ARROW),指出應在汲取其經驗的基礎上,從三個方面設計IR聯盟工作流:強調因庫制宜的設計理念;明確各參與主體的職責與分工;重視聯盟系統間的協同化發展。[28]司莉等以問卷調查的方式深度剖析了我國高校科研數據IR聯盟的構建需求,分析結果表明:① 權限和質量問題是高校人員收集他方數據的主要障礙;② 高校科研人員保存科研數據的方式以個人自存儲為主,但數據保存現狀不容樂觀;③ 高校機構知識庫使用率較高,但還未成為高校科研人員獲取數據的主要來源與共享數據的重要渠道;④ 高校科研人員對于科研數據機構庫聯盟有強烈需求,但對聯盟的發展前景不太看好。[29]馬建霞深度剖析了跨倉儲統一認證與授權系統Shibboleth,指出我國在構建IR聯盟時應充分考慮IR聯盟的訪問控制策略,盡量做到細粒度的、靈活的、可擴展的訪問控制。[30]司莉等從利益相關者理論角度將科研數據機構庫(Institutional Research Data Repository,簡稱IRDR)的角色主體劃分為研究人員、研究機構、數據管理與服務提供者、出版商、研究資助者、平臺管理者、外部用戶及政府八類。[31]
(1)從研究成果的情報來源看,檢索到的51篇學術成果中,有46篇載于學術期刊、4篇載于會議論文集、1篇為碩士學位論文。表明我國學者對IR聯盟的研究與實踐十分關注和重視,并取得了大量參考價值大的學術成果,同時其研究也出現了泛化趨勢。
(2)從研究作者群來看,我國IR聯盟研究領域已初步形成了以司莉、都平平、曾蘇等核心作者群和武漢大學、中國礦業大學、南京大學等核心機構對其進行持續跟蹤地深入研究與實踐,表明我國已初步形成了比較完備和穩定的科研人員及團隊對IR聯盟的持續性理論探討和實踐運用。
(3)從研究主題看,國內IR聯盟研究逐步從最初的理論層面(如國外研究現狀、最佳實踐項目分析、構建模式等)不斷向實踐層面(如外語院校IR聯盟構建實踐、旅游院校五星聯盟、高校IR聯盟CALIS)深入,研究內容也從最初的整體研究向如認證、授權、角色定位等更細化的層面轉化,從各方面為我國IR聯盟的發展提供有參考價值的研究成果。
(4)從研究主體看,國內IR聯盟的研究成果主要集中載于圖書情報類期刊,占總情報來源的84.31%,其中核心期刊數占總情報來源的58.82%,同時也出現了如學位論文、《南京醫科大學學報:社會科學版》《中國紀念館研究》等非圖書情報類情報源發表的研究成果,這表明我國IR聯盟的研究主體開始呈現泛化趨勢,也將吸引更多其他領域的研究者加入到我國IR聯盟的研究與實踐。
盡管我國IR聯盟在理論層面和實踐層面都取得了一定價值的研究成果和實踐經驗,但還存在如IR聯盟的定義未形成統一界定、實踐案例分析多但運用層面分析少、宏觀層面(如構建模式、構建策略、最佳案例分析等)分析多但微觀(如授權方式、認證方式、角色定位等)層面分析少等不足。筆者結合上下文分析認為,我國IR聯盟的研究未來應加強以下三個方面的研究。
(1)加強IR聯盟內涵的研究。目前,國內外還沒有對IR聯盟形成一個比較認可的、易理解的、利于實踐的統一認識和界定,這將不利于初涉IR聯盟領域的研究者、政策制定者和資金投入者對IR聯盟的理解和政策支持,同時也將阻礙我國IR聯盟的深入發展。因此,在對IR聯盟進行深入研究與實踐運用的同時,應該首先弄明白“什么是IR聯盟”、“IR聯盟的內涵”、“IR聯盟的優勢與挑戰”等,這樣才能更好地爭取各方面的政策支持、人才隊伍建設和資金保障等,從而進一步促進我國IR聯盟的深度發展。
(2)加強最佳實踐的引薦。IR聯盟作為一項實踐性強的課題,除了從理論層面進行研究以外,最重要的是要弄明白“如何做”的問題,如“采取什么樣的構建模式”、“采取什么樣的訪問控制策略及實現技術”、“采取什么樣的共享標準及元數據技術”等。因IR聯盟的理論研究與實踐應用都起源于國外,因此,國內在開展IR聯盟的研究與實踐時,可以優先學習和引薦國外IR聯盟的優秀理論成果和最佳實踐案例,以從中汲取有用的、利于國內IR聯盟研究與實踐的理論指導和實踐經驗,然后結合我國國情和IR聯盟發展現狀,探索出適合我國各領域的IR聯盟發展的路徑,以加快我國IR聯盟的深度發展。
(3)加強IR聯盟的實踐運用。我國IR聯盟雖經過近十年的研究,在實踐層面積累了一定經驗,但是還不夠深入和全面。IR聯盟本身實踐性較強,只有將IR聯盟的理論探討和已有實踐經驗不斷地運用在新的實踐中,才能更好地促進理論研究的深化和實踐經驗的優化,真正地促進我國IR聯盟的快速發展。