

摘 要 資源發現系統近年來在國內外圖書館發展迅速,論文針對目前公共圖書館資源發現系統的應用現狀,以及技術發展對資源統一發現系統的推進,結合上海圖書館資源發現系統的運行以及維護情況,介紹了公共圖書館資源發現系統目前存在的應用問題,探討了資源發現系統改進發展的方向。
關鍵詞 資源發現 知識發現 發現服務 資源發現系統 公共圖書館
分類號 G254.92
DOI 10.16810/j.cnki.1672-514X.2019.04.016
Abstract The resource discovery system has made rapid development at domestic and overseas libraries in recent years. This paper presents the current application situation of the resource discovery system in public libraries, and the advancement of technology development to the unified resource discovery system. Combined with operation and maintenance of resource discovery system in Shanghai Library, the existing problems of the resource discovery system of the public library and the direction of the future development of the discovery system are discussed.
Keywords Resource discovery. Knowledge discovery. Discovery service. Resource discovery system. Public library.
2009年,基于全網域的資源發現服務(Web-Scale Discovery Services)引入圖書館[1],用來揭示館藏資源。該系統基于海量的元數據集合,具有技術的先進性和檢索界面易用性等優勢,可以對圖書館自建和外購資源統一發現和獲取。截至2016年,國內985高校圖書館資源發現系統的覆蓋率已達到100%[2],但是,省級公共圖書館對此類發現系統的使用還比較少。上海圖書館作為全國首家嘗試在公共圖書館提供發現服務的機構,于2013年開始探索發現系統在公共圖書館的應用,并于2014年上線了“上圖發現”,實現了基于元數據的館藏數字資源和書目資源的統一檢索。經過三年多的服務應用,上海圖書館在積累經驗的同時,也在使用過程中發現了一些問題。對此,本文將結合上海圖書館資源發現系統的運行及維護情況,介紹公共圖書館資源發現系統在應用中存在的問題,并探討未來公共圖書館資源發現系統的改進和發展方向。
1 公共圖書館資源發現系統應用現狀
美國圖書自動化專家Marshall Breeding對發現產品的定義為:“發現產品包含一個面向用戶的圖書館資源查找界面,并通過適當的機制使用戶獲得感興趣的條目。發現產品往往與特定的圖書館資源管理應用程序無關,如圖書館集成系統、圖書館服務平臺、數據倉儲或電子資源管理系統等。在大多數情況下,它們可以訪問各種類型的資源,獨立于管理平臺。發現產品提供了一個具有搜索和檢索功能的接口,通常具有基于搜索結果的相關性排序功能,可以根據特定類別、著者或日期范圍限定結果的分面。發現產品使用合法的訪問授權、內容類型和許可的機制來提供對資源的訪問。這些機制包括識別資源當前的物理位置和狀態,以提供連接、直接瀏覽或下載文章、章節、電子書,或其它電子文本,并提供數字圖像或多媒體內容。發現產品也可以具有社會特征,使圖書館的用戶可以評論、評價或推薦分享,與其他用戶進行動態交互”[3]。目前主流的發現服務產品和公司包括EBSCO Discovery Service(EBSCO)、Encore Discovery Solution(Innovative Interfaces)、Primo(ExLibris, a ProQuest Company)、Summon(ProQuest)、Worldcat Local(OCLC)、Enterprise(SirsiDynix)等[4]。Marshall Breeding的 《Library Technology Reports》 曾對美國、英國、加拿大、澳大利亞等地區的396家圖書館進行了資源發現系統的問卷調研,其中包含96家公共圖書館,對于發現產品的總體性能的滿意程度,以及用戶界面的友好性均值最高的是EBSCO Discovery Service(EDS),館藏揭示的全面性得分最高的是Worldcat Local,相關性排序結果的有效性得分最高的是VuFind[5]。
目前,國內23個省級公共圖書館中,遼寧省圖書館使用Primo資源發現平臺,山東省圖書館使用百度知識發現,吉林省圖書館和南京圖書館使用超星發現系統。直轄市公共圖書館中,首都圖書館、重慶圖書館使用Primo發現平臺,上海圖書館使用EDS(FIND+) 本地化的資源發現平臺。國家圖書館沒有使用商業化的成品軟件,而是采用了分布式系統架構和大數據技術開發了“文津搜索”系統,比起商業軟件系統架構更加靈活,可擴展性好[6]。
2 技術進步對資源統一發現系統的推動
資源發現系統基于元數據的整合檢索,從架構上被認為是早前聯邦檢索的替代產品,聯邦檢索在資源檢索時實現多個庫的同時跨庫檢索,主要限制因素是缺少結果的相關性排序,檢索結果返回需要較長的時間,以及減少了數據庫本地接口組件提供的搜索功能[7]。但是從另一個角度來看,聯邦檢索對于不便集成到資源發現系統里的數據可以實現初步的統一檢索和揭示。國外多家高校圖書館實現了基于Bento盒子展示的聯邦檢索系統,檢索結果采用多窗格布局模式,系統在發現服務平臺的基礎上,通過APIs(Application Programming Interfaces) 接口服務,實現同時檢索展示館藏目錄、數字資源、自建資源數據庫等內容,比較靈活地實現館藏所有資源的統一檢索發現服務[8]。
近年來,基于Web2.0功能的發現展示開源平臺也取得了較快的發展,目前比較流行的開源軟件平臺有Drupal、Vufind、Blacklight、Koha等,都可以實現檢索結果的分面顯示和Web 2.0功能。業內比較熟悉的Vufind平臺,最早被開發用來實現OPAC 2.0的相關功能,包含分面瀏覽、檢索結果排序、評論,以及第三方資源的嵌入等功能[9]。
隨著開源檢索系統、Web Services、APIs等技術的發展成熟,圖書館可以采用更加靈活的方式實現圖書館資源的發現服務[10],在網絡級發現服務系統架構(圖1)[11]的基礎上,通過建立一個以發現為目的的中心索引集和模型,促進構建更加健壯的、易擴展的、可互操作的、異構分布的發現系統。
舉例來說,EBSCO提供了EDS API接口服務,圖書館可以使用API接口來實現學術資源的發現服務,對于館藏資源、自建數據庫可以使用另外的商業發現平臺軟件,或是自建索引數據庫,而對于界面展示,可以使用發現系統的原生平臺,也可以使用開源系統,如EDS API(或其它發現系統的API接口)加前端展示平臺,可利用Drupal、Vufind、Blacklight、Koha等開源軟件實現,斯坦福大學圖書館的EDS API和VuFind的架構[12],印第安納大學圖書館EDS API和Blacklight的架構[13]即是如此。圖書館也可以自己搭建基于本地元數據檢索服務的Solr服務器實現排序,通過Vufind/Blacklight或其它平臺進行展示,如哥倫比亞大學圖書館元數據加Solr引擎加Blacklight的架構,實現了“Quicksearch performs a combined search”的組合檢索,可同時搜索館藏目錄(圖書、期刊、在線資源、視頻等)、電子資源(期刊、電子書、學位論文等)、學院公開(機構庫)、圖書館網站、地理數據(哥倫比亞地理空間數據集目錄)等,檢索結果分區塊顯示[14]。還有一種模式是新加坡國家圖書館的OneSearch系統,只有電子期刊資源使用了發現系統接口,其它所有館藏資源元數據通過Solr構建索引,圖書館自己完成與其它資源的整合、揭示和展現[15]。
此外,隨著移動通信信息技術的發展,實現了基于HTML5的頁面自適應功能,以滿足不同終端、移動用戶的訪問需求。通過Web Service服務,可以使發現系統獨立于圖書館集成管理系統。隨著技術手段的進步,通過更加靈活的系統架構實現發現系統的服務功能是未來發展的趨勢。
新技術發展的同時也推動了圖書館業務流程的重組。基于元數據的資源發現獲取首先要有一個有效的元數據收集管理平臺和數據管理人員。內容管理是關鍵,對于購買的學術資源數據庫,需要長期的跟蹤,并熟悉各類數據庫資源的情況。系統的構建整合也需要專業的技術支持團隊,現在很多圖書館已經采用外包模式,而外包團隊的穩定和技術能力至關重要。同時,還需要系統的長期維護人員,協調各個環節的數據和業務流程。如何提高系統的穩定性和適用性,采用高效的業務管理流程至關重要。
3 公共圖書館資源發現系統發展探討
3.1 “上圖發現”基本情況介紹——基于EDS的發現服務
上海圖書館2013年申報了“數字圖書館資源發現與服務平臺”項目,開始進行資源發現系統的選型評估,從技術因素、元數據質量和覆蓋率、全文獲取、功能性能和服務能力等多個方面進行考察評估[17],經過一年半的需求調研、資源整理、廠商測評、招標實施、平臺測試,于2014年7月開始試運行。該發現系統采用了EDS(Find+) 本地化的資源發現服務,當時主要考慮的因素是本地技術支持強,EDS元數據質量高,以及EBSCO數據庫的支持。
資源架構主要分為學術資源和館藏資源。學術資源分為外文學術資源(使用EDS發現服務)和中文學術資源(Find+中文發現平臺),按檢索關鍵詞來進行判別區分;館藏資源包含了館藏書目和數字閱讀資源(由Find+提供技術支持)。
(1)服務方式上,Find+的服務器在阿里云上,外文資源檢索是通過阿里云服務器將請求發送到美國EBSCO EDS云服務器,Find+阿里云服務器只傳遞檢索請求,檢索任務的完成都在美國服務器端。中文資源發現訪問的是Find+服務器群上的中文發現,包含維普萬方等元數據,通過一臺館內服務器跳轉,獲取訪問權限,全文鏈接使用的是官網資源。館藏書目元數據和自建資源(市民數字閱讀) 的元數據架構在上圖自有服務器上。
(2)檢索策略方面,對于已購資源盡可能全面地覆蓋;對于本館未購資源,發現與服務平臺提供元數據的,一并納入統一檢索。系統實現了館藏外文學術資源數據庫88%的覆蓋率,除了外文數據庫以外,還包含二次文獻數據庫、OA資源等;不包含光盤資源、專利、標準、參考工具、歷史文獻,以及不再更新的數字資源。中文學術資源由于元數據授權等問題,目前包含萬方和維普兩種學術資源數據庫。學術資源元數據根據每年館內資源新增和變化進行更新,館藏目錄數據定期更新。
(3)檢索功能包含了基本檢索、檢索結果排序、分面/聚類、高級檢索、相關檢索、二次檢索等功能,基本滿足了讀者的各類檢索需求;可進行全文下載,通過LinkSource鏈接全文;提供A-to-Z資源導航、RSS訂閱、檢索結果導出、郵件等功能。系統整合了上圖用戶認證接口,支持單點登錄,同時支持網上用戶注冊。用戶登錄一次后可訪問數據庫的全文,無需再次登錄。目前在局域網內登錄即可獲取全文,館外用戶獲取外文資源需要登錄VPN。
(4)“館藏目錄”部分包括OPAC的所有館藏書目數據,在揭示OPAC信息的基礎上,擴展提供封面、目錄、簡介等多種書目增值服務信息。此外,系統最初建設時,對“市民數字閱讀”的資源進行了整合,囊括了30余萬種來自方正、龍源、博看、新華e店、盛大等9家廠商的電子圖書、期刊、報紙等電子資源,在檢索結果中實現了“紙電合并”功能,能夠進行統一檢索。上海圖書館是國內首家大規模引入網絡文學的公共圖書館,在系統建設初期取得了不錯的反響。與盛大文學的合作,為讀者提供了包括數字圖書、網絡文學、數字報刊等數字商品,最多的時候收錄了盛大文學1.1萬種網絡文學作品。新華e店是新華傳媒打造的新華數字書店,品種覆蓋文藝、社科、生活、健康、文化、教育等各個類別,主打群眾喜愛閱讀的圖書品種,作品以近三年新書為主,部分圖書做到線上線下同步發售,最初包含3萬余種電子圖書。目前,由于兩家公司業務變更、資源調整,原先提供服務的“市民數字閱讀”的很多資源已經下架。對此,數字閱讀正在探索新的服務模式,以前“市民數字閱讀”資源考慮的是一次性導入的問題,今后將通過建設內容管理平臺EPUB,通過直接訪問接口或數據庫的方式提供更優質的服務。
3.2 “上圖發現”平臺運行維護情況以及存在的問題
“上圖發現”投入使用以來,系統經過了不斷的改進和優化,主要包含以下幾個方面。
(1) 中文檢索結果的排序優化,以及資源的合并去重。由于EDS平臺本身采用了優化的相關度排序,如同Google/Baidu等搜索引擎的做法,先經過詞頻/密度分析,關鍵詞鍵入后,再按命中檢索詞匹配主題詞、篇名/刊名、關鍵詞、摘要、全文等不同的權重計算進行排序。針對中文檢索結果出現的完全匹配的結果沒有排在第一頁的問題,經過優化后,采用默認“所有字段”,按檢索關鍵詞和標題完全一致的排第一,然后再按檢索關鍵詞在所有字段中出現的詞頻詞密度排序。
(2) 從原先A-to-Z期刊導航功能升級為Full Text Finder,新版本改變了原先的期刊分類方式,采用按主題劃分,并增加了智能補充拼寫功能。
(3) 還有一些細微處的用戶體驗改進,如檢索歷史默認為按時間順序排列,不方便用戶查看,優化后改為按降序排列。
“上圖發現”平臺使用過程中還存在諸多問題,包括:系統存在一定程度的不穩定性,服務器數據庫問題曾導致用戶收藏夾、檢索歷史內容丟失;緩存服務問題導致全文下載無法打開;云服務不穩定導致檢索結果為“0”等情況。此外,統計數據無法真實反映資源發現系統到各數據庫的鏈接使用情況,由于外文數據的訪問統計是根據訪問文章的詳細頁做的數據庫統計,名稱通常和所訂購的數據庫名無法對應。而EDS本身自帶的統計平臺,由于檢索的策略問題,數據庫訪問統計數據量非常大,對于同一個檢索會同時產生多次訪問,無法準確統計數據庫訪問的情況。平臺建設初期設想是通過資源發現系統中各類資源的使用情況來調整資源采購策略,但是館外獲取的外文全文數據庫資源有限,加上有的中文數據庫受版權限制不能通過元數據揭示,這些都導致了發現系統使用率不高,也缺乏具體數據庫訪問的統計數據,無法起到決策支持作用。
3.3 公共圖書館資源發現系統應用問題
(1)目前,館外全文獲取實現方式主要是通過VPN進行授權訪問,或是通過EZPROXY代理認證。使用VPN方式最大的問題在于只支持靜態IP數據庫,早前的ProQuest、Springer都采用了CDN加速服務,使用動態IP,對于這類資源VPN方式無法實現遠程授權訪問。此外,VPN對于系統環境的要求,以及首次使用需要安裝插件等操作影響了用戶的使用體驗。
(2)資源發現系統無法實現與圖書館集成管理系統的實時交互,存在數據滯后,以及系統缺少相關接口導致的功能實現方面的缺陷,書目檢索功能需要強化。
(3)所有發現系統的共同的問題是外文學術搜索不同來源資源的重復問題,目前還無法解決。由于發現系統是基于元數據的,直接揭示到期刊/文章,而圖書館已購數據庫中存在期刊重復問題,所以無法判斷期刊的來源數據庫,也無法為采訪部門提供相關的參考信息。
(4)對于專業的圖書館用戶和參考咨詢館員來說,查全并不意味著好用,需要進行判斷篩選,專業用戶往往更傾向于直接查找對應的數據庫,有針對性地找到所需要的資源。有研究表明基于全網域的發現服務比單個數據庫的效率要低[18]。
(5)發現系統廠商缺少必要的系統監督機制,用戶在使用過程中往往會發現很多問題,用戶體驗有待進一步優化。
3.4 上海圖書館下一代發現服務探索
上海圖書館新版網站主頁采用發現系統作為圖書館統一資源發現門戶,要提高系統的穩定性、健全性,以提供更好的用戶體驗。系統改進發展的主要方向有:頁面對移動終端的支持,實現響應式頁面設計;納入更多的館藏數字資源,包括全國報刊索引、歷史文獻資源等,實現自建資源的發現調整升級;對于沒有全文的資源,提供文獻傳遞服務;改變館外全文獲取的授權方式;完善統計分析功能。
EDS發現平臺外文及OA元數據資源豐富,相關性排序效率高,全文鏈接方式多元,包含EBSCOhost全文數據庫、智能鏈接SmartLink、DOI Crossref全文鏈接、出版社提供直接連接CustomLink、鏈接解析器Link Resolver等,目前發現系統可擴展的功能主要有:檢索結果集按照某個學科/主題進行定制、檢索詞學術趨勢分析、可視化展示、基于發現數據的學科推薦、按學科進行資源導航、表達式檢索功能等;提供開放的接口服務,如檢索框接口,用戶收藏、檢索歷史接口,交互認證接口等。EDS原生平臺在很多方面都做了嘗試,如提供相關主題擴展檢索,PlumPrint補充計量學指標統計,提供能夠預測讀者意圖、突出顯示內容和讀者互動的APPs,實現了全文鏈接的自動檢查,并與百度學術進行了整合(包含百度學術檢索結果推薦、全文鏈接和被引情況等),具備翻譯和建議詞表,實現了基于集團文獻傳遞的電子資源共享,可以進行引文檢索,以及基于Google Analytics、百度統計、PIWIK開源統計軟件的實時用戶訪問統計分析等。同時,平臺采用了HTML5技術,實現了頁面自適應功能,滿足了讀者在移動終端上的訪問。
在未來的發展過程中,為了實現更靈活的異構數據的整合揭示和發現展示,發現平臺可以僅提供作為學術資源元數據整合和檢索排序的支撐。圖書館可以使用開源軟件構建發現層,或者是購買商業軟件產品實現發現系統的檢索和展示;后臺除了自建、開放存取以及授權的元數據以外,還可以通過發現系統集成商提供的API接口調用實現元數據的統一檢索和獲取。圖書館可以根據自有資源建立索引數據庫實現資源的索引排序,也可以調用商業資源發現軟件產品的API接口,這種方式使得系統架構更加靈活,滿足圖書館各類異構資源的檢索展示需求。
作為上海圖書館新一代圖書館服務系統項目的一個組成部分,資源發現系統的定位是支持未來數據服務的基礎系統。如何利用好現有系統,實現更多的功能擴展,管理好數據,并將這些數據揭示給圖書館的各類用戶,系統如何架構,是當前要探討的主要內容。圖2是我們目前的一些設想,資源檢索可以使用成熟的發現產品,或是其提供的API接口,通過和本地Solr索引服務的整合,采用混合的、多層次的、更靈活的架構實現方式,實現各類異構數據的統一發現服務。在實現過程中,構建有效的資源索引發現服務和增強檢索結果的相關性排序是發現服務要解決的關鍵性問題。
4 結語
《中華人民共和國公共圖書館法》總則里提到:提高公共圖書館的服務效能,需要發揮科技在公共圖書館建設、管理和服務中的作用,利用好現代信息技術和傳播技術,提高圖書館服務質量和水平。公共圖書館發現系統面向大眾提供服務時,既要做好面向大眾的資源揭示服務,也要考慮專業用戶的需求,能夠提供按主題/學科的資源定制服務。在明確系統服務群體的基礎上,做好宣傳推廣工作,加強用戶的引導和交流,重視讀者服務中心等核心用戶群,定期進行推廣培訓。正如上海圖書館原館長吳建中先生所說:“各類系統的構建實施都要以更好地支撐圖書館服務為目的,通過技術創新、服務創新、手段創新不斷提升圖書館的服務效能。”
參考文獻:
GROSS J, SHERIDAN L. Web scale discovery:the user experience[J]. New Library World,2011,112(5/6):236-247.
陳芳.“985 工程”高校圖書館發現系統檢索功能調研分析[J].大學圖書情報學刊,2017,35(5):113-119.
Major Discovery Products[EB/OL].[2018-02-06]. https://librarytechnology.org/discovery/.
BURKE J J, TUMBLESON B E. Search systems and finding tools[R]. Library Technology Reports,2016,52(2):17-23.
BREEDING M. Library resource discovery products: context, library perspectives, and vendor positions[R].Library technology reports,2014,50(1):7,11,16,21.
張紅.基于大數據技術的資源發現平臺構建:以國家圖書館“文津搜索”系統為例[J].數字圖書館論壇,2016(1):61-67.
LI F, THOMES C. Implementing discipline-specific searches in EBSCO Discovery Service[J]. New Library World,2014,115(3/4):102-115.
劉偉成, MISCHO W, SCHLEMBACH M, 等.一種基于Bento模式的聯邦檢索系統[J].圖書情報工作,2017,61(19):113-121.
張平杉.開源OPAC 2.0:VuFind應用研究[J].現代圖書情報技術,2008,24(10):85-89.
BABU B P, KRISHNAMURTHY M. Library automation to resource discovery: a review of emerging challenges[J]. The Electronic Library,2013,31(4):433-451.
THOMPSON J. Implementing web-scale discovery services: a practical guide for librarians[M]. Lanham, Maryland: The Rowman&Littlefield Publishing Group,Inc.,2014:10.
Stanford libraries[EB/OL].[2018-01-23].http://library.stanford.edu/.
Indiana University Bloomington[EB/OL].[2018-01-23].https://libraries.indiana.edu/.
Columbia University Libraries[EB/OL].[2018-01-23]. http://library.columbia.edu/index.html.
OneSearch[EB/OL].[2018-01-23].http://search.nlb.gov.sg/.
張平杉,章偉煊.新一代開源OPAC系統比較研究[J]. 現代圖書情報技術,2011,27(2):21-28.
孫宇,張磊,劉煒.圖書館資源發現系統選型研究[J]. 圖書館雜志,2013,32(12):63-70.
LEE B, CHUNG E. An analysis of web-scale discovery services from the perspective of users relevance judgment[J]. The Journal of Academic Librarianship, 2016(42):529-534.