●齊惠穎 1,2a,2b,徐樹維 2a,2b(1.北京大學 醫學部計算機教研室,北京 100191;2.中國
科學院 a.國家科學圖書館,北京 100190,b.研究生院,北京 100049)
從上世紀90年代末開始,圖書館引進的電子資源數量激增,隨著電子資源在品種和數量上的不斷增長,電子資源的管理問題日益突出,電子資源的采購過程復雜、授權管理的版權問題以及電子出版市場的多種商業模式都增加了電子資源管理的復雜性。因此,電子資源管理系統(Electronic Resource Management System,簡稱ERMS) 成為近年來數字圖書館領域的一個重要研究課題。數字圖書館聯盟(DLF) 對電子資源管理系統(ERMS) 的定義是“電子資源管理系統應提供電子資源的選擇、評估、訂購、維護等相關信息和工作流程的管理,并在此基礎上根據商業協議和授權規定為讀者提供有效的資源獲取方式”。[1]MIT大學圖書館的Ellen Duranceau將電子資源管理系統定義為“對于引進電子資源館藏的許可協議、相關管理信息、內部處理過程進行管理的工具”。[2]
目前,市場上的ERMS數目比較多,由于開發商不同,系統的功能側重點也有所不同。按開發商的不同,ERMS分為以下幾類:
一類是資源提供商開發的系統,這類系統大都以處理期刊為主,出版商既提供軟件,同時也維護數據,所有數據一般都放在出版商處,或者由圖書館上載到OPAC中,出版商提供數據的更新信息。這類系統功能相對簡單,對于許可管理、集團引進等方面涉及不多。代表性的系統有Proquest的Serial Solutionss[3]、Harrassowitz的 HERMIS (Harrassowitz Electronic Resource Management and Information solutions)[4]、TDNet開發的TERM(TDNet Electronic Resources Manager)[5]和 EBSCO 的 ERAM(E-Resource Access&Management)[6]等。
一類是ILS開發商開發的系統,雖然不同廠商的產品在功能上有些差異,但是基本上都主要服務于電子期刊管理的整個流程。目前比較成熟的產品有ExLibris公司的Verde,[7]這類產品大都可以獨立安裝使用,也可以與資源提供商開發的其它產品一起配套使用。
另外一類是圖書館自行開發的ERMS,這類系統在功能上主要是為滿足自身的需要,側重點各不相同,其中比較有代表性的有美國麻省理工學院開發的VERA(Virtual Electronic Resource Access)、賓夕法尼亞州立大學開發的ERLIC(Electronic Resource Licensing and Information Center)、耶魯大學開發的Social Science Libraries and Information Services[8]等。國內有北京大學圖書館自行開發的ERMS。[9]
還有一類是開源代碼,比較有影響的系統有霍普金斯大學圖書館開發的HERMES(Hopkins Electronic Resource Management System),[10]系統的功能基本與管理電子資源生命周期的工作流程相一致,包括認證、選擇、采訪和編目、報告生成等模塊。另外一個是加拿大的西蒙菲沙大學圖書館開發的CUFTS,[11]該系統提供電子資源管理、全文獲取、期刊數據庫的瀏覽搜索服務、資源對比、報告輸出、MARC記錄生成等功能。
由于出版商和集成商提供的電子資源無論是選擇、評價、獲取還是維護過程,都比傳統的印刷資源復雜得多,因此ERMS對電子資源的管理也有一套獨特的管理模式。對電子資源的管理是建立在知識庫之上的,知識庫是整個系統的基礎,知識庫的建設問題也是系統首要考慮的問題。另外,系統之間的互操作以及ERMS的智能統計分析也是系統的關鍵所在。
知識庫存儲的內容是在線出版商、數據庫商和代理商的信息,包括數據庫收錄期刊情況以及收錄期刊的詳細信息,電子資源的鏈接內容、覆蓋范圍、管理和描述性的元數據,數據庫和期刊的對應關系等。知識庫提供了一系列規則,知識庫動態更新各種電子資源的信息,同時知識庫向外提供服務,接收用戶傳來的元數據信息,為用戶提供最合適的服務。
知識庫的構建通過網絡爬蟲來實現。由于期刊數據庫將收錄的期刊信息在其網站上全部列出,而Web頁面通過結構化的HTML標記來控制頁面的布局和顯示,其中有很大一部分的信息表示是通過表格或重復性結構的形式發布的,因此文本中含有大量的超文本標記和超鏈接。通過分析HTML文檔的結構歸納出每個提取域統一的定界符,找到其排列的規律;通過編寫網絡爬蟲解析網頁文件,根據需要來提取元數據,實現知識庫自動初始化并對知識庫進行增量更新。
網絡爬蟲構建知識庫的工作流程:首先由網絡爬蟲根據初始URL選擇,從Web中抓取期刊信息頁面,然后對抓取到的頁面進行分析,提取相關內容并將提取結果信息送入知識庫。
使用網絡爬蟲對知識庫內容進行初始化,首先要分析數據庫網址,抽取出期刊列表所在網址和端口號,若無端口號則設為HTTP默認端口80。然后判斷該站點的連接方式設置,若設為直接連接,則與該地址和端口建立網絡連接;若設為穿越Proxy連接,則與指定的Proxy地址和端口建立網絡連接。接著讀取頁面的內容,分析該頁面的html代碼,根據分析的規律構造一個抽取器來遍歷節點,提取需要的元數據內容,同時需要分析其中的鏈接,并對鏈接中的URL進行必要的轉換。
HTML的語法分析通過編寫代碼擴充HTMLEditorKit.ParserCallback類來完成;或利用HtmlParser開源工具,HtmlParser是一個對現有的HTML進行分析的快速實時的解析器,免費提供多個包,每個包中又包含多個類,如各種標記類、過濾類等,可以方便地進行文本、標記等的相關處理。[12]
對期刊元數據信息的提取采用基于正則表達式定義好的提取表達式來進行。對鏈接的提取首先通過分析頁面URL中的文件擴展名來判別頁面類型,然后遇到帶有鏈接的標記如 〈A〉,〈AREA〉,〈FRAME〉等,就從標記結構的屬性中找出目標URL,并從成對的該標記之間提取出正文,這兩個數據就代表了該鏈接,通過分析鏈接得到指向所有具體期刊的鏈接集合。
ERMS不但要接受出版商、期刊代理商等多個數據源的信息,同時又要向圖書館自動化系統、跨庫檢索系統、資源門戶等服務系統輸出數據,因此要實現ERMS與相關系統的數據共享和互操作。由于各個系統采用不同技術架構、不同的數據庫和不同的訪問接口,目前比較成熟的系統之間互操作的方案有Web Service、LADP、OpenURL等技術實現統一資源訪問。下面重點敘述ERMS與OPAC、鏈接服務器的集成方案。
(1) 與OPAC系統集成
ERMS與OPAC書目信息集成的實現方式是在MARC記錄里增加856字段—“電子資源地址與存取”字段,用于記錄被著錄的數字資源的存取地址和存取方式。若ERMS與不同的異構OPAC數據庫的整合,則采用Z39.50協議來完成,通過內嵌Z39.50客戶端模塊,建立與各個Z39.50服務器的連接,提交檢索式,獲取檢索結果。
(2)與鏈接服務器集成
通過OpenURL與鏈接服務器的整合,OpenURL標準允許描述性元數據和標志符從鏈接源到鏈接服務器之間傳送。根據OpenURL框架,用戶執行檢索和瀏覽操作,鏈接解析器接收傳送來的OpenURL,從中析取出元數據;根據這些元數據與知識庫中所提供的資源服務等信息的比較分析,得到符合這些元數據信息的可用的擴展服務;然后根據知識庫中的構造規則構造這些擴展服務的鏈接,并將這些鏈接集中在一個頁面提供給用戶。OpenURL可以建立起與多種學術信息源的鏈接,實現全文獲取,提供了對不斷增長的信息資源無縫互鏈接。
由于數據庫容量龐大,一個大型外文期刊數據庫通常收錄幾千種期刊,同時部分數據庫之間的內容存在交叉重復,傳統的期刊選擇方法顯然很難滿足數據庫評價的需要。此外對電子資源的使用情況和成本的分析,也對電子資源的購買提供了非常重要的依據,因此,提供智能分析工具,自動生成電子資源的分析報告,是ERMS的一項非常重要的功能。
COUNTER(CountingOnline Usage ofNetworked Elec-tronic Resources)[13]方案掌握下載次數、檢索次數等標準化數據。OUNTER第2版目前已成為網絡電子資源在線使用統計的標準和規范,是電子資源使用統計與測量的工具,目前大多數出版商或服務提供商(例如:EBSCO、ProQuest、Elsevler等) 都提供符合COUNTER規范的統計報告。由于從不同的Web站點收割COUNTER報告是一項非常耗時的工作,ERMS通過在線自動收割的方式獲得不同數據庫的COUNTER統計分析數據,其實現通過SUSHI協議,[14]該協議是一個標準的客戶端/服務器的Web服務SOAP協議。SUSHI采用自動請求ReportRequest和自動響應Report Response方式,通過Web Services下載XML格式的COUNTER使用統計分析數據。
統計報告分析的實現可以基于開放源碼軟件——JURO[15](Journal Usage Report Online),JURO 是香 港科技大學圖書館開發的用以分析紙本與電子期刊使用狀況的統計分析軟件。JURO從兩方面取得期刊使用狀況,一是來自數據庫廠商的符合COUNTER規范的使用記錄,另一方面是來自圖書館自身的期刊使用記錄,將兩種期刊使用狀況和圖書館自動化系統的書目、登錄及采購紀錄結合根據使用者喜好產生不同的統計報表。
自從2004年“ERMI”[16]標準頒布以來,ERMS得到了快速的發展,隨著ERMS產品的逐漸增多和廣泛使用,圖書館對ERMS又提出了更高的要求。以下幾個方面的內容將是未來ERMS的主要發展方向。
ERMI的一系列研究成果為ERMS提供了很多重要的參考標準,為ERMS的發展起到了很好的規范作用,但是ERMS的標準還不全面,ERMI對電子資源生命周期的工作流程標準沒有更為詳細的規定,由于電子資源在整個生命周期中的各項紀錄信息是從不同數據源(如:出版商、期刊代理商)接受來的,只有指定標準的數據格式,才有利于電子資源生命周期工作流的管理。
在資源集成方面,目前ERMS的功能主要是對數字使用權的電子期刊的管理,但是圖書館的電子資源還包括電子書、圖書館自己加工的電子資源、機構知識庫(IR)等,目前圖書館對不同的電子資源分別用各自獨立的系統分別管理。ERMS進一步發展要考慮把圖書館所有的電子資源都納入到ERMS中來,形成一個統一的管理平臺。在管理模式集成方面,ERMI對電子資源的管理流程是針對單個機構定義的,對多分館聯盟模式的管理流程沒有定義標準,而多館聯盟方式比單一圖書館的ERMS要復雜的多,采購、許可等多個流程都有很大的不同,因為ERMS要區別共享電子資源、電子資源的許可程度以及用戶的使用范圍,同時還要區別管理每個成員館獨享的電子資源。將聯盟管理功能集成進來,使ERMS能夠根據圖書館的實際情況靈活選擇管理模式。
隨著ERMS基本功能的日趨完善,為提高日常管理的工作效率,需要將一些由手工輸入的操作變為自動處理。在許可方面,ERMS下一步的發展目標是通過一個標準的協議在出版商和ERMS之間傳遞許可數據,使用ONIX[17]定義的XMLschema圖書館和數字出版商之間可以交流數據,ERMS應有一個基于Web-services的請求和響應模塊,能夠實時請求許可或試用的電子資源的描述格式。在IP登記和激活方面,下一代的ERMS應該有一個IP登記模型,當IP注冊后,通過制定一個簡單的激活機制,所有的資源提供商都可以通過該機制自動激活IP,這樣不僅避免了一些由于資源提供商管理IP不當而產生的錯誤,同時也全面提高了工作效率。在使用故障報告方面,應該建立電子資源的使用故障的自動發現機制,然后根據電子資源的提供商信息自動發布給資源提供商。
ERMS的快速發展表明,ERMS是實現圖書館現代化管理不可缺少的工具。雖然目前國內外的多種ERMS功能側重點各不相同,在系統的管理模式、系統的集成程度等方面也各有側重,但是基本都是針對電子資源生命周期的管理。隨著各種相關標準的相繼出現,下一代的ERMS的解決方案將會更加完善,必將大大提高電子資源的管理效率。
[1]ElectronicResourceManagementReportof theDLFERM Initiative[EB/OL].[2008-01-02].http://www.diglib.org/pubs/dlf102/,
[2]Duranceau,Ellen.Electronic Resource Management Systems,Part II:Offerings from Serial Vendors and SerialDataVendors[EB/OL].[2008-11-02].http://dspace.mit.edu/handle/1721.1/18190,
[3]360 Resource Manager[EB/OL].[2008-11-02].http://www.serialssolutions.com/ss_360_resource_manager.html.
[4]HARRASSOWITZ Electronic Resources Management andInformationSolutions[EB/OL].[2008-11-02].http://www.harrassowitz.de/subscription_services/hermis.html.
[5]TDNete-Resource Manager[EB/OL].[2008-11-02].http://www.tdnet.com/site/upload/files/TDNet_RM(2).doc.
[6]E-Resource Access&Management Services[EB/OL].[2008-11-02].http://www.ebsco.com/home/ejournals/ejsintbro.pdf.
[7]Verde[EB/OL].[2008-11-02].http://www.exlibrisgroup.com/verde.htm.
[8]A Web Hub for Developing Administrative Metadata for Electronic Resource Management[EB/OL].[2008-11-02].http://www.library.cornell.edu/elicensestudy/webhubarchive.html.
[9]馬芳珍,等.電子資源管理系統的分析和設計[J].現代圖書情報技術 [J],2007(2):82-85.
[10]Hermes[EB/OL].[2008-11-02].http://hermes.mse.jhu.edu:8008/hermesdocs/.
[11]Cufts[EB/OL].[2008-11-02].http://cufts.lib.sfu.ca/.
[12]HTMLParser[EB/OL].[2008-11-26].http://htmlparser.sourceforge.net/.
[13]About Counter[EB/OL].[2008-11-02].http://www.projectcounter.org/about.html.
[14]StandardizedUsageStatisticsHarvestingInitiative (SU SHI)[EB/OL].[2008-11-02].http://www.niso.org/workrooms/sushi.
[15]JURO:Creatingthe Journal Usage Report Online System[EB/OL].[2008-11-02].http://hkiug.ln.edu.hk/meetings/am2005/presentations/9-juro.ppt.
[16]DLF Electronic Resource Management Initiative[S].[2008-11-15].http://www.diglib.org/standards/dlferm02.htm.
[17]ONIX for Serials[J/OL].[2008-11-02].http://www.editeur.org/.