李 翹
(天津商業大學圖書館,天津 300134)
隨著計算機技術的普及和網絡科技的興起,圖書館館藏文獻逐漸向數字化和信息化過渡,與此同時,借助互聯網平臺的優勢,圖書館數據服務趨向“互聯網+”模式,數據的傳遞和共享突破了傳統館際或地域限制,開放數據的概念應運而生。就信息數據本身而言,圖書館的開放數據整合需要經過數據收集與分類、數據挖掘與處理及數據檢索和咨詢服務等環節,這些環節構成了圖書館開放數據整合的全生命周期。隨著圖書館開放數據的不斷完善和豐富,圖書館不僅要保證數據內容的專業化和多元化,還要保證數據整合的持續性和有效管理[1]。因此,基于全生命周期理論視閾下圖書館開放數據整合模式的研究,對于開放數據的數據層處理、技術層的共享創新及服務層的個性化推送具有深遠的意義。
開放數據理念的出現拓展和延伸了圖書館的服務范圍,繼目前二次信息廣泛共享之后,開放數據是以信息文獻為代表的一次共享模式,被納入圖書館資源共享的范疇,數據開放整合與共享成為當代圖書館發展的新方向[2]。在這樣的背景下,基于全生命周期理論的開放數據包括編目數據、科學數據、圖書館用戶數據和特色資源整合形成的數據等四個類型。
編目數據是指圖書館提供服務的核心數據,也是開放數據構成中最重要的一個類型。一般來說,圖書館的編目數據具有更新速度緩慢、生命周期較長等特點。編目數據從數據獲取到數據分類、數據挖掘環節,在實踐過程中往往會出現數據資源無法共享,或同一書目在不同館內被重復編目等情況[3]。因此,全生命周期理論視閾理論下圖書館對編目數據進行整合,不僅可以有效避免重復勞動,還有利于提高館藏資源的利用率。
圖書館開放數據中的科學數據是指圖書館在參與科研活動的過程中形成的原始資料,如各類圖書活動的統計分析數據、調查數據和實驗數據等。我國公共圖書館從單一的文化資源交流中心功能定位不斷向創新型、科研型轉變,因此,越來越多的圖書館積極創新服務模式和服務內容,為用戶提供科研服務,進而產生了大量的科學數據。如果這些科學數據沒有及時被保存和妥善處理,就會給圖書館的科學研究工作及用戶帶來嚴重的后果。全生命周期理論下的科學開放數據整合主要通過建立和提交數據存檔的方式,實現數據整合的完整流程,建立豐富的科學數據倉儲,推動圖書館功能定位的轉型[4]。
圖書館用戶數據是指用戶在使用圖書館主頁進行注冊、登錄、檢索、咨詢的過程中產生的瀏覽痕跡,如數據資源和數據鏈接的查找痕跡。我國大多數圖書館都建立了自己的主頁和社交賬號,用戶只要登錄主頁,就可以進行自助式操作。全生命周期理論視閾下圖書館可全面了解用戶的個人信息和閱讀偏好,將用戶使用圖書館的行為形成大數據庫,以便今后為其提供更具針對性的服務,以及有效解決目前圖書館服務存在的采訪單一化和價值密度低等問題[5]。但是,由于圖書館用戶數據涉及用戶的隱私,圖書館在開放數據整合過程中應注意保護讀者隱私。
由于地域和歷史的不同,圖書館往往館藏有大量特色資源,基于特色資源整合形成的數據是提高圖書館開放數據整合區分度的關鍵。如:2016年,上海圖書館計劃將館藏的17余萬種盛宣懷檔案資料進行數據整理和加工,并利用互聯網為用戶提供數字人文服務[6]。圖書館可充分利用大數據挖掘技術及可視化等交互式數據處理技術,實現數據的重組和開發,清晰展現圖書館數據資源的優勢。全生命周期理論視閾下圖書館構建的特色開放數據庫不僅有利于滿足用戶的閱讀需求,還能進一步推動個性化推送服務的完善。
圖書館開放數據的整合與構建受多方面因素的制約和影響,全生命周期理論視閾下圖書館開展開放數據整合工作,對其基礎設施、軟件技術、工作人員等都提出了較高的要求,強調數據整合組織結構的可靠性和完善性[7]。
全生命周期理論視閾下圖書館開放數據整合模式結構中的數據層包括編目數據、科學數據、網頁數據、讀者用戶數據和特色數據等,在軟件系統和硬件設備的支持下,圖書館將這些數據整合到圖書館數據庫中,并與機構外的數據系統進行互聯。圖書館還可根據元數據、原始數據、推導數據等編目規則,對這些數據進行分類整合,并利用數據挖掘和關聯技術,深度挖掘開放數據的內在聯系,將兩個或兩個以上類別開放數據產生的直接或潛在的信息推送給用戶,進而提高其開放數據整合的精準度和共享程度[8]。
全生命周期理論視閾下圖書館開放數據整合模式的技術層主要指對數據內容的獲取、挖掘、歸類等操作。在數字化時代,數據信息繁多,圖書館只有規范有序地對它們進行整合,才能發揮它們的實際作用。實際上,數據的高速緩存器是提高圖書館開放數據整合效率的關鍵。圖1是全生命周期理論應用于圖書館開放數據整合技術層面的示意圖,從圖中可以看出,圖書館數據庫是對外共享的,當圖書館收集開放數據時,應對數據進行初步的挖掘和檢索,尋找數據內部的有效信息,形成數據間顯性或隱性的聯系。圖書館還應對開放數據進行標注和分析,評價數據的價值,并對開放數據進行歸檔和儲存。圖書館可利用Open API服務器和開放數據倉庫技術,形成統一、開放的數據檢索平臺,以滿足讀者的檢索和閱讀需求[9]。

圖1 開放數據整合技術層面示意圖
圖書館開放數據整合的服務層是全生命周期理論的終端環節,是數據從初始狀態轉變為成熟狀態的體現。圖書館建立開放的數據共享平臺,為用戶提供多元化的數據采集、編目、轉換、存儲和更新的生命周期服務,這也是開放數據平臺進行數據維護和替換的過程。圖書館會根據實際情況調整數據生命周期的長短,如:美國霍普金斯大學圖書館為了提高數據應用的時效性和效率,為該校用戶提供20GB的數據儲存空間,針對個人用戶的數據清空生命周期為5年,圖書館數據庫的學科數據更新率則保證每年不低于3%[10]。目前,我國圖書館的開放數據服務主要集中在數據挖掘和數據關聯等方面,關于開放數據的傳輸服務、存儲年限等還沒有形成統一標準,需要圖書館工作人員在實踐中不斷探索和完善。
目前,我國各級圖書館已經逐漸意識到開放數據整合的重要性及全生命周期理論應用的適用性,且開始在開放數據的整合過程中進行實踐與創新。全生命周期理論為圖書館開放數據整合模式帶來了新的機遇和發展方向,可提高開放數據的利用率,促進圖書館開放數據的功能轉型。
全生命周期理論強調技術交易過程的生動、完整和鮮活,在全生命周期的各個階段,所需要的配置和外界條件都是不盡相同的。全生命周期理論視閾下圖書館在進行開放數據整合工作前,需要與相關組織和研究人員進行協商,構建科學的開放數據整合機制,制訂完整的開放數據整合計劃,只有在做好前期準備工作的前提下,才能有條不紊地進行開放數據整合工作。
圖書館是開放數據的管理機構,應對其進行有效管理。圖書館應按照開放數據的整合計劃和標準,利用相關技術對數據進行組織和信息挖掘,完成相應的開放數據信息挖掘與關聯環節。全生命周期理論視閾下圖書館還需要加強開放數據整合技術層的建設,由館員根據開放數據整合的實際情況,制定開放數據的保存策略和倉庫建設標準,以保證后期開放數據的有效儲存與共享[11]。
在數字化高度發達的時代,數據信息時刻處于動態的變化中,圖書館的開放數據整合工作不是一蹴而就的,而是要遵循全生命周期理論規律,緊跟信息時代發展的步伐,逐步完成開放數據整合的新陳代謝。目前,隨著我國技術水平的不斷提高,緩存器讀寫速率不再是限制開放數據整合的瓶頸,開放數據的保存措施也日趨完善,數據安全得到了保障。為了進一步提高開放數據的再利用率,圖書館應制定開放數據的長期保存規則,為開放數據的可持續發展奠定良好基礎。同時,圖書館還應避免開放數據的重復整合,促進開放數據的再次利用,不僅可節省人力、物力,還有助于新舊數據的銜接和信息關聯的深層次挖掘[12]。
在全生命周期理論中,一個階段工作的結束意味著下一個階段工作的開始,也為下一個階段工作積累了經驗教訓。每一個階段的數據是否準確、數據信息挖掘是否完善都關系著開放數據整合的質量,也影響科研活動的進展,因此,圖書館應對開放數據的整合過程進行實時監控。由于開放數據整合并不是靜態的,當圖書館的開放數據庫每增加或減少一條數據信息時,相關的數據挖掘和數據關聯都會產生變化,這給館員及時準確地評估數據參數帶來困難。因此,館員只有具備較高的數據素養和專業的管理知識,才能及時有效地解決問題。
圖書館的開放數據是在開放獲取運動的實踐過程中應運而生的,開放數據是信息共享的新形式,也是圖書館文獻資源建設的新趨勢。因此,圖書館應該抓住時代機遇,順應開放數據整合和共享的趨勢,結合全生命周期理論創新變革服務模式,積極應對來自多方面的困難和挑戰。