范家巧
20世紀末圖書館學界開始研究數字資源融合課題,重點以圖書館資源為研究對象,對數字資源整合問題進行探討,取得了較多成果。相關研究側重于數字資源整合目標、意義、內涵、功能、方式、環境等問題研究。大數據技術的出現和發展為數字資源整合帶來了新的機遇與挑戰。國外較早開展相關研究,研究內容多元化,理論成果豐富。國內外學術界共同關注大數據技術相關的數據挖掘、分析及處理技術,區別在于國外更關注基礎理論及技術方面問題,我國側重于具體的應用問題,探討分析大數據技術對不同行業、領域的影響以及應用方式[1-5]。數字資源融合是較受關注的領域,探討分析數字圖書館的資源融合與信息共享問題,雖然已經取得豐富的理論研究成果,但仍然無法從根本上克服數字資源分布分散性、建設重復性、利用水平低下等不足,影響了數字資源的綜合價值與利用潛力[6-8]。在大數據環境中,圖書館數字資源得到新的發展,類型不斷豐富,總量高速擴張。對圖書館而言,數據資源融合可以理解為數字資源與大數據融合發展的過程,是以同一平臺為基礎的數據融合,進而實現平臺、服務與技術的全面融合,在數據資源高度共享與充分利用的基礎上,提升服務質量[9]。其特點主要表現在4個方面:
(1)資源無縫鏈接。數字資源融合能夠突破圖書館數字資源的時間與空間局限性,實現不同圖書館分散零碎數據資源的整合,形成更完善、規模更龐大的圖書館大數據,避免“數據孤島”問題對圖書館數字資源利用的影響,為不同圖書館資源共享提供無縫鏈接的平臺,既提升資源利用率,也為數據開發利用提供更有效的支持。
(2)數據關聯分析。2006年后關聯數據成為圖書館領域關注重點,為了優化業務和服務,圖書館以大數據技術為基礎開展關聯分析,分析用戶行為偏好,進行用戶畫像,進而分析圖書館資源與用戶之間的相互關系,從而對自身資源分布情況進行優化,更好地滿足用戶需求。
(3)知識轉化發現。基于大數據技術的資源融合能夠對圖書館數字資源進行整合,構建不同領域的數據庫,開展數據挖掘和數據處理,對整合資源進行科學分析,準確把握數據的內在關聯,幫助用戶構建起知識體系,發揮關聯資源的融合效應,實現資源的充分利用和價值創造。
(4)服務融合創新。在激烈的競爭環境下,服務質量成為圖書館發展關鍵。為了實現科學發展,服務功能的拓展與服務質量的提升成為核心工作。圖書館服務表現為個性化、多樣化、定制化等特征,基于大數據技術的綜合服務成為趨勢。
在此背景下,如何應用大數據技術對圖書館數字資源進行高效融合與轉化成為值得關注的問題。本文從理論研究層面對大數據技術背景下的圖書館數字資源的特征、發展模式、創新理念進行梳理和總結,對數據共享、信息開放、資源融合等理念進行闡述,進一步完善數字資源理論的內容,以期為圖書館數字資源管理與利用模式的科學創新提供理論依據。
海量數據的有機融合是數字資源融合的具體表現,是將不同圖書館所擁有的數字資源進行全部融合,實現數據跨時間、跨空間的高度融合;是與圖書館有關的所有數據的統一整合,從而為數據挖掘和利用提供充分的數據支持,以此實現數據價值的最大化。基于時間維度,圖書館數字資源的融合是數據在時間層面的積累與整合,是對過去、當前與未來數據的全面融合;基于空間維度,圖書館數字資源的融合是對不同地區、不同圖書館數據的全面整合,也是對資源數據、業務數據、用戶數據、行業數據的全面整合。因此,對于圖書館而言,數字資源的整合需要對不同主體、不同來源、不同類型的數據進行融合,是一項復雜的系統工程。
在大數據技術高速發展推動下,應用內容不斷豐富,逐漸形成多種不同的技術體系。不同技術體系在數據處理流程及方法上存在差異,但大致可概括為大數據的采集、導入和預處理、統計分析、挖掘等4個不同步驟。具體到圖書館領域,大數據處理同樣基于4個基本流程完成。通過上述步驟,能夠簡單完成數字資源的融合。但由于圖書館資源呈現出顯著的服務特性,使得簡單的資源融合無法滿足實際需求,必須在服務融合的基礎上保證服務質量,以此滿足用戶不斷提升的服務需求。基于大數據技術環境,圖書館數字資源融合可采取以下思路:
(1)大數據收集。從時間與空間兩個維度出發,完成所有數據的收集工作,確保數據收集的完整性與可靠性。該項工作需要完善的基礎設施和先進的存儲技術,對存儲容量也有更高的要求。
(2)大數據組織加工。圖書館大數據不可避免地存在重復、冗余、錯誤數據信息,這會影響數據處理的準確性與效率。因此,在具體應用中,首先需要對數據進行預處理,完成數據清洗之后將有效信息導入融合系統,并由系統對數據進行分類和轉換,確保數據的適用性與可靠性。
(3)大數據分析應用。以用戶的特定需求為出發點,一是可以借助大數據技術對圖書館的數字資源進行處理,為問題的解決提供依據;二是在未提前明確需求的基礎上,借助數據挖掘技術對大規模數據進行分析,從中挖掘潛在價值,從而為圖書館各項業務提供科學指導,也以大數據服務的形式滿足用戶的需求。

圖1 數字資源融合轉化體系
大數據技術環境下,圖書館資源融合的主要內容可以分為數據、平臺與服務等3個層面上的要素融合,從而構建起資源高度共享與利用的交互平臺。具體而言,資源融合的基礎為數據融合,關鍵技術環節為平臺融合,最終目標則是不同圖書館的服務融合。數據融合能實現海量異構數據在同一平臺上的融合,并在此基礎上構建起圖書館的業務與服務平臺,為用戶提供更加全面高效的信息服務,提升自身的競爭力[10]。基于大數據技術的資源融合與轉化過程如圖1所示。
在數據融合層,資源融合的對象是不同圖書館所擁有的不同的數字資源,上述數字資源以原始資源的形式作為融合對象,針對不同圖書館數據資源的分散、異構等問題,通過科學有效的方法對其進行處理,構建起數據資源充分融合與高度共享的體系,以此滿足用戶的資源查詢與處理需求。圖書館的原始數據資源主要包括資源數據、業務數據、用戶數據、行業數據等,涉及圖書館、用戶、外部機構等多個主體。在圖書館數字資源融合過程中,則需要重點解決相關數據的公開性與安全性問題,在充分保護用戶數據安全的基礎上,盡可能提升數據的共享水平和利用效率[11]。此外,為了確保數據資源融合的充分性與可靠性,必須針對數據龐大、并發程度高等現實問題,構建一個多中心、多層次的綜合型數據平臺,實現數據資源的集中管理,對不同區域、不同圖書館、不同類型的數字資源進行集中存放和統一管理,并基于元數據實現不同數據的科學關聯。
在大數據技術實現過程中,需要良好的基礎設施與處理技術才能確保大數據的充分利用,因此首先需要解決技術問題,才能為圖書館數字資源融合提供支持。圖書館大數據存在來源廣、規模大、異構性、復雜性等特點,圖書館資源融合面臨較大的困難,無論是數據的采集、加工、處理還是應用,各個環節都比較困難,導致數據融合的風險較高,實施效果得不到充分保證。基于大數據技術環境,圖書館數字資源的融合必須以最新、最先進的數據處理技術為基礎,通過數據采集、數據挖掘、數據存儲、云計算、可視化技術、知識發現等技術共同完成數據資源的融合,為資源融合平臺的構建提供充分的數據支持,從而實現良好的數據共享[12]。
圖書館龐大的數據資源能夠充分滿足圖書館的數據服務需求并保證圖書館的服務質量,而良好的數據服務也是圖書館資源融合的目標所在。基于大數據技術環境,數據挖掘、數據分析是最基本、最核心的業務,也是大數據應用的關鍵環節。對于圖書館而言,數字資源的融合是大勢所趨,只有實現良好的數字融合,才能夠真正發揮其資源優勢,提升圖書館的用戶服務水平,滿足現代用戶對數據資源的多樣性、個性化需求,從而充分挖掘資源價值。基于大數據技術應用,能夠實現對海量數字資源的科學整合與高效利用,并且在數據分析的基礎上準確把握用戶需求,從而實現數據服務的個性化與精準化,并通過數據挖掘、關聯分析、知識發現等技術方法不斷挖掘數字資源的潛在價值,更好的滿足用戶的資源需求,從而積極有效地提升圖書館的整體服務質量,為圖書館的科學發展奠定良好基礎,以此實現圖書館數字資源融合的快速與穩定發展。
重組網絡數據資源,對圖書館的知識資源進行科學加工,挖掘知識資源的潛在價值并實現知識創新。基于元數據技術,在完成本體的創建工作之后,可通過圖書館的原始數據對本體進行處理,實現數據資源的概念化與標準化轉換,并實現基于元數據標簽的數據聯結,以此完成數據融合工作并充分保證數據融合的完整性與全面性。與此同時,數據聯結可以通過不同維度的方式進行關聯,即表現為語義關系網絡的建構過程,經過映射后數據資源能夠建成集中網絡系統,可以讓用戶的數據需求更好地得到調取與滿足,通過潛在語義網絡對數據資源進行挖掘和處理,從而實現知識創造并提升數據資源的價值。
這是利用主題內容將語詞進行表達的文獻信息組織檢索的方式,可以利用大數據環境來實現有效應用。這種形式的資源融合可以將主題詞作為核心,將相關圖書館數字信息進行資源融合。根據圖書館中已有的資源數據信息,將相關數據實現完整融合,對于用戶來說,可以利用相關的關鍵詞,快速并模糊地找到檢索信息。對于圖書館大數據業務信息來說,利用某種具體業務作為核心主題,能夠實現數據的有效融合,以大數據分析的方式來完成信息業務的展開研究。按照用戶數據進行類別劃分,通過不同的職業、年齡、性別、偏好等等,可以劃分出用戶具體的借閱模式,并根據用戶愛好進行信息內容的推送。按照主題模式選擇融合方法,可以將主題核心詞通過關聯性確定下來,由此完成對語詞主題信息的融合。
信息融合的最終目的是為用戶提供更好的服務,以綜合性優質信息來建立以人為本信息服務方式。圖書館數字資源的融合基礎是用戶,這就是“用戶為中心”的服務理念建構,以用戶需求為核心,通過用戶特定信息將相關的數據融合到一起。依托大數據信息環境,幫助用戶解決在復雜多變資源環境中尋找具體數據信息的問題,通過信息檢索的方式確定用戶所需要的內容。但是,現有檢索系統限制較多,難以完成“用戶中心”這個要求,所以應盡快進行合理的調整和解決,將信息數據實現市場化,實現與信息商間的競爭優勢,確保信息服務領域能夠獲得更好的升級,由此滿足用戶對圖書館信息的需求。
該融合方式可以在應用層面實現邏輯上的無縫對接,滿足實時集成要求。圖書館的多個不同業務部門以不同信息服務方式將數據保留到數據庫表中,建構數字資源融合平臺時,能夠以相關應用邏輯來定義具體的庫表內外的動態關聯關系。此類融合模式表現出顯著的實時性與動態性特征,能夠通過應用邏輯完成數據資源的關系定義。
基于大數據技術應用環境,數據開放、信息公開已成必然趨勢,客觀地推動了圖書館數字資源的科學融合與高效利用,從而形成了更加完善、規模更加龐大的圖書館數據信息庫,實現不同圖書館數字資源的高度共享與科學整合,實現了數字資源的高效利用,為數據分析、處理奠定了良好基礎,也極大提升了數據挖掘效果,提高了數字資源的綜合利用率,促使圖書館的服務水平不斷提升,并且呈現出多元化的發展趨勢,有效地滿足不同用戶的使用需求與服務需求,實現了全方位、全過程的一站式數字資源服務模式。
基于云計算、大數據技術的優勢功能,能顯著提升圖書館數字資源的融合水平,實現對數字資源的科學統籌與設計規劃,極大提升了圖書館數字化轉型發展速度,形成了以云計算為基礎、以大數據技術為核心的更加安全、高效、全面的數字資源平臺,極大地提升圖書館資源管理與服務的集約化、效率化水平,在有效降低資源管理與資源服務成本的同時,也提升了資源共享水平和應用水平,充分發揮了大數據、云計算等技術的優勢功能,打造更加全面、完善的數字資源系統,從而贏得用戶的廣泛認可,為自身發展奠定了良好的客戶基礎與服務基礎。
基于大數據技術的數據處理機制與管理流程,圖書館的數字資源將得到充分的融合發展,實現數據資源的有效獲取、科學存儲、高效處理與合理利用,提升圖書館的安全管理與標準化建設水平,滿足不同用戶的數字資源服務需求,提升服務能力,從而充分發揮數字融合的優勢。
(1)圖書館大數據的獲取。在數據獲取環境,數字圖書館通常以RFID、傳感器技術、終端技術、視頻監控技術等工具,通過合法的途徑對社會各個領域、行業的相關數據資源進行廣泛收集與科學整理,從而不斷豐富圖書館的數字資源,并在數據處理、分析和提煉的基礎上不斷充實數據庫,不斷提升數字資源服務水平。在圖書館的數據獲取環節,主要是對現有的資源、業務、社交、用戶等數據進行收集和整理,針對不同的數據采取差異性的技術手段,充分保證數據資源的全面性與完善性,為數據分析和處理提供有效的數據資源,充分保證數據分析處理的水平,從而為數據挖掘奠定良好基礎,以此提升數據挖掘效果,為各項管理和服務提供更加可靠的依據。
(2)圖書館大數據的存儲與處理。在獲取所需數據之后,需要采取科學方法對數據進行存儲。數據存儲是數據分析處理的前提基礎,存儲管理水平將直接影響數據質量和后續處理效率。在具體應用中,圖書館大數據主要通過實時采集、批量導入等方式完成數據獲取工作,然后在對數據進行優化和處理后將其存儲于不同的介質內,有效克服數據規模龐大、異構問題對數據關聯的不利影響,充分保證數據處理與應用的水平。基于大數據技術背景,圖書館的數據資源規模將迅速擴大,數據類型也日益復雜,若采取分布式的數據管理方式必然涉及各種不同類型數據的集中處理和存儲,需要采取科學有效的方法克服數據異地、異質、異構等問題的不利影響,充分保證數據存儲管理的科學水平,為數據分析、處理奠定良好基礎。大數據處理技術是圖書館大數據管理的另一重要任務,該任務以用戶需求、業務目標為出發點,采取多種多樣的技術方法對數據進行全面研究分析,保證不同數據的處理效果和整體質量,充分滿足數據應用的相關需求。
(3)圖書館大數據的應用。應用是大數據技術的根本目標。基于數據處理結果,針對不同服務需要對數據資源進行科學利用,準確高效地滿足數字服務需求。基于大數據技術環境,大數據應用的核心內容是基于數據相關性分析結果,對數據進行科學融合從而準確預測客戶需求并提供針對性的服務,提升客戶決策質量。以圖書館為核心,以一站式的數字資源服務為模式,將成為未來數據資源應用的重要方式之一,為數據挖掘技術、智慧服務技術的發展提供有力支持。
本文將數字資源融合定義為基于大數據技術,將此作為平臺來完成圖書館的信息資源集成,并實現整合與共享。根據理論和實踐兩個視角探索具體的創新方向,將帶給現代圖書館很多轉型契機,但是也存在很多問題,解決這些矛盾和沖突,應該成為現階段圖書館的數字資源融合處理核心,其解決方式和措施等能夠給圖書館提供明確的資源融合方式。
圖書館數字資源融合必須通過理念轉變才能實現。這種轉變主要有兩個方向:第一,做好數據資源的保護和利用。作為現代知識資源存儲、供應的主體,圖書館表現出顯著的公益性特征,龐大的數據資源是其最典型的優勢,以此為基礎,可以構建一種以數據資源的儲存、保護為主要目的的開放式信息應用模式。但是,這種機構性質中存在明顯的沖突矛盾。比如,網絡環境推動下圖書館也逐漸將實體文獻資源進行網絡化處理,但是并未實現有效的全面開放,這種大數據時代的來到,讓人們在大數據價值不斷增加過程中,對數據信息的需求量越來越大。所以,從這個角度來說,圖書館應該順勢而變,在有效完成數字資源處理任務的基礎上,同時做好數字資源的保護工作,并充分保證資源的利用水平,兼顧資源保護與共享。這是推動圖書館數據資源信息共享效率的關鍵,本質就是將“信息孤島”問題解決。第二,圖書館館員成為管理數字資源的重要人力資源。通過對館員大數據思維的培養,建立新時代的“用戶中心”理念,提升自身解決數據采集、處理和分析的能力,利用圖書館已有資源,進行新的服務范圍拓展和服務內容增加等。
對于現代圖書館數字資源的管理來說,需要通過平臺建設、大數據處理等方式,根據現有技術實現更好的改進,這是實現資源融合順利展開的重要前提。對于數據采集來說,需要通過圖書館大數據多樣性,準確、全面地實現具體采集流程,從而將寬帶制約、采集效率、數據質量等問題合理保證。在該過程中,存在一個數據存儲容量問題,對于能夠達到PB級海量數據時,圖書館管理系統能夠對其海量數據進行有效存儲,并充分保證數據存儲的安全性與可靠性,提供與數據規模匹配的存儲空間。而數據保護則可以理解為對不同類型、結構特征的數字資源進行挖掘時,可以通過保存數量多少、保存時間等限制,做出并不相同的挖掘行為,由此來發揮數據資源信息的價值特征。數據組織時的數據標準規范化過程,就是在圖書館數字資源融合平臺上,可以根據標準化的數據語言,將不同類型的數據進行轉化,使其具備良好的兼容能力,為數據共享奠定基礎,這時就需要將數據采集實現壁壘破除。數據安全問題的含義是在數字資源利用和處理過程中,根據數據可能存在的丟失、泄漏問題,完成對安全風險的分析和劃分,根據相關風險的發展方向,由此判定文件、數據的可行性、有效性。由于傳統安全管理模式存在很多矛盾沖突問題,特別是技術漏洞、日志文件缺失、數據發現不清晰等都會導致無法使用、數據不可靠等問題。因此,應該從網絡、數據存儲、數據備份等方面的安全性出發,完成對風險的管理、運營和治理等行為,并以此判斷和探究具體的解決對策。在進行數據處理與分析時,可以將空間與時間維度的數據關聯進行綜合運用,將圖書館大數據資源進行深層次挖掘,為分析提供有效基礎。將軟件進行平臺算法的先進性開發后,實現多重處理方式的應用。對于可視化呈現方式來說,可以將可視化軟件工具利用起來,將圖書館大數據間巨大、復雜的潛在邏輯關聯進行梳理,從而進行相關的圖書館業務支撐和決策分析。
現階段圖書館的大數據環境特征之一就是其整合必須建立在基礎功能之上,以融合所有資源的方式來完成相關的資源內容有效建設,改善原本的分布散逸狀態,將信息獲取難度過大、垃圾數據太多等問題進行優化,這是實現圖書館數字資源共享、共建和有效利用的前提。通過綜合衡量的方式,使得圖書館數字資源融合可以有效地、順利地展開。
在實際融合與轉化時,應該將經濟成本問題重視起來,將成本控制等問題作為關鍵因素進行研究分析。由于圖書館數字資源利益關聯者的多樣性,使得資源融合的環境比較復雜,必須要將這機構經費收入合理保障,具體是:(1)費用分攤。指的是各個主體將資源融合實現共同承擔,由此完成對數字融合成本費用的科學管理與有效控制,實現成本費用的合理分攤。(2)成本控制。針對數字資源融合與轉化的不同環節與要素,將圖書館數據信息進行采集、加工、組織、處理,這些都是需要有基本的人力物力投入,必須對成本進行控制,通過科學的管理措施提升資源要素的利用水平和融合效率,從而降低整體成本。(3)利益均衡。在數字資源實現融合與轉化過程中,可通過控制主體投入實現利益的科學分配,充分保證不同主體的利益,從而獲得不同主體的支持,提高融合與轉化的效率。充足的經費將直接促使數字資源融合與轉化的發展,這是中國圖書館事業發展最主要的問題,應該獲得中央與地方政府財政收入的支持。
以實際融合過程來說,前提是健全管理機制,為數字資源融合具體工作提供科學的依據。在實踐時可以將面臨的具體問題通過分解環節來有效解決,從而實現穩定融合,確保各類矛盾沖突問題得到合理解決。因為各個圖書館類型不同,所使用的系統也各不相同,以管理部門差異性的設置方式來看,可以實現有效的監督和約束,確保部門職能的順利實現。由于認知的差異性,要求主管部門從一開始就應確認各類職能的分配,但是這種模式可能會導致各個圖書館合作不暢的問題。統一管理可以從三個層面展開:一是建立專業管理機構,配備專業工作人員,實施統一規劃標準;二是不斷創新管理制度,以更富有激勵性、創新性的制度規劃,將圖書館各個工作人員都納入到管理系統中;三是強化整合運營模式,將不同管理機構基本職能劃分清楚,融合平臺中同樣要劃分出統一管理的基本模式,確保圖書館數字資源能夠得到合理開發。
圖書館數字資源融合必須通過專業人才來完成系統技術的應用。大數據時代催生了多重技術應用方式,管理人員、服務人員基本素質都必須提高。從這個角度來說,圖書館必須與時俱進,以積極的培訓、講座、研討會等促進館員綜合素質的提升。在支持和鼓勵工作人員不斷提升自我能力的同時,加強外部合作,將專業人才對大數據的使用更合理、更有效。圖書館應該認識到人才儲備、培養、引進的重要性,建構大數據思維方式,通過技術系統的設立而建構專業人才隊伍,實現圖書館數字資源融合的最初目標。