(蘭州商學院信息工程學院,蘭州730020)
大數據時代圖書館數據可用性:價值、挑戰和保障
●馬曉亭(蘭州商學院信息工程學院,蘭州730020)
大數據時代;圖書館;可用性
大數據時代已經來臨,大數據給圖書館帶來的不僅僅是機遇,也帶來了挑戰。文章就大數據時代圖書館存在的數據浪費、數據污染和數據利用難等問題,以及大數據時代給讀者行為、讀者洞察力和圖書館服務策略帶來的影響進行了研究,同時,討論了大數據時代圖書館如何更好地管理和利用大數據。
大數據環境下,圖書館數據具有數據體量巨大、類型繁多、價值密度低和處理速度快等特點。根據維基百科對大數據定義:“大數據是由于數據規模、復雜性、實時而導致的,使之無法在一定時間內用常規軟件工具對其進行獲取、存儲、搜索、分享、分析、可視化的數據集合。”由此可見,大數據環境下圖書館數據的價值密度、價值數據的可提取性、已提取價值數據的可用性,成為圖書館數據整合、分析、探索和挖掘的重要內容。同時,也是圖書館有效變革用戶服務模式和服務內容,不斷提高新業務價值、服務競爭力、讀者忠誠度和擴展讀者群數量的關鍵。[1]
(1)數據結構呈現異構和低價值密度性。大數據時代,圖書館數據的結構類型從傳統的以結構化數據為主,轉向結構化、半結構化、非結構化三種數據的融合。數據結構的復雜性伴隨數據量的增長而不斷增加,對圖書館數據中心數據處理的模式和效率提出了較高要求。同時,數據源由單一性向多樣性轉變。數據產生、采集、存儲和處理的方式,與圖書館對數據的復雜度、價值性、處理效率和時限性需求相適應,具有較強的靈活性、多樣性和易變性。此外,大數據時代圖書館雖然擁有龐大的數據量,但整體上數據具有較低的價值密度,導致圖書館數據存儲、處理和挖掘成本較高,對圖書館大數據環境有用數據的挖掘、過濾和價值發現提出了較高要求。
(2)圖書館大數據環境數據清洗難度大。大數據時代,圖書館數據呈現海量激增、垃圾數據多、污染重和利用難的特點。從數據價值和可用性角度分析,這種海量激增的數據,不一定代表圖書館有用信息量或者價值數據的增加,有時候則意味著信息垃圾的泛濫。
圖書館通常會從多個數據源采集數據,多個數據源所采集數據的價值性、可用性、可管性和價值密度可能會具有較大差異。如果對海量數據不進行價值挖掘和數據清洗就直接使用,則會導致數據分析與處理難度增大、可用性降低和使用成本激增。此外,在數據的信息清洗和價值過濾過程中,過濾標準的價值顆粒度大小也是決定過濾有效性的重要因素。如果價值過濾顆粒度過小,則有可能會將有價值信息過濾掉,造成價值數據浪費。如果過濾顆粒度過大,則達不到數據的信息清洗和價值過濾需求,無法按照圖書館用戶服務需求提供有價值數據。第三,圖書館大數據環境數據價值密度低的實際特點,也對圖書館數據中心計算性能、數據庫存儲與管理能力和數據處理方法提出了更高要求。[2]
(3)讀者保密數據和個人閱讀隱私容易泄露。大數據時代,原始數據采集的數量、種類、速度和處理能力,是圖書館更好地利用數據價值提高服務能力和市場競爭力,不斷增強客戶群忠誠度和優化圖書館信息管理的關鍵。圖書館必須極大擴展數據來源,并對所過濾的價值數據進行科學處理和分析,才能通過科學決策來提升讀者閱讀體驗愉悅感。[3]讀者數據主要分為兩類:一種是讀者閱讀活動所涉及的服務數據信息、讀者在微博或博客上發表的文章、讀者向圖書館發送的閱讀服務請求等公開信息。第二種是讀者閱讀活動的行為數據。比如,讀者開展移動閱讀等增值服務的內容、閱讀活動的周期規律與行為分類、閱讀需求評估數據等。圖書館可通過對讀者閱讀活動行為數據的分析,而獲取讀者閱讀活動的內容、個人愛好、未來需求,以及與其他讀者、微博或博客服務器交換的數據信息,這些數據可能會導致個人隱私和保密信息泄密。因此,圖書館在加強讀者群體閱讀行為和內容分析的同時,應努力消除對讀者個人閱讀行為數據分析的針對性,是保護讀者保密數據與閱讀隱私的關鍵。
(4)增強圖書館不同數據之間的價值相關性。首先,從圖書館的運營與服務職能出發,大數據的價值應通過對海量數據的采集、處理和分析,科學、準確地預測圖書館用戶服務的需求和所面臨的安全威脅、服務瓶頸,并對云數據中心的故障進行分析、判定與定位。同時,可精準地對圖書館營銷服務與業務進行分析,并制定安全、高效的管理與運營策略來提高圖書館的系統運營效率和服務保障性能。其次,圖書館大數據的另一個價值體現,是通過海量數據的開放和聚合,大幅度提高圖書館海量無關數據的表面相關性,進一步增強大數據價值生態圈數據的整體價值。第三,圖書館應通過對海量無關數據的進一步處理、分析和判斷,將數據隱藏價值和不同數據之間的相關信息價值進行再挖掘,不斷提高大數據平臺的數據價值增益。
(5)對圖書館大數據進行準確的價值定位。隨著大數據時代圖書館數據量的飛速擴展,讀者服務對圖書館海量數據采集、存儲、處理和分析的能力提出了較高要求。然而,受大數據系統平臺建設資金與設備使用、更新周期等因素影響,圖書館數據中心系統的計算、存儲、網絡和管理性能增長的速度,遠遠低于大數據處理過程對系統性能需求的增長量。因此,在加強圖書館云數據中心系統資源調度、管理與分配的同時,應重點加強對關系圖書館安全管理與高效運營、圖書館管理系統與用戶服務系統的優化、讀者個性化閱讀服務保障、用戶服務標準未來發展與內容變革等重要數據的采集、處理與分析。
首先,應通過對數據驅動流程的科學管理、詳細劃分和優化,明確影響圖書館管理與運營流程科學性、用戶服務系統整體運營性能、服務內容的有效性、用戶服務效率與質量的評估指標,以及不同評估指標對評估結果的影響因子比例。其次,應加強對讀者群閱讀行為數據的分析,明確用戶閱讀需求和閱讀習慣,為讀者提供高效、經濟的個性化推送式服務。第三,利用大數據與云計算技術對已采集的數據進行科學分析,得出關系圖書館運營、服務市場動態、讀者群忠誠度評估數據,以及分析圖書館運營、管理過程所面臨的安全威脅,制定出準確、細致的服務系統管理與用戶服務策略。
(1)圖書館大數據應用的價值定位。圖書館大數據具有生產要素性、數據恒溫性、價值潛在性三個主要屬性。數據已成為關系圖書館個性化服務產品生產、服務供應與推送、服務風險預測與規避、服務融合與變革的重要因素。同時,如何高效、合理地清洗數據,發現、挖掘數據的潛在價值,已成為圖書館大數據價值準確發現的前提。此外,數據結構復雜化和非標準化是圖書館數據環境發展的一個大趨勢,如何有效整合結構化與非結構化數據、標準化與非標準化數據、單渠道與跨渠道數據,是增強圖書館數據開放性、可用性和準確價值定位的前提。
(2)實現圖書館大數據平臺價值數據的全面融合。圖書館必須加強與第三方增值服務商的數據共享,保證自身數據與其它數據源數據的有效融合,并不斷增強數據對服務的需求分析和服務質量判定,才能實現圖書館大數據的全面融合,才能更有效地發現與挖掘大數據的價值。
圖書館數據源的廣泛性和可共享特性,是數據價值有效性和高可用性的保障。首先,大數據環境下,圖書館將逐步改變傳統IT環境下單一為用戶服務的模式。通信運營商、第三方增值服務商和圖書館共同為用戶提供大數據增值服務,成為大數據時代圖書館用戶服務模式發展的主要趨勢。圖書館會通過與通信運營商、第三方增值服務商大數據平臺的融合與共享,在大數據用戶服務和市場競爭中占領制高點,為讀者提供滿意、持久和個性化的服務。其次,圖書館應加強大數據與讀者服務的融合。管理員應根據圖書館大數據平臺數據的類型、內容和價值特點,與圖書館用戶服務業務需求、市場特點相融合,確保圖書館的大數據采集、存儲、處理、分析和決策平臺接口標準化,不斷提高大數據價值發現、挖掘和使用過程的靈活性和可控性。第三,必須科學、高效、準確、快速地劃分主數據。按照圖書館數據的重要性和信息流向劃分,圖書館數據可分為讀者服務交互數據、系統管理數據和主數據三種類型。主數據主要關系圖書館核心系統管理、運營戰略規劃、賬戶與重要信息保密等,具有多系統共享、數據價值密度大和可處理性要求高的特點。因此,應提高主數據的價值性、可控性、可用性和經濟性,才能確保讀者服務安全、高效、易控和可擴展。
(3)強化云計算對圖書館大數據平臺的服務支撐與保障作用。圖書館大數據普遍具有的海量、數據結構多樣性、價值密度低和處理實時性特點,導致圖書館大數據在存、管、用三個方面矛盾突出。因此,如何有效利用云計算技術在海量數據存儲、管理、計算和網絡傳輸中的技術優勢,提高圖書館業務分析、管理和決策的科學性與有效性,是大數據時代云計算技術在圖書館應用需要重點關注的問題。
云資源多用戶共享和動態分配是圖書館云數據中心的主要特點。首先,圖書館應利用云計算技術分布式的計算方式,提高數據在挖掘、存儲、處理、分析、決策過程中的效率和精確度,為圖書館管理、運營和未來發展提供決策數據支持。其次,圖書館應利用云計算技術較高的服務可用性與服務快速交付特點,在大幅度降低大數據管理復雜度的同時,不斷提高大數據資源的利用效率、價值可用性和數據清晰度。第三,圖書館必須建設具有較強安全性、可用性、可控性和經濟性的云計算平臺,為圖書館大數據的應用提供可靠的實現環境。同時,應不斷增強圖書館大數據環境的智能化管理水平,保證管理員可憑借圖書館業務數據的完整視圖,而獲得敏銳的圖書館用戶服務未來發展洞察力,將數據信息價值有效轉化為讀者服務保障力。
(4)大數據應重點關注讀者的個性化閱讀需求。根據讀者閱讀需求,為讀者提供具有較高精細度和精確度的個性化閱讀服務,是圖書館運營方式轉變和服務模式變革的一個重要目標。大數據時代,圖書館數據獲取具有極大的分散性和不確定性,如何準確劃分用戶數據類別和信息顆粒度大小,是準確掌握服務系統服務能力、讀者閱讀活動需求、圖書館與讀者信息交互反饋效率和讀者忠誠度,提高用戶個性化閱讀準確度和滿意度的關鍵。
首先,圖書館在大數據平臺建設中應避免數據孤島現象發生,可通過與其他服務商數據共享而提高大數據判定與決策的準確性。依據大數據分析所獲得的讀者閱讀需求信息,將所提供的服務產品與讀者需求緊密結合起來,并根據用戶需求變化對產品內容進行動態調整。其次,圖書館應通過用戶行為監測、服務商之間數據共享、問卷調查、論壇微博等方法,不斷改進用戶數據搜索和信息分析的方式,提高服務對讀者群覆蓋的廣度和深度,確保圖書館個性化服務的判定、決策和推送過程的智能、即時。第三,在對讀者閱讀行為數據和保密信息采集、分析時,加強對讀者閱讀隱私和重要數據的保護,是提高用戶對圖書館信任度的關鍵。此外,在加強讀者隱私數據訪問權限和內容管理的同時,圖書館還應重點關注服務系統的安全和重要數據的加密工作,防止隱私數據被竊取、截獲和篡改。
(5)利用大數據技術預測和降低圖書館運營風險。隨著圖書館讀者閱讀需求的發展和服務模式變革,數據中心IT基礎設施的運營、管理復雜度快速增長,讀者閱讀活動和圖書館運營服務面臨著較大的風險。如何有效利用大數據技術,對讀者和圖書館采用模式識別、回歸分析、文本分析、社會數據聚集和情感分析等方法,開展全方位的閱讀與運營活動風險監控、預測和防范策略制定,是提高圖書館運營與讀者閱讀活動安全性的前提。[4]
伴隨著IT新技術的應用和服務模式變革,圖書館服務運營商和不同地區集團聯盟之間的競爭與合作將進一步增強,專業化和壟斷經營成為未來圖書館服務發展的主要趨勢。因此,如何利用大數據分析算法準確分析競爭對手在圖書館管理方法、服務內容、運營模式和成本控制方面的優勢,并防止核心數據被非法用戶和競爭對手獲得,是圖書館管理者提高自身服務能力和市場競爭力的關鍵。此外,在圖書館建設與服務過程中,利用大數據技術提高用戶服務效率和降低運營成本,是增強圖書館市場競爭力的又一重要內容。管理員可利用大數據技術有效整合圖書館服務資源和優化服務流程,詳細分析每一位讀者的閱讀習慣和需求,根據客戶需求為用戶提供個性化定制的服務項目,確保圖書館運營和讀者閱讀收益最大化。[5]
隨著大數據信息浪潮的到來,圖書館也迎來了讀者的大服務時代,用戶服務的內容從數據集成、管理向數據挖掘、分析與展現等方向全方位延伸。同時,圖書館業也面臨著嚴峻的挑戰與威脅。如何加強圖書館數據中心IT基礎設施建設,提高數據的采集、挖掘、處理、整合、分析和決策能力,將數據資源高效轉化為圖書館信息資產和生產力,已成為大數據時代圖書館業面臨的重要問題。[6]
因此,圖書館必須樹立以讀者個性化服務質量和客戶閱讀滿意度保障為中心的價值理念,以大數據應用和價值挖掘為中心,不斷強化大數據管理平臺的安全性、高效性、模塊化和可擴展性建設。同時,應努力提高數據生命周期管理的智能化、自動化水平,確保圖書館具有較強的業務績效洞察力和運營服務風險控制能力,才能有效降低圖書館大數據環境復雜度和提高數據的利用效率,才能真正為讀者提供大數據環境下基于定制的個性化閱讀推送服務。[7]
[1]李國杰.大數據研究的科學價值[J].中國計算機學會通訊,2012,8(9):8-15.
[2]黃伯仲,等.超大規模數據可視分析十大挑戰[J].中國計算機學會通訊,2012,8(9):38-43.
[3]王樹良,等.大數據下的空間數據挖掘思考[J].中國電子科技研究院學報,2013,8(2):8-17.
[4]李建中,劉顯敏.大數據的一個重要方面:數據可用性[J].計算機研究與發展,2013,50(6):1147-1162.
[5]BryantR E,etal.Big Data computing:Creatingrevolutionary breakthroughs in commerce,science,and society[EB/OL].[2013-06-19].http://www.cra. org/ccc/docs/init/BigData.pdf.
[6]Malewicz G,et al.Pregel:A system for large-scale graph processing[C]//Proc of SIGMOD 2010.New York:ACM,2010:135-146.
[7]Nature.BigData[EB/OL].[2013-06-17].http: //www.nature.com/news/specials/bigdata/index.html.
[責任編輯]菊秋芳
G250.73;G252.8
A
1005-8214(2014)10-0005-04
馬曉亭(1974-),女,碩士,蘭州商學院信息工程學院副教授,研究方向:大數據、數字圖書館建設。
2013-10-09