劉金哲(國家圖書館)
2013年被許多媒體和專家稱為“大數據元年”,互聯網公司和其他各個行業開始紛紛投入資金和技術開展大數據的研究和應用。2015年,國務院印發了《促進大數據發展行動綱要》(國發〔2015〕50號)將大數據的戰略意義提升到政府層面。目前,應用大數據進行分析預測和輔助決策較多的領域包括公共服務、商業分析、企業管理、金融、娛樂和個人服務等。[1]大數據在各行業的應用,促進了行業的融合發展和模式創新。目前,除了互聯網、電商等領域有比較成功的大數據應用案例外,其他行業仍處于探索的初級階段,實際落地還存在顯著的瓶頸。因此,圖書館應從戰略層面認識大數據,促進大數據與實際業務的深度結合,推動圖書館決策、管理、服務、創新能力的不斷提升。
對大數據理念的認識不深入、數據基礎的缺失以及管理方式無法迅速向適應大數據需求的方式轉換等原因導致當前大數據解決方案很難和具體行業的實際應用深度結合。
筆者在招標與采購網以“大數據”為關鍵詞進行搜索,僅2019年1月1日至8月21日,發布的招標信息就有8,045項,但大數據項目的實施結果卻不容樂觀:2016年,Gartner估算約60%的大數據項目都會失敗;一年后,Gartner分析師Nick表示,實際大數據項目失敗率接近85%。[2]當前,大多數大數據項目只實現了數據采集和數據呈現,如對指定數據源的數據進行抓取、匯總,再進一步根據某個場景或者主題計算變化曲線,有些基于大數據的聚合平臺也只是將網絡上的相關信息整合成一個新的信息源,然后以推送或者訂閱的方式提供給用戶。同時,目前興建的大數據中心更多地還停留在“建機房、上設備、堆數據”的階段,[3]很多數據中心因為缺乏運營經驗而處于閑置狀態,但又有很多城市仍在斥巨資投建數據中心,而無法做到真正將數據應用于服務。
豐富的數據源是大數據項目實施的基本前提。大數據項目80%的時間和經費都花在數據的準備工作上,其中多源數據的融合是最耗費資源的任務之一。隨著各行各業信息化程度越來越高,理論上來說會有很多數據,但真正進行數據調研和分析時會發現數據的收集和利用、特別是高質量數據的獲取是非常困難的。① 早期建設的信息化系統缺乏對過程數據的記錄,或者系統管理人員缺乏對過往日志信息、數據的保存,因此,獲取到的數據都是項目開始之后的數據,導致“海量”只停留在理論。② 數據增長的速度過快,保存和管理數據都超出一般運維管理的范疇,這是影響大數據項目實施成效的關鍵因素。③ 數據時效性差,許多業務統計數據匯集頻率低,有些需要人工填寫表單或者導入報表,導致大數據項目的實施效果不盡人意。
數據孤島是大數據發展過程中面臨的共性問題。不同來源的數據依附于不同的平臺、存儲在不同地方、歸屬不同部門,導致數據匯集困難、無法有效流通。首先,數據來源比較雜。一個機構通常會建設或者購買多套系統來滿足不同的業務需求,這些系統一般各自獨立或者以松耦合的方式存在,系統平臺架構各異、功能也不盡相同,多數系統都設置了訪問權限和保護措施,形成了一個個的孤島,為數據交互共享帶來了很大障礙,直接影響大數據項目實施的效率和效果。其次,收集數據標準問題。收集到的數據原始記錄的格式和載體不同,導致很多數據無法直接利用,需要轉化或者清洗。再者,數據歸屬問題。大數據項目不單是信息技術部門的職責,人事、財務等各部門都是數據的生產者和持有者,都在大數據的運籌體系中,但目前國內機構管理體系呈現條塊化,數據持有者之間很難完全進行數據開放和共享。
(1)技術方面。當前數據處理的技術和工具已經落地,但數據分析尚且不成熟。數據分析以產生決策智能為目標,提取、融合、梳理多種數據源中的相關數據,將其整合成分析數據集,數據集可隨數據源的變化重組、調整和更新。這些環節需要通過包括數學、經濟學、社會學、計算機科學和管理科學在內的多學科進行交叉研究,是當前大數據項目的實施機構和服務提供方都面臨的一個瓶頸。
(2)市場方面。近年來,Hadoop等大數據處理軟件平臺發展比較成熟且在很多項目中得到了應用,相關產業已經在美國初步形成。隨著數據總量的飛速增長及市場對數據分析利用的需求,又出現了以Spark為代表的新型大數據計算平臺,使大規模的數據挖掘與機器學習可以更加高效地執行。我國大數據產品市場基礎薄弱,總體上以跟隨為主,難以滿足大規模應用的需求。部分大型互聯網公司提供的產品或者解決方案相對比較落地,如阿里云的一站式大數據平臺,覆蓋了企業數倉、商業智能、機器學習、數據可視化等領域,可以提供數據采集、數據深度融合、計算和挖掘服務,并通過可視化工具進行個性化的數據分析和展現,但是需要捆綁阿里云并具備一定的技術基礎才能使用,且這類大數據平臺或者產品的價格不菲,還要根據實際業務需求進行集成和二次開發服務。
大數據項目實施過程中,面臨數據存儲和訪問安全的挑戰,可以通過建立大數據使用規范和安全標準、在數據提供訪問時做好訪問權限控制等措施應對。同時,大數據項目也不可避免地會面臨用戶隱私泄露問題。通過大數據挖掘分析用戶需求,就必須要跟蹤、分析、挖掘用戶訪問行為、使用傾向等信息,導致暴露用戶自身不為“外人”所知的信息,這也是實施大數據項目時所面臨的共同問題。
大數據與圖書館的結合是必然的。一是因為圖書館行業對信息技術有著其他行業不可比的敏感性和依賴性。從圖書館集成系統到電子館藏到圖書館新形態,都是圖書館不斷與新技術深度結合的產物。二是因為數字圖書館本身就是一個龐大的數據源。除了圖書館本身大量的館藏和流通信息外,用戶在訪問和使用數字圖書館時會不斷產生大量信息資源。
圖書館中的數據主要有以下4種類型。① 資源數據。圖書館擁有大量的由紙質圖書轉換的數字資源、數據庫資源、聲/圖/視頻影像資源,這些資源以及描述這些資源的元數據是圖書館大數據的重要組成部分,且增長速度較快。② 業務數據,即圖書館在常規運行過程中產生的各類業務統計數據。對這類數據進行對比分析可以了解圖書館整體服務情況和發展水平、運營狀態,為制定科學、可持續發展的政策提供支撐。③ 用戶數據。隨著圖書館服務方式的多樣化,除了常規的到館讀者和辦卡讀者外,還增加了實名讀者、互聯網用戶、手機用戶等服務對象,以及這些服務對象的屬性特征、群體特征、社會特征等信息。④ 服務數據,主要指讀者使用圖書館資源和服務的過程中產生的大量行為記錄,如瀏覽歷史、借閱數據、網站點擊數據、館藏使用情況等。
筆者在中國知網學術期刊全文數據庫中以“圖書館”“大數據”為檢索詞進行主題搜索,截至2019年7月,共檢索出3,409篇文獻(見下表)。

表 2013-2019年我國圖書館和大數據相關文獻
由表可知,我國有關圖書館大數據的研究成果自2013年開始增多,研究內容主要集中在大數據時代圖書館進行服務創新的必要性、大數據應用于圖書館可以改進的服務以及改進方式等,關于大數據分析技術和應用實踐的研究仍然比較粗淺。綜合這些研究成果,大數據在圖書館中主要有以下應用場景。① 資源整合和開放。支持結構化數據與非結構化數據的統一管理,支持跨平臺、異質文檔的整合,進而開放集成網絡環境下的各類數字內容。② 提供決策支撐。通過大數據對業務發展趨勢和水平進行分析,進而優化圖書館的業務流程,為圖書館發展規劃、服務政策調整提供決策支持。③ 建立更加良好的用戶體驗。對讀者行為信息進行分析挖掘,了解讀者對資源和服務的偏好及其變化規律,進而指導圖書館提供個性化、特色化服務。④ 開展深層次的知識服務:利用大數據分析挖掘各類資源間的關聯關系,形成知識網絡,為讀者提供可視化的知識網絡服務。
受益于數字圖書館的建設成果,圖書館界形成了大數據應用的數據基礎。① 開放館藏資源并提供關聯數據服務。美國各類公共圖書館、行業協會等非營利機構利用大數據開展了“數據無邊界運動”等一系列的社會公共服務。如哈佛大學公布了由73家圖書館分館提供的1,200多萬種資料,并在美國數字公共圖書館中提供下載服務;[4]德國數字圖書館以1,842家圖書館、檔案館和博物館機構為支撐,開放在線資源560萬件,并通過API提供元數據的自由和免費再利用等。[5]② 開發更多符合讀者需求的服務。如韓國文化體育觀光部從2014年開始推動建設圖書館大數據收集、存儲、共享平臺,并幫助各大圖書館開發更多符合讀者需求的服務。[6]
國內各大圖書館和其他信息機構已展開了大數據應用的探索與嘗試。深圳“圖書館之城”基本實現了深圳市文獻資源的共享和大流通,從文獻外借、讀者群體、閱讀喜好等方面深入分析市民閱讀狀況,并有針對性地加強閱讀引導。[7]上海圖書館基于大量流通數據和日志建設了數據倉庫,在此基礎上為讀者制作個人閱讀賬單,提供個性化的年度閱讀總結和指引,形成流通數據白皮書和流通分析報告等。[8]
(1)海量數據與高質量數據獲取困難的矛盾。雖然圖書館的信息數據化程度較高,但仍然缺乏基礎數據的規劃、管理和保存機制,數據分析困難。① 圖書館早年建設的信息系統以實用和滿足業務需求為主,缺乏周全的統計模塊和日志記錄功能,缺乏對必要數據的維護和目的性保存。② 圖書館購買的部分外文數據庫由于僅能購買其檢索和文獻下載權限,而無法獲取可利用、分析的有效訪問數據信息。③ 圖書館的服務一直朝著簡潔化和人性化的方向發展,因此,很難對用戶的行為進行完整和精準的記錄。④數據質量問題。圖書館的許多業務數據匯集頻率低,而大數據項目需要對數據進行實時更新,數據收集特別是高質量數據的完整獲取存在困難。
(2)圖書館的公共性與大數據強調個性化的矛盾。大數據時代的信息服務開始向個性化、去中心化、實時化、智慧化方向發展,[9]注重根據用戶需求提供個性化定制或者推薦服務。然而,圖書館的服務在本質上仍是一種“公共品”,公共性、普遍性、均等性是其主要特點。大數據所注重的對用戶個性化信息服務的滿足與圖書館信息服務的公共性在一定程度上是相悖的。檢索能力較高或經常訪問這一網站的用戶需求和行為規律被記錄下來,大數據則依據用戶行為數據的“結果預判”來提供相應的信息服務,久而久之,那些信息檢索能力較低或偶爾訪問這一網站的用戶其需求則會被忽略,進而影響圖書館信息服務的公共性。
大數據建設是一項體系復雜、動態調整、多頭并進的系統工程,大數據項目在實施之前,應做好頂層規劃,設定長期建設目標和階段性目標,并確定每個階段需要收集的數據內容和類型。以數據為基礎、以應用為導向,使相互融通、相互支持的數據形成聚合效應,以推動應用層的拓展和創新。大數據技術是輔助性工具,而不是決定性工具,因此,圖書館應審慎推進大數據項目。此外,要深度調研能否獲得足夠的基礎數據支持。如,圖書館資源分析需獲取圖書館實體資源、數字資源等相關系統中的資源建設、發布和使用情況等數據作為支持;用戶滿意度分析需獲取用戶的需求、行為及用戶在網站、自媒體平臺、反饋問卷等渠道的評價等。同時,還要考量當前是否具備大數據落地的基礎條件,如配套的技術、數據基礎、人才儲備等。
大數據平臺一般根據數據的流向自底向上共包括五層,分別為數據采集層、數據處理層、數據分析層、數據訪問層及應用層。在同一層次,不同的平臺會采用不同的技術組件來滿足不同的業務場景,因此,選擇大數據平臺時應結合自己的業務需求。一般來說,大數據平臺要具備以下能力:① 多樣化數據采集能力,支持對表格、文件、消息等多種類型數據的實時增量數據采集和批量數據分布式采集;② 可視化快速配置能力,提供圖形化的開發和維護界面,支持圖形化拖拽式開發和快速接口配置;③ 高效的管理能力,包括應用管理和系統管理,能夠實現對各類技術組件的透明訪問,并滿足調度管理、元數據管理、質量管理等需求;④ 靈活適應不同應用類型和數據場景,具備合理的基礎架構,具有恰當的建設維護成本和生命周期。
圖書館的數據存在于不同的平臺,依附于不同的業務流程,數據的標準、格式、類型、表現形式和存儲結構千差萬別。在現有技術條件下,完全收集、整理和處理這些數據是一件非常困難的事情。因此,需要制定合理的數據價值評估標準,按照數據重要性進行排序與分類,這樣不僅有利于收集核心數據,更有利于了解數據價值分布情況,方便數據的后續收集保存與使用。一般來說,圖書館的大數據采集要涵蓋資源、用戶、服務等主題,每個主題要有不同的屬性特征。每個屬性特征下有不同的指標集,如用戶屬性包括用戶的性別、年齡、職業、生活地域、文化程度等,每個指標項都要有固定的采集頻率、采集方式等。此外,數據收集工作除了要采集數據外,還要對數據進行培養,即從大數據的角度出發,深入調研需要哪些數據、缺少哪些數據、哪些數據現階段的精度還不符合實施的需求,從而主動地要求數據提供方來補充和生產這些數據,形成一個循環可持續發展的數據體系。
大數據項目能否順利實施、充分發揮作用,深層次看,面臨的主要挑戰不是技術,而是組織和管理。圖書館中的數據隸屬于不同的組織部門,要想整合這些數據,就需要各相關部門統一樹立開放、共享基礎設施與數據資源的意識,形成標準統一、權責清晰的數據體系和管理機制。此外,大數據項目的實施和運營對圖書館的人才隊伍提出了更高的要求,不僅要有系統架構、數據倉儲等傳統IT領域的人才,還要有數據分析、數據挖掘、人工智能、統計學、數學等方面的精英。