張云青
(中共天水市委黨校,甘肅 天水741018)
早在1980 年,美國就有學者提出“大數據”這一概念,然而直到2007 年之后,隨著云計算技術的發展,為大數據提供強大的存儲和計算能力,更加迅速地處理大數據的豐富信息,大數據才得以快速發展并廣泛應用于各行各業。至今,各個機構都從不同的角度對“大數據”進行詮釋和開發。全球知名咨詢公司麥肯錫最先提出“大數據”概念:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。需要強調的是:大數據并不僅僅是指海量數據,而更多的是指這些數據都是非結構化的、殘缺的、無法用傳統的方法進行處理的數據。
“大數據”的本質是基于互聯網基礎上的信息化應用。電腦實現了數據的“數字化”,讓他們易于存儲;互聯網則實現了數據的“網絡化”,讓他們自由快速地傳輸。隨著互聯網技術的不斷發展,加上移動網絡和設備的普及,數據以指數級的速度迅猛增長。龐大的數據資源使得各個行業和領域得以量化進程,大數據最核心的作用就是可以通過對進程的量化,實現了“對未來的預見”。
黨校圖書館所掌握的數據在規模上還夠不上大數據的級別,但數據的積累是一個漸進的過程,“大數據時代”必然會到來,我們必須有意識地培養“大數據思維”:關注數據的價值——對數據進行分析——更深入地挖掘各類關聯數據——積累并形成大數據。
多數圖書館人仍習慣于傳統工作模式,認為“大數據”還很遙遠。其實,很多人已經觸碰了數據的經典應用。例如,許多電商平臺通過對購買行為等海量數據的記錄和分析,提供了“猜你喜歡”等精準推送的信息功能。電商可以通過這些數據研究購買者的需求,圖書館同樣也可以研究讀者的閱讀需求。每一個讀者都是一個數據源頭,從刷卡入館到借書還書,每條小數據背后都是真實個體的行為和心理這些客觀存在,這些數據一旦積累到一定規模,就可以有效地應用于圖書館的各項工作中,這些價值很多人還沒有看到。
對于追求服務更加智慧化的圖書館來說,僅有數據是不夠的,成功的關鍵在于掌握這些數據隱含的洞見。數據分析和預測將會變成一項常規性工作。赫伯特·西蒙指出:“如果能利用存儲在計算機里的數據來輔助決策,人類理性的范圍將會擴大,決策的質量就能提高。”
圖書館作為信息集散地,數據并不匱乏,匱乏的是工作人員處理信息的能力。大多數人對數據分析的能力尚停留在進行冗余刪除、求值等簡單操作,離預測分析的目標還很遠。數據分析最基本的要求是可視化(直觀呈現數據事實的趨勢),這就要求分析人員熟悉工作業務及各類分析軟件,且具備計算機算法的思維。信息技術部門的工作人員,必須具備這種思維和能力。
大數據是由各個數據、數據庫或者數據集合不斷累加形成的,數據越多,被采集的范圍越廣,其價值才可能越大。但是,為了避免陷入“數據豐富,信息貧乏”的局面,圖書館要在傳統工作基礎上留心很多隱藏數據或關聯數據的挖掘。數據挖掘是指以某種方式分析數據源,從中發現一些潛在的有用的信息。而關聯規則挖掘則是數據挖掘中的一個很重要的課題,即是從數據背后發現事物之間可能存在的關聯或者聯系。例如,讀者在圖書館會留下大量信息,如個人信息、借閱歷史等,可以通過對讀者借閱數據的關聯挖掘,挖掘出各年齡層次、各專業、各學歷層次的讀者對圖書資源的關聯規則,得到細分科目之間的聯系,以建議或指導讀者的借閱行為,提高資源的利用率和提供更加智慧化的信息服務。
《大數據時代》一書中,作者維克托認為數據性思維有如下表現:第一,我們可以分析更多甚至全部的數據,而不是依賴于隨機采樣。更高的精確性可使我們發現更多的細節。第二,研究數據如此之多,以至于我們不再熱衷于追求精確度。適當忽略微觀層面的精確度,將帶來更好的洞察力。第三,不再熱衷于尋找因果關系,而是事物之間的相關關系。
大數據促使各個行業數據產生的范圍、方式和途徑發生了深刻的變化。智慧圖書館建設,實際上就是想方設法擴大數據源,形成可分析的海量數據,獲得讀者行為的預判,從而進行智慧化服務和知識推廣。
1、數字化資源。隨著文獻資源的數字化,圖書館已經累積了各類文獻數據庫、電子書數據庫、館藏書目數據庫和音視頻資源。這些數字資源增長迅速、總量巨大,是圖書館大數據重要組成部分。
2、基本用戶數據。經過多年的發展,圖書館已積累了大量用戶數據,如讀者姓名、班級、性別等基礎數據,讀者在某個時間段的借閱量、到館次數、借閱狀態等行為數據。這些數據雖未達到大數據的標準,但已能成為獨立線索開展數據分析。
1、RFID 圖書射頻數據。利用物聯網技術,將RFID 標簽嵌入到傳統紙質資源中,實現圖書的跟蹤及分析。這些射頻數據也是圖書館大數據的主要來源。
2、傳感器數據。在未來的智慧圖書館,校園一卡通、圖書、借還書終端、門禁系統、電腦和自習桌椅都會植入RFID 標簽或傳感器,讀者在圖書館活動的過程就是與這些物品和環境之間的交流和溝通,就會不斷生成各種數據。
3、社交網絡交互數據。現在流行的微信圖書館、移動圖書館、網站留言板等都是具有社交功能的拓展平臺。隨著這些平臺的逐步推廣,其產生的數據量將超過以往任何一個信息傳播媒介,社交網絡平臺會成為未來圖書館大數據最為主要的來源之一;④移動互聯數據。隨著移動互聯技術的不斷完善,圖書館可以靈活獲取移動設備上產生的各類信息,并對這些信息進行實時分析,從而幫助我們開展智能有效的輔助決策。
黨校圖書館在數字化進程中普遍存在“重硬件,輕軟件”的建設經歷,技術人員仍苦陷于對硬件設備的維護當中,缺乏對數據庫建設、數據分析平臺或策略的研究開發。在大數據背景下,勢必要求信息技術部門和人員首當其沖地改變工作思路和做法,用大數據思維打開工作局面,產生新的思路和解決方案。
如何將大數據相關技術應用并融入到圖書館工作的方方面面,是信息技術部門的人員必須深入思考的問題。以下總結幾個與圖書館相關的大數據研究熱點和方向:一是非結構化數據的存儲和管理技術。非結構化數據包括所有格式的辦公文檔、文本、圖片、標準通用標記語言下的子集XML、HTML、各類報表、圖像和音頻/視頻信息等。圖書館中非結構化數據日益增加,如何將包括這些非結構化數據的文件進行存儲,又能體現文件間的多種多樣的關系,這是應用大數據技術必須明確和解決的問題;二是非關系型數據庫。大數據背景下,擅長于處理結構化數據的關系數據庫已適應不了數字圖書館的發展需要,基于網絡應用的非結構化數據庫發展非常迅速。非關系型數據庫包括:鍵值對存儲,文檔存儲,基于列的數據庫和圖形數據庫;三是云計算和信息檢索技術。未來圖書館的檢索技術不能只限于本機構數字資源的檢索,必須運用云計算的信息檢索技術實現跨平臺、跨資源的一站式檢索。檢索界面也應當通俗易用,且具備更強的功能,如語義檢索、自動理解語言的對話式檢索、跨語言檢索等;四是信息分析技術。數據分析普遍存在的方法理論有:可視化分析、數據挖掘算法、預測性分析能力、語義引擎、數據質量和數據管理。還有許多定量定性分析工具與技術,如Hadoop、SPSS、CiteSpace 等都應當在圖書館得到充分研究和應用。
對于圖書館而言,大數據技術仍然是一種全新且未被行業核實的新興技術,任何一個準備實施大數據計劃圖書館,都必須要有詳細的技術規劃和布局。厄待解決的問題有:第一,現有的網絡架構是否能適應大數據時代智慧圖書館的建設;第二,數據中心軟硬件將面臨巨大壓力;第三,圖書館各子系統之間缺乏統一的管理模式和數據標準,大數據資源尤其是非結構化數據缺乏統一的模式標準,數據采集、存儲和使用過程也存在著標準不統一、準確性與完整性程度低、數據價值可用性不高的問題;第四,大數據分析工具的效率和可用性也是影響大數據資源開放性和可控性的重要因素;第五,在應用大數據時,如何防止對用戶信息的過度挖掘而侵犯其隱私。
信息技術部門是圖書館中接收新技術和各種變革的領頭人,在大數據時代下,更應改變傳統服務觀念,主動利用先進技術拓展服務渠道,搭建交互式共享平臺。大數據分析是一項比較專業和耗時的技術工作,信息技術部門應增設相應崗位或工作內容,指定專人負責各類數據分析,研究各類適用于圖書館的大數據分析軟件和方法。
最易著手展開的工作就是數據的采集和存儲。一方面是將小數據逐漸累積成大數據,為將來各項應用做好充分準備;另一方面是借助已有的數據分析手段和研究方法,透過用戶信息行為數據了解用戶需求的變化特點,細分用戶群體,進而有針對性地將數據分析的結果推送到各個服務部門,指導圖書館信息資源建設和信息服務整合,以建立全館的智慧服務體系。●
