關鍵詞:大數據;圖書館;影響
摘 要:文章從大數據給圖書館帶來的各種變化出發,提出了圖書館應轉變觀念、理解大數據理念、制定圖書館大數據管理機制、積極學習大數據相關技術、加強大數據人才培養等建議,以期圖書館能夠更加從容地面對大數據時代的到來。
中圖分類號:G25 文獻標識碼:A 文章編號:1003-1588(2014)01-0109-02
作者簡介:安宗玉(1987-),河北大學管理學院圖書館學碩士。
關于大數據的概念目前尚無明確的定義,大家普遍認可的定義是“無法在一定時間內用傳統軟件對其進行內容抓取、管理和處理的數據集合”。而我們可以通過了解大數據的4個特征更好地理解大數據,即規模大(volume)、類型多(variety)、速度快(velocity)、價值性(Value)。目前,關于大數據的實踐大多集中于企業如何通過大數據優化其服務,但是大數據之所以備受矚目是因為它在社會的不同領域都能產生深刻的影響,如:預測疾病爆發、改善教育、評估風險等,大數據對國家治理模式、企業決策、個人生活方式等也將產生巨大的影響。
1 大數據與圖書館
目前,大數據的應用多集中于企業,數據多是交易數據、Web日志、多媒體信息等社交媒體數據,卻鮮有提及文獻數據。事實上,圖書館所擁有的文獻信息完全具備“大數據”的特征,如:數據規模巨大、更新周期短、文獻類型多樣,載體數字化、語種多樣性、內容交叉等,這些數據既有結構化也有非結構化。因此,對于圖書館來說,深刻了解大數據的內涵和特征,清楚數據采集、存儲、分析和挖掘流程中的大數據技術,發現大數據對圖書館產生的影響及圖書館該怎樣應用大數據成了圖書館亟須思考和解決的問題。
2 大數據時代下圖書館發生的變化
圖書館的宗旨是通過研究用戶、組織信息,將有價值的信息傳遞給用戶,以滿足用戶的信息需求。用戶的信息需求是圖書館存在和發展的根本,沒有用戶的信息需求,圖書館也就失去了存在的理由。在大數據時代下,圖書館的服務對象和目標沒有發生變化,只是因為在不同時代下用戶需求上升而對圖書館有了更高的要求,這個時候圖書館唯有及時地了解用戶新的信息需求,改變信息處理方式及服務策略才能留住已有用戶、發展新的用戶,優化服務方式和內容,為用戶提供有價值的信息。
2.1 用戶需求發生變化
從服務的專業化、知識化水平來看,傳統的服務都只限于為用戶提供數據或信息,而大數據時代下用戶更在意圖書館是否能為自己解決具體某一問題。因此,大數據時代下,用戶不再滿足于圖書館提供整篇的相關文獻、資料或其他知識產品,非結構化的數據、學科態勢分析、熱點分析、關于某一專題不同載體的信息源或進行過加工的知識產品將會更加受用戶歡迎。另外,用戶之間關系數據、用戶與群組、科研小組之間相互關系的數據和信息更是在大數據時代用戶需要的信息服務。
2.2 數據規模與類型擴大
當前,數據規模從以前的TB級別躍升到PB級別(P為1,000個T,E為100萬個T,Z為10億個T)。而數據類型也更加的繁多,如:網絡日志、音頻、視頻、圖片、地理位置信息等。統計數據顯示,世界結構化數據增長率大約是32%,而非結構化數據增長率則是63%,至2012 年,非結構化數據占互聯網整個數據量的比例已達到75%以上。大量非結構化數據的出現更是對傳統信息處理能力的極大挑戰。
在圖書館界,非結構化數據雖然一直存在,但是圖書館對于非結構化數據并不重視,對于非結構化數據的研究基本為零。而在大數據時代,圖書館可利用的非結構化數據包括用戶檢索關鍵詞、瀏覽歷史、下載數據、流量數據及其博客、微博、移動圖書館等各種社交媒體產生的交互信息等,只有將結構化與非結構化數據相結合進行分析,才能充分發揮大數據的功能,發現其中的價值。
2.3 原有的信息采集模式和方法受到沖擊
信息采集是信息處理的第一步,是大數據價值挖掘最重要的一環,其后的集成、分析、管理都基于信息采集。傳統的信息采集主要依靠網絡蜘蛛或其他網絡信息采集軟件,這些軟件可以以一個或一組指定的URL為瀏覽起點, 按某種算法進行遠程數據的搜索與獲取,采集內容一般是期刊、專著、學位論文、電子書、會議報告等結構化的出版物。但是,大數據時代下多類型的數據大多用非結構化數據庫來解決,因此,圖書館也必須挑戰信息采集模式,重新選擇、定義信息源、采集內容、采集頻率、采集量、采集工具等。如何依據本機構自身的數據特性,選擇合適的、有針對性的采集模式應當成為需要深入探索的話題。
2.4 信息存儲能力受到挑戰
在大數據時代來臨之際,我們面臨的挑戰還有存儲問題。圖靈獎獲得者吉姆·格雷(Jim Gray)和IDC公司曾預測,全球數據量每18個月翻一番。目前,全球數據的存儲和處理能力已遠落后于數據的增長幅度。大數據中的大容量通常可達到PB級的數據規模,對于海量數據存儲系統擴展能力的要求也會很高。而圖書館的數據存儲已不止于結構化的期刊、圖書、雜志等,智能手機、平板電腦、社交媒體以及很多的傳感器和監控器等非結構化數據來源的不斷增加,使得傳統的存儲方式無力承擔。
2.5 信息組織模式發生變化
傳統的信息加工是利用一定的科學規則和方法,對信息內外特征進行表征、排序、細化、挖掘、加工整理并歸類的信息活動。加工對象主要是文獻信息,目的是實現無序信息的有序化與優質化。從服務層級來說,傳統的信息組織模式是為用戶提供信息服務為目的。
大數據時代下的信息組織模式則是為用戶提供個性化、精準化知識服務為目的的。一方面可以對采集、存取的數據進行分析和挖掘,通過深入的分析和挖掘得出具有價值的信息,從而為決策提供支持或者預測事件的發展。另一方面大數據時代圖書館的組織和分析比傳統的信息組織更加重視用戶信息的分析和挖掘,通過分析用戶顯性行為和挖掘隱性行為,從而為用戶提供個性化、精準化的知識服務。endprint
2.6 信息服務方式和內容發生改變
傳統的信息服務模式和內容雖然能夠滿足用戶的基本要求,但在大數據時代,由于信息源和信息處理技術的發展,圖書館的競爭力已不再是其所占信息資源的數量、范圍等因素,而是在于所提供的信息產品的信息化、知識化及其基于知識的創新力競爭。用戶面對海量的數據資源,很難方便、快捷、準確地檢索、利用這些數據,而對于圖書館來說,可以利用各種數據源的數據,如:出版物、科技報告、數據庫、機構知識庫、社交網站資源等,為用戶提供一站式的資源服務,還可提供學科知識服務庫、數據管理服務、信息可視化服務等,尤其是在數據管理服務方面大有可為。
3 圖書館應對大數據的策略
3.1 轉變觀念,理解大數據理念
雖然大數據這一概念已經吵得沸沸揚揚,但仍有不少專家提出質疑,如:“大數據不能包治百病”、“大數據,真的能改變大家的生活嗎”。目前,大數據應用也多在商業領域,但具體效果如何,并未得出確切的答案。但是,反思之前的Web2.0、數字圖書館、移動圖書館這些新生事物在開始時總會受到質疑和阻礙,作為傳播人類知識文明的圖書館如若再不緊跟時代潮流、轉變觀念,恐怕難以在未來受到用戶的垂青。為了更好地應對大數據的到來,圖書館首先應該做好準備。
3.2 制定圖書館大數據管理機制
首先,要進行內部大數據處理流程規劃:數據的采集、數據存取、數據分析挖掘、數據服務連接起來才是一個完整的大數據處理過程。因此,圖書館應該建立統一的數據采集、存取、分析挖掘和應用策略,堅持以用戶需求為導向,確保大數據每一環節的有效連接。其次,圖書館作為國家大數據戰略中的一環,應與其他圖書館國家大數據戰略相吻合,這樣才能有助于信息資源的共建共享。
3.3 積極學習大數據相關技術
每一次技術的改變都會對圖書館形成巨大的影響,大數據技術是大數據整個流程的核心,圖書館若想進行深層次分析, 以便更好地從數據中發現知識,就得跟上技術的發展腳步,只有借用新型的技術,通過分析才能獲取更多智能的、深入的、有價值的信息。
大數據相關技術主要有數據采集技術、數據存取技術、統計分析技術和數據挖掘技術等幾個方面。
在數據采集階段,圖書館可以使用一些海量數據采集工具,如:Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,這些工具均采用分布式架構,能滿足每秒數百MB的日志數據采集和傳輸需求。
大數據存取包括關系數據庫、NOSQL(HDFS,HBASE,OceanBase,MongoDB等)、SQL等,基礎架構有云存儲和分布式文件存儲等。其中分布式存儲受關注度最高。
數據分析和挖掘工作在大數據處理過程中具有十分重要的作用。傳統的數據挖掘對關系型數據,非結構化的、半結構化的數據顯得力不從心,而大數據分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。
與數據分析過程不同的是,數據挖掘一般沒有什么預先設定好的主題,主要是在現有數據上面進行基于各種算法的計算,從而起到預測(Predict)的效果,實現一些高級別數據分析的需求。比較典型的算法有用于聚類的Kmeans、用于統計學習的SVM和用于分類的NaiveBayes,主要使用的工具有Hadoop的Mahout等。這些大數據技術都可以被圖書館應用到學科優勢分析、影響力評估、可視化圖譜、科技發展態勢監測等領域,進而得到更能揭示事物發展本質及規律的知識。
3.4 加強大數據人才培養
IDC認為,大數據相關人才的欠缺將會成為影響大數據市場發展的一個重要因素。而據該機構預測,中國大數據技術與服務市場將會從2011年的7,760萬美元快速增長到2016年的6.16億美元。大數據職位相關的技能主要包括數學、統計學、數據分析、商業分析和自然語言處理,數據科學家應該是復合型人才,能夠綜合掌控數學、統計學、機器學習等多方面的知識。
目前,圖書館的人才隊伍大多由具有圖書館學專業、計算機專業背景的人員構成,為了應對大數據時代,一方面圖書館可以改變招聘方向,引進一些具有統計學背景的復合型人才;另一方面,還可以對原有的員工進行大數據相關技術培訓,比如:可以將計算機背景的人員往技術專家方向培訓,而對一般工作人員可以進行一些基礎的統計、分析、挖掘方法培訓。
參考文獻:
[1] 維克托,盛楊燕.大數據時代[M].杭州:浙江人民出版社,2013.
[2] 王捷.大數據時代下圖書館開展信息服務的對策[J].現代情報,2013(3).
[3] 王天泥.大數據視角下圖書館的發展對策[J].圖書館學刊,2013(3).
[4] 王天泥.知識咨詢:大數據時代圖書館的知識服務增長點[J].圖書與情報,2013(2).
[5] 姜山,王剛.大數據對圖書館的啟示[J].圖書館工作與研究,2013(4).
[6] 朱靜薇,李紅艷.大數據時代下圖書館的挑戰及其應對策略[J].現代情報,2013(5).
[7] 吳金紅,張飛,鞠秀芳.大數據: 企業競爭情報的機遇、挑戰及對策研究[J].情報雜志,2013(1).
[8] 李奕.建立信息管理框架 應對大數據挑戰[N].中國計算機報,2012-03-26.
(編校:崔萌)endprint