嚴浪
(肇慶學院圖書館,廣東 肇慶 526061)
大數據在圖書館的應用與對策
嚴浪
(肇慶學院圖書館,廣東 肇慶 526061)
大數據可以提高圖書館的智能化水平,為用戶提供個性化服務,為科研和資源建設提供幫助,同時又存在不可預知的事件、用戶隱私難以保護、數據所有權容易喪失、結果缺乏因果關系等局限,為此提出要堅持資源為王的理念、保護用戶隱私、構建社會各領域參與的數據聯盟、堅持定性和定量相結合的原則、樹立做大數據應用的后進者思想等對策。
大數據 圖書館 局限 對策
近段時間以來,“大數據”成為繼云計算后最火的詞語。大數據具有大價值,這似乎是每個人都認同的觀點,但人們往往總是關注事物好的一面,認為大數據完美無缺,忽視大數據的局限性。不可否認,大數據能夠給很多企業、事業單位帶來不可估量的經濟價值和利益,直接影響他們的未來走向。但是如果人們看不到大數據的劣勢,對它魔幻化,這是不客觀的,也不利于大數據的發展。其實大數據是一把雙刃劍,在給企業、事業單位等帶來無往不利的前進動力的同時,往往也會對其造成傷害。因此,辯證地看待大數據的優劣,有著重要的現實意義[1]。筆者基于圖書館應用的角度來探討其前景和局限,樹立人們正確的優劣觀,并探討大數據在圖書館應用的對策。
目前對大數據還沒有統一的定義,研究機構cartner認為大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,大數據指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統處理方法的數據集[2]。雖然大數據還沒有統一的定義,但目前通常認為有下述4大特征,稱為“四V”特征:①量大(Volume Big);②多樣化(Variable Type);③快速化(Velocity Fast);④價值高和密度低(Value High and Low Density)[3]。
2.1 提高圖書館的智能化水平
順應時代發展趨勢,提供智能化服務以更好地滿足用戶需求是圖書館必須考慮的重要問題。在大數據時代,要求圖書館必須采用更好的軟硬件和更好的技術以便自動收集處理高級和復雜的數據,這樣一方面能在一定程度上節省人力物力,另一方面也能解決人力無法實現的工作需求,如對海量信息數據的關鍵詞抽取、智能抓取等,從而提高圖書館自身的智能化水平;隨著圖書館服務智能化程度的提高,智能化決策所需的視頻、圖片、文本等信息及生活數據、社交信息等大量的非結構化、半結構化數據都容易取得,從而有利于提高智能化決策水平;智能化水平的提高,可對用戶數據資料進行智能分析,快捷地得到精準的調查內容,并為用戶提供各種智能服務;同時圖書館服務智能化程度有利于智能發現和挖掘知識,把隱性知識轉變為顯性知識[4],提高圖書館知識服務水平。這種智能化的工作方式提高了圖書館的管理效率和服務效益。
2.2 更好地為用戶提供個性化服務
圖書館個性化服務是在數字環境下利用各種技術分析用戶偏好、使用習慣和背景的基礎上為用戶提供的差異性服務。用戶的需求是圖書館發展的動力和源泉,不論是科技圖書館還是公共圖書館和高校圖書館,都應該為用戶提供個性化服務以提高圖書館的服務水平。圖書館為了更方便、更有針對性地提供個性化服務,應當先了解用戶的個性化需求[5]。但是如何精準地把握用戶具體的個性需求卻不容易,現在有了大數據,可以根據用戶數據精準析出有用信息,建立用戶模型,預測用戶偏好、需求和習慣,為用戶提供個性化服務。
2.3 為科研用戶把握研究熱點以及研究動向提供幫助
科研部門和科研工作者的科研選題、立項、決策都離不開本學科研究熱點和研究動向,圖書館可以利用大數據通過建立基于時間軸的趨勢分析和以學者為中心的知識關聯網絡等為他們提供最新的科研走向及相關研究領域其他科研人員的研究進展。通過這種大數據的分析,有利于科研部門與科研工作者掌握和了解本學科的發展趨勢,從而提升圖書館在科研領域中的作用[6]。如清華大學圖書館利用分析數據集合海量文獻特點,獲取清華大學目標學者及合作者的學術出版物、期刊會議等信息,應用開放鏈接技術準確定位清華學者學術出版物的全文,采用可視化視圖的方式直觀展示學者的學術歷程,以及以學者為中心的科研網絡,為用戶了解該學科的發展脈絡、預測未來的發展方向提供幫助,得到用戶的良好反饋[7]。
2.4 為資源建設及評價提供意見
文獻資源建設是圖書館依據用戶的文獻情報需求,有計劃地選擇、收集、組織、管理文獻資源,從而建立滿足用戶需求的藏書體系的全過程,它是圖書館的重要組成部分。文獻資源建設目標的確定取決于需求的性質,數量是否合理,以及文獻資源建設的可能條件。文獻資源建設中無論對現有文獻資源狀況的調查、分析和研究,還是定期進行文獻資源建設評估活動都需要對館藏狀況和使用狀況進行定量分析[8],以前這是比較棘手的工作,現在通過大數據分析可以簡單有效地評估用戶對各種資源的使用情況,并且通過對用戶平日訪問歷史數據的收集,可以預測用戶關注的熱點,這為有效評估圖書館已有文獻的質量以及用戶對未購買文獻的需求提供了支持[6]。
3.1 不可預測不可預知的事件
大數據的核心功能之一就是預測。但它只能基于過去的數據來預測將來,當過去不可掌握時,它便無計可施,大數據沒法預測不可預知的事情,或者是毫無先兆的事情。即便是過去看似可以掌握,以大數據為標尺的預測決策也不一定準確。大數據從來都不可能是“原始”的,數據總是依照人的傾向和價值觀念而被構建出來的。這讓數據的生產往往也掩蓋了價值觀念。人們所見的大數據分析結果看似客觀公正,但其實價值選擇貫穿了從構建到解讀的全過程。從這個意義上講,大數據也不能成為人們決策的精準標尺。真正的“黑天鵝”隱藏于無形之中,是很難被發現的[9]。
3.2 用戶隱私難以保護
隱私權是指自然人享有的私人生活安寧與私人信息秘密依法受到保護,不被他人非法侵擾、知悉、收集、利用和公開的一種人格權[10]。而圖書館利用大數據必定要分析用戶,分析用戶過程中會收集、分析、傳輸個人用戶的身份特征、消費習慣等個人隱私,這對于個人用戶來說是很難接受的事情。圖書館在傳輸這些個人用戶數據時可能會遇到麻煩,如很有可能有人對這些個人用戶數據進行了監控等操作,這就加大了其泄露的可能性,數據一旦泄露,很可能為個人帶來難以挽回的損失,而個人卻又不知道自己的數據是如何泄露出去的,這使個人用戶的隱私權受到挑戰。
3.3 數據所有權容易喪失
大數據時代圖書館無法自主研發數據分析工具,主要由專業的系統商和數據商來承擔開發,他們擁有更多的專業人員、資金等,圖書館購買系統商和數據商軟硬件時容易被他們綁定。系統商和數據商為了取得商業利潤,在推出解決大數據方案時常提供兼容性不強的軟件、硬件設備,使得圖書館很難去改變一個提供商,尤其是在軟件方面,很容易被一個系統商和數據商綁定[11]。這樣圖書館本身的大數據就被數據提供商擁有,圖書館蛻變為大數據使用者,隨著數據的迅速增長,圖書館作為數據所有者的社會地位日漸式微,作為數據使用者的社會地位日趨高漲。數據被系統商和數據商占領,最后圖書館的發展不再完全由圖書館人主導,更多是由系統商和數據商驅動[12]。
3.4 大數據的結果缺乏因果關系
世界上一切事物都是普遍聯系的,整個世界就是一個有機的整體。任何現象都會引起其他現象的產生,任何現象的產生都是由其他現象所引起的,圖書館學也是一個有機的整體,是一門綜合性的學科。圖書館學研究中運用的方法是在哲學基礎之上的各種科學方法交叉應用和有機結合[13]。而大數據的研究方法只能統計某件事情發生的頻率和相關性,不能得出因果關系[14]。因此大數據只能解決階段性問題,而對于圖書館規劃戰略等問題束手無策,甚至隨著這些沒有實際意義的相關關系數據的增多,由此得出的結果可能將人引入歧途。
4.1 堅持資源為王的理念
隨著大數據技術在圖書館的應用,有人認為它無所不能,甚至將其功能擴大化,這是在淆亂圖書館的使命,模糊圖書館的價值。大數據是一種技術,無論什么時候,擁有資源都比獲取資源更重要,這是圖書館賴以存在和發展的根基。任何幻想以獲取資源取代擁有資源的企圖,都將使圖書館走上一條不歸之路[12]。圖書館的生命力在于資源,特色資源建設能夠顯現一所圖書館的學術地位,特別是對于高校圖書館來說,學科建設的發展很重要,學校擁有了這些資源也就擁有了學科的制高點[15]。技術在變化,但是圖書館收集、整理、保存和利用人類文化遺產的職能不會改變,因為這是社會賦予圖書館的天職和神圣使命。
4.2 保護用戶隱私
圖書館要在業務中應用大數據,不可避免地會侵犯用戶個人信息、行為記錄等個人隱私權,而用戶又不想隱私權喪失,因此如何避免保護過度而影響圖書館業務的開展,如何在開發個人信息的同時加強用戶隱私保護就成為一個重要的問題。筆者認為可以從以下幾個方面著手:保障用戶知情權,圖書館在使用用戶的個人相關信息時一定要征得用戶的同意,并且使用目的發生變化時要告知用戶;加強法制建設,通過立法保護個人隱私;加強政府對個人隱私保護的行政監管;加強對個人隱私權的技術保護,技術手段是法律措施的重要補充,要鼓勵隱私技術的研發和創新[16]。
4.3 構建社會各領域參與的數據聯盟
圖書館利用大數據技術必須更新軟硬件設備,需要投入不少的資金,而圖書館的資金有限,應把資金主要用于購買文獻資源上,因此為了節省財力物力,可以走聯盟發展的道路,建立數據聯盟,共同購買軟硬件,這樣既便于聯盟內單位開展如通借通還和聯合目錄查詢等業務,又可開發大數據分析所需的軟件,避免被系統商和數據提供商綁定。在大數據時代,要不斷提升圖書館的核心價值,就必須加強館際聯盟、跨領域合作與國際合作,同時還應建立包括學術研究者、出版界、基金等社會各相關領域的數據聯盟[17]。
4.4 堅持定性和定量相結合的原則
大數據只能統計某件事情發生的頻率和相關性[14],是對現象的數量關系、數量特征與數量變化的分析,只能揭示和描述圖書館用戶、資源建設、學科研究發展趨勢,是定量分析。而圖書館學作為一門科學,是研究圖書館的發生發展、組織管理以及圖書館工作規律的科學,其目的是總結圖書館工作和圖書館事業的實踐經驗,建立科學的圖書館學理論體系,以推動圖書館事業的發展,提高圖書館在人類社會進步中的地位和作用。所以研究圖書館學必須運用歸納和演繹、分析與綜合以及抽象與概括等定性的研究方法,對獲得的各種材料進行思維加工,從而能去粗取精、去偽存真、由此及彼、由表及里,認識事物本質、揭示內在規律。總之研究圖書館學不但需要定量分析而且還需要定性分析,二者結合起來靈活運用才能取得最佳效果[18]。
4.5 樹立做大數據應用的后進者思想
圖書館應該做大數據應用的后進者,所謂后進者,不是落后者,而是絕不冒進,絕不充當大數據產品的試驗者[12]。大數據在圖書館的應用可以提高服務質量和管理效率,但投資大數據分析所需的3種技術工具(軟件數據庫設備、硬件數據庫設備和分布式數據庫設備)需要不少的經費,這是作為公益性機構的圖書館所不具備的;并且多數的大數據項目都以失敗而告終[19]。如果試驗失敗,將造成不可估量的損失。圖書館可以在其他行業取得成功應用后再進行使用,做成功經驗的踐行者。目前大數據在醫療、能源、交通和金融等行業的應用較為普遍,積累了很多經驗,如對隱私等方面的處理,圖書館可以向這些行業學習,避免走彎路。
隨著大數據在圖書館應用實踐的推廣可能還會出現更多的不足,圖書館要不斷地總結并提出改進策略,以便更好地為用戶提供服務,同時也為其他行業應用大數據提供參考。
[1]隱私權受威脅 大數據到底有哪些弊端?[EB/OL]. [2013-12-24].http://tech.hexun.com/2012-12-26/149514 539.html.
[2]大數據概念[EB/OL].[2013-12-24].http://bbs.pinggu.org/ bigdata.
[3]陳如明.大數據時代的挑戰、價值與應對策略[J].移動通信,2012(17):14-15.
[4]韓翠峰.大數據時代圖書館的服務創新與發展[J].圖書館,2013(1):121-122.
[5]楊濤,曹樹金.圖書館用戶的個性化服務需求實證研究[J].大學圖書館學報,2011(2):76-85.
[6]姜山,王剛.大數據對圖書館的啟示[J].圖書館工作與研究,2013(4):52-54.
[7]鄧景康.大數據環境下清華大學圖書館的實踐[N].中國新聞出版報,2013-08-29(005).
[8]文獻資源建設.百度百科[EB/OL].[2013-12-24].http:// baike.baidu.com/link?url=USsM53fyp9UTJgmMMAeQnGHk0ENW3K8JDj9T__s7Axx0U1eWb7bIAP7an_sN_h4K.
[9]萬能的大數據 技術不是最精準的決策標尺[EB/OL]. [2013-12-24].http://mobile.163.com/13/1213/16/9G056EA R001166V8.html.
[10]隱私權.百度百科[EB/OL].[2013-12-24].http://baike.baidu.com/link?url=CJLedbgwNt2ZzqT-73aX0x7iY2Li5F6vj OGMPTIkrJ-iZzhK79SNOyjOePvwAey.
[11]給大數據潑點涼水 辯證看待大數據[EB/OL].[2013-12-24].http://www.d1net.com/cloud/news/201595.html.
[12]程煥文.知識因發現而更加美麗[EB/OL].[2013-12-24]. http://blog.sina.com.cn/s/blog_4978019f0102e2if.html.
[13]因果關系[EB/OL].[2013-12-24].http://baike.baidu.com/ link?url=rQIC3rj1akLk-F1_eRSUkp7uUwLn843Gt4Dv2-_iqdtHJoV1lPjIm59KTW7tQM09.
[14]盧朵寶.美國學者質疑“大數據”[N].理論經濟參考報,2013-06-14(08).
[15]苗松,等.我國移動圖書館熱的冷思考[J].圖書館建設,2013(4):13-16.
[16]大數據時代網民隱私如何保護[EB/OL].[2013-12-24]. http://www.cnii.com.cn/wlkb/rmydb/content/2013-03/11/c ontent_1106579.html.
[17]王玉梅.學術型圖書館如何適應大數據[EB/OL].[2013-12-24].http://data.chinaxwcb.com/epaper2013/epaper/d56 08/d5b/201308/36674.html.
[18]圖書館學[EB/OL].[2013-12-24].http://baike.baidu.com/ link?url=D0wfPPF11KqdPiCcE2hib_rvLhQJC7oDUBV75 q1iHKmAPnpI3Rz-7vuJxN7TjvTB.
[19]為何多數的大數據項目以失敗告終?[EB/OL].[2013-12-24].http://www.thebigdata.cn/JiShuBoKe/7534.html.
嚴 浪男,1972年生。本科學歷,副研究館員。研究方向:信息服務與評價。
G250
2014-01-29;責編:王天泥。)