鐘克吟
(肇慶學院 圖書館,廣東 肇慶 526061)
大數據環境下圖書館信息服務的新模式
鐘克吟
(肇慶學院 圖書館,廣東 肇慶 526061)
大數據蘊含著大量結構化和非結構化的數據,建立在數據關系分析基礎上的預測是大數據價值的核心所在。圖書館信息數據的分析能力已經從基礎性分析、推測性分析提高到預測性分析層面,圖書館可充分利用用戶交互數據,從而分析和預測可能發生的信息行為。為此,圖書館應挖掘信息,實現可視化服務,整合數據,促進資源建設,完善體系,提高服務層次。
大數據;信息服務;圖書館
近年,借助云計算、數據倉庫和物聯網技術,大數據在多個領域得到廣泛應用并迅速成為社會研究熱點。同時,大數據也給圖書館信息服務工作帶來了極大挑戰,數據處理、挖掘數據的隱性信息和潛在價值,并根據數據關聯進行分析和決策預測將成為大數據時代圖書館信息服務的重要方向。
大數據之說源于美國McKensey咨詢公司,爾后《華爾街日報》和《紐約時報》同時開展討論[1]。大數據呈現多樣化特點,數據類型、數據結構和數據特征均存差異,數據結構不再單一。但是,大數據尚無統一定義。普遍認為,大數據蘊含聲頻、視頻、物聯網、個人信息、科學研究結果等結構化和非結構化的數據,是描述海量數據的集合,其規模遠遠超出傳統的信息量。
社會信息將都以電子數據的形式顯示和存儲,海量數據鑄就了大數據技術的誕生。據IDC(International Data Corporation國際數據公司)檢測,2020年全球數據將達35ZB,約為2010年的30倍。百度每天處理近100PB的數據并提供超過1.5PB的導航數據,這與5 000個國家圖書館的信息總量相當。然而,迄今人類印刷材料的數據總量僅有200PB[2]。
大數據超越了傳統數據庫的管理能力,為傳統的數據管理方式、數據來源、思維方法和處理方式帶來了顛覆性的變革。大數據技術是計算機領域的新一代技術和架構,能夠從大海量、高繁雜的數據中抓取有價值的信息數據。
大數據的時效性強,對數據進行實時的不間斷的擷取和處理所產生的效果,要比傳統的數據查詢和數據挖掘更快速有效。不過,由于海量數據之中摻雜著各種錯亂無效的信息,數據價值密度較低。
(一)大數據的核心價值
數據挖掘、人工智能等技術推動著大數據時代的進程,信號可以轉化為數據,人們把數據分析為信息,將信息提煉為知識,并以知識達成決策和行動,充分體現大數據的核心價值。
英國數據科學家維克托·邁爾-舍恩伯格(Viktor Mayer-Sch?nberger)指出,預測是大數據的核心價值,數學算法在海量數據中的應用為事件預測提供了可能[3]。
美國物理學會艾伯特—拉斯洛·巴拉巴西院士認為,人類大部分行為都受制于規律、模型及原理法則,其中93%的行為可以預測。預測建立于相關關系分析的基礎之上,對關聯物進行監控則可以預測事件發生的可能性。
網絡的搜索功能和普及程度足以使網上搜索記錄成為預測事件發生的有力證據。2013年3月,美國把數據定義為“未來的新石油”,政府投資2億美元拉動大數據相關產業,并積極發展亞馬遜、谷歌、蘋果等互聯網企業[4]。
百度公司著力打造一個開放平臺,為傳統企業提供大數據存儲、關聯和分析的能力。百度公司的“大數據引擎”包括百度大腦、數據工廠和開放云,它主要與政府、教育、醫療、金融等領域展開合作,更多行業將被卷入并加速發展[5]。
(二)大數據的發展應用
美國McKinsey Global Institute(麥肯錫全球研究院)的調查報告《Big Data:The Next Frontier for Innovation,Competition and Productivity》指出,全球將近87.5%的數據未得到充分利用。2011年9月,美國啟動“數字承諾”項目以研究開發科技和教育的交叉點服務,利用新媒體技術改變現有的教學方式與教學手段。
2012年3月,美國政府又實施“大數據研發計劃”,大力推動大數據技術并提高國民提取知識和分析數據的能力,從而加速美國發明創造的步伐[6]。同年10月,我國成立大數據專家委員會,旨在探討大數據核心技術與應用價值,并推動大數據學科發展,為構建數據共享平臺與大數據技術合作提供戰略性觀點[7]。
大數據的特色是從海量數據中挖掘用戶最需要的信息,大數據分析涉及的主要范圍如下:
1.可視化分析:采用大數據核心技術,通過云計算,關聯異構數據,多方面多角度直觀地展示搜索結果,向用戶提供圖文聲像等可視化分析。
2.預測性分析:對海量歷史數據進行分析,并建立有效的數字模型,從而預測數據發展并提供個性化信息推送服務。
3.數據價值挖掘:快速、深入、有效地對海量數據包括關聯類型和結構各異的數據進行過濾、整合,最大程度地挖掘數據潛在價值。
4.語義引擎:通過人工智能系統,使用自然語言,主動識別和搜集用戶的數據語言,或者提取文件的語義信息并自動進行搜索結果與關聯信息的個性化推送。
5.數據質量管理:對數據從計劃、獲取、存儲、共享、維護、應用到消亡整個生命周期中可能發生的質量問題進行識別、度量、監控、預警等一系列管理活動,并通過改善和提高組織管理水平以提高數據質量。數據質量管理能推動大數據通過標準化流程和工具最大化而實現數據的價值,是數據處理的關鍵[8]。
大數據對圖書館的資源存儲和服務方式提出了挑戰,圖書館的數據數量和種類及未來的發展趨勢都呈現出大數據的特征,大數據的相關技術與應用理念對圖書館發展產生著深遠的影響。
圖書館資源囊括了以結構化和非結構化方式呈現的大量數據,如音視頻資源、圖片、微博、移動用戶的行為和服務信息以及讀者進館時間、所處位置、搜索記錄、搜索時間、瀏覽歷史,還有館員的服務內容、服務時間等。
隨著數據搜集、傳輸、存儲及處理能力的提高,人們不僅可以利用因果關系而且還能夠根據海量數據并依靠相關性理論來認識世界,通過分析細微數據之間相關性的方法找出某個現象的良好關聯物,利用其間的相關關系分析現在和預測未來。
以往,圖書館數據分析以定性推測為主,由主觀經驗推測事物的發展趨勢。而在數據時代,圖書館數據分析能力逐漸從基礎性與推測性分析向預測性分析邁進,分析大型的數據集合,建立數據模型,發現數據關聯關系,以預測事物的發展方向并作出合理解決方案。
目前,圖書館信息服務除了利用基礎數據之外,還可以根據大數據的關聯與隱性信息,由靜態收集數據向動態跟蹤數據及發掘隱性信息拓展,以提供更加精準的個性化服務。
可見,大數據的關聯與隱性信息必將成為圖書館信息服務的關注重點與拓展方向。相關性理論使人們擺脫了對直覺、經驗、常規邏輯推斷、因果關系分析等傳統方法的依賴,進而運用海量數據表達新的關聯模式。
大數據的關聯與隱性信息的運用能夠發掘信息反饋的潛在價值,增進數據分析的廣度深度,指導信息服務的模式與方向定位,信息服務從被動轉向主動,原來僅限于單一的專題報告和輿情監測,現在則能夠提供數據驅動型信息專題和趨勢性預測報告。
為此,圖書館應加強用戶研究,充分利用交互數據,對用戶隱性信息進行深度挖掘并建立用戶偏好模型,分析和預測未來可能發生的信息行為。開展個性化與多樣化的服務、提供預測性的信息服務產品,提供具有前瞻性且較為精準的信息服務。
大數據環境下圖書館信息服務具有交互性、個性化、主動性、多樣化等特征。它從數據、信息、知識、智慧四個層面展開服務,形成了信息可視化服務、一站式資源服務、學科知識服務和智慧服務四種模式。
(一)挖掘信息資源,實現可視化服務
可視化技術為用戶獲取信息、整合利用資源和個性化定制等方面提供了便利。通過云計算、hadoop等技術對大數據進行分析,挖掘可資利用的信息,并將抽象分散的數據轉化為直觀形式,既解決了圖書館的異構數據問題,又使圖書館的數據分析與應用提高了層次。
通過可視化技術,挖掘用戶的實際需求和潛在需求,把集中性的數據和隱性信息的關聯關系呈現出來并反饋給用戶,使用戶能夠發現那些有用的而且數據集中的潛在信息資源,從而提高圖書館對用戶信息需求的預測能,并為用戶提供定制化的信息服務。
(二)整合信息數據,促進資源建設
大數據環境下的圖書館數字化資源包括館藏書目數據庫、自建特色資源數據庫、電子出版物、隨書光盤等現實館藏資源以及網絡數據庫、在線出版物、開放存取資源等虛擬館藏。這些數據具有不同的數據結構,擁有各自的接口,來源于不同的數據庫,尤其是社交媒體類的信息資源更為復雜,整合這些資源需要運用大數據技術。
廣泛采集有價值的大數據信息并加以整合利用從而完善圖書館信息資源,這是促進圖書館數據資源建設的關鍵。信息數據主要有三類:1.資源性數據信息。它是科研人員在科研過程中,通過觀察、實驗、實證調查、推理等方法而積累的實驗數據集、調研報告、研究過程記錄、工具方法等大量有價值的科研數據,圖書館應加以采集整合,通過建立機構庫的形式,實現對科研數據的有效保存與共享。如康奈爾大學圖書館的DataStar數據庫,用戶可以自主上傳數據信息,利于數據的存檔和出版,實現數據研究過程的合作共享[9]。2.與經濟社會發展息息相關的數據。圖書館應與政府相關部門合作,通過資源共享與合作研究獲取信息數據加以研究利用,為社會經濟發展提供有價值的信息服務。3.用戶數據。這包括用戶使用數字資源的實時情況、社交媒體交互數據以及用戶訪問互聯網的行為數據等,這些數據的采集分析有利于挖掘用戶的個性化需求,從而為圖書館的個性化服務提供參考依據[10]。
通過大數據技術,把成熟的信息采集模式與先進的數學模型結合起來,從浩瀚紛繁的數據中快速采集、分析和挖掘,識別和定位高質量信息,整合數字化信息資源,建立各類型數據庫或虛擬存儲空間,再設計統一接口,利用大數據智能化檢索技術,實現多樣性一站式的資源服務。
(三)完善服務體系,提高服務層次
知識服務是以采集、分析、重組信息為前提,對各種顯性和隱性信息資源進行挖掘、分析、重組,形成有價值的知識產品的服務。
大數據環境下,圖書館通過信息資源平臺,為廣大用戶提供相應的學科知識服務。通過分析不同用戶檢索某一個學科信息的頻率,找出一定時間段用戶感興趣的學科,再運用數據挖掘和聚類分析方法,預測某個時間段學科研究的熱點以及學科之間的關聯與交叉。同樣,采集圖書館借閱系統中用戶的借閱情況統計數據和圖書流通日志,再通過數據挖掘,分析用戶與信息資源之間的知識關聯,可以發現一定時間段用戶的喜好與資源關注熱點,利用這些知識關聯可以為用戶提供學科知識服務。
圖書館服務的發展除了依靠信息資源和技術工具之外,館員智慧也舉足輕重,而基于館員智慧的知識服務稱為智慧服務[11]。
目前,圖書館可將大數據的信息挖掘技術應用到信息服務中,主動為用戶提供個性化定制服務。通過對用戶的信息需求進行分析處理,提供專業化、智能化、前瞻性的信息服務,提高用戶對信息服務的滿意度,實現基于數據挖掘的智慧化服務[12]。
大數據時代,圖書館應根據用戶需求與實時熱點,強化豐富有效數據,完善資源,處理分析數據,通過知識挖掘發現用戶偏好,為用戶使用資源提供綜合服務。圖書館通過對用戶借閱情況、資源檢索行為等數據的挖掘來分析用戶群體間借閱情況的差異以及用戶的信息資源需求和研究動向等內容,再運用關聯規則、協同過濾與聚類分析等方法,依據關聯資源、讀者喜好變化等情況,建立用戶數據資源需求意向分析與推薦模型,主動推送用戶需求的數據資源,完善服務,提升圖書館的核心競爭力。
隨著信息技術的飛速發展,大數據處理技術及管理模式日新月異,為信息數據處理模式帶來了挑戰與機遇。圖書館理應順應大數據發展潮流,關注大數據的技術發展與核心價值,對信息資源快速定位,為用戶提供全面準確的可視化信息資源,并從提供描述事實的專題報告和輿情研究等服務形式,逐步向能預測事件發展趨勢并為用戶提供精準、個性化、前瞻性的服務模式轉變。
目前,大數據的研究與技術應用將是圖書館服務創新與發展的重要領域,圖書館應關注和研究大數據技術的發展和應用,增強數據技術敏銳性,建立完善新型的知識服務模式,注重培養高素質館員,提升信息服務水平,著力解決信息服務新問題,全面提高圖書館的社會服務能力。
[1]胡小箐,范并思.云計算給圖書館管理帶來挑戰[J].大學圖書館學報,2009(4):7-12.
[2]李鵬云.大數據與圖書館服務[J].農業圖書情報學刊,2013(9):179-181.
[3]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數據時代[M].盛楊燕,周濤譯.杭州:浙江人民出版社,2013:16.
[4]徐子沛.大數據:正在到來的數據革命[M].桂林:廣西師范大學出版社,2012:57-58.
[5]陳超.圖書館如何迎接大數據時代?[J].圖書館雜志,2014(1):4-7.
[6]李健.美國的大數據研發計劃及對我國的啟發[J].中國科技資源導刊,2013(1):17-23.
[7]王忠.美國推動大數據技術發展的戰略價值及啟示[J].中國發展觀察,2012(6):44-45.
[8]劉明,李娜.大數據趨勢與專業圖書館[J].中華醫學圖書情報雜志,2013(2):1-6.
[9]洪程.國外科學數據服務現在研究[J].圖書館雜志,2012(10):31-34.
[10]沈志宏.OpenCSDB:關聯數據在科學數據庫中的應用研究[J].中國圖書館學報,2012(5):17-26.
[11]梁光德.智慧服務知識經濟時代圖書館服務新理念[J].圖書館學研究,2011(6):88-92.
[12]楊艷.基于大數據的數字圖書館信息服務研究[J].數字技術與應用,2015(7):56-57.
The New Model of Library Information Service in Big Data Environment
ZHONG Keyin
(Library of Zhaoqing University,Zhaoqing,Guangdong 526061,China)
Big data contains large amounts of structured and unstructured data,the core value of which is to predict based on data correlation analysis.The analysis ability of the library information data has increased from fundamental analysis,speculative analysis to predictive analysis.Library user interaction data should be made good use of so that the possibility of information behavior can be analyzed and predicted.Therefore,librarians should mine big data information,realize the visualization service,integrate data,promote the construction of data resources,perfect the system and improve the service level.
big data;information service;library
G252
A
1009-8445(2016)03-0097-04
(責任編輯:禤展圖)
2015-12-18
鐘克吟(1980-),女,廣東汕頭人,肇慶學院圖書館館員,高級程序員。