〔摘 要〕介紹了大數據概念、種類和特點,指出了圖書館已經具備了大數據基本特征,在遞增的數據中快速地分析和挖掘出有價值信息并加以利用,是圖書館面臨新課題和新的發展機遇。為此提出了圖書館借助應用大數據技術,逐步完善信息服務體系所必須采取的五項措施。
〔關鍵詞〕大數據;數據分析;數據挖掘;圖書館;個性化服務
隨著當今世界計算機網絡技術的迅猛發展,數以億計的計算機和移動設備正在持續不斷地創造出數量驚人的信息,世界已經轉移到以數據為中心的范式上——“大數據”時代。近一時期,“大數據”一詞成為眾多機構關注的焦點,包括圖書館在內的信息服務機構希望借助應用大數據技術改進和完善服務模式。本文就圖書館應用“大數據”技術深化信息服務等問題闡述相關的一些理念和建議。
1 “大數據”概述維基百科定義“大數據(Bigdata)”是指所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理,并整理成為幫助企業經營決策更積極目的的資訊[1]。“大數據”涉及互聯網、經濟、生物、醫學、天文、氣象、物理等眾多領域。最早提出“大數據”時代已經到來的機構是全球知名咨詢公司麥肯錫。隨著互聯網技術的不斷發展,數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生產因素。數據本身是資產,這一點在業界已經形成共識。
1.1 大數據種類及特點(1)大數據主要包括以下幾種:①傳感器數據(sensordata):分布在不同地理位置上的傳感器,對所處環境進行感知,實時生成數據;②網站點擊流數據(clickstreamdata):用戶在網上進行有效的操作行為及其時間都被系統記錄下來;③移動設備數據(mobiledevicedata):服務機構可以通過用戶所使用的移動電話、PDA和導航設備等移動電子設備,獲得設備和人員的位置、移動、用戶行為等信息。上述數據源,以實時、迭代的方式不斷產生數據。(2)業界將大數據的特點歸納為4個V:①數據體量巨大(Volume)。按EMC的界定,“大”是指大型數據集,一般在10TB規模左右,多用戶把多個數據集放在一起,形成PB級的數據量;②數據類型繁多(Variety)。包括大量的網絡日志、XML、HTML、視頻、音頻、圖像及地理位置信息等非結構化數據;③價值(Value)密度低。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒;④處理速度快(Velocity)即1秒定律[2]。進入2012年,非結構化數據占有比例將達到互聯網整個數據量的75%以上,這意味著個性化數據時代的到來,異質性、個性化,才是數據的真正本質。
1.2 大數據應用的技術(1)大數據應用的步驟可分為“捕獲”、“組織”、“分析”及“決策”4個階段。首先,在匯集的所有數據中捕獲所有可用的數據,這些數據包括需要處理大數據量、低密度的信息;其次,以高度并行的方式組織和提取大數據,將大數據轉換為易于分析的內容并快速載入數據倉庫;再次,用分布式的技術框架(Hadoop),對非關系型數據進行異質性分析處理(NoSQL);最后,通過數據分析與挖掘,根據實時數據做出決策,從中產生出新的服務手段和模式。(2)從目前來看,大數據技術主要涵蓋的領域有可視化分析、大規模并行處理(MPP)數據庫、數據挖掘算法、分布式文件系統、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統[2]。大數據技術主要包括以下幾種:①Hadoop是一個分布式系統基礎架構,實現了一個分布式文件系統(HadoopDistributedFileSystem),簡稱HDFS。HDFS有著高容錯性的特點,而且它提供高傳輸率來訪問應用程序的數據,適合那些有著超大數據集的應用程序。②NoSQL(NotOnlySQL),意即反SQL運動,是一種與關系型數據庫管理系統截然不同的數據庫管理系統,也可以稱之為非關系型數據庫。它的數據存儲格式可以是松散的、通常不支持Join操作并且支持橫向擴展,可以處理超大量的數據。③MPP(MassivelyParallelProcessing),意為大規模并行處理系統,這樣的系統是由許多松耦合處理單元組成的,每個單元內的CPU都有自己私有的資源。當前,眾多IT企業對大數據技術開展了深入研究并推出解決方案和相關產品。例如:Oracle公司推出了大數據的集成解決方案體系,在此技術基礎上發布了Oracle大數據機(軟件/硬件);VMware推出了虛擬化架構+云平臺的項目Serenget;EMC推出了世界上第一個定制的、高性能的Hadoop專用數據協同處理設備——GreenplumHD數據計算設備(DataComputingAppliance)[3]等等。
2013年3月第33卷第3期現?代?情?報Journal of Modern InformationMar.,2013Vol.33 No.32013年3月第33卷第3期大數據時代下圖書館開展信息服務的對策Mar.,2013Vol.33 No.31.3 圖書館已具備大數據基本特征依據大數據定義,圖書館數據總量雖然還沒有達到PB級,但從圖書館存儲數據種類和數量以及未來發展趨勢上來說,已經初步具備了大數據基本特征。(1)圖書館的信息資源總量龐大且日益增長。如至2010年底,國家圖書館數字資源問題已經達到480TB[4];全國文化共享工程的數字資源總量達108TB[5],可以說單體圖書館的資源總量并未達到PB級,但全國總的圖書館數字資源總量卻是一個龐大的數據集。(2)伴隨著平板電腦、智能手機、SNS網站的出現,諸如視頻、音頻、圖片、微博以及移動終端用戶行為和服務等非結構化數據量逐年增加。依據發展趨勢,圖書館采集的非結構化數據最終將會超過結構化數據量。
2 大數據時代下圖書館開展信息服務的對策具備從動態遞增的各種類型的數據中,快速獲得有價值信息并加以利用的能力,是圖書館面臨的新課題和新的發展機遇,因為任何的時延都會導致服務失去時效的優勢。為此,筆者認為,置身在大數據時代,圖書館借助應用大數據技術,逐步完善信息服務體系,必須做好以下五項工作。
2.1 轉變傳統服務觀念 增強主動服務意識圖書館要適應時代的發展,轉變觀念,改進傳統的服務模式,增強主動服務意識,不斷探索和拓展服務體系的內涵和外延。為此,圖書館需要加強和完善組織管理、各種資源建設管理,以及有效的培訓、激勵、分析評價措施等科學有效的管理機制,促進信息服務體系的不斷完善。同時,也要積極吸納用戶參與到圖書館的服務體系中,諸如參與交互式參考咨詢、資源建設及服務評價等部分管理工作。通過這種方式使現有用戶和潛在用戶都可以意識到用戶與圖書館之間的實實在在的需求與服務的良性互動關系,對用戶的吸引力也越來越強,用戶滿意度也會逐漸提高,從而使用戶更加認可圖書館,而圖書館也因用戶的積極熱情的參與,其主動服務意識會愈發強烈,服務方式會更加貼近用戶需求。
2.2 拓展交流渠道 搭建交互式共享平臺圖書館可以借鑒社會上一些成功網站的經驗,加強自身網絡互動平臺建設。
2.2.1 開辟交互式共享平臺圖書館應該建立交互式共享平臺并開設用戶互助吧、論壇、社區等欄目,為館員和用戶、用戶與用戶之間開辟實時交流通道。用戶互助吧、論壇、社區是一種多人相互交流的平臺,既可以發揮圖書館參考咨詢人員主力軍作用,也可以去發現、培養和動員廣大熱心用戶參與圖書館參考咨詢服務中來。通過調動用戶參與提問與回答,利用集體智慧,來彼此分享知識、經驗或技能,滿足用戶對信息以及比信息更進一步的知識需求[6]。通過用戶的積極參與,使圖書館能夠更直觀地了解和掌握用戶的需求,為圖書館開展有針對性的服務工作打下良好的基礎。用戶既是信息服務的受益者,又是義務參考咨詢者,通過把自身檢索技能與經驗傳授給其它用戶的這種方式,就是對圖書館信息咨詢服務體系的有益補充。
2.2.2 開辟信息資源整合渠道目前,圖書館所有的信息資源都在網站上單向供用戶檢索下載,但在信息爆炸的網絡時代,用戶(個人或學院、系)手中往往掌握著大量本學科領域信息資源,而學科領域內其他用戶需要資源時首先會想到圖書館。圖書館在加強自身信息資源建設的同時,應該充分吸納廣大用戶參與圖書館資源建設,為用戶建立上傳資源的通道。這樣,既可以使圖書館館藏信息資源數量和種類不斷增多,又可以借圖書館這個平臺與其他用戶共享。當然,用戶上傳資源到圖書館一定存在良莠不齊的問題,圖書館應發揮與生俱來的信息組織能力,去粗取精,去偽存真組織、整合資源。另外,信息資源中的知識產權問題,也需要引起重視。
2.3 資源組織人性化 信息檢索簡便化圖書館的資源組織有著嚴格的規范標準,用戶檢索信息資源應按專業的科學體系查詢信息。如果用戶自身信息素質不高,又不熟悉圖書館館藏分類,在得不到當面咨詢、電話咨詢、E-mail咨詢等方式的幫助下,其利用圖書館檢索信息資源的時候往往不知如何下手,多數情況下是直接輸入他想當然的檢索詞。為了解決這類用戶檢索中遇到了難題,圖書館在網站上除了配備功能強大的幫助中心對新用戶進行全面引導外,圖書館需要在個性化需求和專業化資源組織之中尋求一個平衡點,既不能為了迎合用戶的需求而使資源組織混亂化,也不能只考慮規范問題而使資源組織專深化。圖書館需要在傳統的學科分類、主題分類之外,增加一些人性化的資源組織方法,適當考慮用戶的用詞習慣。如提供自然語詞的檢索,在后臺對自然語詞和主題詞進行匹配運算,然后給用戶提供一些智能化的檢索提示,增強用戶的搜索體驗。此外,在閱覽區的資源布局、閱覽環境設置上也應該體現人性化特征。
2.4 積極研究用戶需求特點 有針對性地開展個性化推送服務 隨著時代的進步,用戶的需求呈現出越來越個性化的趨勢,圖書館提供個性化服務就必須加強用戶需求的研究,以此掌握用戶的自身的特點、不同偏好和習慣模式等,創建滿足用戶的個性化信息環境,并隨其需求變化和館藏資源的更新,把信息推送給用戶,從而提升服務層次[7]。圖書館經過多年的發展,積累了大量的數據。其中既包括用戶來館后各種視頻設備、門禁通道、有線網絡、無線網絡等各種系統設備采集的用戶行為數據,也包括圖書館對用戶檢索/咨詢行為而做出的反饋數據。圖書館利用大數據技術把所有用戶在他之前、在他之后的群體智能、群體所有行為都匯集到一起,做深度挖掘和個性化,對每一個用戶都進行分析。針對每一個用戶的實際或潛在需求而得出圖書館應該推薦什么樣的內容、匹配什么樣的信息服務等,然后經過反饋機制,以面對面或網絡形式,把最合適的內容、以及未曾檢索的近似資源,分層次地推送給用戶,供其選擇,這不僅加大了用戶選擇的余地,也使用戶在檢索或瀏覽資源時不斷發現新的信息。個性化服務在提高用戶滿意度的同時,也將大大提高其參與度,反過來又會促進個性化服務進一步地發展。
2.5 完善學科館員制度 加強館員素質建設“學科館員”是根據學科專業特點及用戶需求,將信息資源(包括網上和館藏資源)加以收集、分類整理、編制索引資源庫,實現資源導航,提供個性化信息服務的館員隊伍。他們熟悉各種網絡工具檢索功能、檢索策略,并運用高效的檢索技巧回答用戶的檢索提問。完善學科館員制度,組織一批專業能力較強的圖書館員分別承擔起專門為某學科用戶提供深層次信息服務工作[8],是體現圖書館個性化服務水平高低的標志。通過學科館員隊伍的建設,帶動其他館員素質和能力的提高,對圖書館開展個性化信息服務起著至關重要的作用。
3 結 語圖書館應用“大數據”技術是要在信息服務功能方面來體現并發揮其作用,重點是在應用與服務功能的創新上面,而不在于技術本身。圖書館利用這些新的理念、先進的技術的最終目是提升圖書館服務效率與服務效能,并通過“大數據”來提升圖書館整體管理與服務的水平。
參考文獻
[1]維基百科[EB/OL].http:∥zh.wikipedia.org/wiki/%E5%B7%A8%E9%87--%8F%E8%B3%87%E6%96%99,2012-09-10.
[2]百度百科[EB/OL].http:∥baike.baidu.com/view/6954399.Htm,2012-10-02.
[3]天極網[EB/OL].http:∥dev.yesky.com/410/30424410.shtml,2012-09-15.
[4]國家圖書館“十二五”規劃綱要[EB/OL].http:∥www.nlc.gov.cn/--/dsbfooter/gygt/ghgy/,2012-10-12.
[5]全國文化信息資源共享工程介紹[EB/OL].http:∥www.cdcnc.gov.cn/--/libpage/gxgc/indes.htm/,2012-10-25.
[6]鄧勝利.國內外交互問答平臺的比較及其對策研究[J].情報理論與實踐,2009,(3):50-55.
[7]覃鳳蘭.個性化服務高校圖書館服務的新舉措[J].情報雜志,2005,(7):129-131.
[8]朱寶林.高校圖書館個性化信息服務探析[J].南京社會科學,2009,(12):80.