杜 璟
(華東師范大學圖書館,上海 200241)
大數據目前尚無統一定義,通常被認為是一種數據量很大、數據形式多樣的非結構化數據。大數據種類繁多,數據量龐大,含有大量半結構化、非結構化的數據,對這些數據的深度挖掘成為時下研究的熱點。在大數據時代,作為圖書館服務功能之一的文獻傳遞服務,如何應對復雜數據的產生,并保存、分析這些數據從而挖掘出更有價值的信息,成為新環境下圖書館員面臨的一大挑戰。
1980年,著名的未來學家阿爾文·托夫勒在《第三次浪潮》一書中,熱情地將大數據贊頌為“第三次浪潮的華彩樂章”;1998年《科學》雜志上一篇介紹軟件HiQ的文章《大數據的管理者》(A Handler for Big Data)也應用了這一說法;大數據概念的首次提出,是在2001年5月全球知名咨詢公司麥肯錫發布的報告《大數據:創新、競爭和生產力的下一個前沿領域》中[1],但大約從2009年開始,“大數據”才成為互聯網信息技術行業的流行詞匯,尤其是2012年3月,奧巴馬政府宣布推出“大數據的研究和發展計劃”,投資兩億美元拉動大數據相關產業發展,推進和改善聯邦政府部門的數據收集、組織和分析工具及技術,將“大數據戰略”上升為國家戰略[2]。大數據被稱為“未來的新石油”[3],成為2012年最熱門的詞匯之一。
在大數據時代,信息技術飛速發展,數據成本下降促使數據呈數量級增長,尤其是非結構化數據。根據IDC監測,大數據量大約每兩年翻一番,預計到2020年,全球將擁有35ZB的數據量,將比2010年增長近30倍[4]。非結構化數據的增加增大了數據的復雜性,提高了數據分析及挖掘的難度。IBM概括大數據有3個特性:多樣化(Variety)、速度快(Velocity)、容量大(Volume),而以IDC為代表的業界將價值高(Value)也列入大數據的特性,即“4V”[5]。從大數據目前的應用實例中不難發現,對大數據的分析具有重要的研究價值和商業價值,這有助于推動以大數據為基礎的科學研究。
在大數據時代,數據像企業的固定資產和人力資源一樣,成為企業的生產力,這是大數據時代的獨特現象[6]。數據容易共享,對數據不同方向、深度的分析,會產生新的知識和信息,且隨著使用次數的增加,數據反而會增值。IBM的研究部門正在研發針對醫療文獻的分析工具,對此類極具行業屬性的非結構化數據展開研究,希望能夠幫助醫生解決復雜的醫療問題。通過對大規模數據的查詢,提升機器學習的能力,最終達到提高分析決策水平的目的。IBM同時在探索將并行化處理技術擴展到統計方法中,從而更加有效地處理大量數據[7]。大數據價值目前主要體現在商業界,根據IDC和麥肯錫的研究結果,其價值主要體現在以下4個方面:細分客戶群體,有針對性地采取獨特行動;運用大數據模擬現實,發掘新需求,提高投入回報;提高大數據成果的分享程度,從而提高產業鏈的投入回報率;最后是進行商業模式、產品和服務的創新[6]。市場研究機構Gartner發布的《2013年10大科技戰略趨勢(Top 10 Strategic Technology Trends for 2013)中,明確將大數據戰略列為最新科技潮流,《紐約時報》也有報道稱“大數據時代”已經來臨,在商業、經濟及其他領域中,數據和分析將取代經驗和直覺,成為決策的重要依據。
文獻傳遞服務是館際互借服務的延伸物,是指供應者以計算機、網絡等技術,運用現代化的設備,將已確知的出版或未出版文獻傳遞給使用者的一種服務,文獻傳遞通常是非返還式的,傳遞內容包括期刊論文、會議論文、學位論文、報紙、標準、專利和報告等[8]。早期的文獻傳遞服務主要是圖書館間的館際合作,最先由科學技術發達的英美兩國提出[9]。20世紀90年代,隨著網絡技術、遠程通信技術和數據庫技術的不斷發展,電子出版物、數字圖書館和網絡數據庫成為文獻資源的重要載體,電子文獻傳遞服務也隨之進入繁榮的發展時期[10]。進入21世紀,信息技術的大量介入使文獻傳遞服務進入新的發展階段,國內主流的5大文獻傳遞系統CASHL、CALIS、NSTL、LCAS、中國國家圖書館[11],基本滿足國內各高校圖書館、上海圖書館、國家圖書館及中科院系統的資源共享,同時也能實現向國外部分機構傳遞文獻的服務。
在大數據時代的背景下,呈數量級增長的數據給信息技術帶來新的挑戰和機遇。圖書館作為知識信息服務的社會中心,為讀者提供潛在的知識挖掘、知識評價、數據分析等增值服務成為新的趨勢。目前,大量的研究報告對文獻傳遞服務進行了充分而全面的探討,主要從傳遞系統管理體制、服務模式、收費方式、資源整合等方面進行論述。大部分學者認為,面向最終用戶的無中介文獻傳遞服務是文獻傳遞的發展方向,這種服務模式有利于節約人力,并減少讀者使用費用,提高傳遞效率;在高質量、高準確率的目次數據庫基礎上,這樣的服務模式更受讀者歡迎。文獻傳遞服務是圖書館知識服務的重要組成部分,但依托中介的文獻傳遞服務中,圖書館員扮演的角色是比較機械而單一的,在相對穩定的文獻系統中,圖書館員有限的拓展空間僅限于提高檢索數據的速度和準確性,縮短索取文獻的時間等。從長遠看來,這并不能為文獻傳遞服務帶來新的生機,在大數據時代,從新的角度思考文獻傳遞的發展方向顯得尤為必要。
隨著網絡信息技術的發展,文獻傳遞服務不僅限于主流的各大文獻傳遞系統,讀者需要的資源也不再只是傳統的期刊文獻、報紙、專利、報告等,文獻傳遞服務中產生的非結構化數據如文字、圖片等,傳統的數據庫無法做到系統的、長時間的保存。雖然云計算解決了海量數據的存儲,但其自身仍存在一定的安全問題。在大數據時代,圖書館員只有掌握了讀者用戶的信息,包括個人身份、借閱記錄等結構化數據,以及大量的存儲信息行為、搜索方式等半結構化、非結構化數據,才能通過對海量的多類型數據進行分析而得到更有價值的信息。
目前國內對文獻傳遞服務的研究討論方法,主要是利用簡單的Excel等工具對大量結構化數據進行淺層次分析。因此,文獻傳遞中用戶行為、文獻需求等的挖掘分析,對主動掌握用戶需求,改善文獻傳遞服務將極具價值。在大數據時代的背景下,挖掘大數據的價值,分析其深層的意義,簡單的定性定量分析已經不夠,技術工具的作用將得到進一步發揮。聚類分析、數據挖掘、網絡分析、可視化分析、數據融合與數據集成等,尤其是聚類分析、可視化分析和數據挖掘技術,對于深層挖掘用戶數據、主動掌握讀者文獻信息需求變化具有重要作用。
傳統的文獻傳遞服務中,圖書館員扮演的僅僅是中介的角色。而實際上,不需中介參與的文獻傳遞系統更受到讀者的歡迎。無中介的傳遞模式下,無需圖書館員代為發出申請,再將收到的文獻轉發給讀者,這樣的模式有效提高了文獻獲取效率,節省了人力物力,降低了資源利用成本。作為國內主要的文獻傳遞系統,CASHL和NSTL是我國人文社科領域和自然科學領域最具代表性的集中式的無中介文獻傳遞服務體系,有效地利用成員單位的原有館藏和人力基礎,節省經費,操作方便,能準確定位資源,受到讀者的歡迎。建立有效的資源整合機制,構建知識資源導航體系,提供一站式、智能化的服務是文獻傳遞服務新的發展方向。
隨著學術研究環境的發展和研究形態的變化,科學研究所需要的資源已遠遠超出傳統圖書館收藏的文獻范圍。在21世紀,用戶的個性化服務成為企業研究的重點,對文獻傳遞服務也不例外。讀者對信息服務的要求越來越高,提供“交互、即時、精準、個性化”的文獻傳遞服務成為圖書館員的內在責任[12]。張曉林在第11屆International Conference on Interlending and Document Supply會議所作的主旨報告中提到,在新的科學研究形態和信息開放的環境下,文獻傳遞應不再限于傳遞系統及其流程建設,應該將關注重點放在發現、篩選、獲取所需信息對象以及有序可靠流暢經濟地組織相關供應鏈[13]。大數據時代下,如何快捷經濟地向用戶提供所需要的信息而不僅僅是簡單的傳遞文獻本身,已成為圖書館員的內在責任。
[1] McKinsey&Company.Big data:The next frontier for innovation,competition,and productivity[EB/OL].[2011-05-02].http://www.mckinsey.com/Insights/MGI/Research/Tech nology_and_Innovation/Big_data_The_next_frontier_for_innovation.
[2] Tom Kalil.Big Data is a Big Deal[EB/OL].[2012-03-29].http://www.whitehouse.gov/blog/2012/03/29/big-data-bigdeal).
[3] 賽迪智庫軟件與信息服務研究所.美國將發展大數據提升到戰略層面[J].中國電子,2012-07-17(003).
[4] 光大證券.數據或成重要投資主線[EB/OL].[2012-11-19].http://www.cs.com.cn/gppd/hyyj/201201/t20120106_319768 3.html.
[5] 韓翠峰.大數據帶給圖書館的影響與挑戰[J].圖書與情報,2012(5):37-40.
[6] 陳憲宇.大數據的商業價值[J].企業管理,2013(3):108-110.
[7] 于翔.大數據價值實現任重道遠[N].2012-07-16(40).
[8] 范秀鳳.館際互借文獻傳遞服務中的原文獲取[J].農業圖書情報學刊,2008(4):103-106.
[9] 胡俊榮,鄭永進.國際文獻傳遞服務研究發展態勢[J].圖書館理論與實踐,2007(4):62-64.
[10]KleinerJP,HamakerCA,張沙麗.2000年的圖書館:采用文獻傳遞服務需求評估和網絡化資源的轉型中的圖書館[J].大學圖書館學報,1998(2):1-11.
[11] 蔡文彬.國內五大文獻傳遞中心服務狀況的比較研究[J].現代情報,2005(12):123-126.
[12] 胡磊.基于用戶需求的文獻傳遞服務流程再造[J].圖書館理論與實踐,2013(2):12-13.
[13] 張曉林.從文獻傳遞到知識傳遞:面向未來的模式轉變[J].圖書館雜志,2010(2):2-5.