薛辰
〔摘要〕本文利用Web of Science數據庫,對國際大數據研究領域的文獻進行收集,分別按照論文的年代、著者、國別與機構進行統計分析,并利用SPSS軟件對文獻的高頻關鍵詞進行聚類分析和多維尺度分析,利用Ucinet軟件予以可視化呈現,總結了國際大數據研究的現狀與熱點,以期對國內大數據的研究提供有益的參考和借鑒。
〔關鍵詞〕大數據;共詞分析法;聚類分析;多維尺度分析;可視化
DOI:10.3969/j.issn.1008-0821.2013.09.026
〔中圖分類號〕TP391;G250.252〔文獻標識碼〕A〔文章編號〕1008-0821(2013)09-0129-06
2011年5月,麥肯錫全球研究院(McKinsey Global Institute)發布了研究報告《大數據:創新、競爭和生產力的下一個前沿領域》(Big data,The next frontier for innovation,competition,and productivity)[1]。2012年1月在瑞士達沃斯舉行的世界經濟論壇上,“大數據”是討論的主題之一,論壇上發布的題為《大數據,大影響》(Big Data,Big Impact)的報告中提出,“數據已經成為一種新的經濟資產類別,就像貨幣或黃金一樣。[2]”2012年3月29日,美國政府在白宮網站上發布了《大數據研究和發展倡議》(Big Data Research and Development Initiative),該倡議涉及聯邦政府的6個部門,這些部門承諾將投資超過兩億美元,來大力推動和改善大數據的提取、存儲、分析、共享和可視化。
無論是美國政府的倡議,麥肯錫的研究報告,還是世界經濟論壇的議題,都預示著人們,大數據時代已經到來。大數據正在撬動全世界的神經,大到一個國家、企業,小到每一個獨立存在的個人,都將成為大數據時代的貢獻者和受益者。那么,大數據究竟是什么?維基百科將大數據解釋為“是指無法在一定時間內用通常的軟件工具進行捕獲、管理的數據集合”[3]。關于數據量究竟要達到多少才可以被稱之為大數據,目前尚無統一說法。一般認為,大數據的數量級應該是“太字節”,即240。大數據之“大”,并不僅僅在于其“容量之大”,更多的意義在于,人們可以“分析和使用”的數據在大量增加,通過這些數據的交換、整合和分析,人類可以發現新的知識,創造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發展”[4]。
目前國內學者中,楊繹以國內文獻為研究基礎,以關鍵詞分析為主要方法,對目前國內期刊和報紙上有關“大數據”的文獻進行了研究[5]。韓芳芳等以CNKI為數據源,從文獻、作者、關鍵詞3個角度分析我國大數據領域的相關文獻。筆者認為很有必要對國際大數據領域文的獻進行分析,從而把握國際大數據領域的研究現狀與熱點,以供國內學者參考借鑒。
1數據來源與研究方法
Web of Science(簡稱WOS)是美國湯姆森集團開發的產品,是大型綜合性、多學科期刊引文索引數據庫。WOS收錄了世界上經過同行專家評審的有影響力的文獻,選用WOS作為數據源進行研究可以保證研究資料的權威性。本文選取WOS數據庫下3個子庫Science Citation Index Expanded(SCI-EXPANDED,科學引文索引擴展版)、Social Sciences Citation Index(SSCI,社會科學引文索引)、Arts & Humanities Citation Index(A&HCI,人文藝術科學引文索引),檢索年限為“所有年份”,數據庫更新日期為2013年4月5日,以“big data”為檢索詞進行“主題”檢索,共檢得171篇大數據領域的相關文獻(檢索日期:2013年4月10日)。
本文借助SPSS 190軟件,采用共詞分析法對國際大數據的研究熱點進行分析。共詞分析法(Co-term Analysis)最早是在20世紀70年代中后期由法國文獻計量學家提出的,其思想來源于文獻計量學中的引文耦合與共被引的概念。共詞分析法的基本原理是,統計一組詞(關鍵詞或者主題詞)兩兩在同一篇文獻中出現的次數,以此作為基礎進行聚類分析,從而得出這些詞語之前的親疏遠近的關系,進而分析出這些詞語所代表的學科或者主題的結構變化情況[7]。共詞分析法研究的是某一學科領域中當前的學術文獻所集中關注的主題,很適合于分析某一學科的研究熱點和知識結構[8]。
2013年9月1第33卷第9期1現?代?情?報1Journal of Modern Information1Sep,20131Vol.33No92013年9月1第33卷第9期1國際大數據研究論文的計量分析1Sep,20131Vol.33No92文獻計量分析
2.1年代分析
通過對文獻發表時間的分析,可以勾勒出國際大數據研究領域的發展軌跡,揭示其發展的總體趨勢。將在數據庫中檢索得到的論文按照年度進行歸類,如表1所示。
從表1可以看出,國際大數據研究可以分為兩個時期:第一時期從1974-2007年,是起步探索時期。這一時期的研究成果比較零散,數量較少,除2006年有3篇外,其余年份均在2篇或以下。第二時期是從2008年至今,是快速增長期。2008年的文獻量突然增長到11篇,究其原因,是因為2008年9月《Nature》雜志開設了“大數據”專刊,發表了10篇有關大數據研究的文章,從大數據的技術、發展方向以及對人類的挑戰等多個角度介紹了大數據的相關問題。這10篇文獻也被后來的文章多次引用,揭開了國際上研究大數據熱潮的序幕。2012年文獻量達到歷史性的84篇,是第一時期文獻量最多的2006年的近30倍。這與2011年麥肯錫研究中心發布的大數據研究報告以及2012年初奧巴馬發布的大數據倡議息息相關。由于數據庫的收錄具有滯后性以及檢索時間是4月份,2013年的數據不全,卻已經有29篇文獻,可以預測未來幾年國際大數據研究還會繼續保持快速增長的趨勢。