□蘇 源 王媛媛
早在1980年,著名未來學家阿爾文·托夫勒在其《第三次浪潮》中首次提到“大數據”一詞。在20世紀90年代,“數據倉庫之父”比爾·伊蒙(Bill Inmon)更明確提出了“大數據”的概念,直至2009年,隨著互聯網、物聯網、云計算、三網融合等IT 與通信技術的迅猛發展,信息社會已經進入了大數據(Big Data)時代。大數據改變了人們的思維模式,將數據分析的思想認識從“向后分析”變成了“向前分析”,已經不斷地滲透到各行各業,國內學者對其進行了大量研究,近年來也獲得了很多研究成果,為了更好把握大數據的發展方向,對其研究成果進行分析是很有意義的。
以“中國知識資源總庫”(CNKI)“中國期刊全文數據庫”為數據源,檢索策略定為:篇名=“大數據”or“海量數據”or“Big Data”or“Extensive Data”OR 關鍵詞=“大數據”or“海量數據”or“Big Data”or“Extensive Data”,檢索時間截止到2013年12月進行研究。對檢索出符合要求的大數據研究文獻4,333 篇進行下載,從目標數據集中去除非研究性文獻、重復文獻、廣告推銷等與大數據研究內容不相關的文獻,對于缺失值較少又可以準確填充的內容進行補充,最終保留了相關文獻2,910 篇,對其進行詳細分析。
(一)時間維分析。根據表1,大數據研究論文數量整體呈增長趨勢,1985年第一篇有關大數據(海量數據)的研究論文發表于CNKI 期刊網,在2005 ~2009年發展態勢趨于平緩,2009年后增長速度加快,尤其是2013年,數量達到2012年論文的4 倍多,迎來了大數據研究的高潮。由于計算機和移動設備,企業、醫院等信息系統正在持續不斷創造出大量信息,使得處理、分析數據難度增加,吸引了更多學者的研究;國外大數據的研究氛圍與重視程度、各企業之間的競爭,對我國大數據研究起到促進作用;國家政策也起到了推波助瀾的作用,例如2012年12月中國國際經貿大數據研究中心成立等。
(二)期刊維分析。通過分析發現,共有984 種期刊刊載了大數據研究論文,只刊載1 篇論文的期刊共568 種,占到期刊總量的57.72%,可見越來越多的期刊開始關注大數據研究并刊載相關論文,大數據研究正處于迅猛發展階段。刊載大數據研究論文大于10 篇的期刊共有56 種,大數據研究領域33.78%的論文刊載在5.7%的期刊上,期刊比較集中,核心期刊群基本形成。從刊載論文數量排在前十名的期刊來看,大數據研究論文更多地刊載在與計算機、信息有關的期刊上。

表1 大數據研究論文的時間分布

表2 累計刊載論文20 篇及以上的期刊
(三)作者維分析。本文提取第一作者進行分析,領域論文第一作者共2,674 人,如表3 所示,發表量為1 篇的著者數占93.53%,超出了洛特卡定律60.79%的經驗值,而發表量為2 篇的著者人數只占到4.82%,遠遠低于洛特卡定律25%的經驗值。為了解該領域活躍作者,根據普賴斯定律,確定高產作者的計算公式為:
(四)基金維分析。在2,910 篇研究論文中,有基金資助的論文共783 篇,占論文總數的27%,共獲得基金資助1,339項(次),篇均基金資助0.46 項(次)。根據基金資助級別分成4 大類:國家級、教育部與科學院資助、省部級、其他項目資助,如圖1 所示。通過基金資助,會吸引更多科研人員開展研究,尤其是地理位置偏僻,經濟水平不高,科研資源有限的西北地區。

表3 論文篇數及作者數統計表

表4 領域核心關鍵詞

圖1 領域基金分布圖
高頻關鍵詞在一定程度上反映了當前大數據領域的研究熱點,從2,910 篇論文中共提取15,152 個關鍵詞,平均每篇包含5 個關鍵詞。通過內容整理與語言統一,利用普賴斯公式(m=0.749 ×)確定基于詞頻的核心關鍵詞,這里nmax代表最高頻關鍵詞的詞頻,m 代表核心關鍵詞的最低詞頻。經計算,m≈19,所以頻數大于等于19 的關鍵詞為大數據領域的核心關鍵詞,共有56 個,如表4 所示。

圖2 高頻詞共現圖譜
從圖2 可以看出,頻次最多的是“大數據”與“海量數據”,處于邊緣的關鍵詞較多,說明大數據研究范圍很廣,總體上研究熱點集中于大數據挖掘與分析、大數據技術、大數據應用和機遇與挑戰四個方面。
通過對大數據領域研究的2,910 篇論文進行收集、整理,利用文獻計量法和共詞分析法,借助Excel 和Ucinet 工具,獲得國內大數據研究的發展態勢,確定重點文獻,了解發文趨勢、作者及基金資助情況,發現該領域重點及熱點問題,為本領域今后的研究工作提供參考和啟示。本文在各維度的分析中缺乏動態的考量,在之后更深入的研究中可以引入。
[1]馮芷艷,郭迅華,曾大軍,陳國青.大數據背景下商務管理研究若干前言課題[J].管理科學學報,2013,16(1):1 ~8
[2]李國杰,程學旗.大數據研究:未來科技及經濟社會發展的重大戰略領域[J].戰略與決策研究,2012,27(6):649
[3]陳維軍.文獻計量法與內容分析法的比較研究[J].情報科學,2001,19(8):884 ~886
[4]王曰芬,路菲,吳小雷.文獻計量和內容分析的比較與綜合研究[J].圖書情報工作,2005,49(9):70 ~73
[5]馮璐,冷伏海.共詞分析方法理論進展[J].中國圖書館學報,2006,32(2):88 ~92
[6]張勤,馬費成.國外知識管理研究范式——以共詞分析為方法[J].管理科學學報,2007,10(6):65 ~75