徐 芳 馬 麗
(1.蘇州大學社會學院 江蘇蘇州 215123)(2.蘇州大學文正學院 江蘇蘇州 215104)
21世紀以來,伴隨著大數據、云計算、移動互聯網、物聯網等技術的涌現與發展,信息與通信技術(Information and Communication Technologies,ICTs)和人類的生產生活越來越密不可分。同時,ICTs在人類生產生活過程中的應用,也產生了巨大的數據,各種數據量呈幾何級數增長,以“PB(Petabytes,拍字節,計算機存儲容量單位,1PB=1024TB=2^50字節)”為單位的海量數據悄然在我們身邊出現,宣告著大數據時代的來臨[1]。2012年3月,奧巴馬政府發布了美國政府的大數據計劃,希望“提高從大型復雜的數字數據集中提取知識和觀點的能力”[2],這意味著美國政府開始將大數據戰略上升至國家戰略。在我國,2014年大數據首次寫入政府工作報告;2015年國務院印發《促進大數據發展行動綱要》,提出要全面推進我國大數據發展和應用,加快建設數據強國;國務院總理李克強在十三屆全國人大一次會議上作政府工作報告三次提到“大數據”;習近平總書記更是多次表示:“要實施國家大數據戰略,加快建設數字中國”。在此背景下,各行各業對大數據的應用越來越重視。
與此同時,大數據的研究也引起了學界的高度重視。許多學者對大數據的研究現狀進行了文獻計量分析[3-5]。文獻調查表明:關于圖情檔領域大數據研究的文獻計量分析,英文文獻一直都有人連續地進行計量分析,而中文文獻最近的文獻計量研究發表在2016年且統計的范圍為18種CSSCI圖書情報領域的期刊,非CSSCI期刊的論文尚未有人做過統計分析。在CNKI中收錄的我國圖情檔領域關于大數據的研究文獻在2016—2018年有4 064篇,可見其發展速度之快。本研究以CNKI中近五年(2014—2018年)收錄的圖情檔領域大數據研究的5 214篇文獻為研究對象,從研究的熱點問題、研究的新方向、期刊分布情況、作者機構分布情況以及作者分布情況等方面對近五年圖情檔領域大數據研究的現狀進行了較為系統的分析。在文獻計量分析的基礎上,歸納和總結了近五年我國圖情檔領域大數據研究的5個發展趨勢。希望可以為系統地了解近五年圖情檔領域大數據研究的現狀和后續研究提供參考。
以中國知網(CNKI)作為數據來源,以“主題詞”為檢索入口,以“大數據”為檢索詞,將研究學科限定在信息科技下的“圖書情報與數字圖書館、檔案及博物館”,時間限制在近五年(2014—2018年),檢索截止日期為2019年3月24日共檢索到5 416篇文獻。刪除雜志社的通知、會議通知、會議報道等非學術論文后,共得到5 214篇文獻,。
詞頻分析法是利用能夠揭示或表達文獻核心內容的關鍵詞或主題詞,在某一研究領域文獻中出現的頻次高低,來確定該領域研究熱點和發展動向的文獻計量方法[6]。關鍵詞是文獻主題內容的濃縮,對于關鍵詞詞頻進行統計分析,能夠反映研究領域的研究趨勢、熱點所在以及相關領域等信息,是文獻計量學中常用的分析方法。
社會網絡分析(Social Network Analysis)被廣泛應用于社會學研究中,圖情領域也多有運用[7]。社會網絡分析法工具有MultiNet、NetMiner、NetDraw、Pajek、UCINET等,本研究選取UCINET和NetDraw對相關關鍵詞進行矩陣分析,進而得到可視化結果。
共詞分析法主要是對同一篇文獻中詞匯或名詞短語共同出現的次數進行統計, 以此為基礎揭示相關關系,進而分析它們所代表的學科和主題的結構變化[8]。一般來說,不同詞匯在同一篇文獻中出現次數越多,表明二者關系越緊密。可以有關鍵詞共現、參考文獻與作者共現、作者與機構共現等方式。本文則主要研究國內大數據關鍵詞共現情況。
CNKI中收錄的我國圖情檔領域大數據研究文獻數量統計如下:2010年,1篇;2011年,0篇;2012年,15篇;2013年,134篇;2014年,493篇;2015年,877篇;2016年,1 197篇;2017年,1 310篇;2018年,1 557篇。從數據分布來看,我國圖情檔領域大數據研究大致可以分為三個階段:萌芽期、快速發展期以及平穩期。①第一階段為萌芽期。圖情檔領域關于大數據的相關研究在2012年之前非常少,每年發表的論文數量較少,特別是2010和2011年,說明研究尚處在萌芽期。②第二階段為快速發展期。自2013年后,與圖情檔領域大數據相關的研究數量急劇增長,特別是2013至2015年,幾乎每年以翻倍的數量增加,可見圖情檔領域關于大數據的研究熱情高漲。這可能與美國和中國相繼將大數據發展提升到國家戰略層面,引起了學界的廣泛關注,大數據及其應用的研究迅猛發展,產出了數量較多的文獻等因素有關。③第三階段為平穩期。2016年至2018年間,圖情檔領域關于大數據的相關研究論文數量增長速度稍微減緩,但總體而言每年的發文數量依然處于上升的趨勢,只是不再翻倍式增長,我們將該階段稱之為平穩期。
關鍵詞是從文獻中提取或凝練出的能夠表示文獻主題概念的自然語言詞匯。統計分析文獻關鍵詞詞頻,可得出研究內容的集中與分散情況,高頻關鍵詞更是能反映國內大數據研究的重點和熱點[9]。
4.1.1 高頻關鍵詞分析
經SATI軟件統計分析得出,2014—2018年間關于圖情檔大數據的中文文獻中涉及到的關鍵詞有5 467個,其中出現一次的關鍵詞有322個,反映出圖情檔專業關注焦點的密集性。同時根據Donohue.J.C在1973年提出的高頻詞低頻詞界分公式[10]來確定高頻關鍵詞:

其中I1指只出現過一次的關鍵詞數量,本次研究中,I1=322,T=24.88,推出閥值約為25,即高頻關鍵詞是大數據、圖書館、大數據時代等165個詞。其中前50個高頻關鍵詞如表1所示。

表1 高頻關鍵詞詞頻統計(Top50)
從上述的高頻關鍵詞中可以看出:相較于以往傳統的背景,在大數據時代下,圖書館、情報學、檔案、信息資源等基礎核心詞仍然是圖情檔領域不可忽視的重點。同時開放獲取、數據服務、知識發現、智庫、移動圖書館、智慧檔案館等一系列高頻關鍵詞的出現也反映出圖情檔領域緊跟時代潮流,更加注重用戶服務體驗,運用新興技術手段更好地為人們服務,揭示了圖情檔領域一貫注重夯實基礎又與時俱進的學科特點。
4.1.2 高頻關鍵詞聚類分析
關鍵詞的聚類能夠集中地反映熱門內容[11],在UCINET中對前50個高頻關鍵詞進行聚類分析,共獲得13個聚類(稱為聚類1到聚類13)。集群中的每一個聚類都可以被視為研究主題。總的來說,近五年來我國的圖情檔領域研究主要集中于大數據、圖書館和情報檔案、大數據時代的Citespace工具與互聯網、圖書館的知識情報分析與管理、大數據環境下數字化管理與信息服務、信息化建設下的學科服務與數據資源的利用、數據分析與企業、電子文件管理服務模式與閱讀推廣、大數據技術對讀者服務與信息素質影響、檔案工作的信息化與服務創新、檔案數據與人工智能、圖情檔領域的個性化服務、信息資源的創新與挖掘這13個主題集群,同時這13個主題集群能夠在一定程度上反映出我國圖情檔領域大數據相關的研究現狀。
低頻關鍵詞能夠在一定程度上反映出圖情檔領域大數據研究新興熱點以及研究的發展趨勢,因此我們對詞頻為1的關鍵詞進行了分析,20個代表性的低頻關鍵詞分別為:特色資源服務、數據質量控制、社會化媒體、戰略性閱讀、讀者隱私、新媒體營銷、數字保存、數據安全保護、科學數據共享、政府信息增值、情報價值、邏輯性思維、空間數據庫、數字不平等、服務生命周期、個人信息世界、信息不平等、復雜云計算、數字地圖以及城市記憶工程。
特色資源服務、戰略性閱讀、新媒體營銷、復雜云計算、數字地圖等關鍵詞的出現,說明隨著時代發展,大數據已經滲透到圖情檔研究的各個領域,體現出大數據對圖情檔領域的應用價值;而數據質量控制、政府信息增值、空間數據庫、數字不平等、城市記憶工程等低頻詞的出現,則表明在大數據時代,圖情檔領域新的研究領域正在悄然興起,將來很可能會成為新的研究熱點主題。
為了分析圖情檔領域大數據研究的期刊分布,我們對期刊名稱出現的詞頻進行統計。運用UCINET工具進行統計分析,可以得到圖情檔領域發表大數據相關研究論文數量前30名的期刊,如表2所示。

表2 前30名期刊統計
上表列出了我國圖情檔領域大數據研究載文量前30的期刊。可以看到,《圖書情報工作》《情報理論與實踐》《現代情報》《圖書館工作與研究》《圖書與情報》《圖書館理論與實踐》《情報雜志》等CSSCI期刊、核心期刊均在其列。這表明:雖然圖情檔領域的大數據研究載文量前6的期刊都是一般期刊,即一般期刊的載文量占多數;但是前30名中也有10多種CSSCI來源期刊或核心期刊。總之,圖情檔領域大數據研究的期刊分布呈現出核心期刊與非核心期刊并重的特點。
表3是運用UCINET工具統計出的發文數量排名前30的作者機構分布情況。
為了客觀、準確地體現作者的機構分布情況,我們對搜集到的機構數據沒有做合并處理。從上表所統計的核心單位機構來看,位居前列的是武漢大學信息管理學院,發文量達到了162篇。而前十名中圖情檔領域權威單位武漢大學、北京大學、中國人民大學、南京大學都在其中,符合當前圖情檔領域對于本專業領域權威單位機構的認知,說明在大數據領域,資歷老、技術雄厚的單位機構影響仍然很大。同時也可以看出,發文量的核心單位機構仍然以高校為主,高校學術研究氛圍濃厚,擁有較強的科研隊伍和科研力量,是呈現這一結果的主要原因。此外,蘭州財經大學信息工程學院本科設有信息管理與信息系統專業,并設有該專業的碩士點,同時擁有省級人文社科重點研究基地——甘肅經濟發展數量分析研究中心;安徽財經大學管理科學與工程學院下設有情報學專業碩士點。

表3 發文數量排名前30的作者機構分布
我們還運用UCINET工具的頻次統計功能對作者出現的頻次進行了統計,前30名高產作者的發文數量統計如表4所示。

表4 前30名高產作者與發文數量
從表上列出的核心作者來看,我國圖情檔領域的知名學者,如武漢大學的李綱、馬費成、邱均平等人,南京大學的邵波、蘇新寧等人以及北京大學的李廣建等人都不同程度地對大數據進行了研究,成為了圖情檔領域大數據研究的高產作者。而發表文獻量前三的蘭州財經大學馬曉亭與陳臣、江蘇理工學院的何勝發文總量有100多篇,這表明圖情檔領域關于大數據的研究已經形成了一批穩定的學者。
從對高頻關鍵詞的共現可視化分析以及聚類分析中可以看出,我國圖情檔領域大數據的研究在重視該領域的基礎理論研究基礎上,顯現出一些新的研究熱點:如大數據、圖書館服務、檔案管理、創新、數字圖書館、互聯網+、數據素養、個性化服務、云計算、情報學、數據管理、數據挖掘、智慧圖書館、大數據技術、文獻計量學、數字檔案館、情報分析、競爭情報、智慧服務、知識圖譜、圖書館用戶等,現有研究中圖情檔專業領域與時代背景的聯系更加緊密。開放獲取、數據服務、智庫、移動圖書館等一系列關鍵詞的頻繁出現,凸顯了在大數據背景下,圖情檔領域的技術手段更加智能化、人性化。而聚類分析得到的13個主題集群集中體現了大數據背景下新興技術手段與學科融合發展的新趨勢。
以上文獻計量結果表明,在大數據時代,圖情檔的各個領域都相應地將大數據相關的新興技術應用到各自的業務與管理活動中,涌現出了一些新的研究方向。例如,特色資源服務、情報價值、數據質量控制、邏輯性思維、社會化媒體、空間數據庫、戰略性閱讀、數字不平等、讀者隱私、服務生命周期、新媒體營銷、個人信息世界、數字保存、數據安全保護、復雜云計算、科學數據共享、數字地圖、政府信息增值以及城市記憶工程等。其中,數據質量控制、政府信息增值、空間數據庫、城市記憶工程等低頻關鍵詞的出現,表明已經有學者開始探索大數據在圖情檔前沿領域的應用,涌現出了一些研究的新興領域,而這些新興領域在不久的將來會成為大數據在圖情檔領域應用的研究熱點。
從統計的期刊分布表中可以得知,雖然發文量排名前30名的期刊中,一般期刊占大多數,前6名都是一般期刊,且發文量也占大多數;但是仍有10多種CSSCI來源期刊或核心期刊在列,如《圖書情報工作》《情報理論與實踐》《現代情報》《圖書館工作與研究》《蘭臺世界》《山西檔案》等。可見,我國圖情檔領域大數據研究期刊分布呈現出核心期刊與非核心期刊并重的趨勢。
在以上統計的圖情檔領域大數據研究作者機構分布的表格中,圖情檔領域雙一流高校武漢大學、北京大學、中國人民大學、南京大學位列前十名,武漢大學信息管理學院發文量更是高達162篇。同樣值得注意的是,黑龍江大學、安徽大學、蘭州財經大學、國家圖書館、遼寧大學、南京圖書館等單位機構也位列在前,且發文量占比不小。可見,圖情檔領域大數據研究的作者機構分布表現為分散狀態,圖情檔領域大數據研究呈現出百花齊放、百家爭鳴的局面。
通過以上對圖情檔領域大數據研究的高產作者統計可知,一方面,大數據自出現以來便受到了我國圖情檔領域知名學者的連續關注與重視,如武漢大學的李綱、馬費成、邱均平等教授,南京大學的邵波、蘇新寧等教授,北京大學的李廣建教授以及南京理工大學的王曰芬等,他們均出現在了高產的核心作者中,是我國圖情檔領域大數據研究的中堅力量;另一方面,排名前三的馬曉亭、陳臣、何勝等人發表的大數據相關的論文都在25篇以上,為大數據在我國圖情檔領域的應用研究作出了很大的貢獻。這些高產的核心作者往往有著相對成熟的研究領域且研究工作較為連續,他們的研究成果對于圖情檔領域大數據的后續研究具有很大的參考價值。
本研究利用詞頻分析法、社會網絡分析法、共現分析法,對CNKI中2014—2018年間收錄的我國圖情檔大數據的相關研究,利用SATI、Excel進行相應的篩選、合并、統計等處理,同時借助UCINET和NetDraw對關鍵詞進行進一步的分析。結果發現,我國圖情檔領域關于大數據研究的發展正處于快速發展階段。未來隨著大數據及其相關技術的迅猛發展與成熟,我國圖情檔領域大數據的相關研究也會隨著時代的發展形成更多的研究熱點,涌現出更多的新研究方向,同時也會出現更多的大數據相關的研究成果。此外,雖然我們力求客觀、準確地搜集原始數據,并采用人工的方式對數據進行了清洗,在此基礎上進行了文獻計量分析,研究結論的信度一定程度得到了保證;但需要注意的是,本文也存在一些局限,由于初始文獻有5 426篇,最終用于文獻計量的相關文獻也有5 214篇,數量巨大且數據清洗采用的是人工處理方式,可能受到數據清洗人員的知識水平的局限,一定程度上會影響分析結果的精確程度。