喬薩礎拉 努爾布力 蘇芮
摘 要: 以Web of Science中近20年2 709篇數據可視分析文獻為研究對象,采用基于圖譜分析的研究機構合作、文獻共被引、關鍵詞共現、突現詞分析等方法,系統的回顧了數據可視分析方法研究的關注點、國際研究脈絡及發展規律。研究發現,截止目前,已完成基礎理論和體系架構研究,并在延伸新的典型應用領域。其中,美國和德國的研究機構具有較強科研水平,社交媒體數據、網絡安全數據和地理信息數據已成為重要數據來源。分析結果有助于為我國數據可視分析領域的研究人員提供了研究現狀及進展的參考。
關鍵詞: 可視分析方法; 圖譜分析; CiteSpace; 研究現狀; 文獻共被引; 數據分析
中圖分類號: TN957.52?34; 文獻標識碼: A 文章編號: 1004?373X(2018)14?0161?05
Map analysis for research status and development trend of data visual analysis
QIAO Sachula, Nurbol, SU Rui
(School of Information Science and Engineering, Xinjiang University, Urumqi 830046, China)
Abstract: With 2 709 data visual analysis papers from Web of Science in recent 20 years as the research object, the focus points, international research context and development law of data visual analysis method research are systematically reviewed by using such map analysis based methods as research institution cooperation, literature co?citation, keyword co?occurrence, and burst term analysis. The research found that up to now, researchers have completed the basic theory and system architecture research, and are expanding to new typical application fields; the research institutions of the United States and Germany have a high scientific research level; social media data, network security data and geographic information data have become important data sources. The analysis results can provide a reference in research status and progress for Chinese researchers in the data visual analysis field.
Keywords: visual analysis method; map analysis; CiteSpace; research status; literature co?citation; data analysis
0 引 言
隨著互聯網的快速發展,大數據時代已經來臨。面對海量數據,如何處理、分析以及存儲是擺在人們面前亟待解決的問題,其中數據可視分析技術是大數據分析的重要方法,可以幫助數據分析人員更快地找到數據中隱含的規律和模式。數據可視分析技術從20世紀90年代開始發展,逐漸展現出其重要性,引起各國的重視。目前,國內雖然有專家從不同的角度對數據可視分析進行了研究綜述,卻對于分析國際上數據可視領域的研究現狀與趨勢并不全面。鑒于此,本文以Web of Science的核心數據庫為數據源,利用CiteSpace工具的文獻計量方法對收集到的文獻進行統計分析并繪制出知識圖譜,解決下面的三個研究問題:
1) 國內外近20年來在數據可視分析領域的主要研究機構有哪些?
2) 國內外近20年來數據可視分析領域的研究熱點有哪些?
3) 國內外數據可視分析領域的研究脈絡的發展有什么規律?
本文的具體工作如下:首先闡述了數據來源與研究方法,接下來對數據可視分析研究進行描述分析,得到該領域的主要研究機構、研究熱點及演化脈絡。最后對分析結果進行討論和比較,力圖客觀和形象地展示國內外數據可視分析領域研究的現狀與趨勢,為我國數據可視分析領域的研究人員提供有力參考。
1 數據來源和研究方法的說明
1.1 數據來源
本文的文獻來源于Web of Science信息檢索平臺的核心數據庫。Web of Science是全球最大、覆蓋學科最多的綜合性學術信息資源。本文的數據源采用以下方式收集:
1) 主題詞檢索方法,TS=((data "visual analysis")or(data "visual analytics"))。
2) 文獻時間跨度為1998—2017年。
3) 文獻類型是期刊(ARTICLE)和會議論文(PROCEEDINGS PAPER)。總共得到2 709篇文獻并且下載這些文獻的題錄,文獻題錄包括作者、標題、關鍵詞、摘要、參考文獻等25個屬性信息。
1.2 研究方法說明
科學知識圖譜不僅能揭示知識來源及其發展規律,并以圖形表達相關領域知識結構關系與演進規律[1]。本文通過可視化工具CiteSpace對1998—2017年的2 709篇文獻進行了研究機構的合作網絡分析、研究熱點的共詞分析以及基于文獻共被引的演化過程分析。
可視化工具CiteSpace是由美國德克賽爾大學(Drexel University)的陳超美博士研發的文獻分析工具,可用于追蹤研究領域熱點和發展趨勢,了解研究領域的發展前沿及演進關鍵路徑,重要的文獻、研究機構等[1]。直接導入從Web of Science上下載的文獻題錄進行可視分析,只要把文檔命名時以“download_”開頭即可,軟件免費而且適合分析各個研究領域的文獻。
2 研究結果與分析
2.1 主要研究機構分析
通過對數據可視分析文獻發表量的研究機構的基本情況進行統計后,發表文獻超過10篇的研究機構有46個,發文量11~20篇的有27個機構,發文量21~30篇的有14個機構,30篇以上的有5個機構。表1列出的是最多產文獻數量排名前13位的研究機構。德國的康斯坦茨大學發表文獻以69篇論文位于榜首。TOP13榜單里美國的研究機構占6個,德國和奧地利的研究機構有2個,中國、英國、西班牙各1個。圖1展示了研究機構之間的合作網絡關系,如果兩個研究機構之間有合作關系就會有不同粗細的線來鏈接兩個研究機構。連接線越粗代表兩個研究機構合作越多,連接線越細代表兩個研究機構合作越少。中心性可以用來表征節點與其他節點之間的聯系以及在整個網絡中的重要地位和作用[2]。中心性越高的研究機構影響力越大,地位越重要。從中心性的角度看很多研究機構的中心性是0,這表示他們對其他的研究機構沒有產生影響。中心性大于0的總共有19個研究機構,其中美國的機構6所,德國的機構5所,中國的機構4所,加拿大、英國、挪威和奧地利的機構各1所。
總體來說,美國、德國及中國的研究機構在國際上的數據可視分析領域上占著主導的地位,有一定的影響力。但以國家中心性的角度來看,中國的中心性非常低。這表明中國的研究機構與國際上的研究機構的聯系和影響比較小,但是國內的研究機構相互之間的聯系和影響比較大。
2.2 基于共詞分析的研究熱點
研究主題的分布可以直觀地體現不同時序內的熱點問題、分析視角、研究方法的變化[3]。而關鍵詞是文獻主題內容的精煉表達,它可以直接地體現文獻的思想內容,是文獻計量分析中不可忽略的重要指標。鑒于此,通過關鍵詞共現分析(圖2)來鑒別數據可視分析研究的主要熱點,并對該研究領域主題結構的發展變化做出判斷。圖2中的每個年輪最外層的圓環表示了文獻的中心性,每個同心圓表示共引關鍵詞,深淺層次不同的圓環表示關鍵詞被引的不同年份,關鍵詞之間的緊湊關系代表著關鍵詞之間的關聯關系。其中文字大小與同心圓的大小成正比,同心圓越大表示相應的文字越大,關鍵詞的頻次也越高。表2列出的TOP13個詞是頻度較多、中心性較高及激增數較大的關鍵詞,該表列出的首次出現年份是基于本文的研究文獻。
2.2.1 頻數指標計量分析
頻數(Freq)指的是當前分析的某個節點出現的次數,通過分析頻數可以得到某個領域的研究現狀。通過表2可以發現從2000年開始,國內外開始關注可視分析技術,最早起步是在1999年,開始發展正電子成像技術,該技術的發展對可視分析技術的發展奠定了基礎。到2006年,可視數據挖掘及數據與知識可視化等概念被提出,新的技術、新的理念不斷的加入到數據可視分析研究上,數據可視分析技術開始迅速發展,得到了國內外很多研究者們的關注。
2.2.2 中心性指標計量分析
近20年數據可視分析研究中心性(Centrality)較高,前13個主題見表2。其中,1999—2002年間首次出現的關鍵詞中心性相對其他關鍵詞來說中心性較高,如“validation”“system” “algorithm”等,系統研究、算法改進、評估有效性是給數據可視分析研究提供了基礎技術的支撐,很多研究領域發展的過程中這些技術都是必不可少的研究范圍。從2006年開始,研究主題詞的中心性開始變小,大部分主題詞的中心性都是0,如“geovisualization”“big data”“social media”等,導致該現象的主要原因是隨著數據可視分析技術的發展,很多研究產生了不同的分支,研究領域逐漸變多,主題詞之間的影響力開始變小。近幾年的研究側重于大數據、社交媒體、機器學習及多維數據等,更加注重研究大量而復雜數據的可視分析,大數據呈現的特點是容量大、類型多、價值高、速度快,因此數據可視分析技術面臨的最大挑戰是如何對大數據進行有效的可視分析。
2.2.3 突現指標計量分析
突現(Burst)指標指一個變量在短期內發生顯著變化的值,CiteSpace的這種突現信息是用來分析文獻深層變化信息的一種度量手段。因此研究前沿可以看作以突現的高頻詞變化情況探索學科發展領域的前沿變化[4]。“positron emission tomography”是最早出現突現性并延續時間很長的關鍵詞。從這個突現詞發現數據可視分析技術剛開始用在醫學和電子技術上。2006年出現了兩個突現詞,分別是“data and knowledge visualization”和“visual data mining”,數據挖掘領域開始使用可視分析技術。2008年出現了地理信息可視化領域的突現詞“geovisualization”,Peuquet D J和??ltekin A在文中分別用3D技術和T型模型分析技術對地理數據進行可視分析[5?6]。而從2014年到現在出現了兩個突現詞“social media”和“big data”。從整體來分析,可以初步判斷一些信息技術相關的領域興起于發展;如“big data”,首次提出時間是2008年8月中旬,而從本文研究的文獻中來,2012年才首次出現“big data”,而在2015年呈現突增。
3 研究演化分析
文獻共引圖譜的實質是共被引分析圖譜。共被引分析是指當兩篇文獻同時出現在另一篇文獻的參考文獻目錄時,則這兩篇文獻已構成共被引關系。而高被引文獻是一個研究領域重要知識來源,反映著某一學科的研究水平、發展方向,是探究熱點主題、研究演化的重要依據[1]。圖3展示了共被引文獻共現聚類分析圖,包括6個知識群聚類,從下到上、從左到右,該過程表示時間的推移過程。每個時期都有相應的多個高被引文獻,通過高被引文獻的主題詞給每個知識群聚類命名。知識群之間的關聯關系和推移過程表示數據可視分析研究發展的演化過程。
下面將圍繞時間順序對知識群聚類進行闡述:
1) #3和#5聚類。#3和#5知識群組是國際數據可視分析研究領域中最早達到研究閾值的聚類群組,兩個知識群組統稱為“數據可視分析起源”群組。“起源”群組中文獻初次共被引時間是在2002—2003年,文獻總量較低,與#0群組和#1群組有連接關系。通過該群組的原文獻研究發現,該群組的研究集中在“可視化方法研究”和“可視分析技術理念推介”兩個方面。其中可視化方法研究是從對多維數據可視化的角度來詮釋可視化方法的價值與重要性。Johansson J等人都在文獻里提出多維數據的可視化[7]。而“可視分析技術理念推介”主要借助于可視化方法的發展和研究成果,當傳統及單一的可視化方法很難分析復雜的、高維的數據時可視分析技術就應運而生。可見,初期國際數據可視分析研究主要是研究可視化方法,提出可視分析方法的理念,該時期可視化方法的發展為后續可視分析技術的發展奠定了基礎。
2) #0和#1聚類。#0和#1知識群組里出現次數最多的主題詞分別是“interactive visual analysis”和“visual analytics”,從兩個主題詞發現該時期主要研究發展對象是“交互式可視分析”,因此該兩個知識群組統稱為“數據可視分析發展”群組。“發展”群組是文獻總量較多、中心度較高、連線密集,并于其他群組節點有著較強的連接關系。該群組首次共被引時間是2005—2006年。該階段擴展了可視分析方法的研究,取得了豐富的研究成果與結論。從“發展”群組的大量文獻發現,該群組的文獻強調的人機交互能力,使用可視分析方法為數據分析人員提供有效的交互手段并提高他們的認知能力。該群組中中心性最高的2個節點文獻是整個共被引文獻網絡的重要節點。第一篇共被引文獻是Thomas J J等人2005年寫的一篇文獻“Illuminating the path:the research and development agenda for visual analytics”[8],該文獻總被引頻數是131次。文獻中介紹美國的國土安全局成立國家可視化與分析中心的主要目標是研究和發展可視分析技術,用可視分析技術發現信息的內在關聯、使用交互式的圖形來提高人機交互能力。這篇文獻是數據可視分析研究的經典文獻,為可視分析的后期研究提供了技術和理論基礎。第二篇共被引文獻是2008年發表的文獻“Visual analytics:definition,process,and challenges”是被引頻數較多的一篇文獻。文獻里詳細地描述了可視分析的定義、發展和未來面對的挑戰。文中提到可視分析方法不僅可以解決對大數據進行分析,而且可以讓機器和人進行交互。該文中解釋了信息可視化與可視分析的區別,并且把可視分析明確地定義為“可視分析是結合自動化分析技術與交互式可視化對非常大的復雜數據進行有效的理解、推理和決策”[9]。該概念得到了數據可視分析領域的研究者們的普遍認可,為后續可視分析研究提供了重要的研究視角。
3) #2和#4聚類。#2和#4知識群組是“數據可視分析深化”群組。該群組與“發展”知識群組有節點的連接,呈現出共被引文獻的網絡重疊。由此可見,該知識群組是“發展”知識群組的研究分支,數據可視分析研究進入活躍期,有了多態化的研究中心,該階段是對可視分析技術的實踐應用和研究發展。文獻首次共被引時間是2010—2011。其關鍵節點文獻“D3:data?driven documents”是共被引頻次最多的一篇文獻,頻次是70次。該文獻中介紹的D3[10]是一個用于數據可視化開發的JavaScript庫,D3融入到了整個Web開發體系中,使用起來方便,可以繪制各種各樣的可視化圖,對可視分析技術的發展有了很大的促進作用。從該群組的大量文獻發現,該群組的主要研究對象是來自社交媒體數據的可視分析。Zhang J和Chua A等人分別對微博和推特等社交媒體數據進行可視分析[11?12]。該群組通過前面群組的知識儲備和理論研究,利用可視分析方法對不同領域的數據進行可視分析并得到了該領域研究的成果。
通過可視化工具CiteSpace對Web of Science平臺的核心數據庫中的2 709篇關于數據可視分析研究的文獻進行可視分析。展現了國際數據可視分析研究的情況。通過前文的分析和研究發現,數據可視分析研究的發展分為三個階段: 初創階段(1998—2004)、發展階段(2005—2010)、深化階段(2011—2017)。表3列出三個階段的主要研究熱點、研究領域及研究脈絡。
4 結 語
結合表3的總結和前文的分析,對全文的總結如下:
1) 國際數據可視分析領域的研究文獻質量一直在穩步提升。在文獻的數量和國際影響力上美國和德國處于總體領先地位,而中國凸顯出文獻數量多國際影響力低的特點。
2) 國際數據可視分析研究領域已經形成了較為完整的研究網絡,即有非常多的關鍵節點文獻可以提供理論基礎和實驗論證,又有表現各時期研究熱點的研究脈絡,為以后的數據可視分析領域的發展打下了堅實的基礎。
3) 國際數據可視分析研究從單一、較少的研究領域走向多樣化的研究領域,不斷地在延伸和拓展研究分支。逐步建立自身的知識體系和技術體系。
參考文獻
[1] 楊良斌,周新麗,劉益佳,等.近10年來國際網絡安全領域研究現狀與趨勢的可視化分析[J].情報雜志,2017,36(1):92?100.
YANG Liangbin, ZHOU Xinli, LIU Yijia, et al. The specialty visualization study of current trends and issues of international network security fields in recent 10 years [J]. Journal of intelligence, 2017, 36(1): 92?100.
[2] 王春雪,呂淑然,索曉.國內外阻燃劑研究現狀可視化分析[J].消防科學與技術,2016(5):660?663.
WANG Chunxue, L? Shuran, SUO Xiao. Visualization analysis of the present situation of flame retardant research home and abroad [J]. Fire science and technology, 2016(5): 660?663.
[3] 秦曉楠,盧小麗,武春友.國內生態安全研究知識圖譜:基于Citespace的計量分析[J].生態學報,2014,34(13):3693?3703.
QIN Xiaonan, LU Xiaoli, WU Chunyou. The knowledge mapping of domestic ecological security research: bibliometric analysis based on Citespace [J]. Acta Ecologica Sinica, 2014, 34(13): 3693?3703.
[4] 劉璐禎,周為吉,鄭榮寶,等.基于學科知識圖譜的國內土地資源管理學科演進及其進展研究[J].中國農業大學學報,2017,22(1):189?202.
LIU Luzhen, ZHOU Weiji, ZHENG Rongbao, et al. Research on the evolution and development of land resource management in China based on the discipline knowledge map [J]. Journal of China Agricultural University, 2017, 22(1): 189?202.
[5] PEUQUET D J, ROBINSON A C, STEHLE S, et al. A method for discovery and analysis of temporal patterns in complex event data [J]. International journal of geographical information science, 2015, 29(9): 1588?1611.
[6] ??LTEKIN A, LOKKA I, ZAHNER M. On the usability and usefulness of 3d (geo)visualizations: a focus on virtual reality environments [J]. ISPRS?International archives of the photogrammetry, remote sensing and spatial information sciences, 2016, XLI?B2: 387?392.
[7] JOHANSSON J, LJUNG P, JERN M, et al. Revealing structure within clustered parallel coordinates displays [C]// Proceedings of IEEE Symposium on Information Visualization. Minneapolis: IEEE, 2005: 17.
[8] THOMAS J J, COOK K A. Illuminating the path: the research and development agenda for visual analytics [M]. Washington: IEEE Computer Society, 2005.
[9] KEIM D, ANDRIENKO G, FEKETE J D, et al. Visual analytics: definition, process, and challenges [J]. Information visualization, 2008, 4950: 154?175.
[10] BOSTOCK M, OGIEVETSKY V, HEER J. D3: data?driven documents [J]. IEEE transactions on visualization & computer graphics, 2011, 17(12): 2301?2309.
[11] ZHANG J, AHLBRAND B, MALIK A, et al. A visual analytics framework for Microblog data analysis at multiple scales of aggregation [J]. Computer graphics forum, 2016, 35(3): 441?450.
[12] CHUA A, SERVILLO L, MARCHEGGIANI E, et al. Mapping Cilento: using geotagged social media data to characterize tourist flows in southern Italy [J]. Tourism management, 2016, 57: 295?310.