譚珅 楊亞楠



摘要:在大數(shù)據(jù)時代背景下,數(shù)據(jù)可視化的應(yīng)用的范圍愈加廣泛,重視程度更是在不斷提高。本文通過對數(shù)據(jù)可視化研究領(lǐng)域發(fā)表的相關(guān)文獻進行挖掘,借助社會網(wǎng)絡(luò)分析方法,對數(shù)據(jù)可視化研究領(lǐng)域的主題演化和研究現(xiàn)狀進行分析。
Abstract: Under the background of large data era, the application of data visualization is more and more extensive, and the degree of attention is constantly improving. In this paper, by mining the relevant literature published by domestic scholars in the field of data visualization, with the help of social network analysis method, the topic evolution and research status of data visualization research are analyzed.
關(guān)鍵詞:數(shù)據(jù)可視化;社會網(wǎng)絡(luò)分析;研究主題
Key words: data visualization;social network analysis;research topic
中圖分類號:TP311.1? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1006-4311(2018)36-0215-02
0? 引言
新一代信息和互聯(lián)網(wǎng)技術(shù)與社會各領(lǐng)域的深度融合,使得人類生產(chǎn)和獲取數(shù)據(jù)的能力在以指數(shù)倍數(shù)增長[1],人類社會逐漸進入一個信息爆炸的時代[2]。當(dāng)海量的數(shù)據(jù)充斥著世界,那么如何從海量的數(shù)據(jù)中甄別有價值的數(shù)據(jù)和垃圾數(shù)據(jù)[3],這就必然給信息處理技術(shù)帶來了更高的要求。在此背景之下,數(shù)據(jù)可視化作為數(shù)據(jù)呈現(xiàn)和數(shù)據(jù)分析的理論和方法被各行業(yè)越發(fā)重視。對于海量的數(shù)據(jù),傳統(tǒng)技術(shù)無法直接進行分析,可視化技術(shù)借助計算機將原始數(shù)據(jù)、信息轉(zhuǎn)換更易于人類理解和接受[4],能夠更加快速的獲得具有價值的知識[5];與此同時,在某些情況下數(shù)據(jù)挖掘技術(shù)會造成數(shù)據(jù)遺失,一些更具價值“小數(shù)據(jù)”很容易被大量的數(shù)據(jù)所淹沒,如網(wǎng)絡(luò)安全的黑客攻擊、醫(yī)療數(shù)據(jù)的患者病例信息等,而將可視化技術(shù)和數(shù)據(jù)挖掘技術(shù)結(jié)合起來是更加有效地解決方法。總體上看,從數(shù)據(jù)的采集、數(shù)據(jù)的存儲與管理、數(shù)據(jù)的分析與挖掘、數(shù)據(jù)展現(xiàn)與應(yīng)用,可視化技術(shù)是作為大數(shù)據(jù)產(chǎn)業(yè)架構(gòu)最終呈現(xiàn)環(huán)節(jié),對于之前環(huán)節(jié)起到了至關(guān)重要的作用,可以說數(shù)據(jù)可視化決定了數(shù)據(jù)資源管理的水平的高低。
本文旨在通過對學(xué)者們在數(shù)據(jù)可視化領(lǐng)域的研究成果進行梳理,借助社會網(wǎng)絡(luò)分析方法,呈現(xiàn)出我國數(shù)據(jù)可視化研究領(lǐng)域的研究現(xiàn)狀,對學(xué)者們接下來的研究方向選擇具有指導(dǎo)意義。
1? 數(shù)據(jù)獲取
本文選取中國知網(wǎng)(CNKI)為數(shù)據(jù)源,將主題、關(guān)鍵詞、篇名、摘要的檢索詞設(shè)定為“數(shù)據(jù)可視化”,并且為精確模式,四者之間為或者關(guān)系;期刊來源選定為SCI、EI和CSSCI;檢索時間設(shè)定為2002年到2017年,經(jīng)檢索獲得642篇文獻。發(fā)文量趨勢線擬合方程為y=0.07x3-1.0131x2+4.1689x+18.533,其中R2=0.847,表明擬合程度較好,可信度較高。
2002年以來數(shù)據(jù)可視化的發(fā)文量比較穩(wěn)定,每年50篇維持在以下,2014年發(fā)文量開始出現(xiàn)快速增長,反應(yīng)出數(shù)據(jù)可視化的研究熱度在不斷升高。鑒于此,根據(jù)年發(fā)文量的變化,本文將數(shù)據(jù)可視化的研究劃分為2002-2013年和2014-2017年兩個階段。
2? 研究方法選擇
本文使用主要社會網(wǎng)絡(luò)分析方法對數(shù)據(jù)可視化技術(shù)研究情況進行探討,借助BICOMB從原始文件挖掘出中數(shù)據(jù),使用Pajek繪制出網(wǎng)絡(luò)圖后,對獲取到的屬性數(shù)據(jù)進行深入分析。考慮到網(wǎng)絡(luò)中各衡量指標的特性,筆者選取接近度中心性作為網(wǎng)絡(luò)圖中的衡量指標,其計算公式為:
其中Cc(vm)表示節(jié)點vm接近度中心性,N表示節(jié)點數(shù),dmn表示節(jié)點vm到vn的最短距離。
3? 研究結(jié)果分析
3.1 主要關(guān)鍵詞分析
借助BICOMB軟件對從文獻中提取到的關(guān)鍵詞進行提取,并且對于同義、大小寫等表達方式不同的關(guān)鍵詞進行合并處理,最后按關(guān)鍵詞進行排序統(tǒng)計。經(jīng)統(tǒng)計,第一階段獲得關(guān)鍵詞907個,頻次大于等于2的關(guān)鍵詞有118個,累計占比37.68%,前三位的是可視化、數(shù)據(jù)可視化、信息可視化;第二階段共計獲得關(guān)鍵詞1093個,頻次大于等于2的關(guān)鍵詞數(shù)為120個,累計占比37.91%,頻次位于前三位的是可視化、大數(shù)據(jù)、數(shù)據(jù)可視化。從位于前三位的關(guān)鍵詞變化中可以發(fā)現(xiàn),大數(shù)據(jù)在研究中地位得到突顯,涉及信息可視化研究的在減少。
3.2 關(guān)鍵詞中心性分析
通過計算兩個階段關(guān)鍵詞的中心性,將中心性劃分為三個層次:Cc(vm)≥0.60的節(jié)點為核心節(jié)點用;Cc(vm)≥0.50并且Cc(vm)<0.60的節(jié)點為中間節(jié)點;Cc(vm)<0.50的節(jié)點為邊緣節(jié)點用。
第一階段(2002-2013年):在本階段,詞頻大于等于3的關(guān)鍵詞共計41個,其中核心節(jié)點有兩個分別是可視化和信息可視化,中心性分別為0.66和0.61;處于中間節(jié)點的關(guān)鍵詞是數(shù)據(jù)可視化、數(shù)據(jù)挖掘、知識可視化和科學(xué)計量學(xué),占總數(shù)的9.76%;邊緣節(jié)點共計35個,在總數(shù)中為85.37%。對各層次節(jié)點的數(shù)量對比可以發(fā)現(xiàn)邊緣層節(jié)點占比很高,這反映出在數(shù)據(jù)可視化研究較早階段研究關(guān)注點比較分散。在邊緣節(jié)點中,可視化分析、可視分析、空間分析等分析類詞頻和信息檢索、信息資源、信息系統(tǒng)等信息類詞頻都較多,反應(yīng)出數(shù)據(jù)可視化研究在這些方面的關(guān)注度較高。進一步分析,發(fā)現(xiàn)節(jié)點間連線粗細進行觀察可以發(fā)現(xiàn),數(shù)據(jù)可視化與大數(shù)據(jù)、數(shù)據(jù)新聞、數(shù)據(jù)挖掘和在線數(shù)據(jù)服務(wù)4個詞關(guān)聯(lián)度較高,反應(yīng)出在初期階段與數(shù)據(jù)可視化聯(lián)系緊密的研究領(lǐng)域。
第二階段(2014-2017年):本階段詞頻大于和等于3的關(guān)鍵詞共計49個,有2個核心節(jié)點分別為可視化和大數(shù)據(jù),中心性分別為0.65和0.62;中間節(jié)點有7個,分別為信息可視化、數(shù)據(jù)新聞、數(shù)據(jù)可視化、可視分析、數(shù)據(jù)挖掘、社會網(wǎng)絡(luò)分析、云計算,合計占比為14.29%;邊緣節(jié)點共計40個,合計占比為81.63%。較第一階段相比可以看出,中間節(jié)點的占比升高,數(shù)據(jù)可視化研究內(nèi)容上有集中趨勢;信息可視化由第一階段的核心節(jié)點演化為第二階段中間節(jié)點;數(shù)據(jù)新聞、可視分析、數(shù)據(jù)分析等逐漸成為變?yōu)橹虚g節(jié)點,說明這些領(lǐng)域的關(guān)注度在不斷升高;數(shù)據(jù)可視化領(lǐng)域研究內(nèi)容的主要范圍已經(jīng)逐漸形成。此外,節(jié)點聯(lián)系最為密切的是數(shù)據(jù)新聞和可視化兩個節(jié)點之間,并且數(shù)據(jù)新聞和大數(shù)據(jù)與數(shù)據(jù)可視化節(jié)點聯(lián)系度也較高。
3.3 網(wǎng)絡(luò)特性分析
經(jīng)計算得到兩個階段關(guān)鍵詞網(wǎng)絡(luò)的網(wǎng)絡(luò)密度、平均度和集聚系數(shù),如表2所示。通過數(shù)據(jù)對比發(fā)現(xiàn),關(guān)鍵詞網(wǎng)絡(luò)的網(wǎng)絡(luò)密度、平均度和集聚系數(shù)在不斷升高,反映出數(shù)據(jù)可視化研究領(lǐng)域內(nèi)關(guān)鍵詞緊密程度和聯(lián)系程度不斷升高,并且研究內(nèi)容整體上有集中趨勢。
4? 結(jié)論
我國的數(shù)據(jù)可視化研究雖然稍晚于國外,但是我國學(xué)者在這方面取得了許多研究成果,本文通過借助社會網(wǎng)絡(luò)分析方法,從關(guān)鍵詞詞頻、關(guān)鍵詞中心性和網(wǎng)絡(luò)特性分析等四個方面對2002-2017年間的數(shù)據(jù)可視化研究領(lǐng)域的研究文獻進行梳理,梳理出以下結(jié)論:
①在研究初期學(xué)者們對數(shù)據(jù)可視化研究的關(guān)注度較低,較長時間內(nèi)年發(fā)文量在50篇以下,但隨著學(xué)者們對該領(lǐng)域關(guān)注度不斷升高,發(fā)文量逐年上升,尤其是近年來增長迅速。
②數(shù)據(jù)可視化領(lǐng)域的研究主題呈現(xiàn)出由關(guān)注于數(shù)據(jù)挖掘和可視化呈現(xiàn)演化為關(guān)注于數(shù)據(jù)挖掘和基于可視化進行相關(guān)分析,如在第二階段中數(shù)據(jù)分析、可視分析、社會網(wǎng)絡(luò)分析等分析類詞頻熱度較高,此外,大數(shù)據(jù)、云計算等具有時代特征的關(guān)鍵詞被學(xué)者們較為關(guān)注。
③我國數(shù)據(jù)可視化的研究主題內(nèi)容不斷集中,核心節(jié)點之間的關(guān)聯(lián)性在升高,邊緣節(jié)點占比在降低,主要研究內(nèi)容已經(jīng)逐漸形成;并且網(wǎng)絡(luò)密度、平均度和集聚系數(shù)等網(wǎng)絡(luò)特性指標在升高,研究主題之間關(guān)系越發(fā)緊密。
參考文獻:
[1]張金磊,張寶輝,劉永貴.數(shù)據(jù)可視化技術(shù)在教學(xué)中的應(yīng)用探究[J].現(xiàn)代遠程教育研究,2013(06):98-104,11.
[2]劉智慧,張泉靈.大數(shù)據(jù)技術(shù)研究綜述[J].浙江大學(xué)學(xué)報(工學(xué)版),2014,48(06).
[3]耿學(xué)華,傅德勝.可視化數(shù)據(jù)挖掘技術(shù)研究[J].計算機應(yīng)用與軟件,2006(02).
[4]HABER R B. Visualization idioms : A conceptual model for scientific visualization systems [J]. Visualization in Scientific Computing, 1990.
[5]孫秋年,饒元.基于關(guān)聯(lián)分析的網(wǎng)絡(luò)數(shù)據(jù)可視化技術(shù)研究綜述[J].計算機科學(xué),2015,42(S1).