范廷鈺,袁 科
(1.河南大學國際教育學院;2.河南大學計算機與信息工程學院,河南開封 475004)
大數(shù)據(jù)與云計算等新技術(shù)融合,信息的利用率得到極大提高,同時也引發(fā)大量的信息安全事件。大數(shù)據(jù)安全問題成為大數(shù)據(jù)學術(shù)研究的熱點問題。
中國知網(wǎng)是國內(nèi)最大的期刊全文數(shù)據(jù)庫,在影響力、內(nèi)容覆蓋面、規(guī)范性、檢索途徑等方面具有明顯優(yōu)勢[1]。本文以中國知網(wǎng)下的信息科技文獻目錄作為數(shù)據(jù)源,運用可視化數(shù)據(jù)分析工具CiteSpace,以發(fā)文量、核心作者、關(guān)鍵詞、突現(xiàn)詞為主題進行分析,總結(jié)我國大數(shù)據(jù)安全領(lǐng)域研究熱點和前沿,為學者提供參考和借鑒。
數(shù)據(jù)來源于中國知網(wǎng)信息科技文獻目錄,以“大數(shù)據(jù)”“信息安全”“網(wǎng)絡安全”“數(shù)據(jù)安全”“安全存儲”作主題詞,檢索時間為2010-2019 年,去除與研究不相符的文獻資料,最終獲取822 篇高被引文獻,將文獻以Refworks 格式導出。
本文采用的可視化工具為美國費城德雷克塞爾大學信息科學與技術(shù)學院陳超美博士基于JAVA 平臺開發(fā)的CiteSpace[2]。利用CiteSpace 將Refworks 格式文檔轉(zhuǎn)換成Web of Science(WOS)數(shù)據(jù)源導入CiteSpace 中[3]。對文獻作者、作者合作關(guān)系、關(guān)鍵詞、突現(xiàn)詞進行可視化分析,并制作相關(guān)知識圖譜,輔助分析我國在大數(shù)據(jù)安全研究方面的不足和可拓展的前沿領(lǐng)域[4]。
在進行數(shù)據(jù)分析之前,筆者對CiteSpace 的相關(guān)參數(shù)進行設(shè)置。“Time Slicing”(時間分隔)設(shè)置為2010-2019 年;“Years Per Slice”(最小統(tǒng)計時間)設(shè)置為1 年;“Term Source”(主題詞來源)將其下的Title(標題)、Abstract(摘要)、Author Keywords(作者關(guān)鍵詞)、Keywords Plus(拓展關(guān)鍵詞)全部勾選;“TopN%”(頻率選項)設(shè)置為20%。
一個領(lǐng)域的發(fā)展態(tài)勢可以從發(fā)文量的多少得以展現(xiàn)[5]。對2010-2019 各年發(fā)文量進行統(tǒng)計,發(fā)現(xiàn)大數(shù)據(jù)安全研究發(fā)文數(shù)量自2012 至2019 年各年發(fā)文量分別為2、25、71、111、112、144、174、183 篇,呈現(xiàn)逐年上升趨勢,如圖1 所示。根據(jù)圖1 將其分成兩個上升階段:第一個階段(2012-2015),自2012 年大數(shù)據(jù)在學術(shù)界引起關(guān)注后,其安全性研究也逐漸在增加,這一階段累計發(fā)表文獻209篇,占研究樣本的25.4%,平均增長率為28.1%;第二個階段(2016-2019),隨著云計算等技術(shù)的發(fā)展,大數(shù)據(jù)應用提升到新的階段[6],這一階段學者主要針對云安全以及云存儲進行探討,累計發(fā)表文獻613 篇,占研究樣本的74.6%,平均增長率為17.8%。
將“Node Types”(節(jié)點來源)設(shè)置為“Insulation”,調(diào)節(jié)Thresholds 為c(1,2,20)、cc(2,2,20)、ccv(4,3,20),得到研究機構(gòu)合作共現(xiàn)網(wǎng)絡(Nodes(節(jié)點)=87,Links(連線)=14,Density(密度)=0.003 7),如圖2 所示。圖2 列出研究機構(gòu)合作分布情況,圖中節(jié)點大小代表機構(gòu)發(fā)文量多少,最大節(jié)點是“上海社科院信息研究所”,總計發(fā)文10 篇,其次較大的節(jié)點有“工業(yè)和信息化部賽迪智庫”“中國信息安全測評中心”和“中國電子科技集團公司第三十研究所”,發(fā)文量分別為4 篇、3 篇和3 篇,這代表目前我國在大數(shù)據(jù)安全領(lǐng)域研究的第一梯隊。

Fig.1 The number of articles published in the field of big data security from 2010-2019圖1 2010 -2019 年大數(shù)據(jù)安全領(lǐng)域逐年發(fā)文量

Fig.2 Network map of cooperation and co-occurrence of research institutions in the field of big data security圖2 大數(shù)據(jù)安全領(lǐng)域研究機構(gòu)合作共現(xiàn)網(wǎng)絡圖譜
圖2 顯示有三組連線。第一組平均發(fā)文量最大的合作機構(gòu)為“中國信息安全測評中心”與“中國移動通信集團公司”,均發(fā)文2 篇;其次的兩組分別為上海大學圖書情報檔案系和中國商飛上海飛機設(shè)計研究院;上海交通大學、中國工程院和中國科學院研究生院,合作網(wǎng)絡密度僅為0.003 7,表明各個機構(gòu)節(jié)點之間的關(guān)系較為分散,各大機構(gòu)之間尚未形成緊密的合作關(guān)系。
發(fā)文量多少在一定程度上反映學者的學術(shù)研究能力[7]。將“Node Types”(節(jié)點來源)設(shè)置為“Author”,調(diào)節(jié)Thresholds 為c(1,1,20)、cc(2,1,20)、ccv(4,3,20),得到大數(shù)據(jù)安全領(lǐng)域核心作者合作共現(xiàn)網(wǎng)絡圖譜(Nodes(節(jié)點)=131,Links(連線)=70,Density(密度)=0.008 2),如圖3 所示。圖3 列出部分核心作者及合作團隊的結(jié)點信息。主要合作節(jié)點(合作團隊)有張新剛、王保平團隊,合作發(fā)文3篇,韓曉露、呂欣團隊合作發(fā)文2 篇,其他作者之間單次合作較多。作者節(jié)點間合作密度較低,僅為0.008 2,表明目前相關(guān)領(lǐng)域科研人員比較分散,還沒有形成真正意義上的合作關(guān)系。將累計發(fā)文數(shù)位于前20 的作者制成大數(shù)據(jù)安全研究高產(chǎn)作者表,如表1 所示。表1 顯示2010-2019 年間,發(fā)文量為3 篇以上的作者僅有5 位,占這一領(lǐng)域全部作者的0.71%。由此分析大數(shù)據(jù)安全領(lǐng)域研究人員基數(shù)大,研究人員廣泛關(guān)注,但從人均發(fā)文量看尚沒有(中文期刊)高產(chǎn)量作者,表明目前這一領(lǐng)域的研究深度較欠缺。

Fig.3 Network map of core authors co-occurrence in the field of big data security圖3 大數(shù)據(jù)安全領(lǐng)域核心作者合作共現(xiàn)網(wǎng)絡圖譜

Table 1 High-yielding authors in the field of big data security表1 大數(shù)據(jù)安全領(lǐng)域高產(chǎn)作者
關(guān)鍵詞是對文獻主旨內(nèi)容與作者意圖的概括,是文獻的核心和精髓[8],因此對某一領(lǐng)域相關(guān)文獻關(guān)鍵詞的分析,有助于挖掘該領(lǐng)域研究熱點[9]。將“Node Types”(節(jié)點來源)設(shè)置為“Keyword”,調(diào)節(jié)Thresholds 為c(1,1,20)、cc(3,2,20)、ccv(4,3,20),得到2010-2019 大數(shù)據(jù)安全研究主題詞圖譜(Nodes(節(jié)點)=70,Links(連線)=137,Density(密度)=0.056 7),如圖4 所示。統(tǒng)計圖譜中出現(xiàn)頻次前20 的關(guān)鍵詞,得到大數(shù)據(jù)安全領(lǐng)域高頻詞表,如表2 所示。
從圖4 和表2 可知,近10 年來大數(shù)據(jù)安全研究圍繞大數(shù)據(jù)(366)、信息安全(215)、大數(shù)據(jù)時代(144)、網(wǎng)絡安全(58)、云計算(55)等議題進行了研究。
關(guān)鍵詞出現(xiàn)頻次最高的是“大數(shù)據(jù)”,其相關(guān)文獻在中國知網(wǎng)信息科技數(shù)據(jù)庫中高達6 萬余篇。近年來,大數(shù)據(jù)隱含巨大的社會、經(jīng)濟、科研價值已引起各行各業(yè)的高度重視[10],數(shù)據(jù)正逐漸成為新時代下的原始材料,服務于國家安全、醫(yī)療健康、教育改革、產(chǎn)品效益等諸多領(lǐng)域[11]。
其次,頻次出現(xiàn)排第二第三的分別是“信息安全”“大數(shù)據(jù)時代”。信息安全事關(guān)國家安全以及社會穩(wěn)定,采取有效措施保證信息安全變得至關(guān)重要[12]。信息安全主要包括信息設(shè)備安全、數(shù)據(jù)安全、內(nèi)容安全和行為安全,密碼和網(wǎng)絡安全是其關(guān)鍵技術(shù)[13]。

Fig.4 Co-occurrence map of keywords in the field of big data security from 2010-2019圖4 2010-2019 年大數(shù)據(jù)安全領(lǐng)域關(guān)鍵詞共現(xiàn)圖譜

Table 2 High-frequency words in the field of big data security表2 大數(shù)據(jù)安全領(lǐng)域高頻詞
2.5.1 研究演進
特定時期關(guān)鍵詞的爆發(fā)往往與研究人員特別關(guān)注的某一潛在話題息息相關(guān),因此突發(fā)性檢測可用于探索新興趨勢和轉(zhuǎn)瞬潮流,利用CiteSpace 知識可視化軟件可對關(guān)鍵詞的突現(xiàn)性進行檢測并可視化,有助于對相關(guān)領(lǐng)域內(nèi)出現(xiàn)的歷史熱點和持續(xù)時間進行分析[14]。時區(qū)視圖展示了領(lǐng)域文獻的增長,某一時區(qū)的文獻越多,說明這一時間段中發(fā)表的成果越多,該領(lǐng)域處于繁榮時期;某一時區(qū)中的文獻越少,說明這一時段中發(fā)表的成果越少,該領(lǐng)域處于低谷時期。通過各時間段之間的連線關(guān)系,可以看出各時間段之間的傳承關(guān)系[15]。利用CiteSpace 的“Burst”(突變系數(shù)),在Layout 中選擇TimeZone,得到2010-2019 年大數(shù)據(jù)安全研究熱點時區(qū)圖譜,如圖5 所示。

Fig.5 Time zone map of research hotspots in the field of big data security from 2010-2019圖5 2010 -2019 年大數(shù)據(jù)安全領(lǐng)域研究熱點時區(qū)圖譜
為進一步了解每個階段關(guān)鍵詞的突現(xiàn)情況,按照圖6設(shè)置關(guān)鍵詞突現(xiàn)系數(shù),得到10 個在10 年間出現(xiàn)突變的關(guān)鍵詞,分別為開放數(shù)據(jù)、數(shù)據(jù)安全、數(shù)據(jù)處理、云安全、存儲備份、個人隱私、云存儲安全、個人信息保護、信息安全防護、防護策略,繪制出重點關(guān)鍵詞突現(xiàn)表,如表3 所示。這些重點關(guān)鍵詞突現(xiàn)情況直接反映了大數(shù)據(jù)安全領(lǐng)域研究趨勢的轉(zhuǎn)變。

Fig.6 Setting of keywords emergent coefficient圖6 關(guān)鍵詞突現(xiàn)系數(shù)設(shè)置

Table 3 Emergence of important keywords表3 重點關(guān)鍵詞突現(xiàn)情況
通過熱點時區(qū)圖譜和關(guān)鍵詞突現(xiàn)圖譜,將大數(shù)據(jù)安全領(lǐng)域研究演進分為4 個階段。
(1)數(shù)據(jù)安全的基礎(chǔ)性探討(2010-2012)。大數(shù)據(jù)出現(xiàn)就受到學者廣泛關(guān)注。在中國知網(wǎng)數(shù)據(jù)庫上,相較于21世紀初前10 年的508 篇論文,在第一階段3 年之內(nèi),累計發(fā)表大數(shù)據(jù)論文就增至1 752 篇,與此同時也帶來新的問題——數(shù)據(jù)安全性。這一時期,研究者主要從“大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)”“數(shù)據(jù)工程”“數(shù)據(jù)處理”等方面對數(shù)據(jù)安全進行了基礎(chǔ)性探討。王珊等[16]針對大數(shù)據(jù)特征對數(shù)據(jù)架構(gòu)進行分析,覃雄派等[17]對關(guān)系型和非關(guān)系型數(shù)據(jù)庫優(yōu)劣的研究,都表明這一階段研究者對大數(shù)據(jù)的基礎(chǔ)特征進行了深入探討。
(2)云計算的安全性探討(2013-2015)。IBM 公司于2007 年宣布云計算計劃,經(jīng)過多年的發(fā)展,云計算技術(shù)逐漸成熟。隨著云計算逐漸走向?qū)I(yè)化、規(guī)模化,云計算領(lǐng)域的安全問題成為其發(fā)展的關(guān)鍵。這一階段,研究者從“云安全技術(shù)框架”“云安全標準”“云安全服務”等多個方面探討云計算的安全性。林闖等[18]對云計算安全架構(gòu)和機制的評估,王于丁等[19]對云計算訪問控制機制的分析,都表明如何控制和保護信息資源不被非法獲取和使用是研究的重點方向。
(3)信息安全保護探討(2015-2016)。伴隨著大數(shù)據(jù)以及云計算技術(shù)和服務的不斷推進,全球信息安全治理體制變革逐漸完善,這一時期對信息安全進行了更為深入的探討,從“信息安全”“網(wǎng)絡安全”“信息安全政策”等諸多角度進行研究,由個人信息安全上升到國際間的信息安全防護。王世偉[20]闡述了“信息安全”“網(wǎng)絡安全”和“網(wǎng)絡空間安全”三者的聯(lián)系與區(qū)別,龔儉等[21]對網(wǎng)絡安全態(tài)勢感知分析與研究,都顯示這一階段學者對信息安全防護管理和世界網(wǎng)絡安全體制進行了多維度研究。
(4)信息防護策略探討(2017-2019)。最后一個大數(shù)據(jù)安全領(lǐng)域研究增長極為2017-2019 年。在上一階段影響下,人們對隱私保護有了越來越多的需求。隨著云計算等計算模式的廣泛應用,云平臺的可信程度面臨挑戰(zhàn)。在這一階段,區(qū)塊鏈技術(shù)的出現(xiàn)為解決分布式環(huán)境下實體間信任建立提供了新的思路和方法[22]。董貴山等[23]對區(qū)塊鏈中的隱私保護策略進行了分析,有些學者提出新的防護策略模型,如柳毅等[24]提出一種基于多層加密機制的內(nèi)容中心網(wǎng)絡隱私保護策略,高嶺等[25]提出基于改進蟻群算法的防護策略選擇模型等。由此可見,這一階段防護策略成為學者關(guān)注熱點。
2.5.2 前沿走向
研究前沿的識別與追蹤能夠為研究者提供學科研究最新動態(tài),預測研究領(lǐng)域發(fā)展,識別需要進一步探索的問題。在研究中,前沿往往采用代表該研究內(nèi)容的詞匯或短語出現(xiàn)次數(shù)的變化進行分析[26]。根據(jù)大數(shù)據(jù)安全領(lǐng)域研究演進的變化規(guī)律和近5 年關(guān)鍵詞突現(xiàn)情況,得出以下研究前沿熱點走向。
(1)大數(shù)據(jù)信息安全防護。隨著大數(shù)據(jù)的發(fā)展,越來越多的技術(shù)如物聯(lián)網(wǎng)、云存儲被應用到實際生活中,生成海量數(shù)據(jù),這些數(shù)據(jù)包含社交網(wǎng)絡用戶信息、購物記錄、身份特征等,通過整合這些相關(guān)數(shù)據(jù)便可獲得更有價值的個人及社會的敏感信息[27]。目前,尚不完善的信息保護與存儲方案、第三方平臺的可信程度等都存在信息泄露風險。表3 顯示在近5 年關(guān)鍵詞中,“信息安全防護”與“個人信息安全”都具有顯著的突現(xiàn)性。如何在大數(shù)據(jù)環(huán)境下對危險信息進行標記、在處理數(shù)據(jù)時設(shè)置嚴格的訪問控制機制,以此保護個人信息不被非法訪問和獲取,是未來大數(shù)據(jù)安全研究的重點。
(2)大數(shù)據(jù)云存儲安全。云存儲迅猛發(fā)展,用戶將文件資料存放在云端的同時也喪失了對文件的絕對控制權(quán),從而造成隱私泄露等安全隱患[28]。為解決云存儲存在的安全問題,學者通過屬性基加密、可搜索加密等關(guān)鍵技術(shù),改進與完善云存儲系統(tǒng),為數(shù)據(jù)建立索引,提升數(shù)據(jù)可用性,為云服務提供安全高效的共享環(huán)境。在表3 中,“云存儲安全”關(guān)鍵詞在近5 年中表現(xiàn)出突現(xiàn)性。隨著技術(shù)的不斷更新與發(fā)展,越來越多的安全方案被提出,“大數(shù)據(jù)云存儲安全”研究對進一步推進大數(shù)據(jù)應用起到重要作用。
(3)大數(shù)據(jù)安全防護策略。區(qū)塊鏈等技術(shù)的推進,為無信任網(wǎng)絡結(jié)構(gòu)提供了安全保證。與此同時,大數(shù)據(jù)將用戶的隱私信息進行匯集,使得惡意獲取用戶信息的技術(shù)門檻不斷降低[29]。因此,用戶對隱私及信息保護提出越來越多的需求。在新興技術(shù)背景下,通過應用新的網(wǎng)絡架構(gòu)和算法模型提出了許多新的防護策略,實現(xiàn)數(shù)據(jù)動態(tài)存儲,從而極大增加攻擊者訪問數(shù)據(jù)的難度。表3 中,關(guān)鍵詞“防護策略”在近3 年表現(xiàn)出較高的突現(xiàn)性。通過技術(shù)的不斷創(chuàng)新與發(fā)展,提出更加優(yōu)秀的防護策略,保證數(shù)據(jù)在高度聚合的前提下安全存儲,是未來大數(shù)據(jù)安全領(lǐng)域研究方向。
從大數(shù)據(jù)概念的興起,再到大數(shù)據(jù)應用以及服務的普及,大量的個人及社會信息作為數(shù)據(jù)存儲,人們對信息數(shù)據(jù)的控制權(quán)逐漸被削弱。同時,大數(shù)據(jù)領(lǐng)域的新技術(shù)不斷出現(xiàn),帶來的安全問題也日益明顯,人們對隱私保護的需求也越來越多。如何在大數(shù)據(jù)不斷發(fā)展的背景下提出和完善更加安全的防護模型,以應對非法獲取和利用數(shù)據(jù),是當前也是未來大數(shù)據(jù)安全領(lǐng)域的重要命題。
2010 -2019 年,由大數(shù)據(jù)及其相關(guān)技術(shù)所帶來的信息防護、存儲安全等相關(guān)問題一直貫穿整個大數(shù)據(jù)安全領(lǐng)域,研究方向也在研究進程中發(fā)生了轉(zhuǎn)變,由最初對大數(shù)據(jù)概念、存儲架構(gòu)的基礎(chǔ)性探討,逐漸轉(zhuǎn)向?qū)Ω影踩男畔⒎雷o策略研究;從云計算的基礎(chǔ)性結(jié)構(gòu)評估,逐漸發(fā)展為應用各種加密算法及改進云存儲系統(tǒng)。大數(shù)據(jù)安全領(lǐng)域理論研究為實踐提供了標準,并且助推了更多安全系統(tǒng)模型與防護策略成果。
即使研究方向不斷變化,大數(shù)據(jù)安全仍是歷久常新的問題,需要綜合應用多種新技術(shù)、新架構(gòu)以此應對該領(lǐng)域的復雜性和多變性。
通過利用CiteSpace 對大數(shù)據(jù)安全進行研究分析得到如下結(jié)論:
(1)組建聯(lián)合科研團隊,集中解決領(lǐng)域難題。作者合作以及機構(gòu)合作的網(wǎng)絡密度均不高,表明國內(nèi)并沒有出現(xiàn)真正意義上的合作團隊和機構(gòu)。具有代表性的研究團隊對領(lǐng)域發(fā)展起到引導作用,國內(nèi)稀疏的合作關(guān)系導致高質(zhì)量的文章較少,阻礙了大數(shù)據(jù)安全研究發(fā)展。因此,國內(nèi)大數(shù)據(jù)安全領(lǐng)域研究學者以及研究機構(gòu)應當組建聯(lián)合科研團隊,學習和借鑒不同技術(shù)和專業(yè)思想,緊跟大數(shù)據(jù)前沿發(fā)展步伐,針對信息安全、存儲安全,結(jié)合當下的新興技術(shù)提出適用的安全問題解決方案,從而形成具有影響力的研究合作中心。
(2)緊跟領(lǐng)域發(fā)展,做到有所發(fā)現(xiàn)與創(chuàng)新。從研究熱點分布來看,關(guān)鍵詞出現(xiàn)頻次位于前三的分別是“大數(shù)據(jù)”、“信息安全”以及“大數(shù)據(jù)時代”,而近年具有較強突現(xiàn)性的關(guān)鍵詞出現(xiàn)頻次并不高,這體現(xiàn)出大數(shù)據(jù)領(lǐng)域研究發(fā)展過程中,大量的文章只側(cè)重于研究大數(shù)據(jù)的基礎(chǔ)部分,沒有結(jié)合大數(shù)據(jù)當前的發(fā)展進程提出解決安全問題的新思路、新方法。部分文章僅泛泛地提出了大數(shù)據(jù)中關(guān)于信息安全的問題,同質(zhì)化現(xiàn)象嚴重。隨著研究進程的不斷推進,研究應當順應領(lǐng)域方向演進,從前沿角度提出更加新穎的問題和實踐方案,仍停留在基礎(chǔ)研究方向上對領(lǐng)域的發(fā)展和貢獻都是沒有意義的。
(3)開闊研究視野,拓展研究思路。大數(shù)據(jù)安全領(lǐng)域研究在10 年中共經(jīng)歷了4 次研究方向轉(zhuǎn)變,平均每過兩年就會發(fā)生一次研究演進。這一方面表明了大數(shù)據(jù)前沿的應用技術(shù)更迭較為頻繁,隨之帶來了許多相關(guān)的安全性問題;另一方面也體現(xiàn)出大數(shù)據(jù)安全領(lǐng)域的發(fā)展與大數(shù)據(jù)實踐應用之間有著密切聯(lián)系。大數(shù)據(jù)在實際應用與服務之中離不開大數(shù)據(jù)安全領(lǐng)域研究成果支持,而新興的大數(shù)據(jù)相關(guān)關(guān)鍵技術(shù)又為大數(shù)據(jù)安全領(lǐng)域提出了新的問題和挑戰(zhàn)。因此,研究的視野不能只局限于安全領(lǐng)域的相關(guān)進展,應當主動了解學習應用于大數(shù)據(jù)領(lǐng)域的前沿實踐成果,從而為研究打開新的思路和方向。