999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于cite spaceⅢ對于大數據研究的可視化分析

2017-04-05 15:24:40郭新敬沈子煬
現代經濟信息 2017年3期
關鍵詞:大數據

郭新敬+沈子煬

摘要:本文結合文獻計量學的方法和citespace軟件與excel軟件,對2005—2015年間的web of scienceTM 核心合集收錄的2182篇大數據研究領域的文獻分別進行了研究現狀、知識基礎、研究熱點、研究前沿進行了可視化分析,進而揭示了國際大數據領域研究的特點規律及動態過程。

關鍵詞:大數據;大數據研究前沿;cite spaceⅢ

中圖分類號:G40-057 文獻識別碼:A 文章編號:1001-828X(2017)003-0-03

引言

隨著智能手機、平板電腦等越來越多的智能移動終端被用戶所接受,而隨著用戶量的迅猛增長,數據也在以驚人的速度增長和累積。正是在全球數據暴漲的背景下,大數據,一個用來形容這種龐大的數據集的名詞應運而生。目前,學術界、政界、工商界等都對其產生了濃厚的興趣。大數據是一個抽象的概念,不同領域的專家學者因對其關注的方向不同,所給出的定義也不相同。

美國國家標準和技術研究院(NIST)從學術角度給大數據做了一個定義“大數據是指其數據量、采集速度或者數據表示限制了傳統關系型方法進行有效分析的能力,或需要使用重要的水平縮放技術來實現高效處理的數據”。

對于大數據的特征的描述,目前比較流行的是“3VS”和“4VS”兩種。“3VS”是由Gartner公司的分析師道格萊尼提出的,他將大數據描述為數量(volume)龐大、種類(variety)繁多、速度(velocity)快且具有即時性的數據集。

“4VS”則是由國際知名數據公司IDC提出的,在其發布的報告中是這樣描述大數據的特征的“數量浩大、種類繁多、生成快速、價值巨大單密度低”。正是由于學者專家高漲的研究熱情,探索理清大數據的發展方向,明確大數據的研究前沿,理清大數據的知識基礎對于大數據研究和管理則顯得尤為重要。

一、數據來源與研究方法

本文所選取的數據庫具體為科學引文索引SCIE(Science Citation Index expand),檢索式為”TS=big data AND TI=big data”,時間為2005—2015,檢索結果有2,182條記錄,來自web of science核心合集。本文選用可視化分析軟件為陳超美團隊所開發的CiteSpace III來對所獲取到的文獻數據進行分析。將之前檢索并下載的引文記錄放入到data文件夾中,使用CiteSpace III創建一個新的project,時間跨度選擇為2005—2015,選擇每一年為一個時間段,termtypes選擇burstterms,并分別選擇author,institution,keyword,cited author,cited reference,cited journal進行分析,設定閾值為:c(2,2,20),cc(3,3,20),ccv(3,3,20)。

二、文獻產量分析

文獻計量統計是科學研究中重要的研究方法, 它能反映某一學科領域的文獻隨時間變化的一個分布狀況以及研究主題的熱度情況。表一為統計表,圖一為每年散點圖及趨勢預測圖。對于文獻增長的規律用多項式函數進行擬合,得到擬合曲線y = -1.27 x4 + 10223.44 x3 - 30823881.64 x2 + 41304216104.99 x - 20755444911937.60 ,R? = 0.92 ,接近于1,且曲線與數據點較為吻合,說明近期內文獻數量將按照此曲線增長。

根據圖形我們可以把近十年來對大數據的研究分為兩個階段:

1.萌芽期(2010年以前):2006年,大數據技術形成并運行運算與分布式系統,為大數據的深入研究奠定基礎。2007年1月吉姆格雷——數據庫軟件先驅,第一次將這種轉變稱為第四范式,他認為面對這種范式,只能開發新一代的計算工具來處理海量數據。2008年,《Nature》在開辟了Big Data專欄,同年計算機社區聯盟(Computing Community Consortium)發表了報告Big Data Computing:Creating Revolutionary Breakthroughs in Commerce, Science and Society[1],闡述解決大數據問題的一些方法和技術。2010年2月,肯尼斯庫克爾在《經濟學人》上發表報告《數據,無所不在的數據》[2]。

2.增長期(2011-2015):2011 年2 月為了對科學研究中大數據的問題及其重要性進行討論,Science雜志出版專刊Dealing with Data。同年5月,繼物聯網,云計算之后,“大數據”成為又一個廣受關注的名詞,全球知名咨詢公司麥肯錫(McKinsey&Company)肯錫全球研究院(MGI)將大數據再次推向一個熱潮,發布了一份報告——《大數據:創新、競爭和生產力的下一個新領域》[3]。同年,Gartner 將大數據列入2012 年十大戰略新興技術。 6 月,IDC 研究報告《從混沌中提取價值》[4]中構成了大數據的理論基礎,并提出預計未來全球數據增速將會維持,到2020 年全球數據量將達到令人恐怖的35ZB,2010 年全球數據量跨入ZB 時代,全球數據量大約每兩年翻一番,預計2011全球數據量將達到1.8ZB。

2012年3月,大數據已經成為重要的時代特征,在白宮網站上,美國奧巴馬政府宣布投資2億美元到大數據領域,并發布了《大數據研究和發展倡議》[5]。

2013年5月,麥肯錫全球研究所(McKinsey Global Institute)稱大數據已成為這些可能改變世界格局的12項技術中許多技術的基石,并發布了一份名為《顛覆性技術:技術進步改變生活、商業和全球經濟》[6]的研究報告。2014年4月,世界經濟論壇發布了《全球信息技術報告(第13版)》[7],其是以“大數據的回報與風險”為主題。同年美國數據管理領域的專家學者從學術的角度介紹大數據的產生、處理流程和方法,聯合發布了《大數據白皮書》(《Challenges and Opportunities With Big Data》)[8],并提出了面對大數據的若干挑戰。

三、知識基礎分析

通過知識基礎分析, 可以挖掘出大數據研究的發展脈絡和研究基礎。知識基礎分析一般可以從早期奠基性文獻、高被引文獻兩個方面進行。在CitespaceⅢ軟件中, 可以通過繪制共被引文獻知識圖譜來展示關聯數據的知識基礎。 在進行軟件參數設置時, 節點類型只選擇共被引文獻(Cited Reference),調整閾值為(2,2,20),(4,3,20),(4,3,20), 運行后生成145 個網絡節點, 403 條連線, 生成的共被引文獻知識圖譜見圖3, 圖中節點的大小與節點相對應的文獻被引頻次成正比, 節點越大表明該文獻的被引次數越高, 紫色節點代表關鍵節點文獻。

1.早期奠基性文獻

早期奠基性文獻是某一學科領域后期研究的重要知識來源, 其認定的主要條件是文獻被引時間早且被引頻次相對較高。通過對共被引文獻的時間序列知識圖譜進行分析,發現大數據領域研究的奠基性文章有4 篇, 第一篇是Jeffrey Dean 和Sanjay Ghemawat 于2008 年發表的《MapReduce: simplified data processing on large clusters》[9]。兩位作者在該篇文章首次詳細介紹了MapReduce這種現今非常主流大數據處理編程模式。第二篇為Adam Jacobs在2009年發表的《The pathologies of big data》[10],作者在該文中指出了遇到大數據處理瓶頸時會出現的幾個典型問題。第三篇是由Jeremy Ginsberg1, Matthew H. Mohebbi1, Rajan S. Patel1, Lynnette Brammer2, Mark S. Smolinski1 & Larry Brilliant1在2009年聯合發表的《Detecting influenza epidemics using search engine query data》[11],幾位作者在介紹了大數據在預防醫學領域的一些應用。第四篇是Jeffrey Dean 和Sanjay Ghemawa在2010年發表的《MapReduce: a flexible data processing tool》[12],兩位作者在文中指出了MapReduce的引用在眾多領域的優點。

2.高被引文獻

一般來說,高被引文獻在一定程度上反映了文獻的學術影響力和經典程度, 而且,其中的知識常被作為相關研究學者進一步研究的知識基礎來源。因此,利用CitespaceⅢ軟件分析得出大數據領域研究被引頻次較高的文獻,如圖中引文年輪較大的幾個節點所示。

將被引頻次≥30 的4 篇文獻作為大數據領域研究的高被引文獻,如表所示。被引頻次排在首位的依舊是Jeffrey Dean 和Sanjay Ghemawat 于2008 年發表的《MapReduce: simplified data processing on large clusters》[9],被引頻次為161次,足以說明這篇文獻是大數據領域研究的經典文獻。第二位是麥肯錫研究院在2011年發布的報告《Big data: The next frontier for innovation, competition, and productivity》[3],被引頻次為92次,作為從經濟和商業維度詮釋大數據發展潛力的第一份專題研究成果,該報告系統闡述了大數據概念,詳細列舉了大數據的核心技術,深入分析了大數據在不同行業的應用,明確提出了政府和企業決策者應對大數據發展的策略。第三位是Deal Jeffrey L.在2013年出版的《BIG DATA: A REVOLUTION THAT WILL TRANSFORM HOW WE LIVE, WORK, AND THINK》[13],被引頻次為43次,概述詳細介紹了大數據的概念、特征、構成,和處理算法的使用。第四位是White T.在2012年出版的《Hadoop: The Definitive Guide》[14],被引頻次為38次,作者主要介紹了Hadoop這種大數據處理程序, Hadoop是一個由Apache基金會所開發的分布式系統基礎架構用戶可以在不了解分布式底層細節的情況下,開發分布式程序。

四、研究前沿分析

1.機構—國家分析

本文檢索的2182篇文獻共計147個節點97條連線,如圖二所示,從引文年輪上來看,美國最大,中國次之,年輪越大被引次數越多,說明該國家做作的研究價值越高,約為世界學者所接受。其中交大兩個年輪的最外層紅色圓環面積較大這說明美國和中國所做的研究在2015年內仍舊有較大的引用次數。從國家合作來看,美國的合作伙伴多為歐洲國家包括英國,西班牙,奧地利等,中國的合作伙伴位澳大利亞加拿大等。從機構合作上來看,不難看出最大的兩個合作群落是以中國、澳大利亞、加拿大機的研究機構為核心和以美國、歐洲研究機構為核心的兩大合作群落(分別編號為#1,#2),從這兩個合作群落的合作形態上不難看出,#1大致呈現為直線形態,每一個節點至于與其相連的的上下兩個節點有聯系,而#2則呈現出網狀形態,群落內的主要節點間聯系密切,是一種較為成熟的合作形態。由《社會網絡分析》[15]我們可知,中心中介度是度量是用來度量個體在社會網絡中聯系密切程度的數據。由表不難看出在#2中的國家中心度較高

2.研究熱點分析

本文2182篇文獻共計162個關鍵詞,399條連線,如圖二所示。從圖中我們不難看出,大數據的研究各個關鍵點之間的聯系非常密切,最密集處 big data關鍵點的中介中心度為0.2,此外,從諸如network,medicine,agriculture health,social media等關鍵詞我們也不難看出大數據與各個領域聯系緊密,自大數據這一概念被提出以來至今的這十年中各個領域對大數據的研究抱有非常的熱情,也取得了豐碩的成果。 表二為關鍵詞中出現次數排在前二十位的。其中做高的為big data ,說明學術界對于大數據的概念定義特征有著深入的研究,其次為mapreduce,cloud computing,Hadoop,data minig等熱點詞匯,MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行運算。是目前處理大數據的一種主流方式。cloud computing是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源,其運算能力高達每秒10萬億次。Hadoop是一個由Apache基金會所開發的分布式系統基礎架構用戶可以在不了解分布式底層細節的情況下,開發分布式程序。Data mining是指數據挖掘,一般是指從大量的數據中通過算法搜索隱藏于其中信息的過程。數據挖掘通常與計算機科學有關,并通過統計、在線分析處理、情報檢索、機器學習、專家系統(依靠過去的經驗法則)和模式識別等諸多方法來實現上述目標。故我們不難看出學術界對于大數據的研究以對大數據的應用和處理大數據的工具與技術為主。

五、結語

以Web of ScienceTM 核心合集數據庫中2182篇大數據領域研究的文獻為對象, 對大數據的研究現狀、研究基礎、研究熱點、研究前沿進行了可視化分析,得出以下結論:

1.大數據的研究可分兩個時期,2010年之前為萌芽期,大數據剛剛進去人們視線,大數據方面的研究剛剛起步,2011年至2014年為增長期,大數據越來越為人們所重視,社會各界都對大數據充滿了濃厚的興趣,研究文獻數量激增。2015年以后為成熟期,文獻研究數量稍有回落,學術界的研究方向開始轉向對于大數據的處理技術,以及在各學科的應用融合。

2.國家及機構合并網絡知識圖譜, 揭示了國家或機構的合作狀況和分布狀況, 在合作關系上,還沒形成一個好的合作網絡; 在國家層面上, 美國、中國、澳大利亞等國是發文較多的國家, 其中美國研究的發文量遠遠超過其它國家,并且其的發文最具研究關鍵性; 在機構層面上,美國哈弗大學、斯坦福大學、中國的社科院、清華大學等是發文較多的機構, 并且在發文機構中以高校機構為主。

3.共被引文獻知識圖譜揭示了大數據領域研究的知識基礎構成, 其中早期奠基性文獻如Jeffrey Dean 和Sanjay Ghemawat 于2008 年發表的《MapReduce: simplified data processing on large clusters》[9]和在2009年發表的《Detecting influenza epidemics using search engine query data》[11],以及Adam Jacobs在2009年發表的《The pathologies of big data》[10]是大數據領域研究的知識基礎。另外,高被引文獻集合也是重要的知識基礎構成要素。

4.大數據研究領域產生了一些研究熱點, 包括大數據本身的研究,大數據處理方式的研究,大數據在web上的應用,大數據在商業領域的應用,數據挖掘等。

參考文獻:

[1]Computing Community Consortium,2008,Big Data Computing:Creating Revolutionary Breakthroughs in Commerce, Science and Society.

[2]肯尼斯庫克爾,2010,數據,無所不在的數據,經濟學人.

[3] MGI,2011,Big data: The next frontier for innovation, competition, and productivity.

[4]IDC,2011,Extracting Value from Chaos.

[5]American government,2012,大數據研究和發展倡議.

[6]MGI,,顛覆性技術:技術進步改變生活、商業和全球經濟.

[7]世界經濟論壇,2014,全球信息技術報告(第13版).

[8]H. V. Jagadish,2014,Challenges and Opportunities With Big Data.

[9]Jeffrey Dean & Sanjay Ghemawat ,2008 ,MapReduce: simplified data processing on large clusters.

[10]Adam Jacobs,2009,The pathologies of big data.

[11]Jeremy Ginsberg1, Matthew H. Mohebbi1, Rajan S. Patel1, Lynnette Brammer2, Mark S. Smolinski1 & Larry Brilliant1, 2009,Detecting influenza epidemics using search engine query data.

[12]Jeffrey Dean & Sanjay Ghemawat,2010,MapReduce: a flexible data processing tool.

[13]Deal Jeffrey L.,2013,BIG DATA: A REVOLUTION THAT WILL TRANSFORM HOW WE LIVE, WORK, AND THINK.

[14]White T.,2012,Hadoop: The Definitive Guide.

[15]OReilly Media,2013,社會網絡分析:方法與實踐.

猜你喜歡
大數據
基于在線教育的大數據研究
中國市場(2016年36期)2016-10-19 04:41:16
“互聯網+”農產品物流業的大數據策略研究
中國市場(2016年36期)2016-10-19 03:31:48
基于大數據的小微電商授信評估研究
中國市場(2016年35期)2016-10-19 01:30:59
大數據時代新聞的新變化探究
商(2016年27期)2016-10-17 06:26:00
淺談大數據在出版業的應用
今傳媒(2016年9期)2016-10-15 23:35:12
“互聯網+”對傳統圖書出版的影響和推動作用
今傳媒(2016年9期)2016-10-15 22:09:11
大數據環境下基于移動客戶端的傳統媒體轉型思路
新聞世界(2016年10期)2016-10-11 20:13:53
基于大數據背景下的智慧城市建設研究
科技視界(2016年20期)2016-09-29 10:53:22
數據+輿情:南方報業創新轉型提高服務能力的探索
中國記者(2016年6期)2016-08-26 12:36:20
主站蜘蛛池模板: 精品久久综合1区2区3区激情| 国产精品网址你懂的| 国产精品美女在线| 色网在线视频| 国产剧情国内精品原创| 国产精品熟女亚洲AV麻豆| 91麻豆精品视频| 好久久免费视频高清| 国产97色在线| 亚洲精品午夜无码电影网| 欧美在线综合视频| 亚洲人成电影在线播放| 久久精品中文字幕少妇| 国产成人免费高清AⅤ| 国产美女免费| 午夜不卡视频| 中文字幕在线播放不卡| 日本a级免费| 激情综合激情| 国产一级在线播放| 2020精品极品国产色在线观看| 国产美女一级毛片| 久夜色精品国产噜噜| h网址在线观看| 黄色福利在线| 国产日韩欧美在线视频免费观看| 性欧美精品xxxx| 综合色88| 亚洲精品国产综合99| 亚洲香蕉伊综合在人在线| 亚洲精品国产综合99| 四虎在线观看视频高清无码 | 亚洲天堂日韩av电影| 99久久国产综合精品2023 | 亚洲AⅤ无码国产精品| h视频在线播放| 激情综合网激情综合| 久久综合结合久久狠狠狠97色| 夜夜操国产| 啪啪啪亚洲无码| 91成人精品视频| 国产成人欧美| 亚洲成人免费在线| 久爱午夜精品免费视频| 亚洲国产成人无码AV在线影院L| 欧美精品啪啪一区二区三区| 东京热一区二区三区无码视频| 99色亚洲国产精品11p| www亚洲天堂| 精品国产免费人成在线观看| 3344在线观看无码| 亚洲成a人片77777在线播放| 91丝袜乱伦| 日韩色图区| 国产精品流白浆在线观看| 欧美日韩激情在线| 成年人视频一区二区| 国产精品太粉嫩高中在线观看| 国产屁屁影院| 色婷婷在线播放| 精品久久久久久成人AV| 国产原创第一页在线观看| 国产精品尤物在线| 亚洲国产亚综合在线区| 亚洲综合一区国产精品| 国产精欧美一区二区三区| 香蕉久久国产精品免| 狠狠色狠狠色综合久久第一次| 激情网址在线观看| 无码中文字幕加勒比高清| 国产国拍精品视频免费看 | 精品福利视频导航| 亚洲一区二区三区在线视频| 国产自产视频一区二区三区| 麻豆国产原创视频在线播放| 91精品国产麻豆国产自产在线| 久久青草免费91线频观看不卡| 精品国产成人三级在线观看| 精品人妻AV区| 欧美在线天堂| 伊人色在线视频| 免费人成在线观看视频色|