基于知識圖譜的國內外大數據比較研究

2016-08-30 08:29:27蘇楠

中國科技論壇 2016年7期

關鍵詞：數據挖掘可視化研究

蘇　楠

(四川大學公共管理學院，四川　成都　610065)

基于知識圖譜的國內外大數據比較研究

蘇楠

(四川大學公共管理學院，四川成都610065)

以WOS和CSSCI的研究文獻為對象，采用文獻計量及可視化方法，構建系列知識圖譜，開展國內外大數據比較研究。結果顯示，國內外大數據在技術方面以mapreduce、hadoop、cloudcomputing等為主要支撐，在應用方面以金融、社會媒體、電子商務、信息服務等為主要領域。整體上看，中國大數據研究仍處于相對落后的局面，尤其是對基礎理論、價值特征的挖掘相對薄弱，將會成為未來大數據技術研發與應用推廣的重大障礙。

大數據；國內外；應用；熱點主題；比較研究

近年來，中國大數據研究已經如火如荼地開展起來。大數據概念起源于歐美發達國家，其在相關方面的研究也處于領先地位。雖然當前對國外大數據研究的介紹性成果已經很多，但是國內外大數據的比較研究還很少見。因此，亟需通過比較國內外大數據研究進展情況，挖掘熱點，發現異同，尋找差距，探測趨勢，為推動國家大數據戰略提供參考借鑒。

1　數據與方法

以CSSCI為數據源，以大數據、數據挖掘、bigdata為檢索詞，時間為2006—2015年，經過精確檢索和數據清洗后最終獲得文獻數據958條。以WebofScience中SCI-EXPANDED、SSCI為數據源，檢索主題為bigdata、massivedata、hugedata，時間跨度為2006—2015年，獲得文獻數據2940條。

研究方法選用共詞分析法、頻次分析法等，以文獻計量軟件CitespaceⅢ為技術工具。研究將CSSCI和SCI-EXPANDED、SSCI中的文獻數據導入標準化處理，開展詞頻分析、共詞分析，繪制能夠反映國內外大數據研究現狀的聚類圖譜，開展主題挖掘和比較研究。

2　國內外大數據研究的知識圖譜

2.1詞頻分析

通過對關鍵詞的提取，發現CSSCI文獻中共提取關鍵詞815個，WOS文獻中共提取關鍵詞2134個。表1、表2分別是國內外大數據研究的高頻關鍵詞列表，看到國外文獻的關鍵詞頻次要遠遠高于國內文獻的關鍵詞頻次。

表1　大數據研究的高頻關鍵詞列表(前30位)

表1顯示，中國大數據研究的領域標簽為數據挖掘、大數據、大數據時代，云計算、關聯規則、學習分析、聚類分析、競爭情報、數字圖書館、知識發現、數據分析、信息服務、決策樹、電子商務、mapreduce等是當前大數據研究的重點。大數據研究初步形成兩個細分方向：一是大數據技術研究，如關聯規則、聚類分析、數據倉庫、可視化、web數據挖掘、數據挖掘技術、粗糙集、mapreduce、hadoop等，二是大數據實際應用，圖書館、學習分析、競爭情報、信息服務、決策樹、個性化服務、知識服務、電子商務、金融、商業智能、在線教育等等。

表2顯示，國外大數據研究在技術方面主要有，mapreduce、systems、classification、algorithm、datamining、Design、hadoop、ontology、neural-networks、sensordata、integration等；在應用方面則表現在，cloudcomputing、information、management、performance、socialmedia、internet、bioinformatics、cancer、machinelearning等。比較發現，國外大數據的研究內容更為廣泛、研究方向更為多元、技術創新相對先進、研究層次更為深入。

表2　國外大數據研究的高頻關鍵詞列表(前30位)

續表2

2.2共詞圖譜

共詞分析是對兩個關鍵詞在文獻中共同出現的次數進行分析，挖掘學科研究的演化情況[1]。運用CiteSpace將同質性節點抓取出來，以可視化圖譜的形式呈現研究熱點，節點頻次、網絡密度、連線疏密等是識別研究結構的重要依據[2]。

圖1是中國大數據研究知識圖譜，全面展示了中國大數據研究的熱點分布。該圖譜存在若干關鍵節點，如關聯規則、競爭情報、數據分析、信息服務、數字圖書館、知識發現、可視化、web數據挖掘、云計算、語義網、聚類分析等，每個節點都與周邊外圍節點構成一個主題類團，這些類團指示不同的研究方向和研究重點。例如，云計算-mapreduce-hadoop指向大數據技術研究，競爭情報-知識管理-決策支持-企業指向大數據的企業應用，數字圖書館-個性化服務-圖書館服務-高校圖書館-知識服務則是指向圖書館服務中的大數據應用研究。

圖1　中國大數據研究的知識圖譜

圖2是國外大數據研究知識圖譜。相較于圖1，該圖譜的關鍵節點結構更復雜，節點之間的關聯更加密切。關鍵節點主要是algorithms、design、classificationmodel、optimization、prediction、cloudcomputing、hadoop、mapreduce、neural-networks、datamining、machinelearning。而由這些節點支撐的主題聚類數量眾多，如bigdata-analytics-twitter-socialmedia，challenges-risk-privacy，machinelearning-cloudcomputing-cloud，prediction-neuralnetworks—classification-performance-model等。國外大數據研究的不同聚類之間存在更密切的關聯，呈現出較高程度的交叉性。

圖2　國外大數據研究的知識圖譜

從圖1、圖2可以發現，大數據、數據挖掘、bigdata等并不處于圖譜的絕對中心，并且其與外圍節點連線數量不是最多的，反而是前文提到的那些關鍵節點起到了支撐大數據研究的作用，如國內是關聯規則、競爭情報、數據分析、信息服務、數字圖書館、可視化、云計算等，而國外是algorithms、prediction、performance、classification、model、cloudcomputing、neural-networks、machinelearning、risk等。國內外研究在主流方向上是相對一致的。在大數據技術研究上，國內外都關注分布式系統、并行計算、web數據挖掘技術、社會網絡分析、可視化技術、云計算技術、關聯規則算法、分類算法等，除此之外，國外還突出對算法優化技術、本體技術、統計元技術、神經網絡技術等的研究，而國內則在語義網、協同過濾、信息抽取等投入較多。在大數據應用研究上，國內外較為一致的關注點是信息服務、競爭情報、可視化、社會媒介、互聯網、新聞、電子商務等，除此之外，國內將大數據應用于數字圖書館、金融、數字出版、在線教育等領域，而國外則更加關注bioinformation、cancer、surveillance、disease、health、policy等領域的大數據應用。

除了應用研究與技術研究之外，國外學者還對大數據的performanc、risk、prediction、architecture、privacy、security、behavior、optimization、patterns等內涵、特征保持濃厚興趣，而這方面國內研究相對較弱。然而這些內涵、特征是大數據的基礎研究，對這些基礎問題的論證能夠幫助創新大數據技術，研判大數據應用的領域與價值。

3　國內外大數據研究的熱點比較

3.1大數據基礎研究

大數據基礎研究主要涉及的是大數據的概念界定、起源發展、性質特征、架構邏輯、價值意義等。在這一方面，中國相關研究數量不多且研究層次不深，國外研究者則非常重視大數據基礎研究。framework、performance、optimization、science、risk、privacy、prediction、architecture、security、design、behavior、challenges、patterns等關鍵詞顯示出國外對大數據基礎研究重要性的認識。Laney較早地提出大數據“3V”特性，即Volume、Velocity和Variety，在他之后Demchenko.Y等人認為大數據還具有Veracity、Value特性，進而提煉出大數據的5V特性[3]。國外學者認為大數據有助于重塑現代科學結構，從信息集成、數據挖掘等方面推動科學研究范式的整體性、革命性改變[4]。也有學者對此提出質疑，認為大數據存在擴展性不穩定、存儲量過載、數據冗余與分化、測量精確性低、數據安全等問題[5]。DanahBoyd呼吁冷靜看待大數據“熱潮”，警惕大數據“陷阱”。大數據真實性、安全性就是最受質疑的特性之一。國內外研究者進行了討論。ViktorMayer等認為應在數據處理及使用中確定限制性要素和控制手段[6]。在其啟發下，國內研究也將“告知—同意”作為大數據安全綜合治理模式的重要依據[7]。

國外學者關注大數據背后的邏輯，他們認為大數據基于互聯網而生，其內在價值是對離散數據、碎片信息的集成挖掘與數字重構，形成不對稱信息優勢，而這種不對稱信息優勢即是大數據要極力攻破的，同時又是大數據自身孕育的。掌握這種不對稱信息優勢就是掌握了各種社會資源的調配。因此，一些研究者認為大數據既代表著黑幕又代表著透明，而大數據研究就是要讓其更多的轉向透明。另外，國外學者對大數據的模型、流程、方法以及在工程、社會、自然等方面的關聯也比較感興趣。

3.2大數據技術研究

為大數據提供技術支撐的就是云計算、mapreduce、hadoop等技術。Mapreduce是基于C++的分布式算法系統，其功能是開展大批量非結構化數據的集中處理，實現效率與成本的平衡；hadoop則是基于JAVA語言的分布式框架，為mapreduce提供運行載體，與hadoop類似的還有pnuts、gfs等；云計算技術則是基于聯機分析的多維數據分析方法，對數據進行分布式存儲及并行計算。Mapreduce與hadoop是大數據技術的基礎，mapreduce將海量數據分類化到不同的服務器上運行，而hadoop則為這種分類提供規則約束的平臺框架。

云計算是大數據技術的延伸，涵蓋了gridcomputing、SOA技術、utilityconputing及分布式算法等。大數據技術在海量數據采集的廣度和速度上有一定的優勢，但是不擅長精確分析、信息保全，而云計算則兼顧多維計算與高容量存儲于一體，能夠通過獨特的streamcompute方法提升半結構化數據處理的可擴展性、隱私性、容錯能力等，還支持可視化、智能分析、數據集成、人機交互等。

中國經過一段時間對西方國家的技術學習后，已經在一些方面取得了本土化的創新性成果，如，百度公司構建了“開放云”、“數據工廠”、“百度大腦”等技術平臺，阿里巴巴開發了基于OS的大規模分布式計算系統Apsara，中國科學院推出了適用于開源數據基準測試的BigDataBench程序集[8]。但是，西方國家仍然掌握著大數據技術研究的前沿成果，如谷歌公司以Googlemapreduce處理算法、BigTable和GoogleFileSystem奠定了其在大數據技術研發上的先進地位，IBM在對hadoop重構基礎上開發了用于數據塊自動分類的Co-hadoop算法[9]，微軟則通過整合hadoop與WindowsAzure、BI構建了兼具數據挖掘與智能商務處理能力的云計算平臺，斯坦福大學設計了一個內存容量共享、處理器多核分布的大數據工具Phoenix，Facebook則開發了計算能力在250PB以上的新一代大數據查詢引擎Presto。總體上，國外在大數據技術研究領域能夠提供更加多元、可靠、高效的技術方案，并且已經被廣泛推廣到各個大數據應用領域。

相比而言，中國的大數據技術研究還偏重于事務型數據庫建構階段，歐美國家已處于分析型數據平臺(AnalyticDB)研發階段。擅長探究事物時空發展規律的分析型數據平臺更符合未來社會發展需求，可以更好地提供情報分析、方案設計、決策優化、管理分類、信息保密。

大數據可視化技術的軟件或工具都是國外大學或公司研發的，如Jigsaw、ITF等，國外已經開始將“數據可視化”與“可視化分析”一體化，從而提供系統貫通、可知性強、時時交互的數據服務。遺憾的是，國內原創性的數據可視化分析工具幾乎是空白。國內在數據可視化方面明顯存在資金投入較少、人才培養不足、政策支持較弱等問題，導致國內外技術差距有進一步擴大的風險。

3.3大數據應用研究

當前，大數據應用呈現出飛速拓展、層次推進、內容深化的態勢。2009年前后，大數據在互聯網領域嶄露頭角，2012年大數據已經被應用到生物信息、金融分析、新聞傳播、決策分析、電子商務等領域，當前大數據更深入到物流供應鏈、智慧交通、在線教育、一對一醫療、數字出版等人們生活的方方面面。

國外比較注重大數據在生物信息、醫療開發、衛生健康、輿情預測、社會網絡、經濟分析、物聯網、化學信息、藥品研發、政策決策、商業創新、環境保護等方面的運用。例如，在下一代生物基因測序方面美國科學家就應用mapreduce框架構建了基于大數據分析能力的生物知識庫[10]；美國科研機構用大數據信息捕捉技術對若干地區的生態環境實時監控以發現生態保護漏洞[11]；國外學者從twitter獲取社交大數據，借助復雜社會網絡評估區域穩定安全問題；還有研究機構分析居民健康狀況，預測未來若干疾病爆發的可能性[12]。

中國大數據應用層次還比較低，主要還處于對西方早期經驗的學習和模仿階段。大數據應用相對廣泛的領域是生物信息、物流快遞、金融分析、電子商務、慕課教育等領域。雖然國內也出現了將大數據應用于國家治理能力提升、服務型政府建設、網絡輿情引導等領域的嘗試。但是，這種嘗試大多屬于粗淺層次或學理層面的研究探索，而非強調可操作、可評估的實際應用。總體上看，中國創新性的、代表性、本土化的大數據應用案例還比較少見。對大數據本質規律研究不足，圍繞大數據因果分析、相關分析、特征分析的專門研究缺乏，難以與國內現實急需相對接，導致大數據應用的頂層設計與戰略規劃遲遲難以突破。

4　結束語

比較研究發現，中國大數據研究在理論內涵、技術開發、應用實踐均與歐美國家存在一定差距。尤其是在大數據價值特性、大數據分類學、大數據本體庫、大數據學科建設等研究上急需補課。總體上看，中國大數據研究還處于模仿和學習國外相關研究的階段。2012年奧巴馬簽署了“大數據研究和發展計劃”，比中國推行大數據戰略提前了三年，并且美國在大數據研究方面有細致的發展規劃，而中國大數據發展頂層設計還比較模糊。因此，亟需理清大數據發展思路，制定定向精準地技術研發與應用方案，促進大數據在中國全面小康社會建設過程中發揮支撐作用。

[1]劉則淵,陳悅,等.科學知識圖譜方法與應用[M].北京：人民出版社,2008：36.

[2]馮璐,冷伏海.共詞分析方法理論進展[J].中國圖書館學報,2006(2)：88.

[3]DEMCHENKOY，GROSSOP，etal.Addressingbigdataissuesinscientificdatainfrastructure[C].CollaborationTechnologiesandSystems，2013InternationalConferenceonIEEE，2013:49.

[4]HOWED，COSTANZOM，FEYP，etal.Bigdata：thefutureofbiocuration[J].Nature，2008(7209)：47-50.

[5]SRIVASTAVADK.Bigchallengesinbigdataresearch[J].Dataminingandknowledgeengineering，2014(7)：283.

[6]VIKTORMS，KENNETHCukier.Bigdata：arevolutionthatwilltransformhowweLive，workandthink[M].NewYork：JohnMurray，2013：6.

[7]張茂月.大數據時代個人信息數據安全的新威脅及其保護[J].中國科技論壇,2015(7)：117.

[8]詹劍鋒,高婉鈴,王磊,等.Bigdatabench：開源的大數據系統評測基準[J].計算機學報,2016(1)：196-199.

[9]ELTABAKHMY，TIANYuan，ZCANF，etal.Cohadoop：flexibledataplacementanditsexploitationinHadoop[J].ProceedingoftheVLDBendowment,2011(9)：575.

[10]TAYLORRC.AnoverviewoftheHadoopMapreduceHBaseframeworkanditscurrentapplicationsinbioinformatics[J].BMCbioinformatics，2010(11):s1.

[11]HAMPTONSE，STRASSERCA,TEWKSBURYJJ，etal.Bigdataandthefutureofecology[J].Frontiersinecologyandtheenvironment，2013(3):158-160.

[12]BATESDW，SARIAS，etal.Bigdatainhealthcare：usinganalyticstoidentifyandmanagehigh-riskandhigh-costpatients[J].Healthaffairs,2014(7)：1123.

(責任編輯劉傳忠)

Knowledge Mapping of the Comparative Study of Big Data at Home and Abroad

Su Nan

(CollegeofPublicAdministration，SichuanUniversity,Chengdu610065,China)

TakingtheWOSandCSSCI，itusesvisualmethodstocarryoutcomparativestudyofbigdataathomeandabroad.Theresultsshowthatmapreduce，hadoopandcloudcomputingarethemaintechniques;finance，socialmediaandinformationservicesarethemainapplication.However，ourbigdataresearchisbackward，especiallyinbasictheoryandvalues.

Bigdata；Athomeandabroad；Application；Hotspot；Comparativestudy

2015-12-02

蘇楠(1987-)，男，河南安陽人，四川大學公共管理學院博士；研究方向：公共管理。

D63

基于知識圖譜的國內外大數據比較研究

1 數據與方法

2 國內外大數據研究的知識圖譜

3 國內外大數據研究的熱點比較

4 結束語

1　數據與方法

2　國內外大數據研究的知識圖譜

3　國內外大數據研究的熱點比較

4　結束語