張鋒軍
(中國電子科技集團公司第三十研究所,四川成都610041)
大數據技術研究綜述*
張鋒軍
(中國電子科技集團公司第三十研究所,四川成都610041)
大數據技術作為當前熱門的技術領域,得到了廣泛的關注和研究。文中對大數據的概念、特征、國內外發展情況進行了研究,對數據采集與感知、數據存儲與處理、數據分析、數據可視化和大數據安全與隱私保護等方面的共性基礎技術和前沿技術進行了分析,指出了這些技術的最新研究方向,總結了大數據技術面臨的技術和政策方面的挑戰,分析了其技術本質,對大數據的研究和工程應用具有指導意義。
大數據 人工智能 數據挖掘 機器學習 Hadoop 隱私保護
過去幾年間,隨著計算、存儲資源的容量、速度、智能化程度的迅速提高和價格的大幅下降,以及物聯網、移動互聯網、云計算等技術的迅速發展和大規模應用,政府和企業更愿意投入預算建設自己的信息設施和收集分析更多地數據,數據量出現了爆發式增長。數據量的劇增和國家、企業間競爭的加劇,要求政府和企業能更準確、快速、個性化的為客戶和公眾提供產品和公共服務,通過大規模掌握用戶的細節數據,政府和企業可以分析出通過傳統數據分析手段無法獲知的價值和模式,做出更為迅速、科學、準確的決策和預測[1-2]。文獻[2]的作者舍恩伯格認為,大數據時代的經濟學、政治學、社會學和許多科學門類都會發生巨大甚至是本質上的變化和發展,進而影響人類的價值體系,大數據技術近年來迅速升溫。
大數據技術是預測分析、數據挖掘、統計分析、人工智能、自然語言處理、并行計算、數據存儲等技術的綜合運用,組成了當今最熱門的數據工程化應用技術新實踐。學術界對大數據目前還沒有權威的精確定義,文獻[3-4]提出了大數據的三大特征:數據容量(Volume)、數據產生速度(Velocity)和數據多樣性(Variety),基于大量詳實的統計結果對大數據技術的內涵、外延、現狀和技術趨勢等進行了分析。在此基礎上,業界還有人總結出其它的大數據特點,例如準確性(Veracity)、低價值密度(Value)、存活性(Viability)等。文獻[5]站在BI&A(商業智能和分析技術)的角度,將大數據技術作為下一代BI&A的發展方向,指出了其技術內涵,并對大數據技術在數據分析、文本分析、Web分析、網絡分析等技術及在電子商務和市場智能、電子政務和政治、科學技術、智能健康和醫療、公共安全等領域的應用模式進行了分析。文獻[6]的作者認為,大數據技術已經從4個V延展至三個維度:可實時性、可解釋性、數據準確/穩定性。在數據工程化時代,大數據需要運營、共享,然后挖掘和運用,讓其產生社會價值,解決未來的問題,并認為大數據中,數據質量非常關鍵。文獻[7]介紹了新興的數據科學核心概念:數據自然(Data Nature)。在數據自然中,數據客觀存在和產生于自然界和人類社會,隨著人類的認知和信息采集分析手段的不斷進步,逐步可以將越來越多大自然和人類社會的各類信息通過技術手段映射和收集到信息系統。通過分析研究數據自然,人們可以揭示和掌握人類社會和大自然的各種規律,而大數據技術正是當前推進該領域研究的最前沿技術。
綜上所述,目前的研究認為,大數據具有以下主要特征:
Volume:數據量大,數據量以PB,EB,ZB來衡量。
Velocity:數據產生和處理的速度快,時效要求高,不僅是靜態數據,更多是動態實時數據。
Variety:數據類型多樣化,不僅是結構化數據,還包括網頁、社交網絡、日志、音視頻、圖片、位置等數據,更多是半結構化數據和非結構化數據。
Value:數據量大但價值密度低,需要價值提純。
Veracity:真實而準確的數據才能使數據的管控和治理有意義。
Complexity:數據復雜性高。
Fail:傳統的處理和分析工具失效(從采集、清洗、存儲、索引和檢索、共享、傳輸、分析等各環節傳統手段都失效)。
綜上所述,這里對大數據技術給出一個初步的定義:
大數據技術是一代全新的數據科學領域的技術架構或模式,對數據量大、類型復雜、需要即時處理和價值提純的各類數據,綜合運用新的數據感知、采集、存儲、處理、分析和可視化等技術,提取數據價值,從數據中獲得對自然界和人類社會規律深刻全面的知識和洞察力。
大數據技術涉及到數據的感知、采集、存儲、處理(管理)、分析、可視化呈現等諸多環節,各環節采用的技術手段也層出不窮。本文將對大數據的發展情況、基礎與前沿技術及其面臨的挑戰等進行全面深入的分析。
目前,IT界普遍認為當前大數據技術主要起源于谷歌。谷歌工程師在2003至2006年先后公開發表了關于MapReduce、GFS和BigTable等核心技術的學術論文,這一系列技術迅速引起巨大反響,吸引了雅虎、Facebook等互聯網公司的注意,直接導致了目前應用最為廣泛的開源大數據框架Apache Hadoop的誕生。
隨著人們對數據科學的深入認識,發達國家都意識到數據作為國家戰略資產的重要性,以美國為首的多個國家先后發布了大數據的國家發展戰略,聯合國也發布了“全球脈搏”項目的重要成果——名為《大數據促發展:挑戰與機遇》的大數據政務白皮書,報告中總結了各國政府如何利用大數據更好的服務和保護人民,指出了大數據對于聯合國和各國政府是個歷史性機遇。
美國政府投入了巨資到大數據技術研究領域,將其作為重要的戰略發展方向。美國白宮于2012年3月頒布了《大數據研究和發展計劃》,計劃投入約155個項目種類,計劃項目涉及的部門包括衛生部、能源部、國防部、NSF等。美國將大數據技術發展提升到國家安全和未來的發展戰略的高度,而美國軍隊是大數據技術的重要參與者,國防和軍事大數據研發項目是優先發展的重點。在該計劃中,美軍的目標是要通過大數據技術實現感知、認知和決策支持的結合,建立決策智能、操控自動的自動化系統,提高戰場與態勢感知能力,增強信息提取分析、情報獲取和對目標的洞察能力,同時強調要培養該技術領域的人才隊伍。
在計劃中,涉及到軍事的大數據項目有十多項,主要的項目包括:多尺度異常檢測項目(ADAMS)、網絡內部威脅計劃(CINDER)、洞悉計劃(Insight計劃)、閱讀機項目、想象力項目(Mind′s Eye)、面向任務的彈性云項目、加密數據的編程計算項目(PROCEED項目)、視頻與圖像檢索分析工具項目(VIRAT項目)等。
美國防部高級研究計劃局還開展了XDATA項目,計劃在未來四年,投入資金開發能夠分析海量結構化數據和非結構化數據的技術和軟件工具。美軍同時投入研究的還包括數據可視化、信息安全與大數據的結合等方面的研究與活動,并投巨資在鹽湖城建立了大數據中心,用于對各類情報數據進行大數據分析,向相關軍事機構提供大數據分析產品,積極推動“從數據到決策”的計劃,以實現決策優勢[8-9]。國內軍事領域,該方面的應用還處于起步階段,需要盡快趕上。
在大數據領域,目前已實用化的國際知名項目包括:
1)Google知識圖譜和深度學習、自動駕駛技術、Google眼鏡。
2)Facebook開放社交圖譜數據。
3)NSA棱鏡計劃。
4)IBM Watson。
5)LinkedIn、Amazon、Netflix推薦系統等。
在國內,互聯網公司和技術界對大數據技術的研究和實用也開展的如火如荼,對大數據技術也提上了國家的戰略發展日程。2013年,我國多位院士聯合上書國務院,建議設立國家專項開展大數據技術研究,將大數據上升為國家戰略。在2014年的兩會上包括金山和小米公司董事長雷軍在內的多位代表提出加快實施大數據國家戰略的建議。
在數據開放和共享方面,國家統計局開放和共享了部分公共數據。中國電信于2014年初,召開了大數據開放合作洽談會,相關機構也在加緊制定大數據交易的相關法規。國內的主要互聯網公司:百度、阿里和騰訊,已將大數據技術應用到各自的業務中,取得了巨大的經濟和社會效益,百度還成立了深度機器學習研究所。
在大數據技術人才培養方面,清華大學2014年起設置了大數據技術的相關碩士學位和課程,多學科交叉培養大數據技術人才。專業方向涉及數據科學與工程、商務分析、大數據與國家治理、互聯網金融等方向,正式開啟了該領域專業技術人才培養的工作。
可以預見,大數據技術作為一個橫向的技術,將應用到國計民生的各個領域,對各個領域帶來巨大的沖擊和變革,以及前所未有的發展機遇。
從信息科學的DIKW(Data,Information,Knowledge,Wisdom)基礎模型和數據科學領域的“數據自然”概念來看,人類對世界的認知需要從最基礎的數據入手,利用當前最前沿的大數據技術來感知世界,分析世界,認識世界,掌握世界,而大數據技術就是打開整個數據通道的強力工具。
麥肯錫的一份報告認為大數據技術主要包括預測分析、數據挖掘、統計分析、人工智能、自然語言處理、并行計算等方面的技術[10]。IBM的Stephen Watt提出的大數據生態系統模型中,將大數據技術劃分為數據生成、數據存儲、數據處理、數據分享、數據檢索、數據分析、數據可視化等7個部分[11],如圖1所示。

圖1 IBM大數據生態系統模型Fig.1 IBM Big Data Ecosystem Model
大數據技術的共性基礎技術可分為:感知,采集,存儲,分析和可視化等方面,涉及的技術領域包括:傳感器,計算網絡,數據存儲,集群式計算系統,云計算設施,人工智能,數據可視化。
本文從大數據從感知到決策的過程和提煉大數據關鍵技術的角度,將大數據技術分為以下幾個方面的技術:
2.1 數據感知和采集
目前大數據的來源范圍日益廣泛,各類傳感器、互聯網、移動互聯網(手機、各類移動終端等)、物聯網(RFID、攝像頭)等都是重要的大數據采集和感知來源。中國工程院李德毅院士認為:大數據的主要來源有三方面:自然界的大數據、生命和生物的大數據和社交大數據。移動互聯網時代大數據來源主要是網絡化環境下的非結構化數據,這些非結構化數據往往是低價值、碎片化、強噪聲、異構和冗余的[12]。具體到某個領域,數據的感知采集手段是不一樣的,以網絡安全領域為例,可能的數據感知手段就包括了網絡探針、SNMP、ICMP消息、IDS/IPS日志、VPN日志、Web日志、防火墻日志、抓包數據、netflow數據、路由器日志等等。從目前大數據分析和研究的重點來看,大數據的主要研究對象集中在社交數據和自然數據,社交大數據來自于人的社會活動產生的各類數據,其載體主要是互聯網;而自然數據主要是機器與機器交互之間產生的數據,如網絡日志、各類傳感器產生的數據、RFID、GPS數據等等。自然數據主要依賴各類傳感器來采集,目前傳感器技術朝著智能化、移動化和多樣化的方向發展[13]。
未來在數據感知和采集領域值得關注的技術方向包括:可穿戴式應用、無人駕駛、醫療和健康監測、工業控制、智能家居、智能交通控制等。
2.2 數據存儲和處理
大數據的數據處理和存儲是當前最基礎和應用最為廣泛的大數據技術,最著名的當屬Apache Hadoop系列開源平臺,主要包括了:HadoopCommon, HDFS,MapReduce,Zookeeper,Avro,Chukwa,HBase, Hive,Pig等子項目[14]:
(1)HadoopCommon
是Hadoop框架基礎性的功能,如文件系統、RPC協議和數據串行化庫等。屬于基礎核心組件,提供基礎支撐性的功能。
(2)HDFS
是分布式文件系統,Hadoop的基礎核心組件。適合于在計算機集群上部署,具有低成本、高可靠、高吞吐量的特點。
(3)MapReduce
提供編程模型和框架,用于對大規模計算機集群上編寫對大數據進行快速處理的并行化程序,屬于基礎核心組件。適合掃描大數據,進行庫內分析,從中抽取出部分重要數據。
(4)Zookeeper
分布式應用程序協調服務,用于管理維護Hadoop集群的配置信息、命名信息等,并提供分布式鎖同步和群組管理功能,是Hadoop管理組件。
(5)Avro
基于二進制數據傳輸的高性能中間件,可將數據序列化。適用于遠程或者本地的大批量數據交互。
(6)Chukwa
分布式數據收集和分析,用于監控大型分布式系統。基于HDFS和MapReduce構建,提供系列工具監控、分析系統運行數據。
(7)HBase
分布式面向列的開源數據庫,適合于非結構化大數據存儲的數據庫。NoSQL的代表產品。是一個NoSQL數據庫。
(8)Pig
大數據分析工具,提供相應的分析語言和運行環境,支持并行化處理。適合數據準備階段對大量快速到達的數據進行流水式處理(ETL,抽取轉換加載等)的能力,并能對大規模數據集進行迭代處理。(提供Pig Latin語言接口)
(9)Hive
基于Hadoop的數據倉庫,可以將結構化的數據文件映射入一張數據庫表,提供強大的查詢功能,可以將SQL語句轉換為MapReduce任務運行。適用于數據呈現階段(數據倉庫)將整理完成的數據進行檢索、組合和統計后的有序呈現。(提供HiveQL語言訪問接口)
(10)Sqoop
實現Hadoop系統與傳統數據庫系統間的數據交換。可以在傳統數據庫和HDFS或MapReduce之間進行數據導入導出。適合將遺留系統的關系型數據庫數據集成到基于Hadoop的大數據架構下。與Hive結合,可以實現強大的與關系型數據庫整合的數據分析工具集。
(11)HCatalog
Hadoop的數據表和存儲管理組件,對數據模板和數據類型進行共享和管理。用于實現Hadoop平臺內部的數據整合。
(12)Ambari
用于安裝、管理和監控Hadoop集群的Web界面工具,可對各Hadoop組件進行管理。可視化監控管理工具。
目前,Hadoop作為成功的大數據框架被一些IT公司成功的商用化,形成了不同的商業版本和解決方案,其中比較著名的商業版本包括CloudEra、Hortonworks、MapR、IBM、華為等公司的相關產品。
Apache Hadoop經過大規模應用后,也暴露出來一些問題,如JobTracker容易造成單點故障、集群最大規模達到幾千節點后無法繼續擴展、與MapReduce計算模式緊密綁定等問題。因此,Hadoop的開發者針對上述問題提出了YARN作為下一代計算框架。同時,作為大數據技術的鼻祖,Google針對新的大數據分析需求,相繼提出了Dremel和Pregel[14],前者主要用于分析只讀嵌套型數據的可擴展交互式動態(Ad hoc)查詢,可完成秒級處理萬億行級別的大數據聚合查詢;后者是針對典型的大數據圖計算場景,提出的分布式圖計算框架,實現了大規模圖數據的算法。
另外,IBM在大數據和云計算技術發展起來后,將一度束之高閣的自主計算(Autonomic Computing)與大數據技術結合,提出了具備自主學習能力的“認知計算”作為新一代的計算框架,并將其定位為繼制表計算、編程計算之后的第三代計算模式[15], Watson是其代表產品,也是值得關注的發展方向。
其他類似的值得關注的公司和產品還包括SPARK開源框架,TeraData、Snow、GreenPlum等公司和產品。
2.3 數據分析
數據分析是大數據技術領域最核心、產生直接價值的部分。通過數據分析的結果,可以揭示不為人知的有價值的規律和結果,并可以輔助人們進行更為科學和智能化的決策。在大數據分析方面,除了傳統的BI技術,人工智能技術領域的很多技術方法為大數據分析提供了豐富多樣的分析方法,包括統計分析、機器學習、數據挖掘、自然語言處理、知識與推理等。該領域主要的技術方向包括以下幾類。
2.3.1 數據挖掘
數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,是統計學、數據庫技術和人工智能技術的綜合運用,是通過在數據庫管理系統上綜合運用統計和機器學習的方法從大數據集中提取出模式的一組技術。常見的主要數據挖掘方法包括關聯規則學習、聚類分析、分類分析、序列分析、偏差檢測、預測分析、模式相似性挖掘和回歸分析等。
典型的商用數據挖掘工具有IBM SPSS、SGI MineSet、Oracle Darwin,開源的有Weka等。這些工具主要站在BI的角度,提供從分析到可視化的商業解決方案。
2.3.2 統計分析
統計分析就是基于數學領域的統計學原理,對數據進行收集、組織和解釋的科學。統計的方法主要用于對變量間可能出現的關系、變量間的定量關系進行分析處理。典型的方法有A/B測試等[10]。
在該領域,經典的統計分析工具是R語言工具包。R語言是新西蘭奧克蘭大學的Ross Ihaka和Robert Gentleman教授為了方便統計課程教學,共同發明的基于Scheme和S語言的一種語言。R是開源的統計分析軟件,提供了豐富的經典統計分析算法和繪圖技術,包括線性和非線性模型、統計檢驗、時間序列、分類、聚類等算法,實現了很多經典的、現代的統計算法。
而Purdue大學的RHIPE是一個R和Hadoop的集成編程環境,用于在Hadoop大數據處理環境下,應用R語言進行數據挖掘分析,該環境將R語言算法移植和集成到了Hadoop的并行處理環境下,對大數據進行統計分析。
2.3.3 自然語言處理
自然語言處理(NLP,Natural Language Processing)是基于計算機科學和語言學,利用計算機算法對人類自然語言進行分析的技術,屬于人工智能領域的一個重要方法。其關鍵技術涉及詞法分析、句法分析、語義分析、語音識別、文本生成等。很多自然語言處理算法都是基于機器學習的方法。該技術領域典型的應用就是基于社交媒體對語言的情感進行分析、法律領域的電子偵查,其他應用還包括欺詐檢測、文本分類、信息檢索和過濾、文字轉換系統、機器翻譯等。
該技術領域的國產應用工具有OpenNLP、FudanNLP和哈工大的LTP,前者用于處理自然語言文本,后兩個主要針對中文語言處理提供詞法、句法、語義、分類等相應的處理[16]。
作為美國政府大數據研究計劃的一部分,美國DARPA啟動了DEFT項目對自然語言深度處理技術進行研究,對超大規模的語音和文本數據進行情報分析,用于互聯網監控、情報分析、犯罪預防和反恐等方面,參與研究的機構包括斯坦福大學、卡耐基梅隆大學和哥倫比亞大學等。
該領域目前的研究熱點在語義分析和情感分析等方面。
2.3.4 機器學習
大數據環境下,機器學習的主要應用領域可以總結為三方面:搜索、迭代優化和圖計算。機器學習作為人工智能領域的重要內容之一,被分為監督學習和無監督學習兩大類。監督學習要求算法的使用者知道要預測什么(即目標變量的分類信息),主要采用分類和回歸算法,如果預測的目標值為離散型(如是/否、A/B/C等)則適合用分類算法,如k近鄰算法、決策樹算法、樸素貝葉斯算法、支持向量機算法、AdaBoost算法等;如果預測的目標值為連續性的數值(如0~100、0.1~150等),則適合回歸算法,如Logistic回歸、CART算法(分類回歸樹算法)等[17]。
無監督學習則不預先指定數據分類和目標值,主要算法有聚類和密度估計等算法,如K均值聚類算法、Apriori算法、FP-Growth算法等[18]。
也有資料提出半監督學習和強化學習等概念,在半監督學習模式下,輸入數據部分被標識分類,主要用來預測分析,算法模塊先要學習數據內在結構以合理組織數據,主要采用分類和回歸的算法,是對常用監督式學習算法的擴展,如拉普拉斯支持向量機算法等。強化學習模式則是將輸入數據直接反饋到模型,模型作出動態修正調整,常見的應用場景包括動態系統、機器人控制等[19]。
Mahout作為基于Hadoop的數據挖掘和機器學習算法框架,解決了相關算法在大數據并行計算架構下的使用問題,提供了基因算法、序列分析算法、分類分析算法、聚類分析算法等算法庫,是一個提供給開發者使用的工具框架。
該領域目前的研究熱點在于采用新的機器學習算法實現深度機器學習。深度學習是對人工神經網絡的發展,其本質就是通過構建具有很多隱層的機器學習模型和海量的訓練數據來學習更有用(相對于采用傳統機器學習算法的淺層機器學習而言)的特征,從而提升最終分類或者預測的準確性[20]。在深度學習領域,谷歌、微軟、IBM、百度等企業走在最前沿。以Google Brain項目最為出名,該項目搭建了有16000個CPU核的并行計算平臺,用于訓練深度神經網絡(DNN,Deep Neural Network)的機器學習模型,該模型在語音識別和圖像識別領域取得了巨大成功。
2.4 數據可視化
數據可視化(Data Visualization)主要研究如何利用人的感知能力以貼近人類自然感知的圖形化展現方式,對數據交互進行可視化表達,以增強人的認知,呈現數據中隱含的信息,發掘數據中所包含的規律,它是一門橫跨計算機圖形學、人機交互、統計學、心理學的綜合學科。
文獻[21]將數據可視化分為:科學可視化、信息可視化和可視分析學3個分支,3個分支的側重點各有不同:科學可視化主要面向自然科學,如物理、化學、氣象、航空航天等,對其數據和模型進行解釋、操作與處理,尋找其中的科學規律和異常等;信息可視化則主要處理非結構化、非幾何的抽象數據,如金融交易、社交網絡和文本日志數據等,主要關注如何在有限的展現空間中,以直觀有效的方式傳達大量的抽象信息;可視分析則是以可視交互界面為研究對象的分析推理科學,綜合了圖形學、數據挖掘分析和人機交互等技術。
傳統的商業BI公司,將重點放在可視分析,并在該領域都有相應的技術和產品。在數據可視化領域,比較知名的包括SAP、IBM、SAS、Microsoft等,但在大數據可視化分析領域走在前沿的公司是Tableau Software公司,其代表產品是Tableau Desktop、Tableau Server、Tableau Reader、Tableau Public等,該公司致力于讓不懂技術的行業知識專家也能輕易進行可視化和可交互的即時數據分析展示,其主要核心和創新包括兩方面:獨創的VizQL數據庫和對用戶體驗的完美設計[22]。還有一些開源的可視化產品如R、D3.js、Processing.js等,也有較為廣泛的應用。
該領域未來的挑戰主要是大數據可視化和以人為中心的探索式可視分析[21]。
2.5 數據安全和隱私保護
在大數據時代,對隱私信息采用傳統的告知與許可、模糊化和匿名化等手段均失去效果[2],傳統的加密技術、身份認證和訪問控制等手段也在大數據面前捉襟見肘,傳統的信息安全和隱私保護法律框架也出現了空隙甚至空白。
文獻[24]通過對美國各類攻擊的數據分析,指出了信息系統安全面臨的五大威脅:包括數據泄露、網絡釣魚和魚叉式網絡釣魚、未授權的文件共享、內部威脅(內部人員的意外或故意破壞)和APT攻擊(如Stuxnet,Duqu,Flame等),建議并提出將大數據技術與賽博安全相結合,采用大數據安全分析(big security analytics)的思路解決大數據時代的安全問題。文獻[23]指出大數據技術應用面臨的三方面的挑戰:用戶隱私保護、大數據的可信性和數據的訪問控制,并分析了針對大數據安全防護的主要關鍵技術:數據發布匿名保護技術、社交網絡匿名保護技術、數據水印技術、數據溯源技術、角色挖掘、風險自適應的訪問控制等,提出將大數據技術自身作為大數據安全防護實現手段,應用到信息安全,提升大數據環境下的信息安全防護水平。
作為大數據技術的代表平臺,Hadoop在設計之初對安全的考慮不足,因此其安全機制較弱,天然缺乏用戶和服務器的安全認證機制、授權機制和傳輸與存儲加密機制。雖然Hadoop1.0.0版本實現了基于ACL的訪問控制機制和基于Kerberos的安全認證機制[14,20],但這些機制受限于ACL和Kerberos自身的能力限制(如易出現單點故障、協議開銷大、不適用于跨域或多級認證等),并未完全解決Hadoop的安全問題。
目前技術界對Hadoop架構下數據加密、訪問控制、區別隱私保護和審計等方面的研究很多,文獻[25]基于MapReduce計算框架,從隱私規范接口、數據匿名、數據更新和匿名數據集管理等方面提出了一種大數據隱私保護框架,其作用就是在MapReduce訪問和處理數據之前對數據隱私進行過濾保護。
而IBM的科學家成功實現了同態加密技術,可以用于解決云環境下大數據的加密保護問題。該技術理論上允許對加密后的數據進行計算,而不影響計算結果[26]。但由于該技術當前發展還不成熟,因效率低而且非常昂貴,還沒有實用化。
在大數據安全和隱私保護領域,數據去識別化(也叫數據匿名)和再識別化、數據彈性訪問控制和數據加密的問題并未得到徹底解決,因此這方面是值得重點關注的發展領域。
3.1 技術方面的挑戰
大數據在技術方面的挑戰主要有以下:
1)高速網絡:對大數據的傳輸和處理需要超高速網絡的支撐,對目前的網絡架構和技術帶來挑戰。
2)集群計算編程:分布式并行計算技術需要跟上大數據處理技術的發展,目前主流的MapReduce計算模式并不能解決大數據處理的一切問題,有其局限性。
3)云計算的擴展:云計算需要與大數據進行完美的融合。
4)機器學習及其他數據分析方法:機器學習等分析算法需要朝深度學習發展,更加智能化,提出更多新型、有效的智能算法。
5)廣域部署(移動計算環境下的應用):大數據技術需要能夠在移動計算環境下方便、高效的部署使用。
6)隱私和安全保護:大數據隱私和安全保護技術需要跟上大數據技術應用的發展。
其中,大數據安全和隱私保護是當前大數據技術面臨的最大挑戰[27],這些隱私和安全問題需要從多個角度去綜合解決,包括技術的手段和政策法律方面的手段。
3.2 政策和法規方面的挑戰
大數據技術在所依托的政策和法規方面的挑戰主要來自以下方面:
1)政策法律:要盡快建立完善的信息安全法律法規體系,從國家層面,對軍隊、政府、行業和個人的數據進行安全和隱私保護,維護國家、機構和個人的權益。
2)數據交易與共享機制:在國家相關法律法規的框架下,建立通暢和合法的數據交易與共享渠道與機制,避免暗箱交易和非法交易,同時也要避免數據過度保護。
3)數據隱私和安全:技術和法律兩方面的手段相結合,解決數據隱私和安全問題,調和法律保護與數據挖掘分析相對立的問題,促進大數據技術的應用。
4)國家和行業標準的建立:由相關標準化管理機構牽頭組織,進行大數據技術的行業標準、通用標準的制定和推廣。
從技術發展的角度來看,數據的龐大、多樣性、高速和復雜性和由此而產生的數據管理和計算存儲的擴展性問題并不是IT界遇到的新問題,從數據分析的目標和需求而言,它僅僅是又一次新的、更大的、突破了當時技術條件下數據處理極限的數據集。因此,大數據帶來的挑戰是突破現有的數據存儲、處理、分析、呈現技術手段局限,這對IT界來說并不是個新命題。
大數據改變的是數據分析的策略和方法,需要將新的工具、方法、技術和傳統的分析工具和技術結合起來,大數據的定義僅僅是相對于當前可用的技術和資源而言。將大數據與傳統數據相結合進行分析,產生新的洞察和價值,大數據和傳統數據都是先進可供分析的數據整體戰略的組成部分[28]。
在數據采集和分析時,需要考慮成本與收益的問題。雖然有些大數據分析專家強調大數據的要點就是要對數據全體進行分析,而不是采樣分析[2],但是,對全體大數據進行分析雖然在技術上是可行的,但會帶來很多額外的成本(存儲與分析數據所需的資源)與工作(大量不必要的分析工作),除非是在某些特殊場景必須對全體進行分析的情況下,在沒有太多實際效益和分析需求比較明確的情況下,抽樣分析是一個好的策略[28]。
目前,大數據技術已成為推動社會經濟發展的新一輪信息技術革命的發動機,在世界范圍的信息化建設洪流和網絡空間成為國家第五疆土的背景下,將對國家和各行各業帶來巨大的變革,以美國為首的多個信息技術強國都已制定和實施了國家大數據發展戰略。
在大數據技術浪潮的關鍵發展階段,我國也應盡早啟動該技術領域的戰略性研究,在大數據處理平臺、非結構化數據分析處理、人工智能與深度機器學習、數據安全與隱私保護等方面進行重點研究突破,以大數據技術為契機,建立自己的數據科學體系、政策框架、法律框架、技術框架和人才隊伍,形成行業模型、技術標準、工具平臺和創新性的解決方案等成果,提出相關標準和專利,形成該領域的產業優勢和技術優勢,推動國家在該領域的技術水平走到世界前沿。
[1] Thomas H.Davenport,Paul Barth,Randy Bean.How′Big Data′is Different[J].MIT Sloan Management Review, 2012,54(01):22-24.
[2] Victor Mayer-Schonberger,Kenneth Cukier.大數據時代[M].杭州:浙江人民出版社,2013:193-232.
Victor Mayer-Schonberger,Kenneth Cukier.Big Data:A Revolution That Will Transform How We Live,Work and Think[M].HangZhou:ZheJiang People Publishing House,2013:193-232.
[3] Philip Russom.Big Data Analytics.TDWI Best Practices Report[R].USA:TDWI,2011.
[4] Paul Zikopoulos,Chris Eaton,Dirk de Roos etc.Understanding Big Data:Analytics for Enterprise Class Hadoop and Streaming Data[R].USA:Mc.Graw-Hill,2012.
[5] Hsinchun Chen,Roger H.L.Chiang,Veda C.Storey.Business Intelligence and Analytics:From Big Data To Big Impact[J].MIS Quarterly,2012,36(04):1165-1188.
[6] 車品覺.大數據的三個維度和十誡[EB/OL].(2014-03-07)[2014-05-10].http://tech.sina.com.cn.
CHE Pin-jue.The Three Dimensions and Tencommandments of Big Data[EB/OL].(2014-03-07)[2014-05-10].http://tech.sina.com.cn.
[7] 孫定.數據學概要[EB/OL].(2014-03-31)[2014-05-16].http://www.dooland.com/magazine/online. php?pid=MTAyNDA0.
SUN Ding.Data Science Overview[EB/OL].(2014-03 -31)[2014-05-16].http://www.dooland.com/magazine/online.php?pid=MTAyNDA0.
[8] 李紀舟,葉小新,丁云峰.美軍大數據技術發展現狀及對其信息作戰的影響[J].外軍信息戰,2013(06):34-38.
LI Ji-zhou,Ye Xiao-xin,Ding Yun-feng.The Development Status of Big Data Technology in US Army and it's Influence on US Army's Information Warfare[J],2013 (6):34-38.
[9] 陳明奇,姜禾,張娟,等.大數據時代的美國信息網絡安全新戰略分析[C]//第27次全國計算機安全學術交流會論文集.中國:中科院信息辦,2012:32-35.
CHEN Ming-qi,JIANG He,ZHANG Juan.Analysis of the U.S.Information Network Security Strategy in the Era of Big Data[C]//The 27thNational Computer Security Academics Meeting Dissertations.China:The Chinese Academy of Sciences Information Office,2012(08):32-35.
[10] James Manyika,Michael Chui,Brad Brown,etc.Big data: The next frontier for innovation,competition,and productivity[R].USA:McKinsey Global Institute,2011.
[11] 李明.大數據時代的創新者們[EB/OL].(2011-11-02)[2014-06-04].http://www.infoq.com/cn/articles/innovation-in-big-data/
LI Ming.The Innovators of Big Data Ages[EB/OL]. (2011-11-02)[2014-06-04].http://www.infoq. com/cn/articles/innovation-in-big-data/.
[12] 李德毅.再大的數據也能繞過那道彎[EB/OL]. (2014-05-22)[2014-06-10].http://mp.weixin. qq.com/s?_biz=MjM5MTQzNzU2NA==&mid= 200255809&idx=1&sn=4fac4b42f28293ce06d700c 51b92eb87#rd
LI De-yi.Even Bigger Data Can Cross That Crooked Road[EB/OL].(2014-05-22)[2014-06-10].http://mp.weixin.qq.com/s?_biz=MjM5MTQz NzU2NA==&mid=200255809&idx=1&sn=4fac4b42f28293ce06d700c51b92eb87#rd
[13] 大數據文摘.全球傳感器未來發展趨勢及4大重要領域[EB/OL].(2014-05-08)[2014-06-15].http://mp.weixin.qq.com/s?_biz=MjM5MTQzNzU2 NA==&mid=200217395&idx=3&sn=aba84449a616c854cd579bedbffab8ea#rd
Big Data Digest.The Future Development Trends of Global Sensor Technology and 4 Big Fields[EB/OL]. (2014-05-08)[2014-06-15].http://mp.weixin. qq.com/s?_biz=MjM5MTQzNzU2NA==&mid= 200217395&idx=3&sn=aba84449a616c854cd 579bedbffab8ea#rd
[14] 劉軍.Hadoop大數據處理[M].北京:人民郵電出版社,2013:45-60. LIU Jun.Hadoop Big Data Processing[M].Bei Jing: Posts&Telecom Press,2013:45-60.
[15] 王博.IBM亮劍新互聯時代[EB/OL].(2014-04-14) [2014-05-20].http://www.dooland.com/magazine/ online.php?pid=MTAzMDExWANG Bo.IBM Show Swords in New Internet Era[EB/OL].(2014-04-14) [2014-05-20].http://www.dooland.com/magazine/ online.php?pid=MTAzMDEx.
[16] 百度.自然語言處理[EB/OL].(2014-05-23)[2014-06-01].http://baike.baidu.com/view/18784.htm? fr=aladdinBaiDu.Natural Language Processing[EB/ OL].(2014-05-23)[2014-06-01].http://baike. baidu.com/view/18784.htm?fr=aladdin
[17] Vinayak Borkar,Yingyi Bu,Michael J.Carey,etc.Declarative Systems for Large-Scale Machine Learning [EB/OL].(2012-04-25)[2014-05-20].http:// sites.computer.org/debull/A12june/declare.pdf.
[18] Peter Harrington.機器學習實戰[M].北京:人民郵電出版社,2013:184-239.
Peter Harrington.Machine Learning in Action[M].Bei Jing:Posts&Telecom Press,2013:184-239.
[19] 王萌.機器學習算法匯總:人工神經網絡、深度學習及其它[EB/OL].(2014-06-27)[2014-06-29].http://www.csdn.net/article/2014-06-27/2820429.
WANG Meng.Summarization of Machine Learning Algorithm:Artificial Neural Network、Deep Learning and Others[EB/OL].(2014-06-27)[2014-06-29].http://www.csdn.net/article/2014-06-27/2820429.
[20] 余凱,賈磊,陳雨強,等.深度學習的昨天,今天和明天[EB/OL].(2014-06-07)[2014-06-18].http:// mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA== &mid=200298603&idx=1&sn=28fcc75701e81522dd 88a23c4b00d2d1#rd.
YU Kai,JIA Lei,Chen Yu-qiang.The Yesterday,Today and Tomorrow of Deep Learning[EB/OL].(2014-06-07)[2014-06-18].http://mp.weixin.qq.com/ s?__biz=MjM5MTQzNzU2NA==&mid= 200298603&idx=1&sn=28fcc75701e81522dd88a 23c4b00d2d1#rd.
[21] 陳為,沈則潛,陶煜波,等.大數據叢書:數據可視化[M].北京:電子工業出版社,2013:29-37.
CHEN Wei,SHEN Ze-qian,TAO Yu-bo.Big Data Series:Data Visualization[M].Bei Jing:Publishing House of Electronics Industry,2013:29-37.
[22] Rachel Wan.數據可視化明星Tableau Software[EB/ OL].(2013-07-01)[2014-05-28].http://kuailiyu.cyzone.cn/article/3901.html.
Rachel Wan.Data Visualization Star:Tableau Software [EB/OL].2013(2013-07-01)[2014-05-28].http://www.kuailiyu.com/article/3901.html.
[23] 馮登國,張敏,李昊.大數據安全與隱私保護[J].計算機學報,2014,37(01):246-257.
FENG Deng-guo,ZHANG Min,LI Hao.Big Data Security and Privacy Protection[J].Chinese Journal of Computers,2014,37(01):246-257.
[24] TeraData.The Threat Beneath The Surface:Big Data Analytics,Big security and Real-Time Cyber Threat Response For Federal Agencies[R].USA:TeraData, 2012:1-35.
[25] ZHANG Xu-yun,LIU Chang,Surya Nepal etc.Privacy Preservation over Big Data in Cloud Systems[J].Security,Privacy and Trust in Cloud Systems,2014(03): 239-257.
[26] Craig Gentry.Fully Homomorphic Encryption Using Ideal Lattices[C]//Proceedings of the 41st annual ACM symposium on theory of computing(STOC′09).USA: Stanford University and IBM Watson,2009:169-178.
[27] 李翠平,王敏峰.大數據的挑戰和機遇[J].科研信息化技術與應用,2013(01):12-18.
LI Cui-ping,WANG Min-feng.Excerpts from the Translation of Challenges and Opportunities with Big Data[J].e-Science Technology&Application,2013 (01):12-18.
[28] Bill Franks.駕馭大數據[M].北京:人民郵電出版社, 2013:18-66.
Bill Franks.Taming The Big Data Tidal Wave[M].Bei Jing:Posts&Telecom Press,2013:18-66.
Overview on Big Data Technology
ZHANG Feng-jun
(No.30 Institute of CETC,Chengdu Sichuan 610041,China)
Big data,as a current popular technical field,attracts extensive attention and research.This paper discusses the concept,characteristics and development status quo of big data both at home and abroad, analyses the common fundamental technique and frontier technique of big data,including data collection and perception,data storage and processing,data analysis,data visualization,data security and privacy protection etc.,points out the newest research directions of these techniques,summarizes the confronted technical and policy challenges,and finally analyzes the technical essence,all this could provide a significant guidance for big data research and engineering application.
big data;artificial intelligence;data mining;machine learning;Hadoop;privacy protection
TP311
A
1002-0802(2014)11-1240-09
10.3969/j.issn.1002-0802.2014.11.002

2014-06-26;
2014-09-26 Received date:2014-06-26;Revised date:2014-09-26
張鋒軍(1975—),男,學士,高級工程師,主要研究方向為網絡管理,軟件工程。
ZHANG Feng-jun(1975-),male,B. Sci.,senior engineer,majoring in network management and software engineering.