論大數據的由來及其界定與特征

2017-03-14 20:25:58沈卜銘

科教導刊·電子版 2017年2期

沈卜銘

摘要 “大數據”是伴隨數據信息的存儲、分析等技術進步，而被人們所收集、利用的超出以往數據體量、類型具有更高價值的數據集合、信息資產?！按髷祿比匀皇菙祿畔⒌囊活?，之所以稱為“大數據”，因為其具有不同于傳統數據信息的特征。

關鍵詞 “大數據” 數據集合信息資產

1大數據的由來

盡管“大數據”這一理念直到最近幾年才真正在國內受到高度的關注，但實際上早在上個世紀80年代，偉大的未來學家、社會思想家阿爾文·托夫勒（Alvin Toffler）就在其所著的《第三次浪潮（The Third Wave）》中提出了“大數據”這一理念，并在文中熱情地稱頌“大數據”為 “第三次浪潮的華彩樂章”?！蹲匀唬∟ature）》雜志在2008年9月推出了名為“大數據”的封面專欄，從科學及社會經濟等多個領域描述了“數據信息”在其中所扮演的越來越重要的角色，讓人們對“數據信息”的廣闊前景有了更多的期待，對身處或即將來臨的“大數據時代”充滿了好奇。

而真正讓“大數據”成為互聯網信息時代科技界熱詞的是全球著名管理咨詢公司麥肯錫的肯錫全球研究院（MGI）在2011 年 5 月份發布的一份名為《大數據：下一個創新、競爭和生產力的前沿（The next frontier for innovation，competition and productivity）》的研究報告，該報告作為第一份從經濟和商業等多個維度闡述大數據發展潛力的研究成果，對“大數據”的概念進行了描述，列舉了大數據相關的核心技術，分析了大數據在各行業的應用，同時在文中也為政府和企業的決策者們提出了應對大數據發展的策略。可以說該份報告的發布，極大地推動了“大數據”的發展。

此后，大數據迅速成為科技熱詞，并引起了各國政府以及商業巨頭的廣泛關注。2012 年1月，瑞士達沃斯世界經濟論壇將大數據作為論壇的主題之一，并發布了《大數據，大影響：國際發展新機遇（Big Data，Big Impact：New Possibilities for International Development）的報告》；2012年3月，美國奧巴馬政府頒布《大數據的研究和發展計劃》，啟動了一項耗資超過2億美元、涉及12個聯邦政府部門、共計82項與大數據相關的研究和發展計劃，希望通過提高大型復雜數據的處理能力，加快美國科技發展的步伐；2012年4月，成立于2003年的SPLUNK公司成為大數據處理領域第一家成功上市的公司，在 NASDAQ上市的首個交易日以109%的漲幅讓無數人對大數據充滿了想象空間；2012年5月，英國建立世界上首個關于政府數據信息開放的研究所；2013年，澳大利亞、法國等國家先后將大數據上升到國家戰略層面，這是繼美國和英國之后，歐美主流國家又一輪關于大數據國家發展戰略的動向；在國內，從2012年開始，以BAT（阿里巴巴、騰訊、百度）為首的互聯網企業以及傳統的運營商企業也紛紛啟動了關于大數據的研發和應用；2014年3月，“大數據”這一概念首次進入我國政府工作報告；2015年初，李克強總理在政府工作報告中提出“互聯網+”行動計劃，推動互聯網、云計算、大數據物聯網等與現代制造業的結合與應用。

2大數據的界定

關于“大數據”也就是英文的“Big Data”這一術語的概念目前并沒有學界或者實務界一致公認的十分確切的界定。維基百科對“大數據”的解讀是：“大數據”（Big Data），或稱巨量數據、海量數據、大資料，指的是所涉及的數據量規模巨大到無法通過人工，在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。百度百科對“大數據”的定義為：“大數據”（Big Data），指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。2011年5月，肯錫全球研究院（MGI）在《大數據：下一個創新、競爭和生產力的前沿》的研究報告中，將“大數據”描述為“其大小超出了典型數據庫軟件的采集、儲存、管理和分析等能力的數據集。”，這一界定只是十分基礎的定義，僅僅從數據信息的體量上進行了界定。全球最具權威的IT研究與顧問咨詢公司研究機構 Gartner 則給出了以下的定義：“大數據是具有更強決策力、洞察發現力和流程優化力的海量、高增長率、多樣化的信息資產。”雖然對大數據尚未有公認的界定，但并不意味者大家對這個概念沒有較為普遍的共識，從以上定義來看，我們可以認為“大數據”是伴隨數據信息的存儲、分析等技術進步，而被人們所收集、利用的超出以往數據體量、類型具有更高價值的數據集合、信息資產。

從“大數據”這個術語的演進來看，大數據是一個修辭學意義上的詞匯，在數據方面，“大”是一個快速發展變化的術語，一方面，關于大數據標準的數據集大小是變化的，會隨著時間推移、技術進步而增長的；另一方面，不同行業、不同企業對于大數據標準的數據集大小也會存在認知上的差別。目前，大數據的一般范圍是從幾個TB 到數個PB（數千TB）。隨著信息技術的高速發展，數據體量已從 GB（1GB=1 024MB）升級到 TB（1TB=1 024GB）、PB（1PB=1 024TB），甚至EB（1EB=1 024PB）、ZB（1ZB=1 024EB）。據國際數據公司（IDC）預測，2020 年全球數據量將達到35.2ZB。據數名計算機科學家和業內高管稱，2008年“大數據”這一術語開始在技術圈內出現。起初，許多科學家和工程師都嘲笑“大數據”（下轉第188頁）（上接第186頁）只不過是一個營銷術語。2008年末，“大數據”得到部分美國知名計算機科學研究人員的認可，業界組織“計算社區聯盟”（Computing Community Consortium）發表了一份有影響力的白皮書《大數據計算：在商務、科學和社會領域創建革命性突破》，作者是一位知名計算機科學家，卡耐基·梅隆大學的蘭道爾·布賴恩特（Randal.E.Bryant）、加利福尼亞大學伯克利分校蘭迪·卡茲（Randy.H.Katz）、華盛頓大學的愛德華·拉佐斯加（Edward.D.Lazowska）。他們的認可對“大數據”術語提供了智力支持。而對于大數據發展史來說，2012年肯定也是一個十分重要的年份，大數據由技術圈走入了真正的主流市場。

3大數據的特征

首先“大數據”仍然是數據信息的一類，之所以稱為“大數據”，因為其具有不同于傳統數據信息的特征。關于大數據的特征，美國Gartner公司的分析師道格拉斯·蘭尼（Douglas . Laney）2001年首次提出了大數據必須的3V 特征，即容量大（Volume）、多樣化（Variety）和速度快（Velocity）。短短幾年時間，隨著技術的進步，以及對于大數據研究的深入，人們對于大數據特征的認識也發生了一些變化，現在普遍比較認可的關于大數據的特征的理解是：目前業界普遍認可的一種理解是：（1）巨量 Volume，即數據體量十分龐大；（2）多樣 Variety，即信息類型多樣，即包括結構化信息，如消費者提交的信息、交易信息等，更包括大量非結構化的信息，例如微博、日志、GPS 定位信息等非結構化信息；（3）價值 Value，價值密度低，商業價值高，受限于數據體量以非機構性數據的大量存在，相對于傳統數據庫，其數據價值密度較低；但同時由于信息關聯性更強，其挖掘價值較大；（4）高速 Velocity，“數據處理需要通過高速運算迅速得到分析結果，以滿足大數據時代對于時效性的要求。

基于大數據的多個V的特征，維克托·邁爾·舍恩伯格（Victor · Maier ·Schoen Berg）在《大數據時代：生活、工作與思維的大變革》一書中提出了三個基于大數據特征的重大思維轉變：首先，要分析與某事物相關的所有數據，而不是依靠分析少量的數據樣本；其次，我們樂于接受數據的紛繁復雜，而不再追求精確性；最后，我們的思想發生了轉變，不再探求難以捉摸的因果關系，轉而關注事物的相關關系。當理解了上述在大數據背景下的思維轉變，回過頭來又能更深刻地理解大數據關于幾個V的特征。