繆麗婷
當下互聯網技術愈發普及,創新的即時通信技術蓬勃發展,云計算服務逐漸滲透到人們的日常生活當中……這一切都標志著大數據時代的來臨。從簡單的數字———“小數據”躍變成多樣的數字、文本、圖片和視頻———“大數據”,人們的生活也隨即被動地改變了。
1.引言
本文系統地、全面地介紹大數據的基本概念、分析數據源頭和特征,詳細介紹了商界中的大數據行動、醫學界眼中的大數據、利用大數據預測變化多端的天氣和嶄新的大數據課堂,深入解析大數據處理的全過程以及數據分析的方法和工具。
2.什么是大數據
2.1大數據的含義
從字面上的理解,大數據指的是數據量的龐大。但這含義并不能全面地詮釋大數據,目前社會各方對大數據有著不同的理解和定義:
在百度百科中的大數據,是指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
麥肯錫全球研究所指出大數據具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征,而且規模大到在獲取、存儲、管理和分析等方面大大超出了傳統數據庫軟件工具能力范圍的數據集合。
在全球最權威的信息技術研究和分析公司———高德納咨詢公司的眼中,大數據是一種海量的、高增長率的和多樣化的信息資產,并且能通過新模式處理后而具有更強的決策力、洞察發現力和流程優化能力。

綜合上述各專家機構的觀點,我認為大數據不僅僅局限在其規模和數量上的大和多,而且是雜亂無章的,需要經過收集篩選、深度挖掘、分析處理才能取得有價值的信息。利用大數據的最終目標是要研究其是否有意義,任何無意義的或者沒有發現其有價值的數據都是冗余。
2.2大數據的源頭
當開始利用數據庫技術對數據進行收集、預處理、存儲和分析時,人們對數據的接受方式也發生了明顯的變化:由被動接受到主動接觸,進而到自動處理三大階段。要獲得有價值的信息,首先是數據的存在,那么大數據來源于哪里?
2.2.1互聯網數據
隨著互聯網的普及,數據量呈現出爆發性的增長,互聯網也進入了一個嶄新的時代———Web2.0時代。越來越多的網絡使用者利用網頁進行數據交換,分享網絡瀏覽內容與痕跡,無時無刻地都在產生數據。如以新浪微博、Facebook、Twitter和微信為例的社交媒體,每天發布超過3億的即時生活信息、視頻,通過記錄用戶點贊量為客戶收集用戶的喜好,使數據接受者的我們瞬間變為大數據的制造者。
2.2.2物聯網數據
物聯網被譽為互聯網與傳統通信網絡的信息載體,能夠使具有不同功能的產品在互聯網中實現線上與線下的數據交換的網絡。物聯網的兩大核心分別是:“物”和“網”。“物”是指擴展到各種產品的客戶端,例如可穿戴式設備、汽車的智能導航系統和智能家居關聯的生活設備(如窗簾、電燈、安防和影視設備)等;“網”指的還是互聯網。便攜智能設備、智慧家居、人工智能交通調控……這些之所以能夠存在,原因在于數據。而正是具有數據采集功能的傳感器、視頻和其他智能設備的發展,促使海量數據的生成。
2.2.3企業數據
早在20世紀80年代,企業開始意識到海量數據真正價值。在他們的眼中,數據都源自于企業內部數據系統(例如OA辦公自動化系統、ERP企業資源計劃信息平臺和CRM客戶管理系統等),另外還有企業外部數據系統(例如視頻監控、電話訪問、信件和電子郵件反饋、照片以及電子游戲等),通過分析這些大數據,從中獲取有價值的信息,改變產品設計和銷售策略,進而提高銷售額。
2.3大數據的特征
被譽為“大數據之父”的維克托·邁爾·舍恩伯格在他和肯尼斯·克耶編寫的《大數據時代》中提及到,大數據具有4V特征:高容量性(Volume)、珍貴性(Value)、多種性(Variety)和實時性(Velocity),另外,IBM也總結了第五個V特征———真實與準確性(Veracity)。
2.3.1高容量性
未來學家阿爾文·托夫勒曾贊頌大數據為“第三次浪潮的華彩樂章”,這間接地說明大數據如浪潮般地涌入。過去描述數據有多大我們用的是多少GB或者是多少TB,但是現在我們衡量數據是以多少PB、多少EB或者多少ZB來算。1 PB=1024×1024×1024 MB,通常我們拍攝一張高精度高對比度的照片大小一般為15 MB,則1 PB的儲存空間能儲存7158萬張照片。目前全人類社會大概共拍攝了超過3.5萬億張照片,其中發布在臉譜網上的就有1 400億張。除了社交網站,手機移動端、可穿戴設備和銀行ATM機等各種智能設備,都能生產高容量性的大數據。

2.3.2珍貴性
盡管每分每刻都在生產數據,但是對于我們來說并不是所有的數據都是有價值的。有些數據或許對你來說沒什么用,但對一些特定的人群來說,某個數據是珍貴的。在茫茫的數據海洋中,“閃閃發光的金子”所占的比例雖然非常的小,但其背后所具有的價值是非常巨大的,這就是其珍貴性之所在。例如關于大數據最經典的案例———沃爾瑪的“啤酒和尿布”,一般人都不會把啤酒和尿布聯想到一起,但是數據分析員了解到年輕的爸爸在買尿布的時候也順便買啤酒來表揚自己,于是才創出了捆綁銷售的先河。
2.3.3多種性
大數據的多種化主要體現在數據的來源多而雜和數據的表現形式多樣。
①數據的來源多而雜,一般來源于互聯網、物聯網、企業或行業數據。②數據的表現形式多樣:在企業或行業當中,數據一般以圖表的形式存在,這種數據間存在著較強的因果關系,因此也稱為結構化數據;在商業中,數據是以文本、數字、視頻監控、照片、網頁、音頻和鏈接等形式表現,屬于非結構化數據,其特點是數據與數據間沒有較為明顯的因果關系。當然也有介于結構化數據和非結構化數據之間的數據———半結構化數據,例如超文本標記語言文檔。
2.3.4實時性
數據類似流水一樣,是不斷流動的,而數據的價值則和處理時間的長度成反比例趨勢下降。大數據在處理過程中需要遵循“一秒定律”,顧名思義是要求至少在秒級的時間范圍內做出響應,并判斷出此數據是否有價值,實時處理數據的能力將會受到極大挑戰。
2.3.5真實與準確性
IBM曾公開表示:“只有真實而準確的數據才能讓對數據的管控和治理真正有意義。隨著社交數據、企業內容、交易與應用數據等新數據源的興起,傳統數據源的局限性被打破,企業愈發需要有效的信息治理以確保其真實性及安全性。”
3.大數據是有價值的
2018年9月20日,“大數據時代的預言家”維克多·邁爾·舍恩伯格在數博會上發表了“數據將成配置經濟資源的核心要素”,可見只要立足于數據,經過合理地分析和利用,數據將會以不可估量的價值來回報我們。
3.1商界中的大數據行動
2012年大數據開始進入大眾的眼簾,原因是有不少高端的國際化企業加快對大數據應用的推進,如搜索引擎谷歌、社交網站巨頭臉譜網和跨境網絡電子零售商亞馬遜等。谷歌既保存用戶的搜索結果的同時,也存儲了用戶的搜索行為(時間、內容和尋找方式),這能讓它在短時間內判斷出用戶的搜索目標是什么并做出推薦。據統計數據,在一個月內谷歌處理的搜索請求就達到122億次以上,如此龐大的用戶群將給他帶來非常可觀的廣告收益。亞馬遜通過收集用戶對新按鈕的點擊量與舊按鈕做數據對比,當新按鈕的點擊率達到穩定或者是更可觀的時候,新設計將會取代舊設計。這就隱喻了數據是設計的風向標,它能夠告訴我們用戶喜歡什么樣的設計,哪些是有效的,哪些是無效的。
3.2醫學界眼中的大數據
傳統的醫學診斷一般都是以薪火相傳的經驗為主,這將導致真正有療效的治療方法因傳播范圍狹小而未被廣泛應用。因此,最好的治療是基于醫學案例,統計并分析各種不同的病例所采用的不同診療手段。過去分析人口數據,發現人均壽命較短,嬰兒的出生死亡率較高,通過分析大數據,大力宣傳普及預防疫苗,從而降低了幼兒的死亡率。DNA測試和數據分析公司23andMe將大數據應用在人類遺傳學上,隨著研究技術的深入和處理能力的提高,過去價格高昂的個人DNA測評,現在僅需人民幣300多元就可解開自身的遺傳密碼。2015年,首家在美國上市的可穿戴設備設計與制造公司Fitbit發布一款能夠跟蹤使用者一天下來的所有身體活動,包括夜間睡眠監測。隨后相繼出現了Nike手環、小米手環和微信自帶的“微信運動”功能等。通過這些設備和程序,用戶可以更加方便、快捷并實時地掌握自己的身體狀況,當出現報警時,就會提高注意了。

3.3變化多端的天氣———大數據預測
大數據除了能夠在商業、醫學上獲得廣泛的應用外,也能在預測變化多端的天氣方面貢獻一份力量。目前每天僅是天氣數據容量就達到30 TB,總數據量大概是23 PB,儲存的基本要素一般有溫度、氣壓、雨量、濕度、風速和風向。氣象大數據蘊含了巨大的價值。2012年,專注于醫藥的企業默克公司分析了過去的和現在的氣象數據,發現每逢5月天氣將變暖促使了花粉的傳播,因此默克公司改變銷售策略,加大過敏的宣傳力度,最后賺取可觀的利潤。氣象大數據還能為航空飛行保駕護航,減少由于天氣災害造成的損失。
3.4嶄新的大數據課堂
班布里克·桑托約曾在《數據驅動:改進授課的實際指南》中提出數據驅動能有效地跟蹤學習效果,幫助教師改善教學方法。由哈佛大學和麻省理工大學打造的非營利性EDX數字教育平臺,該平臺已經有超過90萬人注冊,擁有包括醫學、金融、計算機科學和統計學等不同學科的教學視頻與講義超過3 600個,教師通過EDX平臺以電子的形式傳遞課件、布置作業、進行一系列的測評和考試。除此之外,國內也有類似的網絡教育平臺和移動端,例如考試吧網站、微課和雨課堂等,利用線上和線下學習相結合的方式,讓學生在學習枯燥的知識時感到有趣,提高了學生的關注度與投入度,促進課堂教學的效率。
4.處理大數據的方法
在茫茫的數據大海當中,如何才能快速找出我們需要的“金子”?處理大數據的方法很重要。大數據的解決方案異于傳統技術,它是以犧牲一定的數據一致性為代價,追求數據的靈活與擴展,并在短時間內完成數據處理。當前應用在處理大數據的技術有ETL數據預處理平臺、流處理實時分析、海量并行處理數據庫(MPP)、分布式系統架構(Hadoop)、云計算系統、互聯網,HDFS分布式文件系統以及大數據的分布式模型Map Reduce技術等。
4.1 MPP
海量并行處理數據庫由多個對稱多處理器系統共享一定網絡的所有資源,共同完成任務。從用戶的角度去看,它們是一個整體,但實際上每個SMP服務器單元里的控件都是獨立的,資源和權限分開的。由于MPP采用分布式結構并以列為單位儲存數據,與傳統的數據庫相比,它能處理PB級的數據,具有強大的輸入輸出能力和可擴展能力。
4.2 Hadoop
Hadoop作為Lucene的子項目被ASF公司正式公開發表。它是基于分布式處理方法MapReduce實現框架并儲存海量數據。它的核心設計共有2個模塊:①HDFS分布式文件系統;②分布式大數據處理框架MapReduce技術。Hadoop融合了這二者容錯性高、實時交換數據量多、大容量存儲、低成本和高速度運算等優點。
4.3 MapReduce
大數據的分布式模型MapReduce,是通過分派海量數據任務給一個SMP服務器旗下各分節點協同完成,接著跟蹤整理各節點的分步成果,最終融合成結果。通俗地說,MapReduce就是一個先分解任務后聚合成果的過程。MapReduce主要完成劃分數據、調度計算任務、雙向定位數據與代碼、優化系統、檢測出錯和恢復數據。
5.結束語
通過了解大數據對商界、醫學界、氣象學和教育等領域的深遠影響后,可以看到大數據是有價值的,它實實在在、無時無刻地改變并驅動了我們的生活。目前大數據技術還是處于初級發展階段,未來還會遇到各種機遇和挑戰。