余濤
摘 要:大數據本身并不是一種新技術,也不是一種新的產品,而是這個時代出現的一種現象,是近年來研究的新技術熱點。以互聯網企業為主的信息通信企業是大數據應用的領先企業,它們具有較好的信息化能力并擁有數據優勢,進而可以從技術能力、組織架構、業務應用等多個層面共同發展大數據。
關鍵詞:大數據;信息通信;應用現狀;協調發展
1、定義
大數據處理流程主要包括數據收集、數據預處理、數據存儲、數據處理與分析、數據展示、數據可視化和數據應用等環節,其中數據質量貫穿于整個大數據流程,每一個數據處理環節都會對大數據質量產生影響作用。通常,一個好的大數據產品要有大量的數據規模、快速的數據處理、精確的數據分析與預測、優秀的可視化圖表以及簡練易懂的結果解釋。
2、大數據的技術
技術是大數據價值體現的手段和前進的基石。我將分別從云計算、分布式處理技術和存儲技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。
2.1云技術
大數據常和云計算聯系到一起,因為實時的大型數據集分析需要分布式處理框架技術來實現,所以云計算充當了信息革命時期的發動機的角色。簡單來說,云計算就是給數百甚至數萬的電腦分配工作,而大數據在這個過程中充當電的角色。Facebook、Amazon、Google等一批互聯網企業引領下,做成公用事業提供給用戶。如今,在這種發展情況下,一種行之有效的模式出現了:云計算提供基礎架構平臺,大數據應用運行在這個平臺上。但是云計算的計算能力再強大,如果沒有大數據的信息積淀,這種模式也無法運作起來。業內形容兩者的關系也終究只是鏡花水月。但是大數據的信息積淀再豐富,如果沒有云計算的處理能力,這種模式也找不到用武之地。分布式處理需要用比如虛擬化技術,那么大數據到底需要哪些云計算技術呢?這里暫且列舉一些,實時流數據處理、智能分析技術等。
2.2分布式處理技術
分布式處理系統可以將不同地點的或具有不同功能的或擁有不同數據的多臺計算機,用通信協調地完成信息處理任務。這就是分布式處在控制系統的統一管理控制下,網絡連接起來,處理系統的定義。以此例進行說明,Yahoo的Hadoop模式能夠對大量數據MapReduce進行處理的技術,它是一個實現了Hadoop進行分布式處理的軟件框架,是以一種可靠、高效、可伸縮的方式進行處理的方式。其包含的一種云計算的核心計算模式,是一種分布式運算技術。它的特性,第一,它是可靠的,因為它假設計算元素和存儲會失敗,也不會影響其計算結果。其次,確保能夠針對失敗的節點重新分布處理。維護多個工作數據副本,是高效的。PB 能夠處理還是可伸縮的,Hadoop 通過并行處理加快處理速度。因為它以并行的方式工作,依賴于社區服務器,因此它的成本比較低,任何人都可以使用Hadoop 級數據。此外,Hadoop +HBase(文件系統,數據存儲技術相關)=HDFS的構成,Hadoop你也可以這么理解數據庫=數據處理+Map+Reduce
2.3存儲技術
大數據存儲的目的是支持大數據分析。這兩者的關系是:大數據可以抽象的分為大數據存儲和大數據分析,大數據存儲致力于研發還是兩種截然不同的計算機技術領域:到目前為止,撐大數據分析。EB甚至PB可以擴展至大數據分析。關注在最短時間內處理大量不同類級別的數據存儲平臺型的數據集。集成電路的復雜性就增加一倍。提到存儲,有一個著名的摩爾定律相信大家都聽過:成本的不斷下降也造就了大數據的可存個月就下降一半。比如,還在不斷擴展的Google萬塊硬盤,而且100萬臺服務器和其中很多的擴展都是基于在廉價服務器和普通存儲硬盤的基礎上,升級其計算能力和存儲能力,這大大降低了其服務成本,因此可以將更多的資金投入到技術的研發當中。該服務旨在讓開發人員能 Internet是一種面向Amazon S3舉例,Amazon以Amazon S3更輕松的進行網絡規模計算。在服務界面上,用戶可通過它隨 Web 提供一個簡明的此服務讓所有開發人員都能訪問同上的任何位置存儲和檢索的任意大小的數據。Web是在用它來運行其全球的Amazon 一個具備高擴展性、可靠性、安全性和快速價廉的基礎設施,S3再看看網站網絡的可用性,并能夠承受兩個設施中的數據同時丟失。99.99% S3云的存儲對象已達到萬億級別,而且性能表現相當良好。S3很成功也確實卓有成效,S3目前全球的對象執行請求也達到百萬的峰值數量。AWS同時云已經擁萬億跨地域存儲對象,運行自己的全部或者部分日常業務。AWS范圍內已經有數以十萬計的企業在通過這些企業用戶的身影。Amazon多個國家,幾乎世界上的每個角落都有遍布。
3、大數據處理技術的展望
3.1對于企業
對于企業的大數據,外部數據的重要性日益提高。這里尤其有兩個明顯的現象:最終形成“數據供應鏈”單一企業的內部數據與整個互聯網數據比較起來在互聯互通的互聯網時代,超過內部數據。能提供包括數據供應、數據整合與加工、數據應用等多環節服務的公司只是滄海一粟:會有明顯的綜合競爭優勢。成功轉向了軟件和服務,而這次將遠離服務與PC舉例,上一個十年,他們拋棄了IBM的執行總裁羅睿蘭認為,IBM更多地專注于因大數據分析軟件而帶來的全新業務增長點。
3.2 對于個人
可由本人授權提供第三與個人相關聯的各種有價值數據信息被有效采集后,個人的大數據方可進行處理和使用,并獲得第三方提供的數據服務。每個用戶可以在互聯網上注冊個人的數據中心,未來,用戶可確以存儲個人的大數據信息。并通過可穿戴設備或植入芯片等感知技術來采集捕獲個人的大數定哪些個人數據可被采集,比如,牙齒監控數據,心率數據,體溫數據,視力數據,記憶能力,地理位置信息,社購物數據等等。用戶可以將其中的牙齒監測數據授權給飲食數據,會關系數據,運動數據,牙科診所使用,由他們監控和使用這些數據,進而為用戶制定有效的牙齒防治和維護計劃由他們監測自己的身體運動機能,也可以將個人的運動數據授權提供給某運動健身機構,還可以將個人的消費數據授權給金融理財機構,并有針對地制定和調整個人的運動計劃。他們幫你制定合理的理財計劃并對收益進行預測。比如罪案預防監控中心可以實時的監控本地授權,即可提供給國家相關部門進行實時監控的每個人的情緒和心理狀態,以預防自殺和犯罪的發生。
隨著互聯網及計算機技術的飛速發展,各類應用層出不窮,引發了數據規模的爆發式增長,數據分析和數據滲透到了當前的各行各業中,大數據時代已經來臨,相信在不遠的將來,大數據必將給我們的生活帶來深刻的變革。