廖程靜
摘要 近年來大數據及大數據分析的快速發展引起了社會的廣泛關注,大數據的應用也越來越廣泛,文章從大數據相關概念特征入手,探討大數據相關技術及其處理流程等,以期能對大數據及大數據分析能有更清晰的認識。
【關鍵詞】大數據 相關技術 大數據處理
隨著計算機網絡與信息技術的不斷發展,大數據分析正逐步被各行業領域所應用,大數據的快速發展也越發受到國內外的廣泛關注和重視。如何正確認識并看待大數據,有利于人們對大數據的進一步挖掘和運用。
1 大數據概念
近年來,大數據(big data) -詞越來越多地被人們廣泛提及,人們應用大數據來描述和定義信息爆炸時代產生的海量數據,并命名與之相關的技術發展與創新。大數據(bigdata),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。當前“大數據”正在計算機、生物工程、金融等各領域被廣泛應用。
2 大數據特點
“大數據”顧名思義,“大”特指數據規模,通常指的是數據量在10TB(1TB=1024GB)規模以上的數據量。大數據相對于以往提及的海量數據又有所區別,其通常具有體量大,類型繁多、處理速度快等特點。
2.1 體量大( Volume)
伴隨著各種云計算、云存儲等技術的發展,人類世界幾乎所有的軌跡都可以被記錄下來,數據因此被大量生產出來,大量自動或人工產生的數據通過聚集到特定地點,形成了大量海量大數據。
2.2類型多(Variety)
隨著大數據時代的到來,數據格式變得越來越多樣,我們可以把數據分為結構化數據和非結構化數據兩大類,它涵蓋了圖片、音頻、視頻等不同的類型;而其來源也越來越多樣,可以來自于組織內部運作的各個環節,也可以來自于組織外部。
2.3 速度快( Velocity)
大數據速度“快”,體現在兩個方面,一是數據產生快,二是數據處理快,在大數據時代,數據的產生是爆發式的,短時間產生的數據量非常龐大,這就需要快速的數據處理。
2.4 真實性( Authenticity)
大數據的意義在于通過對海量數據的分析,對決策的制定提出參考價值,數據的真實性與質量才是重要的因素,因此追求數據質量是對大數據的要求和挑戰。
3 大數據處理
大數據的數據處理和通常意義上的數據處理分析看似差別不大,可以把大數據的分析處理流程分為四個步驟驟:數據采集、數據導入和清洗處理、數據統計和分析、數據挖掘應用,但相對傳統意義上的數據分析處理,大數據數據集更多更大,它們之間的關聯也越多。
3.1 數據采集
大數據的數據處理有別于傳統的數據分析,其可能同時面臨成千上萬的用戶進行訪問和操作,其并發數高,數據采集依靠多個數據庫來接收,同時用戶可以通過這些數據庫來進行簡單的查詢和處理工作,這就需要在采集端部署大量數據庫才能支撐。
3.2 導入和清洗處理
數據導入和清洗是整個大數據分析過程中不可缺少的一個環節,其效果直接關系到大數據分析處理的質量,大數據導入和清洗處理過程導入的數據量大,每秒達到百兆,甚至千兆級別,這就需要對海量數據進行有效的分析,在導入基礎上做一些簡單的清洗和預處理工作。
3.3 數據統計和分析
大數據的統計與分析主要采用的是分布式數據庫或分布式計算集群來對其采集的海量數據進行分析和匯總等的方式進行,從而能滿足大部分的分析需求。大數據分析的特點,也是其面臨的挑戰便是涉及分析的數據海量,相應的其對系統的要求也就越高。
3.4 數據挖掘
大數據的數據挖掘( Data Mining)就是要從海量的、不完全的、模糊的、隨機的實際應用數據中,提取人們事先不知道的,隱含其中的、但具有潛在有用價值的信息。大數據的數據挖主要是在采集海量數據上進行各種算法的計算,實現預測的效果,實現一些高級別數據分析的需求。
4 大數據技術展望
4.1 數據分析成為大數據技術的核心
數據分析在數據處理中占據十分重要的位置,隨著大數據技術的發展,數據分析將成為大數據技術的核心。大數據的意義在于對海量數據集合的智能處理,從而可以在大規模的數據中獲取有用的信息。大數據功能的實現,就是要對數據進行分析和挖掘,未來大數據技術的進一步發展,與數據分析技是密切相關的。
4.2 實時性的數據處理方式
大數據突出強調數據的實時性,對數據的處理也要體現出實時性。目前大數據的數據處理方式采用的主要是批量化的處理,這種處理方式有一定的局限性,當對于數據要求比較高的時候,傳統數據處理方式就達不到要求,這與大數據實時性的要求有點不適合,在不久的將來,實時性的數據處理方式將會成為主流,不斷推動大數據技術的發展和進步。
4.3 基于云的數據分析平臺將更加完善
基于互聯網的云計算快速發展,也為大數據技術的發展提供了一定的數據處理平臺和技術支持。云計算采用分布式的計算方法,具有彈性擴展、相對便宜的存儲空間和計算資源,同時,云計算具有十分豐富的IT資源,分布廣泛,這些優點都為大數據技術的發展提供了技術支持。隨著云計算發展平臺的日趨成熟,大數據技術自身將會得到快速提升,數據處理水平也會得到顯著提升。
5 結束語
隨著互聯網及計算機技術的快速發展,各類應用的層出不窮,引發了數據規模的爆發式增長,數據分析和數據統計逐步滲透到了當前每一個行業的業務領域之中,大數據時代己然來臨,相信在不遠的將來,大數據及大數據分析將扮演越發舉足輕重的作用,重視和應用大數據必將給我們的生活帶來深刻的變革。
參考文獻
[1]張春磊,楊小牛.大數據分析( BDA)及其在情報領域的應用[J].中國電子科學研究院學報,2013,8 (01).
[2]顧君忠,大數據與大數據分析[J].軟件產業與工程,2013 (04).
[3]宗威,吳峰.大數據時代下數據質量的挑戰[J].西安交通大學學報:社會科學版,2013,33 (05).