
【摘要】隨著目前互聯網數據爆炸式的增長,傳統的數據存儲和處理方式已經不能夠適應數據的增長速度,并且當今生成的大量數據多為web存儲的數據結構,其數據存儲格式不統一、數據結構多樣化,給數據的處理帶來了極大的困難。Hadoop技術的出現給大數據時代提供了一個可用的云計算平臺,其分布式文件系統實現了數據的安全備份與存儲。
【關鍵詞】大數據;Hadoop;分布式系統;數據備份
隨著計算機網絡的普及,web技術和Internet在當今世界產生大量的數據,這些海量數據遠遠超過有記載以來所產生的數據總量。以天文學為例,2000多年以來,整個天文學的數據累積到現在是140兆兆字節的信息,而位于新墨西哥州阿帕奇山頂天文臺的2.5米口徑望遠鏡進行的紅移巡天項目,在短短幾個星期內就收集到多于140兆兆字節的信息量。這些海量數據每年以超過50%的速度增長,多方面的數據顯示,我們已經進入了大數據時代。
由于數據量爆炸式增長,數據處理手段也是復雜多樣,再加上數據結構不象傳統數據那樣統一存儲,所以數據分析處理技術就顯得尤為重要。如果數據得不到很好的處理,則海量的數據就沒有任何意義,要想真正的擁有這些數據,需要解決以下幾個問題:
1、存儲系統的改變
數據量急劇增加,使得原有的存儲系統和方法不能適應新產生的大量數據的存儲要求。
2、復雜的數據結構存儲
原有存儲方案中,一種類型的數據庫只能存儲一種結構的數據。……