王丁
隨著互聯網應用的飛速發展和各行業信息化的普及,數據呈爆發式增長,傳統面向對象編程思想和數據處理方式在分析如此海量的數據時出現性能和可擴展性的瓶頸,所以必須研究新的有效的大數據分析平臺開發架構,尤其是從底層編程思想著手進行優化,來應對大數據時代所帶來的全新挑戰。
目前業界對于大數據的概念還沒有統一定義,IBM公司將其特征概括為大規模、多樣性和快 速化三方面,其中大規模表示數據量非常大,TB 級以上;多樣性表示數據不像傳統關系數據庫那樣的結構化數據,而是有較多無法用二維表邏輯來表達的非結構化數據;快速化表示數據產生速度和要求的分析速度都要快,并且對大數據分析后的結果可快速用于用戶的決策依據上,實現大數據所蘊含價值的真正落地體現。
大數據平臺大規模、多樣性和快速化的三個特征,導致在編程實踐中會面臨數據關系極其復雜、源碼改動非常頻繁、代碼間沖突眾多等問題,這將耗費大量時間和精力在代碼編寫和完善上,如果沒有良好的編程思想對底層結構進行優化,大數據項目到后期往往會陷入BUG頻出,難以維護的境地。運用泛接口思想在大數據平臺進行編程實踐,將大數據算法的復雜流程劃分為相對獨立的若干個步驟,并封裝成獨立的類或接口,只需通過實例化實現這些接口的類,便可以方便的進行大數據項目的開發和后期維護修改。……