蒲松濤
隨著互聯網的加速普及及應用,基于互聯網的企業業務發展和技術創新持續加速。在技術創新方面,可匯集全球各地各類智力資源的開源模式日益成熟,并受到全球主要科技企業和發達國家的大力支持。隨著全球各大科技巨頭的競相加入,開源模式正逐漸成為推動大數據等各領域技術創新的主導力量。
從大數據的發展歷程可以看出,大數據源于開源,并基于開源不斷演進發展,自身就已具備了開源基因。經過若干年的發展,開源軟件和開源工具已經覆蓋到了大數據產業發展的各個環節,基于開源軟件企業可以快速地構建大數據應用平臺,提供豐富的大數據開發和應用工具。根據統計,大數據領域的開源軟件已涵蓋了計算軟件、存儲軟件、查詢軟件、基礎平臺、平臺管理、系統工具、數據應用等多種類型。此外,與云計算類似,在大數據處理平臺這個基礎性并處于核心地位的環節,開源技術的作用至關重要,不管是Hadoop生態,還是Spark生態,抑或是其他支線平臺,其絕大多數都屬于開源軟件,典型代表包括Hadoop生態的Hadoop、Pig、HBase、ZooKeeper、Hive、Yarn和Impala;Spark生態的Spark、Shark、Spark Streaming、Bagel、GraphX和Spark SQL;Hypertable、Cassandra、Dryad、S4、Kalka、Haloop、Storm等支線平臺。當前,從小型初創企業到行業科技巨頭,各種規模的企業都在使用開源軟件和工具處理大數據和基于數據的預測分析。開源不僅驅動著大數據技術的創新演進,也推動著大數據產業的不斷進步,對繁榮大數據應用生態起到不可忽視的作用。
表面上看,大數據基礎平臺和主要環節的技術創新均是基于開源模式推動的,全球各界人士均有平等的參與和應用機會。但是,從技術演進的確定權和影響力來看,大數據領域的技術創新離不開全球主要科技企業的參與。科技企業既是大數據技術創新的主要力量,同時也圍繞開源世界的游戲規則不斷擴大行業影響力,緊抓技術創新前沿,搶占大數據技術發展和標準制定的話語權,培育發展形成以企業核心競爭力為中心、以開源為主要方式的新型產業生態。一方面,科技企業是推動大數據基礎平臺演進發展的主導力量,Hadoop的發展離不開谷歌,Impala和Cassandra的主要貢獻者分別為Cloudera和Facebook,S4則主要由雅虎來主導。另一方面,在數據存儲和計算等大數據產業鏈中的重點環節中,科技企業均加大了布局力度,特別是在鍵值存儲和表格存儲等關鍵方向,幾乎在所有的開源項目背后都有大型科技企業的支持。其中,我國的阿里巴巴就是Tair存儲引擎和OceanBase數據庫的主導者。
綜上可見,開源已經成為了大數據技術創新的主要模式,而且全球各大科技企業均積極基于開源模式建立產業發展新生態,構筑技術創新的主動權和產業發展的制高點。為推動我國大數據產業健康發展,提高我國企業在大數據領域的競爭優勢,掌控產業發展的主動權,提出以下建議。
一是加強開源理念傳播和前沿技術跟蹤,要不斷加強研究和跟蹤,加大對開源模式的引導和宣傳,使行業企業更好地認識開源、熟悉開源、融入開源。
二是提升開源技術的應用和反饋水平,既要通過建立公共技術服務平臺促進成熟開源技術的應用和融合,也要鼓勵我國企業通過主動開源和積極反饋等方式提升我國企業在全球主要開源項目中的影響力。
三是優化基于開源的技術創新環境,積極發展我國本土的開源社區,促進形成開源式的技術創新模式,促進開源項目和實踐應用的對接。同時,要構建綜合性的完善的第三方服務體系,促進形成圍繞開源技術創新和應用的良性產業發展生態體系。