王永
在當今世界,最有價值的資源不再是石油,而是數據。數字化轉型的浪潮,加劇了企業的信息和數據流的升級,用好數據是當前企業信息化管理以及數字化轉型中的關鍵點。
從大數本身來說,它的價值在于要把真正有用的信息變成知識,產生洞察,然后用洞察幫助企業做業務運營,實現業務需求也提高他們的客戶滿意度,最后為企業創造更多的價值。
如今,大數據的分析應用場景幾乎是分布在社會的方方面面。比如說,市場客戶服務方面,包含了消費者的細分、商品門類的分析、客戶的忠誠度、客戶的流失度等;以及金融風險管控方面,有異常交易、欺詐的偵測、各種風險評估,還包括市場活動里的價格的分析、需求的預測……
值得注意的是,隨著全球數字化浪潮的深入,一些以社交類為主的新興應用與傳統應用相比,用戶增長迅速,數據量也正在以指數級速度增長——更多的數據來源、數據的多元化需要更強、更全面以及更及時有效和預測性的數據分析能力挖掘數據的價值。
“以往我們的做法通常是從數據庫到數據倉庫再到商務智能BI,但是在這一過程中很容易形成數據孤島,無法滿足數據迅速的增長,” AWS首席云計算企業戰略顧問張俠在接受筆者的采訪時表示,為了更好地適應數據爆炸式增長的分析需求,“數據湖”應運而生。
與傳統數據倉庫不同的是,數據倉庫是在數據庫的基礎上把數據經過一定的分類、提煉,然后整理好存儲在數據倉庫中,這種方式在過去也已經成為企業IT非常重要的內容。
而數據湖可以看作是中心數據存儲的容器,可以存儲格式化和非格式化的各種數據,而且通過工具,可以快速對這些數據進行查詢和分析,同時還能兼容傳統的數據倉庫的數據分析的方法,結合機器學習等新興技術,做出更多預測性的分析。
“本來數據很多是結構型數據、交易型數據,很規矩的放數據庫和數據倉庫中。但是現在有一套方法,可以把任何類型的數據,結構型、非結構型的數據直接存儲下來,然后利用云計算時代海量存儲的能力和各種新的查詢能力以及數據分析和處理的能力,直接對這些原始的數據來做查詢,這就是數據湖的時代。”在張俠看來,數據湖的出現得力于云計算提供海量的存儲,以及云計算提供了大量、高性能計算的可能,使其可以快速查詢和海量存儲。
數據湖的概念大概最早出現去2011年5月,而AWS作為云計算市場的領導者,也早已洞察并做好準備。
“亞馬遜曾發布了全球第一款公有云服務——Amazon S3,其可以存放任何二進位為基礎的信息,包含結構化和非結構化數據,這也是亞馬遜最早推動數據湖的內容。通過把采集的各種數據,做好目錄登記存儲在S3服務里面,然后利用分析手段,變成報表,或者是一些預測性的分析,這是亞馬遜對數據湖的理解。”張俠表示,AWS也會陸續推出相應的服務來實現數據湖中的每個功能,而這些服務都會是以云的方式提供。
Amazon RDS(Relational Database Service)服務,是亞馬遜最早推出的一個托管的關系型數據庫,它可以支持像SQL Server、Oracle的數據庫以及開源性的PostgreSQL、MySQL等。隨后,亞馬遜有推出了專有的Amazon Aurora數據庫,這是一個云原生的關系型數據庫,Amazon Aurora可以全方位托管,并且兼容MySQL和PostgreSQL純原生的數據庫。
除此之外,亞馬遜還推出了一個很重要的云產品——Amazon Redshift,它是一個數據倉庫,但是與傳統的數據倉庫相比,它擁有更大的存儲空間,支持從GB到TB規模數據的擴展,而且能夠縮放,成本也是傳統的數據庫的大概1/10左右。
通過Amazon Redshift,客戶可以對大規模的結構化數據執行復雜的查詢,并獲得超高速的性能。對于非結構化數據,Amazon EMR使用流行的分布式框架,例如Apache Spark、Presto、Hive和Pig,橫跨多個可動態伸縮的集群,處理和分析大量數據,快速又經濟。雖然這些服務是可伸縮的,而且足夠強大到可以處理大且復雜的大數據應用,但是許多客戶也希望能夠很快地查詢Amazon S3上的數據,例如web日志、點擊流、原始日志文件等,而無需開啟、配置和管理Hadoop集群或數據倉庫。

近日,亞馬遜最新發布了兩個關于數據湖非常重要的組成部分:Amazon Athena和Amazon Glue。其中,Amazon Athena是一種交互式查詢服務,它讓客戶可以使用標準SQL語言、輕松分析Amazon Simple Storage Service (Amazon S3)中的數據。由于Athena是一種無服務器服務,因此客戶不需要管理基礎設施,而且只為他們運行的查詢付費。Athena可以自動擴展,并行執行查詢,所以即便是大型數據集和復雜的查詢,也能很快獲得查詢結果。
茄子快傳是一家全球化的互聯網科技公司,累計有18億用戶。其搭建了一個數字內容連接入口,幫助全球200多個國家和地區的用戶獲取優質數字內容。然而龐大的數據量不僅增加了數據分析的壓力和難度,茄子快傳還時常應對一些多維度、多顆粒度的高并發分析。“AWS的分析工具很好地滿足了我們日常的數據提取和分析需求”茄子快傳數據運營負責人何誠表示,“使用Amazon Athena,我們可以輕松地運行交互式查詢,分析數據,不必構建和部署額外的集群。更重要的是,我們運行新數據分析所需的時間縮短了30%,大幅減少了成本與運維方面的風險。”
“現在,客戶使用Athena分析Amazon S3中的數據就像編寫SQL查詢一樣簡單。Athena使用完整支持標準SQL的Presto,可以處理各種標準數據格式,包括CSV、JSON、ORC和Parquet。”張俠表示,因為Athena使用多個可用區的計算資源執行查詢,而且使用Amazon S3作為底層數據存儲,所以它具有高可用性和持久性,數據冗余存儲在多處基礎設施中,并且是每處基礎設施上的多個設備上。
Amazon Glue是一種全托管的數據提取、轉換和加載 (ETL) 服務及元數據目錄。它讓客戶更容易準備數據,加載數據到數據庫、數據倉庫和數據湖,用于數據分析。使用AWS Glue,在幾分鐘之內便可以準備好數據用于分析。由于AWS Glue是無服務器服務,客戶在執行ETL任務時,只需要為他們所消耗的計算資源付費。
值得一提的是,AWS Glue在從客戶選擇的數據源把數據爬取出來之后,會自動識別數據格式和模式,構建統一的數據目錄,并為客戶提供所選數據的中央視圖。這使得客戶很容易跨越各種數據存儲,檢索和管理所有數據,而不必手動搬運它們。
“AWS Glue不僅讓ETL和異構數據源的處理變得更加容易,而且大大降低了開發和運營成本。” 在德比軟件大數據團隊技術經理戴岳看來,德比軟件為酒店和旅游行業提供在線銷售和產品分銷方面的技術和系統服務,擁有全部產品和服務的自主知識產的同時,還存儲了全球超過18萬家酒店的數據,每月處理超過800萬間夜的訂單。通AWS Glue服務,它的數據目錄功能讓德比軟件可以輕松使用Amazon EMR來直接處理和查詢Amazon S3上的數據,極大地提高了開發效率。
據了解,當前已經有大量的企業和機構都已經開始采用AWS的數據湖和數據分析云服務,例如,金融領域還有著名的基金管理公司Vanguard、證券交易所NASDAQ,互聯網及電商方面除了Amazon還有全球民宿短租公寓預定平臺Airbnb……
張俠強調,數據湖雖然更適合于當前的企業IT需求,但是總體實施仍有不小的難度。為此,亞馬遜推出了AWS Lake Formation服務,將數據湖的流程自動化,節省企業建立數據湖的工作流程。“雖然AWS Lake Formation服務還沒有在中國正式推出,但是我們在今年會很快的時間內推出這個服務,為企業提供幫助。”
“從AWS的角度來看,數據湖有三個最主要的元素: Amazon S3/Glacier、AWS Glue、以及還未在中國市場推出的AWS Lake Formation。”張俠表示,AWS可擴展、可靠的云存儲,加上廣泛的分析服務,使客戶比以往任何時候都更容易收集、存儲、分析和共享數據,隨著AWS Glue在由西云數據運營的AWS中國(寧夏)區域正式上線,中國區域的客戶可以輕松地從任意多的數據源傳輸和處理數據,整合數據到數據湖,并且可以選用多種AWS分析服務,迅速開始分析所有數據,助力企業客戶的創新和發展洞察先機,為企業創造更多的價值。