王永
“re:Invent,中文可以理解為重塑,是亞馬遜云科技一直以來堅持的‘精神內核’,將客戶需求作為技術重塑的源泉,賦能各個行業的業務創新同樣是亞馬遜云科技追求的目標。” 亞馬遜云科技大中華區產品部總經理陳曉建日前在re:Invent中國媒體溝通會上表示,今年是亞馬遜云科技第11年舉辦re:Invent,來自全球的5萬多客戶和合作伙伴參加了在拉斯維加斯舉辦的線下盛會,超過30萬人線上參會。
其中不乏寶馬集團、拳頭游戲、納斯達克以及西門子等行業“翹楚”,同時,許多獨角獸和初創企業也都在使用亞馬遜云科技實現創新。Pitchbook的數據顯示,全球有超過1千家獨角獸,其中83%都在用亞馬遜云科技;Cloud 100榜單上超過90%的初創企業都將他們的業務放在亞馬遜云科技上運營。
那么,云是怎樣幫助大家在當今不確定環境下保持探索的?亞馬遜云科技CEO Adam Selipsky認為,通過思考和總結人類過去的探索方式,將為今天應對不確定性提供寶貴的經驗和教訓。“人類曾經探索過各種各樣的環境,有些浩瀚無垠,有些深不可測,有些充滿著極端的挑戰,但有些也充滿著無限可能。當我們使用正確的工具,人類就可以自信地去戰勝各種環境的挑戰,不斷地發現新的可能性。”
如今,像星空一樣廣袤的數據“大爆炸”成為現實,分析師判斷:未來5年所產生的數據是整個數字時代所產生數據的重量兩倍還要多。如何去管理海量數據,挖掘數據的價值,對每個企業來說既是挑戰,同樣也蘊含無限的價值。
“雖然數據是整個應用程序業務邏輯的核心,但處理數據非常棘手,這也是亞馬遜云科技一直致力于建設云原生的數據戰略的原因。”陳曉建認為,亞馬遜云科技希望提供工具,讓客戶在整個數據全生命周期從存儲到最后的AI,每個環節都能幫助用戶把數據利益最大化,通過提供完整全面的數據解決方案,幫助客戶更安全、更高效的去挖掘數據價值。
也就是說,亞馬遜云科技提供了一個端到端的數據戰略,幫助客戶從數據的攝入、存儲、查詢、分析,到可視化展現以及人工智能,在各個方面通過安全、合規的方式幫助客戶實現數據的共享和輸出。
在陳曉建看來,構建云原生的數據戰略有三個關鍵因素:建立面向未來的云原生數據基礎設施;實現高效、跨組織的數據一體化融合以及借助教育和工具,使數據普惠化。
其中,建立面向未來的云原生數據基礎設施時需要注意的是:首先,面對不同類型的工作負載,提供合適的工具。從亞馬遜云科技的統計數據看,前1,000 名亞馬遜云科技客戶中有94%使用超過我們的10項數據庫和分析服務。
“亞馬遜云科技一直致力于來構建專門構建的云原生服務,為了特定場景而定制化開發最合理的工具。”陳曉建透露,亞馬遜云科技擁有完整的關系型數據庫和專用數據庫,為客戶的分析負載提供最全面的服務:包括EMR的大數據分析、Amazon OpenSearch的交互式的日志分析等,同時提供了大量人工智能的工具支持深度學習框架可以更輕松建立AI/ML的Amazon SageMaker服務,具備內置機器學習功能的AI服務,例如Amazon Transcribe和Amazon Polly。
此外,亞馬遜云科技不僅宣布推出適用于Apache Spark 的 Amazon Athena,讓用戶使用Athena來調用Spark,在短短一秒內即可開始在Apache Spark運行交互式數據分析任務,用戶無需準備基礎架構配置。同時,客戶還只需為使用的資源付費。
還宣布了針對 Apache Spark 的新 Amazon Redshift 集成預覽,通過這一功能,客戶可以通過Amazon EMR 或者Amazon Glue這樣的Spark引擎來消費Amazon Redshift中的數據。與現有的 Amazon Redshift-Spark連接器相比,這種集成使Spark引擎對Amazon Redshift的數據抽取速度提高了10倍。

除了發布新特性,亞馬遜云科技也在持續優化性能,現在,客戶在 Amazon EMR、Amazon Glue、Amazon SageMaker、Amazon Redshift和Amazon Athena 上運行經過優化的Spark runtime,可以獲得比開源版本 Spark 快 3 倍的性能。
其次,為保持大規模運行下的的高性能,Amazon Aurora的自動擴展功能可以將每個數據庫實例可自動擴展到最大128TB,而只有其他傳統企業級數據庫大概1/10的 使用成本;DynamoDB在2022年的Amazon Prime Day期間每秒處理超過一億次的請求。
在這些強大能力的基礎上,本次re:Invent再次發布了多項數據庫新特性,包括:Amazon DocumentDB Elastic Clusters,將Amazon DocumentDB集群彈性擴展到支撐百萬級讀寫每秒和PB級存儲容量的規模;Amazon RDS寫優化,將數據寫入吞吐量最高提升兩倍;Amazon RDS讀優化,將數據查詢性能最高提升50%。
再次,以智能化手段和工具為客戶降低運營復雜性,有效提高工作效率,亞馬遜云科技通過自動化和機器學習的內置智能來減少手動任務。例如,DevOps Guru 使用 ML 在數據庫問題影響客戶之前自動檢測和修復它們;Amazon S3 智能分層通過自動將不常訪問的數據放入成本較低的存儲類來減少日常維護,迄今為止為用戶節省了7.5 億美元。Amazon SageMaker降低了機器學習的的使用門檻。
新發布的Amazon SageMaker 現在支持新的地理空間機器學習功能,客戶只需單擊幾下即可從Amazon SageMaker訪問不同的數據源上的地理 空間數據。
最后,數據庫升級往往是數據安全的隱患,每一次數據庫升級涉及到許多操作,而且會涉及不可避免的數據庫停機時間。為提供最高級別的可靠性和安全性,保護數據存儲,亞馬遜云科技新發布了Amazon RDS藍/綠部署,客戶開辟一個測試環境進行補丁或者新配置的測試,當測試成功之后快速將測試環境切換為生產環境。 這樣的功能極大地節省了數據庫團隊運維中的操作壓力,同時提升運維效率,保證數據零損失。
實現高效、跨組織的數據一體融合比較關鍵的地方在于連接數據的能力與云原生數據基礎設施同樣重要。從自動化數據路徑到數據治理工具。這種一體化融合不僅是數據,還包括組織部門、團隊和個人。
“ETL是挖掘數據價值,進行機器學習建模的必要前置步驟。在現實情況中,絕大多數數據都是多源異構的,ETL將把分散、零 亂、標準不統一的數據整合到一起,通過抽取、清洗轉換之后加載到分析服務。”陳曉建表示,作為自化數據路徑之一,亞馬遜云科技提出“零ETL”的未來,客戶無需再次手動構建數據管道。
為此,亞馬遜云科技在本次大會上發布了多項全新的集成功能,幫助客戶實現“Zero-ETL”(零ETL)。例如,Amazon Redshift流式注入功能正式可用,日志數據無需從MSK進入Amazon S3再通過代碼拷貝進入Amazon Redshift做分析;Amazon MSK和Amazon Redshift可以直接打通,同時把數據同步從分鐘級別提高到了秒級,極大地提升了實時性。
同時,針對客戶越來越依賴于外部第三方各種各樣的數據源,亞馬遜云科技新增22個新的Amazon AppFlow 連接器,現已總計支持 50 多個連接器。客戶不必編寫任何代碼,就可以通過Amazon AppFlow在數分鐘內輕松設置數據流,抽取像Facebook Ads和Google Ads等新的營銷數據;MailChimp、SendGrid等客戶服務等營銷數據,以及Microsoft Teams、Zoom Meetings和 GitHub 等業務運營解決方案等。抽取完成之后,Amazon Appflow會把數據連接到S3數據湖,Amazon Redshift等數據分析服務 中進行后續分析。
當然,強大的數據存儲、分析和處理能力,也需要完整的數據治理和規范化管理能力的加持
Amazon DataZone是一項數據管理服務,助力客戶更快、更輕松地對存儲在亞馬遜云科技、客戶本地和第三方來源的數據進行編目、發現、共享和治理,同時提供更精細的控制工具,管理和治理數據訪問權限,確保數據安全。
機器學習治理工具Amazon SageMaker ML Governance由3個新工具組成:Role Manager,幫助用戶定義諸如算法工程師、運維工程師的權限;Model Cards,發現并自動填寫訓練數據集或者模型構建環境,還可以輸入模型的預期用途、風險評級和評估結果等等信息供使用者參考;Model Dashboard,通過統一的儀表板監控所有部署的模型。
借助教育和工具實現數據普惠化,亞馬遜云科技新發布了Amazon QuickSight Q,不僅僅預備了預測的能力,而且還能揭示數據背后的原因。
推出低代碼機器學習Amazon SageMaker Data Wrangler、Amazon SageMaker Canvas、Amazon SageMaker AutoPilot、Amazon SageMaker JumpStart,它們可以幫助使用者從數據準備到模型構建和開發,到訓練和調整直到部署和運營管理,全生命周期的每個階段輕松上手,快速進行業務需要的機器學習。
對未知的海底世界進行探索需要安全做支撐,在數字化轉型中也一樣。只有有了強有力的安全做保證,企業才能在業務拓展中走得更好,更遠。
亞馬遜云科技幫助客戶處理海量的請求,同時追蹤和監測千萬億量級的事件(15個0),需要從中找出可能的威脅事件并解決他,并快速讓全球所有的客戶受到同等級別的保護。
“安全是亞馬遜云科技的Job Zero,從未停止腳步,在云自身的安全和云中的安全上持續創新。”陳曉建表示,亞馬遜云科技樹立了安全的四大目標:幫助用戶快速提升安全水平、降低安全成本、減少安全事件的處理時間以及提高企業安全的效率,幫助企業提高整體安全態勢。
為此,亞馬遜云科技新發布Amazon Verified Permissions,通過將授權與業務邏輯分離,加速應用程序開發,通過權限集中和策略生命周期管理,節省時間和資源,使用自動化分析來確認權限是否按預期執行,從而大規模簡化合規性審計工作,通過動態、實時授權決策構建支持零信任架構的應用程序。
針對數據湖安全,亞馬遜云科技發布Amazon Security Lake專門構建的安全數據湖,客戶只需幾次單擊就可以創建,實現對數據的聚合、規范和存儲,更快地響應安全事件,同時支持不同的分析工具。
數據的增長會驅動用戶在安全上的持續投入。亞馬遜將持續在安全上投入,通過更好的配置、更好的工具、更智能的分析、以及更好的監控與警告機制幫助用戶在云中提高安全態勢。
在底層架構服務方面,本次2022 re:Invent更新包括三個方面:極致性能的自研芯片戰略,包括四代虛擬化定制芯片 Nitro;三代基于ARM架構的通用處理器芯片Graviton;兩款用于機器學習的訓練和推理的芯片、極速構建的云原生應用以及面向極限未來的HPC需求。
值得一提的是,Amazon Nitro 系統的研發可以追溯到2012年,在過去10年間共發布了4代Nitro芯片。Nitro最大的創新點在于可將架構演進與技術復雜性進行了解耦。類似于云原生架構的思想,服務原子化,封裝功能到模塊內部,接口標準化,從而大大降低了系統的復雜性,并且提升了系統的可擴展性。
Nitro V5的發布,讓晶體管數量大約是上一代Nitro芯片的兩倍。Nitro V5 每秒的數據包能力提高了60%,延遲減少30%,每瓦特性能提升40%。
Graviton3E 處理器的發布,專門為浮點和向量指令運算而優化,這在高性能計算工作負載里非常重要;相比于 Graviton3 實例,Graviton3E在 HPL(線性代數的測量工具)上性能提升35%,在 GROMACS(分子運動)上性能提升 12%,在金融期權定價的工作負載上性能提升 30% 。
機器學習訓練和推理芯片方面,新發布了Amazon EC2 Trn1n,一款基于Trainium的網絡優化型訓練實例。該實例將網絡帶寬進一步增加一倍,每個Trn1n實例支持1.6Tbps EFA 網絡帶寬,強大的網絡吞吐能力也使亞馬遜云科技能夠將超過1萬個Traniumn芯片構建在一個超大規模集群里,實現對超大模型的并行訓練。
“我們一直在探討,亞馬遜云科技應該如何通過不斷地創新,將更多更好的云服務為客戶創造價值——從大量復雜的數據中獲得洞察,充滿信心地探索未知領域,有足夠的安全感承受外部壓力,在最極端的環境下能夠有信心應對挑戰,以及擁有無限可能的想象力。我想云的出現,恰恰為實現這一切提供了堅實有力的基礎。”陳曉建表示,亞馬遜云科技在每年的re:Invent全球大會上都會發布許多重磅的新服務、功能和應用,來支持遍及全球各地、來自千行百業的客戶進行不斷的創新和重塑。面臨全球經濟的不確定性,各種規模的客戶都希望能進一步削減成本、增強業務的靈活性并加速創新。亞馬遜云科技希望能通過技術的不斷創新,讓全球包括中國的客戶能凌云馭勢、重塑未來。