在數(shù)字化浪潮席卷全球的今天,生成式AI以其驚人的創(chuàng)造力和無限的可能性,成為科技創(chuàng)新的焦點。然而,盡管其潛力巨大,企業(yè)在將這一技術(shù)應用于實際業(yè)務中時仍面臨著不小的挑戰(zhàn)。不僅需要對底層技術(shù)有深刻的理解,更需要對業(yè)務邏輯和用戶需求有精準的把握。換句話說,企業(yè)需要的是懂業(yè)務、懂用戶的生成式AI應用,而打造這樣的應用需要從數(shù)據(jù)做起。
企業(yè)在構(gòu)建數(shù)據(jù)基座以支持生成式AI應用時,需要具備三大核心能力:高效數(shù)據(jù)處理、數(shù)據(jù)模型快速結(jié)合,以及新數(shù)據(jù)處理能力。
具體而言,在生成式AI應用中,基礎(chǔ)模型的微調(diào)和預訓練需處理大量多樣化數(shù)據(jù),這對數(shù)據(jù)的存儲、清洗和治理提出了更高要求。Amazon S3以其擴展性、安全性和成本效益滿足了存儲需求,而Amazon FSx for Lustre的高速性能加快了模型訓練。數(shù)據(jù)清洗方面,Amazon EMR Serverless和Amazon Glue利用無服務器架構(gòu)簡化了流程,提升了效率。

構(gòu)建生成式AI應用時,企業(yè)必須能夠有效結(jié)合現(xiàn)有數(shù)據(jù)與模型以創(chuàng)造獨特價值。盡管基礎(chǔ)模型可能缺乏特定行業(yè)的專業(yè)知識和時效性,并存在生成錯誤信息和隱私合規(guī)的風險,但通過復雜的提示工程,可以顯著提升回答質(zhì)量。這包括整合模型介紹、用戶背景和上下文信息。關(guān)鍵技術(shù)之一是檢索增強生成(RAG),它通過向量嵌入將數(shù)據(jù)源轉(zhuǎn)換為數(shù)值向量,將復雜的內(nèi)容關(guān)聯(lián)問題轉(zhuǎn)化為簡單的距離計算。向量存儲作為RAG的核心組件,使得數(shù)據(jù)庫成為實施該技術(shù)的理想選擇。
亞馬遜云科技通過在多種數(shù)據(jù)存儲解決方案中集成向量搜索功能,增強了構(gòu)建生成式AI應用的靈活性。特別是Amazon Neptune圖數(shù)據(jù)庫,結(jié)合其分析數(shù)據(jù)庫引擎,極大提升了圖數(shù)據(jù)分析的速度,而圖和向量數(shù)據(jù)的結(jié)合存儲進一步加快了搜索效率,為企業(yè)提供了強大的數(shù)據(jù)處理和AI應用構(gòu)建能力。
最后,企業(yè)在構(gòu)建生成式AI應用時,必須具備有效處理新數(shù)據(jù)的能力。頻繁調(diào)用基礎(chǔ)模型會導致成本上升和響應延遲,而通過緩存新生成的問答數(shù)據(jù),企業(yè)可以在面對重復問題時避免調(diào)用模型,直接提供答案,從而減少成本并提高效率。Amazon Memory DB作為一個高速緩存和向量搜索支持的內(nèi)存數(shù)據(jù)庫,能夠以極快的響應時間和高召回率,處理大量的向量查詢,非常適合實時應用場景。
在談及這些時,亞馬遜云科技大中華區(qū)產(chǎn)品部總經(jīng)理陳曉建表示:“亞馬遜云科技的三大核心能力從基礎(chǔ)模型訓練到生成式AI應用構(gòu)建,都能為企業(yè)提供全方位支持。我們致力于幫助企業(yè)打造強健的數(shù)據(jù)基座,將數(shù)據(jù)的獨特價值賦予基礎(chǔ)模型和生成式AI應用,從而加速企業(yè)業(yè)務增長。”
未來,亞馬遜云科技將繼續(xù)支持企業(yè)在AI時代持續(xù)創(chuàng)新,幫助企業(yè)利用AI實現(xiàn)業(yè)務增長和突破。