馬浩壤
要創建有效的深度學習模型,需要大量的數據對模型進行有效的訓練。然后安裝模型,對模型進行監視以防止出現漂移,并根據需要對其進行重新訓練,如此反復直到達到標。
模型的訓練需要使用非常多的計算資源,如果已經投資了大規模的計算資源,可以在本地完成所有這些工作。但是,你會發現這些計算資源在許多時間處于非使用狀態,如果在云平臺中進行上述活動,則可能更具成本效益。
大多數云提供商投入大量精力來構建機器學習平臺,以支持整個機器學習生命周期。那么,每個端到端機器學習平臺應提供哪些功能呢?
訓練數據模型
準備好大量的訓練數據之后,當然不希望遷移這些數據,因為這個過程通常需要花費非常多時間,意味著在這段時間內什么事也不能做。對于大型數據集,理想的情況是創建一個已經存在數據的模型,從而避免大量數據遷移。
支持ETL或ELT
導出,轉換和加載(ETL)和導出,加載和轉換(ELT)是數據庫領域中的2種常見數據配置技術,機器學習和深度學習非常需要這些工具,尤其是變換部分。
支持在線模型訓練
建立良好的機器學習和深度學習模型需要大規模數據,將這些數據全部下載到本地進行模型訓練,是非常費時的過程。數據規模達到一定規模之后,會發現很難找到本地資源來存儲這些數據,所以支持在線模型訓練成為云平臺必須要具有的功能。
支持scale-up and scale-out訓練
利用云平臺,幫助生成多個大型虛擬機或容器環境,加速在本地進行的訓練活動,這將大大較少訓練時間。
提供優化的AI服務
云平臺為許多應用程序提供了強大且經過優化的AI服務或解決方案,包括語言翻譯、語音到文本、文本到語音、預測和推薦。這些服務已經在企業可用的數據集中進行了培訓和檢查,這些也安裝在具有足夠計算資源的服務端點上,包括加速器,以確認在全球負載下的良好響應時間。