羅云鵬

如何在算力緊缺的背景下提升大模型訓練和推理的效率,并降低成本?這已成為一眾大模型企業(yè)不得不面對的難題之一。
日前,騰訊披露,騰訊混元大模型背后的自研機器學習框架Angel再次升級。“自研機器學習框架升級后,騰訊大模型訓練效率可提升至主流開源框架的2.6倍,用該框架訓練千億級大模型可節(jié)省50%算力成本,大模型推理速度提高了1.3倍。”11月30日,騰訊機器學習平臺部總監(jiān)陶陽宇向科技日報記者表示。
不只是騰訊,在提升大模型訓練效率、加速大模型落地應用方面,一批中國企業(yè)交出了自己的“答卷”。
在大型模型訓練和推理過程中,需要消耗大量算力資源。因此,提高硬件資源利用率,對國產大模型技術的發(fā)展至關重要。
陶陽宇介紹,面向大模型訓練,騰訊自研了機器學習框架Angel。該框架針對預訓練、模型精調和強化學習等全流程進行了加速和優(yōu)化。據悉,它采用FP8混合精度訓練技術,并深度優(yōu)化了4D混合并行訓練策略,還在ZeROCache技術基礎上減少了冗余模型存儲和內存碎片,提升了內存的利用率。同時,該框架還可兼容適配多款國產化硬件。
而據媒體披露,除了提高硬件資源利用率,針對通信策略、AI框架、模型編譯等進行系統(tǒng)級優(yōu)化,亦可大幅節(jié)約訓練調優(yōu)和算力成本。
此外,隨著模型參數的增大,大模型推理的成本也隨之攀升。陶陽宇介紹,騰訊自研的大模型機器學習框架Angel通過擴展并行、向量數據庫、批處理等多種優(yōu)化手段,提高了吞吐能力,達到了更快的推理性能,降低了成本。
不只是騰訊,在第二十屆中國計算機大會上,百度首席技術官王海峰就公開透露,文心大模型4.0從今年3月發(fā)布至今,其訓練算法效率已提升3.6倍;通過百度飛槳與文心大模型的協(xié)同優(yōu)化,文心大模型周均訓練有效率超過98%,推理性能提升50倍。
此外,據公開資料顯示,阿里云通義大模型則聚焦于規(guī)模定理,基于小模型數據分布、規(guī)則和配比,研究大規(guī)模參數規(guī)模下如何提升模型能力,并通過對底層集群的優(yōu)化,將模型訓練效率提升了30%,訓練穩(wěn)定性提升了15%。
不難看出,調整和優(yōu)化模型的訓練和推理方式,其最終目的都指向使模型更好地適應實際應用場景、降低在終端應用中的額外成本。“大模型的應用和研發(fā)同樣重要。”騰訊機器學習平臺專家工程師姚軍說,只有提供方便、強大的接入平臺,才能讓大模型真正走向應用。
百度創(chuàng)始人、董事長兼首席執(zhí)行官李彥宏也曾表示,大模型本身是不直接產生價值的,基于大模型開發(fā)出來的應用才是大模型存在的意義。然而,很多大模型落地的難度很大,因為一個大模型往往會對應著很多不同種類的應用,這需要大量的接口和流量支持。
如何破解這道難題?據悉,基于自研機器學習框架Angel,騰訊打造了大模型接入和應用開發(fā)的一站式平臺,讓針對業(yè)務場景的數據處理、模型微調、評測部署和應用構建等多個環(huán)節(jié),從以往“散裝”的多團隊協(xié)作方式,轉化成流水線平臺上自動化生產方式,讓大模型的“開箱即用”成為可能。“開箱即用”的關鍵在于預訓練基礎模型的泛化能力,高性能框架提供的微調或擴展工程能力,以及應用平臺的靈活構建能力等支撐。據媒體披露,目前騰訊會議、騰訊新聞、騰訊視頻等超過300個騰訊產品及場景均已接入騰訊混元大模型進行內測,數量相比10月份翻了一倍,覆蓋文本總結、摘要、創(chuàng)作、翻譯、代碼等多個場景。比如,騰訊混元大模型就可支持智能化的廣告素材創(chuàng)作,滿足“千人千面”的需求。
《北京市人工智能行業(yè)大模型創(chuàng)新應用白皮書(2023年)》數據顯示,截至2023年10月,我國10億參數規(guī)模以上的大模型廠商及高校院所共計254家,分布于20余個省市/地區(qū)。
“未來大模型產品的發(fā)展趨勢可能是通用大模型與垂直領域細分模型的結合。”中國人民大學數字經濟研究中心主任李三希此前表示,這不僅需要具備堅實的技術基礎,如大規(guī)模、高質量、多樣化的語料庫,創(chuàng)新的大模型算法,自研的機器學習框架和強大的算力基礎設施等,也需要大模型產品具有堅實的基于場景的應用。未來,從實踐中來,到實踐中去的“實用級”大模型將成為趨勢。