5月14日,OpenAI推出的新一代多模態(tài)通用大模型GPT-4o引起巨大反響。多數(shù)媒體贊賞有加,如騰訊新聞稱“GPT-4o的發(fā)布,使得ChatGPT進(jìn)入實(shí)時(shí)互動(dòng)紀(jì)元”。也有一些唱衰聲音,如馬斯克等AI從業(yè)者認(rèn)為其沒有實(shí)質(zhì)性飛躍。
通過研析發(fā)布會(huì)演示原貌、綜合權(quán)威媒體解讀、定向請(qǐng)教AI專家學(xué)者、搜集用戶體驗(yàn)效果,個(gè)人研判,OpenAI新模型GPT-4o呈現(xiàn)“三優(yōu)三劣”,即技術(shù)新突破、用戶體驗(yàn)新突破、商業(yè)邏輯新突破;行業(yè)領(lǐng)先不明顯、智能水平仍有薄弱之處、可能面臨用戶增長(zhǎng)危機(jī)。
GPT-4o發(fā)布體現(xiàn)的深層趨勢(shì)是人工智能頭部企業(yè)正在加速產(chǎn)品商業(yè)化進(jìn)程,“AI+”可能加快在部分產(chǎn)業(yè)率先落地、加快替代一部分工作崗位。我國(guó)企業(yè)特別是國(guó)有企業(yè)要保持定力、把握趨勢(shì),加快擴(kuò)大場(chǎng)景開放,發(fā)力“軟硬一體”,用好全球資源,在開放合作中持續(xù)追趕。
OpenAI新模型GPT-4o呈現(xiàn)“三優(yōu)三劣”
取得三大新突破
一是技術(shù)新突破。GPT-4o摒棄傳統(tǒng)ChatGPT語音模式的三個(gè)獨(dú)立模型結(jié)構(gòu),采用了單一神經(jīng)網(wǎng)絡(luò)處理所有輸入和輸出,消除了模型間信息傳遞的延遲;通過多模態(tài)數(shù)據(jù)端到端訓(xùn)練,支持文本、音頻、圖像任意組合的實(shí)時(shí)輸入輸出。二是用戶體驗(yàn)新突破。GPT-4o集成文字、語音、圖片、視頻且可用各種方式與人互動(dòng),響應(yīng)速度最低達(dá)到232毫秒,接近人類自然對(duì)話節(jié)奏并可被隨時(shí)打斷,用戶體驗(yàn)十分友好,人機(jī)協(xié)同前進(jìn)了一大步。三是商業(yè)邏輯新突破。與GPT-4 Turbo相比,GPT-4o速度提高2倍、價(jià)格降低一半、速率限制提高5倍,更加適合嵌入手機(jī)和電腦等消費(fèi)終端。GPT-4o采用對(duì)所有用戶免費(fèi)開放、分級(jí)定價(jià)的策略,一方面,不注冊(cè)可免費(fèi)使用,容易獲取更多用戶、生產(chǎn)更多數(shù)據(jù),從而擴(kuò)大OpenAI自身數(shù)據(jù)訓(xùn)練范圍,進(jìn)一步提升模型精準(zhǔn)度;另一方面,分級(jí)定價(jià)、免費(fèi)版能力降級(jí),形成不同的細(xì)分收費(fèi)賽道,免費(fèi)用戶有積極性升級(jí)為付費(fèi)用戶。
仍然存在三大不足
一是行業(yè)領(lǐng)先不明顯。發(fā)布會(huì)展示的跑分圖表顯示,GPT-4o評(píng)測(cè)得分1310分僅比第二名領(lǐng)先4.5%,遠(yuǎn)沒有看起來的“遙遙領(lǐng)先”。GPT-4o文本能力提升也有限,顯然達(dá)不到CEO阿爾特曼設(shè)想和公眾期待的GPT-5水平。
二是智能水平仍有薄弱之處。發(fā)布會(huì)上演示了GPT-4o的解方程能力,但展示“3x+1=4”的解題步驟實(shí)質(zhì)上是一個(gè)帶有交流感的對(duì)話過程,暴露出其在數(shù)學(xué)能力上依然表現(xiàn)不佳。
三是可能面臨用戶增長(zhǎng)危機(jī)。一個(gè)月前,OpenAI宣布,不注冊(cè)登錄的用戶也可使用GPT-3.5;一周后,又給予免費(fèi)用戶一定的GPT-4使用額度;之后,再次把一直僅由付費(fèi)用戶使用的GPT商店向免費(fèi)用戶開放;此次GPT-4o也向免費(fèi)用戶開放。從運(yùn)營(yíng)角度,集中在1個(gè)月內(nèi)頻繁推出免費(fèi)開放措施,很可能是因?yàn)镺penAI正在面臨投資人對(duì)用戶增長(zhǎng)數(shù)據(jù)的質(zhì)疑,需要不斷地嘗試吸引新用戶。
人工智能頭部企業(yè)正在加速產(chǎn)品商業(yè)化進(jìn)程,“AI+”很可能在部分產(chǎn)業(yè)率先落地
多模態(tài)大模型作為產(chǎn)品落地應(yīng)用
前有Sora,今有GPT-4o,能把一堆顯而易見的技術(shù)打造成一個(gè)亮眼的產(chǎn)品,OpenAI的產(chǎn)品能力被顯著低估。該產(chǎn)品背后的技術(shù)如DiT、ViT、VAE或端到端的文本、視覺、音頻模型,在業(yè)內(nèi)并不罕見,但僅有OpenAI做出了落地應(yīng)用的產(chǎn)品。相比之下,谷歌5月15日發(fā)布的“AI全家桶”多數(shù)內(nèi)容仍是“期貨”狀態(tài)。此次GPT-4o重點(diǎn)解決用戶的易用性問題,體現(xiàn)的是顯著的產(chǎn)品思維和產(chǎn)業(yè)化、商業(yè)化探索,使得普通人可以在更多日常場(chǎng)景下使用GPT-4o。
人工智能將加速與智能終端融合
GPT-4o語音模式平均時(shí)延320毫秒,較GPT-3.5(2.8秒)及GPT-4(5.4秒)的時(shí)延有大幅縮短,為大模型在手機(jī)、耳機(jī)等移動(dòng)設(shè)備上的應(yīng)用落地鋪平了道路。近期GPT-4o可能會(huì)與手機(jī)助手、汽車助手、機(jī)器人、AR眼鏡等其他智能終端融為一體,展現(xiàn)出豐富的Agent服務(wù)入口與交互能力。在OpenAI發(fā)布GPT-4o的24個(gè)小時(shí)后,谷歌召開了“I/O大會(huì)”,發(fā)布了類似GPT-4o的個(gè)人數(shù)字助理Pixie。北京時(shí)間5月22日凌晨召開的微軟Build 2024開發(fā)者大會(huì)上,微軟開發(fā)的AI小語言模型(SLMs)Phi-3 系列也發(fā)布了一款新的多模態(tài)模型Phi-3-vision,并已可在Azure中使用。
人工智能將加速替代部分崗位
5月14日,國(guó)際貨幣基金組織總裁表示,未來兩年,對(duì)于發(fā)達(dá)經(jīng)濟(jì)體而言,人工智能可能會(huì)影響60%的工作崗位;而對(duì)于全球所有國(guó)家而言,人工智能可能將沖擊40%的工作崗位。從發(fā)布會(huì)上公布的5個(gè)應(yīng)用場(chǎng)景看,GPT-4o短期可能替代的崗位,主要集中在數(shù)據(jù)處理和語言交互方面的客服、翻譯、教育、內(nèi)容審核和數(shù)據(jù)錄入等工作。比如老師教學(xué)生的過程,需要在黑板上寫字、用語言與學(xué)生交流以及雙方對(duì)著板書內(nèi)容不斷討論,當(dāng)前GPT-4o已經(jīng)能夠把這些文字、音頻、視頻、場(chǎng)景互動(dòng)統(tǒng)一綜合起來。
相關(guān)建議
值得注意的是,OpenAI本次沒有發(fā)布任何技術(shù)報(bào)告、論文,這意味著西方對(duì)我國(guó)閉源大模型的禁令正在到來。我們必須保持定力、把握趨勢(shì)、優(yōu)化生態(tài),集合一切可調(diào)動(dòng)力量,創(chuàng)造更有利條件,在持續(xù)發(fā)展中奮力趕超。
擴(kuò)大場(chǎng)景開放,以供需對(duì)接吸引更多用戶和促進(jìn)生產(chǎn)應(yīng)用
一是重新定位、重塑流程。我國(guó)企業(yè)特別是大型企業(yè)經(jīng)營(yíng)者、創(chuàng)業(yè)者、技術(shù)供給者應(yīng)立刻行動(dòng)起來,從GPT-4o的能力出發(fā),重新思考自身工作任務(wù)、工作流程和崗位設(shè)計(jì)等,在各環(huán)節(jié)、各場(chǎng)景主動(dòng)應(yīng)用人工智能技術(shù),促進(jìn)工作節(jié)能增效提質(zhì)。二是分級(jí)分類、定期更新場(chǎng)景需求。定期向產(chǎn)學(xué)研用各方主體征集場(chǎng)景需求,從需求重要性、產(chǎn)品供給能力、用戶易用性等多維度對(duì)場(chǎng)景需求分級(jí)分類,從易到難、選好切口、依次推廣。三是雙向?qū)印⒊掷m(xù)發(fā)力。舉辦場(chǎng)景沙龍、對(duì)接會(huì)、場(chǎng)景創(chuàng)新大賽等主題活動(dòng),實(shí)現(xiàn)應(yīng)用場(chǎng)景、新產(chǎn)品新技術(shù)的雙向促進(jìn)。分行業(yè)謀劃若干重點(diǎn)場(chǎng)景,通過“揭榜掛帥”“聯(lián)合體”“委托攻關(guān)”“場(chǎng)景競(jìng)賽”等方式推進(jìn)新產(chǎn)品新技術(shù)測(cè)試驗(yàn)證、首試首用、示范應(yīng)用。四是降低成本、算力支持。建設(shè)大型、普惠型算力中心,加快共建共享高質(zhì)量公共訓(xùn)練數(shù)據(jù)集,降低供需兩側(cè)應(yīng)用成本。
發(fā)力“軟硬一體”,以協(xié)同提升用戶體驗(yàn)效率和優(yōu)化產(chǎn)業(yè)生態(tài)
一是完善國(guó)產(chǎn)“芯片-框架”軟硬件協(xié)同生態(tài)體系。AI科技領(lǐng)軍企業(yè)、專精特新企業(yè)、高校可聯(lián)合開展“芯片-框架”軟硬件協(xié)同等關(guān)鍵技術(shù)創(chuàng)新。運(yùn)營(yíng)商等企業(yè)應(yīng)加快布局AI硬件終端,聚合軟硬件一體化優(yōu)勢(shì)。二是推動(dòng)智能硬件終端煥新。國(guó)產(chǎn)手機(jī)、PC等終端操作系統(tǒng)應(yīng)快速整合大模型等人工智能新技術(shù)。可探索實(shí)施AI手機(jī)、AI PC、新能源智能汽車、智能家電等消費(fèi)終端以舊換新。
用好全球資源,以產(chǎn)業(yè)合作提升人才密度和夯實(shí)底座
一是堅(jiān)定不移深化國(guó)際交流合作。用好現(xiàn)有合作機(jī)制,創(chuàng)造更多交流機(jī)會(huì),特別是加強(qiáng)國(guó)際人才、產(chǎn)業(yè)、標(biāo)準(zhǔn)等合作。國(guó)內(nèi)有條件的企業(yè)應(yīng)繼續(xù)大力引進(jìn)海外頂尖人才,有海外業(yè)務(wù)布局的企業(yè)應(yīng)在海外設(shè)立更多研發(fā)機(jī)構(gòu),充分用好全球智力和創(chuàng)新資源。二是加快人才培養(yǎng)。可考慮以“核心+基地”的組織形式,建立AI頭部企業(yè)、高校和應(yīng)用端實(shí)體企業(yè)共同培養(yǎng)AI融合人才的機(jī)制。三是夯實(shí)數(shù)據(jù)基礎(chǔ)。建立標(biāo)準(zhǔn)化數(shù)據(jù)要素管理平臺(tái),實(shí)現(xiàn)高效統(tǒng)一預(yù)處理、標(biāo)注、使用。借鑒國(guó)外發(fā)展經(jīng)驗(yàn),共建共享針對(duì)典型場(chǎng)景的高質(zhì)量公共訓(xùn)練數(shù)據(jù)集,形成覆蓋數(shù)據(jù)要求流動(dòng)和利用“收、存、治、用、易”全生命周期閉環(huán)。四是探索換道布局。存儲(chǔ)芯片企業(yè)等應(yīng)加大協(xié)同合作力度、調(diào)動(dòng)全球頂尖創(chuàng)新資源,探索在“存算一體”新型人工智能芯片架構(gòu)等領(lǐng)域率先實(shí)現(xiàn)實(shí)質(zhì)性突破。
(作者單位為國(guó)務(wù)院國(guó)資委規(guī)劃局,文章僅代表個(gè)人觀點(diǎn))