大模型的秋天來(lái)了嗎？

2024-10-17 00:00:00王杰夫

第一財(cái)經(jīng) 2024年10期

在冬季到來(lái)前，大模型領(lǐng)域的創(chuàng)業(yè)者們終于等來(lái)了OpenAI的新模型。

9月13日，OpenAI發(fā)布新一代語(yǔ)言模型o1。這款模型不屬于GPT系列，而是采用了全新的命名方式，官方對(duì)此的解釋是：“對(duì)于復(fù)雜的推理任務(wù)來(lái)說(shuō)，這是一次重大進(jìn)步，代表了AI能力的一個(gè)新水平。因此，我們將計(jì)數(shù)器重置為1，并將這個(gè)模型系列命名為OpenAI o1。”

為了展現(xiàn)o1模型的推理能力，OpenAI列出了它在AIME、Codeforces、GPQA這3個(gè)美國(guó)著名競(jìng)賽（涵蓋數(shù)學(xué)、計(jì)算機(jī)、物理、化學(xué)、生物等）中的考試成績(jī)，正確率基本都在80%以上，不僅遠(yuǎn)超GPT-4o模型的表現(xiàn)（GPT-4o在這些考試中的準(zhǔn)確率最低只有11%，最高也不過(guò)56%），甚至也超過(guò)人類博士的平均水平。不過(guò)，知名數(shù)學(xué)家、同時(shí)也是ChatGPT資深使用者的陶哲軒在第一時(shí)間試用o1后表示，這是一個(gè)“水平一般但不算太無(wú)能的研究生”。

推理能力提升的關(guān)鍵是讓模型像人一樣“慢思考”。這個(gè)詞匯來(lái)源于2002年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼的暢銷書(shū)《思考，快與慢》，他將人類大腦區(qū)分為兩種工作狀態(tài)，一種是直覺(jué)性和聯(lián)想性較強(qiáng)的“快思考”，另一種就是嚴(yán)謹(jǐn)性和邏輯性更強(qiáng)的“慢思考”。

為了實(shí)現(xiàn)這一點(diǎn)，OpenAI在o1的訓(xùn)練中引入了一種名為“思維鏈”（Chain of Thought，CoT）的方案，即把一個(gè)復(fù)雜的問(wèn)題拆解為若干子問(wèn)題并逐步推理，之后再利用強(qiáng)化學(xué)習(xí)（RL）遴選出最優(yōu)的“思維鏈”。最終OpenAI成功在基座模型能力并沒(méi)有突破性進(jìn)展的背景下，使o1模型推理方面的能力提升了一大截。代價(jià)也是顯而易見(jiàn)的，在回答相同問(wèn)題時(shí)，o1模型要比GPT-4占用更多資源，反映在用戶側(cè)就是模型更貴且回答速度更慢。

事實(shí)上，o1模型可以看作是基座模型GPT-4的特化版本，就像GPT-4o那樣，只不過(guò)GPT-4o特化的方向是多模態(tài)，o1特化的方向則是復(fù)雜推理。有研究發(fā)現(xiàn)，GPT-4o在推理方面弱于GPT-4，但在文本表達(dá)和情感擬人方面能力更強(qiáng)；o1雖然推理能力很強(qiáng)，在文本能力上卻弱于GPT-4。它們就像是兩個(gè)偏科生，只不過(guò)一個(gè)偏文科，一個(gè)偏理科。想要提高這兩個(gè)偏科生成績(jī)的下限，最根本的方法仍然是提升基座模型的能力，這也是為何從今年年初起關(guān)于GPT-5何時(shí)到來(lái)的猜測(cè)就從未停歇。

公允地說(shuō)，OpenAI更新模型的頻率并不慢。從2018年發(fā)布GPT-1至今，這家創(chuàng)業(yè)公司已經(jīng)發(fā)布了7款語(yǔ)言模型。問(wèn)題在于，回看這撥AI浪潮發(fā)生以來(lái)的時(shí)間線會(huì)發(fā)現(xiàn)，基座模型的能力在此期間幾乎沒(méi)有提升——GPT-4早在2023年3月就已經(jīng)正式發(fā)布，9月推出的GPT-4V是在兌現(xiàn)3月的承諾，11月的GPT Store與GPTs是產(chǎn)品層面的改進(jìn)，今年發(fā)布的兩款新模型目前看來(lái)也只是GPT-4的特化版。

與停滯不前的模型能力相對(duì)應(yīng)的是OpenAI快速膨脹的融資金額與估值，同一時(shí)間段內(nèi)，這家非營(yíng)利實(shí)體的估值從約280億美元上升到860億美元，并且有消息稱，它最近正在以1500億美元估值尋求新一輪融資，意向投資者除了老面孔微軟與Thrive Capital，蘋(píng)果和英偉達(dá)也表露出興趣。

錢(qián)或許燒不出下一代大模型，但沒(méi)有錢(qián)是萬(wàn)萬(wàn)不能的。除了OpenAI，其余大模型創(chuàng)業(yè)公司與風(fēng)險(xiǎn)投資的蜜月期已經(jīng)倉(cāng)促結(jié)束。雇傭收購(gòu)（Acquihire）成為這半年來(lái)硅谷AI創(chuàng)投圈的熱門(mén)詞匯，案例包括微軟對(duì)Inflection、亞馬遜對(duì)Adept AI和Covariant，以及Google對(duì)Character AI——大公司們不再收購(gòu)公司，只將創(chuàng)業(yè)公司的核心技術(shù)團(tuán)隊(duì)挖走。

從GPT-1到o1，OpenAI的大語(yǔ)言模型發(fā)展歷程

這背后的邏輯并不復(fù)雜，現(xiàn)階段的模型的能力還不足以培育出超級(jí)應(yīng)用，這些模型創(chuàng)業(yè)公司目前構(gòu)建出來(lái)的產(chǎn)品并不具有長(zhǎng)期價(jià)值。對(duì)于大公司來(lái)說(shuō)，積累人才以保持基座模型的領(lǐng)先更為重要；對(duì)于創(chuàng)業(yè)公司來(lái)說(shuō)，更關(guān)鍵的是如何活下去。就在9月初，累積融資約5億美元、號(hào)稱歐洲OpenAI的德國(guó)AI創(chuàng)業(yè)公司Aleph Alpha宣告退出基礎(chǔ)模型競(jìng)爭(zhēng)。累計(jì)融資額都在10億美元左右的中國(guó)大模型創(chuàng)業(yè)公司近期也都傳出了戰(zhàn)略收縮的消息。

基礎(chǔ)模型方面的能力瓶頸除了讓大模型公司賺不到足夠的錢(qián)養(yǎng)活自己，也使得AI硬件的繁榮仍然處于空談。

9月10日，蘋(píng)果與華為在同一天推出了各自最新的旗艦手機(jī)。其中蘋(píng)果i Phone最重要的賣點(diǎn)是由大模型支持的AppleIntelligence（蘋(píng)果智能）。相比幾個(gè)月前WWDC上側(cè)重底層技術(shù)的演示，這一次蘋(píng)果展示了更多的實(shí)際用例，比如AppleIntelligence可以智能地總結(jié)郵件中的重要信息并顯示在摘要中，或者在聊天中實(shí)時(shí)生成適應(yīng)當(dāng)下語(yǔ)境的emoji。

蘋(píng)果并非這撥AI浪潮中第一個(gè)將大模型植入手機(jī)的公司，但從目前的用戶體驗(yàn)來(lái)看，蘋(píng)果垂直整合軟硬件并交付的能力還是一流的。在大部分手機(jī)廠商只是生硬地把語(yǔ)言模型接入手機(jī)助手時(shí)，蘋(píng)果將模型埋到更底層的位置，通過(guò)閱讀用戶屏幕，Apple Intelligence能夠理解用戶使用手機(jī)時(shí)當(dāng)下的復(fù)雜語(yǔ)境并提供個(gè)性化服務(wù)。

不過(guò)即使蘋(píng)果已經(jīng)將AppleIntelligence打磨到這個(gè)地步，對(duì)于大部分用戶來(lái)說(shuō)，硬件上的改變才是更加重要的。除了增加了一個(gè)拍照按鈕，iPhone 16在外觀上與上一代手機(jī)幾乎一樣，導(dǎo)致其產(chǎn)品遭受了可能是有史以來(lái)最為嚴(yán)厲的“缺乏創(chuàng)新”的批評(píng)。知名蘋(píng)果分析師郭明錤稱，新手機(jī)發(fā)布后的首周末銷量相較iPhone 15系列同比減少12.7%。

作為對(duì)比，華為同日發(fā)布的三折疊屏手機(jī)Mate XT吸引了大量關(guān)注，即使華為將起售價(jià)定在19999元，依然一機(jī)難求。這也從側(cè)面反映出，用戶對(duì)于新鮮硬件形態(tài)的興趣遠(yuǎn)遠(yuǎn)超過(guò)對(duì)AI功能的興趣，這或許也是大公司們執(zhí)著于創(chuàng)造AI硬件的緣故。有消息稱，字節(jié)跳動(dòng)正在加速自研AI硬件，第一款產(chǎn)品將是搭載了豆包大模型的智能耳機(jī)。

第一財(cái)經(jīng)2024年10期

第一財(cái)經(jīng)的其它文章: 拉斯·特維德：意志力是人類最被高估的美德; 多事之秋; 以色列難以招架的指控; 過(guò)度旅游誰(shuí)之過(guò)？; 2024消費(fèi)故事：從“愛(ài)馬仕”到“薩莉亞”; 大學(xué)生“沖浪”調(diào)研報(bào)告：超50%愿意為App“氪金”