在冬季到來(lái)前,大模型領(lǐng)域的創(chuàng)業(yè)者們終于等來(lái)了OpenAI的新模型。
9月13日,OpenAI發(fā)布新一代語(yǔ)言模型o1。這款模型不屬于GPT系列,而是采用了全新的命名方式,官方對(duì)此的解釋是:“對(duì)于復(fù)雜的推理任務(wù)來(lái)說(shuō),這是一次重大進(jìn)步,代表了AI能力的一個(gè)新水平。因此,我們將計(jì)數(shù)器重置為1,并將這個(gè)模型系列命名為OpenAI o1。”
為了展現(xiàn)o1模型的推理能力,OpenAI列出了它在AIME、Codeforces、GPQA這3個(gè)美國(guó)著名競(jìng)賽(涵蓋數(shù)學(xué)、計(jì)算機(jī)、物理、化學(xué)、生物等)中的考試成績(jī),正確率基本都在80%以上,不僅遠(yuǎn)超GPT-4o模型的表現(xiàn)(GPT-4o在這些考試中的準(zhǔn)確率最低只有11%,最高也不過(guò)56%),甚至也超過(guò)人類博士的平均水平。不過(guò),知名數(shù)學(xué)家、同時(shí)也是ChatGPT資深使用者的陶哲軒在第一時(shí)間試用o1后表示,這是一個(gè)“水平一般但不算太無(wú)能的研究生”。
推理能力提升的關(guān)鍵是讓模型像人一樣“慢思考”。這個(gè)詞匯來(lái)源于2002年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主丹尼爾·卡尼曼的暢銷書(shū)《思考,快與慢》,他將人類大腦區(qū)分為兩種工作狀態(tài),一種是直覺(jué)性和聯(lián)想性較強(qiáng)的“快思考”,另一種就是嚴(yán)謹(jǐn)性和邏輯性更強(qiáng)的“慢思考”。
為了實(shí)現(xiàn)這一點(diǎn),OpenAI在o1的訓(xùn)練中引入了一種名為“思維鏈”(Chain of Thought,CoT)的方案,即把一個(gè)復(fù)雜的問(wèn)題拆解為若干子問(wèn)題并逐步推理,之后再利用強(qiáng)化學(xué)習(xí)(RL)遴選出最優(yōu)的“思維鏈”。最終OpenAI成功在基座模型能力并沒(méi)有突破性進(jìn)展的背景下,使o1模型推理方面的能力提升了一大截。代價(jià)也是顯而易見(jiàn)的,在回答相同問(wèn)題時(shí),o1模型要比GPT-4占用更多資源,反映在用戶側(cè)就是模型更貴且回答速度更慢。
事實(shí)上,o1模型可以看作是基座模型GPT-4的特化版本,就像GPT-4o那樣,只不過(guò)GPT-4o特化的方向是多模態(tài),o1特化的方向則是復(fù)雜推理。有研究發(fā)現(xiàn),GPT-4o在推理方面弱于GPT-4,但在文本表達(dá)和情感擬人方面能力更強(qiáng);o1雖然推理能力很強(qiáng),在文本能力上卻弱于GPT-4。它們就像是兩個(gè)偏科生,只不過(guò)一個(gè)偏文科,一個(gè)偏理科。想要提高這兩個(gè)偏科生成績(jī)的下限,最根本的方法仍然是提升基座模型的能力,這也是為何從今年年初起關(guān)于GPT-5何時(shí)到來(lái)的猜測(cè)就從未停歇。
公允地說(shuō),OpenAI更新模型的頻率并不慢。從2018年發(fā)布GPT-1至今,這家創(chuàng)業(yè)公司已經(jīng)發(fā)布了7款語(yǔ)言模型。問(wèn)題在于,回看這撥AI浪潮發(fā)生以來(lái)的時(shí)間線會(huì)發(fā)現(xiàn),基座模型的能力在此期間幾乎沒(méi)有提升——GPT-4早在2023年3月就已經(jīng)正式發(fā)布,9月推出的GPT-4V是在兌現(xiàn)3月的承諾,11月的GPT Store與GPTs是產(chǎn)品層面的改進(jìn),今年發(fā)布的兩款新模型目前看來(lái)也只是GPT-4的特化版。
與停滯不前的模型能力相對(duì)應(yīng)的是OpenAI快速膨脹的融資金額與估值,同一時(shí)間段內(nèi),這家非營(yíng)利實(shí)體的估值從約280億美元上升到860億美元,并且有消息稱,它最近正在以1500億美元估值尋求新一輪融資,意向投資者除了老面孔微軟與Thrive Capital,蘋(píng)果和英偉達(dá)也表露出興趣。
錢(qián)或許燒不出下一代大模型,但沒(méi)有錢(qián)是萬(wàn)萬(wàn)不能的。除了OpenAI,其余大模型創(chuàng)業(yè)公司與風(fēng)險(xiǎn)投資的蜜月期已經(jīng)倉(cāng)促結(jié)束。雇傭收購(gòu)(Acquihire)成為這半年來(lái)硅谷AI創(chuàng)投圈的熱門(mén)詞匯,案例包括微軟對(duì)Inflection、亞馬遜對(duì)Adept AI和Covariant,以及Google對(duì)Character AI——大公司們不再收購(gòu)公司,只將創(chuàng)業(yè)公司的核心技術(shù)團(tuán)隊(duì)挖走。

這背后的邏輯并不復(fù)雜,現(xiàn)階段的模型的能力還不足以培育出超級(jí)應(yīng)用,這些模型創(chuàng)業(yè)公司目前構(gòu)建出來(lái)的產(chǎn)品并不具有長(zhǎng)期價(jià)值。對(duì)于大公司來(lái)說(shuō),積累人才以保持基座模型的領(lǐng)先更為重要;對(duì)于創(chuàng)業(yè)公司來(lái)說(shuō),更關(guān)鍵的是如何活下去。就在9月初,累積融資約5億美元、號(hào)稱歐洲OpenAI的德國(guó)AI創(chuàng)業(yè)公司Aleph Alpha宣告退出基礎(chǔ)模型競(jìng)爭(zhēng)。累計(jì)融資額都在10億美元左右的中國(guó)大模型創(chuàng)業(yè)公司近期也都傳出了戰(zhàn)略收縮的消息。
基礎(chǔ)模型方面的能力瓶頸除了讓大模型公司賺不到足夠的錢(qián)養(yǎng)活自己,也使得AI硬件的繁榮仍然處于空談。
9月10日,蘋(píng)果與華為在同一天推出了各自最新的旗艦手機(jī)。其中蘋(píng)果i Phone最重要的賣點(diǎn)是由大模型支持的AppleIntelligence(蘋(píng)果智能)。相比幾個(gè)月前WWDC上側(cè)重底層技術(shù)的演示,這一次蘋(píng)果展示了更多的實(shí)際用例,比如AppleIntelligence可以智能地總結(jié)郵件中的重要信息并顯示在摘要中,或者在聊天中實(shí)時(shí)生成適應(yīng)當(dāng)下語(yǔ)境的emoji。
蘋(píng)果并非這撥AI浪潮中第一個(gè)將大模型植入手機(jī)的公司,但從目前的用戶體驗(yàn)來(lái)看,蘋(píng)果垂直整合軟硬件并交付的能力還是一流的。在大部分手機(jī)廠商只是生硬地把語(yǔ)言模型接入手機(jī)助手時(shí),蘋(píng)果將模型埋到更底層的位置,通過(guò)閱讀用戶屏幕,Apple Intelligence能夠理解用戶使用手機(jī)時(shí)當(dāng)下的復(fù)雜語(yǔ)境并提供個(gè)性化服務(wù)。
不過(guò)即使蘋(píng)果已經(jīng)將AppleIntelligence打磨到這個(gè)地步,對(duì)于大部分用戶來(lái)說(shuō),硬件上的改變才是更加重要的。除了增加了一個(gè)拍照按鈕,iPhone 16在外觀上與上一代手機(jī)幾乎一樣,導(dǎo)致其產(chǎn)品遭受了可能是有史以來(lái)最為嚴(yán)厲的“缺乏創(chuàng)新”的批評(píng)。知名蘋(píng)果分析師郭明錤稱,新手機(jī)發(fā)布后的首周末銷量相較iPhone 15系列同比減少12.7%。
作為對(duì)比,華為同日發(fā)布的三折疊屏手機(jī)Mate XT吸引了大量關(guān)注,即使華為將起售價(jià)定在19999元,依然一機(jī)難求。這也從側(cè)面反映出,用戶對(duì)于新鮮硬件形態(tài)的興趣遠(yuǎn)遠(yuǎn)超過(guò)對(duì)AI功能的興趣,這或許也是大公司們執(zhí)著于創(chuàng)造AI硬件的緣故。有消息稱,字節(jié)跳動(dòng)正在加速自研AI硬件,第一款產(chǎn)品將是搭載了豆包大模型的智能耳機(jī)。