張毅
ChatGPT 的熱度還沒過去,它的進階版就來了。3月15日,距離AI(人工智能)聊天機器人ChatGPT 的亮相還不到4 個月,它的開發(fā)商OpenAI 又推出了新版多模態(tài)預訓練大模型——GPT-4。與基于GPT-3.5的ChatGPT 相比,GPT-4 的表現(xiàn)更為驚人,讓許多網(wǎng)友大呼:“這下AI 真的要取代人類了!”
3月15日凌晨,OpenAI發(fā)布了多模態(tài)預訓練大模型GPT-4,這也是其大型語言模型的最新版本。
與此前的版本相比,GPT-4具備強大的識圖能力,文字輸入限制也提升至2.5 萬字;GPT-4 的回答準確性也顯著提升,還能夠生成歌詞、創(chuàng)意文本從而實現(xiàn)風格變化。同時,GPT-4 在各類專業(yè)測試及學術基準上也表現(xiàn)優(yōu)良。
“這是OpenAI 努力擴展深度學習的最新里程碑?!監(jiān)penAI介紹,“GPT-4 是一個大型多模態(tài)模型,它接受圖像和文本輸入、進行文本輸出,雖然在許多現(xiàn)實場景中它還不如人類,但在各種專業(yè)和學術基準上表現(xiàn)出與人類相當?shù)男阅?。”O(jiān)penAI 介紹稱,在日常對話中,GPT-4 與GPT-3.5 之間的差距或許微妙,但當任務復雜度足夠高的時候,GPT-4 將具備更可靠、更具創(chuàng)造性的特點,且能夠處理更細致的指令。
例如,根據(jù)OpenAI 公布的實驗數(shù)據(jù),GPT-4 通過模擬律師考試且分數(shù)在應試者的10% 左右。相較之下,GPT-3.5 版本大模型的成績是倒數(shù)10%。
除了普通圖片,GPT-4 還能處理更復雜的圖像信息,包括表格、考試題目截圖、論文截圖、漫畫等。此外,在多語種方面,GPT-4 也體現(xiàn)出優(yōu)越性。在測試的26 種語言中,GPT-4 在24 種語言方面的表現(xiàn)均優(yōu)于GPT-3.5 等其他大語言模型的英語語言性能,其中包括部分低資源語言如拉脫維亞語、威爾士語等。在中文語境中,GPT-4 能夠達到80.1% 的準確性。
“多模態(tài)、推理能力、預測擴展性”是GPT-4 的三大亮點,而多模態(tài)可以說是GPT-4 最大亮點。GPT-4 可以接受文本和圖像的提示,允許用戶指定任何視覺或語言任務。具體來說,給定由穿插文本和圖像組成的輸入,GPT-4 生成文本輸出(自然語言、代碼等)。
多模態(tài)算法即融合文字、圖片、音視頻等多種內(nèi)容形式的AI 算法,多模態(tài)出世之前,AI 模型只專注于單一領域,例如自然語言處理或計算機視覺等;多模態(tài)技術出現(xiàn)后,模型已經(jīng)從早期單一的自然語言處理和機器視覺發(fā)展成自動生成圖畫、圖像文字、音視頻等多模態(tài)內(nèi)容,極大地推動了AIGC 的內(nèi)容多樣性和通用性。
AI 要滲透到各行業(yè),向多模態(tài)發(fā)展是必然趨勢。各個應用場景需要交互的輸入輸出各不相同,例如AI 繪畫從輸入圖像或者文字得到圖像,PalM-E 同時處理視覺、語言和傳感器,極可能應用到工業(yè)生產(chǎn)中。同時多模態(tài)的大模型也可以通過細分領域數(shù)據(jù)微調,高效地應用到各個領域。畢竟現(xiàn)實世界中的數(shù)據(jù)天然就是多模態(tài)的,通用人工智能必然需要有能感知和理解多模態(tài)數(shù)據(jù)的能力,未來的人形機器人能和人類一樣,可以綜合通過聽覺視覺觸覺來與世界做出各種交互。

GPT-4與GPT-3.5對比各項考試成績,資料來源:OpenAI官網(wǎng)

視覺輸入:圖表推理(格魯吉亞和西亞的日均肉類消費量總和是多少?),資料來源:OpenAI官網(wǎng)
GPT-4 相較于GPT-3.5模型更加強大,更可靠、更有創(chuàng)意,且更能夠理解細微的指令,表現(xiàn)出來的性能為,在各種專業(yè)和學術考試以及NLP(自然語言處理)基準測試上達到或超越人類水平。
GPT-4 具備極強的復雜推理機制,無論是復雜的邏輯推理、編程推導或者是密集型內(nèi)容幫助,GPT-4 皆表現(xiàn)能力不俗,例如ChatGPT 可以對稅務人士進行密集的內(nèi)容幫助,該模型快速得到了標準答案,并且可以做到“理解它的解釋”。如此,GPT-4 會對編程、內(nèi)容審核等場景產(chǎn)生深遠影響。
研發(fā)團隊在機器學習傳統(tǒng)基準測試上( 包括MMLU、HellaSwag 等)比較了GPT-4 和GPT-3.5、SOTA 等模型的性能,結果顯示GPT-4 在這些基準測試上的表現(xiàn)大大優(yōu)于現(xiàn)有的大型語言模型,并且在大多數(shù)測試中超越了目前最先進的SOTA 模型。
總體來講,GPT-4 具有更強的生產(chǎn)力屬性,尤其是在應用層面,GPT-4 可能快速改變各行各業(yè)的生產(chǎn)和消費模式。從政府治理、社會治理的數(shù)字智能化,到教育、就業(yè)、個人發(fā)展的新形態(tài),它都可能為人類帶來不可替代的利好作用,成為我們身邊穩(wěn)定存在的伙伴。隨著GPT-4 對人機交互模式的改變,多模態(tài)能力首先有望重塑從瀏覽器到文檔智能等的軟件交互,未來還有望重塑從手機、PC、智能手表到智能家居的硬件交互。
由于大模型的規(guī)?;╯calinglaw),增加模型參數(shù)量、數(shù)據(jù)量有助于提升模型表現(xiàn)。過去數(shù)年中,行業(yè)推出大模型時也往往標榜模型規(guī)模之大。然而本次GPT-4 并未在論文中提供參數(shù)量、數(shù)據(jù)量等信息,AI 行業(yè)漸漸嘗試逐漸走出單純強調模型規(guī)模的時代,降低使用門檻、提高實際落地效果成為通用AI 新的發(fā)展方向。
而這次OpenAI 在發(fā)布GPT-4 的同時,推出便于落地的工具并開源了Evals 評估框架便于用戶選擇模型。這意味著使用千分之一至萬分之一的算力就能夠可靠地預測GPT-4 在下游垂直領域使用的性能,下游廠商可以先以較小的成本廣泛試用,最終選擇最適合自己需求的大模型。具體在應用方向上,現(xiàn)階段,大模型的能力還主要體現(xiàn)在NLP 上,因此主要用于搜索(如微軟繼承了大模型的NewBing)、航程輔助、聊天機器人變種(獵頭使用軟件、智能客服、智能音箱、游戲NPC 等),而1~5 年內(nèi),隨著多模態(tài)的發(fā)展,大模型首先會用于Office 類辦公工具,還將有多類簡單多模態(tài)方案落地(智能家居、工業(yè)視覺、行業(yè)化機器人)、行業(yè)專家(AI 醫(yī)療、教育等)、智能助理(聊天、工作安排、點外賣、購物等)。
未來,結合復雜多模態(tài)方案的大模型將具備完備的與世界交互的能力,在通用機器人、虛擬現(xiàn)實等領域得到應用。

GPT-4與其他版本GPT在相關考試中的比較,資料來源:OpenAI