多模態(tài)GPT-4發(fā)布，AI 沖擊算法之巔

2023-04-04 01:46:16張毅

電腦報 2023年12期

張毅

ChatGPT 的熱度還沒過去，它的進階版就來了。3月15日，距離AI（人工智能）聊天機器人ChatGPT 的亮相還不到4 個月，它的開發(fā)商OpenAI 又推出了新版多模態(tài)預訓練大模型——GPT-4。與基于GPT-3.5的ChatGPT 相比，GPT-4 的表現(xiàn)更為驚人，讓許多網(wǎng)友大呼：“這下AI 真的要取代人類了！”

能玩梗能考律師的GPT-4來了

3月15日凌晨，OpenAI發(fā)布了多模態(tài)預訓練大模型GPT-4，這也是其大型語言模型的最新版本。

與此前的版本相比，GPT-4具備強大的識圖能力，文字輸入限制也提升至2.5 萬字；GPT-4 的回答準確性也顯著提升，還能夠生成歌詞、創(chuàng)意文本從而實現(xiàn)風格變化。同時，GPT-4 在各類專業(yè)測試及學術基準上也表現(xiàn)優(yōu)良。

“這是OpenAI 努力擴展深度學習的最新里程碑?！監(jiān)penAI介紹，“GPT-4 是一個大型多模態(tài)模型，它接受圖像和文本輸入、進行文本輸出，雖然在許多現(xiàn)實場景中它還不如人類，但在各種專業(yè)和學術基準上表現(xiàn)出與人類相當?shù)男阅?。”O(jiān)penAI 介紹稱，在日常對話中，GPT-4 與GPT-3.5 之間的差距或許微妙，但當任務復雜度足夠高的時候，GPT-4 將具備更可靠、更具創(chuàng)造性的特點，且能夠處理更細致的指令。

例如，根據(jù)OpenAI 公布的實驗數(shù)據(jù)，GPT-4 通過模擬律師考試且分數(shù)在應試者的10% 左右。相較之下，GPT-3.5 版本大模型的成績是倒數(shù)10%。

除了普通圖片，GPT-4 還能處理更復雜的圖像信息，包括表格、考試題目截圖、論文截圖、漫畫等。此外，在多語種方面，GPT-4 也體現(xiàn)出優(yōu)越性。在測試的26 種語言中，GPT-4 在24 種語言方面的表現(xiàn)均優(yōu)于GPT-3.5 等其他大語言模型的英語語言性能，其中包括部分低資源語言如拉脫維亞語、威爾士語等。在中文語境中，GPT-4 能夠達到80.1% 的準確性。

GPT-4開啟AI多模態(tài)時代

“多模態(tài)、推理能力、預測擴展性”是GPT-4 的三大亮點，而多模態(tài)可以說是GPT-4 最大亮點。GPT-4 可以接受文本和圖像的提示，允許用戶指定任何視覺或語言任務。具體來說，給定由穿插文本和圖像組成的輸入，GPT-4 生成文本輸出（自然語言、代碼等）。

多模態(tài)算法即融合文字、圖片、音視頻等多種內(nèi)容形式的AI 算法，多模態(tài)出世之前，AI 模型只專注于單一領域，例如自然語言處理或計算機視覺等；多模態(tài)技術出現(xiàn)后，模型已經(jīng)從早期單一的自然語言處理和機器視覺發(fā)展成自動生成圖畫、圖像文字、音視頻等多模態(tài)內(nèi)容，極大地推動了AIGC 的內(nèi)容多樣性和通用性。

AI 要滲透到各行業(yè)，向多模態(tài)發(fā)展是必然趨勢。各個應用場景需要交互的輸入輸出各不相同，例如AI 繪畫從輸入圖像或者文字得到圖像，PalM-E 同時處理視覺、語言和傳感器，極可能應用到工業(yè)生產(chǎn)中。同時多模態(tài)的大模型也可以通過細分領域數(shù)據(jù)微調，高效地應用到各個領域。畢竟現(xiàn)實世界中的數(shù)據(jù)天然就是多模態(tài)的，通用人工智能必然需要有能感知和理解多模態(tài)數(shù)據(jù)的能力，未來的人形機器人能和人類一樣，可以綜合通過聽覺視覺觸覺來與世界做出各種交互。

初探“人類思維”

GPT-4與GPT-3.5對比各項考試成績，資料來源：OpenAI官網(wǎng)

視覺輸入：圖表推理（格魯吉亞和西亞的日均肉類消費量總和是多少？），資料來源：OpenAI官網(wǎng)

GPT-4 相較于GPT-3.5模型更加強大，更可靠、更有創(chuàng)意，且更能夠理解細微的指令，表現(xiàn)出來的性能為，在各種專業(yè)和學術考試以及NLP（自然語言處理）基準測試上達到或超越人類水平。

GPT-4 具備極強的復雜推理機制，無論是復雜的邏輯推理、編程推導或者是密集型內(nèi)容幫助，GPT-4 皆表現(xiàn)能力不俗，例如ChatGPT 可以對稅務人士進行密集的內(nèi)容幫助，該模型快速得到了標準答案，并且可以做到“理解它的解釋”。如此，GPT-4 會對編程、內(nèi)容審核等場景產(chǎn)生深遠影響。

研發(fā)團隊在機器學習傳統(tǒng)基準測試上（包括MMLU、HellaSwag 等）比較了GPT-4 和GPT-3.5、SOTA 等模型的性能，結果顯示GPT-4 在這些基準測試上的表現(xiàn)大大優(yōu)于現(xiàn)有的大型語言模型，并且在大多數(shù)測試中超越了目前最先進的SOTA 模型。

總體來講，GPT-4 具有更強的生產(chǎn)力屬性，尤其是在應用層面，GPT-4 可能快速改變各行各業(yè)的生產(chǎn)和消費模式。從政府治理、社會治理的數(shù)字智能化，到教育、就業(yè)、個人發(fā)展的新形態(tài)，它都可能為人類帶來不可替代的利好作用，成為我們身邊穩(wěn)定存在的伙伴。隨著GPT-4 對人機交互模式的改變，多模態(tài)能力首先有望重塑從瀏覽器到文檔智能等的軟件交互，未來還有望重塑從手機、PC、智能手表到智能家居的硬件交互。

OpenAI模型的應用場景正加速落地

由于大模型的規(guī)?；╯calinglaw），增加模型參數(shù)量、數(shù)據(jù)量有助于提升模型表現(xiàn)。過去數(shù)年中，行業(yè)推出大模型時也往往標榜模型規(guī)模之大。然而本次GPT-4 并未在論文中提供參數(shù)量、數(shù)據(jù)量等信息，AI 行業(yè)漸漸嘗試逐漸走出單純強調模型規(guī)模的時代，降低使用門檻、提高實際落地效果成為通用AI 新的發(fā)展方向。

而這次OpenAI 在發(fā)布GPT-4 的同時，推出便于落地的工具并開源了Evals 評估框架便于用戶選擇模型。這意味著使用千分之一至萬分之一的算力就能夠可靠地預測GPT-4 在下游垂直領域使用的性能，下游廠商可以先以較小的成本廣泛試用，最終選擇最適合自己需求的大模型。具體在應用方向上，現(xiàn)階段，大模型的能力還主要體現(xiàn)在NLP 上，因此主要用于搜索（如微軟繼承了大模型的NewBing）、航程輔助、聊天機器人變種（獵頭使用軟件、智能客服、智能音箱、游戲NPC 等），而1～5 年內(nèi)，隨著多模態(tài)的發(fā)展，大模型首先會用于Office 類辦公工具，還將有多類簡單多模態(tài)方案落地（智能家居、工業(yè)視覺、行業(yè)化機器人）、行業(yè)專家（AI 醫(yī)療、教育等）、智能助理（聊天、工作安排、點外賣、購物等）。

未來，結合復雜多模態(tài)方案的大模型將具備完備的與世界交互的能力，在通用機器人、虛擬現(xiàn)實等領域得到應用。

GPT-4與其他版本GPT在相關考試中的比較，資料來源：OpenAI

多模態(tài)GPT-4發(fā)布，AI 沖擊算法之巔

能玩梗能考律師的GPT-4來了

GPT-4開啟AI多模態(tài)時代

初探“人類思維”

OpenAI模型的應用場景正加速落地

多模態(tài)GPT-4發(fā)布，AI 沖擊算法之巔