中圖分類號:B014;TP18 文獻標識碼:A 文章編號:1000-5099(2025)04-0001-09
國際DOI編碼:10.15958/j.cnki.gdxbshb.2025.04.01
大語言模型與機器人對接及具身大模型等熱議話題不斷升溫,大模型接地問題遂成重要課題。在人工智能領域,“接地”(Grounding)指語言模型通過某種方式與外部世界的實體、物理環境建立聯系,主要指大語言模型如何與現實世界對接。在 Sora發布及其前后,大模型接地的研究已經先后建立與現實世界進一步關聯的三個代表性實驗和產品:馬斯克的自動駕駛汽車與大模型結合實驗、文生視頻模型 Sora 及斯坦福大學和谷歌團隊合作的“斯坦福人工智能小鎮”實驗。在這三項的主要進展中,OpenAI的文生視頻大模型 Sora最為火爆。在三者比較中,本文探討人工智能大模型不同方式接地的性質,無論對機器還是人類理解研究都具有關鍵意義。
一、大模型與自動駕駛汽車結合:語境的場景凸顯
在Sora發布之前,馬斯克(ElonMusk)就開始了大模型與自動駕駛汽車結合的實驗,其主要目的是測試特斯拉最新版本的FSD(FullSelf-Drive,全自動駕駛)系統。實驗使用的FSDV12是特斯拉自動駕駛系統的一次重要升級,采用了完全端到端(“EndtoEnd”:在不同領域中直接通信或處理方式的描述中廣泛使用)的方案。這意味著系統可以直接從攝像頭捕捉到的圖像中提取信息,并生成相應的駕駛指令,無須依賴傳統的編程邏輯和高精度地圖。該系統不僅具有實時學習的能力,即在特定場景下,系統會根據實際情況進行調整和優化,從而逐步提升其應對能力,更重要的是實現了與大模型的結合。在全球各地數百萬輛特斯拉汽車的行駛過程中,收集了大量的視頻片段和傳感器數據,每輛車的行駛數據都會上傳到特斯拉的中央數據庫,這些數據被用于訓練神經網絡,改進自動駕駛模型。聯網使得車輛之間可以共享最新的駕駛數據和經驗,從而不斷優化自動駕駛算法,使系統能夠更好地理解和應對各種不同的情況。通過大量的數據訓練,自動駕駛汽車能夠應對越來越多復雜的駕駛場景。并且,自動駕駛汽車與大模型的結合,將大幅提升其應對不同場景的能力。
馬斯克這一測試的重要性在于:自動駕駛汽車與大模型的結合,實際上開啟了人工智能大模型的反向接地實驗。有了大量特斯拉自動駕駛汽車聯網數據構成的大模型,聯網的每輛特斯拉自動駕駛汽車都可以應對大數據中其他聯網車所遇到的所有場景,這與單獨一輛自動駕駛汽車遍歷所有這些場景相比較而言,具有范式級別的不同。
實驗地點位于加州帕洛阿爾托(Palo Alto),馬斯克在其個人賬號上直播了這次自動駕駛測試。車輛成功通過了施工區域、紅綠燈路口以及環形交叉路口等復雜路況,展現出了良好的適應性和穩定性。在45 分鐘的測試過程中,只有一次出現了問題:在一個需要直行的路段,測試車輛在路口等了很久的紅燈,對面信號燈剛剛轉為左轉狀態時,測試車輛突然跟著啟動了,在此種情況下,測試車輛不得不被人為干預。正是這唯一的人為干預,意味著自動駕駛隱含重要安全隱患。一方面,在實際駕駛過程中,現實場景是無限的,總是存在某些罕見或極端場景未能被充分覆蓋。由于人工智能尚未通用化,當前的自動駕駛技術還無法完全替代人類駕駛員的判斷和操作。另一方面,自動駕駛汽車與大模型結合的效果雖然已提升很多,但仍然離不開人為干預,這反映了數字智能發展的極限性:作為信息編碼層次的人工智能,大模型不可能完全通用化,而只能發展其通用性趨向無限的空間[]110。
人工智能與物理世界和社會行為交互的能力,在根本上體現其核心機制的發展層次及其性質。ChatGPT具有堪稱神奇的自然語言處理能力,DeepSeek 更煥發出了大語言模型中文生成的魔力,但其在接地物理世界方面卻存在范式鴻溝。人工智能大模型不具有與物理世界交互的能力,這是其發展面臨天花板的機制性體現。由于人工智能大模型的特殊性,其具有魔性的內容生成能力更凸顯了大模型接地的意義,特別是大型語言模型。
作為符號主義進路基礎上聯接主義進路發展的重要產物,大型語言模型似乎不涉及行為主義進路,但從“言語行為理論”的語言哲學觀點可看到二者之間的微妙關聯,只是言語與感性實踐的關聯還有待深人研究。按照言語行為理論,在說話時,我們不僅在描述事物,還在采取行動,并與現實互動。但在自然語言和人類身體行為的意義上,言語和行為總是存在界限。必須在信息層次上,我們才可能深化對言語行為理論的研究,甚至得出“言語即行為”的結論。正是在這個意義上,關于人工智能大模型接地的研究與大模型在人工智能中所處發展階段的認識才密切相關,而人工智能發展到當下,其認識又決定于信息理解的深化。
關于信息的長期艱難探索表明,信息不是物質和能量[2],而是感受性關系。作為感受性關系,信息具有創生性和涌現性等基本特性[3]。把信息理解為感受性關系,對信息編碼及其與信息的關系就可以有一個更到位的認識:信息編碼是感受性關系的物能化和觀念化。因此,信息編碼相應有兩種基本類型:信息的物能編碼和信息的觀念編碼。前者如記憶、DNA中的基因和電信號;后者如作為自然類(Natural Kinds)概括產物的概念和基本的符號。在信息的觀念編碼中,作為信息符號編碼的特殊方式,信息的數字編碼可以建立起信息觀念編碼和物能編碼之間的直接關聯,從而為深化理解言和行之間的關系提供更深層次的信息基礎。
作為二進制數字編碼,“0”和\"1”是信息觀念編碼中的符號編碼;而“開”和“關”又是物能編碼中的物理編碼。正因為信息的數字編碼既與信息的物能編碼,也與信息的觀念編碼內在相關,因此算法就可以通過信息的數字編碼將觀念和物能進行內在結合,從而在物能和信息關系層次構成認識和實踐的一體化[4]。在人類活動中,言和行的關系具有重要地位。大型語言模型只是局限在言說范圍,相對少或較弱2
地涉及行為,因此主要涉及信息編碼,與作為感受性關系的信息相比較而言,在根本上只具有間接聯系。而人類的實際行為則在更根本的意義上涉及感受、感受性、作為感受性關系的信息——這則是達至智能通用化發展的層次。正是在這方面,馬斯克的自動駕駛汽車與大模型結合的實驗具有特殊意義。它使基于實際駕駛場景大數據的大模型和自動駕駛汽車現場或場景相關聯,而場景就是自動駕駛汽車領域的情境,這就意味著為自動駕駛汽車建立起了情境大模型。正是通過大數據納人駕駛汽車場景的重要實驗,集中凸顯了語境一情境關聯中語境之于情境的重要性。
情境(Situation)是具體條件的整合局勢,語境(Context)是情境中一定范圍內具體條件抽離的產物。由于還沒有深人到信息層次,關于語境和情境及其相互關系還是一個有待進一步深人研究的問題。語境不僅僅關乎話語,即使作為狹義的人類語境的上下文,也涉及復雜的觀念體系。關于這一問題,在作為感受性關系的信息層次呈現得很清楚。
正是在信息觀念編碼的基礎上,人類可以建立起觀念體系,人類知識才得以形成和發展。由此,在信息深處可以看到三個依次遞進的發展層次:作為感受性關系的信息、作為信息物能化和觀念化的信息編碼以及基于信息觀念編碼作為觀念體系的知識[5」。從作為感受性關系的信息到作為信息編碼的數據,再到基于信息編碼的知識,事實上構成了具有雙向循環機制的人類認識發展三部曲。因此,在信息深處可以清楚地看到人工智能發展的三個層次:以專家系統為最高發展水平的人類知識層次人工智能、以ChatGPT 和Sora等為發展標志的信息編碼層次人工智能和通用化的信息層次人工智能[1]105。人工智能只有發展到作為感受性關系的信息層次,才能擁有自己的觀念系統,才能建立起情境和語境的內在關聯機制,才可能具有發展理解能力的基礎。
由情境和語境及其理解機制意義反觀馬斯克的自動駕駛汽車與大模型結合實驗,可以得到諸多重要啟示,其中最具根本性的,就是實驗只涉及作為場景的情境,而不涉及語境。自動駕駛汽車大數據都是場景大數據,由此建立起來的是作為情境的場景大模型。情境是人工智能大模型接地的基本方面之一,但不涉及作為同樣重要的另一方面——語境,它就不可能有理解。因此,人為干預正是人類理解能力的介入。
由于涉及的場景與情境相關,因此自動駕駛汽車收集的大數據也主要是駕駛汽車的場景數據;而場景是不可窮盡的,大模型結合的自動駕駛汽車總是會遇到行車大數據沒有包含的場景,因此不可避免會有“意外”。在人類駕駛情況下,由于人類駕駛員有一個基于理解能力的動態觀念世界,這意味著在一個世界模型中,自然語言系統正是在這個觀念世界或世界模型的構架里表述。在這個世界模型中,自然語言的語境與情境可以建立起內在關聯,從而具有對場景的理解能力,并通過舉一反三等相對簡化無限場景處理并應對無限性問題。沒有語境一情境內在關聯,大模型與自動駕駛汽車結合總是會遇到因大數據中相關場景數據缺失而無法應對的場景。
人工智能大模型通過人類與物理世界的交互,可以從人機軟融合機制中得到理解;而關于其通過機器人實現這種交互的問題,則可以從馬斯克將大型語言模型和自動駕駛汽車相結合中看到進一步的內容:在通過人類接地物理世界的過程中,其機制是情境大模型完全通過作為通用智能的人類對接物理世界;而在自動駕駛汽車結合大模型的實驗中,則是作為場景數字化的情境大模型與作為現實情境的場景對接實現,只是在遇到大數據不包含的場景應對時,才必須有人為干預。由此凸顯的與其說是作為場景的情境,不如說是缺場的語境,最終凸顯了建立語境—情境關聯的重要性。在此基礎上,既可以深人理解人類理解機制中的語境一情境關聯,又可以更好地理解人工智能大模型接地的具體機制。
人類語境涉及觀念體系的整體觀照,而整體觀照是人類理解的核心機制。因果關聯正是建立在觀念體系基礎之上,沒有相應的觀念體系,就不可能理解物理世界的因果關系,更談不上參與社會行動。關于3這一點,在文生視頻模型的物理世界模擬中表現得尤為典型。
二、Sora對接物理世界:情境的視頻凸顯
ChatGPT只限于語言領域,其多模態化也只是指向廣義語言,而局限于語言領域表明其顯然不可能是真正意義上的通用人工智能。類人通用人工智能必須與物理世界交互,而大型語言模型在這方面所缺少的恰恰是通用智能的核心機制。因此,以ChatGPT為標志的大型語言模型要與物理世界交互,不必通過作為通用智能的人類,而是必須擁有通用智能機制的機器人。當前熱議中的具身智能和“AI智能體”,實際上指的就是通用智能,絕不意味著人工智能大模型加一個目前發展階段的機器人身體就可以了,而是必須包含通用智能核心機制。最近推出的Manus 就是一種人工智能體(AI Agent)。作為各種功能不同的智能體分工組合的產物,人工智能體的通用性大大強化,其核心機制類似信息編碼層次人工智能與作為人類知識層次人工智能的專家系統相結合。專用人工智能的組合是人工智能通用性發展的一種重要方式,但這并不構成通用人工智能,人工智能體必須有通用智能機制才能真正通用化。在目前的發展階段,人工智能大模型與物理世界交互必須通過作為通用智能的人來實現。
文生視頻大模型與物理世界的對接涉及文本語境與物理情境,即從語境到情境的內在關聯,從而涉及物理規律的理解,因此需要有基于語境—情境內在關聯的理解能力。Sora之所以會有圖像逼真而規律失實的現象,就因為其語境一情境內在關聯還沒有建立起來,從而不可能具有基于語境一情境內在關聯的物理世界規律的理解能力。與自動駕駛汽車和大模型的結合不同,作為大型語言模型基礎上推出的多模態化產品,Sora等文生視頻模型即涉及語境又涉及情境,但由于沒有建立起二者之間的內在關聯,缺乏理解能力的人工智能大模型不可能理解物理規律。其必定造成物理規律失實表明了一個重要事實:只有語料大數據及其所攜帶的人類語境,不可能把握物理世界的規律。要具有把握物理世界規律的能力,必須具備依次遞進的三層次條件:理解能力、觀念體系和世界模型。只有理解能力而沒有建立起觀念體系,不可能理解物理世界的規律;即使既有理解能力又有觀念體系,也仍然只是具有可理解物理世界規律的可能性;要理解物理世界的規律,除以上兩個條件之外,還必須包含世界模型。
人工智能大模型的多模態發展,使“世界模型”概念在人工智能通用化中的地位備受關注。作為通用人工智能研究的重要層次,建立世界模型的目的是理解世界或預測未來。世界模型研究最具代表性的專家楊立昆(Yann LeCun)認為,世界模型是一種“模擬器”,用于模擬與世界相關的各個方面。與哪些世界狀態相關,取決于當前的任務。“世界模型的主要目的是預測未來的世界狀態表示。”[6]世界模型的真正實現,意味著通用人工智能核心機制的突破。作為通用人工智能,世界模型對物理世界規律的把握同樣必須建立在語境一情境內在關聯的基礎上,但它意味著與人工智能大模型完全不同的研究進路。
通過大數據納入由人類語境形塑的語料,實現人機語境軟融合,ChatGPT等大語言模型獲得了與人類進行自然語言交互的能力;而Sora等文生視頻模型則通過人類捕捉的物理世界視頻圖料實現對物理世界的模擬,取得了大模型多模態發展的重要進展。由此,可以看到人工智能大模型發展的廣闊空間,看到人工智能模擬物理世界極限逼近的發展情勢。這一極限逼近性質一方面意味著幾乎趨向無限的進展可能性,DeepSeek 等就是大語言模型進一步發展的重要一步;另一方面又表明,這一進路注定不可能走向人工智能通用化,從而真正實現大模型與物理世界的對接。
正是從大語言模型到文生視頻模型,凸顯了語境和情境之間的關聯及其重要性。由于局限于廣義語言范圍,ChatGPT和 Sora及其所標志的大模型不能在語言語境與物理情境之間建立起內在關聯,因此不可能直接對接物理世界。作為人工智能的重要發展階段,大模型在文本和視頻生成的過程中只能通過大數4
據納入人類語料和圖料等進行。大模型只能利用其所攜帶的人類語境和世界情境的視頻進行自然語言處理或對象模擬,不可能直接納入現實物理世界的具體情境中。事實上,由其大數據基礎也可以看到,作為信息數字編碼發展的產物,大數據不可能攜帶直接經驗內容。只有深化到作為感受性關系的信息層次,才可能有真正意義上的世界模擬器。而我們將作為文生視頻模型的 Sora 稱作“世界模擬器”,其主要原因是對通用人工智能的誤解。
作為物理世界影像反映意義上的世界模擬器,Sora不僅不是通用人工智能,而且根本沒有進人人工智能通用化研究進路。Sora也不僅不是作為“物理引擎”的“世界模型”,甚至也不是真正意義上的“世界模擬器”,關于它的確切理解就是文生視頻模型。其生成的視頻僅是通過大數據學習,對對象世界的動態外觀進行模擬。因此,完全不像人們關于它的直觀感覺,Sora不僅與人工智能通用化發展沒有實質性關系,而且在與物理世界對接的更深層次表明:即使發展至大數據,人工智能也不可能通用化。
作為人工智能大模型,Sora同樣根本不可能具有理解能力。由視頻的逼真導出 Sora具有語義甚至物理規律理解能力的結論,與由ChatGPT的類人對話能力得出其具有自然語言理解能力如出一轍。物理規律更明顯地涉及因果關系,人工智能要把握因果關系,必須具備類人理解能力。從作為信息數字編碼發展產物的大數據層次推進到作為感受性關系的信息層次,可以清楚地看到將Sora與通用人工智能進行聯系是一種更深層次錯覺。其根本原因在于:人類視覺與物理世界的關聯更為形象,因而視頻模擬往往讓人感覺更具內在關聯。
由于視覺感受似乎比自然語言更與物理世界直接相關,Sora所造成的人工智能通用化錯覺比ChatGPT更為強烈,而事實上,其所表明的恰恰是大模型通用性的擴展并不導向人工智能通用化。人工智能通用性和通用化不僅不是一回事,而且二者間不可通約。在原理上可以用點線面的關系形象理解:點的量無限擴展不能達至線,線的量無限擴展不能達至面,面的量無限擴展不能達至體,它們之間具有不可通約性。就與物理世界的關系而言,以Sora為代表的文生視頻模型局限于“模擬”,不構成對世界的理解。因此,其成果主要集中在人工智能技術而不是范式上;其意義主要在對對象世界的模擬而不是認識。
關于Sora是文生視頻模型而不是真正意義上的世界模擬器,丘成桐先生的弟子、計算機專家、紐約州立大學石溪分校教授顧險峰(GuXianfengDavid)在財新網的博客中就清楚地指出:雖然Sora聲稱是“作為世界模擬的視頻生成模型”,目前的技術路線無法正確模擬世界的物理規律。首先,用概率統計的相關性無法精確表達物理定律的因果性,自然語言的上下文相關無法達到偏微分方程的精密程度;其次,雖然變換器(Transformer)可以學習臨近時空令牌間的連接概率,但是無法判斷全局的合理性,整體的合理性需要更高層次的數學理論觀點,或者更為隱蔽而深厚的自然科學和人文科學的背景,目前的變換器無法真正悟出這些全局觀點。顧險峰的觀點表明,Sora不可能理解和把握物理世界的規律,文生視頻不可避免地會出現形象逼真的規律失范問題,而其根本原因則在于作為人工智能的 Sora 的發展只是在信息編碼層次,其基本機制仍然是統計模型。紐約大學心理學家和人工智能專家馬庫斯(Gary Marcus)就認為,ChatGPT“只是詞序的模型,不是世界怎樣運行的模型”7]。北京通用人工智能研究院院長朱松純在《機器之心》的專訪中則表述得更為具體:大型語言模型在處理任務方面的能力有限,它們只能處理文本領域的任務,無法與物理和社會環境進行互動。這意味著像ChatGPT這樣的模型不能真正“理解”語言的含義,因為它們沒有身體來體驗物理空間。正是用身體體驗物理空間,表明朱松純的觀點指向了關于通用智能理解的更深層次,而對物能對象的身體體驗正涉及感受性關系即信息層次。人工智能的發展只有進一步深入作為感受性關系的信息層次,類似Sora那樣形象逼真而規律失范的問題才可能真正得到解決。
由此可見,Sora文生視頻之所以會有規律失范的根源:沒有理解能力就不可能是世界模型,更不可能模擬世界的物理規律。Sora只能夠對對象進行影像模擬,即只是物理世界的影像模擬器。其之所以會有逼真的失實,根本原因是處于信息編碼層次的人工智能不可能具有理解能力,因此不可能把握物理規律,更不能理解世界。要真正實現與物理世界的對接,人工智能必須具有類人理解能力。而在這方面,Sora等文生視頻模型的確具有普遍意義:它們建立起了語境和情境的人工智能大模型關聯,只是這種關聯不僅不是內在的,而且是間接的。因為視頻只是物理世界的影像模擬而不是其內在規律的情境反映,在物理世界情境的影像反映基礎上,人工智能大模型只可能模擬物理世界而不可能把握其規律。要把握物理世界的規律,必須接人真實的物理情境。正是在這一層次,可以看到 Sora 的特殊意義:一方面,即使涉及語境—情境關聯,但如果不是二者的內在關聯,人工智能大模型就不可能真正接地;另一方面,文生視頻模型沒有完全建立語境和情境的內在關聯,但以特殊的方式凸顯了語境一情境,表明語境一情境的內在關聯是人工智能大模型接地的關鍵環節,由此為語境—情境關聯研究提供了諸多啟示,甚至是前所未有的場域。由于人類理解物理世界是在語境和情境的內在關聯中進行的,這就意味著人工智能大模型接地必須發展語境一情境內在關聯的研究。
在人工智能大模型接地環節,Sora等文生視頻模型凸顯了大模型對接物理世界的語境—情境關聯,而“斯坦福人工智能小鎮\"實驗則使人工智能大模型接地的語境—情境凸顯進一步擴展到與社會行為的對接。
三、斯坦福人工智能小鎮實驗:情境一語境關聯的雙向凸顯
馬斯克的大模型與自動駕駛汽車結合實驗,通過自動駕駛汽車和大模型的反向接地,以場景大模型凸顯了語境;以Sora為標志的文生視頻模型,通過人工智能大模型接地世界視頻模擬器,以視頻情境凸顯了情境;而斯坦福人工智能小鎮實驗則通過大語言模型的社會化接地社會行為,凸顯了更具整體性的語境一情境內在關聯。
在文生視頻模型 Sora 發布后不久,斯坦福大學和谷歌團隊合作的“斯坦福人工智能小鎮”實驗項目于2024 年4月開始。斯坦福人工智能小鎮實驗通過將大語言模型與生成式智能體對接,模擬小鎮社區生活。生成式智能體是利用生成模型模擬逼真人類行為的計算機軟件智能體。實驗將生成式智能體(Generative Agents)引入一個受《模擬人生》啟發的交互式沙盒環境中,構成一個由25個智能體組成的小型社區,室內外設施一應俱全。智能體的“社交行為是涌現的”,而不需要預先編程生成。“架構中的所有內容都以自然語言描述記錄和推理,這使得架構可以利用大型語言模型。”[8]通過將架構連接到ChatGPT,終端用戶可以使用自然語言與小鎮智能體進行交互,從而有了人工智能小鎮與人類的社會性鏈接。
在實驗設計中,智能體架構使用大型語言模型存儲、綜合和應用相關記憶以生成逼真的行為,包括三個主要組成部分:
一是記憶流(The Emory Stream)。記憶流是一個數據庫,記錄了智能體的全部經歷。“智能體感知其環境,并將所有感知記錄在一個整體經驗記錄中,稱為記憶流。”[8]一個長期記憶模塊以自然語言記錄智能體的全部經歷列表。檢索模型將相關性、就近性和重要性結合起來,以展現需要用來指導智能體即時行為的記錄。這就在一定程度上使小鎮社會建立在智能體類群親歷的基礎之上。類群親歷即個體在同類智能體構成的群體中的親身經歷;類群親歷性就是智能個體在相應類群親歷中成長的特性[9」。類群親歷性是個體在群體經歷中形成的,由此獲得的類群親歷性反過來又構成群體發展的基礎。
二是反思(Reflection)。它將記憶轉化為高層次的推理,使智能體能夠在時間上得出關于自己及其交互對象的結論,以更好地指導其行為。智能體檢索到的記憶也用于形成長期計劃,并創建更高級別的反6
思,這些都被輸入到記憶流中以供未來使用[9]。所謂“反思”,實際上是由觀察記錄推導出進一步的結論,由此可以深化生成式智能體之間的關系。通過反思深化的智能體關系是觀念間的關系,而觀念關系正是人類社會化的內容。在實驗中,這方面的主要意義在于深化了語境的層次:語境從有限群體向越來越大的社會規模發展。
三是規劃(Planning)。雖然一個大型語言模型可以根據情境信息產生可信的行為,但智能體需要在更長的時間范圍內進行規劃,以確保它們的行動序列連貫且可信。規劃就是將智能體關于自己及其交互對象的結論和當前環境轉化為高層次的行動計劃,然后通過遞歸轉化為詳細的行動和反應行為9。由此構成了一個循環機制,這些反思和計劃被反饋到記憶流中,以影響生成式智能體未來的行為。
在這樣一個構架機制中,小鎮上的生成式智能體不僅可以從事正常的工作和生活,而且可以形成觀點,關注彼此,用自然語言發起對話,甚至回憶和反思過去的日子,計劃未來的行動。實驗設計為實現生成式智能體所描述的架構擴展了大型語言模型,用自然語言存儲智能體的完整經歷記錄,隨著時間的推移,將這些記憶綜合成更高層次的反思,并對其進行動態檢索以規劃行為。
實驗結果表明,這些生成式智能體產生了逼真的個體和新型的社交行為。這是一個反映逼真人類行為的交互式人工社會,在語境范圍較小的情況下,計算機智能體根據其過去的經驗行事并對其環境做出逼真反應。斯坦福人工智能小鎮實驗讓大模型與逼真的社區生活關聯起來,不僅涉及語境,而且涉及社區情境,建立起了大語言模型語境與模擬社區情境相關聯的模擬社區生活。實驗可以為人機關系研究提供場域,開展人機關系的模擬探索,有助于人類行為模式的研究;可以用于指導人類真實的社區生活,也有助于促進人機軟融合從個人向社區和社會更大范圍推進。而作為小鎮社會模擬,實驗也顯露了其特定局限:一方面,“生成式智能體的記憶并不完美:它們可能無法順利從記憶中檢索出正確的實例”8];另一方面,“即使使用了當今最高效的模型(如GPT-4),長期規劃和一致性仍然存在挑戰”8]。這是因為即使與大型語言模型相連接,生成式智能體也仍然不具有通用智能的理解能力,更不可能擁有像人類那樣長期累積形成的類群親歷性。
在大模型接地的三種實驗和產品中,由于不僅涉及生成式智能體之間以及其與人之間的交互,而且涉及“反思”,斯坦福人工智能小鎮實驗涉及語境—情境關聯問題最為全面,所反映的問題也最為復雜。涉及的語境和情境關聯越復雜,基于語境—情境的理解能力要求就越高。在斯坦福人工智能小鎮的模擬社區生活中,雖然有生成式智能體的記憶流儲存,但是沒有形成語境一情境的內在關聯,從而不僅沒有生成理解能力,更沒有在此基礎上生成類群親歷性,因此不能構成對自身經歷和社區生活的整體觀照,結果自然不可能對自身行為有更高層次的整體規劃,也就不可能具有人類社會那樣的可靠性。因此,實驗中的人類用戶參與就具有特殊意義。
斯坦福人工智能小鎮實驗設計具有游戲性質,有用戶參與。在游戲者參與實驗的情況下,由于作為用戶的人類是具有理解能力的通用智能,因此呈現出語境一情境的內在關聯。在人類參與下,斯坦福人工智能小鎮就可以有持續的社區生活。而由此所看到的,則是大模型接地社會行為的情境一語境雙向機制關聯。無論對于人工智能大模型接地還是人類理解機制研究的深化,這都具有重要啟示。
由于人類實踐和認識關系的復雜性,目前基于人類實踐的語境和情境研究還處于混雜狀態,而人工智
能大模型接地則以簡單的方式凸顯了語境—情境關聯。由此可以看到,社會語言學關于“情境語境”(The
Contextof Situation)的研究具有重要發展空間。在社會語言學研究中,“情境是文本活起來的環境”,這是
一個確立已久的概念[10]109。這一重要觀念在英國社會人類學家馬林諾夫斯基(Bronislaw Malinowski)的語
言民族志中發揮了關鍵作用,被提煉為\"情境語境”概念。馬林諾夫斯基的“情境語境”概念在英國語言學7
先鋒約翰·費斯(John RupertFirth)那里得到了進一步發展和明確,他認為情境語境不應被解釋為周圍“道具”的某種視聽記錄,應被視為以與文本相關的某些一般范疇對環境的抽象表征。而與說話或寫作時周圍發生的事情完全無關。“情境語境是社會分析層面的一種方便抽象,并構成了意義陳述技術層次的基礎。”\"關于“情境語境”概念的理解,英國當代語言學家韓禮德(M.A.K.Halliday)做了重要深化:“情境語境是一種理論構造,用于解釋文本如何與其所處的社會過程相關。”[10]277由此可見,情境語境包含了智能體的觀念體系,只有在特定觀念體系中,情境才可能與語境關聯在一起。無論在人工智能大模型接地甚至通用化,還是在人類理解研究中,情境和語境的關聯都具有特殊意義。由此也可以看到語境一情境關聯的重要信息基礎:作為感受性關系的信息、作為信息物能化和觀念化的信息編碼以及基于信息觀念編碼作為知識的觀念體系。在此基礎上深入研究,我們可以得到一系列重要結論。
四、結論
自動駕駛汽車與大模型的結合實驗以駕駛場景凸顯了語境,呈現了大模型接地中語境的地位。以Sora為標志的文生視頻模型以視頻反映凸顯了情境,呈現了大模型接地中情境的地位。而斯坦福人工智能小鎮實驗則以大語言模型和生成式智能體所處的社區情境凸顯了語境—情境的內在關聯(機制),呈現了大模型接地中語境和情境關聯的地位。由語境凸顯到情境凸顯再到語境和情境關聯的雙向凸顯,構成了大模型接地的語境一情境內在關聯問題。由此可以得到進一步的結論:首先,大模型接地凸顯了理解問題。沒有理解能力,人工智能大模型的接地總是離不開人類干預——實質上是離不開通用智能機制。其次,大模型接地的理解問題凸顯了語境—情境關聯的關鍵性。智能體對世界的理解建立在語境—情境關聯的前提性基礎上,沒有語境和情境的關聯基礎,不可能有類人理解。最后,作為理解的前提性基礎,語境和情境的關聯既是離散的,又是連續的,類似廣義相對論中的時空連續統——“語境—情境連續統”。在三種大模型接地的實驗和產品中,一個共同的缺陷就是沒有建立語境—情境連續統。語境一情境連續統不僅是大模型接地,而且是深化人類理解研究必不可少的環節,還是人工智能通用化的重要前提性基礎。作為一個新的概念,語境一情境連續統是必須進一步系統深人探索的重要課題。
參考文獻:
[1]王天恩.人工智能通用化及其實現路徑[J].中國社會科學,2024(3).
[2]WIENERN.Cybernetic,rControlandCommunicationintheAnimalandtheMachine[M].secondedition.CambridgetheMITPress,1985:132.
[3]王天恩.信息及其基本特性的當代開顯[J].中國社會科學,2022(1):90.
[4]王天恩.人工智能算法的深層認識論意蘊[J].湖北大學學報(哲學人文社會科學版),2023(1):98.
[5]TIANEN W,Xi W. Information as Receptive Relation[M].London/New York:Routledge,2024:39-48.
[6]YANN L C.A Path Towards Autonomous Machine Inteligence[DB/OL].(2022 -06-27)[2025-03-25].htps://arxiv.org/abs/2306.02572.
[7]MARCUSG.AI Platforms LikeChatGPTareEasyto Use ButAlsoPotentiall Dangerous[J/OL].Scientific American,(202212 -19)[2025-03-25].htps://www.scientificamerican.com/article/ai- platforms-like-chatgpt-are-easy-to-use- but-also -poten-tially-dangerous/.
[8]PARK JS,BRUENJCO,CAI CJ,etal.Bernstein,Generative Agents:interactive Simulacraof Human Behavior[DB/OL].(2023-11 -29)[2025-03-25]. https://arxiv.org/abs/2304.03442.
[9]王天恩.人機交會:人工智能進化的類群親歷性[J].師范大學學報(哲學社會科學版),2023(1):62.
8
[10]HALLIDAYMAK.Languageas SocialSemiotic,the Social InterpretationofLanguage and Meaning[M].London;EdwardArnold,1978 :109.
(責任編輯:張 婭李笛)
Grounding Emergence in AI Large Models : context - scenario Correlation for Enhanced Comprehension
WANG Tianen,WANG Jinwei
(Marxism Research Center in the Intelligent Era,Shanghai University,Shanghai,China,)
Abstract:From thedevelopmentof large language modelslike ChatGPTtothetext-to-videomodelsuchasSora,the groundingoflargeAImodelshasemergedasaciticalresearchfocus.The groundingof these modelscreatessignificanttensionin theresearchofmachineunderstanding,highlightingtheunprecedentedconnectionbetweencontextandsituation.Explorngand establishingtheintrinsicrelationshipbetwencontextandsituationisakeytogroundinglargeAImodels.ProgressinAI understandingcapabilitiesmustnotonlybebasedonresearchintohumancontextsbutalsodelveintomachinesituations, establishinganintrinsicconectionbetweencontextandsituationasafoundationalpremiseforunderstanding.Fromtheintegation oflargemodelswithauto-drivingcartothetext-to-videomodelrepresentedbySora,andtheStanfordAITownexperiment,this systemdemonstratesthecontext-situationrelatioship.Itsexplorationonimportantcoctionsissignificantotonlyforgrounding largeAImodelsbutalsofordepeningresearchintohumanunderstanding.Asabridgetoconectthephysicalworldandsocial behavior,the grounding of large models must be built on the intrinsic relationship between context and situation.
Key words :large AI models;context;situation;understanding;grounding