桑基韜 于 劍
1 (北京交通大學計算機學院 北京 100044)
2 (交通數據分析與挖掘北京市重點實驗室(北京交通大學)北京 100044)
2022 年11 月30 日,OpenAI 公司發布了一款名為ChatGPT 的軟件.該軟件在發布后的5 天內,用戶數量就超過了100 萬,2 個月內活躍用戶數更是突破了1 億,成為了迄今為止增長速度最快的應用軟件.該軟件幾乎可以完成自然語言處理的所有任務,因此在營銷、客服、教育、娛樂、咨詢、翻譯等行業有著廣闊的應用前景.這一成功也激勵了OpenAI 首席執行官Sam Altman,他于2023 年2 月24 日發表了一篇名為“Planning for AGI and Beyond”的文章,認為AGI(artificial general intelligence,通用人工智能)是AI systems that are generally smarter than humans,需要為AGI 的到來做準備①https://openai.com/blog/planning-for-agi-and-beyond.AGI 會是AI 的未來嗎?本文將對此進行討論.
比爾蓋茨將ChatGPT 譽為自1980 年現代圖形桌面環境GUI 問世以來最具革命性的科技進步.如果說上一次讓AI 火出圈的AlphaGo 所展現出的是在特定領域的“專”,這一次ChatGPT 展現出的則是AI 在廣泛應用場景的“通”:這個“通”以正常人都會、都懂、都能體驗的對話形式呈現,讓AI——特別是自然語言處理技術進入主流用戶群,孕育出了這一現象級產品.具體而言,ChatGPT 在對話過程中展現出了自然對話、多輪交互、上下文學習、思維鏈推理、實時反饋在線糾錯、能適應未訓練任務以及GPT-4 中新出現的理解弦外之音的能力.
ChatGPT 背后的思想其實很簡單:將所有語言任務歸為對話任務,并將對話任務歸為文字接龍的生成問題.自然語言處理領域的學者普遍認為,ChatGPT 展現出的優秀對話生成能力對傳統研究方法產生了巨大挑戰.1)從目標上看,自然語言處理旨在讓計算機能夠以文字或語音的方式與人類進行有效交流;而對話是人類日常生活中最基本的交流方式,如果實現了人機自然對話,在一定程度上便達到了自然語言處理的核心目標.2)從任務類型上看,自然語言處理可分為自然語言理解和自然語言生成兩大類.在谷歌的T5 模型[1]推出之后,兩類任務統一為單項語言生成的文字接龍形式.自GPT-1 起,OpenAI就一直堅持采用基于解碼器結構的自回歸語言模型,這種模型在處理語言生成問題方面具有天然的優勢.所以ChatGPT 可以處理以前不同賽道的語言處理任務,比如翻譯、問答、摘要、擴寫、寫作、潤色、代碼生成、語句分析、段落理解等.
當然,ChatGPT 能夠實現如今順暢自然的人機對話,不僅源于其對GPT 語言生成技術路線的持續發展,還依賴于算法、算力和數據等多方面的支持.由于ChatGPT 并未開源,也沒有發布論文透露具體細節,我們只能基于OpenAI 已公開的GPT 系列技術發展路線來推測這些能力背后的潛在原因.圖1 展示了部分ChatGPT 已展現出的能力及其背后主要技術原因的對應關系.值得關注的是,ChatGPT 許多能力背后的原因仍在探索過程中.關于上下文學習的能力,有學者認為模型從提示詞(prompt)提供的示例中確定了待解決任務的自然語言指令(instruct),從而在無需微調模型的情況下提升了問題回答的質量[2].關于任務涌現和多任務遷移能力,一方面,有學者認為指令學習、大規模預訓練和數據集多樣性共同促進了模型在新任務的泛化能力[3].例如,通過在大量不同類型和指令任務上進行微調,模型學習到了一定程度的通用能力,從而能夠泛化到未見過的指令和場景.另一方面,不同任務的劃分具有一定的主觀性,其本質上都可以建模為統一的自然語言生成任務.大型預訓練語言模型通過學習大量訓練數據,掌握了豐富的語言知識和多種任務之間的共性,進而利用這些共性來提高不同任務的性能.然而,一些問題仍然沒有明確答案,例如:何種模型規模和訓練數據量閾值可以產生任務涌現能力?涌現能力與模型規模和訓練數據量之間的量化關系如何?同時,其他一些能力,如在線糾錯、理解弦外之音等,其背后的原因仍然有待發現.

Fig.1 Illustration of capabilities and the corresponding technical reasons圖1 能力與對應技術原因示意
OpenAI 首席科學家llya Sutskeve 最近在與英偉達首席執行官黃仁勛的訪談中對ChatGPT 能力學習進行了解釋:“ChatGPT 通過學習文本中的統計相關性,獲得了這個世界的一個壓縮、抽象、可用的映射表達”.這讓我們不禁思考:ChatGPT 是否學到了人類文字符號世界的暗知識(tacit knowledge)[4].Michael Polanyi 在他的認識論著作中曾提到:“We can know more than we can say(我們所知者,遠多于所能說者)”.可以確定的是:機器學習模型通過統計海量符號語料中的規律,能夠學習到詞匯、語法、乃至一定程度的上下文和常識知識.問題是:隨著語料規模的不斷增加和統計規律的持續積累,模型所建立的世界表達分辨率越來越高、維度越來越豐富時,是否真的有可能學習到人類情感、道德觀念等支撐整個世界運行的更復雜的暗知識?
在學術界積極探索ChatGPT 能力背后的技術原因的同時,工業界已在歡迎這項新技術,并將其優秀的對話生成能力融入各種應用場景.根據ChatGPT對話的對象和本身的定位,我們將這些應用分成4個層次,如表1 所示:

Table 1 Main Applications Categories of ChatGPT表1 ChatGPT 主要應用類型
1)數據生成器.根據需求直接生成數據.此類應用僅輸入用戶需求,利用ChatGPT 的生成能力返回特定類型的數據.由于思路簡潔且實現容易,數據生成類應用在ChatGPT 發布之初就大量出現.主要應用場景包括對話生成(客服、虛擬數字人)、文案生成(法律文書、營銷策劃廣告)和代碼生成等.典型的成功案例包括寫作助手Notion AI①https://www.notion.ai、營銷文案生成工具Jasper.ai②https://www.jasper.ai.
2)知識挖掘工具.對數據進行再加工或分析挖掘.此類應用同時輸入用戶需求和待處理的原始數據,利用ChatGPT 強大的自然語言處理能力返回經過加工的數據或挖掘出的新信息.知識挖掘類應用可以分為離線和在線兩種形式.離線應用通過調用類ChatGPT API 分析和挖掘私有數據等專業領域語料構建知識庫,為進一步應用提供知識支持.在線應用的主要場景包括翻譯、潤色、摘要生成、文檔管理等.一些典型案例包括搜索引擎摘要插件WebChatGPT、文檔分析工具ChatPDF 以及OpenAI 官方隨GPT-4 發布的摩根士丹利策略分析師.
3)模型調度員.調用其他機器學習模型共同解決用戶需求.此類應用同時輸入用戶需求、待處理數據以及多個可調用的機器學習模型,通過ChatGPT作為人類與其他模型間的連接,設計解決方案、調用并管理其他機器學習模型,共同完成用戶需求并輸出結果.這方面的典型案例是微軟近期發布的系列多模態解決方案Visual ChatGPTPT[5]、MM-ReAct[6]和HuggingGPT[7],其通過調度其他視覺基礎模型來協同完成視覺和語音任務.此外,AI 賦能一直以來的一個痛點問題是:智能中臺需要整合不同模型和技術,并根據業務需求擴展新的模型.ChatGPT 有望實現智能中臺的升級,如提供友好的開發/業務人員界面、實現模塊化模型管理、簡化技術集成和部署,從而提高AI 賦能效率.隨著ChatGPT 應用探索的深入,相信模型調度員類型的應用將越來越受到關注.
4)人機交互界面.調用更廣泛的應用程序幫助人類解決實際問題.第一種形式是將ChatGPT 嵌入到特定應用中,從而極大地提升自然交互體驗,如微軟的365 Copilot 和Copilot X 分別將ChatGPT 融入Office 和Github.第二種形式是在ChatGPT 搭建的自然語言交互框架上開發各類信息服務應用,去年10月推出的開源庫LangChain 和OpenAI 最近發布的插件集Plugins 都是大型語言模型應用開發框架的典型嘗試.正如Windows 和Android 分別是桌面和移動時代的操作系統,ChatGPT 有望成為智能時代的操作系統接口.進一步暢想,如果把語言分為人類之間溝通的自然語言和人與計算機之間溝通的計算機語言,ChatGPT 在一定程度上統一了二者:用自然語言實現了人和計算機之間的溝通,不得不說“自然語言編程(natural language programming)”這一新詞非常貼切.從這個角度看,我們甚至可以大膽預測:人機交互界面將從磁帶、鍵盤字符、鼠標圖形全面進化到自然語言時代.
以上圍繞對話生成討論了ChatGPT 的具體能力、背后的技術原因以及在不同定位下的應用形式.盡管“對話生成”提供了無限的想象,但OpenAI 的野心顯然并不止于此.從名稱和發布時間點來看,ChatGPT似乎只是一種過渡性技術的產品形式.在以對話這種產品形式向主流用戶群展示了強大的技術實力之后,OpenAI 新發布的GPT-4 并未繼續在對話生成功能上炫技,而是悄然接入了各類官方應用.
從生物學角度,語言和智能的演化過程相互促進.人類智能在很大程度上依賴于高度復雜的語言系統.語言作為思維的載體和智慧的外在表現,其運用能力很大程度上反映了認知能力和智能水平.語言習得是認知發展的重要組成部分,兒童在成長過程中通過習得語言來理解世界,并逐漸掌握其他認知技能.ChatGPT 等技術在語言生成能力的持續提升能將人工智能帶到什么高度,讓人非常期待.
能力越大,責任越大.ChatGPT 展現出的強大能力讓主流用戶群欣喜、學術界驚訝、工業界狂熱.這些能力讓我們在使用它時感受到了與以往技術不同的體驗.回顧人類歷史上的幾次技術革命,從早期的石器、金屬器具、機械設備、電氣設備到近幾十年的計算機、互聯網和智能手機,每一個階段所發明的工具都對人類生活產生了深遠影響.在使用這些工具時,我們可以清楚地意識到它們作為工具的定位,即輔助人類來完成任務.然而,在使用ChatGPT 的過程中,我們經常會產生一種與另一個人對話的錯覺,尤其是當類似Plugins 這類功能使其能夠像人類一樣利用其他工具進行自我增強的時候.埃隆·馬斯克在使用ChatGPT 后的感受是“好到嚇人”.這種獨特的體驗無疑將加速技術融入人類社會的進程.正如OpenAI 自己對ChatGPT 的評價:“盡管 ChatGPT 還沒有實現真正的智能,但它讓人體驗到了真正的智能實現后,每個人都能用它做各種他們想做的事情的滋味”.
整個2023 年3 月都被各種生成式AI 技術和產品的發布充斥,如Meta Alpaca、GPT-4、PaLM-E、文心一言、Office Copilot、Midjourney V5、英偉達新顯卡 、Github CopilotX、ChatGPT 插 件 、Security Copilot 等.我們可以預見相關技術的應用領域將迅速拓展、應用程度將大幅度加深.人們在享受技術帶來的便捷和生產力提升的過程中,對技術的態度將從習慣逐漸轉變為依賴.而當人們開始依賴這些技術代替自己學習、思考、甚至決策時,有2 個問題擺在我們面前:技術是否已經做好準備承擔責任?人類對技術的信賴是否超出了它的能力?
實際上,ChatGPT 在使用過程中已被發現存在諸多問題,如數學計算、未來預測、時空物理現實推理等方面能力的局限,以及事實錯誤(幻覺)、生成毒害內容等方面的不可控[8].下面從可信AI 的4 個維度對ChatGPT 存在的問題展開討論.
1)安全性.OpenAI 在官網上將“安全”列為五個目錄之一,在隨GPT-4 發布的報告中批露了其在技術和評估兩方面都設立了專門的安全小組,足見其對安全性的重視.然而,和所有機器學習模型一樣,ChatGPT 仍存在著被對抗攻擊的風險.一種典型方式是提示語注入攻擊(prompt injection attack):在提示語中混入惡意指令,可能繞過ChatGPT 的安全機制,迫使其執行意外動作,如泄露敏感信息、輸出有害內容等.例如,ChatGPT 驅動的新Bing 在受到攻擊后泄露了其內部代號“Sydney”;ChatGPT 被誘導規劃搶劫方案,甚至提供了購買搶劫道具的鏈接等.
2)公平性.在ChatGPT 之前,OpenAI 的文生圖DALL-E 系列曾被發現存在輸出性別和種族歧視內容的問題.類似地,GPT-2、Bert、RoBERTa 等語言模型在一個測試項目中也被發現具有嚴重的性別偏見傾向[9].盡管目前尚無系統性地研究分析ChatGPT 在性別和種族偏見方面的表現,但已有研究發現它存在明顯的語言敏感性.例如,當用日語和俄語分別詢問一個日俄爭議島嶼的歸屬問題時,ChatGPT 給出了截然不同的答案[10].
3)可解釋性.ChatGPT 的思維鏈能力可以在答案中同時呈現推理過程,這在部分程度上解決了實驗室環境下模型可解釋性的問題.然而,需要注意的是,這種推理過程的解釋是面向用戶的,并不一定與模型的實際運行機制準確對應.此外,ChatGPT 仍存在很多尚未解釋的行為,包括自我在線糾錯、理解弦外之音等能力,以及出現事實錯誤(幻覺)等問題.由于大模型本身的復雜性以及僅通過API 提供服務的現實限制,ChatGPT 對于用戶和開發者都是完全的黑箱.隨著應用場景的拓寬和加深,現有的解釋性水平可能難以滿足透明度和回溯性等的要求.
4)數據隱私.涉及訓練階段的數據侵權和推理階段的隱私泄露兩個方面.大模型訓練需要的海量數據多來自網絡,其中難免包括未經授權的版權保護內容.ChatGPT 雖然可能避免語句層面的抄襲,但難以避免語義上的深度抄襲.2023 年,大模型領域發生了多起版權侵權案.例如,3 名藝術家指控Stable Diffusion 使用其版權作品作為訓練數據,而微軟和OpenAI 因其開發被指控其開發的編程助手Copilot涉嫌復制Github 上的開源代碼而受到指控.在推理階段,攻擊者有可能通過逆向攻擊等手段,利用模型輸出的結果來反向推導出訓練數據中的隱私信息.GPT-2、BERT、RoBERTa 等語言模型均被發現存在數據隱私泄露的風險[11].隨著模型規模和功能多樣性的增加,這種風險可能進一步加大:模型規模越大,其記憶能力越強;功能越多樣化,可被利用的信息和攻擊方式也越豐富.ChatGPT 自身代號的泄露便證實了這一點.
從生成式AI 模型選擇的技術路線和當前發展水平看,這些問題既可以歸結為大型語言模型固有的結構局限,也可以歸結為將符號任務統一建模為對話問題的過度簡化.關于這條技術路線的未來發展,同時存在著樂觀和悲觀兩種觀點.樂觀派認為,人腦神經元突觸連接總數約為一百萬億,隨著語言模型參數量的不斷增加,模型可能在某個時刻實現量變到質變的躍遷,這些問題也會自然消失.然而,包括喬姆斯基、Stuart Russell 等大佬在內的悲觀派則持相反觀點,他們認為端到端的深度學習與人類進行推理和使用語言的方式有著巨大差異,依靠更多數據和算力無法消除這些缺陷或實現真正的智能.
不討論技術路線的選擇或者觀點的對錯,不管生成式AI 模型的能力演進到何種程度,其定位始終是幫助人類更好地完成任務的工具.作為工具,首先應該明確能力邊界,即“做自己能做的事”.在認知心理學中,約瑟利窗口(Johari Window)將人際關系劃分為公開區、盲區、隱藏區、未知區四個象限[12].參照這種方法,如圖2 所示,我們可以沿“自知”和“能力”2 個維度繪制一個坐標系,智能工具處理的任務將落在其中一個象限內.當任務落在“自知”負半軸的2個象限時,可能會出現不可預知的問題:在隱藏區時,模型“不知道自己能”,可能在收到用戶反饋后將原本正確的答案改為錯誤,或接受用戶錯誤反饋的引導;在未知區時,模型“不知道自己不能”,可能會產生事實錯誤幻覺,一本正經地胡說八道.

Fig.2 Awareness-capabilities coordinate system圖2 “自知”-“能力”坐標系
根據“自知”-“能力”坐標系,首先需要明確能力邊界,即擴大“自知”正半軸2 個象限的覆蓋范圍,使更多任務落入公開區和盲區.在公開區時,模型可以自信地回答用戶的問題;而在盲區時,模型應該承認能力缺陷,避免回答不知道的問題,或者虛心接受用戶的反饋引導.PAL[13]是開發隱藏區的一個例子,通過在提示詞中注入包含推理過程的程序示例,成功挖掘了模型在原本容易回答錯誤的數學推理類任務的解決能力.在明確能力邊界后,需要進一步提升模型的能力,即擴大“能力”正半軸、尤其是第一象限的面積,使更多的任務從盲區轉移到公開區.縮小盲區的一個例子是ReAct[14],它將推理和行動結合,通過調用搜索等插件從網絡等外部資源中逐步、有選擇性地收集和處理新信息,從而提高了模型在各種復雜場景下的解決能力.另一個最新提出的框架Reflexion[15],它在ReAct 基礎上加入了自省(Reflect)功能,通過試錯的方式,在尋找自身能力邊界的同時,探索新任務的解決方案.這是一個在同時確定能力邊界和提高能力范圍方面很有意思的嘗試.
當然,“自知”-“能力”坐標系只是一個理想和簡化的框架.人類在執行任務時,通常會考慮諸如道德、倫理、公平等價值觀.而ChatGPT 并不具備人類的價值觀和判斷力,可能會生成與事實相悖的錯誤信息和誤導性的建議.比如,當用戶詢問“林黛玉是如何倒拔垂楊柳的”,ChatGPT 會一本正經地介紹相關具體細節.事實上,《林黛玉倒拔垂楊柳》是一部網絡小說,中文論壇上也有許多對這一虛構情節的討論.模型在學習這些語料時無法區分虛構和現實,因此產生了這個尷尬的回答.隨著GPT-4 的發布,可以預見ChatGPT 將有能力在符號世界中實現自動化生成.然而,它依然不能確保所生成內容的真實性,自然更無法對生成結果承擔責任.
為了解釋為何ChatGPT 無法保證結果為真,首先需要探討什么是“真”.“真”的定義有很多,本文采用亞里士多德的經典定義[16]:說是者為非,非者為是,即為假;而說是者為是,非者為非,即為真.基于此,Tarski 提出一個更形式化的“真”的定義[17]:
X是真語句當且僅當p,其中p代表任意語句,X是語句p的名稱.
即,一個語句是真的,當且僅當它描述的情況確實發生了.比如:“樹在長芽”是真語句當且僅當樹在長芽,即“樹在長芽”是真語句當且僅當樹在長芽確實發生了.
但是,這個看似合理的“真”的定義卻隱含矛盾.Tarski 轉述了烏卡謝維茨的加強版說謊者悖論:
令C是“C不是一個真語句”的名稱,因此,有如下2 個假設:
1)α假設:C=“C不是真語句”;
2)β假設:“C不是真語句”是真語句當且僅當“C不是真語句”.
綜合α假設與β假設,即可以得到:C是真語句當且僅當“C不是真語句”,悖論.
Tarski 關于“真”的定義和上面的推理似乎都沒有問題,那問題出在哪里呢?我們認為問題出在概念的定義上,因此需要仔細考察概念的定義.
眾所周知,概念的經典表示由3 部分組成:符號表示、內涵表示和外延表示.其中,概念的符號表示由概念名稱表示,概念的內涵表示由描述概念特性的命題表示,概念的外延表示由概念所包含的實例的經典集合表示.比如,“偶數”這個概念,其中文符號表示是“偶數”這個詞;內涵表示是 “能被2 整除的整數”這個命題;外延表示是“包含所有偶數的集合”:{…, -6, -4, -2, 0, 2, 4, 6, …}.
如圖3 所示,根據經典表示,每個概念具備3 種功能:指名、指心和指物,同時對應著波普爾的3 個世界:符號世界、心理世界和物理世界[18].概念的指名功能,是指每個概念都指向認知世界或符號世界中的一個實體,用所指對象的特定符號名稱來表示.這些符號名稱可以組成各種不同的語言.概念的指心功能,是指每個概念也指向人類心理世界中的實體,代表這個概念在心理世界里的對象表示.概念的指物功能,強調概念與物理世界中的實體之間的對應,這些實體遵循物理世界的規律,可以獨立于人的主觀感受.

Fig.3 Classical representation of concepts圖3 概念的經典表示
如果從概念的表示來實現人工智能,指名、指物、指心對應了3 條路徑:符號主義、連接主義和行為主義.如果從概念的功能角度來對人工智能分類,可以分為認知智能、情感智能和行為智能.認知智能實現了概念的指名功能,即處理和理解符號世界的問題.情感智能則實現了概念的指心功能,主要關注心理世界中的問題.而行為智能則體現了概念的指物功能,主要解決物理世界中的問題.然而,如果要實現概念的三指功能,必須首先解決機器的感知問題.解決機器感知問題是最基本的人工智能,通常被稱為感知智能.感知智能主要關注機器的輸入輸出處理,是實現認知智能、情感智能和行為智能的基礎.
在概念的經典表示下,概念的指名、指心與指物功能是等價的,其符號表示、內涵表示和外延表示在功能上也是可以互換的.這是因為概念的經典表示存在6 條預設:
1)概念的外延表示可以由集合{x1,x2, …,}表示;
2)概念的內涵表示存在且用命題?xP(x)表示;
3)概念的名稱存在,且用符號表示A;
4)概念的外延表示與內涵表示同名:A={x1,x2,…,}=“?xP(x)”;
5)概念的表示唯一,即同一個概念的表示與個體無關:?α(Aα=A),α代表一個人;
6)概念的指稱等價,即其內涵表示與外延表示在指稱對象的時候功能等價?x(x∈A?P(x)),其中,A={x1,x2, …,}.
根據上述概念的經典表示,可以知道概念的指名、指心與指物功能是等價的.在日常生活中,這種情況非常普遍,因此說真話是通常的情形.羅素曾給出一個清晰的論證[19]:“除非假定說真話是一種通常的情況,否則沒有人能夠學會說話:假設當你的孩子看到一條狗時,你隨意地說出‘貓’、‘馬’或者‘鱷魚’,那么當他看到的不是一條狗時,你無法通過能通過說‘狗’來欺騙他.因此,說謊是一種派生的行為,它預設了說真話是通常的規則.”在上述羅素的論證里,可以清楚地看到,其預設了概念的指名與指物等價,即假設概念的三指等價是真的必要條件.
如果概念的指名、指心與指物功能等價,則可以認為:認知智能、情感智能與行為智能等價.這意味著一旦實現了認知智能,也就同時實現了情感智能和行為智能.同時,人工智能的3 條實現路徑——符號主義、連接主義和行為主義——也是等價的.ChatGPT 和GPT4 的出現,表明認知智能已經取得了巨大的進步.如果概念的三指等價,那么認知智能的巨大進步預示著情感智能和行為智能將取得同樣的巨大進步.從這個角度看,實現AGI 似乎也有可能性.
然而,烏卡謝維茨悖論告訴我們概念三指等價在邏輯上并不永遠成立:它內蘊矛盾.Tarski 的真定義實際上等價于如下命題:概念的指名功能為真當且僅當概念的指物功能為真.顯然,概念的經典表示也預設了Tarski 的真定義.仔細分析烏卡謝維茨悖論的邏輯推理,可以發現α假設與β假設都預設了“概念的指名功能為真”與“概念的指物功能為真”等價,這必然導致悖論.實際上,在概念的三指等價條件下,針對包含算術系統的邏輯系統,哥德爾證明了不完全性定理,而Tarski 得到了著名的真之不可定義定理.這些都說明在復雜一點的符號系統內部,不可能解決何為真、何為假的問題.因此,從理論上講,ChatGPT 和GPT4 同樣無法解決真假問題.因此,有時必須放棄概念的三指等價假設.一旦放棄了這個假設,就會發現認知智能、情感智能與行為智能是不可能等價的.實際上,現實生活中,這三種智能從未等價過.
很多人認為ChatGPT 已經開啟了第四次技術革命.面對這種尺度的變革,我們很難在早期準確預測未來的發展.在這里,我們僅從中短期技術趨勢和長期發展路徑2 個方面,來探討在當前階段我們對這一技術的理解.
OpenAI 發明ChatGPT 對于人工智能領域的影響,可以類比哥倫布發現了美洲大陸.在哥倫布發現美洲之前,探險家們一直渴望著探索新大陸,并嘗試使用各種方法去尋找它.然而,即使是經驗非常豐富的探險家,也并不確定新大陸是否真實存在,以及哪種航海方法更為有效.哥倫布的成功不僅堅定了后來探險家們的信心,更在一定階段內統一了尋找新大陸的方法:在新的突破性技術出現以前,看似簡陋的帆船和羅盤已經足以帶領人們到達目的地.
同樣地,ChatGPT 的誕生為人工智能領域注入了信心并指明了發展方向,展示了“大力出奇跡”的可能:通過不斷擴大神經網絡的模型規模和增加數據量,可以在AI 的道路上取得實質性的進展.在這一目標和技術路線的共識下,我們從拓展應用、克服局限和探索理論3 個方面探討人工智能領域中短期的可能技術趨勢.
4.1.1 拓展應用
1)垂直化.ChatGPT 發布初期,人們嘗試在提示詞中注入角色信息以增強垂直領域對話質量.為克服提示詞token 數量限制以融合領域語料,有工作提出基于LangChain 框架,將領域文檔切片后分布式輸入,但這種做法存在私域數據泄露風險,解決思路之一是利用ChatGPT 控制和調用其他領域模型來提高垂直化能力.此外,麻省理工學院最近提出保護隱私的遷移學習框架Offsite-Tuning[20],可在不訪問完整模型的前提下,在下游領域數據上微調數十億級參數的基礎模型.對于需要構建領域模型的場景,在不泄露基礎模型和領域數據的情況下,實現對通用基礎模型的領域微調非常重要.
2)個性化.個性化可視為垂直化的極致,針對個人需求和偏好的個性化微調模型能夠提供更精確的服務.典型的應用場景包括個性化推薦系統、個性化教育輔導、個人AI 助理等.微軟于2023 年4 月4 日開源了大模型協作項目JARVIS,旨在在大型語言模型與機器學習社區的其他模型之間建立連接.JARVIS 這個名字讓我們對鋼鐵俠中同名的AI 助理產生更多聯想.如果未來個性化模型可以通過多模的人機交互來增強,實現與人類對世界的同步感知、學習和成長,這樣的AI 助手能夠更好地理解個性化需求、情感和行為,協助我們實現更高效的工作、學習和生活方式.在這個過程中,我們需要解決諸如中心平臺式AI 如何保護個人數據以及在個體層面部署模型等問題.
3)工程化.ChatGPT 的誕生在某種程度上是工程化的勝利,而它的成功無疑將進一步加速AI 技術從實驗室研究走向工程化和產業化.從必要性上看,隨著數據量和計算資源需求的增加,工業界擁有更好的條件主導大模型研發,相關實驗室研究也需調整研究范式和目標以適應工程化需求.從可行性上看,ChatGPT 的成功讓工業界看到了AI 技術在各行業落地和價值實現的可能,眾多開源項目和成熟技術框架的出現則為AI 技術工程化提供了支持.從重要性上看,工程化是一個學科發展和成熟的標志,AI 技術的工程化有助于進一步優化和完善相關技術,激發學術創新活力,推動AI 領域的整體發展.
4.1.2 克服局限
1)多模態增強.多模態大模型的發展逐漸以語言模型為主,將視覺、語音等多模態信息映射到語義符號空間進行處理.近年來的多模態解決方案更是提出直接以大型語言模型為基座來拓展多模態能力,如Visual ChatGPT 和MM-ReAct 以ChatGPT 為中心調度其他視覺模型、PaLM-E 固定語言模型訓練額外的視覺編碼器等.然而,人類在進行多模態學習時并不完全依賴于符號空間,大腦神經網絡在不同感官區域間傳遞、整合信息,同時結合視覺形象、空間關系等非符號性表示.由于多模態世界建模更為復雜,以語言模型為主或是現有條件下的一種技術折衷.隨著多模態數據量與模型參數繼續增加,有望在視覺、語音等空間實現真正的多模態生成能力.如被細線系著的氣球照片,無需映射至語義空間,模型即可預測線剪斷后的情景.
2)人機交互增強.有人將現在的ChatGPT 比作一個博覽群書的神童,卻從未親身體驗過這個世界.經典的認知實驗發現,與被動旁觀的貓相比,具有自由活動能力的貓可以通過主動與環境互動并獲得反饋,從而更好地學習行為能力[21].在一項微軟的最近研究中,ChatGPT 已經能夠根據人類的要求自動編寫代碼并指揮無人機協助完成任務[22].通過進一步考慮生物學特性、身體感知和行動的影響,有望實現與真實物理世界的雙向交互,在自主行為反饋中不斷提升自身智能水平.
3)可信增強.之前的討論已概括了ChatGPT 當前的局限和進行可信研究的必要性.可以預見,每個大模型公司都將需要一個專注于可信的安全和倫理團隊.這就不難理解OpenAI 的系列舉措:GPT-4 在訓練完成后經過半年的評估和修正才發布、用30 余頁技術報告介紹安全補丁System Card,以及對模型評估框架Evals 的開源.即便如此,ChatGPT 還是因隱私問題在意大利遭禁,并遭到包括馬斯克和沃茲尼亞克等上千名知名人士的聯名叫停.值得注意的是,除了安全、公平、可解釋、數據隱私等經典可信問題外,ChatGPT 還會帶來模型回音壁等新問題.目前,使用ChatGPT 生成的對話數據進行訓練已經成為公開的秘密,甚至出現了專門收集ChatGPT 對話的網站ShareGPT.其實,在人類反饋強化RLHF 后,就有學者提出了基于智能模型反饋強的RLAIF 框架[23].隨著模型規模繼續增加,可供訓練的自然數據面臨枯竭,模型生成標注和反饋數據在模型間的回音壁效應將加劇可信問題.此外,垂直化、個性化、多模態等技術趨勢也會帶來新的可信挑戰.關于可信增強的方案,考慮到傳統AI 測試基準已不足以評估模型能力,我們需要盡快構建新的可信測試基準:包括可信benchmark 數據集和可信測試框架.此外,為了準確評估模型的應用成熟度,我們應該研制面向大型語言模型的可信標準,以規范不同可信等級的模型在相應的應用場景中使用.同時,結合工程化的發展趨勢,我們可以參考軟件開發周期中的測試-調試閉環,在基礎模型和下游模型2 個層面進行迭代優化,以確保模型在大規模應用場景中的可信性.
4.1.3 探索理論
1)預訓練模型機理研究.近年來,計算機視覺和自然語言處理領域的技術框架逐漸趨同.學習范式從特征工程、深度監督學習轉向自監督預訓練,模型結構從CNN、RNN 發展為Transformer.針對自監督預訓練和Transformer 結構,仍有很多基礎性問題需要研究,如自監督學習泛化理論、預訓練與微調的動態平衡分析、Transformer 結構的定性和魯棒性分析等.對于ChatGPT,除了探究其在線糾錯、理解弦外之音等原因未知的能力外,還需進一步研究任務涌現能力與模型規模以及訓練數據量等的關系,為未來模型設計和實際應用提供指導.
2)學科交叉融合研究.ChatGPT 作為催化劑,不僅將推動人工智能學科內部計算機視覺和自然語言處理領域的進一步整合,而且將激發學術界和工業界更加深入地探討和實踐人工智能和其他學科交叉融合以及跨學科應用的可能性.以腦科學為例,結合腦結構和人工神經網絡研究,我們將更有可能揭示智能產生的本質原因.實際上,OpenAI 的首席執行官Sam Altman 早就投資了可控核聚變公司Helion 和生物科技公司Retro Biosciences.科技部近期啟動的“AI for Science”專項部署工作更是明確指出了將人工智能與數學、物理、化學、天文等基礎學科緊密結合,重點攻關藥物研發、基因研究、生物育種研發、新材料研發等領域的關鍵問題.
我們沿著概念經典表示和人工智能分類的討論來看AI 未來可能的發展路徑.《左傳》里有句名言,“太上有立德,其次有立功,其次有立言”.顯然,立德屬于心理世界,是情感智能的范疇;立功屬于物理世界,是行為智能的范疇;立言屬于符號世界,是認知智能的范疇.應該指出,這3 個世界既互相獨立又相互依存.比如,符號世界也必須通過心理世界表示才能為人所感知,同樣符號世界也必須通過物理世界顯現展現才能傳播.對于人而言,認知的物理世界本身也屬于符號世界的示例,沒有成為符號示例的物理對象難以被符號世界記錄,同樣,物理世界也是通過心理世界被人感知.
這3 個世界各自都足夠復雜.在符號世界中,有自然符號、模擬符號和象征符號.其中自然符號直接用物理世界中的對象作為符號,比如圖書館里學生用書包或其它個人物品占座.此時的書包或個人物品就有了符號意義,屬于典型的自然符號.圖像、視頻等是典型的模擬符號.文字是最常見的象征符號.至于心理世界、物理世界的復雜性,更是眾所周知.
為了計算方便,通常假定概念的三指等價,即符號世界、心理世界、物理世界三界同構.比如,符號主義的物理符號系統假設認定物理符號系統具有產生智能行為的充要條件,這暗示了符號世界與物理世界等價.連接主義認為只要能模擬大腦的思考功能就足夠了,實際上它假設了心理世界(或其子集)與物理世界等價.行為主義則認為只要能在物理世界實現智能,不需要知識、表示和推理,只需要感知和行動,這意味著符號世界、心理世界是物理世界或其子集.但是,3 個世界并不同構.比如,喬姆斯基曾經寫過一個著名的句子:“Colorless green ideas sleep furiously.”這個句子在符號世界可行,但在心理世界和物理世界就失去了可行性.因此,3 個世界同構假設僅是一種有用的簡化,并不總是成立.
由于3 個世界并不同構,它們之間的關系相當復雜.這導致在3 個世界中實現智能的難度也大為不同.從共性上講,無論在哪個世界實現智能,首先必須解決最基礎的感知問題,即輸入輸出問題.從難度上看,感知智能、認知智能、情感智能、行為智能依次增加.原因很簡單:感知智能保持了3 個世界同構假設.從認知智能開始,我們必須放棄3 個世界同構的假設,只能假設3 個世界的某些受限子集同構.認知智能旨在解決符號世界的智能問題,其實現主要受制于符號世界的規律,這些規律可能是顯知識,也可能是暗知識,但認知智能依然在符號世界內預設概念的三指等價.情感智能主要解決心理世界的智能問題,除了受制于心理世界外,也受制于情感所在的物理個體,即情感必須在認知層面具備具身特性.理論上,西施難以與青蛙共情,夏蟲不能與秋雁同語.對于機器來說,情感智能是基于認知智能的,情感智能也是依賴于機器內部的符號操作.僅有認知智能并不能實現情感智能,情感智能的實現難度髙于認知智能,情感智能預設心理世界內的概念三指等價.行為智能主要解決物理世界的智能問題,不但受限于作為行為主體的自身物理條件,也受限于其所處的物理環境,約束最多,因此實現難度最大.莫拉維克悖論實際上是對行為智能實現難度最大的一個簡單說明.對于行為智能來說,任一概念的三指等價都需要檢驗,任一概念的三指等價都不能先驗預設成立,這正是莫拉維克悖論背后隱藏的挑戰.圖4 比較清楚地說明了概念的三指等價性從默認成立到必須檢驗所對應的不同智能階段.

Fig.4 Equivalence of three-way concept reference w.r.t intelligence levels圖4 三指等價在不同層次智能的適用性
根據以上分析,人工智能的發展路徑可以預測為:首先成熟的是感知智能,次之為認知智能,再次為情感智能,最后是行為智能.這與人工智能目前的現狀相符.當前,感知智能的問題已經大部分解決,已經融入人們的日常生活.得益于ChatGPT 等技術,認知智能的問題已經初步解決,即將走入人們的生活.情感智能的問題部分解決,受限可用,比如在三界同構假設成立時,可以使用類ChatGPT 技術.行為智能的問題尚極具挑戰性,在目前的情況下可用性受到嚴重限制,如在工廠等封閉場景下部分可用,人們日常生活的特定需求如果能保證場景封閉,即對應的相關概念可以保證三指等價成立,則行為智能可以實現,如自動售貨機、自動烤腸機、電飯鍋、懶人鍋等。保證概念的三指等價是行為智能成功的必要條件.
粗略地說,感知智能是人工智能中的基礎智能,可視為人工智能的1.0 階段.認知智能是人工智能的2.0 階段.情感智能則為人工智能的3.0 階段.行為智能可以看作是人工智能的4.0 階段.目前的人工智能發展已經進入了AI 2.0 時代,未來的AI 3.0 和AI 4.0還有待努力.
人工智能發展至今已邁入認知智能時代,確實取得了重大進步.雖然離AI 3.0 和AI 4.0 距離尚遠,但其依然將對我們的生活產生重要影響:
1)生成式人工智能的成功提醒我們,符號世界、心理世界、物理世界三界同構假設不是恒真.今后,各種符號的證據力量需要檢測,不能預設概念的三指等價為真.比如,不能再簡單地認為,有圖有視頻就有真相了.這不僅大幅增加認知成本,還考驗認知能力.目前,國內外已有用生成式人工智能詐騙的案例。如何防范這類詐騙是未來要面對的挑戰.
2)每次技術進步都對教育提出了更高的要求,這次也不例外.ChatGPT 展現出的認知水平要求人們更注重提出問題和獨立判斷的能力.鑒于符號世界的人類普適性,教育尤其是高等教育需要提前布局.
3)ChatGPT 表明認知智能已可用,但依然不能通過原始的圖靈測試.這表明圖靈測試是有啟發性的思想實驗,但不是衡量智能的實踐標準.
4)ChatGPT 的成功為國內人工智能學術界帶來機遇與挑戰.機遇包括提高學界對相關問題的理解,例如任務的主觀性,以往的多任務可能在新視角下視為單任務;同時,全社會也提升了對人工智能潛在能力的認識,這將極大推動相關產業的發展.然而,挑戰也不容忽視:應用研究方面,社會對技術的期待提高,更加注重實效性和實用性;理論研究方面,該技術已領先于理論,亟需加強理論研究.
5)類ChatGPT 技術的大規模應用可能導致意識形態等方面的信息繭房效應.特別是類ChatGPT 是中心化的人工智能平臺,容易使人們在獲取信息時只接觸到特定內容和片面觀點,這一方面會加劇社會分化,另一方面會降低觀點多樣性,阻礙創新思維的產生,為社會帶來潛在危害.
6)大模型對計算量的巨大需求可能會加劇全球能源消耗,并對環境產生不良影響.我們期望AI for science 通過加速科學發現,更迅速地找到可持續能源解決方案和新的節能技術,從而盡量降低這些負面影響.
7)ChatGPT 在提高生產力方面潛力巨大.通過自動化處理一些繁瑣的、重復性的任務,它可以解放人們的時間和精力,讓人們關注于更有價值、更具創造力的工作,進一步推動社會創新和發展.
8)ChatGPT 的出現,預示人工智能進入AI 2.0 時代,但距離AI 3.0 與AI 4.0 尚遠.AI 3.0 與AI 4.0 均要求具身.一旦具身,如何通用?從概念的表示理論來看,AGI 似乎只可能是AI 的理想,難以成為AI 的現實.
作者貢獻聲明:桑基韜負責撰寫第1、2、4.1 節;于劍負責確立論文框架、撰寫第3、4.2、5 節.