摘要:從判別式人工智能到生成式人工智能的發展使得作為技術基底的大語言模型不但引起了空前的關注,也成為科技創新產業競相追逐的新熱點。在內在結構方面,大語言模型雖展現出強大的泛化和涌現能力,但也存在泛化能力差、過度擬合、數據偏差等問題,其“涌現”現象也難以預測和控制。同時,大語言模型面臨數據抗衰和模型退化的發展瓶頸。隨著時間推移,性能受“模型漂移”的影響在多模態、多任務領域明顯下降,商業化落地受阻,部分企業的先發優勢難以超越。盡管大語言模型的突飛猛進被視為信息社會新階段的標志,但是其發展面臨著有待解決的挑戰和限制,以及背后曠日持久的能源和財力消耗。因此,唯有深入研究大語言模型技術的底層邏輯和運行原理,進行針對性測試和評估,批判性地審視其生成的價值邏輯,才能更有針對性地處理大語言模型對社會關系產生的影響,從而更好地解決人機協同及交互界面等問題。
關鍵詞:大模型;泛化;模型退化;價值
基金項目:國家社會科學基金一般項目“德勒茲資本批判視域下的西方平臺資本主義研究”(項目編號:20BZX011)
中圖分類號:B84;TP18 文獻標識碼:A 文章編號:1003-854X(2025)01-0104-08
在2023年度中國十大學術熱點排行中,“生成式人工智能與知識生產范式變革”赫然名列其中。而作為其技術基底的大語言模型成功引起了研究者、產業界和監管機構的高度關注。國內和國際AI界都非常重視大模型尤其是在此基礎上向通用人工智能發展的安全問題。2023年11月23日,在第二屆全球數字貿易博覽會數據要素治理與市場化論壇上,國家數據局局長劉烈宏在解讀接下來的工作任務時,特別提出數據基礎設施要為數據應用方提供適應于通用化的智能決策、輔助設計、智慧管理等能力,也要充分利用人工智能大模型的最新成果,促進數字化轉型和智能化升級。為此要推進數據領域核心技術攻關、強化數據安全治理。而來自歐盟委員會、歐洲議會和27個成員國的代表,也在2023年12月早些時候達成了一項三方協議,擬對人工智能監管進行立法并已完成草案的準備工作。其中一個重要方面就是對大語言模型開發人員基本的透明度要求。法案根據商業用戶數量和模型參數對大模型采取了分級管理的制度,但透明度要求將適用于所有模型,包括在不泄露所有者商業機密的情況下有義務發布訓練數據概要,并要求人工智能生成的內容必須做到可即時識別。對于前沿大模型,相關的合規義務還包括定期披露模型評估、跟蹤系統風險、網絡安全保護以及模型能耗在內的詳細報告。
由此可見,一方面由于人工智能發展的無限潛力以及它為改變世界提供的巨大可能,另一方面也由于技術本身的不透明性和其發展過程的不確定性,業界、社會、學術界和多國政府之間已經開始有意識地形成知識共享和最佳實踐協同,重點關注安全標準和安全實踐,通過確定人工智能安全方面最重要的開放研究問題來支持人工智能安全生態系統,以減輕各種潛在風險。很多業內人士在不同場合表示,目前在推動大模型商業化落地方面還面臨諸多痛點:如何精準針對市場需求來開發下游場景應用?如何保證長期充裕的資金和能源支持?是追求算力無限升級還是尋求有效性算力?更為關鍵的是,高質量訓練數據集的迭代更新以及使用安全和可解釋性的問題,也亟待解決。在這種重要性之下,從算法邏輯、機器學習的特點以及場景應用出發對大模型所提供的知識生產方式和結果進行批判性分析就是非常必要甚至急迫的事情,因為它既可能對當下的社會認知和未來人類知識圖譜發生重大且無法預測的影響(這種影響甚至有可能對今后有關現實的每一個單獨判斷都發生難以察覺和不可逆轉作用,因為一旦使用者對某種特定的知識生產方式產生強烈的信任與依賴,無意識地在認知習慣中排斥其他模型和認知方式,就有可能喪失對所獲得的數據和信息進行批判性思考的能力),同時也會關系到當前政府和產業界對于大模型技術的支持和布局。
一、大模型的內在結構瓶頸:泛化和涌現
ChatGPT的爆熱不僅使OpenAI自2023年以來收獲了最高的關注度,也成功帶動了知識界、產業界以及立法監管機構對大模型技術的了解和追捧。僅就行業發展而言,在國際上,除了GPT的生成式預訓練模型外,同樣基于transformer的BERT、被證明在視覺對象識別和分類中極為成功的深度學習模型ResNet、基于LSTM架構的上下文感知模型ELMo、在文本分類和情感分析任務上表現優秀的自然語言處理模型RoBERTa,以及眾多適用于專項任務的深度卷積神經網絡模型都得到了不同程度的發展和應用。在國內,百度的文心一言、阿里云的M6、騰訊云的MT-SAT、科大訊飛的星火和華為的盤古大模型等預訓練模型也在推進技術的同時,試圖結合已有的構架創造新的人工智能應用場景。一種加速主義的立場被貫徹到了從科技界到人文社會科學領域。在媒體的推波助瀾之下,人們普遍相信對大模型性能的持續優化和迭代可以實現智能的突破。
這些爭奇斗艷的大模型,盡管性能不同,但都可以通過機器學習有效地從大量標記和未標記的數據中捕獲具有邏輯關系的信息,并通過將這些信息(和人類理解的“知識”并不完全重合)存儲到大量的參數中并對特定任務進行微調,極大地擴展了模型的泛化能力。這就使得它們在應對不同場景的任務時,不再需要完全從零開始,而只需要借助少量的樣本進行微調即可。更為關鍵的是,實現了有效泛化之后的大模型在突破了某個規模時可以展現出驚人的“涌現(emergence)”能力,即令人意想不到的知識生產能力,它可以在沒有直接訓練過的任務上表現出非常優秀的性能。這種涌現能力之所以讓人倍感驚異,其主要特質有兩點:第一是它們的突然爆發性,它不是一個漸進的程度改變的過程,而似乎是瞬間從不存在轉變為存在的非線性不連續過程;第二是它們的不可預測性,不但難以預測其出現的規模,就連規模的縮放也并不和模型的規模縮放成正比。新的研究和評測還表明,在某些任務和模型中存在超出閾值的復雜度,超過該閾值后模型的功能會急劇提高。盡管對于“涌現”的原因和其在人工智能發展過程中所代表的意義眾說紛紜,但相對較為一致的共識認為,“涌現”現象是復雜系統內部各個組成部分之間的相互作用和協同作用所導致的系統整體表現出來的性質和行為。這些性質和行為無法簡單地從各個組成部分的性質和行為中推導出來。簡單地說,其性能的戲劇性躍升無法簡化或還原為某個或某些因素及它們之間的作用。
這種看似神奇的能力使得作為人工智能基底的大模型技術更添“玄學”色彩:有人甚至認為這種不可預測的能力所具有的無限潛力可以被認為是人工智能“覺醒”的表現。伴隨生成式人工智能ChatGPT的乍現而來的“機器意識”話題至此更被放大,“智能涌現”“智能意識”的概念一度在驚艷之外還加深了人們對人工智能發展長久以來就有的焦慮。那么,從“泛化”到“涌現”,是否意味著大模型技術已成為解決問題的最佳選擇或具備向通用人工智能轉變的基礎了呢?答案到目前為止都是否定的。
首先,大模型技術的良好應用前景必須建立在模型的高“泛化”能力的基礎上,而模型的“泛化”性能是指模型對非訓練數據集(即新數據)的適應能力和推廣能力,它是一個機器學習模型在面對新的數據集時表現優劣的衡量指標之一。“大語言模型不像循環神經網絡那樣單線程地進行學習,而是同時有大量副本各自就不同文本展開學習,并通過共享權重或梯度的方式即時性地分享學習成果。”(1)一個好的模型需要具備較高的泛化能力,這也就意味著它的運行不僅應當在用來訓練的數據上表現出色,還應該可以在基于其他數據的測試集、驗證集以及實際應用中展現出良好的預測性能,只有這樣才能夠適應新的數據集并具備較好的預測精度。這種遷移學習的能力,即把從過去的經驗(訓練數據)中學習到的邏輯鏈條、知識表達和策略應用到新的數據場景中的功能(也是大模型的“舉一反三”),是大模型最被需要的能力。換句話說,以大模型技術為基礎的人工智能要在不同的下游場景中適應良好并應用自如,必須要提高模型的“泛化”性能,這也是向通用人工智能轉變過程中的一個核心問題。
模型“泛化”能力差有兩種不同的表現:過度擬合與擬合不足(欠擬合)。由于訓練數據集和測試數據集不重合,當模型可以在訓練數據上獲得較好的表現,但在測試數據集上卻表現欠佳的時候,被稱之為過度擬合。出現這一現象的原因可能是模型過于復雜。而當在訓練數據集和測試數據集上面都不能獲得良好表現時,則被認為是擬合不足,原因則是模型過于簡單。兩種情況都無法表達數據之間的真實關系。
因為這個原因,有學者和業內人士對大模型技術的普遍應用的前景提出了質疑。他們認為,依賴于巨型數據集和高算力的大模型并不是解決所有人工智能技術問題的萬應良藥。因為大模型所依賴的自回歸算法不但需要耗費巨大的能源資源和長時的訓練,而且其擬合不足和過度擬合的問題難以在隨機的驗證數據集中體現出來。其所導致的模型崩潰會極大地影響下游應用。而這些問題的產生,不僅取決于參數和數據的數量,還取決于模型結構與數據形狀(即數據分布的離散度)的差異大小。以目前的GPT-4為例,其自身所生成的文本一旦進入自己的訓練數據庫,則必然改變人類知識所具有的多樣性,過度擬合的收縮將難以避免。對這個問題的補救往往需要訴諸更大更全更新的數據庫進行多次驗證,這種循環顯然是非良性的。
而要使得模型具有良好的泛化能力,不但要在特征選擇和特征縮放(選擇與目標變量高度相關的特征,以及去除噪聲和冗余特征)與數據增強方面投注更多精力,更需要通過結合多個模型來提高泛化能力。事實上,越簡單的模型越具有更好的泛化能力,模型的復雜度會增加泛化的難度。因此,在訓練模型時,可以通過早期停止法、正則化等方法適當地調整模型的復雜度,以避免過度擬合引起的模型崩潰。但這一做法本身卻又和大模型發展要求的多模態和多任務融合的基本傾向之間存在一定的張力。因為按照傳統的機器學習泛化理論,模型的參數量越多,其擬合能力也就會越強,這意味著模型的泛化能力會越差。作為很多大模型底層的深度神經網絡,其參數規模一般極為可觀,這就導致它的泛化能力和參數量增長之間的關系呈現出開放性特征,并不是參數越大越好。大語言模型(LLMs)在隨著GPT系列驚艷現身后也被爆出存在泛化問題。
其次,對于“涌現”現象,盡管人們的理解還遠不能達到其生成的內在機制,但它也并不如某些技術樂觀主義者宣揚的是“機器智能”生發的奇點。“涌現”這個概念最初是由諾貝爾獎得主物理學家P.W.安德森在其著作《越多越不同(More Is Different)》里提出的。他認為“大型和復雜的基本粒子集合體的行為,并不能按照少數基本粒子性質的簡單外推來理解”(2),隨著一個系統的復雜性增加,新的性質可能會出現,即使從系統微觀細節的精確定量理解都無法預測這些性質。這種非線性突變在小模型中并不存在,這也就是為什么大模型技術在由生成式人工智能帶火的這波發展浪潮中被追捧的原因之一,它被不少研究者和商業人士視作通往超級智能的技術構架。但在AI領域最重要的會議之一、一年一度的NeurlPS神經信息處理系統會議上,一篇題為 “Are Emergent Abilities of Large Language Models a Mirage?” (《大語言模型中的涌現是海市蜃樓嗎?》)的論文獲得了年度最佳論文,文章通過數學方法測評指出,大模型的涌現能力在很大程度上是由于研究者選擇的度量標準而產生的,而不是模型性能在規模擴展中發生了根本質性變化,“所謂的涌現能力會隨著不同的指標或更好的統計數據而消失”(3)。這也就意味著,所謂機器的“自主智能”更多是對于“涌現”成因的不可知性的過于樂觀的想像。
“涌現”作為一種復雜系統的現象,它并不是大模型內在的本質性能力,而取決于很多方面的原因,雖然它在一些時候展現出非常強大和令人振奮的神奇,但它的可靠性卻無法被期待,這體現在以下幾個方面:
第一,“涌現”現象難以被排錯(debug)和調試。由于“涌現”出現的機制和參數規模都并不清晰且難以預測,對其進行識別和debug的難度就非常之大。而且如果數據存在偏差或質量問題,模型的涌現能力和結果都會受到影響。數據偏差可能導致模型在某些情況下表現不佳,甚至產生錯誤的預測或決策。一旦這種錯誤不能被很快監測到,就會在不知情的情況下影響下游應用。
第二,可解釋性差。大模型技術本身的復雜程度就已經非常之高,深度神經網絡的很多關鍵性邏輯仍處于黑箱狀態。“涌現”更是黑箱中的黑箱。其難以提高的可解釋性會導致人機信任危機增加,特別是在需要解釋復雜情況或涉及敏感問題的應用中。
第三,泛化能力有限。雖然大模型的涌現能力可能會在某些特定任務上表現出色,但這并不意味著它能夠在廣泛的領域和場景中泛化。“涌現”所依賴的訓練數據集的多樣性和質量及其結構和參數的復雜性有可能導致模型泛化能力的下降,從而降低其面對新任務時的性能表現。
因而從內在機制來看,雖然大模型的涌現能力令人震驚,但在目前階段依舊存在難以解決的難題。所以在實際應用中需要謹慎考慮其適用性和局限性。大模型的涌現能力也并非沒有局限,對于某些特定的領域,它的性能可能還不如針對專項任務的模型。事實上,在很多任務的實現上,數據的數量并不是保證模型適配性的唯一因素,相反,數據的質量、可靠性以及模型適用性的標準同樣重要。在某些情況下,小數據集可能更加準確和可靠,因為它們更容易進行有效的數據清洗和篩選。弱算力的系統也可以通過使用高效的算法和優化技術來提高性能,如可以使用并行計算、分布式計算和硬件加速等技術來提高系統的效率和性能。而且,和大模型技術后期的“遞歸詛咒”相反,小數據學習進路在后期隨著數據集的增加和模型的優化,可以取得更好的效果。這是因為小數據學習更側重于深入理解數據和模型,通過精細調整和優化模型架構、特征工程等方面,取得更好的效果。這也就意味著,大模型技術并不能完全取代其他的技術應用方法,它的優越性只有在特定的領域內才能體現,并不是所有的場景應用都值得用大模型再做一遍。
二、大模型的發展瓶頸:數據抗衰與模型退化
人工智能的長足發展取決于兩個關鍵性的方面,一是模型的優化和更新,二是下游應用市場的普及和創新。前者是后者的基礎,后者則保證和維持了前者不斷發展的動力。“由于學術研究和行業應用可能共享相同的主干LLM,因此在LLM上的大多數研究進展可能有利于其下游應用。”(4)由此大模型與應用之間形成遞進關系,即先有強大的大模型,才能有優質應用;反過來,只有通過優質應用所吸引的用戶及其產生的數據和反饋,才能幫助大模型不斷優化和改進。“元宇宙”從喧囂一時到后繼無力很大程度上與下游應用的開發缺乏想象力相關。反觀這一波大模型浪潮,從ChatGPT仿佛“機械降神”般的現世到不久之后GPT-4的上線,國內外眾多科創企業的跟進,使得2023年成為名副其實的AI大模型的大戰之年。OpenAI當之無愧地在這一年的大部分時間里都成為引領風騷的先鋒,當GPT-4在下半年增加了“my GPTs(我的GPT)”的自定義設置后,不但提供了一種人際交互創新的平臺,更借助用戶的力量將模型本身的迭代和多任務優化做到了極致。盡管大模型技術的后來者眾,但到目前為止,能在參數、算力和前期積累方面與GPT系列真正一較高下的新模型并未出現,直到谷歌公司在2023年12月6日發布號稱有史以來體量最大、功能最強的大模型Gemini(有Gemini Ultra、Gemini Pro 和Gemini Nano三個版本),用以挑戰GPT-4的霸主地位。
相比于OpenAI將純文本、純視覺和純音頻模型拼接在一起的多模態實現方式,谷歌稱其多模態為原生多模態(natively multimodal),它可以支持輸入文本、圖像、音頻和視頻,輸出圖像和文字,“無縫”理解、操作和組合不同類型的信息,擁有了強大的交互能力。研發者聲稱這種“原生性”體現為模型從初始階段就被設計為“多感官”模型,通過對其“投喂”多模態數據(包括文字、音頻、圖片、視頻、PDF文件等)進行訓練,再根據訓練結果用另外的多模態數據進行微調,進一步提升模型的有效性。在谷歌給出的與GPT-4的對比成績單中,Gemini Ultra在32個常用的學術基準的30個上領先GPT-4。而在MMLU(大規模多任務語言理解)測試中,Gemini Ultra以90.0%的高分,成為第一個超過人類專家的模型。為此,谷歌公司展示了一個長達6分鐘的視頻,用以全方位展現Gemini在多模態任務上的強大性能。在這段視頻中,Gemini仿佛一個智慧體,不僅能觀察周圍世界,及時做出反應,還會說多國語言,并實時用聲音、圖像與人類互動。
然而,正是這個視頻在一天之內就引發了爭議,使得研究者對Gemini的真實能力產生了質疑。面對有理有據的質疑,谷歌公司不得不向媒體承認,這個視頻并非實時錄制,而是經過多次剪輯。但Gemini的研發負責人否認故意造假,稱只是為了簡潔縮短了反應時長,使用了原始鏡頭中的靜止圖像幀,然后編寫了文本提示,減少了延遲。這也證明了Gemini對任務的真實反應速度不但遠遠慢于視頻所展示的,而且仍然在一定程度上依賴于提示工程(prompt engineering)。
一時之間,“翻車”和“造假”之聲四起,谷歌的回應也并沒有收到預期的效應。在關于科技誠信和宣傳策略的拉扯背后,是這場所謂的“造假”風波所影射出的AI公司急于打破頭部霸主的科技壟斷地位、吸引資本市場的焦慮。積淀深厚的老牌企業都如此,各路后來跟進的新秀就更加只能在卷參數、卷任務的路上一路飆進了。科技界仿佛一夜之間變成了大模型加速主義的天下。
與此同時,GPT大模型的缺陷卻在不斷被爆出。先是2023年5月,就有大模型老用戶在OpenAI論壇上開始抱怨GPT-4,即使在熟練的任務領域內也出現了性能下降的情況,他們形容這種情況為人工智能“變笨”了。對于此,OpenAI的產品副總裁Peter Welinder在社交媒體上表示,更多用戶、更長時間的使用(背后是更多的數據)使得ChatGPT在同一任務中發現了更多的問題。這從另一個角度證明了大語言模型的泛化能力存在缺陷,并且它目前能實現的思維鏈條離真正的人類理解還很遠。
這種模型的衰退現象與之前人們普遍相信的“數據飛輪”作用形成了強烈反差。在具有增效作用的數據飛輪中,更多的數據有助于訓練出更好的模型從而吸引更多使用者,進而產生更大數據集和模型參數用于微調和優化。在這個過程中,數據和模型的增長形成了相互促進,并且隨著使用時間的增加效應越快。這正是網絡的正外部性效應的體現,所謂“要么平臺,要么烏有”。多模態大模型的運作實際上形成了一種強大的數據生產平臺,它以自身特有的邏輯機理控制了知識的再生產。但即使在最樂觀的情形之下,數據的“飛輪作用”并不是無限的,它不但存在其自身的閾值,而且它是否能發展到極大值還要取決于限制性條件和需求。來自斯坦福大學和加州大學伯克利分校的研究者在一篇《ChatGPT的行為會隨時間如何變化?(How is ChatGPT's behavior changing over time?)》的論文中提出:大模型的性能表現可以在較短的時間內有巨大的差異,并不總是穩定。因此“需要不斷地評估和評估應用程序中LLM漂移的行為,特別是由于像ChatGPT這樣的LLM如何隨著時間的更新并不透明”。(5)研究者同時對GPT-3.5和GPT-4做了測試,他們在對四個常見的基準任務——數學問題、敏感問題、代碼生成和視覺推理的結果進行比較的基礎上發現,兩個版本的ChatGPT的表現都隨時間發生了變化,其中大部分是變差,只有極少數的任務出現了優化。并且,這種時間變化沒有形成穩定的曲率關系,難以預測和判斷。這一結果在一定程度上打破了技術研發者和投資者對大模型應用前景所做的樂觀估計。
事實上,這種衰退幾乎是所有機器學習模型的“頑疾”。哈佛大學、劍橋大學、蒙特雷大學和麻省理工學院早在2022年就通過研究結果證明,91%的機器學習模型都會隨著時間的推移出現性能下降。這種退化類似于人類的衰老現象,因而研究者將此稱為“人工智能老化”。這種老化的本質,和“模型漂移”有關,它是機器學習生命周期中一個非常重要的特性,指的是目標變量和自變量之間的關系隨時間而變化。更簡單地說,由于數據變化或輸入與輸出變量之間關系發生變化而導致模型性能下降。由于這種漂移,模型會變得不穩定,并且在大多數時候會隨著時間的推移預測精度不斷降低。“模型漂移”分為“數據漂移”和“概念漂移”兩種,它們分別意指對數據的分布或數據的解釋隨著時間發生了變化,前者會導致訓練好的模型與新的數據變量分布不相關,從而發生結果惡化;后者則可能是獨立或在前者的基礎上,目標變量的含義發生變化,從而使原有的模型喪失意義。從這里可以發現,模型漂移從本質上講反映的是目標變量的動態變化性與預訓練模型的靜態適應之間的張力關系,依賴于人類行為和社會現象的模型可能會更加容易退化,因為這兩者發生改變的幾率和進行解釋的語境相關性要遠高于數學問題。
在機器學習模型的常規運作中,數據飛輪本質上是為了迭代模型,用新模型解決新問題。當數據飛輪的神奇作用不再能被保證、而成了一個如“永動機”一般的神話時,大模型的發展就不得不面對自身的瓶頸。從GPT系列不長的發展歷程可以看到,幾乎其每一次的性能躍遷,都是在預訓練數據的數量、質量、多樣性等方面做出了重要的提升。GPT-2大約有15億個參數,而GPT-3最大的模型有1750億個參數,上升了兩個數量級,GPT-4的參數則達到100萬億規模,規模呈指數級增長。然而,由這樣的海量參數和訓練數據集訓練出來的模型一旦發生漂移現象,對其進行重新調整和訓練也并非易事。盡管理論上,對漂移現象也可以進行建模和監測,但由于巨大的時間成本(長時間的跟蹤和測試、驗證)和數據資源成本(首先要確認漂移區域,在針對性地進行訓練),可行性上存在巨大困難。尤其在多模態、多任務領域,難度更加提升。
這種難度既反映在大模型技術本身的迭代和推進上,也反映在下游的應用場景中。盡管2023年上半年的投資市場極為熱衷于AI場景創新,但真正落地并成功商業化的并不多見。這是由于OpenAI母公司的強勢創新能力和市場野心。在2023年11月開發者大會上,ChatGPT的開發者奧特曼就展示了公司針對多模態、my GPTs以及其他工具的全盤布局,這幾乎涉及了眾多應用公司在這一波浪潮中的全部商業化努力,但其功能卻更強大、價格也更為低廉。無疑,從規模方面來看,大模型暴力美學依賴的大數據、高算力的發展方式使得平臺加速主義的先發優勢顯露無疑,后來者很難在短時間內通過數據增強和模型優化趕超領先者。
正因為如此,更多的應用創業者轉而另辟蹊徑,在專業性的行業大模型方向尋找新的空間。這當然是由于transformer技術的底層構架已經被開源,眾多通用大模型的次第推出使得業界可以直接通過微調的方式使用,而不需要耗費巨大的人力物力和時間單獨完成研發新模型的任務。但在這個基礎上,大容量、高質量的行業數據就顯得至關重要。它不僅是微調模型能否成功的核心,也是其投入商業化應用的市場前景的保證。然而,就目前的情形而言,各行業的數據資源都非常有限,且質量不一。各種統計方法呈現出來的差異也非常大。這種分散性不僅導致了數據達不到調試模型有效性的閾值,還會在沒有統一的數據標準和質量控制的情況下,使得模型訓練效果大打折扣,甚至影響其泛化的效果。而要徹底改變這種情況,勢必增加企業的巨大運行成本。以很多創業者關注的醫療大模型為例,它不但需要各醫療衛生機構開放共享各自的醫療數據來構建行業數據集,還需要再增加數據的豐富性和多樣性,但其有效性和投入使用的收益卻難以預測。這些問題共同構成了當下大模型技術推廣的主要瓶頸。
三、反思認知技術化與數字加速主義
和“元宇宙”主題一樣,人文學者和科創界圍繞大模型和人工智能的種種喧囂——驚嘆、焦慮和躁動——一度讓工具批判和技術解析的聲音很難被理性地看待,除非它被安排上配合流行的驚異—反轉敘事的故事結構。而且,由于人工智能技術壁壘和黑箱始終存在,技術話語和大眾傳播之間的鴻溝難以以有效的科普方式填補,對于該問題的討論在某些時候不可避免地被披上了帶有臆想色彩的外衣。除此之外,媒體在助推這種想象性上扮演了不可忽視的角色,“注意力經濟”的策略使他們更愿意選擇符合受眾期待或更容易引起討論的角度。這些討論毋庸置疑地最終被導向了技術加速與未來社會建構之間的張力關系。和經典的現代性批判以及技術理性批判的思路不同,卷體量、卷算力、卷速度的大模型的眾神之戰讓一種迷戀加速的密集主義傾向和迷戀規模的暴力美學占據了上峰,這很難不讓人想起十年前亞歷克斯·威廉姆斯(Alex Williams)與尼克·斯爾尼塞克(Nick Srnicek)發表的《一種加速主義政治的宣言(Manifesto for an Accelerationist Politics)》(下文簡稱《加速主義宣言》)一文。文章秉承了未來主義主張加快技術革命的一貫取向,倡導通過對已有科技成果的挪用和重新配置,改造社會結構、經濟模型和意識形態,實現人類解放。在這個宣言的核心中,兩位作者對新科技的發展寄予了無限希望,認為解除技術阻礙將導致資本主義崩潰,在此基礎之上產生出新的人類社會形態。德勒茲和加塔利在《反俄狄浦斯》中所描述的資本主義對生產力的壓制和他們描繪出的“解轄域化(deterritorilization)”成為威廉姆斯和斯爾尼塞克的理論資源。
從BERT到ChatGPT再到Gemini的突飛猛進,以及國內AI大廠爭奇斗艷的大模型之戰,標志著信息社會進入了大模型主導的新階段。這讓很多人樂觀地相信,人—機互融,信息、模型和行動的無縫銜接時代即將到來。谷歌也指出在可以預見的時間內通用人工智能將會得到應用和普及,各種領域中的智能系統將具備與人類認知能力相持平的智力水平,能夠勝任多種復雜任務。人們相信,隨著大模型的不斷優化和民用化,其將極大地推動生產力躍升,從而成為社會生產生活的主要工具,重塑經濟社會的生產和再生產方式,全面降低生產成本,提升經濟效益。甚至有人認為,大模型技術集成了互聯網、云計算和大數據的全部生產能力,實現了信息獲取的邊際成本無限趨近零。將來更可以通過智能系統自動獲取信息,利用大模型中樞驅動各類任務系統或通用人工智能,使得社會生產和再生產的總成本將逐漸趨近固定成本,從而從根本上解決資本主義生產的剝削頑疾。
這種美好的設想仿佛《加速主義宣言》的理論藍圖已然成真。但正如奈格里在對這一主張做出反思時指出的那樣,這“是通過將認知勞動從其潛伏期中撕開的方式來釋放它的力量”,以為只要解放被資本壓制的認知勞動生產力,就能夠“最終把握從物質勞動霸權到非物質勞動霸權的轉變……革命的唯物主義歷來都是這樣做的”。(6)奈格里承認,這種斷言無論從政治上還是技術上都過于決定論了,他借用了德勒茲和加塔利的“集體性裝配(collective assemble)”概念來展示重新占有固定資本和轉變勞動力的可能。但事實上,《加速主義宣言》的兩位作者都過于樂觀地解讀了德勒茲和加塔利的理論,他們忽視了后者的另一個概念更加適用于分析認知勞動生產和人工智能社會條件。思考新技術的發展及其社會化應用后果,是縈繞德勒茲資本批判始終的一大主題。德勒茲曾以“公理化”(axiomatization)來形容資本主義生產方式的運行機制和擴張路徑。與前資本主義社會借助特定符號意義,將社會要素的流動限制在特定場域內部、并憑借清晰且不可逾越的規則實現對社會進行整合的“編碼化”體系不同,資本的公理化不但具有更為嚴密和周全的特征,且借助著資本強大的同質化邏輯將所遭遇的一切元素裹挾進自己的洪流,哪怕這些元素本身具有解放性的潛力。這種公理化邏輯并不通過明確的轄域來實施對社會要素的控制,相反,它通過更加普遍的、更具成長性和可塑性的“強中心”體系強化了控制的深度和廣度:“只有一只作為中心計算機的眼睛,它進行著全范圍的掃視。”(7)在此基礎之上,晚年德勒茲曾提出了“控制社會”(society of control)理論,以揭示在信息通訊與互聯網技術普及應用的前景下,資本主義社會統治形式將發生的整體嬗變:技術的進步擴展了資本微觀規訓的社會場域,主體雖從福特制時代的“懲戒社會”中解放,卻又隨即陷入“技術—資本”合謀的控制論圖景之中。更為重要的是,這種控制方式因披上了價值中立和形式開放的外衣,而更加難以被辨識和揭露,從而在深層意義上強化了資本主義的統治秩序。如果說福特制中的流水線、工廠制度代表了產業資本場域封閉性的生產特征,那么后福特制時代的數字管理和數字生產方式則代表了金融資本將信息開放性和主體自由流動性作為生產前提的特征。資本借助信息通訊技術,將生產過程擴展到社會諸微觀生活領域,且在知識生產公域化(實現通用化的知識前提)的前提下形成更趨數字理性的文化結構。而世界范圍內大模型競賽的不斷推高的背后是技術的同一性的宰制(模型、構架、共享數據庫),它必須要消弭任何不能被資本一體化運作框架所涵蓋的異質性因素,這正是資本總體化邏輯的具體展現,它是知識生產從過程到結果都被資本所吸納的結果。正如馬克思所指出的,“資本只有在自己的發展過程中才不僅在形式上使勞動過程從屬于自己,而且改變了這個過程,賦予生產方式本身以新的形式,從而第一次創造出它所特有的生產方式”。(8)
大模型在“泛化”和“涌現”上的結構性沖突以及模型衰退和崩潰的缺陷由于一直停留在應用市場之外的技術領域討論中,因而并沒有給予更廣泛的使用者客觀分析和理性對待其生成結果的機會。它使得人們忽略了對知識生產過程和方式的省察,代之以對人工智能技術的驚嘆式的贊賞和使用。傳統的與知識之間的批判性距離讓位于直接性的上手。從某種意義上而言,大模型的“泛化”性能越強,就意味著它對于新任務和新數據庫的適應性越強,也意味著支撐大模型做出判斷的知識體系和價值邏輯越具有公理性。這種公理性的知識和價值鏈既是通用人工智能的通用性能夠成立的基礎,也是它的人—機界面友好程度的保障,但同時它也制造了一種不驗自明、無可置疑、睥睨一切社會存在的“數字的普遍理性”,使帶有特定價值預設的語言—概念—文化—價值體系被指認為具有普遍性和自然性的現實(甚至真實)本身,而這一體系無疑是現代性都市社會生活所預設的。當技術成為普遍的社會無意識,“泛化”的要求就成了大模型技術甚至通用人工智能的“社會征兆”(齊澤克意義上)。它需要不斷拓展自己的邊界,這導致大模型原有的概念體系和數據庫與新任務之間的矛盾不斷,從而出現模型漂移或崩潰,以至于從內部瓦解了原模型本身。這種被稱之為“社會征兆”的東西喻示著某種在暗中與人們廣為接受的普遍性相對立的具有顛覆意味的特殊性,它是大模型技術造就的“數字的普遍理性”的撕裂口,揭示出認知技術化的無意識幻像成為更大的“他者”。
對大模型的追高使一種具象方式出現的數字加速主義以前所未有的強度和態勢迫近我們的生活。它定位了一種集體性的“崇高客體”,不但用以“縫合”現代世界范圍內、不同文化域中的“漂浮的能指”,甚至能以排他性的方式(過度擬合改變原始數據庫離散度)實現知識重塑和普遍化。正如齊澤克所說:“對既定歷史現實的體驗,要想獲得其統一性,唯一的方式就是獲得能指的代理,通過對‘純粹’能指的指涉。將某一意識形態的統一性和同一性作為指涉點保證的,并不是實在客體。與此相反,正是對于一個‘純粹’能指的指涉,為我們對現實歷史自身的體驗提供了統一性和同一性。”(9)大模型技術正是這樣一個“純粹”的能指,它以對其結構性沖突和瓶頸的遮蔽為世界圖景的連續性提供了技術的保證。那么,真正的問題就在于:當人工智能成為對社會認知方式和文化體系進行結構化的依據時,對大模型加速主義的迷戀是否在一種技術決定論的前提之下抽象地將重塑社會未來的維度簡化成了單一的技術進步?“把技術等同于工具的觀念帶來的是對通過把握真理而處理人自身與世界關系這一原初思考的遺忘,用胡塞爾的話說就是‘科學危機’,即去歷史化。”(10)這一去歷史化的真正危機是使得解放的意涵可能喪失了社會關系的維度,并且越來越脫離任何實際的社會或政治機構。而“通過加速我們現有的資源來實現從資本主義中獲得的解放,使資本本身——最重要的是,資本作為一種剝削性的社會關系——成為我們斗爭的地平線”。(11)然而,這種零和博弈式的市場角逐方式和現代性以來的分配原則市場競爭有所差異。“由于在競爭中的判決與區分原則是成就,因此,時間,甚至是加速邏輯,就直接處于現代性分配模式的核心當中。……社會競爭的邏輯是,必須投入越來越多的資源,以維持競爭力。”(12)而大模型的平臺效應無法促使常規性的競爭發揮作用,先發者的壟斷優勢難以突破。
大模型技術的數據暴力美學式發展的背后不但是巨大的能源和財力的消耗,而且是一場結果未知但曠日持久的投入。這既是技術的戰場,也是資本的戰場。它不僅體現為資本以技術為工具對于人類歷史以來的一切共同性的吸納,也體現為其所代表的文化價值體系通過大模型的通用性輸出有偏差或有害的幻覺,這將會對使用者造成嚴重后果。但對于此問題,研究者僅僅從傳統的輸出結果的保真性角度出發是遠遠不夠的,因為很多時候大模型的輸出結果中的錯誤難以通過一般性的觀察被查知和糾正。并且必須意識到,沒有哪一個模型可以永遠有效,只是衰退的速度各不相同。而現存的大語言模型隨著其規模的增加,模型性能甚至出現了先增加后又開始下降的現象。這既需要深入到大模型技術底層和邏輯鏈條中,根據其賴以成立的運行原理進行針對性測試和評估,從而對很可能發生的問題做出判斷,更需要批判性地拷問其生成的價值邏輯。簡單的“價值對齊”并不是解決問題的良藥。因為價值從來不是普遍和勻質的。大模型(以及通用人工智能)在智識生產方面的加速普遍化和人類社會文化價值的多樣性之間的不對稱會隨著數字技術的普及愈加明顯。而作為一項正在快速發展的技術,不但大模型的技術原理需要更加細致和深入的研究,它對于社會關系再生產維度的影響、人機協同的關系生成方式以及交互界面的形成都應當被納入到更具有針對性的研究視野當中。
注釋:
(1) 吳冠軍:《大語言模型的技術政治學評析》,《中國社會科學評價》2023年第4期。
(2) P. W. Anderson, More Is Different: Broken Symmetry and the Nature of the Hierarchical Structure of Science, 1972, 177(4047), pp.393-396.
(3) Rylan Schaeffer et al., Are Emergent Abilities of Large Language Models a Mirage? ArXiv: 2304.15004.
(4) Lei Li et al., Large Language Models for Generative Recommendation: A Survey and Visionary Discussions, ArXiv: 2309.01157.
(5) Lingjiao Chen et al., How is ChatGPT's Behavior Changing Over Time? ArXiv: 2307.09009.
(6) 安東尼奧·奈格里:《反思〈加速主義政治宣言〉》,張一兵主編:《社會批判理論紀事》第15輯,江蘇人民出版社2023年版。
(7) 吉爾·德勒茲、費利克斯·加塔利:《資本主義與精神分裂(卷2):千高原》,姜宇輝譯,上海書店出版社2010年版,第295頁。
(8) 《馬克思恩格斯全集》第32卷,人民出版社1998年版,第103頁。
(9) 斯拉沃熱·齊澤克:《意識形態的崇高客體》,季廣茂譯,中央編譯出版社2002年版,第135頁。
(10) 洪北、胡大平:《從馬克思到斯蒂格勒:實踐唯物主義的技術論》,《閱江學刊》2023年第6期。
(11) Paddy Gordon, Left Accelerationism, Transhumanism and the Dialectic: Three Manifestos, New Proposals: Journal of Marxism and Interdisciplinary Inquiry, 2021, 12(1), pp.140-154.
(12) 哈特穆特·羅薩:《新異化的誕生——社會加速批判理論大綱》,鄭作彧譯,上海人民出版社2018年版,第33頁。
作者簡介:吳靜,南京師范大學哲學系教授、博士生導師,江蘇南京,211100。
(責任編輯 胡 靜)