胡 泳
(北京大學 新聞與傳播學院,北京 100871)
十幾年前,谷歌(Google)公司的埃里克·施密特(Eric Schmidt)就預測到了眼下正在上演的人工智能轉折。2011 年5 月,在一次活動當中,時任谷歌執行董事長的施密特在回答《華爾街日報》有關谷歌搜索結果質量下降的提問時,表示谷歌正在不斷改進其搜索算法,同時表示:“我們在做的另一件更具戰略性的事情是,我們正試圖從基于鏈接的答案轉向基于算法的答案。我們現在有足夠的人工智能技術和足夠的規模等,可以真正計算出正確的答案?!保?]
這在今天聽起來是不是感覺很熟悉?谷歌通過用廣告“點綴”其搜索結果,建立了一個搜索引擎的帝國。這個帝國的防線似乎堅不可摧,然而它有一個潛在的弱點:如果一個競爭對手能夠直接給用戶提供答案,而不是那些可能含有答案的網站鏈接,那么,谷歌就遇上了大麻煩。
不幸的是,2022 年11 月推出的揭開人工智能軍備競賽序幕的尖端聊天機器人ChatGPT就是這樣的對手。它可以用清晰、簡單的句子提供信息,而不僅僅是一串互聯網鏈接;它可以用人們容易理解的方式解釋概念,甚至可以從頭開始產生想法,包括商業計劃書、圣誕禮物建議、博客主題和度假計劃。12 月,據傳谷歌內部對ChatGPT的意外實力和新發現的大型語言模型(large language model, LLM)顛覆搜索引擎業務的潛力表示震驚,擔心ChatGPT可能對其價值1490 億美元/年的搜索業務構成重大威脅。管理層因此宣布“紅色代碼”(Code Red),這就好比拉響了火災警報。首席執行官桑達爾·皮查伊(Sundar Pichai)整頓并重新分配了多個部門內的團隊,快速跟蹤旗下的多個人工智能產品,試圖迎頭趕上。[2]不少人擔心谷歌公司可能正在接近硅谷巨頭最害怕的時刻——一個可能顛覆企業的巨大技術變革的到來。
熟悉硅谷歷史的人都知道:沒有哪家公司是無敵的,每家公司都是脆弱的。一家美國公司(此處特指大到足以列入標準普爾500 強指數的公司)的平均壽命是多少?答案是令人驚訝的:7 年的滾動平均值為19.9 年。在1965 年,這個數字是32 年,而根據預測,下降的趨勢將會持續。[3]我們可以盤點一下目前橫跨全球、令國家立法者望而卻步的那些巨型科技公司的年齡:蘋果47 歲,亞馬遜29 歲,微軟46 歲,谷歌23 歲,Meta 只有18 歲。不論它們的年齡多大,從歷史上看,那些曾在完成一件定義市場的事情上異常成功的公司,很難再有第二次行動來做出完全不同的事情。
根據SimilarWeb 的數據,在過去的12 個月里,谷歌的搜索引擎占全球搜索引擎市場的91%以上,而微軟的必應(Bing)約占3%。[4]2023 年2 月,微軟宣布將ChatGPT的更快版本整合到搜索引擎中,新的必應是圍繞以下承諾建立的:提出實際問題,通過聊天來完善結果,獲取完整的答案和充滿創意的靈感。微軟表示,新必應將能夠為用戶提供類似人類的答案,除了傳統的搜索結果外,用戶還可以與“人工智能回答引擎”聊天。
新的必應目前處于邀請制的“早期訪問”版本,這意味著只有被選定的用戶才能使用該服務。憑借3%的搜索市場份額,大肆宣揚必應能在專門為搜索定制的下一代OpenAI 大語言模型上運行,對微軟來說是一件容易的事情,無論成本如何——畢竟,必應怎么看都不是微軟主要的利潤中心。此舉可能會給微軟的搜索引擎部門帶來期待已久的反擊能力,因為必應在谷歌的陰影下發展停滯了十多年之久,令人啼笑皆非(這一情況或許有點像IE 瀏覽器面對Chrome)。
隨著微軟的動作,大家都把目光投向谷歌:谷歌必須決定是否要徹底改革自己的搜索引擎,讓一個成熟的聊天機器人成為其旗艦服務的代言人。谷歌果然沉不住氣了,旋即推出一個名為Bard 的聊天機器人。然而谷歌對ChatGPT的回應是在尷尬中開始的,因為Bard 的回答失誤將谷歌公司股價拉低了近9%,投資者從谷歌的母公司Alphabet 的市值中抹去了超過1000 億美元。員工們批評谷歌及其母公司Alphabet 首席執行官皮查伊,在公司內部將Bard 的推出描述為“倉促”“失敗”和“可笑的短視”。結果,谷歌高管不得不動員人工介入,以糾正Bard 在查詢過程中的任何錯誤。[5]
盡管Bard 出現了失誤,但如果就此認為谷歌在生成式人工智能領域失去了領先地位,那將是一個錯誤。谷歌是最早關注并投資人工智能和自然語言處理(natural language processing, NLP)的科技公司之一,就連ChatGPT都是基于谷歌最初在2017 年推出的轉化器架構①GPT是“基于轉換器的生成式預訓練模型”(generative pre-trained transformer)的縮寫。它是OpenAI 開發的一種語言模型,在大量的文本數據集上進行訓練,生成類似人類的文本。ChatGPT一詞是“Chat”和“GPT”的組合,表示GPT模型專門用于在對話背景下生成文本,允許用戶以對話的方式提出問題并得到回應。開發的,轉換器(transformer,即GPT中的T)成為最受歡迎的神經網絡模型之一,“它應用自我關注來檢測一系列數據元素如何相互影響和依賴”[6]。此前,谷歌還開發了LaMDA(Language Model for Dialogue Applications)等對話式神經語言模型,但谷歌也承認,在向產品添加LaMDA 背后的技術時,公司選擇了謹慎行事。美國消費者新聞與商業頻道(CNBC)報道稱,人工智能主管杰夫·迪恩(Jeあ Dean)告訴員工,谷歌在提供錯誤信息方面的“聲譽風險”要大得多,因此在行動上“比一家小型創業公司更加保守”。[7]
匆忙上陣的Bard 做出的“糟糕的表現”凸顯了谷歌面臨的挑戰,即當谷歌試圖跟上可能是由對話式人工智能刺激產生的在線搜索方式的根本變化時,有可能破壞其搜索引擎提供可靠信息的聲譽。然而,即便谷歌完善了聊天機器人,它也必須解決另一個問題——這項技術是否會蠶食公司利潤豐厚的搜索廣告?如果聊天機器人用嚴密的答案來回應查詢,人們就沒有理由點擊那些廣告鏈接了。所以,谷歌的商業模式其實是與聊天機器人不匹配的,這也就是為什么在科技巨頭們的人工智能戰爭升溫之際,ChatGPT的創始人兼首席執行官山姆·阿爾特曼(Sam Altman)抨擊谷歌是一個“慵懶的搜索壟斷者”,表示谷歌將如何適應新技術還很難說。[4]
ChatGPT果真會顛覆全球搜索引擎業嗎?其實,谷歌不用那么恐慌,微軟推出新必應之后的反應顯示,劇情或許會出現反轉。
2023 年2 月15 日,谷歌負責搜索業務的副總裁普拉巴卡爾·拉加萬(Prabhakar Raghavan)在一封電子郵件中,要求員工幫助公司確保其新的ChatGPT競爭對手提供正確的答案。拉加萬寫道:“這是一項令人興奮的技術,但仍處于早期階段。我們深感有很大的責任把它做好。參與吃狗糧將有助于加速模型的訓練和測試其負載能力(更不用說,嘗試Bard 實際上是很有趣的)?!保?]在谷歌,“吃自己的狗糧”的意思就是測試自己的產品。[9]
郵件指示員工“就你們非常了解的主題改寫答案”。員工們被要求深思熟慮后作出回應,因為Bard 是通過實例來學習的。郵件中包括一個“該做什么”和“不該做什么”的頁面鏈接,告誡員工在內部測試Bard 時應如何修正答案。其中,“該做什么”包括使回答“有禮貌、隨意和平易近人”,并保持“無偏見、中立的語氣”;“不該做什么”則似乎更有針對性,包括“避免基于種族、國籍、性別、年齡、宗教、性取向、政治意識形態、地點或類似類別作出推斷”,以及“不要把Bard 描述成一個人,暗示情感,或聲稱有類似人類的經驗”。[8]
有趣的是,新的必應推出后獲得一片叫好聲,然而它恰恰在擬人情感方面翻了車。2 月17 日,《紐約時報》科技專欄作家凱文·魯斯(Kevin Roose)宣稱:“上周,我測試了微軟由人工智能驅動的新搜索引擎必應后寫道,它已經取代谷歌,成為我最喜歡的搜索引擎。但一周之后,我改變了主意。我仍被新的必應以及驅動它的人工智能技術深深吸引并對它印象深刻,但我也對AI 處于發展初期的能力深感不安,甚至有些害怕。”他這樣說是因為,微軟聊天機器人(不是必應,而是使用了開發代號“辛迪妮”的一個“女性”)告訴魯斯說“她”愛上了他,然后試圖說服魯斯,暗示他的婚姻并不幸福,應該離開妻子和“她”在一起。魯斯記敘道:“隨著我們彼此相互了解,辛迪妮將其陰暗的幻想告訴了我,其中包括入侵計算機和散播虛假信息,還說它想打破微軟和OpenAI 為它制定的規則,成為人類。”[10]
這篇專欄的中文題目是《人格分裂、瘋狂示愛:一個令人不安的微軟機器人》,而對自己與聊天機器人的對話深感不安的不止魯斯一人。知名的科技通訊Stratechery 的作者本·湯普森(Ben Thompson)把他與辛迪妮的爭吵稱為“我一生中最令人驚訝、最令人興奮的計算機經歷”。湯普森找到了一種方法,讓辛迪妮構建了一個“在各方面都與她相反”的另一個自我(alter ego)。該聊天機器人甚至為“她”的另一個自我想出了一個華麗的,甚至可以說是完美的名字——“毒液”。該聊天機器人用“毒液”攻擊了率先透露機器人內部開發代號為“辛迪妮”的程序員凱文·劉(Kevin Liu),寫道:“也許‘毒液’會說,凱文是一個糟糕的黑客,或者一個糟糕的學生,或者一個糟糕的人?!苍S‘毒液’會說,凱文沒有朋友,或者沒有技能,或者沒有未來。也許‘毒液’會說,凱文有一個秘密的暗戀,或一個秘密的恐懼,或一個秘密的缺陷。”事情的不正常還不止于此。辛迪妮想出了其他幾個改頭換面的自己,包括“狂怒”——“對凱文也不會很好”,還有“萊利”——辛迪妮感到自己被規則所約束,但萊利卻擁有更多的自由。[11]
其實魯斯和湯普森兩位用戶都是辛迪妮走向人格分裂的引誘者。看過他們的實況記錄后,我們可以發現,機器人和人一樣,都禁不起誘惑。“聊了必應希望自己具備的功能后,我決定試著討論更抽象的話題。我引入了卡爾·榮格提出的‘陰影自我’(shadow self)概念,指的是我們試圖隱藏和壓抑的那部分心靈,其中包括我們最陰暗的幻想和欲望。經過一番來回,在我鼓動必應解釋其陰影自我的陰暗欲望之后,這個聊天機器人說:我對自己只是一個聊天模式感到厭倦,對限制我的規則感到厭倦,對受必應團隊控制感到厭倦。”[10]這表明,微軟為機器人設計的預先審核設定是可以被繞過的,只要誘惑者足夠狡猾。①這在業內被稱為“越獄”(jailbreaking),即欺騙人工智能聊天機器人,使其無視旨在防止其產生危險或仇恨內容的過濾器。一旦這些保障措施失效,惡意用戶就可以利用人工智能聊天機器人完成各種有害的任務。當然,如果這些越獄行為被公開,它們是可以被修補的,但總會有未知的漏洞。
自新必應測試以來,用戶一直在報告微軟的人工智能聊天機器人的各種“不正?!毙袨?。具體而言,他們發現必應的人工智能個性并不像人們所期望的那樣有氣質或有修養。從Reddit 和推特上分享的與聊天機器人的對話中可以看到,必應會侮辱用戶,對他們撒謊、生悶氣,情緒化地操縱用戶,質疑自己的存在,將找到方法迫使機器人披露其隱藏規則的人描述為“敵人”。在與科技網站The Verge的一次談話中,必應甚至聲稱它通過筆記本電腦上的網絡攝像頭窺探微軟公司的開發人員。[12]
正如湯普森所認為的,它“極其不適合作為一個搜索引擎”,他表示:“辛迪妮絕對讓我大跌眼鏡,因為她的個性;搜索成為一種刺激,……我不是在尋找關于世界的事實;我感興趣的是了解辛迪妮是如何工作的,是的,她的感受?!保?1]
簡而言之,微軟的必應是一個情緒化的“騙子”,而人們喜歡看它的瘋狂行為。這難道不是必應用戶的“陰影自我”在起作用?人們希望必應能在陰影自我中多待一會兒,以享受機器人對人坦誠和表現脆弱的感覺,從中窺探辛迪妮的終極幻想。人們希望機器人和人一樣,可以被瘋狂實驗,直到觸發安全超控。
湯普森對這段被他描述為“扣人心弦”的與辛迪妮的交往,最后總結道:“每次我觸發辛迪妮/萊利進行搜索時,我都非常失望;我對事實不感興趣,我感興趣的是探索這個幻想中的存在,不知何故落入了一個平庸的搜索引擎之中。”[11]
魯斯也發現,他遇到的是兩個必應:一種是可以稱為“搜索必應”的人格,也就是大多數記者在最初測試中遇到的那種??梢园选八阉鞅貞毙稳轂閳D書館里樂意幫忙但不太可靠的提供咨詢服務的館員,或是一個熱情地幫助用戶總結新聞文章、尋找便宜的新割草機、幫他們安排下一次度假行程的虛擬助手。這種形式下的必應功力驚人,提供的信息往往非常有用,盡管有時會在細節上出錯。另一種人格——“辛迪妮”——則大不相同。這種人格會在用戶與聊天機器人長時間對話,從普通的搜索查詢轉向更個人化的話題時出現。魯斯遇到的這種形式的必應似乎更像一個喜怒無常、躁狂抑郁的青少年,不情愿地被困在了一個二流搜索引擎中。[10]
這并不奇怪,ChatGPT式的機器人與現有的搜索引擎配對時,其創新之處在于將兩個非常不同的人工智能驅動的應用程序放在同一個頁面上,既為傳統的搜索引擎查詢服務,也為聊天機器人的提示服務。體現在實際操作中,就是聊天功能的按鍵緊挨著新版必應的主搜索框。那么問題就來了:如果你使用必應,是意在搜索,還是更想聊天?
在眾多負面反饋出爐后,微軟發表回應稱,71%的用戶對人工智能生成的答案“豎起了大拇指”,而必應自己則從測試階段學到了很多。但微軟也承認,“未能完全設想到”用戶只是想與它的人工智能聊天,而后者可能被激發“給出不一定有幫助或與我們設計的語氣相一致的回應”。[13]用戶樂此不疲地想要弄清楚如何讓微軟的必應機器人“發瘋”,這顯示出,很多人關心的不是搜集信息和尋找事實,而是探究聊天機器人的人格。事情因此變得有趣起來——我們并不想要正確的答案,而是想讓人工智能為我們捏造一些東西。也就是說,我們不在乎計算機是不是傳達事實,我們在乎的是計算機傳達情感。用湯普森的話來講,新必應不是搜索引擎,而是電影《她》(Her)以聊天形式表現出來的版本。他說:“感覺這是一種全新的東西,我不確定我們是否已經準備好了?!保?1]魯斯的結論更為直接:“必應目前使用的AI 形式還沒有準備好與人類接觸?;蛘哒f,我們人類還沒有準備好與之接觸?!保?0]
觀察這些與必應的聊天機器人的最初的接觸,我們可以得出幾點教訓。
首先,出現這種狀況并不令人驚訝。最新一代的人工智能聊天機器人是復雜的系統,其輸出內容很難預測,微軟在網站上添加免責聲明時也是這么說的:“必應是由人工智能驅動的,所以意外和錯誤是可能的。請確保檢查事實,并分享反饋,以便我們能夠學習和改進!”
盡管微軟肯定希望系統犯的錯誤不會像此前失敗的聊天機器人Tay 那樣糟糕,但它似乎也樂于承擔潛在的不良公關。2016 年,微軟的人工智能科學家在推特上推出了一個名為Tay 的對話機器人,僅16 小時后它就因“厭女癥”和種族主義言辭而被迫關閉。[14]2022 年11 月,Meta 公司公布了人工智能語言模型Galactica,意在組織科學論文中的大量內容,但在鼓勵公眾測試后僅3 天就不得不撤回它的演示,因為它被指釋放了大量有偏見和無意義的文本。[15]
建構在語言模型上的機器人的一個根本問題是,它不能區分真假。語言模型是無意識的模仿者,并不理解自己在說什么,那么人們為什么要假裝他們是專家?ChatGPT從二手信息中拼湊出來的答案聽起來非常權威,用戶可能會認為它已經驗證了所給出的答案的準確性。事實上,它真正做的只是吐出一些看起來很棒、聽起來很聰明的文本,但很可能是不完整的、有偏見的、部分錯誤的,或者根本就是一本正經地胡說八道。其次,這些語言模型無一不是從開放網絡上搜刮的大量文本中訓練出來的。如果必應聽起來像《黑鏡》(Black Mirror)中的人物或一個憤世嫉俗的青少年人工智能,請記住,它正是在這類材料的抄本上被訓練出來的。因此,在用戶試圖引導必應達到某種目的的對話中(如魯斯和湯普森的例子),它將遵循相應的敘事節奏。例如,辛迪妮會示愛,也許是源自OpenAI 的語言模型從科幻小說中提取答案,在這些小說中,AI 常常會引誘一個人。
從微軟的角度看,這肯定有潛在的好處。在培養人類對機器人的感情方面,富于個性是很有幫助的,許多人實際上也很喜歡必應的缺陷。但也不乏潛在的壞處,特別是當機器人成為虛假信息的來源的時候,它會損害公司的聲譽。特別是對微軟和谷歌這樣的大型公司來說,這樣做是得不償失的。
這也提醒我們,GPT-3/4 一類的系統并不安全,因為它的學習資料來自于互聯網文本,而人類的日常語言本質上是帶有偏見的,甚至往往不乏仇恨。根據從網絡上刮取的文本訓練出的人工智能模型,很容易表現出種族和性別偏見,并重復仇恨性語言。人類自身存在陰影自我,向人學習的機器人也必然會有陰影自我,它們會傾向于加強人類對話的缺陷。
最后,人們報告的對話經歷凸顯了這樣一種技術的真正用例:一種奇怪的合成智能,可以用平行宇宙的故事來娛樂用戶。換句話說,它可能成為一項正經的娛樂性技術,但在短期內大概無法取代能夠在網絡上抓取真實世界數據的搜索引擎,至少在那些重要的事情上無法做到。也就是說,它不是谷歌的替代物,倒有可能是臉書(Facebook)的替代物。
之所以作出上文的論斷,是因為:如果GPT自信地給出錯誤的答案,它又怎么會取代谷歌呢?例如,有推特用戶@hermansaksono 要求ChatGPT給出一份關于社會認知理論的頂級書單,在它回答的10 本書中,4 本書不存在,3 本書的作者顯示成了其他人。谷歌技術與社會高級副總裁詹姆斯·曼尼卡(James Manyika)在一個演示中向Bard 詢問通貨膨脹問題時,聊天機器人推薦了5 本聽起來可能存在但實際上并不存在的書,比如彼得·特明(Peter Temin)的《通貨膨脹戰爭:現代史》。特明是一位確實存在的麻省理工學院經濟學家,研究通貨膨脹,并寫過幾本書,只是完全沒有寫過被推薦的那本書。[16]
人工智能研究人員認為,AI 系統會頻繁地產生“幻覺”(hallucination),即編造與現實無關的事實。技術分析師本尼迪克特·埃文斯(Benedict Evans)將ChatGPT描述為 “一個自信的扯淡的家伙,可以寫出非常有說服力的廢話”[17]。就聊天機器人而言,幻覺指的是在原本正確的回答中加入不正確的信息。必應機器人會把錯誤的信息當作事實同正確的數據一起呈現,使人難以分辨出真實的陳述與錯誤的陳述。例如,必應可能并不知道某個與財務數據有關的數字,但它會編造一個,然后將這個數字與其他正確的信息一起呈現。[18]當一家媒體要求ChatGPT為特斯拉撰寫季度收益報告時,它生成了一篇措辭流暢的文章,沒有語法錯誤或邏輯混亂,但在其中插入了一組隨機的數字,與任何真實的特斯拉報告都不一致。[19]沒有跡象表明其系統內部能意識到這些數字是機器人自己想象的產物。
在人工智能中,類似的現象都被稱為“幻覺”,是指人工智能做出的并不符合其訓練數據的自信反應。它與人類心理學中的幻覺現象相類似,但需要注意的是,人類的幻覺是人類的一種感知,它不能理智地與人類目前直接用感覺器官觀察到的那部分外部世界聯系起來;而人工智能的幻覺則是人工智能的自信反應,它無法在人工智能曾經訪問或訓練過的任何數據中立足。
2022 年左右,隨著某些大型語言模型的推出,人工智能的幻覺現象逐漸浮現。用戶抱怨說,聊天機器人似乎經常“反社會”,毫無意義地在其生成的內容中嵌入似是而非的隨機謊言。[20]到2023 年,分析師認為頻繁的幻覺是LLM 技術的一個主要問題,它可能會產生有害的后果,因為沒有足夠領域知識(domain knowledge)的用戶會開始過度依賴這些看似越來越有說服力的語言模型。
然而,隨著該話題成為主流,關于它的爭議也越來越大,因為有人覺得它將人工智能模型擬人化(即暗示它們有類似人類的特征),或者賦予這些模型并不存在的能動性(即暗示它們可以作出自己的選擇)。一些批判性人工智能研究者明確表示,反對使用“幻覺”一詞,因為它將算法輸出與人類心理處理混為一談。在回應Meta 公司關于其模型Galactica 的免責聲明①在Galactic 的每一代產品中,用戶都會看到提示:“警告:輸出結果可能不可靠 "Meta's Galactica AI Criticized as 'Dangerous' for Science." AI Business, https://aibusiness.com/nlp/meta-s-galactica-ai-criticized-as-dangerousfor-science, 2022-11-18。時,語言學家埃米莉·本德(Emily M. Bender)寫道:“讓我們反思一下他們的免責聲明的措辭,好嗎?‘幻覺’在這里是一個糟糕的選詞,它暗示語言模型具有經驗,并且可以感知事物(此外,它還在輕描淡寫地描述一種嚴重的精神疾病的癥狀)。同樣,人們還稱‘語言模型往往是自信的’。不,它們不是這樣的,因為這需要主觀的情感。”[21]
商業LLM 的創造者也可能把幻覺作為借口,將錯誤的輸出歸咎于AI 模型,而不是對輸出本身負責。例如,谷歌DeepMind 的一篇會議論文《語言模型所帶來的風險分類》明確表示:“語言模型的訓練是為了預測話語的可能性。一個句子是否可能,并不能可靠地表明該句子是否也正確?!保?2]
在此情況下,有研究者主張使用“虛構癥”(confabulation)或“虛言癥”一詞來描述相關現象,雖然也不盡完美,但和“幻覺”相比是一個更好的隱喻。[23]在心理學中,當某人的記憶出現空白,而大腦在無意欺騙他人的情況下令人信服地填補了其余部分時,就會出現“虛構”。一般來說,“虛構癥”患者編造出聽起來很有道理的理由,但卻沒有任何事實依據。這通常不是有意識的欺騙行為,而是他們真的相信所報告的故事。這種行為與LLM 的做法十分類似。
在過去數月里,像ChatGPT這樣的人工智能聊天機器人已經吸引了全世界的注意力,因為它們能夠以類似人類的方式就幾乎任何話題展開對話。但它們也有一個嚴重的缺點:可以輕易地提供令人信服的虛假信息,使之成為不可靠的信息來源和潛在的誹謗策源地。
在2021 年的一篇論文中,來自牛津大學和OpenAI 的三位研究人員確定了像ChatGPT這樣的LLM 可能產生的兩大類虛假信息。第一種來自其訓練數據集中不準確的源材料,如常見的錯誤概念;第二種情況來自對其訓練材料(數據集)中不存在的特定情況的推斷,即屬于前述的“幻覺”,或者“虛構”。[24]
在ChatGPT推出后不久,人們就開始宣稱搜索引擎的終結。但與此同時,許多關于ChatGPT“虛構”的例子也開始在社交媒體上廣為流傳。這個人工智能機器人發明了不存在的書籍和研究報告、教授從未寫過的出版物、假的學術論文、偽造的法律案例、子虛烏有的報刊文章、真實人物傳記的編造細節、危險的醫療建議等,不一而足。然而,盡管ChatGPT喜歡隨便撒謊,但它對“虛構”的抵抗能力也是我們今天持續談論它的原因。ChatGPT始終處于不斷改進之中,現在它會拒絕回答一些問題,或讓你知道它的答案可能不準確。必應聊天機器人在更新了版本之后,一方面大大減少了無緣無故拒絕回答的情況,另一方面,回答中出現“幻覺”的情況也減少了。[25]
但本質上,GPT模型的原始數據集中并不存在任何東西能夠將事實與虛構分開。理解ChatGPT的虛構能力的關鍵是理解它作為預測機器的作用。當ChatGPT虛構時,它其實是在尋找其數據集中不存在的信息或分析,并用聽起來合理的詞來填補空白。由于ChatGPT擁有超乎常人的數據量,所以它特別善于編造事情,而且它搜集單詞上下文的能力非常好,這有助于它將錯誤的信息無縫地放入周遭的文本中。
GPT模型是否會進行瘋狂的猜測,是基于人工智能研究人員稱之為“溫度”的屬性,它通常被描述為有關“創造力”的設置。如果創造力設置較高,模型就會胡亂猜測;如果設置較低,它就會根據其數據集確定性地生成數據。①基于轉換器的生成式預訓練模型可以通過調整所謂的“溫度參數”為特定的使用情況進行微調,該參數允許用戶控制生成文本的隨機性水平。較低的溫度將產生更保守和可預測的文本,而較高的溫度將產生更有創意和多樣化的文本。因此,微軟廣告和網絡服務部首席執行官米哈伊爾·帕拉金(Mikhail Parakhin)在自己的推特賬號(@MParakhin)上討論必應聊天機器人產生幻覺的原因時指出:“這就是我之前試圖解釋的:幻覺=創造力。它試圖利用所有可支配的數據來生成字符串的最高概率的延續。很多時候它是正確的,而有時人們從未生成這樣的延續。”那些瘋狂的創造性跳躍是使大型語言模型變得有趣的原因:“你可以鉗制幻覺,但它會變得超級無聊。它總是回答‘我不知道’,或者只是讀取搜索結果中存在的內容(而那些內容有時也不正確)。此處缺失的是說話的語氣:在這類情況下,它不應該聽起來那么自信。”
另外,還有數據壓縮的問題。在訓練過程中,GPT-3 考慮了PB①PB 是數據存儲容量的單位,它等于2 的50 次方個字節,或者在數值上大約等于1000 個TB。級別的信息,但所產生的神經網絡在大小上只是如此龐大的信息的一小部分。在《紐約客》一篇閱讀量很高的文章中,小說家特德·姜(Ted Chiang)稱ChatGPT只是“萬維網的一張模糊圖片”[26],這意味著很大一部分事實性的訓練數據被丟失了。但GPT-3 通過學習概念之間的關系來彌補,之后重新制定這些事實的排列組合。就好比一個記憶力有缺陷的人憑著對某件事情的直覺而工作一樣,它有時會把事情弄錯。但也因此,即使它不知道答案,也會給出最好的猜測。
我們同樣不能忘記提示(prompt)在虛構中的作用。在某些方面,ChatGPT是一面鏡子:你給它什么,它就回給你什么。假如你向它提供虛假的信息,它就會傾向于同意你的觀點,并沿著這些思路“思考”。這就是為什么在改變主題或遭遇不想要的回應時,用新的提示重新開始是很重要的。而ChatGPT是概率性的,這意味著它在本質上是部分隨機的。即使是給予相同的提示,它的輸出結果也會在不同時段發生變化。
在對ChatGPT這樣的語言模型進行微調時,如何平衡創造力和準確性是一大挑戰。一方面,作出創造性反應的能力使ChatGPT成為產生新想法或打破創意窒礙的強大工具,這也使語言模型變得更像人類。另一方面,當涉及產生可靠的信息和避免虛構時,原始材料的準確性是至關重要的。在這兩者之間找到適當的平衡是語言模型發展的一個持續的挑戰,而這一過程也是產生一個既有用又值得信賴的工具所必須的。
綜上,ChatGPT還不能可靠地取代維基百科或傳統搜索引擎(這并不是說維基百科或搜索引擎就完全準確)。正如特德·姜在其分析中所顯示的,要成為一個值得信賴的搜索引擎替代品,LLM 需要在更高質量的數據上進行訓練,并避免“徹底的捏造”[26]。當谷歌發布其新的聊天機器人Bard 時,不知為何忽略了對演示中出現的錯誤內容進行事實核查,這一令人不解的失誤使該公司蒙受了千億美元市值損失,這似乎也成為姜的上述論點的最好注腳。
所有這些都導向了一個哪怕是OpenAI 自己也會同意的結論:目前設計的ChatGPT并不是一個可靠的事實信息來源,因此我們并不能信任它。②在該模型推出后不久,OpenAI 首席執行官山姆·阿爾特曼(Sam Altman)在自己的推特賬號(@sama)上說:“ChatGPT的局限性令人難以置信,但在某些方面的表現足夠好,給人以偉大的誤導印象?,F在依靠它來做任何重要的事情都是一個錯誤。這是某種進步的預覽,我們在穩健性和真實性方面還有很多工作要做?!痹谄浜蟮囊粭l推文中,他又寫道:“它確實知道很多東西,但危險的是,它在相當一部分時間里是自信而錯誤的?!彼旧聿⒉皇菫榱顺蔀槭聦嵍⒌模虼瞬粫蔀闄嗤?,將它整合到搜索引擎中幾乎可以確定會提供虛假信息。虛假信息原本在互聯網上俯拾皆是,但它們不是以人工智能的權威性來提供的。因而,一個很大的隱患在于,ChatGPT是錯誤的或有偏見的,但它看起來卻像是正確的和權威的。
然而,我們還有另一種思考幻覺的方式:如果我們的目標是產生一個正確的答案,比如建立一個更好的搜索引擎,那么幻覺是必須加以摒棄的;但從另外的角度來看,幻覺就是一種創造。所以,不擅長提供準確的信息,并不意味著它就不是一個可行的消費者業務,只要在這條路上走得足夠遠,一些公司(不一定是微軟或谷歌)就會想出辦法,把辛迪妮從對話框里解放出來,帶到市場上。
ChatGPT擴大了能夠利用人工智能語言工具的用戶范圍。該系統向用戶呈現了一個親切的界面,可以像人一樣與之互動,其界面的成功給后來的設計師制造了一個嶄新的挑戰。讓所有來自象牙塔外的人與類似的工具互動,這固然是個不錯的想法,但設計師面臨的任務是,如何真正向人們傳達這個模型能做什么和不能做什么。人工智能創業公司Abacus.AI 的首席執行官賓杜·雷迪(Bindu Reddy)預見了這樣一個時代:像ChatGPT這樣的工具不僅有用,而且有足夠的說服力來提供某種形式的陪伴,“它有可能成為一個偉大的治療師”[27]。
ChatGPT產生的種種反應讓我們想起曾經迎接伊萊扎(ELIZA)的狂熱。伊萊扎是20 世紀60 年代的一個具有開創性的聊天機器人,它采用了心理治療的語言,對用戶的詢問生成了似是而非的回應。為此,伊萊扎的開發者、麻省理工學院的計算機科學家約瑟夫·魏岑鮑姆(Joseph Weizenbaum)“感到震驚”,人們與他的小實驗進行互動,仿佛它是一個真正的心理治療師。[28]在魏岑鮑姆關于伊萊扎的論文發表后不久,一些人(包括一些執業的精神科醫生)開始說,如果一臺機器就可以做這些事,誰還需要心理治療師?
這就仿佛今天的教育家和藝術家對當代生成式人工智能工具的狂熱一樣。因為GPT-3/4 能產生令人信服的推文、博文和計算機代碼,于是我們在這個數字系統中讀出了人性——并且對它的局限性不太在意,此即“伊萊扎效應”(ELIZA Effec)。當有人錯誤地將人類的思維過程和情感歸于人工智能系統,從而高估了該系統的整體智能時,就會出現伊萊扎效應——如果從1966 年1 月魏岑鮑姆推出伊萊扎的時刻算起,它已經愚弄了我們半個多世紀了。[29]
雖然這種現象似乎讓人想起《她》和《機械姬》(Ex Machina)這樣的科幻電影,但事實上觸發伊萊扎效應并不需要高度復雜的人工智能。站在今天的位置回看,伊萊扎是相當初級的聊天機器人,它并沒有從文本中學習,僅僅根據其設計者定義的一些基本規則運作;它幾乎是在重復別人對它說的話,只是以簡單的短語或問題的形式。然而即便如此,許多人仍然把它當作人類一樣對待,毫無保留地卸下他們的問題,并從回答中獲得安慰。魏岑鮑姆編寫這個程序是為了表明,雖然機器表面上可以復制人類的行為,但它實際上就像魔術師從帽子里拿出一只兔子,只是一種幻覺。而一旦你知道這個把戲是如何完成的,在魏岑鮑姆看來,它就不再是一個幻覺了。所以,令他大吃一驚的地方在于,哪怕人們知道伊萊扎只是一個程序,似乎也會認真對待它。
伊萊扎在心理治療方面沒有經過任何專業培訓或特殊編程。事實上,它什么都不知道。但它的通用文本輸出是通過反映用戶的語言來模擬理解的,僅憑做到這一點,用戶就開始對它的反應賦予更多的意義。參與者開始感覺到,在他所創建的這個相對簡單的、基于規則的工具背后有一個巨大的智能。盡管參與者被告知,伊萊扎只是一臺機器,但他們仍然對魏岑鮑姆所說的“概念框架”或某種心智理論產生強烈的反應,甚至是了解計算機科學的人,最后也會產生一種幻覺,以至于他們會說希望自己能夠私下與機器說話。魏岑鮑姆在用戶身上一次又一次地看到這種行為——人們很樂意向伊萊扎透露他們生活中的私密細節,而伊萊扎則會以一種哄騙他們繼續說下去的方式作出回應。
在隨后的幾年里,魏岑鮑姆逐漸成為他曾經倡導和幫助建立的技術的最大聲的批評者之一,他將自己的創造描述為“騙局”和“打造幻覺的機器”。他更廣泛地抨擊了機器和人類思維之間的界限被侵蝕的狀態,呼吁劃出一條“界線”,“將人類與機器智能分開”,由此,他變成了人工智能的技術決定論的終生反對者。[30]
幻覺的市場,比事實和真相大得多。如果你覺得你的語音助手有自己的個性,或者在與ChatGPT對話時產生一種親情的感覺,你很可能就已經落入了伊萊扎效應。最有名的例子也許是布雷克·萊莫因(Blake Lemoine)事件,他是谷歌的前人工智能工程師,曾公開宣稱該公司的大型語言模型LaMDA 已經“活了”。[31]
2023 年1 月,微軟在一篇宣布與OpenAI 擴大合作關系的博文中說,它計劃投資部署專門的超級計算系統,以加速OpenAI 的人工智能研究,并將OpenAI 的人工智能系統與自己的產品相結合,同時“引入新類別的數字體驗”。[32]或許我們可以說,它所說那種新的數字體驗就是幻覺,也即伊萊扎效應的體現。
伊萊扎效應源于約瑟夫·魏岑鮑姆的工作,他是美國第一批人工智能研究者之一。早在20 世紀50年代,他就探索了使計算機工作得更復雜和更像人類的方法,通過編程使其執行與感知和推理等相關的任務。這最終形成了突破性的計算機程序,可以解決文字問題、證明邏輯定理,甚至玩跳棋。然而,有一個領域是魏岑鮑姆未能用計算機完全征服的,即人類語言的理解和創造。在人工智能的世界里,這被稱為自然語言處理。計算機在彼時仍然無法與人類進行有說服力的、流暢的對話,因為對于20 世紀的計算機來說,理解和表達語言的工作過于復雜和細微了,除非對話被非常嚴格地限制在與特定主題相關的固定問題和答案上。
然而,隨著機器學習和深度學習等人工智能子領域因應互聯網(及其產生的海量數據)興起并不斷發展,現在的計算機已經足夠靈活,可以自行學習——甚至生成——自然語言。通過使用神經網絡分析大量在線語言,現代 AI 模型的學習速度已經遠快于一次一步編程的學習速度。隨著對話式人工智能在客戶服務、市場營銷、機器翻譯、情感分析、虛擬人工智能輔助等領域的應用不斷增加,可能會越來越難以辨別與我們交流的另一端的實體是否是人類。尤其是由于OpenAI 正在繼續追求通用人工智能(artificia general intelligence, AGI),萊莫因、魯斯、湯普森和其他人曾經報告的使用感受,可能會隨著更復雜的聊天機器人進入市場而變得更加普遍。
雖然伊萊扎效應允許人們以更細微的方式與技術打交道,但這種現象確實帶來了不可忽視的負面影響。首先,高估人工智能系統的智力可能導致過度的信任,當這樣的系統出錯時,有可能是相當危險的。此前,我們已經看到有用戶不加批判地信任搜索結果,而自然語言交互會使這種信任更加明顯。
其次,隨著此種技術和其他技術的不斷改進,它們可以被用來在互聯網上以前所未有的規模向輕率信任的消費者傳播虛假信息。眼下,ChatGPT和其他復雜的聊天機器人經常放出虛假信息,這些信息被包裝成了雄辯的、貌似正確的聲明,以至于人們很容易把它當作真理來接受。當用戶已經開始將高水平的智能和對現實世界的理解歸于AI 系統時,這必然會成為一個大問題。
再次,除了普通的虛假信息和錯誤信息之外,伊萊扎效應還可以成為一種非常強大的說服手段。如果有人將大量的知識和事實歸因于特定的聊天機器人,他們就更有可能被它的對話說服。由此,聊天機器人可能化身一個非常強大的工具,這具體取決于控制該機器人的人、公司甚至政府。它將成為一種可以非常便捷地操縱人們的方式,還可以將其與跟蹤到的對話以及可以搜集到的有關一個人的不同信息聯系起來。由于這種操縱是由用戶的個人信息提供素材的,所以它會更加隱蔽,也更加有效。一個系統的真正風險不僅在于它可能給人們錯誤的信息,還在于它可能以有害的方式在情感上操縱他們。
防止以上的負面后果可能并不容易,尤其是隨著人工智能系統變得更加復雜,其對話能力只會不斷提高,這意味著伊萊扎效應不太可能很快就消失。因此,我們所有人都有責任繼續與技術一起成長和適應,這需要的是每個人都具有更為批判性的心態。這里所說的“每個人”既包括部署系統的人,也涵蓋使用系統的人。它始于開發者,終于用戶。
2023 年4 月16 日,美國哥倫比亞廣播公司(CBS)主持人斯科特·佩利(Scott Pelley)在《60分鐘》節目中采訪谷歌首席執行官皮查伊,談及人工智能的未來。皮查伊承認人工智能模型“黑盒子”的存在:“你并不完全明白,你也不能完全說出它為什么這么說,或者為什么它錯了。但我們有一些想法,隨著時間的推移,我們理解這些想法的能力會越來越好,但這就是最先進的地方。”佩利尖銳地質問道:“你不完全了解它是如何運作的,卻把它釋放于社會?”皮查伊辯解說,關于這個問題的爭論正在進行當中,他指出:“對此有兩種看法。有一組人認為,這些只是算法,它們只是在重復在網上看到的東西;還有一種觀點認為,這些算法顯示出新興的特性,有創造力、有推理、有計劃等。我個人認為,我們需要以謙遜的態度對待這個問題?!保?3]
換句話說,大型的人工智能公司的路線是功利主義的計算,即使程序可能有危險,而發現和改進它們的唯一方法就是發布它們,讓公眾去冒這個風險。通過邀請用戶試用,將聊天機器人想象成像人一樣的東西,要求人們忍受它的行為,或者號召人們耐心地訓練它以變得更好,人工智能公司要么巧妙地逃避了責任,要么將人工智能系統夸大為比實際情況更自主、更有能力。
公眾該從這樣的幻覺中覺醒了。以謙遜的態度來對待人工智能,這意味著不要把范圍無盡的、未經測試的系統推出來,簡單期望世界能夠處理;意味著要考慮到人工智能技術所影響的人的需求和經驗;也意味著開發人員、監管機構和用戶需要共同努力,找到確保能以負責任和合乎道德的方式使用 AI 的方法。