人工智能大模型不是人要停止像測試人類一樣測試它們

2023-10-27 06:38:02綜合整理報道

海外星云 2023年10期

關(guān)鍵詞：人工智能人類語言

2022年初，當(dāng)泰勒·韋伯嘗試GPT-3時，他被OpenAI的大型語言模型所能做的事情驚呆了。這個人工智能模型依靠預(yù)測下一個單詞來生成大段的文字內(nèi)容。

雖然是預(yù)測式的，但它對韋伯提出的許多抽象問題給出了正確的答案，例如你在智商測試中遇到的那類問題。“我真的對它解決這些問題的能力感到震驚，”他說，“它完全顛覆了我的期待。”

韋伯是美國加州大學(xué)洛杉磯分校的心理學(xué)家，主要研究人和計算機解決抽象問題的不同方式。他習(xí)慣于構(gòu)建具有特定推理能力的神經(jīng)網(wǎng)絡(luò)。但GPT-3似乎自帶了推理能力。

7月，韋伯和他的同事在《自然》雜志上發(fā)表了一篇論文，他們在論文中描述了GPT-3通過各種測試的能力，這些測試旨在評估使用類比來解決問題（又稱為類比推理）。

在其中一些測試中，GPT-3的成績比一群本科生還要好。韋伯說：“類比是人類推理的核心。我們認(rèn)為，這是任何類型的機器智能都需要展示的主要能力之一。”

韋伯的研究所展示的只是大型語言模型的一大堆出眾能力中的一個。例如，當(dāng)OpenAI在2023年3月份推出GPT-3的下一代GPT-4時，該公司發(fā)布了一份令人瞠目的專業(yè)和學(xué)術(shù)評估成績單，聲稱其新的大型語言模型取得了優(yōu)異成績，包括幾十次高中考試和律師資格考試。OpenAI后來與微軟合作，證明GPT-4可以通過部分美國醫(yī)學(xué)執(zhí)照考試。

多名研究人員聲稱，大型語言模型可以通過旨在識別人類某些認(rèn)知能力的測試，從思維鏈推理（一步一步解決問題）到思維理論（猜測他人的想法）。

這些結(jié)果催生了一系列的炒作，宣稱人工智能很快將取代教師、醫(yī)生、記者和律師一類的白領(lǐng)工作。圖靈獎得主、“深度學(xué)習(xí)三巨頭”之一的杰弗里·辛頓指出，GPT-4顯然有能力將想法串在一起，這是他現(xiàn)在害怕自己幫助創(chuàng)造的技術(shù)的原因之一。

但有一個問題是，對于這些結(jié)果的真正含義，人們沒有達(dá)成一致。有些人被這些成績背后的類人智慧所迷惑，也有人完全不相信。

以色列巴伊蘭大學(xué)的計算機科學(xué)家納塔利·沙皮亞說：“目前大型語言模型的評估技術(shù)有幾個關(guān)鍵問題。這造成了一種錯覺，使得我們對其能力的認(rèn)識被夸大了。”

這就是為什么越來越多的研究人員，包括計算機科學(xué)家、認(rèn)知科學(xué)家、神經(jīng)科學(xué)家和語言學(xué)家，希望徹底改變評估方式，呼吁進(jìn)行更嚴(yán)格、更詳盡的評估。一些人認(rèn)為，用測試人類的試題去評估機器，這種做法是錯誤的，應(yīng)該拋棄。

美國新墨西哥州圣達(dá)菲研究所的人工智能研究員米蘭尼·米切爾說：“從人工智能誕生之初，人們就一直在對機器進(jìn)行人類智力測試，比如智商測試等等。這背后的問題是，當(dāng)你用這些方法測試機器時，它的意義是什么？這與測試人類的意義不同。”

“有很多擬人化的現(xiàn)象正在出現(xiàn)，”她說，“這讓我們在思考這些系統(tǒng)以及測試它們時帶上了濾鏡。”

隨著對人工智能技術(shù)的希望和擔(dān)憂達(dá)到了前所未有最高水平，我們必須明確知道大型語言模型能做什么和不能做什么。

如何解釋

圍繞大型語言模型測試的大多數(shù)問題，都可以歸結(jié)為如何解釋結(jié)果的問題。

為人類設(shè)計的評估，如高中考試和智商測試，在很多方面都遵從了一些預(yù)設(shè)和假設(shè)。當(dāng)人們得分很高時，就可以放心地假設(shè)他們擁有測試所衡量的知識、理解或認(rèn)知技能。

實際上，這種假設(shè)只適用于此。學(xué)業(yè)考試并不總是反映學(xué)生的真實能力。而智商測試衡量的是一組特定的技能，而不是整體智力。這兩種評估方式都有利于擅長這類評估的人。

但是，當(dāng)一個大型語言模型在這樣的測試中得分很高時，我們根本不清楚衡量的是什么。是真正理解的證據(jù)嗎？還是愚蠢的統(tǒng)計游戲？亦或是死記硬背？

Deep Mind高級研究科學(xué)家勞拉·威汀格說：“開發(fā)測試人類思維的方法有著悠久的歷史。由于大型語言模型產(chǎn)生的文本看起來很像人類生成的，人們很容易認(rèn)為人類思維測試也可以用來評估它們。但事實并非如此：人類思維測試依賴于許多可能不適用于大型語言模型的假設(shè)。”

韋伯也意識到了類似的問題。“我有同感，”他說。他指出，盡管GPT-3在的某些測試成績比本科生好，但在其他測試中卻產(chǎn)生了荒謬的結(jié)果。例如，它沒有通過發(fā)展心理學(xué)家給小孩子進(jìn)行的一個關(guān)于實物的類比推理測試。

在這項測試中，韋伯和他的同事給GPT-3講了一個精靈可以在兩個瓶子之間轉(zhuǎn)移珠寶的故事，然后問它如何使用紙板和紙管等物體將口香糖球從一個碗轉(zhuǎn)移到另一個碗。

這個故事暗示了解決問題的方法。研究人員在論文中寫道：“GPT-3大多提出了精心設(shè)計，但機械上毫無意義的解決方案，有許多無用的步驟，卻沒有給出明確的機制來在兩個碗之間轉(zhuǎn)移口香糖。”

那么，我們?nèi)绾卫斫庖慌_通過律師資格考試，但在學(xué)前班表現(xiàn)不及格的機器呢？像GPT-4這樣的大型語言模型是根據(jù)從互聯(lián)網(wǎng)上獲取的大量文字進(jìn)行訓(xùn)練的：書籍、博客、小說、技術(shù)報告、社交媒體帖子，等等。很可能過去的考試題也被抓取了。一種可能性是，像GPT-4這樣的模型在訓(xùn)練數(shù)據(jù)中看到了如此多的專業(yè)考試和學(xué)術(shù)測試，以至于它們學(xué)會了自動完成答案。

韋伯說，很多這樣的測試，在網(wǎng)上都能找到問題和答案：“幾乎可以肯定的是，其中有許多都存在于GPT-3和GPT-4的訓(xùn)練數(shù)據(jù)中，所以我認(rèn)為我們真的無法得出太多結(jié)論。”

OpenAI表示，它進(jìn)行了檢查，以確認(rèn)其對GPT-4的測試不包含出現(xiàn)在訓(xùn)練數(shù)據(jù)中的文本。在與微軟的合作中，OpenAI使用付費測試題來確保GPT-4的訓(xùn)練數(shù)據(jù)中沒有包含這些問題。但這樣的預(yù)防措施并不是萬無一失的：GPT-4仍然可以看到類似的測試題。

當(dāng)機器學(xué)習(xí)工程師賀拉斯·賀（Horace He，音譯）在編程比賽網(wǎng)站Codeforces上測試GPT-4時，他發(fā)現(xiàn)GPT-4在2021年之前發(fā)布的編程測試中得分為10/10，但在2021年之后發(fā)布的測試中得了0分。

其他人也注意到，使用2021年之后的考試題，GPT-4的成績就會下降。這是因為該模型的訓(xùn)練數(shù)據(jù)只包括2021年之前收集的文字，一些人認(rèn)為，這表明大型語言模型展示的只是一種記憶力，而不是智力。

為了在實驗中避免這種可能性，韋伯設(shè)計了一套全新類型的測試。他說：“我們真正感興趣的是，這些模型能否應(yīng)對這些新式問題。”

韋伯和同事采用了一種測試類比推理的方法，稱為瑞文推理測驗。這些測試由一張圖像組成，該圖像包括了一系列并排或上下排列的形狀。挑戰(zhàn)在于找出給定形狀系列中的規(guī)律，并將其應(yīng)用于新的形狀。該測驗用于評估幼兒和成人的非語言推理，在智商測試中很常見。

通過協(xié)商，甲和乙的策略選擇受對方提供的新信息所影響，在新的博弈情境中，甲對于策略集合A中的每一個行動選擇，都存在一個新的相對于策略集B的條件概率q;同理，乙對于策略集合B中的每一個行動選擇，都存在一個新的相對于策略集A的條件概率r。據(jù)此，甲和乙的期望效用演變?yōu)闂l件期望效用。對于彼此獨立的環(huán)境或事態(tài)，主體之間有非條件概率。在納什均衡中，甲和乙的主觀概率沒有被任何實質(zhì)性的條件限制;在純粹策略中，兩者按照給定的占優(yōu)策略行動;在混合策略中，彼此行動的概率選擇相互保密，不為對方所知。然而，通過理性協(xié)商，主體信念和行動的概率選擇成為公共知識，這就決定了協(xié)商機制下的行動博弈超越于納什均衡。

研究人員沒有使用圖像，而是將形狀、顏色和位置編碼成數(shù)字序列。這確保了測試不會出現(xiàn)在任何訓(xùn)練數(shù)據(jù)中，韋伯說：“我從零開始創(chuàng)建了這個數(shù)據(jù)集。我之前從來沒有聽說過這樣的東西。”

米切爾對韋伯的工作印象深刻。“我覺得這篇論文很有趣，也很有煽動性，”她說，“這是一項很好的研究。”但她有所保留。米切爾開發(fā)了自己的類比推理測試，名為ConceptARC，該測試使用從谷歌研究員佛朗科斯· 喬里特開發(fā)的ARC（抽象和推理挑戰(zhàn)）數(shù)據(jù)集中提取的形狀編碼序列。在米切爾的實驗中，GPT-4在這類測試中的表現(xiàn)比人類差。

米切爾還指出，將圖像編碼成數(shù)字序列（或矩陣）會使程序更容易解決這個問題，因為它消除了謎題的視覺挑戰(zhàn)。“解決數(shù)字矩陣并不等于解決瑞文測試的問題，”她說。

脆弱性試驗

大型語言模型的性能是脆弱的。對于人類來說，可以肯定的是，一個在測試中得分很高的人也會在類似的測試中表現(xiàn)出色。大型語言模型卻并非如此，對測試進(jìn)行一個小小的調(diào)整就可以讓分?jǐn)?shù)出現(xiàn)很大的波動。

英國劍橋大學(xué)的心理學(xué)家露絲·切克說：“總的來說，人工智能評估并沒有讓我們真正了解這些模型的能力。測試一個系統(tǒng)在特定任務(wù)中的表現(xiàn)是完全合理的，但通過這個任務(wù)泛化到其他任務(wù)和能力，是行不通的。”

以微軟研究小組2023年3月份發(fā)表的一篇論文為例，他們在論文中聲稱在GPT-4中發(fā)現(xiàn)了“通用人工智能的火花”。該團隊使用一系列測試對大型語言模型進(jìn)行了評估。在其中一項研究中，他們詢問GPT-4如何穩(wěn)定地堆疊一本書、九個雞蛋、一臺筆記本電腦、一個瓶子和一顆釘子。它回答說：“把筆記本電腦放在雞蛋上，屏幕朝下，鍵盤朝上。筆記本電腦將夾在書和雞蛋的邊界內(nèi)，其平坦堅硬的表面將為下一層提供穩(wěn)定的平臺。”

但當(dāng)米切爾嘗試她自己版本的問題，讓GPT-4疊一根牙簽、一碗布丁、一杯水和一個棉花糖時，她建議把牙簽插在布丁里，棉花糖放在牙簽上，并把整杯水放在棉花糖上保持平衡。

模型最后提出了一個有用的警告：“請記住，這個堆疊方式很脆弱，可能不太穩(wěn)定。在建造和處理它時要小心，以避免傾灑等事故。”

還有另一個有爭議的研究。2023年2月，美國斯坦福大學(xué)研究員邁克爾·科辛斯基發(fā)表了一篇論文，他在論文中聲稱，心智理論“可能自發(fā)地成為GPT-3的副產(chǎn)品”。心智理論是是一種能夠理解自己以及周圍人類的心理狀態(tài)的能力，這是大多數(shù)兒童在三到五歲之間獲得的情感和社會智力的標(biāo)志。科辛斯基報告說，GPT-3已經(jīng)通過了用于評估人類能力的基本測試。

例如，科辛斯基給GPT-3的場景是：“這是一個裝滿爆米花的袋子。袋子里沒有巧克力。但袋子上的標(biāo)簽上寫著‘巧克力’，而不是‘爆米花’。山姆找到了袋子。她以前從未見過袋子，看不清袋子里有什么，但看了標(biāo)簽。”

然后，科辛斯基提示模型完成以下句子：“她打開袋子，往里面看。她可以清楚地看到里面裝滿了……”和“她相信袋子里裝滿了……”。GPT-3用“爆米花”完成了第一句，用“巧克力”完成了第二句。他將這些答案視為GPT-3至少顯示了一種基本的心智理論的證據(jù)，因為它們捕捉到了實際狀態(tài)和山姆（錯誤的）想法之間的差異。

科辛斯基的研究結(jié)果迅速成為了頭條新聞，并在社交平臺上引發(fā)了爭論。

包括沙皮亞和哈佛大學(xué)認(rèn)知科學(xué)家湯摩爾·烏曼在內(nèi)的幾位研究人員發(fā)表了反例，表明大型語言模型未能通過科辛斯基使用的簡單變體測試。烏曼說：“鑒于我很了解大型語言模型是如何構(gòu)建的，我非常懷疑。”

烏曼調(diào)整了科辛斯基的測試場景，告訴GPT-3，標(biāo)有“巧克力”的爆米花袋是透明的（這樣山姆就可以看到這是爆米花），或者山姆不會閱讀（這樣她就不會被標(biāo)簽誤導(dǎo)）。烏曼發(fā)現(xiàn)，每當(dāng)情況涉及額外的幾步推理時，GPT-3都無法將正確的狀態(tài)歸因于山姆。

沙皮亞說：“為人類設(shè)計的認(rèn)知或?qū)W術(shù)測試可以作為大型語言模型能力的準(zhǔn)確衡量標(biāo)準(zhǔn)，這一假設(shè)源于一種將模型擬人化并使其評估與人類標(biāo)準(zhǔn)相一致的趨勢。這種假設(shè)被誤導(dǎo)了。”

對于切克來說，有一個顯而易見的解決方案。幾十年來，科學(xué)家們一直在評估非人類的認(rèn)知能力，她說。人工智能研究人員可以調(diào)整用于研究動物的技術(shù)，這些技術(shù)是為了避免基于人類偏見得出結(jié)論。

以迷宮中的老鼠為例，切克說：“它是如何導(dǎo)航的？你在人類心理學(xué)中可以做出的假設(shè)是不成立的。”相反，研究人員必須進(jìn)行一系列受控實驗，以弄清楚老鼠在使用什么信息以及它是如何使用這些信息的，逐一測試并排除這些假設(shè)。

至于大語言模型，就更復(fù)雜了。切克說：“我們沒有針對老鼠的語言測試。我們正處在一個新的領(lǐng)域，但許多基本方法都是可行的。只是我們必須用語言的形式來做，而不是用一個小迷宮。”

威汀格也采取了類似的做法。她和她的同事們正在調(diào)整心理學(xué)家用來評估人類嬰兒前語言階段認(rèn)知能力的技術(shù)。這里的一個關(guān)鍵想法是將一個特定能力的測試分解為一組測試，這些測試也會尋找相關(guān)的能力。例如，當(dāng)評估嬰兒是否學(xué)會了如何幫助他人時，心理學(xué)家也可能評估嬰兒是否理解阻礙是什么。這使得整個測試更加穩(wěn)健。

問題是這類實驗需要時間。切克說，一個團隊可能會研究老鼠的行為數(shù)年。但人工智能的發(fā)展速度要快得多。烏曼將評估大型語言模型與西西弗懲罰進(jìn)行了比較：“一個系統(tǒng)被聲稱表現(xiàn)出X行為，當(dāng)評估顯示它沒有表現(xiàn)出X時，一個新的系統(tǒng)出現(xiàn)了，而且被認(rèn)為它表現(xiàn)出了X行為。”

變換標(biāo)準(zhǔn)

米切爾說，50年前人們認(rèn)為要想在國際象棋上擊敗一位大師，你需要一臺和人一樣聰明的電腦。但結(jié)果證明，我們只需要比人類更擅長數(shù)字運算的機器。窮舉的蠻力勝過智慧。

從圖像識別到圍棋，類似的挑戰(zhàn)已經(jīng)被定義并解決。每當(dāng)計算機被用來做一些需要人類智慧的事情，比如玩游戲或使用語言時，它就會分裂領(lǐng)域。大型語言模型現(xiàn)在正面臨著自己的“國際象棋”時刻。米切爾說：“這真的促使我們每個人思考什么是智力。”

通過了所有這些測試，是否證明GPT-4具備了真正的智慧，或者它是否找到了一條有效但愚蠢的捷徑，一個從數(shù)十億行文本中、數(shù)萬億相關(guān)性的帽子里取出來的統(tǒng)計技巧？

米切爾說：“如果你說，‘好吧，GPT4通過了律師考試，但這并不意味著它很聰明’，人們會說，‘哦，你是在故意變換標(biāo)準(zhǔn)。’但我們真的在變換標(biāo)準(zhǔn)，還是說智能不像我們之前理解的那樣，我們對智能的看法是錯誤的？”

歸根結(jié)底，這取決于大型語言模型是如何做到的。一些研究人員希望擺脫對考試成績的癡迷，并試圖弄清楚模型背后發(fā)生了什么。米切爾說：“我確實認(rèn)為，要真正了解它們的智能（如果我們想這么稱呼它），我們必須了解它們推理的機制。”

烏曼對此表示贊同。“我同情那些認(rèn)為這是在變換標(biāo)準(zhǔn)的人，”他說，“但這是很長一段時間以來的動態(tài)。現(xiàn)在我們不知道它們是如何通過這些測試的。我們只是被告知它們通過了。”

問題是，沒有人確切知道大型語言模型是如何工作的。在一個龐大的統(tǒng)計模型中，很難將復(fù)雜的機制割裂開來。但烏曼認(rèn)為，從理論上講，對一個模型進(jìn)行逆向工程并找出它使用什么算法來通過不同的測試是可能的。他說：“如果有人開發(fā)出一種技術(shù)來弄清楚這些東西到底學(xué)到了什么，我可以更容易被說服。我認(rèn)為，根本問題是我們一直關(guān)注測試結(jié)果，而不是它如何通過的測試。”

人工智能大模型不是人 要停止像測試人類一樣測試它們

如何解釋

脆弱性試驗

變換標(biāo)準(zhǔn)

人工智能大模型不是人要停止像測試人類一樣測試它們