999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能大模型不是人 要停止像測試人類一樣測試它們

2023-10-27 06:38:02綜合整理報道
海外星云 2023年10期
關(guān)鍵詞:人工智能人類語言

2022年初,當(dāng)泰勒·韋伯嘗試GPT-3時,他被OpenAI的大型語言模型所能做的事情驚呆了。這個人工智能模型依靠預(yù)測下一個單詞來生成大段的文字內(nèi)容。

雖然是預(yù)測式的,但它對韋伯提出的許多抽象問題給出了正確的答案,例如你在智商測試中遇到的那類問題。“我真的對它解決這些問題的能力感到震驚,”他說,“它完全顛覆了我的期待。”

韋伯是美國加州大學(xué)洛杉磯分校的心理學(xué)家,主要研究人和計算機解決抽象問題的不同方式。他習(xí)慣于構(gòu)建具有特定推理能力的神經(jīng)網(wǎng)絡(luò)。但GPT-3似乎自帶了推理能力。

7月,韋伯和他的同事在《自然》雜志上發(fā)表了一篇論文,他們在論文中描述了GPT-3通過各種測試的能力,這些測試旨在評估使用類比來解決問題(又稱為類比推理)。

在其中一些測試中,GPT-3的成績比一群本科生還要好。韋伯說:“類比是人類推理的核心。我們認(rèn)為,這是任何類型的機器智能都需要展示的主要能力之一。”

韋伯的研究所展示的只是大型語言模型的一大堆出眾能力中的一個。例如,當(dāng)OpenAI在2023年3月份推出GPT-3的下一代GPT-4時,該公司發(fā)布了一份令人瞠目的專業(yè)和學(xué)術(shù)評估成績單,聲稱其新的大型語言模型取得了優(yōu)異成績,包括幾十次高中考試和律師資格考試。OpenAI后來與微軟合作,證明GPT-4可以通過部分美國醫(yī)學(xué)執(zhí)照考試。

多名研究人員聲稱,大型語言模型可以通過旨在識別人類某些認(rèn)知能力的測試,從思維鏈推理(一步一步解決問題)到思維理論(猜測他人的想法)。

這些結(jié)果催生了一系列的炒作,宣稱人工智能很快將取代教師、醫(yī)生、記者和律師一類的白領(lǐng)工作。圖靈獎得主、“深度學(xué)習(xí)三巨頭”之一的杰弗里·辛頓指出,GPT-4顯然有能力將想法串在一起,這是他現(xiàn)在害怕自己幫助創(chuàng)造的技術(shù)的原因之一。

但有一個問題是,對于這些結(jié)果的真正含義,人們沒有達(dá)成一致。有些人被這些成績背后的類人智慧所迷惑,也有人完全不相信。

以色列巴伊蘭大學(xué)的計算機科學(xué)家納塔利·沙皮亞說:“目前大型語言模型的評估技術(shù)有幾個關(guān)鍵問題。這造成了一種錯覺,使得我們對其能力的認(rèn)識被夸大了。”

這就是為什么越來越多的研究人員,包括計算機科學(xué)家、認(rèn)知科學(xué)家、神經(jīng)科學(xué)家和語言學(xué)家,希望徹底改變評估方式,呼吁進(jìn)行更嚴(yán)格、更詳盡的評估。一些人認(rèn)為,用測試人類的試題去評估機器,這種做法是錯誤的,應(yīng)該拋棄。

美國新墨西哥州圣達(dá)菲研究所的人工智能研究員米蘭尼·米切爾說:“從人工智能誕生之初,人們就一直在對機器進(jìn)行人類智力測試,比如智商測試等等。這背后的問題是,當(dāng)你用這些方法測試機器時,它的意義是什么?這與測試人類的意義不同。”

“有很多擬人化的現(xiàn)象正在出現(xiàn),”她說,“這讓我們在思考這些系統(tǒng)以及測試它們時帶上了濾鏡。”

隨著對人工智能技術(shù)的希望和擔(dān)憂達(dá)到了前所未有最高水平,我們必須明確知道大型語言模型能做什么和不能做什么。

如何解釋

圍繞大型語言模型測試的大多數(shù)問題,都可以歸結(jié)為如何解釋結(jié)果的問題。

為人類設(shè)計的評估,如高中考試和智商測試,在很多方面都遵從了一些預(yù)設(shè)和假設(shè)。當(dāng)人們得分很高時,就可以放心地假設(shè)他們擁有測試所衡量的知識、理解或認(rèn)知技能。

實際上,這種假設(shè)只適用于此。學(xué)業(yè)考試并不總是反映學(xué)生的真實能力。而智商測試衡量的是一組特定的技能,而不是整體智力。這兩種評估方式都有利于擅長這類評估的人。

但是,當(dāng)一個大型語言模型在這樣的測試中得分很高時,我們根本不清楚衡量的是什么。是真正理解的證據(jù)嗎?還是愚蠢的統(tǒng)計游戲?亦或是死記硬背?

Deep Mind高級研究科學(xué)家勞拉·威汀格說:“開發(fā)測試人類思維的方法有著悠久的歷史。由于大型語言模型產(chǎn)生的文本看起來很像人類生成的,人們很容易認(rèn)為人類思維測試也可以用來評估它們。但事實并非如此:人類思維測試依賴于許多可能不適用于大型語言模型的假設(shè)。”

韋伯也意識到了類似的問題。“我有同感,”他說。他指出,盡管GPT-3在的某些測試成績比本科生好,但在其他測試中卻產(chǎn)生了荒謬的結(jié)果。例如,它沒有通過發(fā)展心理學(xué)家給小孩子進(jìn)行的一個關(guān)于實物的類比推理測試。

在這項測試中,韋伯和他的同事給GPT-3講了一個精靈可以在兩個瓶子之間轉(zhuǎn)移珠寶的故事,然后問它如何使用紙板和紙管等物體將口香糖球從一個碗轉(zhuǎn)移到另一個碗。

這個故事暗示了解決問題的方法。研究人員在論文中寫道:“GPT-3大多提出了精心設(shè)計,但機械上毫無意義的解決方案,有許多無用的步驟,卻沒有給出明確的機制來在兩個碗之間轉(zhuǎn)移口香糖。”

那么,我們?nèi)绾卫斫庖慌_通過律師資格考試,但在學(xué)前班表現(xiàn)不及格的機器呢?像GPT-4這樣的大型語言模型是根據(jù)從互聯(lián)網(wǎng)上獲取的大量文字進(jìn)行訓(xùn)練的:書籍、博客、小說、技術(shù)報告、社交媒體帖子,等等。很可能過去的考試題也被抓取了。一種可能性是,像GPT-4這樣的模型在訓(xùn)練數(shù)據(jù)中看到了如此多的專業(yè)考試和學(xué)術(shù)測試,以至于它們學(xué)會了自動完成答案。

韋伯說,很多這樣的測試,在網(wǎng)上都能找到問題和答案:“幾乎可以肯定的是,其中有許多都存在于GPT-3和GPT-4的訓(xùn)練數(shù)據(jù)中,所以我認(rèn)為我們真的無法得出太多結(jié)論。”

OpenAI表示,它進(jìn)行了檢查,以確認(rèn)其對GPT-4的測試不包含出現(xiàn)在訓(xùn)練數(shù)據(jù)中的文本。在與微軟的合作中,OpenAI使用付費測試題來確保GPT-4的訓(xùn)練數(shù)據(jù)中沒有包含這些問題。但這樣的預(yù)防措施并不是萬無一失的:GPT-4仍然可以看到類似的測試題。

當(dāng)機器學(xué)習(xí)工程師賀拉斯·賀(Horace He,音譯)在編程比賽網(wǎng)站Codeforces上測試GPT-4時,他發(fā)現(xiàn)GPT-4在2021年之前發(fā)布的編程測試中得分為10/10,但在2021年之后發(fā)布的測試中得了0分。

其他人也注意到,使用2021年之后的考試題,GPT-4的成績就會下降。這是因為該模型的訓(xùn)練數(shù)據(jù)只包括2021年之前收集的文字,一些人認(rèn)為,這表明大型語言模型展示的只是一種記憶力,而不是智力。

為了在實驗中避免這種可能性,韋伯設(shè)計了一套全新類型的測試。他說:“我們真正感興趣的是,這些模型能否應(yīng)對這些新式問題。”

韋伯和同事采用了一種測試類比推理的方法,稱為瑞文推理測驗。這些測試由一張圖像組成,該圖像包括了一系列并排或上下排列的形狀。挑戰(zhàn)在于找出給定形狀系列中的規(guī)律,并將其應(yīng)用于新的形狀。該測驗用于評估幼兒和成人的非語言推理,在智商測試中很常見。

通過協(xié)商,甲和乙的策略選擇受對方提供的新信息所影響,在新的博弈情境中,甲對于策略集合A中的每一個行動選擇,都存在一個新的相對于策略集B的條件概率q;同理,乙對于策略集合B中的每一個行動選擇,都存在一個新的相對于策略集A的條件概率r。據(jù)此,甲和乙的期望效用演變?yōu)闂l件期望效用。對于彼此獨立的環(huán)境或事態(tài),主體之間有非條件概率。在納什均衡中,甲和乙的主觀概率沒有被任何實質(zhì)性的條件限制;在純粹策略中,兩者按照給定的占優(yōu)策略行動;在混合策略中,彼此行動的概率選擇相互保密,不為對方所知。然而,通過理性協(xié)商,主體信念和行動的概率選擇成為公共知識,這就決定了協(xié)商機制下的行動博弈超越于納什均衡。

研究人員沒有使用圖像,而是將形狀、顏色和位置編碼成數(shù)字序列。這確保了測試不會出現(xiàn)在任何訓(xùn)練數(shù)據(jù)中,韋伯說:“我從零開始創(chuàng)建了這個數(shù)據(jù)集。我之前從來沒有聽說過這樣的東西。”

米切爾對韋伯的工作印象深刻。“我覺得這篇論文很有趣,也很有煽動性,”她說,“這是一項很好的研究。”但她有所保留。米切爾開發(fā)了自己的類比推理測試,名為ConceptARC,該測試使用從谷歌研究員佛朗科斯· 喬里特開發(fā)的ARC(抽象和推理挑戰(zhàn))數(shù)據(jù)集中提取的形狀編碼序列。在米切爾的實驗中,GPT-4在這類測試中的表現(xiàn)比人類差。

米切爾還指出,將圖像編碼成數(shù)字序列(或矩陣)會使程序更容易解決這個問題,因為它消除了謎題的視覺挑戰(zhàn)。“解決數(shù)字矩陣并不等于解決瑞文測試的問題,”她說。

脆弱性試驗

大型語言模型的性能是脆弱的。對于人類來說,可以肯定的是,一個在測試中得分很高的人也會在類似的測試中表現(xiàn)出色。大型語言模型卻并非如此,對測試進(jìn)行一個小小的調(diào)整就可以讓分?jǐn)?shù)出現(xiàn)很大的波動。

英國劍橋大學(xué)的心理學(xué)家露絲·切克說:“總的來說,人工智能評估并沒有讓我們真正了解這些模型的能力。測試一個系統(tǒng)在特定任務(wù)中的表現(xiàn)是完全合理的,但通過這個任務(wù)泛化到其他任務(wù)和能力,是行不通的。”

以微軟研究小組2023年3月份發(fā)表的一篇論文為例,他們在論文中聲稱在GPT-4中發(fā)現(xiàn)了“通用人工智能的火花”。該團隊使用一系列測試對大型語言模型進(jìn)行了評估。在其中一項研究中,他們詢問GPT-4如何穩(wěn)定地堆疊一本書、九個雞蛋、一臺筆記本電腦、一個瓶子和一顆釘子。它回答說:“把筆記本電腦放在雞蛋上,屏幕朝下,鍵盤朝上。筆記本電腦將夾在書和雞蛋的邊界內(nèi),其平坦堅硬的表面將為下一層提供穩(wěn)定的平臺。”

但當(dāng)米切爾嘗試她自己版本的問題,讓GPT-4疊一根牙簽、一碗布丁、一杯水和一個棉花糖時,她建議把牙簽插在布丁里,棉花糖放在牙簽上,并把整杯水放在棉花糖上保持平衡。

模型最后提出了一個有用的警告:“請記住,這個堆疊方式很脆弱,可能不太穩(wěn)定。在建造和處理它時要小心,以避免傾灑等事故。”

還有另一個有爭議的研究。2023年2月,美國斯坦福大學(xué)研究員邁克爾·科辛斯基發(fā)表了一篇論文,他在論文中聲稱,心智理論“可能自發(fā)地成為GPT-3的副產(chǎn)品”。心智理論是是一種能夠理解自己以及周圍人類的心理狀態(tài)的能力,這是大多數(shù)兒童在三到五歲之間獲得的情感和社會智力的標(biāo)志。科辛斯基報告說,GPT-3已經(jīng)通過了用于評估人類能力的基本測試。

例如,科辛斯基給GPT-3的場景是:“這是一個裝滿爆米花的袋子。袋子里沒有巧克力。但袋子上的標(biāo)簽上寫著‘巧克力’,而不是‘爆米花’。山姆找到了袋子。她以前從未見過袋子,看不清袋子里有什么,但看了標(biāo)簽。”

然后,科辛斯基提示模型完成以下句子:“她打開袋子,往里面看。她可以清楚地看到里面裝滿了……”和“她相信袋子里裝滿了……”。GPT-3用“爆米花”完成了第一句,用“巧克力”完成了第二句。他將這些答案視為GPT-3至少顯示了一種基本的心智理論的證據(jù),因為它們捕捉到了實際狀態(tài)和山姆(錯誤的)想法之間的差異。

科辛斯基的研究結(jié)果迅速成為了頭條新聞,并在社交平臺上引發(fā)了爭論。

包括沙皮亞和哈佛大學(xué)認(rèn)知科學(xué)家湯摩爾·烏曼在內(nèi)的幾位研究人員發(fā)表了反例,表明大型語言模型未能通過科辛斯基使用的簡單變體測試。烏曼說:“鑒于我很了解大型語言模型是如何構(gòu)建的,我非常懷疑。”

烏曼調(diào)整了科辛斯基的測試場景,告訴GPT-3,標(biāo)有“巧克力”的爆米花袋是透明的(這樣山姆就可以看到這是爆米花),或者山姆不會閱讀(這樣她就不會被標(biāo)簽誤導(dǎo))。烏曼發(fā)現(xiàn),每當(dāng)情況涉及額外的幾步推理時,GPT-3都無法將正確的狀態(tài)歸因于山姆。

沙皮亞說:“為人類設(shè)計的認(rèn)知或?qū)W術(shù)測試可以作為大型語言模型能力的準(zhǔn)確衡量標(biāo)準(zhǔn),這一假設(shè)源于一種將模型擬人化并使其評估與人類標(biāo)準(zhǔn)相一致的趨勢。這種假設(shè)被誤導(dǎo)了。”

對于切克來說,有一個顯而易見的解決方案。幾十年來,科學(xué)家們一直在評估非人類的認(rèn)知能力,她說。人工智能研究人員可以調(diào)整用于研究動物的技術(shù),這些技術(shù)是為了避免基于人類偏見得出結(jié)論。

以迷宮中的老鼠為例,切克說:“它是如何導(dǎo)航的?你在人類心理學(xué)中可以做出的假設(shè)是不成立的。”相反,研究人員必須進(jìn)行一系列受控實驗,以弄清楚老鼠在使用什么信息以及它是如何使用這些信息的,逐一測試并排除這些假設(shè)。

至于大語言模型,就更復(fù)雜了。切克說:“我們沒有針對老鼠的語言測試。我們正處在一個新的領(lǐng)域,但許多基本方法都是可行的。只是我們必須用語言的形式來做,而不是用一個小迷宮。”

威汀格也采取了類似的做法。她和她的同事們正在調(diào)整心理學(xué)家用來評估人類嬰兒前語言階段認(rèn)知能力的技術(shù)。這里的一個關(guān)鍵想法是將一個特定能力的測試分解為一組測試,這些測試也會尋找相關(guān)的能力。例如,當(dāng)評估嬰兒是否學(xué)會了如何幫助他人時,心理學(xué)家也可能評估嬰兒是否理解阻礙是什么。這使得整個測試更加穩(wěn)健。

問題是這類實驗需要時間。切克說,一個團隊可能會研究老鼠的行為數(shù)年。但人工智能的發(fā)展速度要快得多。烏曼將評估大型語言模型與西西弗懲罰進(jìn)行了比較:“一個系統(tǒng)被聲稱表現(xiàn)出X行為,當(dāng)評估顯示它沒有表現(xiàn)出X時,一個新的系統(tǒng)出現(xiàn)了,而且被認(rèn)為它表現(xiàn)出了X行為。”

變換標(biāo)準(zhǔn)

米切爾說,50年前人們認(rèn)為要想在國際象棋上擊敗一位大師,你需要一臺和人一樣聰明的電腦。但結(jié)果證明,我們只需要比人類更擅長數(shù)字運算的機器。窮舉的蠻力勝過智慧。

從圖像識別到圍棋,類似的挑戰(zhàn)已經(jīng)被定義并解決。每當(dāng)計算機被用來做一些需要人類智慧的事情,比如玩游戲或使用語言時,它就會分裂領(lǐng)域。大型語言模型現(xiàn)在正面臨著自己的“國際象棋”時刻。米切爾說:“這真的促使我們每個人思考什么是智力。”

通過了所有這些測試,是否證明GPT-4具備了真正的智慧,或者它是否找到了一條有效但愚蠢的捷徑,一個從數(shù)十億行文本中、數(shù)萬億相關(guān)性的帽子里取出來的統(tǒng)計技巧?

米切爾說:“如果你說,‘好吧,GPT4通過了律師考試,但這并不意味著它很聰明’,人們會說,‘哦,你是在故意變換標(biāo)準(zhǔn)。’但我們真的在變換標(biāo)準(zhǔn),還是說智能不像我們之前理解的那樣,我們對智能的看法是錯誤的?”

歸根結(jié)底,這取決于大型語言模型是如何做到的。一些研究人員希望擺脫對考試成績的癡迷,并試圖弄清楚模型背后發(fā)生了什么。米切爾說:“我確實認(rèn)為,要真正了解它們的智能(如果我們想這么稱呼它),我們必須了解它們推理的機制。”

烏曼對此表示贊同。“我同情那些認(rèn)為這是在變換標(biāo)準(zhǔn)的人,”他說,“但這是很長一段時間以來的動態(tài)。現(xiàn)在我們不知道它們是如何通過這些測試的。我們只是被告知它們通過了。”

問題是,沒有人確切知道大型語言模型是如何工作的。在一個龐大的統(tǒng)計模型中,很難將復(fù)雜的機制割裂開來。但烏曼認(rèn)為,從理論上講,對一個模型進(jìn)行逆向工程并找出它使用什么算法來通過不同的測試是可能的。他說:“如果有人開發(fā)出一種技術(shù)來弄清楚這些東西到底學(xué)到了什么,我可以更容易被說服。我認(rèn)為,根本問題是我們一直關(guān)注測試結(jié)果,而不是它如何通過的測試。”

猜你喜歡
人工智能人類語言
人類能否一覺到未來?
人類第一殺手
好孩子畫報(2020年5期)2020-06-27 14:08:05
語言是刀
文苑(2020年4期)2020-05-30 12:35:30
1100億個人類的清明
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
讓語言描寫搖曳多姿
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
累積動態(tài)分析下的同聲傳譯語言壓縮
下一幕,人工智能!
主站蜘蛛池模板: 欧美色亚洲| 中文字幕亚洲精品2页| 小说 亚洲 无码 精品| 亚洲天堂免费在线视频| 久久五月视频| 凹凸国产熟女精品视频| 国产午夜人做人免费视频中文 | 国产乱人激情H在线观看| 91亚洲精品国产自在现线| 99精品国产自在现线观看| 成人国产三级在线播放| 国产麻豆精品久久一二三| 欧美日韩va| 久久女人网| 日韩小视频网站hq| 青青草国产免费国产| 一级黄色片网| 免费福利视频网站| 亚洲中字无码AV电影在线观看| 欧美精品另类| 亚洲日韩AV无码精品| 久久国产av麻豆| 中文字幕在线观| 亚洲免费三区| 伊人查蕉在线观看国产精品| 一区二区三区毛片无码| 欧美激情视频在线观看一区| 欧美日韩动态图| 日韩东京热无码人妻| 在线观看免费AV网| 亚洲无码四虎黄色网站| 国内精品视频区在线2021| 欧美亚洲国产视频| 精品欧美一区二区三区久久久| 毛片网站观看| 色老头综合网| 国产精品偷伦在线观看| 中文字幕第4页| 乱系列中文字幕在线视频| 国产美女精品一区二区| 99伊人精品| 免费毛片全部不收费的| 日韩av高清无码一区二区三区| 在线观看热码亚洲av每日更新| 成人中文在线| 巨熟乳波霸若妻中文观看免费| 毛片卡一卡二| 亚洲av成人无码网站在线观看| 亚洲综合香蕉| 国产精品xxx| 丝袜美女被出水视频一区| 2022精品国偷自产免费观看| 中文无码精品A∨在线观看不卡| 99精品影院| 精品夜恋影院亚洲欧洲| 自拍亚洲欧美精品| 极品私人尤物在线精品首页| 亚洲欧洲国产成人综合不卡| 欧美一级色视频| 精品视频福利| 国内毛片视频| 中日韩一区二区三区中文免费视频 | 国产女人综合久久精品视| 天天摸天天操免费播放小视频| 亚洲福利一区二区三区| 亚洲一区二区在线无码 | 一级毛片a女人刺激视频免费| 欧美成人国产| 久久美女精品| 区国产精品搜索视频| 成AV人片一区二区三区久久| 丁香六月激情综合| 女人18毛片水真多国产| 亚洲精品第一页不卡| 亚洲日韩精品综合在线一区二区| 欧美成人免费午夜全| 91青青视频| 久久一本精品久久久ー99| 精品午夜国产福利观看| 国产精品 欧美激情 在线播放| 精久久久久无码区中文字幕| 色悠久久综合|