999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

人工智能面臨測評挑戰(zhàn)

2024-06-17 06:32:34KevinRoose
第一財(cái)經(jīng) 2024年6期
關(guān)鍵詞:人工智能標(biāo)準(zhǔn)能力

Kevin Roose

ChatGPT、Gemini和Claude等先進(jìn)的人工智能工具存在一個(gè)通病,即我們并不能準(zhǔn)確判斷其智能程度。

這是因?yàn)椋c汽車、藥品或嬰兒配方奶粉等產(chǎn)品不同,人工智能模型在上市前不需要送檢。AI聊天機(jī)器人沒有經(jīng)過任何標(biāo)準(zhǔn)的認(rèn)證,也很少有第三方獨(dú)立機(jī)構(gòu)對它們做嚴(yán)格測試。

相反,我們只能聽信人工智能公司的說法,而后者經(jīng)常用諸如“改進(jìn)了哪些功能”等含糊不清的說法來描述不同版本AI模型之間的差異。盡管現(xiàn)有的一些測試體系被用于評估這些模型在數(shù)學(xué)或邏輯推理方面的能力,很多專家對測試結(jié)果的可靠性仍有所懷疑。

這聽起來像是個(gè)小小的抱怨,但我確信,缺乏一個(gè)針對AI系統(tǒng)的良好的測試評估標(biāo)準(zhǔn),是AI發(fā)展道路上的一個(gè)重大問題。

首先,如果沒有關(guān)于人工智能產(chǎn)品的可靠信息,人們怎么可能知道如何使用它們?

我記不清過去一年有多少次朋友或同事問我,他們應(yīng)該用哪款人工智能工具來完成某項(xiàng)任務(wù)。我通常只能聳聳肩表示幫不上忙。即使專職撰寫人工智能的相關(guān)文章,并一直在測試新模型,我也很難準(zhǔn)確追蹤各種人工智能產(chǎn)品的相對優(yōu)勢或劣勢。

大多數(shù)技術(shù)公司不會(huì)發(fā)布其人工智能產(chǎn)品的詳細(xì)使用說明,且模型仍在迅速迭代。某個(gè)前一天還困于某項(xiàng)任務(wù)的聊天機(jī)器人,可能第二天就會(huì)奇跡般地變得很擅長它。缺少高質(zhì)量的人工智能測評標(biāo)準(zhǔn),人們就很難知道人工智能哪些功能的進(jìn)步速度快于預(yù)期,或者哪些人工智能產(chǎn)品會(huì)危害人類社會(huì)。

多年來,衡量人工智能的最流行方法是圖靈測試,這是數(shù)學(xué)家艾倫·圖靈(Alan Turing)于1950年提出的一種方法—如果一臺(tái)機(jī)器能夠與人類展開對話而不被人類辨別出其機(jī)器身份,就認(rèn)為是通過了測試。但人工智能發(fā)展至今,已可以輕松通過圖靈測試,研究人員必須研發(fā)出一種難度更高的新的測評方法。

如今最常見的測評手段是大規(guī)模多任務(wù)語言理解(MMLU)測試系統(tǒng),它的數(shù)據(jù)集誕生于2020年,由大約1.6萬道選擇題組成,考查范圍涵蓋數(shù)學(xué)、法律和醫(yī)學(xué)等數(shù)十個(gè)學(xué)科領(lǐng)域。它算是一種通用的人工智能測評標(biāo)準(zhǔn)—聊天機(jī)器人答對的題目越多,它就越智能。

MMLU現(xiàn)已成為人工智能公司爭奪市場主導(dǎo)地位的黃金標(biāo)準(zhǔn)。今年早些時(shí)候,Google推出其人工智能模型Gemini Ultra時(shí)就曾炫耀其MMLU得分率為90%,是有史以來的最高分。

一位曾幫助開發(fā)MMLU數(shù)據(jù)集的人工智能安全研究員丹·亨德里克斯(Dan Hendrycks)告訴我,MMLU“可能還有一兩年保質(zhì)期”,但它很快就會(huì)派不上用場。人工智能系統(tǒng)正變得越來越智能,現(xiàn)有的測評體系即將無法滿足現(xiàn)實(shí)需求,設(shè)計(jì)新的評測體系也變得越來越難。

另外出現(xiàn)的數(shù)十種其他測試手段,比如TruthfulQA和HellaSwag等,也只能測出人工智能系統(tǒng)的一小部分能力。

而且這些測評體系都無法回答許多用戶提出的一些主觀問題,比如:跟這個(gè)機(jī)器人聊天好玩嗎?它是更適合流程固定的日常辦公還是創(chuàng)意類工作?它的對話安全措施有多嚴(yán)格?

測試本身也可能存在問題。幾位研究人員曾提醒過我,使用MMLU等基準(zhǔn)測試評估人工智能的執(zhí)行過程因公司而異,各類模型的得分可能無法直接橫向比較,此外其中還暗含“數(shù)據(jù)污染”隱患—若基準(zhǔn)測試的問題和答案包含在人工智能模型的訓(xùn)練數(shù)據(jù)中,本質(zhì)上是在允許它作弊。

沒有獨(dú)立的測評或?qū)徍谁h(huán)節(jié),意味著AI公司實(shí)際上是在給自己批改作業(yè)。簡而言之,人工智能的測試評估目前是一團(tuán)亂麻。一堆草率的測試、并不相融的對比和自我炒作,讓用戶、監(jiān)管機(jī)構(gòu)和開發(fā)者全都找不到頭緒。

專注于人工智能的風(fēng)險(xiǎn)投資公司Air Street Capital的投資者內(nèi)森·貝納什(Nathan Benaich)表示,“盡管看起來很科學(xué),但大多數(shù)開發(fā)者是在根據(jù)感覺或直覺來判斷模型能力的。目前這也許還可行,但隨著大模型的能力和社會(huì)相關(guān)性越來越強(qiáng),這樣做就不夠可靠 了。”

一個(gè)可行方案是公共力量與私人力量聯(lián)手解決這一問題。政府有能力,也應(yīng)該建構(gòu)有效的人工智能測試標(biāo)準(zhǔn)和平臺(tái),以評估人工智能模型的真實(shí)能力和安全風(fēng)險(xiǎn)。政府還應(yīng)給旨在研發(fā)高質(zhì)量的人工智能測試評估新標(biāo)準(zhǔn)的研究項(xiàng)目撥款。

去年,斯坦福大學(xué)推出了一項(xiàng)新測試,是使用人工而非自動(dòng)化系統(tǒng)測試來判定AI模型能力。加州大學(xué)伯克利分校則推出了開放平臺(tái)Chatbot Arena,會(huì)隨機(jī)選取兩個(gè)模型匿名對決,并要求用戶投票,表達(dá)他們對模型性能的偏好。由此生成的模型排名結(jié)果十分受歡迎。

人工智能公司也應(yīng)該提供幫助,承諾與第三方評估人員和審核人員合作測試模型,允許更多研究員使用新模型,并提高模型迭代的信息透明度。

總之,我們不能僅靠感覺評估AI技術(shù)。只有建立起更高質(zhì)量的測評體系,我們才能有效利用它們,并知道是該慶賀還是恐懼它們的某項(xiàng)進(jìn)步。

猜你喜歡
人工智能標(biāo)準(zhǔn)能力
消防安全四個(gè)能力
2022 年3 月實(shí)施的工程建設(shè)標(biāo)準(zhǔn)
忠誠的標(biāo)準(zhǔn)
美還是丑?
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
大興學(xué)習(xí)之風(fēng) 提升履職能力
你的換位思考能力如何
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
主站蜘蛛池模板: 精品伊人久久久久7777人| 99久视频| 国产成人无码AV在线播放动漫 | 免费人成黄页在线观看国产| 免费aa毛片| 久久久噜噜噜| www精品久久| 亚洲男女天堂| 色婷婷成人| 色婷婷国产精品视频| 亚洲视频欧美不卡| 白浆免费视频国产精品视频| 中文字幕波多野不卡一区| 国产性精品| 亚洲精品另类| 日本国产精品| 欧美有码在线| 亚洲日本中文综合在线| 久久久精品国产SM调教网站| 亚洲91精品视频| 青青草原国产av福利网站| 日本免费福利视频| 欧洲高清无码在线| 日韩精品无码一级毛片免费| 欧美黄色网站在线看| 欧美97色| 欧美一区二区啪啪| 小蝌蚪亚洲精品国产| a亚洲视频| 久久精品国产精品一区二区| 国产精品漂亮美女在线观看| 国产一区二区精品高清在线观看| 性激烈欧美三级在线播放| 中文字幕首页系列人妻| 久久精品中文无码资源站| 国产成人综合久久| 国产99视频精品免费观看9e| 国产一级无码不卡视频| 在线国产欧美| 国产精品专区第1页| 久草中文网| 青青极品在线| 国产chinese男男gay视频网| 国产精品美乳| 久草性视频| 色屁屁一区二区三区视频国产| 日本少妇又色又爽又高潮| 美女潮喷出白浆在线观看视频| 中文字幕在线欧美| 欧美日本在线播放| 亚洲 欧美 日韩综合一区| 免费无码在线观看| 亚洲欧美在线看片AI| 国产剧情一区二区| 综1合AV在线播放| 2020亚洲精品无码| yy6080理论大片一级久久| 亚洲大尺码专区影院| 99热这里只有精品在线播放| 国产一区二区精品福利 | 中国成人在线视频| 久久影院一区二区h| 精品夜恋影院亚洲欧洲| 国产女人在线| 免费看黄片一区二区三区| 好久久免费视频高清| 一级片一区| AV片亚洲国产男人的天堂| 40岁成熟女人牲交片免费| 伊大人香蕉久久网欧美| 999福利激情视频| 小蝌蚪亚洲精品国产| 亚洲综合第一页| 这里只有精品在线播放| 98超碰在线观看| 成人亚洲视频| 这里只有精品在线播放| 美女黄网十八禁免费看| 亚洲精品无码久久毛片波多野吉| 99精品在线看| 在线精品亚洲一区二区古装| 波多野结衣中文字幕一区|