
多年來(lái),構(gòu)建強(qiáng)大人工智能系統(tǒng)的人一直在使用從互聯(lián)網(wǎng)上提取的海量文本、圖像和視頻來(lái)訓(xùn)練他們的模型。
現(xiàn)在,這些數(shù)據(jù)正在面臨枯竭危機(jī)。
麻省理工學(xué)院領(lǐng)導(dǎo)的研究組織Data Provenance Initiative最近發(fā)表的一份研究報(bào)告顯示,過(guò)去一年里,被用于訓(xùn)練人工智能模型的主要網(wǎng)絡(luò)數(shù)據(jù)來(lái)源有許多都限制第三方使用它們的數(shù)據(jù)。
在調(diào)查了3個(gè)常用的人工智能訓(xùn)練數(shù)據(jù)集所包含的1.4萬(wàn)個(gè)網(wǎng)站域名以后,該研究發(fā)現(xiàn)了一個(gè)“正在出現(xiàn)的數(shù)據(jù)使用許可危機(jī)”:生產(chǎn)原創(chuàng)內(nèi)容的媒體機(jī)構(gòu)和線上平臺(tái)已紛紛采取措施防止自己的數(shù)據(jù)被采集。
有25%的最高質(zhì)量來(lái)源的數(shù)據(jù)已經(jīng)受到了使用限制。這些限制是通過(guò)“網(wǎng)絡(luò)爬蟲(chóng)禁用協(xié)議”(Robots Exclusion Protocol)設(shè)置的,這是一種已有幾十年歷史的方法,網(wǎng)站所有者可以通過(guò)一個(gè)名為robots.txt的文件來(lái)防止自動(dòng)機(jī)器人抓取他們的網(wǎng)頁(yè)內(nèi)容。
該研究的主要作者謝恩·朗普雷(Shayne Longpre)在接受采訪時(shí)說(shuō),“我們注意到,整個(gè)互聯(lián)網(wǎng)上允許外界使用自家數(shù)據(jù)的網(wǎng)站正在迅速減少,這不僅會(huì)對(duì)人工智能公司產(chǎn)生影響,也會(huì)對(duì)研究人員、學(xué)者和非商業(yè)實(shí)體產(chǎn)生影響?!?/p>
數(shù)據(jù)是當(dāng)今生成式人工智能系統(tǒng)的主要組成部分,這些系統(tǒng)需要輸入數(shù)十億個(gè)文本、圖像和視頻示例。這些數(shù)據(jù)大多是研究人員從公共網(wǎng)站上抓取的,它們被匯編成大型數(shù)據(jù)集,供下載和自由使用,其他來(lái)源的數(shù)據(jù)作為補(bǔ)充。
多年來(lái),AI開(kāi)發(fā)人員一直能夠相當(dāng)容易地收集數(shù)據(jù)。OpenAI、Google和Meta等公司為了收集更多數(shù)據(jù)來(lái)改進(jìn)旗下人工智能系統(tǒng)費(fèi)盡心機(jī),采取了轉(zhuǎn)錄YouTube視頻、刻意修改各自的數(shù)據(jù)政策等措施。
它們利用了互聯(lián)網(wǎng),最終,互聯(lián)網(wǎng)要開(kāi)始關(guān)閉它的大門(mén)了。
從這些數(shù)據(jù)中學(xué)習(xí),OpenAI的ChatGPT、Google的Gemini和Anthropic的Claude等生成式人工智能工具才能夠給大家寫(xiě)文章、編程以及生成圖像和視頻。輸入到這些模型的高質(zhì)量數(shù)據(jù)越多,它們的輸出結(jié)果通常就越好。
然而過(guò)去幾年,生成式人工智能蓬勃發(fā)展,引發(fā)了數(shù)據(jù)所有者的不滿(mǎn),抵制情緒在加劇——許多數(shù)據(jù)所有者要么擔(dān)心自家數(shù)據(jù)淪為人工智能系統(tǒng)的訓(xùn)練素材,要么至少希望獲得報(bào)酬。一些媒體網(wǎng)站設(shè)置了付費(fèi)墻或修改了服務(wù)條款,以限制第三方收集它們的數(shù)據(jù)來(lái)訓(xùn)練人工智能系統(tǒng)。
Reddit和Stack Overflow等網(wǎng)站選擇向人工智能公司收取數(shù)據(jù)訪問(wèn)費(fèi)用;《紐約時(shí)報(bào)》等傳媒公司則采取了法律行動(dòng),去年它起訴OpenAI和微軟侵犯版權(quán),指控這兩家公司在未經(jīng)許可的情況下使用其新聞報(bào)道來(lái)訓(xùn)練人工智能模型。
最近,一些人工智能公司與美聯(lián)社和《華爾街日?qǐng)?bào)》母公司新聞集團(tuán)(News Corp.)等出版商達(dá)成了協(xié)議,從而獲得這些出版商所擁有的內(nèi)容的訪問(wèn)權(quán)。
大范圍的數(shù)據(jù)限制會(huì)對(duì)人工智能公司構(gòu)成威脅,因?yàn)樗鼈冃枰€(wěn)定的高質(zhì)量數(shù)據(jù)供應(yīng),來(lái)維持旗下人工智能模型的數(shù)據(jù)的時(shí)效性。同時(shí)這可能會(huì)給小型人工智能機(jī)構(gòu)和學(xué)術(shù)研究人員帶來(lái)麻煩,因?yàn)樗麄円蕾?lài)公共數(shù)據(jù)集,且無(wú)力直接從出版商那里購(gòu)買(mǎi)數(shù)據(jù)使用 權(quán)。
非營(yíng)利性人工智能研究機(jī)構(gòu)EleutherAI的執(zhí)行董事斯特拉·比德曼(Stella Biderman)也表達(dá)了同樣的擔(dān)憂。
“大型技術(shù)公司已經(jīng)掌握了所有的數(shù)據(jù),”她說(shuō),“更改數(shù)據(jù)使用許可并不會(huì)追溯性地撤銷(xiāo)使用許可,受到主要影響的是后來(lái)者,他們通常是些體量較小的初創(chuàng)公司或研究人員?!?/p>
目前尚不清楚哪些流行的人工智能產(chǎn)品使用這些數(shù)據(jù)來(lái)源訓(xùn)練過(guò)產(chǎn)品,因?yàn)楹苌儆虚_(kāi)發(fā)者完全披露所使用的數(shù)據(jù)來(lái)源。
人工智能公司聲稱(chēng),它們對(duì)公共網(wǎng)絡(luò)數(shù)據(jù)的使用受到合理使用原則的法律保護(hù),但收集新數(shù)據(jù)變得更加棘手了。一些公司認(rèn)為,它們可以使用合成數(shù)據(jù)(即人工智能系統(tǒng)本身生成的數(shù)據(jù))來(lái)訓(xùn)練模型,由此擴(kuò)大數(shù)據(jù)庫(kù)的規(guī)模。但許多研究人員懷疑,當(dāng)下的人工智能系統(tǒng)是否有能力生成足夠的高質(zhì)量合成數(shù)據(jù),來(lái)替代它們即將接觸不到的由人類(lèi)生成的數(shù)據(jù)。
另一個(gè)挑戰(zhàn)在于,原創(chuàng)內(nèi)容出版商們可以通過(guò)在robots.txt文件中設(shè)置限制條件來(lái)阻止人工智能公司抓取自己的數(shù)據(jù),但它們的要求并不具有法律約束力,遵守這些要求與否取決于個(gè)人意愿(可以把它想象成數(shù)據(jù)領(lǐng)域的“禁止入侵”標(biāo)志,但沒(méi)有法律效力)。
主流搜索引擎對(duì)這些選擇退出的出版商表示尊重,OpenAI、Anthropic等數(shù)家處于領(lǐng)先的人工智能公司也公開(kāi)表達(dá)了同樣的態(tài)度。包括人工智能搜索引擎Perplexity在內(nèi)的其他公司則被指責(zé)無(wú)視了那些要求。
朗普雷說(shuō),這項(xiàng)研究的其中一個(gè)重要啟示是,我們需要新的工具為網(wǎng)站所有者提供更精確的方法來(lái)控制數(shù)據(jù)的使用。他說(shuō),一些網(wǎng)站可能會(huì)反對(duì)人工智能巨頭使用它們的數(shù)據(jù)來(lái)訓(xùn)練聊天機(jī)器人并以此牟利,但可能愿意讓非營(yíng)利組織或教育機(jī)構(gòu)使用它們的數(shù)據(jù)。目前還沒(méi)有很好的方法能區(qū)分這些用途,或者阻止一種用途,同時(shí)允許另一種用途。
不過(guò),這也給大型人工智能公司上了一課。多年來(lái),這些公司一直將互聯(lián)網(wǎng)視為“任意享用”的數(shù)據(jù)自助餐,卻沒(méi)有給數(shù)據(jù)所有者帶來(lái)多少價(jià)值回報(bào)。它們利用了互聯(lián)網(wǎng),最終,互聯(lián)網(wǎng)要開(kāi)始關(guān)閉它的大門(mén)了。