數據是訓練AI的關鍵。但從去年年底開始,一個新的問題籠罩了AI行業(yè),那就是數據的“資源枯竭”問題。“我們基本上已經用盡了人類知識的累積總和來訓練AI。”今年年初馬斯克在社交平臺X上表示。OpenAI、Anthropic等知名AI公司都曾公開承認這個問題,但這些公司大多是站在一個點評者的角度談論此事。
高盛的首席數據官兼數據工程主管尼瑪·拉斐爾可能是行業(yè)中第一個“自揭其短”的人。10月初,他在高盛的一檔播客節(jié)目中直言:“我們的數據已經用完了。”根據他的介紹,目前不少AI公司已經在使用AI生成的合成數據來訓練AI。但他不認為缺乏新數據會成為一個巨大的制約因素。
就在AI公司投入大量數據資源訓練AI的同時,互聯網世界中的海量內容也因AI的蓬勃而發(fā)生明顯轉變。10月,搜索引擎優(yōu)化公司Graphite發(fā)表的一份報告表明,目前互聯網上有逾半數內容是AI生成的。該公司通過研究分析發(fā)現,在ChatGPT于2022年11月發(fā)布之后,新文章中AI生成的占比已從2022年年底的約10%飆升到今年5月的52%。
管理維基百科的維基媒體基金會稱,因為越來越多的人通過AI聊天機器人和無需點擊的搜索引擎獲取信息,維基百科的訪問量顯著下降。10月17日,基金會產品高級總監(jiān)Marshall Miller在博客上表示,訪問量減少可能會導致愿意豐富百科內容的志愿編輯者的數量減少。