
人工智能離不開數據。為了訓練算法以實現預期目標,我們需要大量的數據,而輸入到人工智能模型中的數據質量直接決定了輸出結果的優劣。然而,問題在于人工智能開發者和研究人員對所使用的數據來源了解甚少。相比于人工智能模型開發的復雜性,人工智能的數據收集實踐尚不成熟,大規模數據集通常缺乏關于其內容和來源的詳細信息。
為了解決這一問題,來自學術界和產業界的50多名研究人員開展了數據溯源計劃。他們提出了一個簡單而重要的問題:構建人工智能所需的數據究竟來自哪里?為此,他們審查了近4000個公共數據集,這些數據集涵蓋了600多種語言、67個國家,并包含長達30年的數據,數據來源涉及800個不同的渠道和近700個組織。
這項研究的結果首次獨家發布在《麻省理工科技評論》上,揭示了一個令人擔憂的趨勢:人工智能的數據實踐正在使權力過度集中于少數幾家主導科技公司手中。

項目成員、美國麻省理工學院研究員肖恩·朗普雷表示,在十多年前,數據集的來源相對多樣化,這些數據不僅來自百科全書和互聯網,還包括議會記錄、財報電話會議以及天氣報告等來源。朗普雷指出,在那個時期,人工智能數據集是根據具體任務的需求精心策劃并從不同渠道收集的。
然而,2017年,支撐大語言模型的架構——Transformer的出現,改變了這一切。隨著模型和數據集規模的不斷擴大,人工智能的性能顯著提升。這使得人工智能領域逐漸傾向于采用更大規模的數據集。
如今,大多數人工智能數據集是通過從互聯網上大規模、無差別地抓取內容構建的。自2018年起,互聯網成為所有媒體類型(如音頻、圖像和視頻)數據集的主要來源。與此同時,網絡抓取的數據與更為精心策劃的數據集之間的差距逐漸顯現并不斷擴大。

“在基礎模型的開發中,數據的規模、異質性以及網絡來源對模型能力的影響無與倫比?!崩势绽妆硎?。對數據規模的需求也極大地推動了合成數據的廣泛使用。
近年來,多模態生成式人工智能模型應運而生,這些模型能夠生成視頻和圖像。與大型語言模型類似,它們需要盡可能多的數據,而目前最優的數據來源是視頻平臺YouTube。
以視頻模型為例,從圖表中可以看出,超70%的語音和圖像數據集的數據都來自同一來源。
對YouTube、谷歌的母公司Alphabet來說,這可能是一個巨大的優勢。與文本數據分布在眾多不同的網站和平臺上不同,視頻數據高度集中在單一平臺。
朗普雷指出:“這使得網絡上一些最重要的數據的控制權高度集中在一家企業手中?!?/p>
此外,谷歌自身也在開發自己的人工智能模型,這種巨大的優勢引發了關于公司如何向競爭對手提供這些數據的疑問。AI Now Institute的聯合執行主任莎拉·韋斯特表示,這值得進一步探討。
她認為,我們應該將數據視為通過特定過程創造出來的東西,而不是一種自然存在的資源。
她補充道:“如果我們日常使用的大部分人工智能所依賴的數據集反映的是大公司、以利潤為導向的企業的意圖和設計,那么這將以符合這些大企業利益的方式重塑我們的世界基礎設施?!?/p>
這種單一化也引發了關于數據集是否能夠準確反映人類體驗以及我們正在構建何種模型的疑問。
Cohere公司的研究副總裁、“數據源倡儀”成員薩拉·胡克表示:“人們上傳到YouTube的視頻通常是針對特定受眾而制作的,視頻中的行為往往帶有特定的目的性?!彼€問道:“這些數據是否捕捉到了人類存在的所有細微差別和多樣性?”
人工智能公司通常不會公開用于訓練模型的數據來源。一方面,這是為了保護其競爭優勢;另一方面,由于數據集的打包和分發過程復雜且不透明,人工智能公司自身也可能無法完全了解所有數據的具體來源。
此外,人工智能公司可能不了解這些數據在使用或共享時所受到的限制?!皵祿闯珒x”的研究人員發現,許多數據集附帶有嚴格的許可條款或使用條件,例如,可能限制其在商業用途上的應用。
“數據來源缺乏一致性,使得開發者很難正確選擇使用的數據?!焙吮硎尽?/p>
朗普雷補充道,這也讓開發者幾乎不可能完全確保他們的模型沒有使用受版權保護的數據進行訓練。
近年來,像OpenAI和谷歌這樣的公司與出版商、Reddit等主要論壇以及社交媒體平臺達成了獨家數據共享協議。這種做法進一步鞏固了它們的權力。
“這些獨家合同實際上將互聯網劃分為誰能訪問和誰不能訪問的不同區域?!崩势绽字赋?。
這種趨勢對能夠負擔此類協議的大型人工智能公司有利,但對研究人員、非營利組織和小型公司則構成了不利。這些較小的參與者將難以獲得必要的數據,而大型公司不僅能簽訂獨家協議,還擁有最強大的資源用于抓取數據集。
“這是我們在開放網絡上前所未見的新一波非對稱性訪問。”郎普雷說道。

用于訓練人工智能模型的數據也存在嚴重的地域偏倚。研究人員分析發現,超過90%的數據集來自歐洲和北美,而來自非洲的數據不足4%。
胡克指出:“這些數據集僅反映了我們世界和文化的一部分,卻完全忽視了其他地區。
訓練數據中英語的主導地位部分可以用互聯網的現狀來解釋。人工智能公司Hugging Face的首席倫理學家迦達·皮斯蒂利(并未參與此次研究)表示,互聯網上超過90%的內容是英語,而地球上許多地區的互聯網連接非常差,甚至沒有互聯網。她補充說,創建其他語言的數據集并將其他文化納入考慮需要有意識的規劃和大量的工作。
這種數據集的西方傾向在多模態模型中表現得尤為明顯。胡克舉例說,當一個人工智能模型被提示生成婚禮的場景和聲音時,它可能只能呈現出西方婚禮的樣子,因為它的訓練數據僅限于此。
這種情況強化了偏見,可能導致人工智能模型推動一種以美國為中心的世界觀,從而抹殺其他語言和文化的存在。
胡克指出:“我們在全球范圍內使用這些模型,但模型所能看見的世界與看不見的世界之間存在巨大差距?!?/p>