999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

科技巨頭如何掌控人工智能的力量

2025-04-28 00:00:00
海外星云 2025年2期
關鍵詞:人工智能模型

人工智能離不開數據。為了訓練算法以實現預期目標,我們需要大量的數據,而輸入到人工智能模型中的數據質量直接決定了輸出結果的優劣。然而,問題在于人工智能開發者和研究人員對所使用的數據來源了解甚少。相比于人工智能模型開發的復雜性,人工智能的數據收集實踐尚不成熟,大規模數據集通常缺乏關于其內容和來源的詳細信息。

為了解決這一問題,來自學術界和產業界的50多名研究人員開展了數據溯源計劃。他們提出了一個簡單而重要的問題:構建人工智能所需的數據究竟來自哪里?為此,他們審查了近4000個公共數據集,這些數據集涵蓋了600多種語言、67個國家,并包含長達30年的數據,數據來源涉及800個不同的渠道和近700個組織。

這項研究的結果首次獨家發布在《麻省理工科技評論》上,揭示了一個令人擔憂的趨勢:人工智能的數據實踐正在使權力過度集中于少數幾家主導科技公司手中。

項目成員、美國麻省理工學院研究員肖恩·朗普雷表示,在十多年前,數據集的來源相對多樣化,這些數據不僅來自百科全書和互聯網,還包括議會記錄、財報電話會議以及天氣報告等來源。朗普雷指出,在那個時期,人工智能數據集是根據具體任務的需求精心策劃并從不同渠道收集的。

然而,2017年,支撐大語言模型的架構——Transformer的出現,改變了這一切。隨著模型和數據集規模的不斷擴大,人工智能的性能顯著提升。這使得人工智能領域逐漸傾向于采用更大規模的數據集。

如今,大多數人工智能數據集是通過從互聯網上大規模、無差別地抓取內容構建的。自2018年起,互聯網成為所有媒體類型(如音頻、圖像和視頻)數據集的主要來源。與此同時,網絡抓取的數據與更為精心策劃的數據集之間的差距逐漸顯現并不斷擴大。

“在基礎模型的開發中,數據的規模、異質性以及網絡來源對模型能力的影響無與倫比?!崩势绽妆硎?。對數據規模的需求也極大地推動了合成數據的廣泛使用。

近年來,多模態生成式人工智能模型應運而生,這些模型能夠生成視頻和圖像。與大型語言模型類似,它們需要盡可能多的數據,而目前最優的數據來源是視頻平臺YouTube。

以視頻模型為例,從圖表中可以看出,超70%的語音和圖像數據集的數據都來自同一來源。

對YouTube、谷歌的母公司Alphabet來說,這可能是一個巨大的優勢。與文本數據分布在眾多不同的網站和平臺上不同,視頻數據高度集中在單一平臺。

朗普雷指出:“這使得網絡上一些最重要的數據的控制權高度集中在一家企業手中?!?/p>

此外,谷歌自身也在開發自己的人工智能模型,這種巨大的優勢引發了關于公司如何向競爭對手提供這些數據的疑問。AI Now Institute的聯合執行主任莎拉·韋斯特表示,這值得進一步探討。

她認為,我們應該將數據視為通過特定過程創造出來的東西,而不是一種自然存在的資源。

她補充道:“如果我們日常使用的大部分人工智能所依賴的數據集反映的是大公司、以利潤為導向的企業的意圖和設計,那么這將以符合這些大企業利益的方式重塑我們的世界基礎設施?!?/p>

這種單一化也引發了關于數據集是否能夠準確反映人類體驗以及我們正在構建何種模型的疑問。

Cohere公司的研究副總裁、“數據源倡儀”成員薩拉·胡克表示:“人們上傳到YouTube的視頻通常是針對特定受眾而制作的,視頻中的行為往往帶有特定的目的性?!彼€問道:“這些數據是否捕捉到了人類存在的所有細微差別和多樣性?”

隱藏的限制

人工智能公司通常不會公開用于訓練模型的數據來源。一方面,這是為了保護其競爭優勢;另一方面,由于數據集的打包和分發過程復雜且不透明,人工智能公司自身也可能無法完全了解所有數據的具體來源。

此外,人工智能公司可能不了解這些數據在使用或共享時所受到的限制?!皵祿闯珒x”的研究人員發現,許多數據集附帶有嚴格的許可條款或使用條件,例如,可能限制其在商業用途上的應用。

“數據來源缺乏一致性,使得開發者很難正確選擇使用的數據?!焙吮硎尽?/p>

朗普雷補充道,這也讓開發者幾乎不可能完全確保他們的模型沒有使用受版權保護的數據進行訓練。

近年來,像OpenAI和谷歌這樣的公司與出版商、Reddit等主要論壇以及社交媒體平臺達成了獨家數據共享協議。這種做法進一步鞏固了它們的權力。

“這些獨家合同實際上將互聯網劃分為誰能訪問和誰不能訪問的不同區域?!崩势绽字赋?。

這種趨勢對能夠負擔此類協議的大型人工智能公司有利,但對研究人員、非營利組織和小型公司則構成了不利。這些較小的參與者將難以獲得必要的數據,而大型公司不僅能簽訂獨家協議,還擁有最強大的資源用于抓取數據集。

“這是我們在開放網絡上前所未見的新一波非對稱性訪問。”郎普雷說道。

西方與其他地區的差距

用于訓練人工智能模型的數據也存在嚴重的地域偏倚。研究人員分析發現,超過90%的數據集來自歐洲和北美,而來自非洲的數據不足4%。

胡克指出:“這些數據集僅反映了我們世界和文化的一部分,卻完全忽視了其他地區。

訓練數據中英語的主導地位部分可以用互聯網的現狀來解釋。人工智能公司Hugging Face的首席倫理學家迦達·皮斯蒂利(并未參與此次研究)表示,互聯網上超過90%的內容是英語,而地球上許多地區的互聯網連接非常差,甚至沒有互聯網。她補充說,創建其他語言的數據集并將其他文化納入考慮需要有意識的規劃和大量的工作。

這種數據集的西方傾向在多模態模型中表現得尤為明顯。胡克舉例說,當一個人工智能模型被提示生成婚禮的場景和聲音時,它可能只能呈現出西方婚禮的樣子,因為它的訓練數據僅限于此。

這種情況強化了偏見,可能導致人工智能模型推動一種以美國為中心的世界觀,從而抹殺其他語言和文化的存在。

胡克指出:“我們在全球范圍內使用這些模型,但模型所能看見的世界與看不見的世界之間存在巨大差距?!?/p>

猜你喜歡
人工智能模型
一半模型
我校新增“人工智能”本科專業
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
3D打印中的模型分割與打包
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 04:56:22
主站蜘蛛池模板: 伊人狠狠丁香婷婷综合色| 亚洲综合极品香蕉久久网| 国产女人爽到高潮的免费视频| 国产香蕉在线| 国产精品一区在线麻豆| 免费毛片视频| 久久综合九色综合97婷婷| 67194亚洲无码| 国产黄网永久免费| 午夜一级做a爰片久久毛片| 国产欧美在线观看视频| 日本日韩欧美| 看你懂的巨臀中文字幕一区二区| 波多野结衣无码视频在线观看| 韩日免费小视频| 亚洲视频黄| 国产精品一区二区在线播放| 国产精品99一区不卡| 国产福利不卡视频| 亚洲 欧美 日韩综合一区| 久久综合久久鬼| 欧美一级特黄aaaaaa在线看片| 永久免费AⅤ无码网站在线观看| A级全黄试看30分钟小视频| 亚洲第一天堂无码专区| 国产高清不卡视频| 亚洲第一区在线| 重口调教一区二区视频| 欧美a级在线| 色婷婷电影网| 国产精品欧美在线观看| 黑色丝袜高跟国产在线91| AV网站中文| 久久久久亚洲Av片无码观看| 国产69精品久久久久孕妇大杂乱 | 91久久偷偷做嫩草影院精品| 丁香五月婷婷激情基地| 99偷拍视频精品一区二区| 香蕉视频在线精品| 日韩精品一区二区三区视频免费看| 中文字幕亚洲无线码一区女同| 9cao视频精品| 欧洲精品视频在线观看| 国产欧美在线观看一区 | 亚洲第一成年网| 亚洲国产亚洲综合在线尤物| 女人18一级毛片免费观看| 国产高颜值露脸在线观看| 日本www在线视频| 99精品伊人久久久大香线蕉| 中文天堂在线视频| 国产白浆视频| 欧美日在线观看| 国产免费一级精品视频| 美女免费精品高清毛片在线视| 欧美亚洲第一页| 又爽又大又光又色的午夜视频| 91九色视频网| 国产成人精品在线1区| 成人国产精品2021| 中国一级特黄视频| 亚洲国产日韩欧美在线| 日韩第一页在线| 国产精品成人一区二区不卡 | 国产超薄肉色丝袜网站| 国产网站黄| 久久国产精品77777| 九九九精品成人免费视频7| 亚洲三级电影在线播放 | 亚洲无码37.| 亚洲免费黄色网| 欧美日韩资源| 精品国产欧美精品v| 国产精品网址在线观看你懂的| 女人18毛片一级毛片在线| 免费无码在线观看| 日韩欧美中文字幕在线韩免费 | 一级在线毛片| 欧美一区精品| 亚洲大学生视频在线播放| 亚洲视频二| 精品久久高清|