999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

完善語料數(shù)據(jù)生態(tài),賦能大模型產(chǎn)業(yè)發(fā)展

2025-04-01 00:00:00張苑瞿晶晶姚景怡
世界科學 2025年3期
關鍵詞:人工智能模型

人工智能(AI)是新質(zhì)生產(chǎn)力的典型代表,大模型是全球科技競爭的核心領域,也是引領新一輪產(chǎn)業(yè)革命的重要推動力。當前,國內(nèi)大模型公開語料數(shù)據(jù)資源匱乏,高質(zhì)量私域語料數(shù)據(jù)供給不暢,未形成大模型語料數(shù)據(jù)優(yōu)質(zhì)生態(tài)。針對這類問題,我國應率先完善語料數(shù)據(jù)生態(tài),搶先研發(fā)下一代基礎大模型,促進人工智能與經(jīng)濟社會發(fā)展的深度融合,引領和推動我國新一代人工智能的健康發(fā)展。

國內(nèi)大模型語料數(shù)據(jù)供給面臨三大困境

根據(jù)中國國家數(shù)據(jù)局數(shù)據(jù)統(tǒng)計,截至2024年3月底,我國10億參數(shù)規(guī)模以上的大模型已超100個,全球累計發(fā)布大模型超過200個。下一階段,大模型的競爭將進一步聚焦在性能表現(xiàn)和應用落地的能力上,能否有足夠充分和高效的大規(guī)模、高質(zhì)量的語料數(shù)據(jù)供給是搶占大模型產(chǎn)業(yè)爆發(fā)先機的關鍵。美國早在2016年出臺的《國家人工智能研發(fā)戰(zhàn)略計劃》(該計劃分別于2019年和2023年兩次更新)中,就明確提出將“開發(fā)適用于人工智能訓練和測試的共享公共數(shù)據(jù)集和環(huán)境”作為七大戰(zhàn)略計劃之一,而我國的語料數(shù)據(jù)發(fā)展起步較晚,數(shù)據(jù)資源整合能力、數(shù)據(jù)資源價值挖掘能力、數(shù)據(jù)治理能力的基礎薄弱,數(shù)據(jù)交易市場培育較為滯后,導致當前我國大模型語料數(shù)據(jù)供給還存在三大困境。

困境之一:大模型公開語料數(shù)據(jù)資源匱乏 "由于大模型的擴展速度比數(shù)據(jù)集快3倍,全球大模型普遍存在數(shù)據(jù)荒的問題。紀元(Epoch )AI 研究團隊(由麻省理工學院團隊和阿伯丁等大學學者組成)的研究結(jié)果表明,高質(zhì)量的語言數(shù)據(jù)存量將在2026年耗盡,低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量則分別在2030年至2050年、2030年至2060年枯竭。其中,中文語料成全球數(shù)據(jù)荒重災區(qū)。中國工程院院士高文指出,全球通用的50億大模型數(shù)據(jù)訓練集里,中文語料占比僅為1.3%。一些主流數(shù)據(jù)集如Common Crawl、Books Corpus、WiKipedia、ROOT等都以英文為主。最受好評的Common Crawl數(shù)據(jù)集中,中文數(shù)據(jù)也只占其4.8%。雖然國內(nèi)已有機構發(fā)布開源數(shù)據(jù)集,例如百度DuReader數(shù)據(jù)集、阿里天池數(shù)據(jù)集等,但總體來看數(shù)據(jù)質(zhì)量相對較低,存在噪聲、偏差或過時等問題,需要自行抓取并進行預訓練才可使用,且行業(yè)專業(yè)度不深。當然,隨著DeepSeek帶來的“鯰魚效應”,文心一言、ChatGPT等紛紛效仿其采取開源生態(tài),免費開放給所有用戶使用,這在一定程度上促進了全球的大模型語料獲取。

困境之二:高質(zhì)量私域語料數(shù)據(jù)供給不暢 "私域數(shù)據(jù)的領域性和專業(yè)針對性較強,可靠性與實用性較高,適合與行業(yè)大模型深度結(jié)合。近年來,我國高度重視數(shù)據(jù)開放,推進數(shù)據(jù)交易,國家組建數(shù)據(jù)管理局,地方上也紛紛設立數(shù)據(jù)交易中心,但總體上,企業(yè)和科研機構“尋找數(shù)據(jù)”的積極性較高,“共享和開放數(shù)據(jù)”的能動性較弱。一方面,專業(yè)領域知識積累的專業(yè)門檻高、時間周期長,企業(yè)出于商業(yè)利益和知識產(chǎn)權考慮,對領域知識共享意愿度低;另一方面,由于存在隱私、安全等合規(guī)性問題,部分行業(yè)缺少優(yōu)質(zhì)的數(shù)據(jù)供給。

困境之三:大模型發(fā)展與數(shù)據(jù)處理技術不平衡 "高質(zhì)量的大模型語料數(shù)據(jù)建設既有機制問題,又有技術問題。從技術層面看,大模型的有效運行需要從數(shù)據(jù)采集、清洗、處理、存儲和銷毀全生命周期進行數(shù)據(jù)技術的支撐,從頂層設計、標注規(guī)范、標注質(zhì)量把控以及發(fā)布后更新升級等各個方面嚴格把關。目前國內(nèi)訓練行業(yè)大模型所需要使用的工業(yè)、醫(yī)療、金融、交通等領域的垂直數(shù)據(jù)還較為缺乏。這主要是因為這些行業(yè)數(shù)據(jù)多聚焦于某些單一場景,需要經(jīng)過聚合整理后方能作為訓練大數(shù)據(jù)的數(shù)據(jù)集。此外,高效的安全技術保障也不足,雖然已有一些動態(tài)加密、聯(lián)邦機器學習等方式可以幫助脫敏,或者做到“原始數(shù)據(jù)不出域,數(shù)據(jù)可用不可見”,但總體效率不高,無法大批量地保障大模型訓練語料的安全。

國際上大模型語料數(shù)據(jù)開放供給的經(jīng)驗

各國對大模型語料數(shù)據(jù)開放供給都在持續(xù)探索的過程中。從實踐效果看,美國“政府-社會協(xié)同”的數(shù)據(jù)資源生態(tài)對大模型產(chǎn)業(yè)發(fā)展助力較大;歐盟通過完善法律試圖擴大人工智能領域的“布魯塞爾效應”,有效推動大模型賦能科研;而英國和日本受制于法律困境,進展較為有限。

美國:加快形成“政府-社會協(xié)同”的數(shù)據(jù)資源生態(tài) "為了進一步鞏固AI領域的競爭優(yōu)勢,美國聯(lián)邦政府在公共數(shù)據(jù)中承擔了“應開盡開”的職責,并以開放的公共數(shù)據(jù)服務于訓練語料,社會力量通過融合公共數(shù)據(jù)和網(wǎng)絡公開數(shù)據(jù)提升語料廣度、精細度和專業(yè)性。政府開發(fā)了專門針對AI訓練數(shù)據(jù)的開放平臺(www.data.gov.cn),除了隱去涉及國家秘密和個人隱私的信息,聯(lián)邦和地方法院都實現(xiàn)了數(shù)據(jù)公開,并針對公共數(shù)據(jù)和科研數(shù)據(jù)進行質(zhì)量維護和運營管理,在保證數(shù)據(jù)可用性的同時降低公眾使用門檻。為使AI促進科研,美國還出臺了為期6年的國家人工智能研究資源(NAIRR)計劃,通過建立數(shù)據(jù)資源服務平臺,匯聚社會力量建立統(tǒng)一的數(shù)據(jù)匯聚標準,規(guī)范數(shù)據(jù)描述格式,促進多方數(shù)據(jù)融合,并通過打造運營數(shù)據(jù)集社區(qū)等,推動多方協(xié)作的數(shù)據(jù)資源開發(fā)利用。同時,為促進公眾參與,美國政府數(shù)據(jù)開放平臺列出政府亟待解決的數(shù)據(jù)問題,并設立獎金,調(diào)動全社會的力量共同解決。

歐盟:強化數(shù)據(jù)戰(zhàn)略并尋求監(jiān)管平衡 "2020年,歐盟發(fā)布了《數(shù)據(jù)戰(zhàn)略》,并確定了九大戰(zhàn)略性行業(yè)和領域的數(shù)據(jù)空間,后為加強數(shù)據(jù)賦能科學研究,增添歐洲開放科學(EOSC)作為科研領域的數(shù)據(jù)空間。同時設立歐盟數(shù)據(jù)開放平臺,通過其元數(shù)據(jù)質(zhì)量儀表板評估歐盟各國國家數(shù)據(jù)開放的可訪問性和可用性。在2024年出臺的《人工智能法案》中,更加注重人工智能創(chuàng)新發(fā)展與監(jiān)管平衡,以規(guī)范來促進高質(zhì)量語料數(shù)據(jù)建設。法案通過確立數(shù)據(jù)多樣性和可追溯性的要求,并設立語料來源黑名單,確保語料的廣泛性和可驗證性。在語料版權上,歐盟國家雖強調(diào)了AI版權的透明性,但是對科研使用優(yōu)先豁免,例如,德國最新版《著作權及鄰接權法》規(guī)定了科研使用的豁免(出于非商業(yè)目的、將所有利潤再投資于科學研究或根據(jù)國家授權為實現(xiàn)公共利益的研究機構允許為科學研究目的進行文本和數(shù)據(jù)挖掘而制作復制品)。

英國和日本:尚未突破法律困境 "英國于2012年成立了開放數(shù)據(jù)研究所(ODI),以促進商業(yè)界、學術界、政府和社會在開放數(shù)據(jù)方面的合作,構建開放、可信任的數(shù)據(jù)生態(tài)。同時,英國官員們也正在考慮有關版權和人工智能的新法律。為了盡快吸引人工智能企業(yè)和技術進入英國,政府曾提出一項新的版權法豁免建議,但在藝術家的強烈反對下,不得不放棄該計劃。這凸顯了英國政府在迎合人工智能方面所面臨的挑戰(zhàn)。相似地,2023年5月,日本內(nèi)閣府發(fā)布了《關于人工智能和版權的關系》文件,并在人工智能戰(zhàn)略會議小組上討論使用。但日本關于AI訓練數(shù)據(jù)集版權豁免問題的相關討論局限于人工智能戰(zhàn)略會議小組及眾議院內(nèi)部,尚未出臺正式法律文件。

結(jié) 語

我國人工智能已經(jīng)進入快速發(fā)展的階段,而兼具開放性、高效性和易用性的DeepSeek的出現(xiàn),不僅展現(xiàn)了中國團隊在技術優(yōu)化和資源利用上的突破,同時也極大推動了人工智能應用領域的創(chuàng)新。在算力和數(shù)據(jù)供給方面,浙江大數(shù)據(jù)計算中心為其提供強大的算力支持,每日互動為其提供海量且豐富的用戶行為語料數(shù)據(jù),一些廠商也在主動謀求與幻方量化(DeepSeek的母公司)的合作,為其提供金融等專業(yè)領域的數(shù)據(jù)支持,推動了AI在各行各業(yè)的高度滲透。

未來,我國的大模型語料數(shù)據(jù)可以重點在以下幾個方面進行優(yōu)化。首先,集中戰(zhàn)略資源,協(xié)同建設“大模型語料”大基礎設施。依托具有強公信力的研發(fā)機構,設立資源共享-技術研發(fā)平臺,鏈接各個主體,匯聚各類公開和私域數(shù)據(jù),實現(xiàn)資源的內(nèi)部整合。同時,加大數(shù)據(jù)關鍵技術的研發(fā)攻關,通過AI大模型技術與大數(shù)據(jù)架構的深度融合,利用多源多態(tài)數(shù)據(jù)融合治理、多云多存儲數(shù)據(jù)操作抽象、跨中心協(xié)同大數(shù)據(jù)融合計算、多模態(tài)數(shù)據(jù)智能分析等技術,充分挖掘全國領域內(nèi)數(shù)據(jù)要素價值,及時支撐下一代基礎大模型的研發(fā)攻關。其次,提高數(shù)據(jù)供給質(zhì)量,豐富垂直類數(shù)據(jù)供給。探索建立大模型訓練數(shù)據(jù)需求清單和供給目錄,建立數(shù)據(jù)供需高質(zhì)量對接機制。探索建設可用于大模型訓練的公共數(shù)據(jù)專欄和社會數(shù)據(jù)專區(qū),以場景需求為牽引梳理數(shù)據(jù),推動公共數(shù)據(jù)和社會數(shù)據(jù)定向有條件開放。加強社會數(shù)據(jù)應用引導,鼓勵鏈主企業(yè)、行業(yè)組織發(fā)揮效能,打造有吸引力的行業(yè)專用數(shù)據(jù)庫。運用先進技術打破數(shù)據(jù)安全保護與數(shù)據(jù)交易流通矛盾,搭建“數(shù)據(jù)可用不可見”的數(shù)據(jù)可信流通技術平臺。第三,優(yōu)化數(shù)據(jù)治理,促進創(chuàng)新與安全的均衡發(fā)展。挪威、法國、新加坡等國家在人工智能領域均采取了“監(jiān)管沙盒”等平衡監(jiān)管與創(chuàng)新的治理工具。我國在大模型語料數(shù)據(jù)監(jiān)管上建議“宜疏不宜堵”,探索對基于純粹科學研究目的、來自主流媒體和專業(yè)領域知識機構等多種數(shù)據(jù)資源匯聚使用的版權進行豁免,以加速推進原創(chuàng)研究的進程。健全數(shù)據(jù)流通共享交易制度,探索建立正面引導清單、負面禁止清單和第三方機構認證評級相結(jié)合的數(shù)據(jù)市場準入管理制度,完善數(shù)據(jù)交易共享的技術保障、檢測認證、風險評估、信息披露和監(jiān)督審計等相關制度規(guī)范。

————————

本文作者張苑是上海市科學學研究所高級經(jīng)濟師,主要研究方向為科技金融、企業(yè)創(chuàng)新、人工智能;瞿晶晶是上海人工智能實驗室副研究員,主要研究方向為人機交互、人工智能治理;姚景怡是上海市科學學研究所助理研究員,主要研究方向為科技政策、科技管理

猜你喜歡
人工智能模型
一半模型
我校新增“人工智能”本科專業(yè)
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
3D打印中的模型分割與打包
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 04:56:22
主站蜘蛛池模板: 亚洲综合中文字幕国产精品欧美| 国产乱子伦精品视频| 久久大香伊蕉在人线观看热2| 欧美一级爱操视频| 2021精品国产自在现线看| 日韩无码黄色网站| 日韩欧美在线观看| 少妇精品网站| 天天做天天爱天天爽综合区| 男人天堂亚洲天堂| 亚洲一级毛片免费看| 日本一区二区不卡视频| 亚洲AV无码精品无码久久蜜桃| 日韩精品无码免费一区二区三区| 高清码无在线看| 久久综合伊人 六十路| 精品乱码久久久久久久| 国产网站免费| 国产在线一二三区| 亚洲欧美精品在线| 国产成人亚洲欧美激情| 99热这里只有精品5| 视频二区亚洲精品| 国产主播喷水| 亚洲综合国产一区二区三区| 日韩av在线直播| 欧美在线免费| 四虎永久免费地址在线网站| 欧美一区精品| 福利国产在线| 亚洲中字无码AV电影在线观看| 国产精品午夜电影| 亚洲日韩AV无码精品| 成人在线亚洲| 亚洲水蜜桃久久综合网站| 激情爆乳一区二区| 干中文字幕| 日韩精品亚洲一区中文字幕| 国产精品自在线拍国产电影| 2048国产精品原创综合在线| 性激烈欧美三级在线播放| 91综合色区亚洲熟妇p| 波多野一区| 久久黄色视频影| 伊人久久大香线蕉成人综合网| 久久黄色视频影| 国产精品香蕉| 国产精品区网红主播在线观看| 欧美一级黄片一区2区| 欧美日韩国产综合视频在线观看| 国产精品视频第一专区| 国产精品亚洲五月天高清| 久久网欧美| 91亚洲精品国产自在现线| 欧美自慰一级看片免费| 亚洲三级成人| 在线观看欧美国产| 国产精品无码久久久久久| 国产激情无码一区二区免费| 好久久免费视频高清| 亚洲欧美成aⅴ人在线观看| 免费在线看黄网址| 欧美精品亚洲日韩a| 蝌蚪国产精品视频第一页| 丰满的熟女一区二区三区l| 99在线视频免费| 精品一区国产精品| 54pao国产成人免费视频| 美臀人妻中出中文字幕在线| 亚洲天堂网视频| 日韩精品一区二区三区视频免费看| 黄色免费在线网址| 午夜成人在线视频| 茄子视频毛片免费观看| 国产精品毛片一区| 亚洲经典在线中文字幕| 美女被操黄色视频网站| 国产香蕉97碰碰视频VA碰碰看| 亚洲乱码在线播放| 777国产精品永久免费观看| 九九热视频精品在线| 91欧洲国产日韩在线人成|