[摘要]在AI研究與應用中,訓練數據是基礎資源,對模型訓練和實際應用有重大影響。數據資源不足和質量問題,導致國內AI技術與國際水平有一定差距。訓練數據需滿足量大、多樣、準確、完整的特點,但收集面臨法律限制、數據安全義務重、通知成本高等問題,同時存在數據來源不規范的困境。為平衡數據收集與權利保護,本文建議在法律框架下引入包容審慎監管,優化授權流程,制定分級監管策略,鼓勵匿名化技術,以促進AI技術發展并保護數據主體權益。
[關鍵詞]訓練數據;數據安全;包容審慎監管" " "[DOI]:10.20122/j.cnki.2097-0536.2025.02.015
一、問題的提出
在生成式AI領域,訓練數據是核心資源,其收集階段對數據量和質量有直接影響,且對后續處理具有指導作用。目前,訓練數據收集面臨法律規制過嚴和數據隱私保護的雙重挑戰。《網絡安全法》和《個人信息保護法》的嚴格限制增加了企業合規成本和數據獲取的難度。為促進AI發展,需適當放寬法律要求,給予企業適當的收集空間。同時,放寬收集可能導致AI企業與數據主體間利益沖突增多,尤其在數據隱私方面。因此,需采取包容性數據收集策略,并配以適當救濟機制,確保法律對訓練數據收集既不嚴苛也不縱容。在包容與救濟原則下,應重新審視和調整法律規制,為AI發展提供靈活有效的支持。
二、訓練數據收集的現實困境
(一)現行法律規范對訓練數據收集的限制與要求
當下,人工智能發展迅速,訓練數據安全合規受關注,相關法規紛紛出臺,構建起保障體系。……