摘" "要:作為第五科研范式的AI4S,是科研領域促進新質生產力發展的重要工具,其構成要件之一是數據。AI4S大模型訓練以數據為基礎,更需要高質量、多類型數據。在商業大模型利用數據日趨受限的當下,及時關注科研大模型的數據要素供給尤為重要,加速將AI4S的新質生產力從代碼中釋放出來。面向AI4S的數據要素供給是復雜的系統工程,價值取向應是數據利他而不是數據利己,從而實現科學研究的公益目的和服務社會的賦能目標,應根據不同類型數據選擇相應路徑,即公共數據、企業數據、個人數據、科學數據和作品數據等宜分別選擇有條件無償、成本補償、自愿同意、互助共享和合理使用的供給路徑,同時要注意防控潛在的版權侵害、隱私公開、數據泄露和價值不齊的風險。
關鍵詞:AI4S;人工智能;數據要素;數據供給;科學研究;風險控制
中圖分類號:F49" "文獻標識碼:A" "DOI:10.11968/tsyqb.1003-6938.2024035
Data Element Supply for AI4S: Value Proposition, Path Choice and Risk Control
Abstract As the fifth scientific research paradigm, AI4S is an important tool to promote the development of the new quality productive forces in the field of scientific research, and one of its components is data, which is the basis for the training of AI4S big models, and it needs high-quality and multi-type data. At a time when the utilization of data for commercial big models is becoming more and more limited, it is especially important to pay attention to the supply of data elements for scientific research big models in time, so as to accelerate the release of the new quality productive forces of AI4S from the code. The supply of data elements for AI4S is a complex systematic project, and the value orientation should be data altruism rather than data egoism, so as to realize the public welfare purpose of scientific research and the empowerment goal of serving the society, the corresponding paths should be chosen according to different types of data, i.e., the supply paths of public data, enterprise data, personal data, scientific data, and artwork data, etc. that should be chosen respectively, such as the supply paths of conditional gratuitous, cost-compensated, voluntary agreement, mutual, sharing, and fair use. And at the same time, attention should be paid to preventing and controlling the potential risks of copyright infringement, privacy disclosure, data breaches, data leakage and value alignment.
Key words AI4S; artificial intelligence; data elements; data supply; scientific research; risk control
科學技術是第一生產力,人工智能的成熟和應用,促進科學技術向新質生產力飛躍。人工智能發展已進入加速階段,從算法智能階段(以Alpha Go為代表)進階到語言智能階段(Chat GPT為代表),目前正在開啟科研智能階段(以Alpha Fold 為代表)。科學研究的范式隨著技術變革而不斷演進,在經驗范式、理論范式、計算范式、數據驅動范式之后,迎來了第五范式。有學者認為科學研究第五范式以AI技術為核心[1],有學者認為AI for Science(簡稱為AI4S)才是科學研究第五范式[2-3],但都與AI密不可分。AI4S思想首次出現可追溯到2016年附近,AI4S在2020年前后正式進入人們視野,故2016年-2021年可謂是AI4S的“概念導入期”[4]。
新一代人工智能競爭悄然降臨,國內外的官方或企業已開啟了AI4S布局。在國內,科技部會同自然科學基金委啟動了“人工智能驅動的科學研究(AI for Science)”專項部署工作,布局AI4S前沿科技研發體系[5];科技創新2030——“新一代人工智能”重大項目在第二個五年實施階段(2023年-2027年),擬研究AI for Science的新理論、新模型、新算法,發展一批針對典型科研領域的AI for Science專用平臺[6]。此外,2023版《科學智能(AI4S)全球發展觀察與展望》以全新的框架重新梳理AI for Science的要素、沿革、展望,并詳盡描述其在各行各業的實踐[7]。在國外,前谷歌掌門人Eric Schmidt宣布成立AI for Science博后獎學金并布局9所大學,微軟宣布成立專門的AI4Science部門,英偉達聯合IIT發布AI for Science公開課程,美國能源部聯合5大國家實驗室發布AI for Science,Energy amp; Security先進科研課題指引,OECD面向全球政策制定者發布AI in Science的綜述與政策建議[4]。
當前,AI4S已進入大規模基礎設施建設期(2021年-2026年),帶來的是數據、算法、算力“三位一體”的計算方式變革[4]。該階段初期,AI4S已在生命科學、材料科學、能源科學、電子工程與計算機科學、地球與環境科學等領域取得了許多重大進展,此時應該更加關注背后的AI。在AI三大要素的數據、算力和算法中,本文僅關注數據要素。一方面,若說數字技術是科學變革的引擎,那么數字數據就是燃料,但許多科學學科的燃料供不應求[8];另一方面,從2023年紐約時報因GPT-4輸出結果與其作品大量重復而把OpenAI、微軟送上被告席,到2024年巴西禁止美國Meta使用巴西用戶數據訓練生成式AI模型,限制商業大模型利用作品數據、個人數據的趨勢已現,有必要提前思考科研大模型的數據供給問題。AI4S數據要素問題不僅在于數據的體量、質量、可用、復用等,更在于數據來源。鑒于此,從價值取向、路徑選擇和風險控制三因素聚焦面向AI4S的數據要素供給,因為價值取向影響數據要素供給的路徑選擇,進而影響風險控制。
1" "AI4S及其與數據要素的關系
1.1" " AI4S的概念認知
AI4S是我國學者于2018年提出的新概念,目前,學界對其內涵的認知還處于混沌期[3]。AI4S被漢譯為“科學智能”[3,9-10],或者“人工智能驅動的科學研究”[1-2,11],后者出現在我國官方文件中[5]。鄂維南等科學家將“AI for Science”翻譯成“科學智能”,可作為第五科研范式定名與翻譯的借鑒,但智能化的科研不限于基礎科學研究,也包括技術研究和工程研究的智能化;科學技術部和國家自然科學基金委員會啟動部署的“AI for Science”專項稱為“人工智能驅動的科學研究”,但在與實驗、理論、計算機仿真、數據驅動等范式名稱放在一起時,又顯得不夠精煉[12]。AI4S漢譯為“人工智能驅動的科學研究”,更能準確傳達該概念的樸素本義,能避免中文名稱過于抽象而在使用中逐漸被泛化的弊端。理解AI4S本義應該將AI和Science作為兩個獨立的主題,兩個主題之間是靠“驅動”作為連接點形成互動關系,可通俗理解AI4S為“Science是AI的應用場景”。
王東波等認為,AI4S是指將人工智能技術應用于科學研究的新興研究領域,通過構建人工神經網絡等數據模型,以自動化提取數據特征的方式,從大規模數據中提取關鍵特征和潛在模式,進而實現對數據的高效處理和深度挖掘[2];周江林認為,AI4S就是利用AI并賦以AI如深度學習、科學計算等特殊功能來從事基礎研究[3];徐東波認為,AI4S是指科研人員利用人工智能產品、學科、技術的智能化優勢,促進科學研究過程加速、領域融合、合作深化、方法改進的復雜過程,以達到科學創新的目的[13];湯超從應用、工具和原理方面闡釋了AI4S的三層含義,即把AI用于各個學科中的科研、技術創新、成果轉化等,利用AI來發現new science,AI背后有其科學原理[14]。上述代表性成果關于AI4S的認知各有側重,或強調“以數據為基礎”,或強調“深度學習、科學計算等”,但共性之處在于認同“AI在科學研究領域的應用”,只不過表達不一致而已,如“將人工智能技術應用于科學研究”“利用AI從事基礎研究”“AI用于各個學科中的科研”和“利用人工智能產品、學科、技術的智能化”。由此,可以認為科學研究是AI4S的作用場域,考慮到科學研究的公益屬性比較強,故可將AI4S的屬性定位為公共利益。
1.2" " AI4S與數據要素的關系
簡化來看,AI4S與數據要素的關系體現在:其一,數據是AI4S的構成要素,即與算法、算力共同形成了AI4S這一新的研究范式,尤其是AI4S中的AI部分離不開數據驅動;其二,AI4S能夠應對大規模數據處理,即“AI4S不僅可以處理多維、多模態的海量數據,加速科研流程,也能幫助人們發現新的科學規律,甚至達到之前從未也無法觸及的新領域”[3]。
首先,AI4S的大模型訓練需要以數據為基礎。在經驗范式、理論范式、計算范式的科學研究中,涉及的數據相對于數據驅動范式都是小規模數據。無論是自然科學,還是人文社會科學,數據成為基礎研究的重要生產工具,這也是AI4S最具優勢之處[3]。數據作為大模型訓練的原始語料,是AI4S形成的起點。AI通過輸入的大規模數據語料,從中學習規律和方法。如AlphaFold2需要同時使用帶標簽和未帶標簽的數據進行網絡訓練,包括序列數據集和結構數據集[1]。尤其是,深度學習依賴神經網絡的復雜結構,需要通過足夠的數據迭代訓練才可以實現。
其次,AI4S的大模型訓練需要高質量數據。數據質量直接影響AI的性能與結果,“AI4S功能發揮或智力水平的高低一定程度上取決于數據質量的高低”[3],提升AI4S模型精度需要海量數據。高質量數據能夠訓練出更準確的大模型,若數據存在噪聲或偏差,可能會導致大模型在應用中出現誤判或偏見,最終影響輸出結果的可靠性和有效性。盡管人工智能領域獲取數據的門檻簡單了許多,但是高質量數據集仍較為缺乏。大模型發展到一定階段之后,算法和算力在短時期內很難有突破性變革,競爭的焦點在于高質量數據。一般性的數據訓練完成后,提升大模型精度就嚴重依賴高質量數據集。雖然已有部分通用領域建立并開放或共性了數據集,但是科學研究的細分領域可用的高質量數據集仍然匱乏。
再次,AI4S的大模型訓練依賴多類型數據。訓練數據的多樣性有利于提升模型應對“未知”的能力,根據不同的分類標準,可以將AI4S所需數據劃分為不同類型。如按照來源標準,AI4S的常見類型包括觀測數據、實驗數據、記錄數據、調查數據、模擬數據等,每種類型的數據都有其獨特的應用領域和獲取方式,綜合利用這些數據對于科學研究有著重要的意義[4]。AI4S需要多少類型的數據,當前的研究成果尚未達成共識。如構建AI4S知識底座框架需要的領域原始知識資源包括科研論文、科研專利、科技圖書、預印本、基金項目、科技政策、科技輿情、編輯動態、科技人才、科研機構等,而科學數據有效聚合為發揮AI4S的強大功能奠定了數據基礎[2];再如,通過收集政府數據、公開數據、實驗數據、調查數據等同質異構的海量數據,努力構建相應的高質量數據庫,為充分發揮AI4S的強大功能奠定數據基礎[3]。
綜上,以數據為基礎是AI4S的本體要求。科研領域涉及的數據類型繁、體量大,使用專門模型比通用大模型更為有效,如AlphaFold、DeePMD等都是以特定領域知識模型為基礎,這就對數據要素供給提出了類型化要求。高質量數據意味著加工數據,可關聯到企業數據。在現有研究成果的數據分類基礎上,可歸納以下典型數據類型:其一,基于科研論文、科技圖書、預印本等可以概括出作品數據;其二,基于觀測數據、試驗數據、記錄數據、調查數據等可概括出科學數據;其三,基于科技輿情、編輯動態、科技政策、科技人才、科研機構、科研專利、基金項目等概括出公共數據。按照是否能夠識別到特定自然人,前述數據還可劃分個人數據和非個人數據。
2" "面向AI4S數據要素供給的價值取向
2.1" " 數據利己:私益與變現之否定
個人數據因為其“識別特定主體的身份”,天然地荷載了人格利益,即自帶私益屬性。即便是非個人數據,其私益屬性也在商業市場中逐步加強。數據定位為生產要素之后,其生產價值和商業價值就愈發凸顯出來。雖然商業主體一直立足公益立場呼吁政府數據開放、公共數據開放,但是數據市場中的商業行為卻日益增強了數據的私益屬性。不同主體面對數據時,似乎天然地存在一種利己心態。這種“利己”是中性的,并非“精致利己”意義上的。雖然“數據利己”的概念尚未正式見諸于既有研究成果,可以從個人和企業等主體涉及數據的主張中加以洞察。
數據利己的表現之一是“不受損”。數據作為一種私益,本來就應該得到保護,不能放任數據及其相關利益受侵害。對于個人而言,首先是考慮隱私安全和數據安全。大數據的“身份悖論”與生俱來,即大數據試圖以犧牲個人和集體身份為代價進行識別[15]。從互聯網環境中的隱私安全,到數字時代的數據安全,人們出現此類擔憂的邏輯起點是“不受損”,即不能因為隱私在網絡空間的快速傳播而擾亂生活安寧,不能因為數據的泄露、濫用等而侵擾隱私安全、財產安全以及人身安全等。對于企業而言,優先考慮的是競爭優勢。企業在商業活動中收集和存儲多模態、大規模數據而形成的競爭優勢應得到維持,慣用做法采用技術措施、用戶協議等自力救濟手段,將這些數據資源保護起來,甚至以安全為由不對外提供,盡可能排除競爭對手獲得這些數據而削減其競爭優勢。
數據利己的表現之二是“能受益”。數據既然是一種私益,那么讓渡該私益就應該獲得另一種私益,如此才能保證私益的持續。對于個人而言,開始考慮將個人的數據交易出去,由此獲得相應的對價(變現)。如美國的Personal.com公司推出“數據倉(Data Vault)”,便于用戶將個人數據的使用權賣給商業機構,國內的Ufile Chain2019年就開始探索數據作為數字資產回歸用戶本人并實現收益。對于企業而言,自己的數據皆有對價,在確保數據競爭優勢的前提下,通過開放API接口為其他商業主體提供數字服務(很少有直接交易數據本體)從而獲得相應的對價,已是成熟的數據交易商業實踐。若因對方在此過程擅自存儲所提供的數據,往往是通過司法獲得救濟。
在“不受損”的價值驅使下,追求的是數據安全,最好的方式就是保護起來,但易導致數據的流動性降低,數據無法得到有效利用和價值釋放。在“能受益”的價值驅使下,追求的是數據對價,最好的方式就是交易,數據流動性倒是得到極大改善,但易導致數據獲取成本極大增加。以數據為基礎的AI4S,需要質高多樣的海量數據。若數據流動性差,則從根本上難以獲得前述數據;若獲取成本高,則在經費有限情況下,難以獲得足夠的高質量數據。與商業活動(包括商業目的驅動的科學研究)的成本可以轉嫁到消費端不一樣,以公共利益為目標的科學研究不宜也難以轉嫁數據成本。公益性質的科學研究,其成果具有公共產品屬性,成果受益群體并非特定主體,而是廣大公眾,公眾在享受AI4S帶來的科技惠民成果時也沒有額外付出相應對價。總體而言,AI4S的價值取向不宜是數據利己,中性的“不受損”和“能受益”指向的數據變現會最終催生“數據重商主義”,由此導致“數據壟斷”而限制科研主體獲得數據的機會,而且數據交易可能會導致數據碎片化而降低科學研究的效用和價值。
2.2" " 數據利他:公益與賦能之肯定
《歐洲數據戰略》(European Strategy for Data)提出了“數據利他”(Data Altruism),其大意是“在符合GDPR規定之下,若個人愿意,應該讓‘個人允許將其產生的數據用于公共利益’變得更加容易(數據利他)”[16]。后來,歐洲《數據治理法》(Data Governance Act)第二條明確界定了數據利他的定義,是指在數據主體同意處理與其相關的個人數據基礎上自愿共享數據,或數據持有者允許使用其非個人數據而不尋求或接受超出與其為國家法律規定的普遍利益目的而提供其數據所產生成本的相關補償回報,適用情形包括醫療保健、應對氣候變化、改善流動性、促進官方統計數據的開發生產和傳播,以及改善公共服務供給、公共政策制定或符合公共利益的科學研究目的[17]。
理解數據利他的要點在于:其一,本質目的是公共利益,意味著不得將數據用于公益目的之外的其他目的;其二,數據利他的數據類型包括個人數據和非個人數據,意味著所有的數據都可以納入到利他范疇;其三,數據利他的主體是數據主體和數據持有者,分別是個人數據和非個人數據的權利主體;其四,表現形式包括自愿共享個人數據和無償允許使用非個人數據,“無償”可以不要求對價,但也并不禁止對價,只不過將對價限制在不超過按照法律規定提供數據所產生的成本;其五,適用場景包括醫療保健、應對氣候變化和促進官方統計,以及改善流動性、公共服務供給、公共政策制定、科學研究。
在“數據利他”還不是完整概念時,“利他主義”就已經出現在生物數據庫的建設之中——“信任公眾提供他們的個人數據,信任收集數據者安全可靠地處理數據,以便在未來幾十年內將其用于公共利益”[18]。數據利他應該成為AI4S領域的基本價值觀念,從數據利他基本要義來看,AI4S與之是相符的。在利他價值的內在驅動下,激勵個人和企業有更強意愿為公共利益提供數據。如美國醫學研究所調研發現,美國94%有健康狀況的社交媒體成年用戶同意使用匿名共享的健康數據來幫助臨床醫生改善護理,這種將臨床數據視為共享資源的利他主義愿景是衛生系統實現持續改進的重要基石[19]。不僅如此,暢通人們利用APP等軟硬件設備共享其收集的道路數據、交通數據,可以為道路狀況和實況交通提供重要信息,有助于研究人員據此改善交通安全方案。
因此,在AI4S場景中,應該有更多的數據被用于利他目的,在這種價值取向之下,有助于低成本地促進足夠規模的數據池形成,實現科學研究的機器學習和數據分析。數據利他能夠從整體上提升數據要素的使用效率,實現數據要素賦能科學研究的效應最大化,而科學研究成果又能增進社會總福祉。在利他共贏的數字生態中,個人、企業和政府等利益相關者都將共同受益。如復旦大學自然語言處理實驗室設計的“眸思”多模態大模型用于輔助視障人士,視障人士只需用手機拍張照片,“眸思”就能準確描述出周圍的環境。在該AI4S的生態價值鏈條中,視障人士獲得更為便捷的生存體驗、企業開發新商業產品成為可能,而政府的產學研效益大幅提升。
3" "面向AI4S數據要素供給的路徑選擇
“數據二十條”將數據劃分為公共數據、企業數據和個人數據三大類,但是AI4S所需數據類型不止于此。面向AI4S的數據要素,還涉及科學數據和作品數據等不同類型,在數據利他價值取向下,數據要素供給路徑可以是有條件無償、成本補償、自愿同意、互助共享或合理使用,以促進數據利他(科學研究)的實現。若不在數據利他價值約束下,諸如企業數據、個人數據、作品數據等,可通過交易對外供給。
3.1" " 公共數據的供給路徑:有條件無償
作為中央政策的“數據二十條”所界定的公共數據是指“對各級黨政機關、企事業單位依法履職或提供公共服務過程中產生的公共數據”,有學者認為“公共數據是指與社會民生相關的、從社會生活中搜集的以社會大眾為對象的數據”[20]。關于公共數據的理解,不同的定義側重點有所不同,但共性之處在于“公共屬性”。公共數據具有直接“取之于民”的公眾基因,因此“用之于民”的正當性不言而喻。在大多數國家,數據開放運動已經取得了實質性的成效,“開放”已經成為公共數據的“底色”。“數據二十條”將公共數據開放分為三類,第一類就是“用于公共治理、公益事業的公共數據有條件無償使用”。
AI4S具有公共利益屬性,符合服務于“公益事業”范疇,應當“無償”使用,但應符合相應“條件”。對于面向市場主體和AI4S供給公共數據,“無償”是對等的。與“無條件開放”不同,“有條件”是基于安全等考慮,而不是基于“對價”的考慮。不能因為AI4S的公共利益屬性,就無條件開放公共數據,而導致國家安全、社會穩定等風險。尤其涉及秘密的公共數據,應禁止原始公共數據直接進入市場,若對科學研究又至關重要,此時“有條件”就顯得尤為必要,如科研機構應當確保提供充分的數據安全保護,科研人員應簽署保密協議。如此,保障公共數據在釋放公共利益價值時,以免將其他公共利益置于風險之中。
3.2" " 企業數據的供給路徑:成本補償
企業數據的內涵尚未達成共識,大致可從三個維度理解。其一,與企業自身相關的數據,包括企業聯系方式、企業域名、企業商標、企業研究成果、經營范圍、所在地址等;其二,企業合法持有的數據,包括得到明示授權或默示許可而合法收集的原始數據,及經過其加工后的衍生數據;[21]其三,企業生產經營活動中產生的數據,是指企業在研發、生產、銷售、提供服務等各類生產經營活動過程中產生的數據[22]。第一個維度的企業數據主要是用于識別企業“身份”或經營信息,第二個維度和第三個維度的企業數據具有科研價值,可理解為“企業產生或合法持有的數據”。
無論是經營活動中產生的數據,還是合法收集的原始數據或加工的衍生數據,尤其是形成高質量、高價值的通用或專用數據集,企業在這個過程中要付出較大的成本。從企業的社會責任出發,不能按照商業邏輯對待AI4S所需的企業數據,但應該允許企業獲得不高于數據成本的補償。同時,AI4S機構及其人員不能將獲得的企業數據用于科學研究之外的其他目的,確保不影響企業能夠在持有或交易該數據之后仍保持市場優勢地位,以免降低供給企業數據的積極性。畢竟,“在許多根本不存在巨型數據集的行業中,重點必須從大數據轉向優質數據”[23],而這些優質數據離不開企業數據的供給。
3.3" " 個人數據的供給路徑:自愿同意
當前社會生產生活和商業邏輯中,個人數據蘊含的價值無疑最大,成為眾多主體謀取的對象,也是公共數據、企業數據等諸多類型數據的底層來源之一,如個人健康數據和醫療數據是公共衛生數據的基礎組成。基于個人數據匿名化、假名化或去標識化等形成的非個人數據,前提是獲得個人同意,否則就缺乏正當性基礎。個人數據處理由個人自決,其正當性基礎源于個人數據天然荷載人格要素,而不是個人數據的產生需要成本。因為數據具有產生即時性,即用戶在網絡空間瀏覽、支付等行為會附隨產生數據,過程是客觀、被動且不以人的主觀意志為轉移,產生個人數據不需要額外成本,而個人數據收集和存儲的成本由事實上的控制者——企業擔負。
科學研究活動中,個人數據因其主體的特殊性,成為醫藥、生物等科學研究不可或缺的數據供給來源之一。國內立法共識是,“同意”是其他主體處理(包括采集、存儲、加工、分析等)個人數據的正當性基礎。因此,面向AI4S供給個人數據時,同樣要以個人自愿同意為前提。在數據利他價值驅動下,“同意”科學研究主體處理個人數據應該是“無償”的。當個人數據被吸收在企業數據、公共數據之中,分別遵循有條件無償和成本補償供給路徑。
3.4" " 科學數據的供給路徑:互助共享
科學數據的認知基本上達成共識,一般是指在科學領域通過基礎研究、應用研究、試驗開發等產生的數據,以及通過觀測監測、考察調查、檢驗檢測等方式取得并用于科學研究活動的原始數據及其衍生數據。現下,科學研究已不再只是學界專有活動,其也經常和商業交織在一起,受到商業資金資助的科研活動也不在少數。商業資金資助形成的科學數據應該歸入到企業數據,在此僅討論由政府預算資金支持形成的科學數據。在科學數據領域,FAIR原則旨在促進科學數據的規范組織和共享重用[24],共享模式是科學數據共享活動中逐步形成并適應當前共享工作需要的普遍范式[25]。
科學數據的形成離不開政府預算資金的支持,而政府預算資金來源于“取之于民”的相關稅費,因此科學數據共享具有正當性基礎。AI4S所需大規模數據可能要成百上千科研團隊匯集數據,從科學研究共同體而言,科學數據共享的本質是互助。盡管我國《科學數據管理條例》支持科研人員整理發表產權清晰、準確完整、共享價值高的科學數據,但在面向AI4S時應該主動放棄產權交易的“對價”,采取共享方式實現互助。畢竟相比于數據開放,科學數據共享并不是面向社會公眾,而是在特定的群體之內。
3.5" " 作品數據的供給路徑:合理使用
盡管作品是知識產權的重要客體之一,但知識產權基礎數據和作品數據不是一回事。《知識產權基礎數據利用指引》所列明的知識產權基礎數據主要是國家知識產權局公開公布的專利數據、商標數據、地理標志數據和集成電路布圖設計數據[26],不包括作品數據。知識產權基礎數據不涉及在先權利,屬于財政支出事務所形成的基礎數據,可列入公共數據范疇。因作品超出版權保護期就進入共有領域,故作品數據僅指處于版權保護期內的數字化作品和作品數字化所形成的數據。作品數據本質上仍荷載版權法益,因此即便是數據形態,仍受到版權法約束。
不能為保護版權人利益,而給科學研究戴上“鐐銬”,版權法為“科學研究”之目的供“科研人員使用”設置了合理使用制度。AI4S中AI的訓練和使用分別符合“科學研究”之目的、“科研人員使用”之方式。因此,面向AI4S選擇合理使用路徑來供給作品數據可行。在“人文社會科學中的基礎研究因尚未積累AI4S可依托的大數據而導致目前AI4S涉及不多”[3]的當下,選擇合理使用路徑有助于推進人文社會科學基礎數據設施建設。合理使用不需要權利人同意,也不要支付報酬,能夠提升效率和降低成本。
4" "面向AI4S數據要素供給的風險控制
4.1" " 版權侵害風險及其控制
AI4S所需高質量數據的重要來源之一是具有獨創性且凝結人類智力成果的作品數據,其對于人文社會科學領域的AI4S尤為重要。合理使用路徑能解決科學研究主體為作品數據向版權人征求同意和支付報酬的成本問題,但是仍然存在版權侵害風險。契合AI4S使用作品數據的合理使用規則是“為了科學研究翻譯或者少量復制已經發表的作品,供教學或者科研人員使用,但不得出版發行”,實質上是以輸入端“少量復制”來限制作品表達性使用,同時以輸出端“不得出版發行”來約束結果相似。故,應從此處切入進行風險控制。
合理使用應用到AI4S數據要素供給的輸入端時,與創作者主觀能動地進行表達性使用不同,AI大模型“復制”作品數據并進行機器學習等行為似乎屬于數據客觀輸入的非表達性使用。若能將“復制”理解為非表達性使用,就不存在侵害版權風險,自然就不需要啟動“合理使用”規則。實則不然,這種理解尚未法定,應立足法律規定的合理使用情形來控制版權侵害風險。其一,“少量”應做相對理解。如何認定合理使用規則中“少量復制”的“少量”,決定了行為是否侵犯版權。AI4S大模型訓練所需的數據是“海量的”,若按照傳統使用作品場景理解為“絕對少量”,AI4S大模型使用作品數據難以規避版權侵害風險。應確立“相對少量”標準,依據AI4S大模型訓練所用的作品數據在整個訓練數據集中的比例進行判斷,如此確保AI4S大模型能在訓練階段避免版權風險。其二,基于作品數據訓練所形成的“那部分”——作為AI4S大模型的內部構成,而不是輸出端的“產物”——并不觸發“不得出版發行”,不能據此限制訓練出來的AI4S大模型本身對外發布和使用。
4.2" " 隱私公開風險及其控制
一般而言,因數據要素供給涉及的人格法益侵害主要體現在個人信息和隱私,但在AI4S場景中不存在個人信息侵害風險,而是存在隱私公開風險。在數字場域中,個人數據荷載個人信息和隱私時,其個人信息法益通過“自愿同意”路徑對外供給,但是并不意味著放棄隱私。隱私公開風險自大數據時代以來就飽受爭議,在大模型時代又被進一步放大,“在醫學領域,數據的敏感性和隱私問題尤為重要”[2]。面向AI4S的數據要素供給潛在的隱私公開風險,主要體現在“直接公開”和“關聯公開”。一方面,在大規模使用個人數據進行AI訓練時,未對個人數據脫敏,或者對個人數據清洗出現紕漏、瑕疵等而致使隱名化和匿名化不徹底,進而在輸出結果中出現個人隱私或者其碎片化殘留;另一方面,完成了隱名化和匿名化的個人數據,仍面臨來自外部數據關聯重建而導致隱私公開的風險。
控制AI4S的隱私公開風險,除了規則層面應根據數據的類型、數量和所涉隱私關聯度和重要性設置隱私保護的等級要求以外,更重要的是運用差分隱私機制控制個人數據利用中的隱私泄露風險。通過添加和調整擬用數據中的噪聲量——根據個人數據敏感程度添加和調整不同量的噪聲數據——進而在保護數據荷載的隱私的同時,保持數據的可用性。如此一來,既不影響模型訓練結果,又能防控隱私公開風險。但需注意干擾噪聲的頻率和尺度,實現隱私保護和科學研究之間的平衡。
4.3" " 數據泄露風險及其控制
當大規模數據匯聚時,數據泄露(Data Breaches)是不可回避的風險。作為AI4S構成要素的數據往往是大體量、多類型的,同樣面臨著泄露的風險。數據泄露風險不僅是因數據匯交、處理和存儲等環節操作不當或疏忽大意而引發,也可能是源自于惡意泄露或安全漏洞,還可能因外界攻擊而導致。與前述情景的數據泄露(Data Breaches)不一樣,機器學習本身所帶來的數據泄露(Data Leakage)是指當訓練數據處理和驗證數據不合理時,會導致模型用于實際輔助決策時非常不準確。在中文語境下,區分Data Breaches和Data Leakage,可分別稱之為DB型數據泄露和DL型數據泄露,各自帶給AI4S的風險點不同,前者帶來的風險點在于因數據本身泄露導致其荷載的個人信息、隱私、秘密、價值等外溢,而后者帶來的風險點在于因數據紕漏而導致預測結果的因果關系顛倒,因而各自的風險控制也不一樣。
從事故致因理論的不同學說中歸納出的人的因素、物的因素、環境的因素的一般性原理來看[27],DB型數據泄露風險控制主要從人的致因和環境致因切入,而DL型數據泄露風險控制則重點從人的致因展開,二者之所以沒有從物的致因入手,是因為物的致因風險在于數據丟失。對于DB型數據泄露風險,一方面加強或規范科研人員及其相關人員的安全意識、操作規程、管理行為,另一方面補強涉及數據的技術漏洞、軟件安全能力,并建立數據可信共享流通體系;對于DL型數據泄露風險,要嚴格拆分和使用訓練數據集和測試數據集且不能夠交叉使用,還要注意確保遷移學習時的源域(訓練數據集和驗證數據集)和目標域(測試數據集)不重合。
4.4" " 價值不齊風險及其控制
人工智能與自然人的價值對齊有價值觀的認同、目標的一致、倫理與法律的規范三方面的核心要求[28],這也是風險表現之處,即偏離人類價值觀風險、欺騙人類風險和違反法律和倫理風險。大模型價值對齊風險的成因來源于數據源、模型訓練過程、推理等因素,其中數據源又包含數據缺陷和數據捕獲知識利用率低兩方面原因[29]。價值對齊是AI領域的一般性問題,同樣也存在AI4S領域之中,就AI4S的數據要素供給端而言,風險來源在于數據源。數據缺陷細分為錯誤虛假數據和偏見性數據,數據捕獲知識利用率低指向注意力機制不足的長尾分布等數據從事實到知識層面的吸收和轉化問題。
在AI4S的數據供給場景中,數據缺陷可以通過規范數據輸入、共享機制來避免科研人員因為客觀失誤和主觀故意將事實錯誤數據、過時數據、虛假數據等等導入模型訓練過程中,造成大模型出現事實性幻覺。同時,也注意篩選和剔除數據集中諸如重復性偏見和社會性偏見的數據,因為“AI模型由現有數據集訓練而來,而這些數據集可能包含偏見,因此在科研中使用AI可能會無意間延續系統性問題”[4]。解決數據捕獲知識利用低問題,需要從監督學習和強化學習入手。一是通過監督學習實現有監督的微調,即將含有特定價值的數據包輸入模型,自行進行標注,通過這些格式化的指令數據,以監督學習的方式對模型進行微調[30];二是利用專家反饋的強化學習,標注和訓練小而精的獎勵模型,通過獎勵模型來糾正大模型出現的數據注意力機制不足等問題。
除此之外,還要建立AI通用價值共識和遵從現有法律和倫理。盡管不同地域、民族、宗教、文化、性別、群體等價值本身就難以達成共識,但應該嘗試從更高抽象層面確立一個或多個人類價值共識,如將“科技向善”作為科技領域最小共識,要求所有科學研究的出發點和旨歸處均在于“向善”。法律和倫理本身受到價值的影響,而法律的普適性僅及于一國法域之內,倫理可以超越國界,但適用范圍終歸有限。因此,對于控制AI4S面臨的法律和倫理風險,最低要求是遵從所在國與科學研究相關的法律和倫理。
5" "結語
黨的二十大報告強調要加強基礎研究、突出原創,AI4S屬于原創性、基礎性研究。科技是生產力,放眼AI4S,全是新質生產力!AI4S概念已經被提煉出來并應用于實踐,學界應該加強AI4S的關注和研究,加速將AI4S的新質生產力從代碼之中釋放出來。知識獲取能力提升是AI飛速突破的本質所在,數據資源是人工智能獲取知識的源泉[3]。數據要素對于AI4S至關重要,看似“用之不竭”的數據本體,在“百模大戰”時代仍面臨供不應求的困境。與AI4S既有研究成果主要側重于技術路線不同,本文選擇從數據路線展開AI4S研究。可能的創新在于:在系統梳理AI4S發展過程的基礎上,厘清AI4S與數據要素的關系,從整體上聚焦面向AI4S數據要素供給的價值取向、路徑選擇和風險控制。不足之處在于未從不同科學領域或者集中在科學數據等某一具體類型數據之上進行垂直研究,這是后續研究亟待補強之處。
參考文獻:
[1]" 王飛躍,繆青海.人工智能驅動的科學研究新范式:從AI4S到智能科學[J].中國科學院院刊,2023,38(4):536-540.
[2]" 孫坦,張智雄,周力虹,等.人工智能驅動的第五科研范式(AI4S)變革與觀察[J].農業圖書情報學報,2023,35(10):4-32.
[3]" 周江林.AI4S對我國高校基礎研究的影響機理及實踐邊界[J].教育發展研究,2023,43(21):31-38.
[4]" 北京科學智能研究院,深勢科技,絡繹科學.科學智能(AI4S)全球發展觀察與展望2023版[R/OL].[2024-05-11].http://www.news.cn/tech/download/2023AI4SBG.pdf.
[5]" 中華人民共和國中央人民政府.科技部啟動“人工智能驅動的科學研究”專項部署工作[EB/OL].[2024-06-06].https://www.gov.cn/xinwen/2023-03/27/content_5748495.htm.
[6]" 中國科學院文獻情報中心.人工智能撬動科研范式變革!專家解讀AI for Science專項部署工作[EB/OL].[2024-05-14].https://www.las.ac.cn/front/product/detail?id=2468fb059dc93fdc9450dccf18ea1cbb.
[7]" 新華網.2023版《科學智能(AI4S)全球發展觀察與展望》發布[EB/OL].[2024-05-14].http://www.xinhuanet.com/tech/20230810/6dba3688158b44e49a69934ad4c51518/c.html.
[8]" Smith V S.Data publication:towards a database of everything[J].BMC Research Notes,2009,2(1):113.
[9]" 楊雅清,張文帝.科技企業新動向:科學智能的潛力與機會[J].中國電信業,2023(8):41-43.
[10]" 劉濤,趙瞳,譚光明,等.HPC+AI驅動的第一性原理科學智能計算平臺[J].數據與計算發展前沿,2023,5(3):13-28.
[11]" 王飛躍,王雨桐.數字科學家與平行科學:AI4S和S4AI的本源與目標[J].中國科學院院刊,2024,39(1):27-33.
[12]" 李國杰.智能化科研(AI4R):第五科研范式[J].中國科學院院刊,2024,39(1):1-9.
[13]" 徐東波.人工智能驅動科學研究的邏輯、風險及其治理[J].中國科技論壇,2024(5):120-129.
[14]" 北京大學定量生物學中心.2022科學智能峰會回顧|湯超院士:關于AI for Science的幾層意思[EB/OL].[2024-05-14].https://cqb.pku.edu.cn/info/1065/1851.htm.
[15]" Neil M.Richards,Jonathan H.King.Three Paradoxes of Big Data[J].Stanford Law Review Online,2013,66(44):41-46.
[16]" EU MONITOR.Annexes to COM(2020)66 - European strategy for data[EB/OL].[2024-06-06].https://www.eumonitor.eu/9353000/1/j4nvirkkkr58fyw_j9vvik7m1c3gyxp/vl6bhq5mueyy.
[17]" EUR-LEX.Regulation(EU)2022/868 of the European Parliament and of the Council of 30 May 2022 on European data governance and amending Regulation (EU) 2018/1724 (Data Governance Act) (Text with EEA relevance)[A/OL].[2024-06-06].http://data.europa.eu/eli/reg/2022/868/oj/eng.
[18]" Thornton H.The UK Biobank project:Trust and altruism are alive and well:A model for achieving public support for research using personal data[J].International Journal of Surgery,2009,7(6):501-502.
[19]" Halvorson G,Novelli B,Permanente K.Data altruism:Honoring patients’expectations for continuous learning[J].Commentary,Institute of Medicine,Washington,DC,2014.
[20]" 儲節旺,楊雪.公共數據開放的政府主體責任研究[J].現代情報,2019,39(10):127-135.
[21]" 劉星,姜南,歐忠輝,等.數字經濟時代企業數據權益保護研究[J].情報雜志,2021,40(10):91-98,107.
[22]" 傅靖.關于數據的可稅性研究[J].稅務研究,2020(8):54-61.
[23]" ELIZA STRICKLAND.Andrew Ng:Unbiggen AI[EB/OL].[2024-05-21].https://spectrum.ieee.org/andrew-ng-data-centric-ai.
[24]" 李楠楠,劉筱敏.我國國家科學數據中心FAIR原則的實踐現狀調查與分析[J].圖書與情報,2023(2):137-144.
[25]" 張麗麗.科學數據共享治理:模式選擇與情景分析[J].中國圖書館學報,2017,43(2):54-65.
[26]" 國家知識產權局.國家知識產權局辦公室關于印發《知識產權基礎數據利用指引》的通知[EB/OL].[2024-05-27].https://www.cnipa.gov.cn/art/2021/1/6/art_75_156042.html.
[27]" 文禹衡,戴文怡.云環境中學術數據安全事件的風險致因及其檢視——以事故致因理論為視角[J].信息資源管理學報,2021,11(3):50-58.
[28]" 席丹.尋求價值對齊之路:人工智能面臨的課題與挑戰[J].傳媒,2024(11):41-43.
[29]" Huang L,Yu W,Ma W,et al.A survey on hallucination in large language models:Principles,taxonomy,challenges,and open questions[J].arxiv preprint arxiv:2311.05232,2023.
[30]" 喻國明,金麗萍,卞中明.小有小的用處:大模型傳播生態下的小模型——概念定義、技術構造與價值角色[J].新聞記者,2024(1):3-17,58.
作者簡介:鄭令晗(1991-),女,湘潭大學信用風險管理學院講師,湖南省數據治理與智慧司法研究中心研究員,研究方向:數據治理;李晨珂(1999-),女,四川大學法學院碩士研究生,研究方向:數字法治。