[摘要]當前,生成式AI數據訓練過程中對作品的使用落入著作權法專有權利的控制范圍,數據訓練過程中存在侵權風險卻難以運用現有著作權例外制度為其開脫。為順應人工智能產業發展的需要,相關部門亟待為生成式AI數據訓練創設侵權例外。現有路徑中,法定許可和“選擇退出”默示許可在適用上存在弊端,市場失靈理論、轉換性使用理論以及從技術層面分析表明,將生成式AI數據訓練納入合理使用是化解數據訓練侵權風險的最優選擇。在制度設計上,相關部門要創設“人工智能數據訓練”的合理使用例外,對主體要件、目的要件、行為要件以及結果要件做出限定,并為人工智能研發者設置安全保護、訓練數據披露、定期審查的義務。
[關鍵詞]生成式AI;數據訓練;合理使用;利益平衡
2022年底,ChatGPT的橫空出世引起了全世界的關注。目前,生成式AI已被成功地應用在編曲、繪畫、新聞撰寫等領域,并取得了顯著的成就。數據是生成式AI發展的基石,數據之于生成式AI,猶如文字之于一部鴻篇巨制。生成式AI基于大量數據訓練生成文學作品,而高質量的數據往往是受著作權法保護的,無論生成式AI的模型技術含量有多高,現階段技術條件下數據質量對AI性能具有決定性的影響。然而,傳統著作權法“作者中心主義”的強保護形式以及“一對一”的交易和授權模式難以滿足生成式AI應用海量數據進行訓練的需求,生成式AI數據訓練行為面臨著作權侵權風險。著作權法是傳播技術的產物,新的傳播技術的出現,都會打破權利人和使用者之間的平衡,并最終產生新的法律標準[1]。因此,明確生成式AI數據訓練行為侵權與侵權例外的邊界,化解產業發展與著作權保護之間的矛盾,成為相關部門亟待解決的問題。
一、問題緣起:生成式AI數據訓練的版權困境
美國學者Sobel將人工智能以是否有表達性內容輸出分為表達型人工智能和非表達型人工智能[2],表達型人工智能的典型代表是ChatGPT等生成式AI,非表達型人工智能的典型代表是人臉識別系統。我們在著作權法意義上使用作品,是將該作品當作作品去使用,而人臉識別系統在使用作品時只提取人物照片中的生理性特征,并非使用人物照片中的表達性要素,因此不是在著作權法意義上使用作品,基于此,非表達型人工智能不在文章討論范圍內。與人臉識別系統不同,表達型人工智能在數據訓練過程中會直接使用到作品的表達性內容,如ChatGPT會分析文本的字詞搭配、遣詞造句,Midjourney會分析畫作的線條色彩,這些都是作品中的表達性內容,而非僅僅是事實性信息。表達型人工智能在數據訓練過程中使用作品是在著作權法意義上使用作品,落入著作權專有權控制范圍內,未經著作權人許可表達型人工智能使用其作品進行數據訓練將會面臨侵權風險4wwPaDYgciQKtP9kFGiYgwWw8FV5+KV9+sOY7T4J2bI=。
(一)人工智能數據訓練的侵權風險分析
傳統人工智能大多通過程序代碼賦予機器以人類的思維方式或思維結構來完成某種作品的創作,這種創作的實現依賴于代碼定義[3],創作的結果為人類思維和意志的體現。而以ChatGPT為代表的生成式AI,在預訓練(Pre-training)階段是運用數據訓練算法的技術路徑,通過對海量的數據進行統計分析和數學建模,自己尋找到正確的函式(基石模型,Foundation Model),這個過程被稱為“自督導式學習(Self-supervised Learning)”,而人類介入的督導式學習(Supervised Learning)僅起到對基石模型進行微調(Finetune)從而優化函式的作用。
生成式AI的技術運行過程分為數據輸入、機器學習、結果輸出三個階段,數據訓練行為的侵權風險,不僅可能存在于數據輸入和機器學習階段,也可能涉及生成式AI的輸出結果。
在數據輸入階段,訓練數據的使用包括數據收集、數據預處理、數據標注、特征提取[4]。首先,人工智能研發者為收集數據,會將相關訓練作品復制或者下載到自己所有或者第三方服務器中便于使用。其次,在機器學習之前,人工智能研發者需要對數據進行預處理,將內容庫中的數據轉換為“人工智能可讀”的標準格式。最后,在監督學習中,人工智能研發者還需要對數據進行標注和特征提取,形成用于本次學習的內容庫。人工智能研發者為訓練人工智能將作品下載到自己所有或第三方服務器的行為,屬于我國著作權法規定的數字化復制行為,涉嫌侵犯復制權。而人工智能研發者將數字化作品格式轉換為“人工智能可讀”格式的行為,僅僅涉及格式的轉換,不構成對復制權的侵害,但監督學習中的數據標注以及數據選擇、整理、匯總等行為可能會有侵犯改編權和匯編權的風險[5]。
在機器學習階段,生成式AI通過對大量數據進行分類、聚類,提煉不同類型作品的數據特征,“找出”訓練數據中的規律,“理解”訓練數據的內容。這一過程中,計算機會對訓練數據進行暫時存儲和短暫再現,這種臨時復制通常伴隨著計算機的關閉而自動消除[6]。臨時復制不符合著作權法意義上復制的特性,無法滿足“固定”在物質載體中的要求,相關部門將臨時復制納入復制權內也會造成對著作權不合理地擴張[7]。因此,生成式AI在機器學習階段的侵權風險并不明顯。
在結果輸出階段,生成式AI的輸出結果理論上有侵犯復制權、改編權的可能性,也有很多觀點認為生成式AI是拼接已有作品,但生成式AI不是為了復制原作品而學習,而是為了掌握訓練數據在技術分析意義上的特征而學習。生成式AI巨大的訓練數據量使得單個作品的片段出現在輸出結果中的概率非常低,輸出內容全部或部分復制原作品的情形只在訓練數據極少或算法出錯的情況下才可能發生,正常情況下不存在侵犯復制權的可能性。此外,改編是以原作品的表達性內容為基礎,通過改變原作品創作出具有獨創性的新作品的行為,以原作品為基礎進行改編產生的新作品是以原作為基礎進行的創作,在內容上與原作存在高度關聯。而生成式AI數據訓練過程雖然是對原作品表達性內容的分析,但只要訓練數據規模足夠龐大,其輸出的內容構成全新的作品,并不以某個或某些作品的表達性內容為基礎,內容也并不與訓練作品存在關聯,因此不構成對改編權的侵權。
綜上,生成式AI數據訓練行為的侵權風險主要集中在數據輸入階段,具體而言,有可能構成對原作品復制權、改編權以及匯編權的侵犯。
(二)人工智能數據訓練使用作品的制度困境
在分析生成式AI數據訓練過程中的侵權風險之外,我們還需對相關侵權行為是否構成著作權例外進行討論。只有落入專有權控制范圍內,且不符合著作權例外的行為,才應當承擔侵權責任。我國著作權例外規則包括合理使用和法定許可,生成式AI數據訓練行為顯然無法被納入法律明確列舉的法定許可之中,因此合理使用成為分析的焦點。
我國著作權法第24條通過窮盡式列舉的方式規定了12種合理使用的情形,2020年著作權法第三次修訂確立了“總括式一般條款—具體合理使用情形列舉條款—兜底式一般條款”的三層規范結構[8]。無論是修改前還是修改后,我國合理使用制度均為權利限制的立法模式[9]。從著作權法第24條“在下列情況下使用作品”以及《中華人民共和國著作權法實施條例》第21條“依照著作權法有關規定”的表述中可以看出,法院無權在法定列舉的情形之外自行認定一種未經授權使用作品的行為構成合理使用。另外,“法律、行政法規規定的其他情形”這一兜底條款也因其增加數量的有限性而不會對現有立法模式產生影響。至于被納入著作權法第24條第1款的“三步檢驗法”中的后兩步,即“不得影響該作品的正常使用”和“不得不合理地損害著作權人的合法權益”則是在法定類型范圍內賦予法官的自由裁量權。
在我國著作權限制“法定主義”立法模式下,著作權保護為原則,權利限制為例外。是否屬于法定列舉的情形,成為判斷某一行為是否符合合理使用的首要條件,即凡權利限制必經明文規定。因此,生成式AI數據訓練使用作品的行為很難被定性為合理使用。有學者主張從法律解釋的角度入手,盡量將部分情形落入現有的合理使用立法文本之內[10],但筆者認為將生成式AI數據訓練使用作品的行為解釋為任何一種法定列舉情形都超出了法條原本的文義射程范圍,會造成對法律可預期性的破壞。現有合理使用法定列舉情形中,具有解釋可能性的只有第一項“個人使用”和第六項“為學校課堂教學或者科學研究使用”兩類情形。但數據訓練在主體和使用作品的數量上便與這兩類情形格格不入。
2023年7月,國家互聯網信息辦公室、國家發展和改革委員會等七部門共同發布了《生成式人工智能服務管理暫行辦法》(以下簡稱《辦法》),《辦法》第4條規定,提供和使用生成式人工智能服務,應當尊重知識產權;第7條規定,生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動,使用具有合法來源的數據和基礎模型,不得侵害他人依法享有的知識產權。《辦法》對訓練數據“來源合法”的要求表明生成式人工智能服務提供者使用他人受著作權法保護的作品進行數據訓練應當取得著作權人同意,這幾乎封閉了人工智能數據訓練適用合理使用以及其他著作權保護例外的可能。
綜上所述,生成式人工智能服務提供者為訓練人工智能而使用作品屬于在著作權法意義上使用作品的行為,該行為在著作權控制范圍內,數據訓練過程中存在侵犯原作品著作權的風險,并且生成式人工智能服務提供者無法運用現有著作權例外制度為自身開脫。《辦法》對生成式AI訓練數據嚴苛的監管要求也使得數據訓練深陷版權侵權的囹圄,生成式AI數據訓練在現行著作權法中無法找到其合法性來源。
二、路徑檢討:現有路徑之否定
在制度選擇中,合理使用、法定許可作為著作權法的兩大權利限制制度,成為眾多學者討論的焦點。多數學者主張生成式AI數據訓練構成合理使用,也有部分學者認為法定許可制度能兼顧各方利益, 實現技術發展與文化創新的平衡[11]。另外,還有少數學者主張構建義務規則下的“選擇退出”制度,其具有法經濟價值的合理性和數字經濟時代底層邏輯的合理性[12]。筆者認為,法定許可和“選擇退出”默示許可均不是化解生成式AI數據訓練侵權風險的有效路徑。
(一)法定許可
法定許可與合理使用同為著作權權利限制制度,二者均有克服市場失靈,解決作者專有權和使用者使用權沖突的作用[13]。二者的區別在于對著作權限制的強弱程度,法定許可對著作權的限制相較于合理使用稍弱,它將著作權人對作品的絕對支配權弱化為一種僅僅獲取報酬的權利[14]。法定許可的制度設置是出于這樣一種考慮:給予著作權人排他的權利可能會阻礙社會對該作品的重要使用,尤其是由當事人進行協商的成本將會過于高昂;同時,若把這一行為定為合理使用,又會損害著作權人應得到的利益[15]。
從這一角度看,相較于授權許可和合理使用,將生成式AI數據訓練納入作為“中間制度”的法定許可似乎更加合理,因為若將數據訓練使用作品納入專有權范圍內,人工智能研發者使用作品必須經過著作權人許可,這將會產生極高的交易成本;若將數據訓練納入合理使用,又將使著作權人完全喪失在生成式AI領域的收益。但生成式AI數據訓練行為的特殊性使得相關部門在應對其產生問題的制度選擇上不能再遵循以上思維方式,正如上文提及,相較于傳統使用作品行為,生成式AI數據訓練需要使用海量數據,且其數據需求量是上述錄音制品制作者使用作品的需求量無法比擬的。生成式AI數據訓練以“千億”為單位的數據需求量使得向每一位著作權人付費成為阻礙人工智能發展的巨大絆腳石。在生成式AI數據訓練上,法定許可克服市場失靈、降低交易成本的作用并不突出。只有極少數人工智能研發企業有能力支付如此巨額的使用費,這將會造成實力雄厚的大型企業壟斷生成式AI領域的局面,中小企業幾乎被排除在創新領域之外。另外,相關部門將數據訓練納入法定許可需要構建與法定許可配套的法律規范、技術措施以及實施路徑[3],如可能需要引入延伸性集體管理組織、運用區塊鏈技術等,這在實踐中的落實存在較大難度。因此,生成式AI數據訓練使用作品的特殊性使得利益天平更多地向作品使用者傾斜,相關部門適用法定許可在實踐中不具有可操作性,也會對生成式AI行業的發展造成影響。
(二)“選擇退出”默示許可
默示許可制度是一種介于財產規則和責任規則之間的特殊許可制度[16],“選擇退出”是默示許可的一種形式,其要求權利人做出選擇退出的決定,如果權利人沒有拒絕授權,即意味著許可[17]。有學者認為,“選擇退出”制度通過犧牲權利人的部分行動自由來促進訓練作品授權機制的順暢運行,更加符合生成式AI產業的發展趨勢[18]。在生成式AI數據訓練需要使用海量作品的情況下,“選擇退出”制度在保障權利人獲得報酬和意思自治的同時可以節約作品使用者搜索、確定版權人偏好和談判等成本,具有理論上的合理性和優越性,但筆者認為,“選擇退出”制度在規則適用上并非易事。
“選擇退出”制度包括兩種形式:一是權利人在事前作出“權利保留”聲明,明確拒絕對作品的某種使用行為;二是在權利人知悉其作品被使用后,通知使用者停止對其作品的使用。在生成式AI數據訓練使用作品的情況下,權利人無論是采取事前權利保留還是事后退出,均存在一定的困難。若權利人一開始便不希望自己的作品被使用,想提出權利保留,卻無提出權利保留的具體方式。搜索引擎領域之所以能適用“選擇退出”制度,是因為搜索引擎領域可以提供一種“選擇退出”機制,網頁經營者可以通過添加“元標記”的方式輕松排除搜索引擎對網頁內容的復制,但作品的權利人無法像網頁經營者一樣采取一定的措施排除人工智能研發企業對其作品的復制。即便權利人一開始未作出權利保留,也享有中途退出的權利,而要保障此項權利的實現,前提便是權利人必須能夠得知其作品已經被使用,但人工智能研發企業往往僅采取公告的方式將使用作品清單和作品的利用情況告知權利人,如Stability AI公司訓練數據集中作品的權利人可以在一個叫作“Have I Been Trained”的網站上搜索自己的作品,并選擇退出[18]。在作品使用公告眾多的情況下,權利人也許無法看完每一條公告,從而也就難以知悉自己的作品被使用。綜上所述,筆者認為“選擇退出”默示許可在適用上存在難以探知權利人真實意圖和權利人難以知悉其作品被使用的問題,并不適合應用于生成式AI數據訓練領域。
三、制度對策:數據訓練行為的合理使用證成
相較于授權使用和法定許可所需要的巨額使用費,相關部門采用合理使用制度是大勢所趨,這為新興人工智能研發企業減輕了經濟負擔,將數據訓練納入合理使用符合市場失靈的底層原理,契合轉換性使用的理論邏輯,也是人工智能產業發展的技術要求。相關部門在為人工智能研發企業提供免費獲取訓練數據法律支持的同時,也應當為其設置限制條件,包括適用合理使用的限制條件以及對人工智能研發者施加的義務。
(一)市場失靈理論
通常情況下,在版權市場正常運作時,市場主體可以識別版權所有者并與之交易,如果行為人未經許可復制受版權保護的作品,該行為就難以落入了著作權法規定的復制權保護范圍。然而,版權市場并不總是能充分發揮作用,戈丁教授在他的文章中指出,交易成本高昂、對侵權者強制執行難等市場失靈可能會阻礙達成可信賴的合意交易,此時合理使用就應當適用,其還列出了判定合理使用的三個要素:第一,存在市場失靈;第二,使用作品對社會是有益的;第三,認定被告的行為屬于合理使用不會對版權人的激勵措施造成實質性損害[19]。那么,生成式AI研發者與訓練作品版權人的交易是否符合戈丁教授提出的三個要素,進而適用合理使用制度?
第一個要素是必須存在市場失靈。這是判斷生成式AI數據訓練行為是否適用合理使用制度的關鍵。只有在所需的資源使用權轉讓不可能自行發生,或因市場規律等特殊情況損害了市場資源的正常分配時,才有經濟上的需要允許非自愿轉讓(合理使用)。授權許可機制在面對生成式AI訓練作品授權市場時,顯得有些捉襟見肘,生成式AI研發者事實上不可能和每一位版權人進行接觸、談判從而達成授權許可協議,如此高昂的交易成本使得版權市場自身的資源分配機制無法正常運轉,市場失靈出現。
第二個要素是被告使用作品的行為對社會是有利的。如果存在市場失靈,接下來法院應判斷被告使用作品是否會為社會帶來價值。美國高盛研究公司認為,人工智能的突破有可能給全球經濟帶來翻天覆地的變化。“隨著使用自然語言處理技術的工具進入企業和社會,它們將推動全球GDP增長7%(或近7萬億美元)并在10年內將生產率提高1.5個百分點”[20]。生成式AI在提升自動化水平、提升工作效率、促進創新、推動產業發展等方面發揮著舉足輕重的作用。
第三個要素是被告使用作品的行為不會對版權人的激勵措施造成實質性損害。對普通表達型機器學習來說,其程序是在“包含版權作品的大型數據集”上進行訓練的,這些版權作品來自眾多作者,人工智能利用現有作品進行數學建模,分析字詞搭配,從而獲得理想的函式,其學習的并非某一作品的獨創性表達,生成內容是獨立于現有作品的新作品,并不會直接復制擁有版權的作品。加之ChatGPT等生成式AI相比于人類有著更為驚人的學習能力,能結合用戶提問內容和所提供材料進行有針對性的回復,即便生成式AI直接對作品中的詞語、語句進行分析處理,也幾乎不會在生成物中出現訓練過程中使用過的語料,甚至構成實質性相似的概率都非常低。因此,普通表達型機器學習生成內容并不會對原作品的版權市場產生替代效果,也不會對版權人的激勵措施造成實質性損害。但諸如“下一個倫勃朗”等特殊表達型機器學習,其訓練作品全部來自同一創作者,該類機器學習生成內容會與原作品構成實質性相似,或與原作品的風格、手法等高度一致,使得他人將生成物誤認為某一特定作者創作的作品。另外,訓練作品來源于同一作者的機器學習,人工智能研發企業只需獲得一位權利人的授權,并不會產生很高的交易成本,也并未出現其他市場失靈的情況,因此人工智能研發企業未經授權將版權作品運用到特殊表達型機器學習中將會構成侵權。
(二)轉換性使用理論
我國著作權合理使用隱含著“非商業性使用”的限制性條件,雖并未明確規定,但在已列舉的12種合理使用類型中,諸如“為個人學習”“為介紹評論”“為新聞報道”等均為非商業性使用。美國版權法傳統“四要素”的第一項對使用目的的考察也使得商業性使用排除在合理使用之外。但轉換性使用注重考察新作品的轉換性,新作品轉換性越強,其他諸如商業性等不利于判定合理使用的考量因素的重要性就越弱,這為生成式AI數據訓練使用作品的正當性提供了重要支撐。
轉換性使用發端于美國聯邦最高法院的Campbell案,由美國版權法合理使用四要素中的第一要素“使用的目的和特點”衍生而來。轉換性使用指對原作品的使用并非為了單純地再現原作品本身的文學、藝術價值或者實現其內在功能或目的,其以不同于原作品的方式或出于不同的目的在原作品的基礎上進行使用。“轉換性使用”包括內容轉換和目的轉換,內容轉換指在原作品中增加了新的內容,使原作品在創造新信息、新美學、新見解和新理解的過程中發生了變化;目的轉換則是在保留原作品內容的情況下,出于其他目的使用原作品,使用目的越是不同,對原作品的影響越小[21]。
內容轉換要求以原作為基礎,在原作上增添新的內容,新作在一定程度上能體現原作,而生成式AI數據訓練雖然學習了原作的表達,但生成物與原作并無直接聯系,社會公眾也并不會產生生成物與某一特定作品有一定關聯的聯想,不構成內容的轉換。生成式AI數據訓練符合目的轉換的特征,人工智能開發者對作品中的表達性內容并不感興趣,他們關注的是作品蘊含的可用于模型訓練的功能性內容[22],人工智能開發者不會將受著作權保護的圖像重新分發或傳播給公眾,而是使用它們來訓練機器學習模型[23],生成式AI生成的內容也不會直接體現訓練作品的具體表達,在訓練數據規模夠大的情況下也不會與訓練作品構成實質性相似。正如在AuthorsGuild v. Google案中,即使谷歌全文復制了版權作品,法院仍認為出于搜索目的創建數據庫在使用目的和性質上具有高度的轉換性,從而構成合理使用。同樣,人工智能開發者使用作品的目的是訓練通用模型,而不是簡單復制并使用原作品,數據訓練使用作品的目的發生了顯著變化,同時原作品也不會因此而喪失其目標受眾。
雖然我國是成文法國家,法官在著作權立法和司法解釋中均未明文規定轉換性使用,但近年來我國法院在著作權法未賦予轉換性使用規則合法地位的情況下,根據最高人民法院的司法審判意見運用該規則審理的著作權案件已達數十起[24],如上海美術電影制片廠訴新影年代文化傳播有限公司案。可見,在我國合理使用限制立法模式下,轉換性使用規則能夠為諸如數據訓練等一些不屬于法律明文列舉的合理使用但應當予以侵權豁免的情形提供理論支撐。
四、具體構造:生成式AI數據訓練侵權風險化解的規則設計
(一)合理使用規則設計
域外大多數國家在應對TDM的作品使用需求時,都會借助合理使用制度。為化解生成式AI數據訓練行為所帶來的侵權風險,為我國人工智能產業發展掃清侵權阻礙,將特定數據訓練行為納入著作權法第24條,為其創設不侵權例外,是最優選擇。在具體制度設計上,相關部門可以參考歐盟2019年發布的《數字化單一市場版權指令》(以下簡稱《指令》)中文本與數據挖掘例外(TDM例外)的規定,設置“人工智能數據訓練例外”條款,并結合我國人工智能產業發展實際、以及兼顧著作權人和公共利益的原則,對適用合理使用的條件進行限定。
第一是主體要件。《指令》第3條、第4條規定了“科學研究”和“數字分析”兩種版權例外情形。《指令》第3條的“科學研究例外”將適用主體僅限于“研究組織”和“文化遺產機構”,但《指令》第4條的“數字分析例外”并未明確限定適用主體,這為科學研究以外的文本與數據挖掘敞開了通道。相較于美國、日本立法,歐盟的《指令》在巨大的利益博弈面前,采取了較為保守的立法策略[25]。實際上,從事人工智能研發的都是諸如OpenAI、百度、科大訊飛等商業公司,這些商業性互聯網公司對人工智能技術研究起著非常重要的作用,如果相關部門仍將適用主體限制在“研究組織和文化遺產機構”,會使得主體范圍過于狹窄,無法涵蓋大部分人工智能研發主體,這既不符合現實狀況,也會阻礙人工智能產業的發展。因此,就我國立法而言,相關部門應當將主體要件擴張至商業性企業。
第二是目的要件。與主體要件一樣,《指令》第3條、第4條同樣采取“雙軌制”模式來規定文本與數據挖掘條款的適用目的,《指令》第3條將適用目的限于“科學研究”,第4條則并未將適用目的限定在“科學研究”范圍內,而是從行為方式上對適用條件進行了規定。實際上,適用目的有“利用版權作品的目的”和“研發人工智能的目的”之分,現有文獻在合理使用規則設計中,往往將例外規則中的目的要件默認為研發人工智能的目的,并主張應當將適用目的擴大到商業目的,即不以非營利作為適用條件。《日本著作權法》中的“計算機信息分析”條款和美國司法也均未將商業目的排除在外。研發人工智能的目的是否為商業目的已在前述“主體要件”中討論,筆者贊同將人工智能研發目的擴張到商業目的,但同時也應當將利用版權作品的目的僅限于數據訓練,即排除為訓練人工智能目的以外的作品使用行為,如禁止對作品在信息網絡上傳播、禁止展覽等。
第三是行為要件。有學者認為合理使用規則所適用的行為應屬于著作權法規制的行為[26],實則不然,被納入合理使用的作品利用方式并不拘泥于著作權法第10條的表述形式,如著作權法第24條第1款第2項規定了“引用”,第5項使用了“刊登和播放”,第6項規定了“翻譯和播放”,第10項規定了“臨摹、繪畫、攝影、錄像”。《指令》第3條、第4條將行為要件限定為“復制與提取”,2009年,《日本著作權法》將行為要件規定為“提取、改編、記錄”三種[27]。上文提及,生成式AI數據訓練行為的侵權風險主要集中在數據輸入階段,生成式AI研發者收集數據會將作品保存至用于數據訓練的語料庫,這涉及對作品的復制。監督學習中的數據標注行為會涉及對數據的選擇、整理、匯編、改編,在機器翻譯技術中,訓練機器翻譯算法還涉及對作品的翻譯。這些行為落入復制權、匯編權、改編權的控制范圍內。因此,在行為要件上,筆者建議將生成式AI使用作品的行為規定為復制、整理、匯編、改編、翻譯。
第四是結果要件。國內學者李安將表達型機器學習分為“普通表達型機器學習”和“特殊表達型機器學習”[27]。“特殊表達型機器學習”與“普通表達型機器學習”的區別在于用于數據訓練的作品是否來自特定作者。“普通表達型機器學習”用于數據訓練的作品來自眾多作者,只要訓練數據規模夠大,其生成內容會是區別于原作品的新作品,甚至與原作品構成“實質性相似”的概率都非常低,不會對原作品的版權市場產生替代效果,應當被納入合理使用。而“特殊表達型機器學習”用于數據訓練的作品來自特定作者,該類使用行為會生成與原作品題材、風格相似的作品,會形成對原作品的替代市場,該類未經授權的使用行為應當被認定為侵權行為,不宜被納入合理使用。因此,在結果要件上,相關部門應當要求生成式AI的輸出結果不會對原作品形成替代性效果,這與訓練數據的規模以及訓練數據的來源有著直接關聯。
(二)人工智能研發企業的義務和責任
為防止生成式AI研發者在訓練人工智能過程中對作品的不當使用,對著作權人的權利造成損害,相關部門除了對合理使用的適用條件作出限定,還應當為其設置相應的義務,并對未履行義務給權利人造成的損害承擔責任。人工智能研發者在使用作品的過程中應當履行“善良管理人”的義務,建立健全訓練作品的企業管理制度,嚴格遵循使用作品的目的要件和行為要件,不能在法定使用目的(數據訓練)之外使用作品,也不能以法律規定以外的使用方式使用作品。
第一,為防止作品的泄漏,人工智能研發者應當采取相應的安全保護措施,如與技術人員簽訂保密協議,禁止與訓練作品有直接接觸的技術人員將作品用于其他用途,禁止將作品有償或無償地授權給他人使用,以有效防范語料庫中的作品外泄。
第二,為保證著作權人的知情權,保障著作權人的救濟性權利,人工智能研發者需要履行披露義務。隨著人工智能學習越來越智能化,很多時候權利人無法在維權之初就能確定其智力成果被用于數據訓練,若沒有知情權作為前提性的保障,著作權人的維權可行性將會大大降低。美國眾議員提出的《生成式人工智能版權披露法案》中要求生成式AI研發者需要對訓練數據進行披露,否則將面臨經濟上的處罰。歐盟《人工智能法案》也要求生成式AI研發者按照規定模版披露生成式AI訓練數據版權信息摘要并公之于眾。可見,在全球范圍內,AI相關立法對這一問題也逐漸達成共識。
第三,人工智能研發者負有對人工智能數據訓練使用作品以及輸出內容是否侵權的定期審查義務。人工智能研發者應當指定相關技術人員對數據訓練階段使用作品的方式、用途以及測試階段輸出內容是否侵權進行定期的審查。
人工智能研發者未履行上述設置技術保護措施、披露和審查義務,給權利人造成損害的,應當承擔賠償責任,人工智能研發者可以向有過錯的工作人員追償。
五、結語
生成式AI的出現使我們的工作、生活發生了翻天覆地的變化,同時也給法律制度,尤其是著作權法帶來了挑戰,數據是生成式AI發展的基石,而高質量的數據大多都是受著作權保護的作品,這就使得為生成式AI數據訓練創設不侵權例外成為亟待解決的問題。法定許可制度和“選擇退出”默示許可制度在應對生成式AI數據訓練時存在弊端,市場失靈理論、轉換性使用理論以及從技術層面分析表明,合理使用是化解生成式AI數據訓練侵權風險的最優選擇。相關部門應將生成式AI數據訓練行為納入著作權法第24條,為其創設“人工智能數據訓練例外”條款,其適用主體限于不以營利為目的的科研機構,使用目的限于數據訓練,在行為要件上,建議將使用作品的行為規定為復制、整理、匯編、改編、翻譯,在結果要件上,應當要求生成式AI的輸出結果不會對原作品造成替代性影響。另外,為防止人工智能研發者對訓練作品的不當使用,損害著作權人的利益,人工智能研發者在數據訓練的過程中應當履行設置安全保護、訓練數據披露、定期審查的義務,并對未履行義務給權利人造成的損失承擔責任。
[參考文獻]
[1]梁志文. 變革中的版權制度研究[M].北京:法律出版社,2018.
[2]SOBEL B.Artificial Intelligence’s Fair Use Crisis[J].Columbia Journal of Law and the Arts, 2017(41):45.
[3]吳漢東.人工智能生成作品的著作權法之問[J].中外法學,2020(03):653-673.
[4]YULIIA KNIAZIEVA. From data to dialogue: data annotation for training AI Chatbots like ChatGPT[EB/OL].(2023-02-23)[2024-06-04].https://labelyourdata.com/art6225733fafec5d2cc47bd1e23453c8b1icles/data-annotation-for-training-chatgpt.
[5]徐龍.機器學習的著作權困境及制度方案[J].東南學術,2020(02):237-245.
[6]馮曉青,付繼存.著作權法中的復制權研究[J].法學家,2011(03):99-112.
[7]馮曉青.網絡環境下私人復制著作權問題研究[J].法律科學(西北政法大學學報),2012(03):103-112.
[8]宣喆.論分類保護視角下人工智能創作的著作權合理使用[J].出版發行研究,2022(03):81-87.
[9]王遷.《著作權法》修改:關鍵條款的解讀與分析(上)[J].知識產權,2021(01):20-35.
[10]萬勇,李亞蘭. 因應人工智能產業發展的合理使用條款解釋論研究[J].數字法治,2023(03):83-92.
[11]劉友華,魏遠山. 機器學習的著作權侵權問題及其解決[J].華東政法大學學報,2019(02):68-79.
[12]鄭飛,夏晨斌. 生成式人工智能的著作權困境與制度應對:以ChatGPT和文心一言為例[J].科技與法律(中英文),2023(05):86-96.
[13]張曼. 著作權法定許可制度研究[M].廈門:廈門大學出版社,2013.
[14]李照東,郭謙. 論著作權法定許可制度的完善:以《著作權法》第23條為例[J].山東社會科學,2018(02):159-163.
[15]李永明,曹興龍. 中美著作權法定許可制度比較研究[J].浙江大學學報(人文社會科學版),2005(04):29-36.
[16]李建華,王國柱. 網絡環境下著作權默示許可與合理使用的制度比較與功能區分[J].政治與法律,2013(11):12-24.
[17]王國柱. 著作權“選擇退出”默示許可的制度解析與立法構造[J].當代法學,2015(03):106-112.
[18]邵紅紅. 生成式人工智能版權侵權治理研究[J].出版發行研究,2023(06):29-38.
[19]WENDY J. Fair Use as Market Failure: A Structural and Economic Analysis of the Betamax Case and its Predecessors[J] . Columbia Law Review,1982(08):1600-1657.
[20]GOLDMAN SACHS. Generative AI could raise global GDP by 7%[EB/OL].(2023-04-05)[2024-06-04]. https://www.goldmansachs.com/intelligence/pages/generative-ai-could-raise-global-gdp-by-7-percent.html.
[21]黃匯,尹鵬旭.作品轉換性使用的規則重構及其適用邏輯[J].社會科學研究,2021(05):95-104.
[22]顧男飛,方舟之. ChatGPT等生成式人工智能使用作品的合理邊界與侵權規制[J]. 數字圖書館論壇,2023(07):1-8.
[23]QUANG JENNY. Does Training AI Violate Copyright Law? [J] . Berkeley Technology Law Journal 2021(36):1419-1420.
[24]韓偉. 數字圖書館建設中著作權侵權責任風險規避路徑研究:基于著作權案件司法審判引入轉換性使用規則的視角[J].圖書館工作與研究,2023(03):64-69.
[25]王楷文.人工智能數據輸入與著作權合理使用[J].文獻與數據學報,2021(03):110-118.
[26]焦和平.人工智能創作中數據獲取與利用的著作權風險及化解路徑[J].當代法學,2022(04):128-140.
[27]李安.機器學習作品的著作權法分析:非作品性使用、合理使用與侵權使用[J].電子知識產權,2020(06):60-70.