[摘要]文章從生成式人工智能數(shù)據(jù)預(yù)訓(xùn)練入手,發(fā)現(xiàn)其存在諸多侵權(quán)風(fēng)險(xiǎn),即復(fù)制權(quán)侵權(quán),改編權(quán)侵權(quán),廣播權(quán)及信息網(wǎng)絡(luò)傳播權(quán)侵權(quán)。基于此,文章結(jié)合國(guó)內(nèi)國(guó)際針對(duì)生成式人工智能數(shù)據(jù)預(yù)訓(xùn)練制訂的版權(quán)規(guī)制,提出“增設(shè)‘人工智能創(chuàng)作例外’合理使用新類型”“靈活使用三步檢驗(yàn)標(biāo)準(zhǔn)”的風(fēng)險(xiǎn)治理策略,旨在為未來(lái)生成式人工智能領(lǐng)域的法律規(guī)制提供理論基礎(chǔ)和實(shí)踐指引,推動(dòng)生成式人工智能在合法合規(guī)的框架內(nèi)不斷演進(jìn)。
[關(guān)鍵詞]生成式人工智能;數(shù)據(jù)預(yù)訓(xùn)練;合理使用
一、生成式人工智能數(shù)據(jù)預(yù)訓(xùn)練
(一)生成式人工智能的發(fā)展
當(dāng)今社會(huì),人類已從依賴傳統(tǒng)信息的時(shí)代邁入了由數(shù)據(jù)驅(qū)動(dòng)的智能發(fā)展階段,在信息技術(shù)迅猛發(fā)展的今天,生成式人工智能正在深刻改變內(nèi)容創(chuàng)作的方式。2022年11月,OpenAI公司推出了新型生成式人工智能—ChatGPT,這款預(yù)訓(xùn)練的通用大型語(yǔ)言模型一經(jīng)發(fā)布,即引發(fā)了強(qiáng)烈反響。相較早期僅用于輔助創(chuàng)作的人工智能技術(shù),生成式人工智能已經(jīng)能夠獨(dú)立生成高質(zhì)量的文本、圖像和音樂等多種形式的內(nèi)容,展現(xiàn)了前所未有的創(chuàng)造力。
人工智能初期發(fā)展主要集中在輔助創(chuàng)作領(lǐng)域,多被用于完成文本自動(dòng)補(bǔ)全和語(yǔ)法糾正等簡(jiǎn)單的自動(dòng)化任務(wù),雖然能夠提高創(chuàng)作效率,但是其功能和應(yīng)用范圍都非常有限。深度學(xué)習(xí)和生成模型的快速演進(jìn)使得人工智能逐步掌握自主生成內(nèi)容的能力,能夠以極高的水準(zhǔn)創(chuàng)作文章、視覺藝術(shù)和音樂等多樣化的作品。例如,AlphaGo通過(guò)運(yùn)用深度學(xué)習(xí)技術(shù),從海量圍棋歷史對(duì)局中學(xué)習(xí)棋步策略,并在自我對(duì)弈中進(jìn)行強(qiáng)化學(xué)習(xí),不斷優(yōu)化其策略,從而戰(zhàn)勝了多位人類頂級(jí)圍棋高手。
在自然語(yǔ)言處理(NLP)技術(shù)實(shí)現(xiàn)突破的背景下,機(jī)器在理解和生成自然語(yǔ)言方面也取得顯著成績(jī)。Transformer架構(gòu)的出現(xiàn)為大型語(yǔ)言模型的構(gòu)建提供了關(guān)鍵性的支持和理論框架。生成式預(yù)訓(xùn)練模型(GPT)的出現(xiàn)將生成式人工智能的能力提升到一個(gè)新的高度。例如,OpenAI公司推出的GPT-3模型配備1750億個(gè)參數(shù)[1],經(jīng)由龐大語(yǔ)料庫(kù)訓(xùn)練,采用了上下文學(xué)習(xí)機(jī)制(In-ContextLearning),ChatGPT憑借此機(jī)制能夠靈活應(yīng)對(duì)多種下游任務(wù),有效執(zhí)行自然語(yǔ)言處理、圖像識(shí)別及語(yǔ)音處理等復(fù)雜任務(wù),展現(xiàn)卓越的語(yǔ)言理解和生成能力。
(二)生成式人工智能數(shù)據(jù)預(yù)訓(xùn)練的技術(shù)運(yùn)行原理
生成式人工智能技術(shù)(GenerativeAI)依托深度學(xué)習(xí)模型來(lái)生成數(shù)據(jù)。以自然語(yǔ)言處理為例,ChatGPT構(gòu)建了大型語(yǔ)言模型LLM(LargeLanguageModel)和強(qiáng)化學(xué)習(xí)微調(diào)訓(xùn)練模型,采用了Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),這些深度神經(jīng)網(wǎng)絡(luò)模型擅長(zhǎng)處理序列數(shù)據(jù),通過(guò)自注意力機(jī)制捕捉輸入數(shù)據(jù)間的聯(lián)系,對(duì)用戶輸入的指令信息進(jìn)行全面剖析,從而解析其具體意圖。同時(shí),ChatGPT能夠依據(jù)數(shù)據(jù)庫(kù)中已有的文本語(yǔ)料,按照數(shù)字順序構(gòu)建內(nèi)容框架,最終將該框架轉(zhuǎn)譯為文本形式,生成滿足用戶需求的輸出結(jié)果[2]。
預(yù)訓(xùn)練指在海量的數(shù)據(jù)上實(shí)施無(wú)監(jiān)督學(xué)習(xí),旨在預(yù)先構(gòu)建一個(gè)數(shù)據(jù)模型或完成模型的訓(xùn)練過(guò)程。生成式人工智能模型是一種參數(shù)龐大且需要在預(yù)訓(xùn)練過(guò)程中使用大規(guī)模語(yǔ)料庫(kù)進(jìn)行自監(jiān)督學(xué)習(xí)的自然語(yǔ)言處理模型,要想在廣泛的應(yīng)用場(chǎng)景中生成高質(zhì)量的內(nèi)容,大量的數(shù)據(jù)投喂或訓(xùn)練十分必要[3]。數(shù)據(jù)預(yù)訓(xùn)練是機(jī)器學(xué)習(xí)過(guò)程中的必要步驟,而機(jī)器學(xué)習(xí)是數(shù)據(jù)預(yù)訓(xùn)練所需的核心技術(shù),總的來(lái)說(shuō),數(shù)據(jù)預(yù)訓(xùn)練分為數(shù)據(jù)輸入、機(jī)器學(xué)習(xí)與結(jié)果輸出三個(gè)過(guò)程[4]。以ChatGPT為例,這一生成式人工智能在數(shù)據(jù)訓(xùn)練階段采用的數(shù)據(jù)收集途徑包括獲取政府、學(xué)術(shù)機(jī)構(gòu)及公司公開發(fā)布的數(shù)據(jù)集,或者運(yùn)用爬蟲技術(shù)從互聯(lián)網(wǎng)搜集文本、圖像等相關(guān)數(shù)據(jù)。然而,在收集用于模型訓(xùn)練的數(shù)據(jù)時(shí),如果人工智能未經(jīng)授權(quán)就復(fù)制互聯(lián)網(wǎng)或其他來(lái)源上受著作權(quán)保護(hù)的文本、圖像、視頻等作品,就會(huì)面臨版權(quán)侵權(quán)的風(fēng)險(xiǎn)。
二、生成式人工智能數(shù)據(jù)預(yù)訓(xùn)練中的版權(quán)風(fēng)險(xiǎn)分析
(一)復(fù)制權(quán)侵權(quán)
生成式人工智能在數(shù)據(jù)預(yù)訓(xùn)練階段通常采用兩種手段進(jìn)行數(shù)字化處理:第一,將以非數(shù)字方式記錄的知識(shí)和信息轉(zhuǎn)變?yōu)闄C(jī)器可解析的編碼格式;第二,通過(guò)API等接口工具,從外部來(lái)源調(diào)取已完成編碼轉(zhuǎn)換的數(shù)據(jù)內(nèi)容。這些手段為人工智能技術(shù)獲取知識(shí)和處理數(shù)據(jù)奠定了基礎(chǔ)。《中華人民共和國(guó)著作權(quán)法》(以下簡(jiǎn)稱“《著作權(quán)法》”)規(guī)定,除合理使用、法定許可等法定豁免規(guī)定外,未經(jīng)著作權(quán)人許可擅自使用在著作權(quán)保護(hù)期范圍內(nèi)的作品構(gòu)成著作權(quán)侵權(quán)。當(dāng)前,生成式人工智能所獲取的數(shù)據(jù)并非完全來(lái)自于公有領(lǐng)域,其在收集海量數(shù)據(jù)訓(xùn)練模型時(shí)難免會(huì)復(fù)制已受版權(quán)保護(hù)的作品,而這種行為涉及對(duì)著作權(quán)人復(fù)制權(quán)的侵權(quán)風(fēng)險(xiǎn)。在最新修訂的《著作權(quán)法》中,我國(guó)將“數(shù)字化”新增為復(fù)制權(quán)的一種行為方式,使我國(guó)版權(quán)法中的復(fù)制行為從傳統(tǒng)的印刷、拓印等一經(jīng)復(fù)制便被固定的形式擴(kuò)展到有形載體和數(shù)字載體以及數(shù)字載體相互之間的復(fù)制。然而,無(wú)論復(fù)制的表現(xiàn)形式多么豐富,其本質(zhì)始終是對(duì)既有作品的重新呈現(xiàn)[5]。在生成式人工智能采集數(shù)據(jù)的過(guò)程中,其收集的數(shù)據(jù)都會(huì)被先行復(fù)制后存入數(shù)據(jù)庫(kù),復(fù)制是實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)的必要前提,那么在數(shù)據(jù)收集過(guò)程中爬取數(shù)據(jù)并將其存儲(chǔ)至數(shù)據(jù)庫(kù)的行為就構(gòu)成著作權(quán)法上的復(fù)制行為。因此,根據(jù)我國(guó)著作權(quán)法的規(guī)定,如果該復(fù)制行為未經(jīng)版權(quán)所有者授權(quán)且沒有特殊的抗辯理由,則生成式人工智能進(jìn)行數(shù)據(jù)預(yù)訓(xùn)練侵犯了著作權(quán)人的復(fù)制權(quán)。
(二)改編權(quán)侵權(quán)
改編權(quán)是賦予權(quán)利持有人允許他人在原作基礎(chǔ)上進(jìn)行內(nèi)容的調(diào)整和加工,以形成富有創(chuàng)意的全新作品的權(quán)利。在生成式人工智能數(shù)據(jù)預(yù)訓(xùn)練階段,由于機(jī)器學(xué)習(xí)的需要,人工智能通常需要將收集的數(shù)據(jù)轉(zhuǎn)換為相應(yīng)的結(jié)構(gòu)化數(shù)據(jù),而對(duì)數(shù)據(jù)的轉(zhuǎn)換修改、整理刪除等操作必然會(huì)涉及對(duì)原有數(shù)據(jù)內(nèi)容的調(diào)整,進(jìn)而可能引發(fā)侵犯著作權(quán)人改編權(quán)的風(fēng)險(xiǎn)[6]。要想分析數(shù)據(jù)預(yù)訓(xùn)練的改編權(quán)侵權(quán)風(fēng)險(xiǎn),我們要先從機(jī)器學(xué)習(xí)的方法入手。基于訓(xùn)練數(shù)據(jù)是否包含特定作者的作品這一標(biāo)準(zhǔn),機(jī)器學(xué)習(xí)被分為一般機(jī)器學(xué)習(xí)與特殊機(jī)器學(xué)習(xí)[7]。第一,一般機(jī)器學(xué)習(xí)指人工智能在由眾多作者作品構(gòu)成的數(shù)據(jù)庫(kù)中,通過(guò)算法訓(xùn)練來(lái)分析和選擇數(shù)據(jù),再根據(jù)用戶的指令與數(shù)據(jù)庫(kù)內(nèi)容進(jìn)行匹配生成作品的過(guò)程。這類作品的風(fēng)格和外觀具有一定的隨機(jī)性,往往難以被用戶所掌控,即使它們可能涉及改編權(quán),但由于缺乏具體的比對(duì)標(biāo)準(zhǔn),一般機(jī)器學(xué)習(xí)的侵權(quán)風(fēng)險(xiǎn)較低。第二,特殊的機(jī)器學(xué)習(xí)指相關(guān)主體通過(guò)使用某一特定作者創(chuàng)作的作品對(duì)算法進(jìn)行訓(xùn)練的學(xué)習(xí)過(guò)程。例如,巴黎索尼計(jì)算機(jī)科學(xué)實(shí)驗(yàn)室的技術(shù)人員用300多首巴赫的作品訓(xùn)練了人工智能系統(tǒng),這些歌曲在訓(xùn)練過(guò)程中被轉(zhuǎn)換成不同的音符,并最終生成了2500多首作品。這些作品使包括專業(yè)音樂家在內(nèi)的眾多聽眾認(rèn)為他們是巴赫本人創(chuàng)作的作品。根據(jù)著作權(quán)法的相關(guān)規(guī)定,大多數(shù)作品的保護(hù)期限在作者死亡50年后便終止,因此巴赫的作品現(xiàn)已成為公共領(lǐng)域的文化遺產(chǎn),不再受版權(quán)約束。然而,如果作品仍處在版權(quán)保護(hù)期限內(nèi),使用這些作品進(jìn)行算法訓(xùn)練便會(huì)涉及版權(quán)侵權(quán)問(wèn)題。在特殊的機(jī)器學(xué)習(xí)過(guò)程中,相關(guān)主體會(huì)從眾多作品中提煉屬于作者個(gè)性化表達(dá)的信息,并運(yùn)用這些信息投喂人工智能進(jìn)行數(shù)據(jù)預(yù)訓(xùn)練,以高度模擬原作者創(chuàng)作風(fēng)格為目標(biāo)進(jìn)行表達(dá)。作品是作者獨(dú)立構(gòu)思的產(chǎn)物,其獨(dú)創(chuàng)性體現(xiàn)在個(gè)性化的表達(dá)方式,而人工智能生成的內(nèi)容可能會(huì)展現(xiàn)類似的表達(dá)特征,進(jìn)而對(duì)被學(xué)習(xí)的作品產(chǎn)生替代效果[8]。因此,基于預(yù)訓(xùn)練數(shù)據(jù)來(lái)源的特定性,特殊的機(jī)器學(xué)習(xí)生成的作品存在侵犯原作品改編權(quán)的風(fēng)險(xiǎn)。
(三)廣播權(quán)及信息網(wǎng)絡(luò)傳播權(quán)侵權(quán)
“廣播權(quán)”在《著作權(quán)法》中的定義為以有線或者無(wú)線方式公開傳播或者轉(zhuǎn)播作品,以及通過(guò)擴(kuò)音器或者其他傳送符號(hào)、聲音、圖像的類似工具向公眾傳播廣播作品的權(quán)利。在“央視國(guó)際網(wǎng)絡(luò)有限公司訴北京百度網(wǎng)訊科技有限公司侵害作品信息網(wǎng)絡(luò)傳播權(quán)案”中,法院判定互聯(lián)網(wǎng)傳播行為具有有線傳播的特征,因此依據(jù)《著作權(quán)法》,將其認(rèn)定為信息網(wǎng)絡(luò)傳播權(quán)的一部分,作為財(cái)產(chǎn)權(quán)加以保護(hù),并裁決被告向原告支付賠償款共計(jì)50.28萬(wàn)元。在著作權(quán)法中,信息網(wǎng)絡(luò)傳播權(quán)作為一種財(cái)產(chǎn)權(quán)利,與廣播權(quán)具有相似之處,而該判決中提到的“有線傳播”概念,已被擴(kuò)展為包括網(wǎng)絡(luò)形式的傳播方式。因此,從法律邏輯統(tǒng)一的角度來(lái)看,廣播權(quán)中的“有線傳播”理應(yīng)包括基于互聯(lián)網(wǎng)展開的傳播行為。鑒于此,如果人工智能輸出結(jié)果與原作品存在實(shí)質(zhì)性相似,并將該結(jié)果通過(guò)網(wǎng)絡(luò)向公眾傳播,那么生成式人工智能在進(jìn)行數(shù)據(jù)預(yù)訓(xùn)練時(shí)可能面臨侵犯原作品廣播權(quán)及信息網(wǎng)絡(luò)傳播權(quán)的風(fēng)險(xiǎn)。一般而言,人工智能生成作品涉及的廣播權(quán)及信息網(wǎng)絡(luò)傳播權(quán)侵權(quán)問(wèn)題主要發(fā)生在數(shù)據(jù)輸出環(huán)節(jié),但也有觀點(diǎn)指出,數(shù)據(jù)預(yù)處理階段同樣存在潛在的廣播權(quán)及信息網(wǎng)絡(luò)傳播權(quán)侵權(quán)風(fēng)險(xiǎn)。例如,在具體實(shí)踐環(huán)節(jié),技術(shù)人員為了進(jìn)行數(shù)據(jù)挖掘或機(jī)器學(xué)習(xí),驗(yàn)證研究結(jié)果的可行性,常常需要將數(shù)據(jù)上傳至云端或利用互聯(lián)網(wǎng)進(jìn)行共享,這種方式可能存在侵犯原作品的廣播權(quán)及信息網(wǎng)絡(luò)傳播權(quán)的潛在風(fēng)險(xiǎn)[9]。
三、生成式人工智能數(shù)據(jù)預(yù)訓(xùn)練的版權(quán)規(guī)制選擇
(一)域外制度借鑒
1.美國(guó):轉(zhuǎn)換性使用的法律規(guī)則
在美國(guó),人工智能在數(shù)據(jù)預(yù)訓(xùn)練階段所面臨的版權(quán)及合理使用問(wèn)題得以有效解決,主要?dú)w因于轉(zhuǎn)換性使用理論的應(yīng)用。該理論首次在“Campbellv.AcuffRoseMusic案”中被提出。根據(jù)這一理論,當(dāng)原作品被以不同的形式進(jìn)行重新詮釋,并被賦予全新的意義或功能時(shí),這種改動(dòng)可被視為對(duì)原作品的轉(zhuǎn)化性使用,并被認(rèn)定為符合合理使用的法律規(guī)范。法院在判定生成式人工智能生成的作品是否構(gòu)成轉(zhuǎn)換性使用時(shí),主要依據(jù)是其是否具備足夠的“轉(zhuǎn)換性”特征,而非商業(yè)屬性。在司法實(shí)踐中,法院應(yīng)用轉(zhuǎn)化性使用規(guī)則通常從兩個(gè)方面進(jìn)行評(píng)估。第一,使用的內(nèi)容與使用目的是否與原作品存在明顯的差別,作品的使用是否被賦予新的功能。當(dāng)新作品的使用目的和性質(zhì)發(fā)生較大轉(zhuǎn)變時(shí),就不太可能對(duì)原作的市場(chǎng)產(chǎn)生直接的替代作用。在“AndyWarholFoundationfortheVisualArts,Inc.v.Goldsmith案”中,美國(guó)最高法院指出,判斷轉(zhuǎn)換性使用的核心在于新作品“是否以及在何種程度上”與原作品在目的和性質(zhì)上存在相似,單純的形式或風(fēng)格變化不足以證明其使用目的已完全轉(zhuǎn)換,必須綜合考慮使用背景等因素,以確定其使用目的是否具有創(chuàng)新性[9]。第二,使用作品是否具有不同的功能,這種功能轉(zhuǎn)換性是美國(guó)法院在司法實(shí)踐中確立的一種新形態(tài),它擴(kuò)展了原有轉(zhuǎn)換使用概念的范圍[10]。在“AauthorGuildv.HathiTrust案”中,美國(guó)法院認(rèn)為,HathiTrust圖書館提供的全文檢索服務(wù)、面向殘疾人的圖書訪問(wèn)權(quán)限以及數(shù)字化保存功能,將原作品單一的閱讀用途轉(zhuǎn)變?yōu)榉?wù)于研究、保存及具備社會(huì)公益性的多重功能,通過(guò)對(duì)原作品進(jìn)行重新定位,賦予了其新的功能,這種使用方式具備高度的“轉(zhuǎn)化性目的”,因此可以被視為合理使用。從判決結(jié)果來(lái)看,美國(guó)法院對(duì)“轉(zhuǎn)化性使用”的闡釋采取了較為靈活的方式,為其提供了寬廣的解釋余地,以確保該理論得到更全面的應(yīng)用。
2.歐盟:新增文本數(shù)據(jù)挖掘的例外規(guī)則
歐盟的早期版權(quán)立法,如1996年發(fā)布的《數(shù)據(jù)庫(kù)保護(hù)指令》和2001年的《信息社會(huì)版權(quán)指令》,因采用封閉式條款設(shè)計(jì),未能契合文本與數(shù)據(jù)挖掘的需求,從而對(duì)人工智能技術(shù)的應(yīng)用和推廣產(chǎn)生了不利影響。2016年,歐盟公布了《數(shù)字單一市場(chǎng)版權(quán)指令》(以下簡(jiǎn)稱“《指令》”)的初版提案,旨在加強(qiáng)成員國(guó)間版權(quán)規(guī)則的一致性,將科研相關(guān)的文本與數(shù)據(jù)挖掘活動(dòng)視作特定情況納入版權(quán)保護(hù)的例外范疇。2019年4月,經(jīng)過(guò)修訂的《指令》正式生效。新《指令》在保留科研活動(dòng)中文本與數(shù)據(jù)挖掘的特殊權(quán)利的同時(shí),還增添了針對(duì)數(shù)據(jù)挖掘需求的相關(guān)例外規(guī)定。新《指令》第4條則進(jìn)一步規(guī)定,出于文本和數(shù)據(jù)挖掘?qū)戏ǐ@取的作品或其他內(nèi)容進(jìn)行復(fù)制與提取的行為不構(gòu)成侵權(quán)。新《指令》第4條則進(jìn)一步規(guī)定,只要內(nèi)容是合法獲取的,其用于文本與數(shù)據(jù)挖掘的相關(guān)行為則不構(gòu)成侵權(quán)。考慮到現(xiàn)有的“基于科研目的的文本與數(shù)據(jù)挖掘例外條款”約束性較強(qiáng),難以覆蓋商業(yè)決策支持、公共服務(wù)優(yōu)化、應(yīng)用程序開發(fā)或技術(shù)革新等非科研領(lǐng)域,且文本與數(shù)據(jù)挖掘行為并不符合2001年的《信息社會(huì)版權(quán)指令》中臨時(shí)復(fù)制的合理使用條件。對(duì)此,歐盟制定了新的“基于文本與數(shù)據(jù)挖掘目的的文本與數(shù)據(jù)挖掘例外”條款[11],允許行為主體在未被權(quán)利人明確禁止的情況下,對(duì)合法獲取的數(shù)據(jù)資源進(jìn)行自由復(fù)制與提取,同時(shí)取消了主體資格限制,從而擴(kuò)大了技術(shù)應(yīng)用的靈活性和適用場(chǎng)景。
(二)我國(guó)制度選擇
1.三步檢驗(yàn)標(biāo)準(zhǔn)的輔助性考慮因素
隨著生成式人工智能技術(shù)的發(fā)展,我國(guó)《著作權(quán)法》迫切需要解決因使用作品作為機(jī)器學(xué)習(xí)訓(xùn)練數(shù)據(jù)而可能引發(fā)的侵權(quán)爭(zhēng)議。《中華人民共和國(guó)著作權(quán)法實(shí)施條例》(以下簡(jiǎn)稱“《實(shí)施條例》”)通過(guò)制定三步檢驗(yàn)標(biāo)準(zhǔn),為相關(guān)判斷提供了明確的順序和參考依據(jù)。三步檢驗(yàn)標(biāo)準(zhǔn)有助于法院在保護(hù)版權(quán)人利益和促進(jìn)公共利益之間找到平衡點(diǎn),使得合理使用制度在實(shí)踐中的應(yīng)用變得更加清晰且具有可操作性。在我國(guó)司法實(shí)踐中,這一規(guī)則多被當(dāng)作一種輔助性的參考工具,當(dāng)遇到《著作權(quán)法》未具體規(guī)定的情況時(shí),適用這一規(guī)則通常會(huì)變得非常困難,甚至無(wú)法實(shí)施。究其原因,法定情形提供了明確的法律依據(jù)和操作指南,而三步檢驗(yàn)標(biāo)準(zhǔn)由于具有抽象性特征,在應(yīng)用時(shí)需要綜合考量多方利益及具體情境,這種靈活性在特定情境下可能引發(fā)差異化解讀,進(jìn)而增大了法律適用的不確定性和復(fù)雜性,加大了法院判決時(shí)的風(fēng)險(xiǎn)。基于此,為了在實(shí)際操作中有效保護(hù)版權(quán)人和用戶的合法權(quán)益,三步檢驗(yàn)標(biāo)準(zhǔn)在我國(guó)主要作為輔助性考慮因素,而不是直接適用于所有合理使用情形。
2.合理使用制度無(wú)法提供適當(dāng)?shù)幕砻?/p>
我國(guó)著作權(quán)法中有法定許可和合理使用兩種侵權(quán)豁免理由。在法定許可制度方面,我國(guó)著作權(quán)法當(dāng)前規(guī)定的法定許可類型難以適用于人工智能的創(chuàng)作情境,盡管依據(jù)法定許可制度,使用作品不需要經(jīng)過(guò)原著作權(quán)人許可,但是即便按照現(xiàn)行法定許可費(fèi)的最低標(biāo)準(zhǔn)估算,在數(shù)據(jù)預(yù)處理階段使用作品所產(chǎn)生的潛在許可費(fèi)用也極為龐大,讓從事人工智能研發(fā)的企業(yè)或者研究機(jī)構(gòu)負(fù)擔(dān)如此高昂的許可費(fèi)較為困難。在當(dāng)前各國(guó)人工智能技術(shù)飛速發(fā)展的國(guó)際背景下,我國(guó)也在不斷提升人工智能技術(shù)水平,相關(guān)法律法規(guī)對(duì)數(shù)據(jù)輸入行為設(shè)置過(guò)多的限制和過(guò)高的成本,與鼓勵(lì)知識(shí)產(chǎn)權(quán)創(chuàng)新創(chuàng)造的宗旨相違背。因此,相對(duì)而言,人工智能供應(yīng)商依據(jù)合理使用制度為其數(shù)據(jù)輸入行為主張免責(zé)具有一定的合理性。然而,現(xiàn)行合理使用制度難以滿足人工智能技術(shù)發(fā)展的需要,不能為生成式人工智能數(shù)據(jù)預(yù)處理階段使用作品的行為提供適當(dāng)?shù)陌鏅?quán)豁免。我國(guó)《著作權(quán)法》明確列舉的合理使用情形也未涵蓋數(shù)據(jù)挖掘環(huán)節(jié),合理使用條款中明確列舉的情形中也只有少數(shù)涉及數(shù)據(jù)挖掘環(huán)節(jié)。同時(shí),相關(guān)主體在課堂教學(xué)或科學(xué)研究中將數(shù)據(jù)處理挖掘作為使用例外通常限于非商業(yè)目的,若某些數(shù)據(jù)預(yù)處理行為不屬于科學(xué)研究范疇,或含有任何商業(yè)性質(zhì),則該例外不適用。當(dāng)前,軟件及互聯(lián)網(wǎng)公司致力于提升生成式人工智能技術(shù),依據(jù)企業(yè)特性,難以將其數(shù)據(jù)挖掘行為限定為非商業(yè)用途。人工智能在創(chuàng)作過(guò)程中使用數(shù)據(jù),完全是為了產(chǎn)生新的作品,并不符合上述《著作權(quán)法》中規(guī)定的合理使用情形。而生成式人工智能在創(chuàng)作過(guò)程中需要用于訓(xùn)練的數(shù)據(jù)作品,其使用范圍顯然已經(jīng)超出了《著作權(quán)法》第二十四條規(guī)定的合理使用的適當(dāng)性標(biāo)準(zhǔn)[12]。除了先前提到的例外情況,現(xiàn)有法律并未明確列出可為數(shù)據(jù)挖掘提供合法依據(jù)的其他情形。《著作權(quán)法》在第三次修訂時(shí)不僅保留了現(xiàn)有的合理使用條款,還新增加了相關(guān)的兜底條款,以應(yīng)對(duì)其他合理使用的可能情況。盡管這種做法看似能夠滿足將合理使用制度應(yīng)用于新型作品的需求,然而,它并未實(shí)現(xiàn)將合理使用制度由封閉性立法模式轉(zhuǎn)變?yōu)楦娱_放靈活體系的轉(zhuǎn)變。這導(dǎo)致法官在缺乏明確法律授權(quán)的情況下,依然無(wú)法創(chuàng)立新的合理使用類別。因此,這一調(diào)整可能無(wú)法有效擴(kuò)大裁量空間,也未必能真正推動(dòng)數(shù)據(jù)挖掘的發(fā)展[13]。
四、生成式人工智能數(shù)據(jù)預(yù)訓(xùn)練階段的著作權(quán)風(fēng)險(xiǎn)治理
(一)增設(shè)“人工智能創(chuàng)作例外”合理使用新類型
我國(guó)可以參考?xì)W盟增設(shè)“文本數(shù)據(jù)挖掘”例外,以體現(xiàn)我國(guó)大數(shù)據(jù)、人工智能的時(shí)代特征。同時(shí),我國(guó)通過(guò)引入這一條款,不僅能克服生成式人工智能作品生成過(guò)程中的數(shù)據(jù)獲取難題,還能降低人工智能在使用有版權(quán)保護(hù)作品時(shí)的法律風(fēng)險(xiǎn),進(jìn)而提高人工智能作品的整體水平,推動(dòng)新興領(lǐng)域的健康發(fā)展。我國(guó)新修訂的《著作權(quán)法》第二十四條中新增加了合理使用的兜底法律條款,這進(jìn)一步擴(kuò)展了文本數(shù)據(jù)挖掘行為被視為合理使用的可能性,為相關(guān)實(shí)踐提供了更多的法律保障。第一,當(dāng)前我國(guó)進(jìn)行人工智能的研究主體大多是大型互聯(lián)網(wǎng)企業(yè),這些企業(yè)為生成式人工智能的研發(fā)投入了大量資金和高技術(shù)人才,因此該條款的適用主體應(yīng)擴(kuò)展至為發(fā)展人工智能而需要使用數(shù)據(jù)的公司及企業(yè),這種不限定適用主體的做法更加符合我國(guó)國(guó)情。技術(shù)的快速發(fā)展使得互聯(lián)網(wǎng)與軟件企業(yè)在應(yīng)對(duì)市場(chǎng)動(dòng)態(tài)變化方面具有顯著優(yōu)勢(shì),其在文本與數(shù)據(jù)挖掘方面的能力通常超過(guò)部分科研組織。鑒于此,立法機(jī)關(guān)若僅將研究主體限定為學(xué)術(shù)機(jī)構(gòu)或文化組織,則可能會(huì)限制文本與數(shù)據(jù)挖掘技術(shù)的廣泛使用和持續(xù)進(jìn)步。第二,只有當(dāng)文本與數(shù)據(jù)挖掘符合“出于科學(xué)研究目的”時(shí)才符合合理使用的標(biāo)準(zhǔn)。文本與數(shù)據(jù)挖掘合理使用的目的要件應(yīng)確保挖掘行為符合規(guī)定。“以科學(xué)研究為目的”的數(shù)據(jù)挖掘能夠限制使用主體利用文本與數(shù)據(jù)挖掘技術(shù)實(shí)施可能損害權(quán)利人合法權(quán)益的行為,這符合著作權(quán)法促進(jìn)科學(xué)和文化的繁榮發(fā)展的宗旨,有助于防止文本數(shù)據(jù)挖掘技術(shù)的商業(yè)化濫用。當(dāng)文本與數(shù)據(jù)挖掘技術(shù)服務(wù)于科研工作時(shí),其產(chǎn)生的最終效益歸屬于社會(huì)公眾利益。基于此,適度犧牲著作權(quán)人的部分利益,以增進(jìn)社會(huì)公共利益符合《著作權(quán)法》立法目的[14]。
(二)靈活使用三步檢驗(yàn)標(biāo)準(zhǔn)
我國(guó)著作權(quán)法長(zhǎng)期采用封閉式立法模式,具體規(guī)定了12種著作權(quán)法例外類型。從法律解釋角度看,《實(shí)施條例》所確立的三步檢驗(yàn)標(biāo)準(zhǔn)對(duì)《著作權(quán)法》中規(guī)定的12種具體例外條款的適用起到了限制作用。因此,如果某一行為構(gòu)成合理使用,它必須既屬于《著作權(quán)法》中規(guī)定的12種具體例外之一,又需通過(guò)三步檢驗(yàn)標(biāo)準(zhǔn)的評(píng)估[15]。在現(xiàn)行著作權(quán)法體系下,三步檢驗(yàn)標(biāo)準(zhǔn)僅適用于評(píng)估《著作權(quán)法》第二十四條所列舉的具體情形是否符合各項(xiàng)規(guī)定,這加強(qiáng)了對(duì)合理使用條款的限制,導(dǎo)致包括生成式人工智能數(shù)據(jù)預(yù)訓(xùn)練在內(nèi)的多種數(shù)字時(shí)代新型使用場(chǎng)景無(wú)法被納入合理使用條款的范疇。為了推動(dòng)技術(shù)革新,立法機(jī)關(guān)有必要賦予人工智能開發(fā)者更大的發(fā)展空間,使其能夠高效使用現(xiàn)有材料,并通過(guò)編輯和整合構(gòu)建新的數(shù)據(jù)庫(kù)。因此,立法機(jī)關(guān)應(yīng)在肯定三步檢驗(yàn)標(biāo)準(zhǔn)立法價(jià)值的基礎(chǔ)上,探索其對(duì)新興領(lǐng)域著作權(quán)法的適用空間;通過(guò)采用較為開放的模式規(guī)定人工智能數(shù)據(jù)預(yù)訓(xùn)練適用合理使用的具體要件,再依據(jù)三步檢驗(yàn)標(biāo)準(zhǔn)進(jìn)行個(gè)案判定。而司法機(jī)關(guān)通過(guò)在司法實(shí)踐中靈活有效地應(yīng)用三步檢驗(yàn)標(biāo)準(zhǔn),可以在保障著作權(quán)人權(quán)益的同時(shí)促進(jìn)創(chuàng)新和公共利益的發(fā)展。因此,立法機(jī)關(guān)圍繞三步檢驗(yàn)標(biāo)準(zhǔn),結(jié)合人工智能技術(shù)的特點(diǎn)和我國(guó)著作權(quán)法的相關(guān)規(guī)定,將數(shù)據(jù)預(yù)訓(xùn)練過(guò)程中涉及作品的使用行為納入合理使用的范疇具有一定的可行性。在司法實(shí)踐中,部分法院也認(rèn)為,只要相關(guān)行為未妨礙原作品的正常使用,且未對(duì)著作權(quán)人的合法權(quán)益造成不合理的損害,即可被視為合理使用,而不必拘泥于《著作權(quán)法》第二十二條所列舉的具體例外情形。
五、結(jié)語(yǔ)
生成式人工智能技術(shù)的迅猛發(fā)展為國(guó)家經(jīng)濟(jì)和科技進(jìn)步注入了新的動(dòng)力,但其在數(shù)據(jù)預(yù)訓(xùn)練過(guò)程中涉及的著作權(quán)問(wèn)題備受重視。綜上所述,生成式人工智能所推動(dòng)的技術(shù)革新正在塑造前所未有的創(chuàng)作方式,并伴隨著一系列與版權(quán)相關(guān)的復(fù)雜問(wèn)題。以ChatGPT為代表的生成式人工智能在數(shù)據(jù)預(yù)訓(xùn)練和內(nèi)容生成過(guò)程中面臨復(fù)制權(quán)、改編權(quán)和廣播權(quán)及信息網(wǎng)絡(luò)傳播權(quán)等方面的版權(quán)風(fēng)險(xiǎn),美國(guó)和歐盟的版權(quán)法制改革為我國(guó)提供了有益的借鑒。生成式人工智能的發(fā)展需要在版權(quán)保護(hù)和技術(shù)創(chuàng)新之間找到平衡,我國(guó)立法機(jī)關(guān)可在保護(hù)版權(quán)人利益的同時(shí)促進(jìn)人工智能技術(shù)的創(chuàng)新發(fā)展,為數(shù)字經(jīng)濟(jì)和智能社會(huì)的建設(shè)提供堅(jiān)實(shí)的法律保障。這需要立法機(jī)關(guān)不斷完善法律制度和應(yīng)用技術(shù)手段,有效規(guī)制生成式人工智能數(shù)據(jù)預(yù)訓(xùn)練過(guò)程中的版權(quán)問(wèn)題,促進(jìn)其在合法合規(guī)的框架內(nèi)健康發(fā)展。
[參考文獻(xiàn)]
[1]陸偉,劉家偉,馬永強(qiáng),等.ChatGPT為代表的大模型對(duì)信息資源管理的影響[J].圖書情報(bào)知識(shí),2023(02):6-9.
[2]王瑤,李勝利.生成式人工智能的版權(quán)風(fēng)險(xiǎn)及其應(yīng)對(duì):以ChatGPT為視角[J].海南金融,2023(10):49-58.
[3]丁道勤.生成式人工智能訓(xùn)練階段的數(shù)據(jù)法律問(wèn)題及其立法建議[J].行政法學(xué)研究,2024(06):16-28.
[4]吳漢東.人工智能生成作品的著作權(quán)法之問(wèn)[J].中外法學(xué),2020(03):653-673.
[5]馮曉青,付繼存.著作權(quán)法中的復(fù)制權(quán)研究[J].法學(xué)家,2011(03):99-112.
[6]張平.人工智能生成內(nèi)容著作權(quán)合法性的制度難題及其解決路徑[J].法律科學(xué)(西北政法大學(xué)學(xué)報(bào)),2024(03):18-31.
[7]詹愛嵐,田一農(nóng).生成式人工智能機(jī)器學(xué)習(xí)中的著作權(quán)風(fēng)險(xiǎn)及其化解路徑[J].電子知識(shí)產(chǎn)權(quán),2023(11):4-14.
[8]李安.機(jī)器學(xué)習(xí)作品的著作權(quán)法分析:非作品性使用、合理使用與侵權(quán)使用[J].電子知識(shí)產(chǎn)權(quán),2020(06):60-70.
[9]萬(wàn)勇.人工智能時(shí)代著作權(quán)法合理使用制度的困境與出路[J].社會(huì)科學(xué)輯刊,2021(05):93-102.
[10]謝琳.論著作權(quán)轉(zhuǎn)換型使用之非轉(zhuǎn)換性[J].學(xué)術(shù)研究,2017(09):61-67.
[11]吳高,黃曉斌.人工智能時(shí)代文本與數(shù)據(jù)挖掘合理使用規(guī)則設(shè)計(jì)研究[J].圖書情報(bào)工作,2021(22):3-13.
[12]焦和平.人工智能創(chuàng)作中數(shù)據(jù)獲取與利用的著作權(quán)風(fēng)險(xiǎn)及化解路徑[J].當(dāng)代法學(xué),2022(04):128-140.
[13]張惠彬,肖啟賢.人工智能時(shí)代文本與數(shù)據(jù)挖掘的版權(quán)豁免規(guī)則建構(gòu)[J].科技與法律(中英文),2021(06):74-84.
[14]董凡,關(guān)永紅.論文本與數(shù)字挖掘技術(shù)應(yīng)用的版權(quán)例外規(guī)則構(gòu)建[J].河北法學(xué),2019(09):148-160.
[15]萬(wàn)勇.著作權(quán)法三步檢驗(yàn)標(biāo)準(zhǔn)的誤解澄清與本土重塑[J].上海政法學(xué)院學(xué)報(bào)(法治論叢).2022(04):42-55.