999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

AI模型訓練中著作權(quán)合理使用解釋分析及進路選擇

2025-09-11 00:00:00吳廣海劉一鳴
電子知識產(chǎn)權(quán) 2025年5期

一、AI模型巨量數(shù)據(jù)訓練引發(fā)著作權(quán)侵權(quán)風險

人工智能生成內(nèi)容(ArtificialIntelligence

GeneratedContent,AIGC)技術(shù)的發(fā)展歷史,其實就是生成式模型(GenerativeModels)的發(fā)展歷史。’隨著算力發(fā)展、硬件更新和人工智能治理體系的不斷完善,生成式模型的復雜程度和創(chuàng)新能力進一步提升,模型的參數(shù)規(guī)模也在迅速增長,最近的參數(shù)規(guī)模甚至達到千億級。2人工智能需要儲備巨量文字、圖片甚至視頻作為訓練素材,并將其轉(zhuǎn)化為機器可以識別的內(nèi)容形式,而后將這些數(shù)據(jù)導入系統(tǒng)供機器學習使用。‘這一輸入和學習的過程,就是人工智能模型訓練的過程。這一過程涉及知識產(chǎn)權(quán)數(shù)據(jù)的使用問題。知識產(chǎn)權(quán)數(shù)據(jù)是指知識產(chǎn)權(quán)公共服務平臺公開公布的以及企事業(yè)單位、科研院所等在運營過程中產(chǎn)生的與創(chuàng)造性勞動成果信息有關(guān)的數(shù)據(jù)集合。4申言之,知識產(chǎn)權(quán)數(shù)據(jù)為公開公布的與知識產(chǎn)權(quán)相關(guān)的數(shù)據(jù),以版權(quán)數(shù)據(jù)最為典型。平臺在訓練模型時,往往會將版權(quán)數(shù)據(jù)納入訓練過程。這一行為可能會侵害權(quán)利人的知識產(chǎn)權(quán),進而引發(fā)訴訟,以下案例便是如此。

AIGC平臺侵權(quán)第一案為上海新創(chuàng)華文化發(fā)展有限公司(簡稱“新創(chuàng)華”)訴AI公司侵犯奧特曼版權(quán)形象一案。原告新創(chuàng)華將奧特曼以及相關(guān)詞語作為提示詞輸入被告提供的服務工具,發(fā)現(xiàn)所生成圖片與現(xiàn)存奧特曼形象版權(quán)存在實質(zhì)相似。故,新創(chuàng)華以AI平臺侵犯其復制權(quán)、改編權(quán)以及信息網(wǎng)絡傳播權(quán)為訴請將平臺訴至法庭。2024年2月8日,法院對該案做出了一審判決。該案的一審判決一經(jīng)作出便引發(fā)了學界廣泛的討論。主要的討論焦點有二:一是AI平臺使用既存版權(quán)內(nèi)容訓練AI模型是否合法。二是人工智能生成物是否構(gòu)成侵權(quán)。其中,焦點一需通過焦點二表現(xiàn)出來。在實踐中,由于生成內(nèi)容較之數(shù)據(jù)訓練過程具有更強的公開性,當事人往往通過識別生成內(nèi)容是否侵權(quán)來倒推訓練過程是否侵權(quán)。若生成內(nèi)容構(gòu)成實質(zhì)侵權(quán),其模型訓練的過程也會連帶遭到質(zhì)疑。美國Open AIvs.Journalism一案便是如此。原告《紐約時報》根據(jù)生成內(nèi)容的相似性主張被告OpenAI非法復制和使用《紐約時報》上刊登的文章,并訴請被告銷毀所有包含《紐約時報》作品的數(shù)據(jù)集。這便是從生成內(nèi)容侵權(quán)入手控制前端模型訓練過程的典型思路。模型輸出內(nèi)容的侵權(quán)往往是模型訓練過程侵權(quán)的外在表現(xiàn)和訴訟起點。

這兩則案例反映出模型訓練中知識產(chǎn)權(quán)數(shù)據(jù)面臨著被不當使用的風險,而這一風險會在內(nèi)容生成環(huán)節(jié)表現(xiàn)出來。2022年,中國共產(chǎn)黨中央委員會和國務院發(fā)布了《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(以下簡稱“數(shù)據(jù)二十條\"。該文件強調(diào),數(shù)據(jù)的關(guān)鍵在于其應用,只有經(jīng)過處理,數(shù)據(jù)才能被有效利用。但加工后“使用”的合理邊界尚未確定,著作權(quán)中的“合理使用”原則是否可以作為AI平臺使用作品進行訓練的抗辯等問題尚不明晰。基于此,本文從訓練過程中數(shù)據(jù)使用的性質(zhì)入手,探討著作權(quán)合理使用的范疇,進一步回應著作權(quán)數(shù)據(jù)使用侵權(quán)問題。

二、現(xiàn)有“著作權(quán)合理使用”原則面臨三重解釋障礙

2021年修改的“著作權(quán)合理使用”制度引發(fā)廣泛關(guān)注。”《中華人民共和國著作權(quán)法》(以下簡稱《著作權(quán)法》)第24條規(guī)定了13類著作權(quán)合理使用的表述。盡管較之以往相比,法條融合了具有高度概括性的“三步檢驗法”,但只初步實現(xiàn)了表面上的開放性,在實際認定中依舊難以具體化判斷。’三步檢驗法的第一步是對“特定且特殊情況”的審查,第二步和第三步則是“不能干擾原作品的正常使用”以及“必須合理地侵犯原作品的版權(quán)所有者的合法權(quán)益”。而大數(shù)據(jù)訓練由于涉及數(shù)據(jù)信息過于龐大,難以全面的判斷所使用數(shù)據(jù)是否全部、或者部分對著作權(quán)人作品的正常使用造成了困擾,也難以確定對單個著作權(quán)人的損害程度。因此,合理使用原則能否真正適用于數(shù)據(jù)訓練這一行為,還需結(jié)合合理使用原則和這一行為的性質(zhì)慎重考慮。事實上,將數(shù)據(jù)訓練行為納入合理使用原則存在營利性使用、表達性使用以及競爭性使用解釋的三大障礙。

(一)營利性使用

有學者主張,數(shù)據(jù)訓練環(huán)節(jié)對作品的使用難以構(gòu)成免責意義上的合理使用。其解釋障礙存在于使用自的的營利性、使用作品的完整性、使用作品類型的多元化等各方面。1°其中,使用目的是否具有營利性是一個考察的重要指標。《美國版權(quán)法》第107條也將使用是否具有營利性納入了合理使用的判斷之中。“我國《著作權(quán)法》第24條第1款提到,“以個體的方式進行學習、探索或者享受,利用他人已經(jīng)公開的作品”,主要關(guān)注的是一種微觀的個體利用活動。該活動包含的學習、享受和探索等行為并未帶有任何商業(yè)目的,只是一種知識的收集和分享。而大數(shù)據(jù)訓練對已發(fā)表作品的使用則完全出于商業(yè)的考慮。以OpenAI為例,其使用包括數(shù)千本未出版圖書在內(nèi)的大型圖書文本數(shù)據(jù)集對GPT進行訓練,甚至從互聯(lián)網(wǎng)上爬取幾百萬個瀏覽點贊量高的文本內(nèi)容。“這一行為并非為了學習、研究和欣賞。但有學者將機器學習視同人類學習,并且主張數(shù)據(jù)訓練是人工智能的一種學習行為。其認為,監(jiān)督學習下的機器學習是在人的智能引導下進行模型的訓練,無監(jiān)督學習下的機器學習則是在去除分類、標簽的要求后,就能夠直接根據(jù)所標注的數(shù)據(jù)進行訓練,進而自主地確定在數(shù)據(jù)集中出現(xiàn)的規(guī)則,與人進行創(chuàng)作無異。1針對此觀點,本文認為,即便數(shù)據(jù)訓練可以擴張解釋為“機器學習”,就根本目的而言,學習行為也僅為輸出內(nèi)容的一個環(huán)節(jié),而輸出是為了商業(yè)盈利。根據(jù)世界銀行《生成式人工智能報告》,生成式人工智能市場預計在2026年增長到65億美元,復合年增長率為 34.9‰ 14這體現(xiàn)了人工智能技術(shù)發(fā)展的市場和經(jīng)濟屬性,而非傳統(tǒng)著作權(quán)所保護的思想表達屬性。數(shù)據(jù)訓練行為與一般著作權(quán)合理使用所保護的使用行為有本質(zhì)的不同。從大數(shù)據(jù)模型的運用來看,機器學習僅為商業(yè)活動的一個手段和工具,并不能實現(xiàn)《著作權(quán)法》“保護原創(chuàng)作品的創(chuàng)作者并鼓勵他們進行創(chuàng)作”的目的。著作權(quán)合理使用的其他款項也包含了相應的非營利屬性,甚至第9款明確寫入了“不以營利為目的”。

并且,著作財產(chǎn)權(quán)本身正在吸收著作權(quán)可分割理論。根據(jù)著作權(quán)的保護需求和交易的需求,以及無形物質(zhì)的非競爭性特征,“權(quán)利束”理論逐步取代了權(quán)能理論,從而創(chuàng)立了一種以許可、授權(quán)和轉(zhuǎn)讓行為為主導的交易方式。5其中,授權(quán)、轉(zhuǎn)讓和許可為著作財產(chǎn)權(quán)的核心權(quán)利。若將數(shù)據(jù)訓練直接納入著作權(quán)合理使用,便會對著作權(quán)人的著作財產(chǎn)權(quán)產(chǎn)生直接的規(guī)避和沖擊,不利于作品流動過程中權(quán)利人利益的保護。更有甚者,會沖擊現(xiàn)有財產(chǎn)法所具有的支配性和排他性。

(二)表達性使用

“表達性使用”和“非表達性使用”是依據(jù)使用目的劃分的。“表達性使用”指的是利用了原作的獨創(chuàng)性表達,吸收了原作的文本內(nèi)容并進行創(chuàng)作。這會導致對原有作品藝術(shù)價值和市場價值的損害,1“抄襲”便是一種非常直觀的表達性使用。而“非表達性使用”則偏向于一種工具性使用。工具性使用只是為了更好地檢索或傳播,不涉及作品的獨創(chuàng)性表達。因此,有學者基于“非表達性使用”主張人工智能數(shù)據(jù)訓練僅為對數(shù)據(jù)的工具性使用行為,并不構(gòu)成侵權(quán)。美國作家協(xié)會訴谷歌圖書館項目案便支持了這一觀點。在這一案件中,谷歌通過掃描這一直接使用的方式,將巨量已經(jīng)存在著作權(quán)的圖書進行錄入,建立起了一個電子化的數(shù)據(jù)圖書館。這一數(shù)據(jù)圖書館對外開放以便游客進行書籍檢索和瀏覽。法院認為,谷歌圖書館的使用目的在于方便讀者檢索,并未對文本的內(nèi)容進行使用,不侵犯文章的文字表達。1由此可見,工具性使用的側(cè)重點在于數(shù)據(jù)的搬運處理與獲取,而不在于數(shù)據(jù)承載的獨創(chuàng)性表達。

但這一案件的審理邏輯并不完全適用于人工智能數(shù)據(jù)使用行為。原因在于,生成式人工智能具備較強的機器學習能力,這一能力使得數(shù)據(jù)處理行為很難局限于數(shù)據(jù)的工具化搬運。人工智能的學習過程也不僅僅是一個方便檢索的橋梁。在《著作權(quán)法》視域下,無論工具是參與創(chuàng)作過程還是輔助最終呈現(xiàn),工具本身不會影響最后的輸出內(nèi)容,也不會改變輸出內(nèi)容的可預測性。‘\"也即,若人工智能增加了輸出內(nèi)容的不可預測性和不可控制性,其就難以被界定為一個簡單的使用工具。深度學習模型的內(nèi)部工作方式往往隱藏在數(shù)以百萬計的參數(shù)和復雜的層次結(jié)構(gòu)之中。即使能夠知道網(wǎng)絡結(jié)構(gòu)形式、權(quán)重關(guān)聯(lián)性、激活函數(shù)等細節(jié),也無法理解網(wǎng)絡對此進行輸出的理由和過程。因此,整個算法模型內(nèi)部呈現(xiàn)難以預測和解釋的特性,被稱為“算法黑箱”。經(jīng)過“算法黑箱”處理之后的文本和數(shù)據(jù),究竟有沒有發(fā)生“表達性處理”不得而知,很難被簡單界定為“工具性使用”。因此,從這一角度而言,數(shù)據(jù)訓練也難以被納入合理使用的范圍。

(三)競爭性使用

著作權(quán)合理使用制度建立的目的在于平衡個人和社會公共的利益。基于洛克的財產(chǎn)權(quán)理論,資源最初均處于人類原始的共有狀態(tài),并不為任何人所私有。人類在這些公共資源上施加了自身的勞動和努力。因此,這部分被人類勞動所附加的資源就具有了個人財產(chǎn)權(quán)利的屬性。2知識產(chǎn)權(quán)的確立也是如此,知識產(chǎn)權(quán)領(lǐng)域也存在著類似的公共領(lǐng)域。個人創(chuàng)造者在創(chuàng)作出新的知識產(chǎn)權(quán)之前,所使用的是來自公共領(lǐng)域的、由人所創(chuàng)造的、不屬于任何私人的巨大資源寶庫。而個人的創(chuàng)作正是建立在這巨大的寶庫之上,通過自身的勞動,從共有財產(chǎn)中撥歸出來的。這一理論說明,盡管知識產(chǎn)權(quán)不可脫離公共屬性,也依然存在與之區(qū)分的私人權(quán)利。這一部分私人權(quán)利,其成立之初便不與公共領(lǐng)域存在直接競爭關(guān)系。若存在競爭關(guān)系,便意味著私人權(quán)利基于勞動產(chǎn)生的專屬性和排他性受到阻礙。美國“三步檢驗法”的第二步和第三步便體現(xiàn)了“非競爭性”的兩個表現(xiàn)。從“使用”和“收益”兩方面排除了私人權(quán)利可能面臨的競爭。

進言之,能夠與創(chuàng)造性勞動競爭的只有創(chuàng)造性勞動。在人工智能的訓練之中,文本的標注和資料的排列組合往往具備一定的創(chuàng)造性。在科睿唯安信息服務(北京)有限公司與上海梅斯醫(yī)藥科技有限公司侵害作品信息網(wǎng)絡傳播權(quán)及不正當競爭糾紛案中2,法院便對數(shù)據(jù)的獨創(chuàng)性選擇和編排進行了著作權(quán)保護。可見,這一創(chuàng)造性勞動無疑會與人類的私人權(quán)利產(chǎn)生競爭關(guān)系,其競爭力會在人工智能的加持下進一步被放大。

有學者指出,海量人工智能生成物無秩序地進入市場,會對人類作品市場產(chǎn)生較大沖擊,進而影響消費者對作品的偏好。更有甚者,可能引發(fā)普通、低水平人類作品的淘汰。\"并且,人類創(chuàng)作速度慢、產(chǎn)量低,受限于技能水平,需要投入更多時間精力與培養(yǎng)成本。23這些特征使其在與人工智能創(chuàng)作作品的競爭之中逐漸處于劣勢。人工智能生成的作品,對人類作品的創(chuàng)作存在極強的競爭力。同樣創(chuàng)作一份作品,人工智能通過算法生成內(nèi)容只需幾秒,人類在創(chuàng)作效率上處于天然劣勢。因此,從競爭性使用的角度,人工智能數(shù)據(jù)訓練不宜被納入合理使用的解釋范圍。

三、制度解釋與技術(shù)手段結(jié)合以擴張“合理使用”范疇

為應對人工智能訓練過程中產(chǎn)生的知識產(chǎn)權(quán)侵權(quán)問題,我國正在進行立法規(guī)定上的嘗試。在AIGC飛速進步的科技環(huán)境中,相關(guān)機構(gòu)于2023年7月10日聯(lián)合發(fā)布了《生成式人工智能服務管理暫行辦法》(以下簡稱《暫行辦法》。這一辦法規(guī)定了人工智能服務提供者的各項權(quán)利與義務。《暫行辦法》明確指出,提供創(chuàng)新人工智能服務的機構(gòu)必須采納合法的數(shù)據(jù)及基本模型,而“服務標準”章節(jié)也要求提供者必須按照法律對網(wǎng)絡信息的創(chuàng)作者負責,并且要履行保障網(wǎng)絡信息安全的職責。24但這一規(guī)定僅是對數(shù)據(jù)問題的初步探索,“合法來源”在實踐中難以界定和考察,網(wǎng)絡信息安全義務也難以落到實處。在此情況下,不可因噎廢食,逆人工智能大潮對數(shù)據(jù)使用附加過多的限制。要堅持促進人工智能發(fā)展的同時進行風險預防,積極探討可使用的科技手段,將制度構(gòu)建與技術(shù)構(gòu)建相結(jié)合。

(一)根據(jù)三大難題推進制度構(gòu)建

1.依“轉(zhuǎn)化性使用”破除“營利性使用”與合理使用的互斥關(guān)聯(lián)

我國合理使用制度體系由《著作權(quán)法》第24條的列舉式立法與《中華人民共和國著作權(quán)法實施條例》第21條的抽象概括共同構(gòu)成,充分體現(xiàn)了《伯爾尼公約》所規(guī)定的“三步檢驗法”的要求。25三步檢驗法之二、三逐漸成為檢驗“是否超過使用目的所證明的合理限度”的重要工具。2三步檢驗法雖然提供了模板式裁判路徑,但使用靈活性欠佳,如上文所分析,數(shù)字訓練過程中的法律問題難以直接嵌套其中進行規(guī)制。此時,考慮將“轉(zhuǎn)化性使用”納入著作權(quán)合理使用中兜底性條款的解釋或許可發(fā)揮作用。

所謂轉(zhuǎn)化性使用,是指并非以單純實現(xiàn)原作品本身的價值或功能為目的去使用,而是意在通過增加原作品的價值、功能或意義的方式來使用原作品的行為。轉(zhuǎn)化性使用的判斷多從兩個方面入手,一是內(nèi)容性使用,二是目的性使用。內(nèi)容性轉(zhuǎn)化側(cè)重于改變原本的表達形式以服務于新的作品創(chuàng)作,目的性使用則是通過轉(zhuǎn)變原作品目的的方式為新作品的創(chuàng)作提供便利。這兩種標準有利于對轉(zhuǎn)化程度的大小進行合理判斷。使用行為對原作品目的上和內(nèi)容上的轉(zhuǎn)化程度越高,越容易被判定為合理使用。即,側(cè)重于從內(nèi)容和目的上對是否構(gòu)成合理使用進行權(quán)衡,避開傳統(tǒng)的“營利性使用”的缺陷。商業(yè)性使用與合理使用之間存在的互斥性關(guān)聯(lián)得以破除,前者不再當然地被認定為會對原作品市場造成損害,這對于數(shù)字時代下的作品創(chuàng)作和傳播而言,顯然具有很強的經(jīng)濟激勵作用;2也有利于避免將大數(shù)據(jù)平臺的營利行為直接認定為對原作品的侵害,為數(shù)據(jù)訓練提供了一定空間。

總而言之,為化解著作權(quán)合理使用制度中“不以營利為目的”與模型訓練本身具備的營利屬性之間的矛盾,可將“營利”解釋為“直接”營利與“確定性”營利。此時,人工智能數(shù)據(jù)訓練行為雖然依舊是“營利”的環(huán)節(jié)之一,但不至于被直接定性為“以營利為目的”。進而,考察數(shù)據(jù)訓練結(jié)果是否構(gòu)成“轉(zhuǎn)化性使用”,若構(gòu)成,則可以納入合理使用的范疇。美國作家協(xié)會訴谷歌案便是如此。言至此處,需要進一步論證,人工智能訓練過程是否構(gòu)成“轉(zhuǎn)化性使用”。美國聯(lián)邦巡回上訴法院認定,雖然谷歌公司將作品進行掃描并存儲在數(shù)據(jù)庫中,具有商業(yè)性質(zhì),但谷歌并沒有把受著作權(quán)保護的作品直接呈現(xiàn)給他人,而是僅提供片段瀏覽的功能,具有高度轉(zhuǎn)換性,屬于合理使用行為。此時,谷歌進行的操作偏向于技術(shù)方面的裁剪、重排和檢索工作,并未涉及文學藝術(shù)層面的創(chuàng)作。可見,生成作品與原作品之間是否呈現(xiàn)相同的功能是判斷轉(zhuǎn)化性使用的重要因素。原作品的功能為供讀者直接閱讀,而谷歌提供的片段所起的主要功能是供讀者快速檢索查閱。這一新增功能不能替代原作所擁有的閱讀功能。此時,谷歌公司對原作品的掃描錄入僅可評價為挖掘新增功能的必要手段。同理,在判斷人工智能數(shù)據(jù)訓練是否構(gòu)成轉(zhuǎn)化性使用時,不可將訓練行為本身視作目的,而應從后端生成內(nèi)容出發(fā),反觀前端的訓練過程。通過前端數(shù)據(jù)輸入與后端數(shù)據(jù)輸出相對比,判斷訓練過程是否在內(nèi)容上及功能上對數(shù)據(jù)進行轉(zhuǎn)化。

2.依輸出內(nèi)容的呈現(xiàn)形式判斷是否構(gòu)成“表達性使用”

有學者認為,機器本身沒有對作品的理解能力,其只有對數(shù)據(jù)的解析和處理能力,這使得機器對數(shù)據(jù)的利用似乎會完全落入“非表達性使用”的范疇。2但數(shù)據(jù)訓練當中的非表達性使用難以解決內(nèi)容生成階段的問題。數(shù)據(jù)訓練行為本身是為內(nèi)容生成行為服務的,是否構(gòu)成表達性使用也是需要通過最終生成的文本來呈現(xiàn)和檢驗的。即便在數(shù)據(jù)訓練階段,機器不會對所使用數(shù)據(jù)產(chǎn)生任何的理解,但數(shù)據(jù)解析行為仍然構(gòu)成“使用”,使用結(jié)果是否具有表達性也要根據(jù)具體生成內(nèi)容來判斷。因此,表達性使用和非表達性使用的區(qū)分仍然是無法回避的。并且,數(shù)據(jù)訓練是以具有“無形性”的數(shù)據(jù)為媒介進行的,數(shù)據(jù)的無形性易與作品表達的無形性產(chǎn)生混同,從而使得表達性使用和非表達性使用更加難以界分。

針對此問題,有學者嘗試通過將前端訓練內(nèi)容進行分類以區(qū)分表達性使用與非表達性使用。其將機器學習劃分為非表達性使用、大眾表達性使用與個人表達性使用,并且認為對大眾表達性語料的使用足以構(gòu)成合理使用。3本文認為這一觀點具有一定合理性。若AIGC大模型的訓練并非刻意模仿單個或某些作者的寫作習慣,而是通過輸入多種不同類型的作品數(shù)據(jù),分析人類語言的基本構(gòu)成和要素,最終生成具有多樣化表達形式的作品。這種生成過程更多地是依賴于算法模型的推理與學習,而非簡單地模仿和復制特定作品的表達形式。31此時,其本質(zhì)上是依據(jù)關(guān)鍵詞對詞匯的出現(xiàn)頻率及關(guān)聯(lián)關(guān)系進行統(tǒng)計。大眾表達內(nèi)容往往處于公共領(lǐng)域,不會產(chǎn)生過多的著作權(quán)糾紛。從最終呈現(xiàn)的內(nèi)容來看,吸取大眾表達內(nèi)容往往會產(chǎn)生類似大眾表達的文字,沒有過多的個人風格,從而也難以引發(fā)相關(guān)著作權(quán)人的維權(quán)行為。但從訓練內(nèi)容層面進行區(qū)分可能難以實操。原因在于,市場上大部分數(shù)據(jù)是大眾表達和個人表達的混合產(chǎn)物。機器會無差別計算詞匯之間的出現(xiàn)頻次,個人特色化表達影響的只是關(guān)聯(lián)詞匯出現(xiàn)的權(quán)重。大眾表達與個人表達難以完全地區(qū)別開來。此時,很少存在單純模仿某一作者風格的機器訓練。

因此,本文嘗試從后端入手,將輸出的內(nèi)容進行分類,以進行是否構(gòu)成表達性使用的判斷。若生成內(nèi)容不包含相關(guān)作品的明顯要素,就難以被讀者和作者辨識,更難以對作者的創(chuàng)作產(chǎn)生沖擊。此時,這部分生成內(nèi)容便類似于上文所提到的大眾表達,可直接歸于合理使用的范疇。反之,若生成內(nèi)容包含了相關(guān)作品的人物、特殊環(huán)境等要素,則足以被使用者和作者識別出來。一般而言,生成式人工智能會通過以下幾種形式輸出作品:1、直接輸出摘要;2、總結(jié)輸出大綱;3、使用原有角色、設定和要素生成衍生作品;4、將相關(guān)內(nèi)容作為其他問題的回答。這些輸出形式在美國作家協(xié)會起訴OpenAI版權(quán)侵權(quán)案中也有所體現(xiàn)。作者依據(jù)人工智能直接輸出的完整摘要、故事大綱及相關(guān)衍生作品,來證明作品未經(jīng)授權(quán)被用于人工智能的訓練過程。這四種形式包含了作品的相關(guān)要素,可以展現(xiàn)出生成內(nèi)容和訓練過程之間的關(guān)聯(lián)性。

本文認為,包含了作品要素的輸出形式是否構(gòu)成表達性使用需要謹慎考慮。其中,第1類和第2類可解釋為非表達性使用。就摘要輸出而言,人工智能所起功能多為“識別 + 搬運”,其并不涉及對某種思想的表達。就生成的故事大綱而言,其為作品固定的不可更改的部分。即便大綱的文字表述有所不同,其依舊是對文章內(nèi)容的總結(jié)。人工智能對故事情節(jié)的抓取,本質(zhì)依舊是基于作品內(nèi)容的搬運行為,并不產(chǎn)生新的表達。以上兩類均難謂表達性使用。但第3類與第4類輸出形式可能會涉及新的思想與表達,易被認定為表達性使用。使用原有角色、設定和要素生成衍生作品對作者產(chǎn)生的影響可能是最為明顯的。衍生作品,即在已有的作品基礎(chǔ)上再創(chuàng)作而形成的作品。其以原有作品為基礎(chǔ),在保留人物形象特征的前提下,對故事進行續(xù)寫或改編。原有作品已經(jīng)賦予了角色和其他要素極為豐富的內(nèi)涵,運用這些要素進行內(nèi)容生成,是在原有思想基礎(chǔ)上施加新的表達。即便此時,人工智能依舊無法理解生成內(nèi)容的思想意涵,但其依舊完成了再“創(chuàng)作”的過程,構(gòu)成了表達性使用。有學者主張,在市場上提供新的內(nèi)容在著作權(quán)法中是值得鼓勵的。這一觀點本身沒有問題,但人工智能在特定作品基礎(chǔ)之上進行內(nèi)容生成,會對相關(guān)作者造成明顯不合理的針對性的競爭和排擠。3因此,不可輕易將此種續(xù)寫解釋為非表達性使用。第4類輸出形式指的是在問答的場景中,作品內(nèi)容作為答案的組成部分出現(xiàn)。此時,是否構(gòu)成表達性使用需要依據(jù)回答的具體內(nèi)容而定。若為簡單問答式,如水滸傳中一百單八將都有誰?則其生成的內(nèi)容依舊屬于為滿足檢索需求的工具性使用。若回答中涉及針對作品的再創(chuàng)作,則需定性為表達性使用。

綜上所述,基于人工智能技術(shù)所進行的對文本的提取、編排等,一般不認為構(gòu)成表達性使用。但人工智能利用作品原有要素續(xù)造的行為,應被認定為表達性使用,從而排除在著作權(quán)合理使用制度之外,以求區(qū)別作品表達與人工智能表達,緩解人工智能對作者群體的沖擊。

3.企業(yè)數(shù)據(jù)合規(guī)義務前置以緩解“競爭性使用”沖突

經(jīng)梳理,關(guān)于如何將人工智能數(shù)據(jù)挖掘與機器學習中對作品的使用納入現(xiàn)行著作權(quán)法之中,主要存在兩種觀點:一為引入法定許可,二為優(yōu)化合理使用。34法定許可方式免去了人工智能訓練使用數(shù)據(jù)之前獲取著作權(quán)人授權(quán)的環(huán)節(jié),但訓練者依舊需要向相關(guān)著作權(quán)人支付報酬。比較而言,合理使用規(guī)則不需要支付數(shù)據(jù)使用的報酬,極大地擴張了數(shù)據(jù)產(chǎn)業(yè)的發(fā)展空間。

就目前來說,兩種解決措施各有缺陷。由于數(shù)據(jù)量過于龐大,法定許可的事后報酬往往難以落于實處。著作權(quán)人難以掌握數(shù)據(jù)被使用的證據(jù),數(shù)據(jù)訓練這一必要手段也為數(shù)據(jù)訓練人帶來了難以負擔的巨量對價,這可謂“雙輸”之困境。而合理使用規(guī)則作為一種補救性和防御性的策略,其效果是全有或全無的。若合理使用抗辯成功,則使用過程歸于合法。反之,則需承擔侵權(quán)責任。35這無疑會加劇雙方的不可調(diào)和,也難以起到事前的規(guī)制作用。因此,為緩和囚徒困境,本文建議將企業(yè)數(shù)據(jù)合規(guī)舉措作為合理使用的前置條件。為減輕高額的著作權(quán)使用成本,企業(yè)需負擔相應的義務。只有證明自身盡到了數(shù)據(jù)合規(guī)處理的義務,才可進入合理使用的“避風港”之內(nèi)。

針對企業(yè)如何進行合規(guī)處理,學界已經(jīng)進行了一定探索。企業(yè)可以對數(shù)據(jù)進行分級分類的管理,不一刀切地將所有數(shù)據(jù)均納入合理使用的原則之中。應依據(jù)數(shù)據(jù)的獲取方式,對直接獲取的數(shù)據(jù)進行安全風險和敏感級別的分類,對間接獲取的數(shù)據(jù)進行必要的來源和授權(quán)確認。根據(jù)數(shù)據(jù)的敏感程度和易受損程度,對明顯具備著作權(quán)的數(shù)據(jù)進行授權(quán)確認。這也與我國目前對數(shù)據(jù)資源的利用規(guī)制相適應。“數(shù)據(jù)二十條”在2022年12月發(fā)布,其目的是根據(jù)數(shù)據(jù)要素從無到有的生命周期和其價值生產(chǎn)過程,確保各參與方的投入產(chǎn)出收益得到保護。在企業(yè)數(shù)據(jù)資源化的第一階段,企業(yè)需進行數(shù)據(jù)的采集、整理、標注、存儲等環(huán)節(jié),切實提高數(shù)據(jù)的質(zhì)量、完整性、可用性和安全性。7這一階段企業(yè)對數(shù)據(jù)質(zhì)量和安全性的合規(guī)保障,便是后續(xù)數(shù)據(jù)權(quán)益享有的直接依據(jù)。《中華人民共和國數(shù)據(jù)安全法》同樣設計了一套數(shù)據(jù)的分層防護機制,并強調(diào)每個地方和每個機構(gòu)都需根據(jù)這套機制來明確自己所在的區(qū)域、機構(gòu)和相應的產(chǎn)業(yè)、領(lǐng)域的主要數(shù)據(jù)的詳細列表。8可見,數(shù)據(jù)的分級分類處理是數(shù)據(jù)合規(guī)的核心措施之一。

此外,企業(yè)還可以采取加大合規(guī)投入、建設相關(guān)部門、提高數(shù)據(jù)合規(guī)人員素養(yǎng)等方式,提高數(shù)據(jù)的規(guī)范化。客觀來說,這些前置合規(guī)手段是著作權(quán)合理使用認定的前提,是企業(yè)利用數(shù)據(jù)沖擊人類創(chuàng)作作品的緩沖,是平衡雙方利益的必然要求。歐盟頒布的《人工智能法》第28條也體現(xiàn)了前置規(guī)制的思想。3這有利于保證當企業(yè)與社會既存知識產(chǎn)權(quán)產(chǎn)生沖突時,不至于過分偏重一方,同時避免了采取法定許可帶來的企業(yè)巨額成本。

(二)推進配套技術(shù)措施

1.使用聯(lián)邦學習技術(shù)促進數(shù)據(jù)轉(zhuǎn)化性使用

聯(lián)邦學習技術(shù)指的是在不共享本地數(shù)據(jù)的前提下,實現(xiàn)機器學習模型的多方協(xié)同訓練技術(shù)。4°在這一機器訓練過程中,無需進行私人或企業(yè)數(shù)據(jù)交換便可達到訓練目的。大型企業(yè)可利用這一分布式機器學習范式,與數(shù)據(jù)訓練中的合作伙伴建立相應規(guī)模的終端設備。各參與方簽訂相關(guān)維護數(shù)據(jù)安全的算法協(xié)議,在溝通狀態(tài)中聯(lián)合訓練人工智能模型。在訓練過程中,各方數(shù)據(jù)不出本地,僅就中間數(shù)據(jù)進行交互和流通。4而中間數(shù)據(jù)往往經(jīng)過二次處理,區(qū)別于承載著作權(quán)的原始數(shù)據(jù),較難造成知識產(chǎn)權(quán)侵權(quán)。同時,可避免原始數(shù)據(jù)被多次不當使用進而造成多次侵權(quán)。并且,該技術(shù)變相實現(xiàn)了“數(shù)據(jù)”與“信息”的分離。企業(yè)無需獲得數(shù)據(jù)便已經(jīng)可以在合作企業(yè)的基礎(chǔ)之上進一步搭建模型。這一技術(shù)有利于降低數(shù)據(jù)的利用頻次,提高數(shù)據(jù)的利用效率。從內(nèi)容上看,這一銜接技術(shù)更多涉及二次處理數(shù)據(jù)的使用,并非針對原作品內(nèi)容的直接使用。從目的上看,其使用已經(jīng)被處理后的過程性數(shù)據(jù),主要目的是人工智能模型的訓練而非特色文本的生成。因此,這一技術(shù)或許可以促進數(shù)據(jù)的轉(zhuǎn)化性使用。

2.使用算法解釋技術(shù)備案輔助表達性使用界定

有學者提出,算法解釋一般而言包括四方面,分別是“數(shù)據(jù)集”“輸入和輸出的標簽特征”“模型所用的算法”和“個案預測的結(jié)果”。42其中,“數(shù)據(jù)集”和“輸入和輸出的標簽特征”是可能出現(xiàn)在數(shù)據(jù)獲取和使用的訓練環(huán)節(jié)的。在“數(shù)據(jù)集”的備案層面,開發(fā)者需要對數(shù)據(jù)的來源進行解釋。其次,若部分數(shù)據(jù)是基于人工智能自動獲取而無法獲得準確來源,企業(yè)需解釋其數(shù)據(jù)集劃分和編排的理由。并且,還需解釋數(shù)據(jù)的選擇過程以及預處理過程,這一過程有利于判斷,相比原始數(shù)據(jù),預處理后的數(shù)據(jù)是否因數(shù)據(jù)處理獲得了獨創(chuàng)性。在“輸入和輸出的標簽特征”這一備案內(nèi)容中,開發(fā)者需要將圖片、音樂和文字作品分類備案,并對其使用屬于直接輸入還是轉(zhuǎn)換為數(shù)字輸入進行備注。若直接輸入,侵權(quán)可能性較大。若將原有表現(xiàn)形式轉(zhuǎn)化為數(shù)據(jù)輸入,應當考察數(shù)據(jù)與原表現(xiàn)形式是否屬于一一對應的關(guān)系。必要的一一對應可直接類似于對原表現(xiàn)形式的使用。差異化的數(shù)字轉(zhuǎn)換則可能具備一定的獨創(chuàng)性。

想達到算法技術(shù)的可解釋性,只靠靜態(tài)的信息備案較為困難。對數(shù)據(jù)訓練過程中具備可解釋性的人工標注行為及其遵循的內(nèi)部規(guī)范也需進行備案。通過分析人工標注規(guī)則的合理性及其動態(tài)過程,可對生成式人工智能的運行機制作出解釋。在此之外,隨著人工智能的迭代升級,也可經(jīng)由升級后的人工智能對升級前的人工智能進行解釋和復現(xiàn),并對升級前的人工智能數(shù)據(jù)訓練補全備案。OpenAI就曾利用GPT4的技術(shù)架構(gòu)來解釋GPT2,被解構(gòu)的神經(jīng)元多達307200個。43這也意味著人工智能解釋和備案具備一定可行性。而這一備案可以為輸入內(nèi)容與輸出內(nèi)容的比較提供很好的抓手,通過考察輸出內(nèi)容的類型與要素,判斷人工智能訓練過程是否實現(xiàn)了對原數(shù)據(jù)的非表達性使用。正如學者所言,數(shù)據(jù)披露在生成式人工智能健康發(fā)展的進程中發(fā)揮著尤為關(guān)鍵的作用。44數(shù)字備案技術(shù)為算法披露的前置步驟,完善算法解釋備案技術(shù),可為后續(xù)數(shù)據(jù)的披露打下基礎(chǔ)

3.企業(yè)可探索數(shù)字版權(quán)管理技術(shù)進行合規(guī)建設

數(shù)字版權(quán)管理(DRM)是指出版者對數(shù)字內(nèi)容,例如軟件、音樂等,在其使用過程中進行權(quán)利控制與管理的技術(shù)。4DRM可分為基于密碼技術(shù)的DRM系統(tǒng)和基于數(shù)字水印的DRM系統(tǒng)以及兩者相結(jié)合的系統(tǒng)。4二者分別基于預先設置的密碼和難以被識別的數(shù)字水印達到數(shù)字文件不被獲取的目的。若想使用數(shù)據(jù)內(nèi)容,使用者不僅需要獲取數(shù)據(jù)本身,還需獲取數(shù)字許可證。數(shù)字許可證是一個包含數(shù)字內(nèi)容使用權(quán)利(包括使用權(quán)限、使用次數(shù)、使用期限和使用條件等)、許可證頒發(fā)者及其擁有者信息的計算機文件集合。47人工智能企業(yè)可善用DRM技術(shù),將其與數(shù)據(jù)的分級分類相結(jié)合。根據(jù)企業(yè)需求,將高級別的數(shù)據(jù)進行處理和加密,最終將數(shù)據(jù)檔案集合轉(zhuǎn)發(fā)給使用者。這有利于在數(shù)據(jù)的間接獲取和使用中,限制使用主體和使用次數(shù),以預防數(shù)據(jù)間接泄露。這一技術(shù)手段的運用,可作為企業(yè)合規(guī)管理的一部分展開。將高級數(shù)據(jù)或涉具體知識產(chǎn)權(quán)的數(shù)據(jù)進行分類并限制使用,可預防數(shù)據(jù)的泄露,從而防止企業(yè)陷入侵權(quán)風險。

四、結(jié)語

AI產(chǎn)業(yè)發(fā)展中對巨量數(shù)據(jù)的使用需求和創(chuàng)作者文章公開發(fā)表的屬性存在本質(zhì)沖突。技術(shù)創(chuàng)新使得原有的版權(quán)傳播方式轉(zhuǎn)變,紙質(zhì)載體逐漸被電子數(shù)據(jù)載體所“備份”。在不受限制的數(shù)據(jù)抓取中,大量作品經(jīng)受一次侵害甚至傳播過程中的二次侵害。AI的數(shù)據(jù)使用基于其特點,也難以被現(xiàn)有的著作權(quán)合理使用規(guī)則所解釋。一旦將數(shù)據(jù)使用完全解釋為著作權(quán)合理使用,便會導致對著作權(quán)人利益保護的失衡。此時,可將“著作權(quán)合理使用”制度進行細化解釋。對營利性使用、表達性使用和競爭性使用三方面進行拓展,將人工智能數(shù)據(jù)使用的部分情況納入著作權(quán)合理使用制度之中。同時,為應對技術(shù)傳播環(huán)節(jié)的風險擴大,可探索采取必要的技術(shù)手段,落實技術(shù)措施,為數(shù)據(jù)侵權(quán)困境的紓解提供輔助支持。

Abstract:AI modelsare trained with huge amountsofdata feedingasanantecedentstep.Theunauthorized inclusion of datainthe training processcanasilyresult inthe infringementof existing intelletualpropertyrights.The inherent \"forprofit\"\"expressve\"and\"competitive\"natureofbigdatatrainingpresentsinterpretiveobstacles totheaplicationofthe fair use doctrine.Ata time when artificial intelligenceisrapidly evolving,the principleoffairuse is notadaptable and needs to be adjustedurgently.Terefore,atteistitutioallevel,tefairusestemcanbefrterinterpretedaccordingtoteieptation theory.Understand \"profit\"as\"direct profit\"and introduce \"transformativeuse\",and judge whether itconstitutes fairuse fromthelevelsofcontent and purposeofuse.Classifyingoutputcontent intodiferentcategories andcomparing it with input content todeterminewhetheritconstitutes \"expressiveuse\".Asellas,toallviatetheconflictof \"competitiveuse\"byfrontloadingcorporatedatacomplianceoblgations.Attetechologicallevel,ederalleaingtchniques,lgorithiciterpetation techniquesanddigitalrights management techniques areexplored tocomplementthe institutionallevelof interpretation.

Keywords: Data Infringement; Fair Use of Copyright; Data-Training; Digital Technology

主站蜘蛛池模板: 亚洲天堂网在线视频| 九九热在线视频| 国产在线麻豆波多野结衣| 亚洲黄色高清| 久久亚洲综合伊人| 国产91久久久久久| 国产精品女熟高潮视频| 欧美在线综合视频| 一本一道波多野结衣一区二区| 一本久道久综合久久鬼色| 欧美三级自拍| 免费一级毛片在线播放傲雪网| 色综合久久无码网| 天天色天天综合| 8090成人午夜精品| 呦系列视频一区二区三区| 热久久这里是精品6免费观看| 国产一区二区三区在线观看视频| 国产裸舞福利在线视频合集| 久久99国产乱子伦精品免| 亚洲日韩精品综合在线一区二区| 无码精品福利一区二区三区| 成人免费视频一区二区三区| 天天综合色网| 久久免费精品琪琪| 亚洲国产AV无码综合原创| 色天堂无毒不卡| 国产国产人成免费视频77777 | 国内精品久久久久鸭| 国产精品久久久久久久久久98| 国产农村妇女精品一二区| 一级成人a毛片免费播放| 精品成人一区二区三区电影 | 一级毛片在线播放| 亚洲啪啪网| 黄色成年视频| 国产高清免费午夜在线视频| 国产成人91精品| 国产呦精品一区二区三区下载 | 亚洲视频一区| 亚洲天堂久久新| 一本大道东京热无码av| 国产国产人免费视频成18| 国产精品自在在线午夜| 国产av剧情无码精品色午夜| 99精品这里只有精品高清视频| 亚洲精品高清视频| 美女内射视频WWW网站午夜| 天堂岛国av无码免费无禁网站| 99草精品视频| 欧美黄网在线| 97在线国产视频| 亚洲欧美一区二区三区麻豆| 久久精品国产亚洲麻豆| 国产亚洲高清在线精品99| 国产精品亚洲精品爽爽| 久久青青草原亚洲av无码| 欧美中文字幕无线码视频| 亚洲欧美在线综合图区| 97久久免费视频| 国产精品观看视频免费完整版| 男女性色大片免费网站| 女人天堂av免费| 五月婷婷精品| 高清乱码精品福利在线视频| 成人免费网站久久久| 99久久精品免费视频| 日本亚洲最大的色成网站www| 日韩毛片在线播放| 华人在线亚洲欧美精品| 婷婷中文在线| 性激烈欧美三级在线播放| 久久综合色天堂av| 美女亚洲一区| 亚洲免费成人网| 在线免费亚洲无码视频| 午夜精品福利影院| 五月丁香伊人啪啪手机免费观看| 综合成人国产| 亚洲中文字幕国产av| 日韩欧美在线观看| 久久精品视频亚洲|