999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

類型化視角下人工智能數據訓練著作權規則研究

2024-12-31 00:00:00王靜
電子知識產權 2024年7期

摘要:人工智能數據訓練加速技術迭代,驅動產業升級。然而,可版權性作品的獲取與利用使其難免著作權侵權爭議。數據訓練特性、產業發展需求以及域外規制動向充分說明,人工智能數據訓練合理使用化是大勢所趨。決策式人工智能與生成式人工智能在運行原理與輸出形式上存在顯著區別,著作權法應當實施類型化規制。前者利用數據的功能性價值,構成“轉換性使用”,后者利用數據的表達性價值,應當將其納入可“選擇退出”的合理使用情形。在制度配套設計上,需明確人工智能開發者的數據訓練披露義務以保證著作權人“退出”可能性,同時針對強化學習中使用者的數據訓練行為,構建人工智能開發者侵權提示責任減輕機制,實現使用者與開發者的責任分擔。

關鍵詞:數據訓練;決策式人工智能;生成式人工智能;合理使用;選擇退出

一、引言

自20世紀50年代“人工智能”(Artificial Intelligence, AI)這一術語被正式提出,人工智能發展經歷起伏,但“如何使計算機模擬人類智能”的技術構想從未停止。目前計算機科學領域內主流的機器學習技術為數據訓練,即人工智能開發者向人工智能“投喂”數據,使其在海量數據中獲取經驗、總結出一般性規律,進而將規律推演至其他數據上進行預測。然而,這種數據驅動的經驗學習方式也頗具爭議——人工智能開發者時常因未經許可的數據利用行為被提起侵權訴訟,其中包括著作權侵權糾紛。截至2024年2月,美國已發生十余起作家、畫家或新聞媒體指控人工智能開發者數據訓練侵犯其著作權的訴訟。 3月20日,法國競爭管理局(Autorité de la concurrence)宣布,谷歌未經同意使用出版商和新聞機構的內容訓練大語言模型Bard,對其做出罰款2.5億歐元的決定。在國內,筆神作文指控“學而思”非法獲取數據用于模型訓練的事件也受到廣泛關注。

決策式人工智能與生成式人工智能是當前人工智能的重要分支,兩者數據訓練方式相似,但運行原理與輸出形式存在顯著區別。決策式人工智能根據已有數據進行分析、判斷、預測,以貓狗識別模型為例,人工智能開發者向模型輸入數據,使模型在海量數據中學習“何者為貓”或“何者為狗”,當使用者利用該模型進行圖像識別,模型輸出結果為判別結論,即直接通過文字形式表明“該圖像是貓”或“該圖像非貓”。生成式人工智能根據已有數據進行演繹創新,ChatGPT、Stable Diffusion、Sora等生成式工具可根據使用者輸入的提示詞生成相應的文本、圖像、視頻。若前期人工智能開發者采用大量梵高的畫作進行模型訓練,人工智能使用者輸入文本提示詞后,可輕松“創作”梵高風格的作品。然而遺憾的是,學界未能立足于決策式人工智能與生成式人工智能的輸出形態差異,對數據訓練行為的合法性進行類型化判斷,更未能對不同數據訓練方式中的訓練主體進行辨析。本文在解析人工智能數據訓練技術原理的基礎上,明確決策式人工智能與生成式人工智能的數據訓練特征差異,提出類型化規制策略,同時針對使用者數據訓練等特殊情境,提出人工智能數據訓練的配套制度設計,希冀為化解數據訓練侵權困境提供全面、科學的著作權之道。

二、人工智能數據訓練的技術原理

人工智能數據訓練方式可以劃分為四種類型:監督學習(Supervised Learning)、無監督學習(Unsupervised Learning)、半監督學習(Semi-Supervised Learning)與強化學習(Reinforcement Learning)。前三種數據訓練方式的完整過程包括數據采集與獲取、數據預處理、數據標注、數據輸入、模型訓練與輸出。在強化學習中,環境反饋(使用者輸入的提示詞)是主要的訓練數據來源,人工智能開發者無需主動采集數據。下文對人工智能數據訓練的技術原理進行展開,解析其中的數據利用行為,以作為著作權法問題分析的前提與基礎。

第一,數據采集與獲取。人工智能訓練數據來源通常有兩種,一為現有的公開數據集,二為自建數據集。公開數據集是相關研究人員在網絡上發布的自行創建的數據集,其他研究者可在遵循許可協議的前提下通過各類數據集庫獲取并加以利用。例如,著名學者李飛飛等人曾發布圖像數據庫ImageNet,其中圖片數量多達1400萬張,類別多至2萬余個,目前ImageNet已成為計算機視覺領域最常使用的數據集之一。公開數據集由公眾自由獲取使用,降低了人工智能開發者的數據訓練成本。若自建數據集,人工智能開發者主要通過兩種途徑獲取數據:一則在網絡平臺上采集現有數據,二則以作者身份創建或委托他人創建數據。通過多元途徑構建自建數據集,是在難以獲取公開數據集的前提下進行人工智能訓練的重要手段之一。

第二,數據預處理。數據采集后,人工智能開發者對數據進行預處理,進而集成為訓練數據集進行人工智能訓練。以圖像為例,為滿足人工智能訓練要求,開發者在清洗非需求數據后,可對圖像進行去噪、增加對比度等操作,進而恢復圖像信息、提高圖像質量,抑或進行圖像增廣,增加圖像數據量。經過預處理后的數據構成訓練數據集,更易為人工智能模型識別和解析。

第三,數據標注。在數據預處理后,根據是否進行監督學習確定是否標注數據。對于無監督學習,數據無需標注,可直接輸入初始模型進行訓練。對于監督學習,數據則需要進行標注。人工智能模型學習識別標注數據中重復出現的模式,進而在未知數據中進行預測。例如在訓練貓狗識別模型的過程中,人工智能開發者通常會采集大量貓、狗的圖像,通過數據標注工具框出貓、狗等主體并賦予“貓”或“狗”的標簽。當附有正確答案的標注數據輸入初始模型,模型將不斷學習標注數據的提示以實現自身優化。

第四,數據輸入。人工智能開發者在確立初始模型后,通過訓練數據的輸入調整模型參數,以實現理想的模型狀態。無論是標注或未標注的數據,均需存儲在服務器上以供模型讀取。

第五,模型訓練與輸出。模型訓練是循環調用輸入數據的過程,目標在于得到損失函數最小值時的模型參數。在模型訓練過程中,決策式人工智能與生成式人工智能會產生不同的輸出結果。前者輸出結果為圖像判別結論,后者則可能表現為具有獨創性的內容。在這一環節中,如果模型輸出內容與現有作品相同或“實質性相似”,極有可能引發著作權人關于數據訓練侵犯其作品復制權的指控。

與人工智能開發者提前準備數據集的訓練方式不同,強化學習中的訓練數據來自環境反饋,在生成式人工智能中即表現為使用者輸入的文本提示詞。從這個角度來說,強化學習本質上是使用者進行人工智能訓練的方式。以ChatGPT訓練過程為例,使用者通過與ChatGPT對話,自主提供信息,ChatGPT基于使用者的輸入生成文本內容。在結果層面,ChatGPT可能輸出與現有作品相同或相似的內容,極端情況下,這種侵權的結果輸出形式是由使用者誘導導致,此時回溯人工智能開發者在數據訓練中的侵權責任則不得不考慮使用者的作為。

三、人工智能數據訓練的著作權法規制之爭

(一)人工智能數據訓練侵權的特殊性

人工智能數據訓練如何處理,是人工智能技術向著作權法提出的新命題與新挑戰。相較傳統的著作權侵權行為,人工智能數據訓練侵權具有明顯的特殊性,主要表現在以下三個方面。

第一,人工智能數據訓練的“受害者”眾多。大規模數據利用是人工智能產業發展的必然需求,人工智能開發者使用的訓練數據量越大,模型與系統的精度越高。2020年OpenAI公司公布的ChatGPT-3的模型參數已高達1750億。在人工智能開發過程中,若開發者欲合法使用數據,必須甄別數據是否屬于作品,進而與著作權人一一談判,達成許可交易。這意味著在人工智能技術研發階段,開發者就需付出高昂的時間成本與交易成本。更何況,人工智能數據訓練的后期成果尚是未知數。面臨高昂成本,人工智能開發者更傾向于冒險使用數據。

第二,人工智能數據訓練的“受害者”救濟困難。人工智能輸入數據與輸出結果之間存在公眾無法洞悉的“黑箱”,開發者對數據的利用被隱匿在黑箱之內。若人工智能輸出結果未呈現與現有作品相同或相似的效果,絕大多數著作權人無法獲知自己的作品被用于人工智能訓練。決策式人工智能的輸出結果通常為判別結論,在此背景下著作權人甄別人工智能訓練數據更是困難重重。著作權人與人工智能開發者關于作品的控制力失衡,著作權人權利救濟道阻且長。

第三,人工智能數據訓練的侵權主體難以確定。數據訓練過程需要人工智能投資者、開發者(數據采集者、數據預處理者等)、使用者,甚至模型本身的共同參與。在監督學習等需要提前準備數據集的訓練方式中,若數據采集者、數據預處理者以及數據輸入者等多個主體身份分離,各自的侵權責任承擔份額難以確定。在強化學習中,數據來源于人工智能使用者的輸入,使用者可能未經許可向模型提供他人受著作權法保護的作品,此時侵權主體是輸入數據的使用者還是開發者則更加難以言明。當前,關于人工智能生成物可版權性的討論熱烈,淡化甚至取消“人類創作”作為作品受著作權法保護要件的觀點甚囂塵上。當承認機器具有自主創作能力,希冀著作權法保護生成物時,機器也或將被認定為數據訓練的侵權主體。

(二)人工智能數據訓練著作權法規制路徑爭議

關于人工智能數據訓練如何規制,學界眾說紛紜。普遍觀點認為人工智能數據訓練應當歸屬于著作權的權利限制范疇。也有觀點認為,人工智能數據訓練不應當被認定為著作權侵權行為。對此,本文將學者們提出的觀點總結如下。

第一,在事實層面主張人工智能數據訓練構成合理使用或在制度層面認為應當實現人工智能數據訓練合理使用化。具言之,部分學者認為人工智能數據訓練可以實現知識增值,但與作品的原創價值之間高度獨立與分離,不會對作品的原初價值的市場交易產生法律上的侵害,可以認定為轉換性使用。有學者認為機器“完全不會像人類讀者一樣去欣賞、體驗作品,或像人類作者一樣去再創作”,因此機器讀者的使用行為屬于合理使用。另一部分學者雖然肯定人工智能數據訓練存在著作權侵權風險,但在功利主義視野下,人工智能技術發展優先,有必要將人工智能數據訓練明確歸入合理使用的范疇。亦有學者提出傳統著作權法“作者中心主義”已無法適應人工智能技術的發展需求,故提議擴張合理使用并進行制度重塑。關于如何以合理使用制度包容人工智能數據訓練,現有研究方案既包括在理論層面引入“技術性合理使用”概念,也包括在法律適用中采用整體結果考察法進行合理使用判定,亦有學者提議根據三步檢測法設計專門針對人工智能領域的著作權例外。

第二,有學者主張以法定許可制度規制人工智能數據訓練。“合理使用制度并不能完全適應技術發展與作品保護的需求,甚至會阻礙社會文化發展,而法定許可制度能較好平衡作品保護與技術發展訴求,平衡各方利益,長遠看不失為一種可取的理想方案和制度安排。”此外,亦有學者主張以著作權集體管理組織輔之以法定許可。

第三,激進的觀點認為人工智能數據訓練為“非作品性使用”,如同商標法無法規制“非商標性使用”行為,“非作品性使用”行為不構成著作權侵權。Alain Strowel教授堅持“作品性使用”作為著作權侵權分析的前提是必要的,而文本與數據挖掘(Text and Data Mining,TDM)等行為僅將作品作為導出相關信息的工具或數據,未利用作品的表達特征,屬于“非作品性使用”,應當允許實施該行為。在部分論著中,“非作品性使用”是“著作權限縮”的情形之一,“著作專有權不是旨在控制所有類型的著作使用,而僅僅規制以公眾化傳播著作表達性內容為目的之著作使用行為”,人工智能在輸入階段的數據處理行為類似于人類閱讀,不具有表達與傳播的功能,因此屬于“非作品性使用”,不構成著作權侵權。

綜上,圍繞人工智能數據訓練這一命題,學界提出了多種規制路徑:或認定合理使用,或堅持法定許可,或稱不構成著作權侵權。可見,基于人工智能數據訓練特性以及產業發展需求,肯定人工智能開發者的數據利用空間已是大勢所趨。這為后文探討技術發展與著作權保護界限問題提供了重要啟示。

四、人工智能數據訓練規制的域外動向

(一)日本著作權法中的“信息分析”條款

為應對數字化變遷,2009年日本《著作權法》第47條之7規定使用計算機信息分析而進行的記錄或改編在著作權的權利限制之列,但供信息分析人員使用而創建的數據庫作品除外。“信息分析”是指從大量作品中提取有關語言、聲音、圖像以及其他元素的信息,例如,分析網頁、書籍中包含的特定詞匯和字符串的使用情況并進行統計處理,或者分析音頻、視頻的聲音波形、圖像亮度、顏色等。通過計算機對必要的信息進行整理和提取,目的不在于享受作品表達傳遞的思想情感或者美感,而是為了信息的統計處理。人工智能數據訓練的過程屬于“信息分析”,訓練過程中對原作品的記錄和改編當然在著作權的權利限制范疇之列。日本著作權法為人工智能數據訓練提供了較為寬松的環境,甚至有學者將日本稱為“機器學習天堂”。

2018年日本《著作權法》修改,將第47條之7“信息分析”條款并入第30條之4。在該條款中,“信息分析”的適用情形有所擴張:首先,2009年日本《著作權法》第47條之7“信息分析”僅限于計算機進行的信息分析,而在2018年《著作權法》第30條之4中則取消信息分析類型的限制;其次,第30條之4中的“信息分析”不僅指統計分析,還包括深度學習中使用的代數和幾何分析;再者,允許“信息分析”的主體由信息處理的本人拓展至其他主體;最后,在行為類型上,信息分析過程中不僅允許記錄、改編,還可以轉讓、公開傳播。由此,相較2009年“信息分析”條款,日本2018年修改《著作權法》,擴大了權利限制范圍。從《著作權法》的修訂中可以看出,日本關于人工智能數據訓練采取了一種較為靈活、開放的態度,為人工智能的研究與發展提供了空間。但值得注意的是,第30條之4同時規定,根據作品的類型、目的和使用方式,若著作權人的利益受到不當損害,應當被排除在著作權權利限制之外,即該行為極有可能被認定為著作權侵權。鑒于此,日本“信息分析”條款雖為人工智能開發者數據利用提供了空間,但同時也將“是否超出著作權權利限制范疇”的判斷難題交給了法院。

(二)歐盟版權框架下的著作權人“選擇退出”機制

歐洲議會于2019年3月通過歐盟《數字單一市場版權指令》(Directive[EU]2019/790)(以下簡稱“歐盟版權指令”),其中第2條第(2)項明確“文本與數據挖掘”的定義,并在第3條及第4條規定文本與數據挖掘的著作權例外。所謂“文本與數據挖掘”,即“以數字形式分析文本和數據以生成信息的任何自動分析技術,包括但不限于模式、趨勢和相關性”。歐盟版權指令第3條規定以科學研究為目的的文本與數據挖掘,將行為主體限制于科研機構和文化遺產機構,將作品利用方式限制于“復制”和“提取”,而第4條規定的文本與數據挖掘例外未對行為主體與行為目的加以限制,但著作權人可以提出權利保留,若作品在網絡上公開發表,則著作權人應以機器可閱讀的方式表達權利保留的意愿。歐盟版權指令在推動“文本與數據挖掘”分級化合理使用的前提下,建立著作權人的“選擇退出”機制,尊重著作權人的意愿。

但歐盟關于人工智能發展的擔憂與期待并未止步于此。即使著作權人聲明保留權利,禁止文本和數據挖掘,人工智能數據訓練過程中的隱蔽性也可能對著作權人的權益造成損害。2020年2月歐盟發布的《人工智能白皮書》(White Paper on Artificial Intelligence-A European Approach to Excellence and Trust)要求保存訓練數據的相關內容,以便應對人工智能系統的復雜性和不透明性。2024年3月,歐洲議會正式通過《人工智能法案》(Artificial Intelligence Act),明確了模型提供者的訓練數據披露義務。這將有助于在文本與數據挖掘著作權例外基礎上進一步完善著作權人的“選擇退出”機制,實現人工智能產業與著作權人的利益平衡。

(三)美國司法實踐中的合理使用認定

關于人工智能數據訓練是否構成合理使用,目前美國尚未有明確的司法判例,但回溯既往可以發現,美國法院在多案中肯定了作品復制行為具有“轉換性”。在2009年的A.V. v. iParadigms, LLC案中,被告iParadigms公司使用Turnitin系統檢測學生提交到系統的作品是否抄襲,Turnitin系統會對學生提交的作品進行存檔進而形成數據庫用于后續其他學生的作品檢測。原告四名學生起訴iParadigms公司的存檔行為構成著作權侵權。聯邦第四巡回上訴法院認為iParadigms公司對學生作品的存檔行為具有轉換性,因為它對作品的使用完全無關于表達性內容,而旨在檢測和阻止抄襲。2014年,美國聯邦第二巡回上訴法院在著名的Authors Guild, Inc. v. HathiTrust案(以下簡稱“HathiTrust案”)中也指出,創建全文搜索性數據庫屬于轉換性使用,因為單詞搜索的結果在目的、特征、表達、含義和信息上不同于原圖書。由此可見,美國法院在作品復制行為的著作權侵權判斷中著重關注該行為是否具有轉換性,相關論述為人工智能數據訓練侵權判斷提供了思路。

2023年5月美國聯邦最高法院判決Andy Warhol Foundation for the Visual Arts, Inc. v. Goldsmith一案(以下簡稱“Warhol案”),引起公眾對生成式人工智能侵權判斷規則的關注。在該案中,Warhol根據Goldsmith拍攝的王子照片創作出16張“王子系列”圖像,該作品由安迪·沃霍爾視覺藝術基金會(The Andy Warhol Foundation for the Visual Arts, Inc.,以下簡稱“AWF”)負責授權。2016年AWF向康泰納仕集團(Condé Nast)授權“王子系列”中一張名為《橙色王子》(Orange Prince)的圖片用于雜志封面。Goldsmith通知 AWF,認為授權行為侵犯其版權。AWF則向法院起訴Goldsmith,要求做出非侵權或合理使用的宣告性判決。美國聯邦最高法院認為該案的核心在于判斷合理使用的第一要素,即作品使用的目的和性質是否支持AWF向Condé Nast的商業許可行為。法院最終認為,《橙色王子》的目的與Goldsmith拍攝王子照片的目的基本相同,都是用來講述王子的故事,且許可的行為具有明顯的商業性質,因此不構成合理使用。

在Warhol案之前,生成式人工智能利用現有作品進行經驗學習的行為,極有可能被評價為“轉換性使用”。正如HathiTrust案中所述,作品復制的目的在于為公眾提供搜索服務,復制現有作品進行人工智能數據訓練的主要目的也并非在于內容欣賞,而是提升模型性能。 但在Warhol案之后,人工智能數據訓練“轉換性使用”的認定門檻有所提高,法院將更加關注生成式人工智能的終端輸出內容是否實現了目的轉換。人工智能生成與原作品相同或者“實質性相似”的內容,若僅僅在表達方式上略作改變(如Warhol案所示,由攝影作品轉變為繪畫作品),這種作品使用方式不具有轉換性使用特征,同時鑒于生成內容可能在客觀上擠占或者替代原作的市場,人工智能開發者證明其數據訓練行為具有正當性將更加困難。

五、人工智能數據訓練的著作權法制度應對

在人工智能數據訓練的著作權法制度回應上,有兩個問題難以回避:其一,著作權人與人工智能開發者之間的利益如何平衡;其二,人工智能數據訓練著作權法規制路徑如何選擇。前者討論的價值和意義在于明確人工智能數據訓練制度設計的宏觀方向,后者則綜合人工智能具體類型、人工智能數據訓練中的參與主體以及人工智能數據訓練的特性進行具體制度設計。

(一)宏觀選擇:賦予人工智能開發者作品使用自由

自著作權法誕生,“作者中心主義”一直主導著以《伯爾尼公約》為核心的著作權權利體系。各國立法實踐均以作者為中心配置各項權利,合理使用在著作權法體系結構中處于“例外”地位。隨著技術變遷,著作權人對作品的控制力逐漸削弱,但立法者始終堅守“作者中心”,通過不斷修補著作權法,消解著作權人與新技術利益群體之間的矛盾。如保羅·戈斯汀教授所說,“國會……一直扮演著追逐新技術——先是照相術,然后是錄音、電影、收音機、廣播電視和有線電視——的角色。”進入人工智能時代,著作權人對作品的事實控制力再度被削弱,面對人工智能開發者的作品利用,著作權人難以舉證。在此背景下,是通過傳統方式繼續擴張著作權人的權利控制范圍,還是在人工智能開發者與著作權人之間重新確立作品使用規則?顯然,賦予人工智能開發者更多作品使用自由已成為各國立法的主流方向。

從人工智能技術價值來看,賦予開發者數據訓練的作品使用自由具有重要的現實意義。在國際競爭層面,世界各國早已將人工智能發展上升至國家戰略高度,并紛紛通過人工智能技術的改進搶爭高地。人工智能的影響滲透到社會公眾生活的方方面面,實現了自動駕駛、電子商務推薦、疾病診斷等領域的公眾生活便利化。人工智能衍生物具有繁榮文化的作用,可增進人類整體社會福祉。以上說明,人工智能是社會發展的重要驅動力。數據是人工智能的“活水之源”,如果人工智能開發者始終處于恐慌與擔憂中,可能會選擇放棄使用著作權法保護的數據。如此循環往復,人工智能開發進展受阻,由數據選擇偏向形成的算法歧視愈演愈烈。因此可以明確,人工智能開發者合法使用數據不僅是著作權法制度轉型的必然選擇,更是社會發展的現實要求。

在探討人工智能數據訓練著作權法規制路徑的具體選擇上,一元論并不適用。一元論既未考慮到不同類型人工智能數據利用特征差異,也未針對使用者數據訓練提出監管措施。面向復雜的人工智能數據訓練情形,應當采取類型化規制路徑,并完善相應的制度配套設計。

(二)路徑之一:決策式人工智能數據利用行為構成“轉換性使用”

如前所述,決策式人工智能與生成式人工智能在運作原理與輸出形式上有所區別。作品是復合載體,既是外界事物信息的組合,又是凝聚作者思想情感的表達。作品承載的信息體現其功能性價值,后者則具有表達性價值。決策式人工智能在數據訓練過程中主要利用數據的功能性價值,通過分析數據性質與結構,在輸出端呈現分析、判斷或預測的結果。以人工智能開發者在貓狗識別模型中使用他人攝影作品為例,攝影師拍攝貓狗照片,主要是為了向公眾展示因光線、角度選擇而形成的獨有藝術美感。在人工智能訓練過程中,貓狗照片作為信息工具,核心功能在于向機器描述照片中“何者為貓”或“何者為狗”,輸出端以判別結論為主。再如,在文字要素提取過程中,人工智能開發者關注文字作品中的核心信息,研究者可以通過人工智能從大量非結構化文獻中自動提取生物醫學關系,這一過程顯然體現了與文字作品具體表達不同的價值。決策式人工智能數據訓練的目的在于獲取數據信息、提升模型精度,而不在于傳遞作品的整體表達,并且通常情況下,決策式人工智能在輸出端已實現內容轉換。鑒于此,我國法院可借鑒美國合理使用四要素標準,將決策式人工智能在訓練過程中的作品復制行為認定為“轉換性使用”。

(三)路徑之二:生成式人工智能數據利用行為納入“選擇退出”合理使用情形

與決策式人工智能相較,生成式人工智能前端的數據利用行為具有規制必要性。盡管生成式人工智能的輸出結果可能與輸入數據不相同且不相似,或者僅在著作權法意義上的思想范疇內相同或相似,但在數據訓練中,生成式人工智能主要利用了數據的表達性價值,在輸出終端極有可能對原作品產生替代作用,因此需要進行全面規制。

人工智能合法訓練的前提是人工智能開發者與著作權人達成許可交易。然而,面向人工智能產業,數據交易的市場失靈已然存在:首先,海量的數據需求使得人工智能開發者在許可交易中必須付諸高昂的交易成本;其次,在網絡環境下,人工智能開發者可通過爬蟲技術、破壞技術措施等多種成本低廉的手段獲取數據,加之數據訓練行為的侵權隱蔽性,人工智能開發者主動尋求著作權人許可的可能性較低;再者,基于主體自利,著作權人捐獻自己付諸智力勞動的數據的意愿消極。在以私人協商為前提的授權許可模式下,著作權人與人工智能開發者之間通常會形成“交易不能”的困局。法定許可、合理使用等制度在人工智能數據訓練領域的提出已體現了學者們對于數據交易效率的考量。交易成本最低的制度工具無疑是“市場失靈”狀態下的最佳選擇。

著作權許可交易包括搜尋權利人、與之談判和協商、支付許可費用等環節,相對應地,對于作品使用者而言,必然存在搜尋成本、協商成本與執行成本。立法者窺見傳統授權許可模式中交易效率低下對著作權激勵價值以及作品使用效率的損耗,或以程序性設計,抑或通過弱化權利排他性降低交易成本。具體而言,程序性設計主要體現在集中許可與默示許可中,前者以著作權集體管理組織為中介形成著作權權利集合,通過交易對象明確化,輔之以批量授權方式,降低作品使用者一一搜尋權利人的成本。后者默示許可構建的“選擇退出”機制則通過著作權人的意思表達后置,弱化在作品使用前的繁復交易過程,提升作品使用效率。在弱化權利排他性的制度發明中,法定許可排除因著作權人意思表達形成的交易障礙,同樣優化了作品交易中的搜尋成本,并以法定付酬機制降低作品使用者與權利人的協商成本。但共性在于,三種許可模式均以作品使用者向著作權人付酬為前提。推演至人工智能數據訓練領域,因海量數據的使用,人工智能開發者在許可流程的末端必然需要承擔高昂的執行成本,即支付許可費用。默示許可與法定許可雖然通過弱化著作權人的意思表達,消除了在作品使用前搜尋權利人的成本,但在作品使用后的付酬環節,依然需要明確數據權利人,對此一一識別并支付許可費,因而在此環節中,人工智能開發者依舊可能面臨權利人“識別不能”與許可費“支付不能”的困境。換言之,以付酬機制為前提的許可交易難以解決人工智能開發者數據需求與執行不能的根本矛盾。相對而言,合理使用不存在付酬機制,體現了交易效率的最大化。

綜合多數許可模式中著作權人意思自治優先與合理使用制度中交易成本“歸零化”的優勢,在生成式人工智能領域,以著作權人可“選擇退出”的作品合理使用制度處理數據訓練問題不失為優選之舉。在可“選擇退出”的作品合理使用制度下,著作權人極有可能聲明或通知人工智能開發者拒絕其作品被用于數據訓練。為避免此種情況對數據訓練形成潛在危機與障礙,對著作權人的“選擇退出”應當加以限制。在具體的制度構建中,應當明確著作權人“選擇退出”的實體條件與程序條件。在實體條件上,“選擇退出”的資格應僅限于部分作品的著作權人,如文字作品、美術作品、音樂作品以及攝影作品。以上四種作品類型的職業創作群體與人工智能開發者之間的矛盾最為明顯,當生成式人工智能生成內容后,極有可能對之產生替代作用,因此,應當尊重以上群體捐獻自己的作品用于數據訓練的意愿。在程序條件上,著作權人應當在作品發表時明確做出公開聲明,表明拒絕他人將作品用于人工智能數據訓練,或著作權人在得知他人可能將作品用于數據訓練時,應在規定期限內及時向人工智能開發者發送拒絕作品使用的通知,否則,在規定期限之外,著作權人無權阻止人工智能開發者對作品的使用。在程序條件上對著作權人的“選擇退出”加以限制,增加著作權人“選擇退出”的成本,一定程度上可降低退出的意愿。在著作權人退出后,人工智能開發者若想使用相關作品,可向著作權集體管理組織尋求許可,集中許可模式下,人工智能開發者的搜尋與協商成本也可得到控制。

(四)配套設計:明確人工智能開發者的數據訓練披露義務及責任減輕機制

第一,明確人工智能開發者在數據訓練過程中的披露義務,包括數據訓練的目的、訓練數據來源、訓練數據規模等。鑒于算法“黑箱”的存在,著作權人無法獲知其作品是否作為訓練數據被輸入模型。如前所述,決策式人工智能與生成式人工智能分別適用于一般性合理使用與可“選擇退出”的合理使用制度,明確人工智能開發者的披露義務,當著作權人獲悉數據被用于生成式人工智能訓練,著作權人可聲明“退出”以維護自身權益。在人工智能開發者披露訓練數據后,應當設置著作權人的聲明期,若著作權人在聲明期內未提出“退出”合理使用,則人工智能開發者得以無償使用該部分數據。

第二,構建人工智能開發者的侵權提示責任減輕機制。部分人工智能采用強化學習方式優化性能。使用者向人工智能輸入受著作權法保護的作品,并且通過誘導與提示,使人工智能輸出與現有作品相同或“實質性相似”的內容。這一行為存在兩方面的著作權侵權風險:一方面在輸出端構成現有作品的復制權或演繹權侵權,另一方面在輸入端可能被指控未經許可利用作品進行數據訓練。對此,在技術層面,人工智能開發者可通過關鍵詞過濾等措施避免輸出與現有作品相同或相似的內容;在法律層面,將侵權提示作為人工智能開發者的責任減輕事由,若人工智能開發者向使用者做出侵權提示,在使用者輸入現有作品并實施誘導侵權時即可駛入“避風港”,從而減輕著作權侵權責任。

六、結語

千余年前人類對機器智能追逐的理想終于在近百年落地為現實。多型人工智能遍地開花、數據訓練方式多樣,一元的著作權法規制路徑在應對多類型、多階段訓練方式上顯得力不從心。著作權法的意義和價值在于維護作者的尊嚴,更在于增進社會福祉,保障人工智能開發者的數據利用自由是技術演進現實與著作權法價值的共同要求。決策式人工智能與生成式人工智能在數據訓練原理與外觀上均存在本質區別,對此進行類型化處理有利于準確回應立法與司法的人工智能關切。決策式人工智能在數據訓練過程中主要利用數據的功能性價值,我國法院可將其數據訓練行為評價為“轉換性使用”。生成式人工智能利用數據的表達性價值,生成內容極有可能對原作品產生市場替代影響,但基于人工智能產業的發展需求,我國應當重塑可“選擇退出”的合理使用制度予以包容。人工智能數據訓練合理使用化是大勢所趨,但基于數據的權利重合,數據利用過程中人工智能開發者依然可能侵害個人信息或商業秘密,或因數據獲取手段不當構成不正當競爭。人工智能開發者在技術實踐中應當提升自己的注意水平,合法使用訓練數據,增強算法的可解釋性,避免多重侵權糾紛。

Research on Copyright Rules for Artificial Intelligence Data Training under the Perspective of Typology

Abstract: Artificial intelligence data training accelerates technical iteration and drives industrial upgrading. However, the acquisition and utilization of copyrightable works often lead to copyright infringement disputes.Data training characteristics, industrial development needs and extraterritorial regulatory trends fully demonstrate that the fair use of artificial intelligence data training is a general trend. There is a significant difference between decision-making artificial intelligence and generative artificial intelligence in terms of operation principle and output form, so the copyright law should implement a typological regulation. The former utilizes the functional value of the data, which constitutes “transformative use”, while the latter utilizes the expressive value of the data, which should be included in the fair use situation of “opt-out”. In terms of system design, it is necessary to clarify the obligation of artificial intelligence developers to disclose data training to ensure the possibility of copyright holders to “opt out”, and at the same time, for the user’s data training behavior in reinforcement learning, it is necessary to reduce the liability of artificial intelligence developers when they make infringement cues, so as to realize the liability sharing between users and developers.

Keywords: Data Training; Decision-Making Artificial Intelligence; Generative Artificial Intelligence; Fair Use; Opt-Out

基金項目:本文系2021年度國家社科基金重大項目“網絡化開放創新范式下企業知識產權市場化保護與價值轉化機制研究”(項目批準號:21amp;ZD142)的階段性成果。

作者簡介:王靜,浙江大學光華法學院博士研究生。

主站蜘蛛池模板: 在线欧美一区| 成人在线亚洲| 国产丰满大乳无码免费播放| 色天天综合久久久久综合片| 99热这里都是国产精品| 日韩精品久久久久久久电影蜜臀| 18禁不卡免费网站| 亚洲国产91人成在线| 国产一国产一有一级毛片视频| 国产精品自在在线午夜| 免费人成黄页在线观看国产| 欧美视频免费一区二区三区| 无码免费的亚洲视频| 久久国产亚洲欧美日韩精品| 日本在线亚洲| 婷婷综合缴情亚洲五月伊| 亚洲综合香蕉| 国产精品亚洲欧美日韩久久| 欧美午夜理伦三级在线观看| 日韩无码真实干出血视频| 精品视频免费在线| 欧美三级日韩三级| 色九九视频| 国产一区在线视频观看| 国产最爽的乱婬视频国语对白| 啪啪国产视频| 久久99精品久久久久纯品| 亚洲日本中文综合在线| 日韩欧美中文在线| 免费观看男人免费桶女人视频| 亚洲精品成人7777在线观看| 日本高清有码人妻| 青青操国产视频| 精品三级在线| 日韩在线网址| 久久毛片免费基地| 日本影院一区| 青青国产视频| 婷婷六月综合网| 亚洲国产欧美中日韩成人综合视频| 爱色欧美亚洲综合图区| 国产成人久久综合一区| lhav亚洲精品| 国产成人免费手机在线观看视频| 2019国产在线| 亚洲va视频| AV老司机AV天堂| 国产精品偷伦在线观看| 波多野结衣一二三| 激情在线网| 亚洲无码高清一区| 国产亚洲美日韩AV中文字幕无码成人 | 91亚洲精品第一| 午夜无码一区二区三区| 欧美一区二区精品久久久| 亚洲男人在线| 国产精品人成在线播放| 国产国产人成免费视频77777| 亚洲九九视频| 精品免费在线视频| 在线播放真实国产乱子伦| 欧美色丁香| 中国精品久久| 久久精品人妻中文系列| 欧美啪啪网| 中文字幕免费播放| 永久免费av网站可以直接看的| 四虎亚洲国产成人久久精品| 全部无卡免费的毛片在线看| 久久久久亚洲av成人网人人软件| 亚洲一区波多野结衣二区三区| 午夜在线不卡| 九色视频最新网址 | 国产精品视频999| 首页亚洲国产丝袜长腿综合| 国产青榴视频| 国产在线观看91精品| 一级全黄毛片| 亚洲,国产,日韩,综合一区| 91久久国产热精品免费| 丁香婷婷久久| 久久久久久高潮白浆|