999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

類型化視角下機器學習的合理使用制度研究

2024-12-31 00:00:00江璐迪
電子知識產權 2024年7期
關鍵詞:機器學習人工智能

摘要:機器學習的版權合法性是人工智能時代亟待解決的重要議題。在規范價值層面,機器學習對社會福利的增進效益是多維度的,且具有市場失靈情形下免于承擔著作權侵權責任的經濟理性。在事實認定層面,技術類合理使用案件為機器學習的合理使用定性提供了重要啟示:應關注不同類型的機器學習在輸出結果上的差異,從系列結果的整體效果認定合理使用。在對機器學習進行分類討論時,應采用“現實可能性”標準和“理性可感知”標準,為技術創新保留“可喘息的空間”。具體來說,一般推定“非表達型”和“通用表達型”機器學習構成合理使用,但在后者的情形下應為著作權人設定“退出-選擇”機制和利益分享機制;特定作者表達型機器學習所輸出的結果使用了特定作者的個性化表達,不構成合理使用;非營利性機器學習因內在的公益價值構成合理使用。

關鍵詞:人工智能;機器學習;合理使用;技術創新;分類討論

一、問題的提出

人工智能技術的飛躍式發展拉開了新一輪技術革命的序幕,與公有領域的信息不同,版權作品具有內容豐富、信息優質的特點,利用版權作品進行數據訓練、優化算法是人工智能機器學習中必不可少的環節。目前,人工智能行業的發展正經歷互聯網發展早期“非法興起”的階段。

在此背景下,有關機器學習的版權糾紛不斷涌現。2024年2月28日,廣州互聯網法院就“全球AIGC平臺著作權侵權第一案”作出判決,該案中某AI平臺(化名)在提供AI文生圖服務中生成的圖片與奧特曼形象構成實質性相似,奧特曼系列的著作權人訴稱該AI公司未經授權,擅自利用其享有權利的作品訓練大模型并生成實質性相似的圖片,侵犯了其所享有的復制權、改編權和信息網絡傳播權,并要求AI公司停止侵權,將案涉奧特曼從訓練數據集中予以刪除。

在版權產業與技術產業勢均力敵的美國,也陸續有版權人向人工智能技術開發者發起訴訟。2022年11月3日,一群程序員在美國加利福尼亞州北區地方法院對GitHub公司和OpenAI公司提起訴訟,聲稱被告將他們的代碼用于訓練其人工智能編碼工具Codex和Copilot,侵犯了他們所享有的版權。 2023年1月13日,美國三名藝術家代表其他集體訴訟成員對StabilityAI,Midjourney等四名被告發起集體訴訟,指控其未經用戶同意擅自爬取了數十億張具有版權的圖像用于訓練模型。 2023年2月3日,全球知名圖片運營商Getty單獨針對StabilityAI提起訴訟,指控StabilityAI未經許可擅自從Getty的圖片庫中復制了超過1200萬張圖片和元數據用于訓練其模型。 2023年6月、7月、9月以及11月,陸續有作家代表和美國作家協會向OpenAI發起集體訴訟,主張被告未經許可將其作品用于數據訓練的行為構成侵權。 2023年12月27日,《紐約時報》起訴了微軟和OpenAI,訴稱微軟和OpenAI未經許可利用其創作的數百萬篇文章訓練ChatGPT和Copilot。 2024年1月5日,作家代表尼古拉斯·恩加戈耶尼斯等人對OpenAI公司和微軟公司提起集體訴訟,主張被告未經授權使用他們的版權作品訓練人工智能的大型語言模型,侵犯了他們的版權。 2024年2月28日,Raw Story Media, Inc.和Alter Net Media, Inc.兩家新聞機構針對OpenAI及其關聯公司提起了訴訟,指控被告在開發和訓練其人工智能產品ChatGPT的過程中,未經授權使用了原告的新聞作品,并移除了版權信息,違反了《數字千年版權法》。雖然美國有大量案件正在訴訟過程中,但法院對該問題尚未做出有效判決。

可見,人工智能機器學習的版權合法性面臨的挑戰現實且緊迫,人工智能的研發者能夠在多大程度上使用版權作品進行數據訓練關乎技術變革下版權人的利益和人工智能技術發展的未來,這不僅涉及版權市場的文化繁榮,也觸及版權法框架下人工智能技術的創新空間。

機器學習是人工智能范疇下的概念,指計算機在初步算法的指導下通過對大量數據進行數據分析與模式識別,不斷調整模型參數、優化算法,最終使計算機能夠自動學習和自動決策的學習范式。由此可見,機器學習比數據挖掘的范疇更大,其不僅涉及數據輸入與數據分析的算法優化,還包括計算機根據指令做出決策的結果輸出環節。不同環節涉及的著作權專有權有所不同(如圖1所示)。

與以往的技術變革不同,機器學習對作品的利用不僅涉及輸入端對海量作品的逐字復制,還包括輸出端以“創作”的方式對作品進行的后續利用,這加劇了合理使用的認定難度。一方面,傳統的合理使用制度未能有效涵蓋海量的、以商業為目的的作品復制行為。一是因為我國合理使用制度采用的是封閉的立法模式,具體的法定情形未能涵蓋人工智能數據訓練行為;二是即使突破合理使用條款的文義解釋,適用“三步檢驗法”考察人工智能數據訓練行為構成合理使用的可能,也會因為該測試法將合理使用置于從屬、次要位置的內在價值而存在阻礙。況且創設新的合理使用情形不符合我國的司法傳統,具有較強的不確定性,甚至會被詬病為法官造法。另一方面,生成式人工智能以“創作”方式輸出結果的行為對作者、著作權人以及作品市場的影響尚不可知,進一步降低了效果導向的“合理性”標準在適用上的確定性和可預測性。

機器學習的合理使用定性是人工智能時代的重要議題,關乎版權法面對新的技術浪潮在促進文化與技術創新上的生命力。對此本文將圍繞這一核心爭議,首先,立足于社會公益理論和市場失靈理論,論證機器學習行為構成合理使用的正當性理由;其次,以史為鑒,通過梳理技術類合理使用案件,把握技術創新與合理使用的互動關系,并從中汲取有益的指導性原則,以此考察機器學習行為的性質;最后,結合現有的技術和商業環境,分類討論不同類型的機器學習構成合理使用的可能。

二、機器學習行為構成合理使用的正當性理由

對機器學習的合理使用定性不僅是單純的事實判斷,還是一種價值選擇。唯有明晰機器學習構成合理使用的正當性理由,才有必要在具體的個案中對特定的機器學習進行事實判斷,考察相關行為構成合理使用的可能。換言之,機器學習構成合理使用的正當性論證是分析不同類型機器學習合理使用性質的邏輯前提。

(一)符合社會公益理論的公正價值

合理使用作為著作專有權的限制機制,發揮著調和多元價值目標沖突的功能。維護更高位階的價值目標,以此增進社會公共福祉是合理使用制度的正當性基礎。對公共福祉的追求反映了合理使用制度內在的“公平正義”原則,具體包括以下三個層次:一是與憲法有關的表現自由行為;二是與作品后續創作有關的行為;三是促進社會公正和民主的公益行為。

構建機器學習行為的合理使用情形對社會公共福利的增進效益也是多維度的,主要包括以下三個方面。第一,將機器學習行為納入合理使用制度之中,將有利于促進生成式人工智能產業的發展,激發作者文化創新的潛力,鼓勵公眾表達自由的行動。一方面,利用生成式人工智能技術有助于提高人類作者的作品質量和創作效率。有日本漫畫家指出,生成式人工智能技術不僅能為漫畫故事情節的設定提供新的視角,也為繪畫風格提供了豐富的參考素材,而且還能協助漫畫家在繪畫時對草圖進行顏色填充與背景描摹,提高了繪畫的效率。另一方面,生成式人工智能技術改變了人類創作的方式,降低了作品創作的門檻。在生成式人工智能技術的輔助下,原本缺乏創作能力的主體也能憑借有趣的想法進行創作,創作主體的增加將進一步激發文化創新活力。比如沒有任何繪畫天賦的作者Rootport在人工智能繪畫輔助工具Midjourney的幫助下,只花了六周的時間完成了一部100多頁的漫畫《賽博朋克:桃太郎》(《Cyberpunk: PeachJohn》),并由大型出版社新潮社Shinchosha出版發行。

第二,機器學習構成合理使用將有助于推進訓練數據共享,使不具有數據生產能力的中小型企業可以公平地獲取更廣泛、優質的數據,有利于維持公平競爭的市場秩序,助力人工智能產業的創新發展。當前機器學習的數據收集環節存在一種商業模式,即大型互聯網企業通過與用戶簽訂協議的方式以免費的服務換取海量的數據資源,用于人工智能的算法優化。通常情況下“以服務換數據”的模式只能適用于大型互聯網企業,中小型人工智能企業由于用戶較少,未能獲取足夠的數據用于訓練,從而導致高科技領域的不公平競爭。若機器學習行為構成合理使用,中小型企業作為重要的創新主體將有條件獲取豐富、優質的版權內容優化算法,推進人工智能技術的創新發展。

第三,共享訓練數據有利于優化人工智能算法,降低算法偏見的風險,為公眾提供更優質的作品。在尚不具備機器學習合理使用條款的情況下,人工智能的研發者會更傾向于使用公有領域的數據,數據數量與質量的不足會導致算法歧視與偏見,從而加劇社會不公,不利于建構民主、公正的理想社會。

總的來說,機器學習作為人工智能技術發展的必要環節,被納入合理使用的范疇彰顯了人工智能時代對合理使用制度改革的現實需求。在人工智能時代,作品創作不再是人的特權,作品創作模式在“僅人類創作+人機協作”的二元結構上增加了“人工智能創作”,作品中“人”的要素呈現出下降趨勢。對此,著作權制度的規范目標應不再僅限于鼓勵創作,而應當追求創新激勵與公共利益保障之間的平衡。對此,為激勵作者創作而對作品予以保護的著作專有權的比重應有所下降,而保障公共利益的合理使用制度應當被給予更充分的關注。概言之,合理使用的地位應被提升至與版權保護同等重要的位置,合理使用制度應采取更開放、靈活的立法模式,包容更廣泛的作品使用行為。當機器學習行為有助于增進社會福祉時,該行為便具有構成合理使用的正當性。

(二)符合市場失靈理論的經濟理性

市場失靈理論從法經濟學的視角解釋了合理使用制度的正當性,該理論認為,合理使用制度的存在是因為作品市場出現了失靈的情形,當市場機制未能有效配置市場資源時,需要法律的介入以實現資源分配的最優化。對此,該理論認為適用合理使用制度應滿足三個要件:第一,存在市場失靈;第二,被告使用作品符合社會公共利益;第三,裁決該行為構成合理使用不會對著作權人的積極性造成實質性損害。概言之,市場失靈理論立足于合理使用制度中的經濟理性,闡釋了當市場中因著作權的設置產生過高的交易成本,阻礙交易發生時,合理使用可以作為法律手段介入市場,重新配置市場資源,以實現效益最大化的目標。

機器學習行為未能有效適應以財產規則為基礎的版權保護機制,一一許可將會產生極高的交易成本,從而阻滯人工智能產業的發展,具有構成合理使用的正當性。具體來說,人工智能語言模型訓練具有“涌現”現象,當數據訓練量較小的時候,其產生的結果具有隨機性,準確性也較低;當數據訓練量到達一定閾值后,算法的復雜性和算法生成結果的準確性會大幅提升。因此,人工智能數據訓練行為的一大特點是訓練作品的數量決定了算法優化的質量。這就意味著在人工智能數據訓練的場合,若要求技術開發者對其使用的作品逐一取得授權,將會使其因過高的交易成本而放棄人工智能技術研發,從而影響人工智能產業的創新發展;或者轉而使用魚龍混雜的公有領域數據,加劇算法歧視與侵犯用戶隱私權的風險。

但需要指出的是,面對新技術對作品市場所帶來的沖擊,利用市場失靈理論闡釋創設合理使用情形的正當性是具有局限性的,理由有二:首先,市場失靈理論更傾向于對著作權人的利益保護。市場失靈理論認為只有當出現市場失靈的情形時,對作品的合理使用才具有正當性。這一理論所隱含的邏輯假設是若沒有存在市場失靈的情形,便不具有適用合理使用制度的正當性,換言之,使用作品應獲得著作權人的許可是常態,只有在出現市場失靈這一例外情形時,作品使用行為才可以不經著作權人的許可,不向其支付報酬。可見,該標準更傾向于保護版權產業,一項新技術可能會開拓出新的市場或擴張版權人的潛在市場,但該理論僅著眼于版權市場的失靈情況,而忽視了依托于作品使用的技術發展可能會帶來的市場效應。其次,對作品市場的經濟分析并不能涉足對“公共利益”的定價。對版權作品的相關市場進行經濟分析是判斷市場失靈情形的必要前提,但當涉及憲法第一修正案所規定的公共知識、公共健康、言論自由等公益價值時,便難以通過“定價”的方式來衡量是否會造成失靈,因為公共利益的價值是不可衡量的,或者說是無價的,民眾愿意支付高昂的價格來換取這些價值。

三、技術類合理使用案件的歷史梳理與經驗借鑒

對機器學習行為的合理使用定性所映射的核心命題是作為制度工具的合理使用如何調和版權保護與技術創新的緊張關系,以此增進因技術進步帶來的公共福祉。縱觀版權史,這一命題反復地被呈現在技術類合理使用案件之中。對此,本文將通過梳理典型的技術類合理使用案件,以期總結其中的有益經驗,為機器學習行為的合理使用定性提供指引。

(一)王莘訴谷歌案:以系列行為的整體效果認定合理使用情形

“王莘訴谷歌案”(以下簡稱“王莘案”)是我國具有代表性的技術類合理使用案件。原告王莘(筆名棉棉)對上海三聯書店出版的文集《鹽酸情人》享有著作權,被告谷歌公司未經原告的許可將該作品的全文進行了數字化掃描,用戶可以在谷歌中國網站“圖書搜索”欄目根據關鍵詞搜索獲得原告作品的片段,故王莘起訴谷歌公司侵犯了其所享有的復制權、信息網絡傳播權等著作權,并要求其承擔相應的侵權賠償責任。

一審法院認為,谷歌公司提供涉案作品片段的行為構成信息網絡傳播權侵權,其掃描全文行為構成復制權侵權,前者構成合理使用,后者不構成合理使用,應當承擔侵權責任。二審法院認為,雖然未經許可的復制行為原則上構成侵權,但專門為了合理使用行為而進行的復制,應當與后續使用行為結合起來看待,其與后續行為一致均構成合理使用。

兩審法院在認定合理使用時采用了不同的路徑,由此得出了不同的結論。一審法院在認定合理使用時遵循的是侵權認定的思路,即首先考察特定行為是否構成侵權,爾后判斷該侵權行為能否構成合理使用而免除侵權責任。換言之,專有權侵權認定與合理使用認定是相互綁定的,由于侵權認定遵循的是行為細分思路,合理使用的定性也進行了兩步式的考察,并對不同階段的行為得出了不同的結論。二審法院則從系列行為的整體效果上認定合理使用,當兩個受控行為具有緊密的聯系時,后續利用行為所產生的效果會吸收前端行為,均構成合理使用,本案中由于信息網絡傳播行為構成合理使用,所以復制行為也被推定為合理使用。

將兩審法院的結論進行對比,可以發現,二審法院的結論能更有效地還原事實,保持認定效果上的一致性,也避免了邏輯上的斷層。對受控行為的認定之所以遵循細分化的思路,是為了嚴格地限定專有權的范圍,便利當事人之間的交易,降低交易成本。合理使用的認定則注重考察系列行為所產生的整體效果,追尋的是特定行為對著作權人利益的影響,以此劃分私人權利保障與行動自由的領域,實現利益平衡的目標。概言之,受控行為的判斷更側重于對事實的認定,不介意行為認定的松散狀態;合理使用行為的認定則更關注行為效果,涉及與價值選擇有關的行為定性。

在技術類合理使用案件中,對作品的使用行為可能涉及不同的技術發展階段,從技術的開發、運行到結果輸出,不同階段的作品使用行為構成合理使用的可能性逐級遞減(如圖2所示)。首先,在技術開發階段的作品使用是一種不公開的、非感知性的作品使用,又被稱為“功能性使用”,構成合理使用的可能性最大。其次,技術運行階段的作品使用行為因為往往會延伸至結果輸出環節,構成合理使用的可能性位于光譜的中端。以“臨時復制”為例,在信息技術發展初期,對作品的臨時復制行為僅在個人瀏覽網頁時存在,因不具有較高的經濟價值而不構成合理使用;隨著技術的發展,臨時復制行為逐漸延伸至邊緣計算領域,其經濟價值與日俱增,該行為也需被納入復制權的范疇并創設合理使用的例外情形。最后,當結果輸出環節涉及作品利用時,其所輸出的結果可能會在原作品的市場上產生實質替代效應,從而對原作品的潛在市場造成不利影響,則該作品利用行為構成合理使用的可能性最小。

對此,在機器學習的場合下,對作品的利用行為涉及“數據輸入”“算法優化”以及“結果輸出”三個環節,不同類型的機器學習行為涉及不同的技術環節,最終產生的效果也各有差異。因此,在對機器學習行為進行合理使用定性時,應遵循整體觀的行為考察思路,不能僅關注輸入端的行為,還應當結合輸出端的生成結果對于作品市場的潛在影響進行整體效果上的綜合判斷。

(二)環球電影公司訴索尼公司案:以“現實可能性”為標準考察“對作品潛在市場或價值的影響”

20世紀70年代,日本索尼公司在美國出售一臺名為Bebamax的錄像機,用戶既可以通過該錄像機錄制正在播放的電視節目,還可以在觀看一個節目時同時錄制另一個正在播放的節目,也可以在不在家的情況下通過設定時間錄制電視節目。此外,該錄像機設有“快進”和“暫停”的功能,可以使用戶在觀看錄制的電視節目時跳過廣告內容。美國環球電影公司便認為,用戶未經許可錄制其電視節目的行為構成著作權侵權,索尼公司出售用于實施侵權的錄像機的行為構成幫助侵權。

法院認為,為了“改變觀看電視節目”的時間而使用電視錄像帶錄制電視節目的行為構成合理使用,索尼公司出售具有“非實質侵權用途”的家庭錄像機的行為并不構成幫助侵權。少數派法官和多數派法官就用戶使用家庭錄像機錄制電視節目以改變觀看時間的行為是否構成“合理使用”這一問題展開了激烈的爭論。兩派法官均落腳于以“潛在作品市場或價值”所造成的影響來認定合理使用,但關于該要素的認定存在一定的分歧。少數派法官所采取的證明標準較低,認為只要原告能夠證明涉案行為“可能”對其潛在的作品市場造成損害,該行為便不能構成合理使用,本案中原告指出用戶使用錄像機而對其收入產生影響的方式便完成了證明責任。多數派法官認為,對作品市場所造成的“潛在損害”應當以損害發生的“現實可能性”為標準,本案中,相關調研報告顯示,家庭錄像機的使用并不會影響觀看直播的人數,只有25%的人會在觀看錄像帶的時候跳過廣告,此外,家庭錄像帶的使用使人們可以更便利地選擇合適的時間觀看電視節目,因此,還會在一定程度上增加電視節目的收視率。法院最終判定,家庭錄像帶的消費者以改變觀看時間為目的錄制電視節目的行為構成合理使用。

索尼案的判決對美國經濟發展和版權市場產生了深遠的影響。一方面,該判決極大地促進了家庭錄像機的銷量,1976年至1984年,美國家庭的錄像機數量成倍增長,從47.5萬臺增至500萬臺,有力地促進了美國經濟的增長。另一方面,錄像機的銷售還為版權人開拓了一個嶄新的、未曾預見的巨大市場,即電影錄像帶的出租和銷售市場,該市場的銷量甚至超過了票房銷售,成為當時美國電影業最大的收入來源。由此可見,索尼案不僅開拓了新技術市場,還為版權人開拓了作品利用的新市場,為美國市場經濟的發展帶來了數十億美元的收入。

索尼案所產生的現實影響生動地詮釋了在技術類合理使用案件中采取“現實可能性”標準的合理性。首先,與一般的合理使用案件不同,技術類合理使用案件帶來的技術創新對市場經濟和版權市場的影響更為顯著。技術創新不僅會對作品市場中已建構的利益格局和商業模式產生沖擊,而且也會發展出新的技術市場,有力地促進經濟增長,或開拓出先前沒有任何版權實踐的新興市場,為公共福祉帶來增益。因此,在認定該因素時不能只分析“傳統、合理或可能發展”的作品市場,還應當關注與公共利益密切相關的技術市場以及新技術對版權市場的拓展。其次,創新的本質是不確定性與不可預見性,對于技術創新發展來說,提供“喘息的空間”(Breathing room)尤為重要。對此,在技術類合理使用案件中,對該要素的考察應采取更嚴苛的標準,只有對作品潛在市場或價值造成的實質損害具有“現實可能性”時,才能否定與該技術有關的作品利用行為構成合理使用,為技術創新提供一個更寬松的發展環境。概言之,“現實可能性”標準提高了著作權人的證明難度,減緩了技術產業發展的阻力。

(三)美國甲骨文公司訴谷歌公司案:以“理性可感知”為標準衡量對社會公共利益的促進效益

20世紀90年代,太陽微系統公司(Sun Microsystems)(以下簡稱“太陽公司”)開發了Java編程語言,旨在建立一個可交互操作的編程環境。大約600萬軟件開發人員學習了Java編程語言,并利用Java編程語言為臺式機、筆記本電腦、平板電腦、智能手機和其他設備編寫應用程序。

美國甲骨文公司(Oracle)在2010年收購太陽公司后,獲得了Java SE的著作權。谷歌團隊為了在Android開發一個開放的、對開發者友好的智能手機平臺,選擇了被廣泛使用的Java編程語言,其選取了166個Java SEAPI包中的37個在大小、功能和程序員的易用性等方面對Android代碼進行了優化,以實現程序員輕松開發Android應用程序的目的。

谷歌一開始向太陽公司尋求37個Java API的使用授權,但太陽公司堅持要求谷歌使用通用公共許可證(GPL),即實施全部166個Java API,從而完全兼容Java SE7的平臺。谷歌團隊拒絕了這一要求,其認為如果使用全部166個API包(其中許多包對智能手機并不適用),將會損害智能手機的速度、電池使用率和存儲容量,不利于為手機制造商提供更為寬松的許可環境,便利創新功能的實現。談判失敗后,谷歌團隊通過反向工程為Android操作系統開發了數百萬行新代碼,其中包括37個Java API以及支持與GPS、相機功能、用戶偏好和其他智能手機功能相關的新API的附加代碼。為了使熟悉Java的程序員能夠更輕松地使用Android平臺,谷歌從Java SE程序中復制了大約1.15萬行代碼,其復制的內容僅占太陽公司Java API計算機代碼程序的0.4%。但是,由于采用了共同的編程語言、編碼習慣和功能考慮,谷歌新研發的代碼在整體結構、順序和組織上與太陽公司的代碼構成實質性相似。甲骨文公司主張谷歌公司侵犯了其所享有的Java API的版權,向地區法院提起訴訟。

該案的判決結果一波三折,地區法院指出谷歌的行為構成合理使用,聯邦巡回法院推翻了該判決,認為API代碼的“結構、順序和組織”具有版權性,即使是少量的字面復制也不是微不足道的,因此不構成合理使用。在發回重審后,陪審團認為谷歌的使用是合理的,但聯邦巡回法院再次推翻了這一判決,認為谷歌對API的使用是商業性的,不具有轉化性,并對甲骨文公司的Java平臺市場產生了不利影響,未能構成合理使用。

最終,美國最高聯邦法院對這一案件進行了重新審理,認為谷歌公司利用Java API開發安卓系統的行為構成合理使用,主要理由如下:首先,“合理使用”原則即一項“公平合理的規則”,它可以使法院避免僵化地適用版權法,防止法律扼殺對社會福利有促進效益的創造力。本案中,谷歌公司使用Java API的目的是擴大Android系統智能手機的使用范圍和實用性,為熟悉Java語言的程序員提供了一個具有創造性的智能手機應用程序的開發環境,因此,谷歌對于Java API的使用符合版權法本身的憲法目標,即“促進科學和實用藝術的進步”。其次,從市場角度予以考察,谷歌公司利用Java SE代碼所開發的安卓系統與太陽公司的Java軟件是兩個截然不同的市場,因此并不會產生市場替代效應。此外,證據顯示太陽公司尚未開發新型智能手機的市場,也沒有能力進入該市場,因此也未對其潛在市場造成影響。再次,雖然利用Java API的行為會幫谷歌公司從安卓平臺上賺取巨額利潤,但享有Java API版權的甲骨文公司也能因Java編程語言被廣泛使用而從谷歌公司的獲利行為中分一杯羹。最后,一款應用程序的成功源于程序員學習和利用Java編碼語言所進行的投資,而與太陽公司創建Java API的投資僅有間接的關系,若程序員利用Java編程語言開發軟件的行為需要獲得甲骨文公司的許可,將會使Java編碼成為限制未來創造力的一把“鑰匙”,掌握“鑰匙”的甲骨文公司雖然會獲得大量利潤,但也會限制利用該編程開展創造性活動,從而損害公眾利益。

美國甲骨文公司訴谷歌公司案(以下簡稱為“甲骨文案”)為我們提供了兩點可供參考的經驗:首先,當一項新技術能夠激發更多的創造活動時,與其有關的作品使用行為將能實質性地促進社會公共利益的增量,滿足轉換性使用的目的。事實上,相較于一般合理使用行為只能達成一次表達自由的活動,技術類合理使用行為將會以更深遠的方式影響著表達自由。加之創新活動的本質是不可預測性,精確地判斷一項新技術是否對社會福利具有絕對的促進效果對法官來說是一項不可能完成的任務,對此有學者借鑒“審美中立原則”,創設了更為寬松的公共利益識別標準——“理性可感知”(Reasonably Perceived)標準。根據該標準,當一項技術沒有顯著地損害公共利益的情形時,便推定該技術的發展有利于增進社會公共福祉。在該標準的指引下,技術的發展將會具有更廣泛的試錯空間,這種包容的環境能夠最大程度地保留在初期微不足道的創新活動。需要注意的是,當有證據證明某項技術只能被用于損害公共福祉時,比如未能滿足“非實質侵權用途”,上述推定也能夠被推翻。

其次,商業性使用并非技術性合理使用案件中的重要考量因素,除非該技術是以極高的價格或免費的形式向公眾提供的。雖然谷歌公司因使用Java編碼語言而在智能手機軟件市場中獲取了大量利益,但該商業目的的使用行為并不會阻礙合理使用的認定。在一般情形下,“商業性使用”與構成合理使用沒有直接的因果關系,商業性的作品利用行為并不意味著該行為將會侵蝕公共利益,與之相反,良好的商業模式有利于增進公共福祉,谷歌圖書館案便是典例。之所以在極端的情況下對“商業性使用”進行考察,一方面是因為當一項技術以昂貴的價格向公眾提供時,則意味著僅有少數人能夠利用該項技術并從中獲益,難以達成實現多數人利益的目標,認定與該項技術有關的作品利用行為構成合理使用存在一定的阻礙。另一方面,以非營利的目的公益性地使用作品將更有利于認定合理使用,公益性內在隱含的價值是使廣大公眾獲益。

有關機器學習的合理使用定性也是典型的技術性合理使用案件,在該類案件中,合理使用制度以限制專有權的方式決定著一項新技術的發展水平,從而為有益技術的創新發展提供更寬松的試錯空間。在人工智能時代,合理使用制度調和版權保護與之間緊張關系的功能尤為顯著,因為人工智能技術的發展有賴于基于海量版權作品的數據訓練,機器學習構成合理使用可以實質降低技術的研發成本,促進人工智能領域的技術創新,從而惠及更廣大的公眾,反之亦可以阻礙有害技術的發展。上述案件中所提取的裁判原則有助于在具體的應用場景下識別特定的機器學習行為是否構成合理使用,指引法院在司法實踐中利用合理使用制度平衡人工智能產業與版權產業的利益,以此促進技術創新,實現作品的廣泛創作與傳播。下文將具體展開論述。

四、類型化視角下機器學習行為的合理使用定性

“合理使用的認定應考察系列行為的整體效果”是“王莘案”得出的有益經驗,由于人工智能的應用場景極為廣泛,不同的機器學習行為輸出的結果對作品市場的影響存在差異,從而會實質影響合理使用的認定,因此有必要區分不同的機器學習行為,分類討論其構成合理使用的可能。

在現有的文獻中,僅有少數的學者對機器學習行為進行了系統分類。華劼最早根據轉換性使用的類型劃分了機器學習行為的類型,其認為非表達型人工智能機器學習構成目的性轉換,表達型人工智能機器學習構成內容性轉換,兩者均構成合理使用。吳漢東沿用上述分類標準,進一步劃分了表達型機器學習行為,將其分為“普通的表達型機器學習”和“私人訂制型的表達型機器學習”,并指出前者對作品的使用是為了獲取海量信息中的通用表達模板,并不屬于著作權法保護的表達,可能構成合理使用,但后者通過學習特定作者的作品所提取的是特定作家的表達風格,該風格中的特定元素會反復出現在生成的作品之中,與原作品具有市場替代關系,較小可能構成合理使用。此外,正如“甲骨文案”所指出的,在極端情況下是否構成商業性使用是技術類合理使用認定的考量因素,因此,非營利性的機器學習行為作為完全不具備商業性質的使用情形,有必要被單獨分為一類予以考察。

對此,本文按照“是否是商業性使用”和“輸出結果的差異”這兩類標準將機器學習行為分為“非表達型”“通用表達型”“特定作者表達型”“非營利性”四類(如圖3所示)。在此基礎上結合技術類合理使用案件得出的有益經驗,具體分析各類機器學習行為構成合理使用的可能,為我國建構機器學習合理使用條款提供參考。

(一)非表達型機器學習

非表達型機器學習是指不以輸出“作品”為目的的機器學習模式,圖像識別、自動駕駛、智能家居或金融風險評估等領域是這類機器學習主要服務的應用場景。這類機器學習的特點在于其僅從版權作品中提取反映客觀現實的事實信息,而不是作品的表達性要素,因此,其進行數據訓練的目的不在于“創造”新的作品或貢獻新的表達,而是為了完成人臉識別、汽車駕駛、金融決策等特定任務。

對于非表達型機器學習的合理使用定性,學界主要存在兩種觀點,一種觀點認為該行為構成非表達性使用,不構成合理使用;另一種觀點認為該行為構成目的性轉換使用。兩者的差異在于對合理使用的性質認識不同,前者認為合理使用是著作權侵權的違法阻卻事由,換言之,合理使用本是侵權行為,只因為法律的規定而免除了這一行為的違法性,從而不以侵權定性這一行為。在非表達型人工智能的領域,其所從事的機器學習行為是為了將作品作為事實予以分析,而非出于交流和表達的目的,這與著作權法意義上的“使用”不同,不會構成著作權侵權,也就無需討論該行為是否構成合理使用。概言之,“判斷某一情形是否屬于合理使用的前提是這一情形已經構成侵權。”后者則認為合理使用是侵權阻卻事由,該觀點主張合理使用本身系合法行為,著作權制度為作品的使用劃分了“專有使用”與“自由使用”兩個區域,合理使用隸屬于對作品的“自由使用”而無涉“專有使用”領域。對此,合理使用與專有使用共同構成了著作權制度中相互抗衡的兩個部分,合理使用制度是版權侵權的消極構成要件。

本文認為,將“非表達性使用”排除出合理使用的范疇看似可以防止轉化性使用理論的濫用,增加法律的可預期性,減少司法資源的浪費,但也可能會加劇合理使用制度的適用難度,因為“非表達性使用”的邊界并非是絕對清晰的。試想一個情形,在論文寫作中引用他人的作品作為論證的依據,這是將他人作品視為“事實”的一種非表達性使用,還是使用他人作品內容的表達性使用呢?徒增一個新概念只會增加區分“非表達性使用”與“合理使用”的任務,增加司法裁量的成本。此外,這也會導致概念體系的精細化而削弱合理使用制度的開放性與靈活性,縮限合理使用制度平衡版權保護與公共利益的功能,產生壓制公眾言論自由的效果,與人工智能時代應提升合理使用地位的現實需求不符。最后,依據轉換性使用理論認定數據訓練行為,將有助于調動法院的主觀能動性,在司法個案中兼顧市場損害分析與合目的性的功能分析,更好地發揮合理使用實現利益平衡的功能,以應對人工智能時代下紛繁復雜的作品使用行為。誠然,轉換性使用理論相較于非表達性使用理論更為抽象,但非表達性使用實質上是轉換性程度較高的作品使用行為,位于光譜的極點附近。這就意味著對于這類典型的轉換性使用行為,可以通過案件的類型化來增加合理使用條款在適用上的可預期性,當該類案件成為指導性案例時,初創的中小型企業也將有能力評估該類行為的法律風險,不會阻滯人工智能技術的創新發展。

具體來說,非表達型機器學習應當構成合理使用,理由如下。首先,非表達型機器學習的作品使用行為僅涉及技術開發、運行階段,即使有結果的輸出也不會在原作品市場上產生替代效應,實質損害著作權人的利益。非表達型機器學習對作品的使用在于提取作品中的事實信息或作品的物理性特征,挖掘了作品的新功能,是一種非公開、非感知的功能性使用。其次,將該類機器學習納入合理使用的范疇,能推動非表達型人工智能領域的發展,對社會公共福祉的增進效益顯而易見。因為該類人工智能廣泛地存在于制藥、生物、醫學研究、金融等與公共福祉密切相關的領域,這些領域的技術創新有助于提高生產效率、優化資源配置、提升公共健康水平等,切實地改善人民的生活質量,將非表達型機器學習行為認定為合理使用,符合合理使用制度追求公平正義的規范價值。需要注意的,雖然大多數非表達型機器學習行為均可構成合理使用,但當特定的非表達型人工智能技術會實質損害公共利益時,可以通過合目的性解釋將上述作品利用行為排除在合理使用的范疇之外。在面對機器學習的倫理和法律問題時,合理使用制度能夠作為矯正不當復制的工具,從而遏制對社會具有危害的技術。

(二)通用表達型機器學習

通用表達型機器學習是指以模仿人類的通用表達為目標而“閱讀”和“學習”海量作品的機器學習范式。該類機器學習能夠根據指令生成為人類所理解的內容,比如以OpenAI的GPT系列模型、谷歌的BERT模型為代表的智能聊天機器人、以Midjourney、Stable Diffusion為代表的文生圖模型等。

通用表達型機器學習在大多數情況下均能構成合理使用,理由有三:首先,通用表達型人工智能在作品中所提取的是人類語言表達的基本規律,屬于不受著作權法保護的“思想”范疇。以ChatGPT為例,其生成文本的技術原理被稱為“自回歸模型”,即根據前面的單詞計算后續單詞的概率,從而生成連貫的文本,可以看到。這種依賴于概率測算輸出文本的模式并不參照數據庫中某個具體的文本,而是運用統計學的概率計算來掌握為人類所普遍接受、理解的語言組合方式,掌握的是人類語言表達的要素標準。

其次,一般情況下,該類人工智能生成的結果并不會與原作品構成實質性相似,對原作品的潛在市場所造成的損害尚不具有“現實可能性”。該類人工智能最終生成的結果與原作品構成實質性相似的概率取決于訓練數據庫的作品量和算法模型的學習能力,數據訓練量越大,算法模型越優,生成的結果與訓練作品構成實質性相似的概率越低。因此,在正常情況下,最終生成的結果是多部作品表達元素的排列組合,數據庫中單個作品對最終生成結果的貢獻是極為微量的。

最后,通用表達型人工智能將輔助人類進行作品創作,提高了作品創作的效率,降低了作品創作的門檻,有利于促進公眾的表達自由、激發文化創新活力。隨著人工智能技術的革新,利用人工智能輔助創作逐漸成為公眾接受的創作方式。人工智能的輔助創作進一步激發了人類作者的創作靈感,也節省了大量冗余、枯燥的工作,作品的創作效率得以提升。日本作家九段理江積極地使用ChatGPT輔助其創作《東京同情塔》,該作品最終榮獲第170屆芥川文學獎,在獲獎感言中,她表示書中大約有5%的內容“一字不差”地取自ChatGPT。清華大學新聞與傳播學院教授沈陽也利用AI平臺創作了科幻作品《機憶之地》,在創作過程中,其與AI進行了66次對話,從AI生成的約43061個字符中,精心挑選了5915個字符,最終形成了這部作品。該作品最終在第五屆江蘇省青年科普科幻作品大賽評選中獲評二等獎。此外,《2023中國網絡文學發展研究報告》稱,網文大模型“閱文妙筆”和“中文逍遙”的發布,輔助提升了創作效率。

由此可見,通用表達型機器學習行為在通常情況下應構成合理使用。但當輸出結果與特定作品構成實質性相似時,該類機器學習行為也未能構成合理使用。

需要注意的是,雖然該類機器學習一般情況下不會對單個作者的作品市場造成實質性損害,但是過度地使用該類人工智能會對整個作者群體造成不良影響,進而抑制創意的可持續發展。人工智能依賴已有的作品和算法以極低的成本進行海量的內容生產,這一方面會使得相對低效的人類創作者因作品不再稀缺而獲得更少的收入,損害著作權的激勵機制;另一方面也會使作品市場產生“劣幣驅逐良幣”的效應,因人類作者被逐漸排擠,作品市場中將充斥著平庸、同質的作品,從而加劇“信息繭房”。對此,有關機器學習合理使用制度的構造應遵循利益平衡理念,在為技術開發者使用海量作品優化作品交易秩序的同時,也應關注作者的利益,否則合理使用制度將淪為服務于特定利益集團商業目標的工具,進一步加固技術壟斷者的市場地位。具體來說,主要包括以下兩個方面:首先,構造義務條款下的“退出-選擇”機制。歐盟關于“文本與數據挖掘”的條款在商業性數據訓練行為中為作者保留了相應的權利。“退出-選擇”機制的構建能夠為著作權人增加談判的籌碼,使其在談判中獲得更多優勢,保障自身權益。其次,設立與著作權人的利益分享機制。“谷歌數字圖書館”案為我們提供了一個良好的證例,在該案中谷歌最終與作者協會達成和解協議,為版權人創設了“伙伴計劃”,使之與谷歌公司共享收益。

(三)特定作者表達型機器學習

特定作者表達型機器學習是指僅輸入特定作者的作品供計算機“學習”和“模仿”,計算機在算法的指導下對作品進行數據分析,其所提煉的作品風格、表達方式、基礎元素等均能彰顯特定作者的個性,最終輸出的內容也能反映該類作者的風格。“下一個倫勃朗”便是該類人工智能的典例,計算機首先對168,263個倫勃朗過往作品的片段進行了分析,再將倫勃朗的繪畫習慣和作品細節轉換成數據供計算機學習,最終形成的人工智能系統能夠根據指令“創作”出具有倫勃朗繪畫風格,但與倫勃朗過往任何作品完全不同的全新數字繪畫作品。

特定作者表達型機器學習一般未能構成合理使用,原因如下。首先,該類機器學習所輸出的結果能夠精準地把握特定作者的風格,滿足了人工智能時代下“實質性相似”的認定標準,會在特定作者的作品市場產生市場替代效應,不能構成合理使用。與人類作者學習和創作的方式與效率不同,人工智能能夠依托算法分析,高效、準確地把握原本屬于“思想”范疇的內容。以模仿貝多芬的風格創作音樂作品為例,人類作者首先要廣泛地學習大量古典音樂,并在反復聆聽和欣賞貝多芬的作品后,經過無數次的創作練習,日積月累最終才可能創作出貝多芬風格的音樂作品,加之個體創作的能力和精力較為有限,創作出貝多芬風格的作品的成本是較高的。而在人工智能的場合下,人工智能能夠在較短的時間內攝入大量貝多芬的作品片段,通過對作品文本的分析尋找有價值的規律,并通過優化模型的方式相對準確、高效地把握貝多芬的樂曲風格。概言之,相較于人類作者,創作貝多芬風格的音樂作品對人工智能來說更為容易。因此,在前人工智能時代,版權法只是保護在先作品的表達,不會導致不同主體之間的利益顯著失衡。在人工智能時代,著作權法有必要進一步擴張“表達”的內涵,使作者具有更廣泛的獲酬權,彌補人工智能時代下被稀釋的作者利益。因此,作品風格也應當被納入“表達”的范疇。在特定作者表達型機器學習的場合下,其所輸出的結果因與原作的風格構成“實質性相似”,會擠壓原作的潛在市場或價值,存在著作權侵權的風險。

當生成結果與訓練作品構成“實質性相似”時,該作品使用行為便構成著作權侵權,不能被認定為合理使用。該觀點在近日“全球AIGC平臺著作權侵權第一案”中得以印證。在該案中,原告發現,當要求被告經營的文生圖網站Tab(化名)生成奧特曼相關圖片時(如輸入“生成一張戴拿奧特曼”),Tab生成的奧特曼形象與原告享有著作權的奧特曼形象構成實質性相似。廣州互聯網法院認為,被告所經營的Tab網站生成的案涉圖片,部分或完全復制了“奧特曼”這一美術形象的獨創性表達,并在保留該獨創性表達的基礎上形成了新的特征,被告侵犯了原告所享有的復制權、改編權。

其次,以市場失靈理論為視角,向特定的作者獲得作品使用的許可不會產生過高的交易成本,不僅是因為特定作者的作品數量是相對有限的,而且特定作者的許可機制是相對統一的,這也就避免了成本障礙型的市場失靈情形,不具有構成合理使用的正當性。

(四)非營利性機器學習

將非營利性機器學習單獨列為一項是因為以公益為目的的作品使用行為符合合理使用維護社會公共利益的內在價值。但對“非營利性”的界定應當嚴格限定,明確、具象地羅列使用目的和適用主體,以此平衡技術開發者與作者的利益。一般來說,非營利性機器學習的主要目的應限定于科學研究。歐盟《單一數字市場版權指令》就為以科學研究為目的的非營利性文本與數據挖掘行為專設了強制性的版權例外保護,并對該條款的適用主體做了嚴格的限定,僅限于科研機構和文化遺產機構。我國在設置非營利性的機器學習合理使用情形時可以參照歐盟的立法規范,對第22條第1項“個人研究”和第6項“科學研究”進行改造,使其能夠適應要使用海量作品的機器學習情形。

五、結論

有關機器學習的合理使用定性關乎人工智能時代的文化繁榮與技術創新。在規范價值層面,將機器學習納入合理使用能在激發作者創新潛力、促進公眾表現自由、保障市場公平競爭、避免算法偏見等多方面增進社會福祉,也具有因市場失靈而免于承擔著作權侵權責任的經濟理性,具有構成合理使用的正當性理由。

在事實認定層面,技術類合理使用案件生動地詮釋了合理使用與技術創新的互動關系,其所提供的歷史經驗為機器學習的合理使用認定提供了重要指引。由于合理使用的認定關注系列行為的整體效果,在考察機器學習是否構成合理使用時應首先重點關注輸出結果對作品市場和社會公共利益的影響,根據輸出結果的差異分類討論機器學習的合理使用性質。在對機器學習的合理使用性質進行類型化分析時,應注意以下兩點:第一,在考察對“作品潛在市場或價值的影響”時應當以損害發生的“現實可能性”為標準,不僅要立足于新技術的發展對版權市場的積極與消極影響,還要關注技術市場對表達自由利益和社會生產力的促進效果。第二,在分析“作品使用目的和性質”時,應采用更寬松的“理性可感知”標準考察對社會公共利益的促進效益,推定機器學習對公眾將帶來積極影響,從而為人工智能技術的創新提供更寬松的發展環境。

具體來說,一般推定非表達型機器學習構成目的轉換性合理使用,但當一項技術明顯存在損害公共利益的情形時,該類機器學習也能被排除在合理使用的范疇之外;通用表達型機器學習在通常情況下構成合理使用,但在該情形下應為著作權人設立“退出-選擇”機制和利益分享機制,以維持作品市場中技術開發者與著作權人之間的利益平衡,保障文化市場的可持續發展;特定作者表達型機器學習所輸出的結果模仿了特定作者的風格,與訓練作品構成“實質性相似”,會在原作品市場產生實質替代效應,不構成合理使用;非營利性機器學習是以科學研究為目的的公益行為,有利于增進社會公共福祉,構成合理使用。

Fair Use in Machine Learning: A Typological Analysis

Abstract: Addressing the copyright legitimacy of machine learning is crucial in the era of artificial intelligence. This paper explores the multi-dimensional benefits of machine learning to social welfare, suggesting that exempting it from copyright infringement liability in cases of market failure is economically rational. Examining fair use cases in technical contexts reveals insights into characterizing fair use in machine learning, emphasizing the importance of considering differences in output results and the cumulative effect of these results.In discussing the categorization of machine learning, we propose adopting criteria such as “realistic possibility” and “rationally perceivable” to allow for innovation. We argue that “non-expressive” and “generally expressive” machine learning may constitute fair use, with mechanisms for copyright holders to opt out or benefit from such use. However, author-specific expressive machine learning, which relies on personalized expression, should not qualify as fair use. Conversely, non-profit machine learning, with its inherent public welfare value, should be considered fair use.

Keywords: Artificial Intelligence; Machine Learning; Fair Use; Technological Innovation; Classification Discussion

基金項目:本文系2023年度國家社科基金重大項目“支持全面創新的知識產權制度體系建構研究”(項目編號:23amp;ZD161)的階段性研究成果。

作者簡介:江璐迪,中南財經政法大學知識產權研究中心博士研究生。

猜你喜歡
機器學習人工智能
我校新增“人工智能”本科專業
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業
IT經理世界(2018年20期)2018-10-24 02:38:24
數讀人工智能
小康(2017年16期)2017-06-07 09:00:59
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
基于支持向量機的金融數據分析研究
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 16:51:29
下一幕,人工智能!
南風窗(2016年19期)2016-09-21 04:56:22
主站蜘蛛池模板: 国产91在线|中文| 丁香综合在线| 日本亚洲最大的色成网站www| 自慰高潮喷白浆在线观看| 无码人中文字幕| 中国丰满人妻无码束缚啪啪| 国产免费看久久久| 欧美www在线观看| 五月天久久综合| 无码国内精品人妻少妇蜜桃视频| 国产成人高清精品免费| 国产真实乱了在线播放| 欧美色图第一页| 性69交片免费看| 欧美.成人.综合在线| 91在线中文| 成年免费在线观看| 五月天福利视频| 免费毛片网站在线观看| 日本成人精品视频| 欧美精品色视频| 青青草91视频| 91美女视频在线| 婷婷激情亚洲| 最新午夜男女福利片视频| a级毛片免费看| 成人国产精品2021| 日本高清有码人妻| 国产精品美女网站| 99视频在线看| 亚洲h视频在线| 人妻无码中文字幕第一区| 成人福利在线视频免费观看| 国产微拍精品| 国产日韩AV高潮在线| 综合色在线| 亚洲视频一区| 中文字幕在线免费看| 国产人前露出系列视频| 亚洲精品欧美重口| 一级黄色欧美| 免费不卡在线观看av| 免费国产在线精品一区| av一区二区三区高清久久| 91久久国产成人免费观看| av大片在线无码免费| 91小视频在线观看| 国产91视频免费观看| 国产亚洲精品精品精品| 国产网站免费看| 国产AV无码专区亚洲精品网站| 波多野结衣一区二区三区AV| 92午夜福利影院一区二区三区| 免费高清自慰一区二区三区| 最新日韩AV网址在线观看| 亚洲日韩精品伊甸| 国产精品无码在线看| 乱人伦99久久| 国产午夜福利在线小视频| 香蕉在线视频网站| 扒开粉嫩的小缝隙喷白浆视频| 午夜在线不卡| 国产免费怡红院视频| 国产va免费精品观看| 69av在线| 国产精品护士| 天堂岛国av无码免费无禁网站| 一级毛片在线播放免费| 97狠狠操| 国产精品视频久| 日本高清成本人视频一区| 毛片视频网| 亚洲天堂免费| 亚洲欧洲天堂色AV| 一级高清毛片免费a级高清毛片| 国产经典在线观看一区| 亚洲综合色在线| 丝袜高跟美脚国产1区| 国产一级视频在线观看网站| 久久综合丝袜日本网| 亚洲 日韩 激情 无码 中出| 成人精品免费视频|