摘 要:文生視頻類生成式人工智能作為一種“新質生產力”,在圖書出版領域中具有廣闊的應用前景。相較于ChatGPT,文生視頻類生成式人工智能Sora可賦能圖書館建設可視化數字資源、虛擬空間建設、智慧服務模式創新與用戶個性化定制服務創新等。但與此同時,它也使圖書館面臨侵犯人身權、知識產權、數據信息、算法安全以及虛假信息等風險的挑戰。鑒于此,為消弭這些法律風險與科技隱患,應加強對人工智能Sora在圖書領域應用風險的有效治理,明確人工智能生成物的著作權歸屬,并在此基礎上進一步強化算法監管,提升圖書館的自我合規能力,使文生視頻類生成式人工智能技術更好地服務于圖書行業的可持續發展,共同營造一個健康有序的人機共存環境。
關鍵詞:文生視頻;Sora;生成式人工智能;圖書出版;治理
中圖分類號:G250.7;TP391.1 文獻標識碼:A DOI:10.11968/tsyqb.1003-6938.2024049
Text-to-Video Artificial Intelligence in the Field of Book Application Scenarios and Effective Governance
Abstract As a kind of "New quality productivity", text-to-video generative artificial intelligence has a broad application prospect in the field of book publishing. Compared with CHATGPT, text-to-video generative artificial intelligence Sora enables the construction of library visual digital resources, virtual space construction, intelligent service model innovation and user personalized service innovation. But at the same time, it also makes the library face the challenges of infringement of personal rights, intellectual property rights, data information, algorithm security and false information. In view of this, in order to eliminate these legal and technological risks, we should strengthen the effective management of the risks of the application of artificial intelligence Sora in the field of books, and clarify the ownership of the copyright of artificial intelligence products, and on this basis to further strengthen the algorithm supervision and enhance library's self-compliance ability so as to make text-to-video generative artificial intelligence technology better serve the sustainable development of the book industry, and jointly create a healthy and orderly human-computer coexistence environment.
Key words text-to-video; Sora; generative artificial intelligence; book publishing; governance
文生視頻類生成式人工智能Sora的出現,意味著人工智能自身的理解能力與內容表達能力實現了新的飛躍。2024年2月,美國OpenAI公司對外公布了一款新型文生視頻生成式人工智能Sora,這是繼ChatGPT之后又一技術革新。“Sora”一詞取自日文“そら”(即天空),旨在表達“無限的創造潛力”之意。根據OpenAI所披露的技術報告顯示,Sora是一款可根據文字描述自動生成高清、連貫、仿真度極高的視頻大模型,它彰顯對物理世界的認知和理解,故被譽為“物理世界的模擬器”。
2024年全國兩會期間,政府工作報告提出“加快發展新質生產力”。從其概念來看,新質生產力是與數字化生產要素相適應的生產力的質的躍進[1]。在數字化時代,生成式人工智能作為一種新質生產力,它具有提高經濟發展效率、優化升級經濟結構、增強經濟韌性等顯著優勢,能充分發揮科技創新的主導作用,以科技創新推動產業創新。與ChatGPT、元宇宙等技術一樣,Sora作為一種新質生產力可在多個行業領域中被廣泛應用。如在影視制作領域,Sora能提高影視創作的效率、降低制作成本,開辟敘事藝術表達新形式[2];在教育領域,Sora有助于實現“教”與“學”的可視化,打造情景化、沉浸式教育,提高學生探索意識與自主學習能力[3];在網絡游戲領域,其能幫助游戲開發者創建多元類型游戲場景和富有表現力的人物角色[4]?;诖耍疚膰L試探討生成式人工智能Sora在圖書行業中的應用場景,并對其可能存在的法律風險進行回應,期冀為我國圖書出版領域的數字化、智慧化建設及發展提供些許建議。
1 人工智能Sora的技術解析與工作機制
與以往發布的人工智能大模型相比,Sora已然突破了過去的技術局限,其在深度學習和多模態處理能力上呈現明顯優勢,尤其在語言識別、機器視覺、圖像生成等方面擁有強大功能。理解人工智能Sora的技術構成及其運作機制,對認識Sora的應用前景、風險防控、有效治理等方面具有重要啟示性意義。
1.1 生成式人工智能Sora核心技術之解析
文生視頻類生成式人工智能技術要比文字或圖片類人工智能技術復雜得多,這是由視頻大模型的技術特征所決定。視頻大模型的難點主要在于視頻圖像時空屬性、視覺連貫性和風格多樣性、動態圖像處理、人機交互性、視覺仿真性等方面。為了攻克這些技術難點,OpenAI在Sora的視頻大模型訓練和處理中,采用“Transformer”+“Patches”+“Diffusion”三位一體結構,最終生成視頻。
Transformer是一種基于自注意力機制和前饋神經網絡進行編碼和解碼的模型,通??杀挥糜谧匀徽Z言處理、計算機視覺和音頻處理[5]。在計算機視覺中,Vision Transformer由嵌入層、Transformer編碼器和MLP Head三個模塊組成[6]。Transformer編碼器主要負責提取輸入圖像的全局特征,通過自注意力機制實現對圖像特征的信息交互或聚合。而Sora就是在這個由嵌入層和Transformer編碼器所形成的潛在空間網絡中進行訓練與學習。OpenAI技術報告中還提到,Sora使用了一種時空圖像塊“Patches”技術。Patches取代了之前ChatGPT訓練模型中的Token,但二者具有相同的功能,它們都是處理文本或圖像塊的最小單位。在Sora的訓練模型過程中,視頻圖像的每一幀畫面都將被切割并轉化為若干個一維向量,即若干個圖像塊Patches[7]。然后通過嵌入層中的“可學習嵌入”和“位置嵌入”機制,分別對圖像塊Patches進行編碼并添加圖像塊序列的時間信息和位置信息,最終獲得一個包含了完整信息的圖像塊。將這些圖像塊輸入到編碼器中以后,就可以進行分類預測[8]。而Sora生成視頻的過程實際上就是通過前一個圖像塊“Patches”去預測、填充并生成下一個圖像塊“Patches”,然后再將一系列圖像塊進行排序與組合,最終形成每一幀完整的圖像。最后,擴散模型Diffusion對Sora影響甚大,它是一種先進的圖像生成模型,通過馬爾科夫鏈映射到潛在空間。擴散模型的基本原理是,它通過在數據中逐步引入噪聲,然后反向去除噪聲,從而生成高質量圖像或音頻。它分為兩個步驟進行:首先是正向過程,即先給圖像模型逐漸添加噪聲,直到圖像被完全損壞;其次是逆向過程,即根據給定的高斯噪聲,逆向逐步恢復圖像原始數據[9]。當Sora完成模型訓練后,隨機輸入高斯噪聲,就能生成圖像。
1.2 生成式人工智能Sora的基本工作原理
Sora作為一款文生視頻大模型,它可根據一段文字描述自動生成畫面高清流暢、內容豐富多樣、一鏡到底的視頻。從其基本工作原理來看,通過指令輸入與識別、對抗生成網絡、生成器網絡、生成視頻等步驟,即可實現從文字內容到視頻效果的轉化。這一技術的出現,預示著視頻制作和內容創作方式的革命性變化。
第一,文本指令輸入與識別。使用Sora進行創作時,使用者首先需要向Sora輸入一段文字指令,或多個關鍵詞,用以描述視頻內容。這些文字被視為內容描述而成為Sora進行作業的依據。在給定的指令條件下,Sora通過海量素材和訓練模型深度學習并理解,進一步解析指令并執行相應操作。基于算法規則,人類輸入的文本指令將被標注為各種不同的詞性、語法分析,這些標注信息將幫助Sora理解句子中的詞匯含義、上下文關系和語法結構,更準確地進行指令解析任務,實現更高效的人機交互[10]。第二,視頻對抗生成網絡。對抗生成網絡是一種通過對抗性訓練學習生成新數據的深度生成模型,被廣泛應用于圖像任務中。它由生成器G和鑒別器D兩個神經網絡組成,能夠通過不同方式操縱空間和時間坐標,來改善運動狀態。這兩個神經網絡通過對抗的方式進行訓練,不斷提升自身的生成和鑒別水平,最終得到逼真的高分辨率生成圖像[11]。第三,生成器生成視頻。生成器網絡是訓練模型的重要組成部分,它由自動編碼器網絡、注意力模塊和記憶模塊構成,在Sora運行中主要負責輸出下一時刻的視頻幀。生成器可根據文本指令生成相應的視頻幀,并將不同視頻幀進行拼湊和補全,最終構成完整的視頻內容。第四,視頻內容輸出。視頻輸出是Sora文生視頻大模型的最后步驟。當生成器生成視頻后,Sora會運用ChatGPT、DALL·E的部分功能,將視頻內容與輸入的文本指令內容不斷進行比對和修改,確保視頻內容能更忠實、全面地符合用戶的預期。視頻輸出后,使用者可通過點擊觀看的方式查看Sora生成的視頻,并對視頻內容進行修改或評價。以上就是Sora生成視頻的全過程,通過這項技術特征可知,Sora的出現將對社會、個人帶來重大影響。
2 人工智能Sora在圖書領域中的應用探索
不同于ChatGPT,Sora是生成式人工智能技術發展進程中重要的里程碑,它的出現將為內容創作者、教育服務、知識生產、娛樂產業以及普通用戶帶來更多可能性。在圖書行業領域中,生成式人工智能Sora也將具有廣闊的應用前景,主要集中在可視化數字資源建設、虛擬空間建設、智慧服務模式創新、用戶個性化定制服務創新等方面。
2.1 可視化數字資源建設
圖書館擁有海量文獻資源,是知識生產的“金礦”,但也面臨文獻利用低和文獻分散等問題。要想讓圖書館中的文獻“活起來”,就必須引進生成式人工智能Sora這個“新質生產力”。Sora具有強大的信息整合能力與視頻內容生成能力,能夠推動圖書館建立可視化數字資源知識庫。具體而言表現在兩個方面:其一,Sora視頻大模型依托海量數據訓練和學習,可將圖書館中原本分散、碎片化的數字文獻資源整合形成互補并建立起體系化的知識庫。它不僅有利于實體文獻的保存與傳播,還能夠強化數字文獻資源之間的聯系與高效利用。其二,Sora作為一個文生視頻類人工智能,具有增強視覺效果的優勢,通過Transformer計算機視覺技術可將文字內容自動轉化為高清仿真視頻,賦能館藏文獻以“文生圖、文生視頻”等多元化形式實現永續保存和傳播。傳統圖書資源主要圍繞實體文獻和電子文獻展開,并在此基礎上進行知識生產。但這種單一資源內容難以滿足圖書館自身的發展需求、以及不同用戶的內容需求,也限制了知識傳播的邊際效應。將Sora與圖書館文獻相結合,發揮Sora強大的視頻生成能力,有利于把浩如煙海的圖書內容轉化為視頻資源,使圖書信息資源產生集合式效果與互換。
2.2 虛擬空間建設
虛擬空間建設是圖書館智慧化發展的新趨勢,它離不開人工智能技術的加持。近年來,我國實踐中元宇宙技術、VR和AR等虛實技術與圖書館融合發展,正嘗試構建“元宇宙圖書館”[12]。但就目前元宇宙技術的發展現狀而言,面臨著內容匱乏且形式單一、設備體量大、運行成本高等問題。Sora被譽為“物理世界的模擬器”,具有強大的模擬能力,可通過視頻大模型構建三維立體式虛擬場景,推動智慧圖書館建設。將Sora與元宇宙技術相結合,能夠為圖書館虛擬空間建設提供內容迥異、風格多樣的視頻內容,豐富元宇宙AIGC的新場景和新內容。在可預見的未來,Sora賦能元宇宙技術后,將促使虛擬空間的建設進入快車道[13]。隨著人工智能技術的發展,在虛擬空間中,Sora憑借自身虛擬現實和增強現實技術,能夠提供高質量的視頻內容和沉浸式體驗感。通過Sora強有力的人機交互能力,能夠準確收集、分析用戶行為數據,為用戶提供更逼真的虛擬現實體驗[14]。在圖書館虛擬空間中,通過Sora這一全新的數字鏡像視角,圖書知識中的人物角色、場景、細節將在數字孿生世界中得到展現,用戶與虛擬人物角色能在虛構空間中進行人機交互,創作出更精彩的故事敘述。作為物理世界的模擬器,Sora擁有內容、情景、條件等要素的整合能力,能為用戶打造虛實融合、智慧化地沉浸式體驗環境[15]。
2.3 智慧服務模式創新
圖書館傳統服務模式主要以實體文本文獻為主,具有一定局限性。從知識傳播的角度來看,傳統的文字閱讀在一定程度上消解了文字的可讀性和知識的全面性。通常而言,文字閱讀會增加語言歧義現象,尤其在漢語言文字中,同一個漢字或詞語在內容含義上存在兩種或多種解釋,很難避免對內容理解時產生“似懂非懂”的結果。Sora具備文生視頻的能力,它可以使知識跳脫難以理解的“抽象、晦澀”藩籬,變得“可視”“可學”,富有趣味性。通過利用Sora文生視頻技術可推動圖書館從提供紙質圖書服務向可視化視頻內容服務的轉變,以更多元化的內容服務為用戶提供更優質的體驗。在智慧咨詢服務中,Sora的適用場景亦可表現在兩個方面:其一,及時為用戶答疑解惑。通過計算機視覺系統和自然語言處理技術,Sora可對用戶提出的問題進行解構,然后以易于理解的方式提供準確答案,用戶僅需通過視頻化的解題過程便可清晰得知解題步驟和解題思路。使用戶“知其然,更知其所以然”,最終提高學習效率。其二,協助查找資料。在查詢資料過程中,人們通常易受無效信息或資料的困擾,通過與Sora的人機交互方式,有助于提高檢索資料的準確性與全面性[16]。除此之外,在智慧推廣服務中,通過Sora文生視頻能力,圖書館可以制作圖書預告片用于介紹書籍、作者或出版社,增加讀者對特定書籍的了解和興趣。還可以視頻的方式發布書評和閱讀體驗,根據不同主題、風格或需求向讀者推薦圖書,提高讀者選擇的準確性和適配度。
Sora雖然能為圖書館的發展帶來前所未有的機遇,但與此同時也會對圖書館人力資源結構帶來深刻影響。從人力資源結構變化的角度來看,Sora將使圖書館某些傳統職業的減少或被替代,以達到可持續發展和就業機會轉型。具體而言,伴隨Sora技術的發展,將增加以下就業機會:(1)視頻圖書創作人員。這些人員將專門根據紙質圖書或電子圖書將文字內容轉化為視頻,確保視頻內容符合文本內容。(2)視頻內容審查和監管人員。隨著Sora技術的普及使用,圖書館需要有人專門負責審核視頻內容的正當性、合法性與合理性。(3)視頻后期處理人員。這些人員將主要負責視頻的后期制作、處理,如對視頻內容進行標識來源、分類管理等。(4)視頻技術研發人員。這些人員應當具有人工智能、算法、大數據合成等專業知識,能夠對視頻內容、效果的生成技術和增強技術進行改進和修復。
2.4 用戶個性化定制服務創新
如果說ChatGPT在用戶個性化定制方面已表現出強大能力,那么Sora所能提供的個人化定制將會更加豐富。從教育服務的角度來看,Sora文生視頻的能力有助于用戶知識學習變得簡單而高效[17]。將Sora與圖書相結合,可將書籍里原本晦澀難懂的知識點變得更易理解。尤其是抽象概念、關系等“只可意會不可言談”的知識點,通過Sora的展示和講解可在現實世界中找到其具體表現;過去曾發生的歷史事實和歷史文獻,通過Sora的視頻模擬,將能情景再現。對于普通用戶而言,在學習上經常面臨知識碎片化的考驗,如果能夠利用Sora將各學科知識以案例再現、虛擬場景的形式進行視頻內容轉化,無疑將幫助用戶建立起完整的知識體系。
在個性化定制服務方面,圖書館可通過Sora為用戶定制個性化學習計劃和知識素材。在日常生活中,學校的標準化教育通常難以實現每個人的個性化發展和需求,往往缺乏對每個學生實際需求的關注。而Sora可根據每個人的觀看記錄、人機交互行為數據,對用戶的興趣愛好、學習進度、知識儲備、學習習慣、學習目標等進行評估,從而生成個性化的課程視頻,為用戶提供更合適的學習資料。在個性化體驗方面,Sora能夠生成視覺上、審美上不同學習風格的視頻供用戶選擇,以提高學習效率和學習興趣。通過分析用戶的行為數據、成長經歷、學習效果,Sora可以在不同的時間、空間環境下為其提供合適的學習內容。考慮到Sora的模型訓練結合了Transformer、Patches、Diffusion等先進技術,代表著算法應用層面的最新發展,因此圖書館可有效利用Sora技術來提高自身的算法創新,更新原有數據和算法模型,從而促進通用模型的自主性和持續學習能力。通過算法技術優化以后,圖書館將能夠為讀者提供更加精準、智慧化的推送服務[18]。如基于用戶的觀看習慣、用戶評價、興趣等,Sora能夠進行播放列表定制和視頻內容推薦,為其創建個性化的播放列表,方便用戶查看自己感興趣的視頻內容。
3 人工智能Sora在圖書領域中的法律風險
Sora在圖書館中的應用可謂前景廣闊,尤其是在文生視頻方面呈現出良好的發展態勢,勢必會對未來的圖書館建設帶來重大變革。由于Sora主要依托海量語料庫和視頻數據等進行訓練和學習,其在圖書館中的應用可能會面臨一些潛在的法律風險。這些法律風險分布在Sora“生成視頻的過程中”與“生成視頻后”兩個階段,主要表現為:侵犯人身權風險、知識產權風險、數據安全風險、虛假信息風險等。
3.1 侵犯人身權的風險
近年來,隨著生成式人工智能技術發展的突飛猛進,其對個人姓名權、肖像權、名譽權、隱私權等人格權益的侵害風險逐步呈擴大趨勢。如利用自然人聲音作為數據進行AI模型訓練。根據民法典規定,這種行為構成侵犯他人聲音利益,也不屬于《著作權法》中“改編、演繹作品”所界定的法定許可范圍。生成式人工智能Sora的出現將使得個人的聲音、肖像等可以被輕松提取與合成,從而引發侵權糾紛[19]。根據《民法典》第1023條之規定,對自然人聲音的保護,參照適用肖像權保護的有關規定。肖像權是指自然人對自己的肖像享有再現、使用或許可他人使用的權利[20]。未經肖像權人同意而使用他人肖像構成侵犯肖像權的行為。Sora視頻大模型是根據視頻、圖像數據而生成模擬視頻,如果使用者未經他人同意輸入他人的肖像或聲音從而生成相同人物圖像和音頻的一段視頻,便可構成侵權。如在實踐中,部分網絡用戶未經死者近親屬同意,利用逝世明星的肖像、聲音制作、發布“AI復活”系列短視頻,以溫情之名非法牟利,構成侵犯死者人格利益的行為。倘若不對Sora所生成視頻的內容進行適當審查或規范,那么Sora無疑將成為侵權人實施侵權行為的“幫兇”。
3.2 知識產權風險
從Sora的視頻大模型訓練過程來看,其在核心技術中常會利用原始視頻或圖像進行壓縮、轉化為一維向量,然后使Sora在潛在空間中進行訓練與學習,最終生成視頻。在對視頻大模型進行訓練時,可能會發生侵犯他人著作權的行為。根據《著作權法》第26條規定,使用他人作品應當經他人許可或同意。如果未經他人許可或同意,且不構成合理使用或法定許可使用的,則構成侵犯著作權的行為。在視頻大模型訓練中,設計者輸入原始文本、圖像或視頻等作品的行為,屬于對原作品的復制行為;而在后續的使用過程中,如果基于原作品進行改寫或者擴展成視頻,則屬于對原作品的改編行為。上述兩種行為如果未經過原作品的著作權人許可,且不構成合理使用的,那么就可能構成侵犯著作權的行為。如在我國首個AIGC平臺侵權案件中,法院認為被告AIGC平臺多次使用侵權數據訓練AI大模型并生成相應侵權圖片,侵犯奧特曼系列作品的復制權和改編權;其未建立投訴舉報機制、欠缺潛在風險提示和顯著標識等行為即表明被告未盡到合理注意義務,應承擔侵權責任①。
結合圖書領域而言,如果要對文生視頻大模型進行訓練,或者想通過在先作品生成視頻,圖書出版商、圖書館等相關主體應事先取得原作品的著作權人許可或同意,以避免發生著作權侵權糾紛。除此之外,當Sora生成視頻以后,該視頻是否具有獨創性與可版權性,還可能存在著作權歸屬爭議。其一,Sora生成的視頻是否屬于著作權法上的“作品”?其二,出版社或圖書館通過Sora生成視頻后,誰是享有視頻作品著作權的法律主體?由此可見,Sora在圖書館中的應用,將為圖書館知識產權保護機制帶來新挑戰。
3.3 數據安全、隱私和算法風險
從Sora的運行機制可知,它通過視頻圖像數據、大量語料庫數據來訓練大模型。這個過程中會涉及視頻圖像數據的抓取、使用者個人信息的收集以及行為數據的采集。如用戶與Sora在人機交互過程中,會產生交互行為數據[21];利用傳感設備、移動操作設備等高精度設備可以獲取文獻信息資源。在Sora大模型訓練過程中,設計者通常利用圖書資源數據和用戶數據訓練文生視頻人工智能模型,以滿足機器自主學習的需求。Sora在運行時所收集的用戶相關數據和信息越多,其能為用戶提供個性化服務的質量就會越高,也能推動圖書館在內容生成、服務創新、知識提取等領域的智能升級[22]。然而,在這個過程中,極易出現Sora過度收集用戶行為數據和個人信息的情形發生。倘若圖書館或設計者在對視頻大模型進行訓練或者在生成視頻的過程中,不遵守法律法規的相關規定,將可能存在數據泄露和數據濫用的風險。如ChatGPT曾被曝光在未遵守“告知同意”規則下,過度收集用戶個人信息且將用戶信息共享給第三方平臺,從而導致用戶數據、信息、隱私泄露。更甚者,如果收集、使用的數據涉及公共利益和國家利益,那么數據泄露則將導致重要機密流失海外。
此外,與其他人工智能一樣,以Sora為代表的文生視頻類生成式人工智能并不是一個沒有任何偏見的工具,其所生成的視頻內容會受到算法規則的影響。算法是人為的產物,Sora所生成的內容很大程度上取決于人類在視頻模型訓練過程中使用了哪些數據和原始視頻作為素材對其進行訓練和學習。這意味著,Sora可能會受到人類的特定政治傾向、價值取向或其他利益的影響,最終產生算法偏見與歧視[23]。如有媒體曾曝光谷歌旗下一款AI Gemini在其生成的圖像中存在種族歧視問題,隨后谷歌對此回應稱Gemini所呈現出的問題,不過是AI領域長期存在的歧視問題的另一種表現。在Sora后期的深度學習和自主學習過程中,由于視頻大模型需要不斷接受數據喂養,如果使用者提供的數據失真、數據樣本不全面或誤導性信息,那么其所生成的視頻內容也將會帶有片面性和偏見性,無法確保輸出內容是客觀且公正的。
3.4 虛假信息風險
隨著生成式人工智能被廣泛應用于文本、圖像、音頻和視頻等各大領域,信息傳播正經歷著深刻變革,大量虛假信息滋生其中。生成式人工智能技術在生成虛假信息方面具有速度快、體量大和仿真性高的特征,它與虛假信息的耦合為虛假信息泛濫提供了“新路徑”[24]。虛假信息是指不符合事實真相的誤導性信息內容。虛假信息的生產者和傳播者通常以隱瞞事實真相為目的,具有故意欺騙和誤導他人的主觀動機。既可能是出于社會動機,也可能是出于個人動機或對抗需要,如操控民眾、損害他人聲譽等[25]。隨著生成式人工智能技術發展與算法演進,信息的深度合成與偽造將會在個人、社會以及國家安全等不同層面產生風險隱患[26]。在實踐中,目前深度合成偽造的現象頻發,如人像換臉、深度美顏、合成特效等情景,對視頻拍攝的內容進行操縱,增加了虛假信息產生的幾率。從社會秩序角度來看,生成式人工智能技術使得虛假新聞、虛假視頻制作成本更低、傳播速度更快、欺騙性更強,給社會秩序和社會信任機制帶來挑戰[27]。在國家安全方面,虛假信息將對政治穩定、國防安全、經濟安全等帶來隱患。因此,在圖書出版領域中,出版商、圖書館在生產視頻內容、提供圖書視頻服務過程中,應盡量確保視頻內容的妥當性與合法性,必要時對視頻制作與內容進行全面審查和監管。
4 人工智能Sora在圖書領域應用風險的有效治理
對生成式人工智能Sora在圖書領域的適用存在的風險進行有效治理,應以促進行業可持續發展為目的,在追求知識生產和風險防控之間尋求平衡,最終實現技術革新與知識傳播。有鑒于此,結合人工智能Sora的技術特征與圖書行業的創新發展,應分別從個人權益保護、著作權保護與權利歸屬、算法監管、提升合規能力等維度進行回應,將法律風險置予可控之范圍內。
4.1 加強對人格權、知識產權的法律保護
在數字圖書領域中,出版商、圖書館等相關主體利用文生視頻類人工智能將文字圖書轉化為視頻圖書,在制作視頻時應當避免侵犯他人姓名、肖像、名譽、聲音等人身利益的行為。對視頻大模型進行訓練時,如果訓練數據樣本中涉及使用他人肖像、聲音等人格利益,應當事先取得他人授權或許可,且授權的內容和范圍亦應明確清晰。如果需要收集用戶、讀者的個人信息進行模型訓練,根據《民法典》《個人信息安全法》的相關規定,個人信息處理者在收集個人信息時應當取得個人的同意,且應遵循比例原則,將可能給個人造成的損害限制在最小范圍。使用個人信息時,不得超出授權范圍而使用,不得另作其他商業性用途。
從作品授權層面而言,生成式人工智能大模型的訓練通常需要海量素材和原始作品作為數據樣本,才能生成文本內容、圖像或視頻。因此,在大模型訓練時,為減少基于使用在先作品帶來的授權許可壓力和成本,可以通過建立一個集體管理組織來專門負責在先作品著作權的授權和許可工作。通過集體管理組織的授權或許可,有利于降低締約成本和時間成本,生成式人工智能的設計者、服務提供者便可在大模型訓練階段付費使用在先作品進行訓練。如果發生侵權行為,集體管理組織還可代表原著作權人進行維權。
4.2 明確Sora生成視頻的著作權歸屬
出版商、圖書館使用文生視頻類生成式人工智能Sora生成視頻后,尚且存在兩個問題有待解決:第一,Sora生成的視頻是否屬于著作權法上的“作品”?第二,該作品的著作權歸屬主體是誰?有觀點認為攝影作品的著作權保護路徑對生成式人工智能創作物的可版權性具有重要的啟示意義[28]。那么攝影作品的獨創性體現在哪些方面?通常而言,攝影作品是由攝影師事先設定相機參數、構圖創意、選取場景和拍攝角度、光影技術等再按下快門鍵。由此所拍攝的照片便能體現攝影者的審美取向,通常會被認為具有獨創性[29]。對比生成式人工智能Sora而言,人們在使用Sora時,通過設定提示詞或限定詞的方式按照算法規則輸入最終生成符合使用者預期的文本內容或圖像。這個過程同樣能體現使用者的創造性勞動,而非簡單的機械性過程。如在我國首個“圖片類生成式人工智能創作”判決書中,法院認為使用者在設計人物的呈現方式、選擇提示詞、安排提示詞順序、設置相關參數、選擇符合預期的圖片等方面均體現使用者的智力投入和個性化選擇,因此人工智能創作物具備“智力成果”和“獨創性”要件,應當認定為作品①。雖然這起案件本身涉及的是“圖片類”生成式人工智能作品,但其裁判結論對文生視頻類生成式人工智能Sora所生成的視頻被視為作品具有重要的參考意義。從Sora生成視頻的運行原理來看,出版商、圖書館作為使用者輸入提示詞、設定參數后通過Sora生成相應視頻,其所輸入的提示詞、設定參數等行為同樣體現了出版商、圖書館作為使用者的個性化選擇和智力投入,因此生成式人工智能所生成的視頻構成著作權法意義上的作品,應受著作權法保護。
生成式人工智能Sora生成視頻以后,該視頻的著作權歸誰?對這一問題,目前存在兩種不同觀點。一種觀點認為,文生視頻大模型生成的視頻作品融入人類的智力活動,屬于人類的智力成果[28]。另一種觀點認為,機器學習技術下的算法自由實現了算法創作物的表達自由。其表達過程已不再受人類控制,表達結果已超出人類預期,不能將輸入提示詞得到AI創作物的用戶確立為作者[30]。對此,筆者認為,文生視頻類生成式人工智能Sora生成視頻的著作權歸屬應先遵循意思自治原則,沒有約定或者約定無效的,則按貢獻程度的動態認定模式進行確定。意思自治乃民法之根基,知識產權法雖作為民事特別法,亦應遵循民法“私人自治”的核心價值。如OpenAI公司作為生成式人工智能的設計者和服務提供者,其在“使用協議”中已明確約定:“在用戶和OpenAI之間,用戶保留輸入內容的所有權;且同時OpenAI將輸出中的所有權利、所有權和利益轉讓給用戶?!庇纱丝芍?,當存在著作權歸屬的有效約定時,該約定只要不違反法律法規則屬有效,應優先適用。如果關于著作權歸屬的協議約定無效或者未明確約定的,則按照使用者與設計者、服務提供者之間的貢獻程度進行確定。在人機協作過程中,AI使用者、AI設計者、AI服務提供者之間實際上存在著共同創作的關系。在這種共創模式下,很難一概而論地就斷定哪一方就是著作權主體。因此,可以采用“按照貢獻程度”的動態認定模式去判斷AI作品的著作權歸屬。這種認定模式與著作權法中作品的“智力成果”要件以及“獨創性”要件之標準相契合,是一種根據個案中各方主體在AI作品內容中的實質性貢獻程度大小來認定作品的著作權歸屬,有利于平衡各方之間的利益關系,實現公平正義價值。
就圖書出版領域而言,圖書館在使用生成式人工智能Sora生成視頻后,該視頻的著作權歸屬認定邏輯是:約定優先,沒有約定或者約定無效的,則按照貢獻程度的動態認定模式進行確定。其中“貢獻程度”應聚焦于最終呈現的版權法意義上的作品“內容”進行判斷,根據圖書館、AI設計者、AI服務提供者等主體與AI作品之間的關聯性、內容策劃和設計、研究和分析、數據收集和統計、資金投入、智力投入程度、有償或無償等要素動態認定。如圖書館將圖書文本內容作為提示詞輸入生成式人工智能Sora生成相應視頻,輸入的提示詞越詳細,其與最終視頻作品內容的關聯性越高,該視頻的著作權應由圖書館享有。
4.3 強化人工智能算法監管
我國在算法領域目前制定了以場景和架構為基準的算法標準、法律法規。如《信息服務算法推薦管理規定》《算法綜合治理的指導意見》《深度合成管理規定》以及《機器學習算法安全評估規范》(征求意見稿)等。但面對人工智能技術帶來的種種挑戰,僅憑法律一己之力實難完全應對。基于人工智能的技術風險外溢所呈現的安全隱患,有必要重新審視人工智能的治理理念。就此而言,對生成式人工智能算法治理需要秉持“協同共治”的治理理念,強調多元力量共同參與。
在協同共治的治理理念下,對生成式人工智能Sora的治理主要包括治理主體多元性、法律功能互補性、治理模式協同性、價值取向公共性等內容。(1)治理主體多元性。人工智能技術匯聚互聯網、大數據、云計算等現代信息技術,在創新發展與場景運用過程中,各方主體都對人工智能的治理存在不同關切。政府、人工智能開發者和設計者、圖書館、公眾等,在涉及人工智能的關系網絡中都不同程度地扮演“實質性參與”角色。鑒于此,應當建立一個由政府主導、圖書館和研究技術人員等社會力量參與的多元主體共治平臺。(2)法律功能互補性。承前所述,人工智能Sora在生成視頻過程中與視頻生成后可能存在多方面法律風險,甚至可能涉及刑事風險。因此,不僅涉及民事法律,而且關乎行政、刑事法律法規,故需要私法與公法的協同和互補。(3)治理模式協同性。現階段我國正嘗試建立以政府監管部門為主、行業合規自治為中心的動態調整治理模式。但在技術發展過程中,對人工智能產品引發的新問題和新風險的防控機制尚存在不足。面對同一問題,德國建立了由算法倫理委員會和自動化決策系統專家等第三方組成的獨立組織,適當介入參與治理。加強第三方監管,可在一定程度上保證自動決策和算法的公正性和透明性[31]。且第三方參與具有一定獨立性,有利于降低監管成本。(4)價值取向公共性。人工智能算法治理應弘揚人文價值,這不僅是人工智能技術發展的道德要求,也是倫理規范。為了應對人工智能Sora在圖書領域運用的風險與挑戰,應強化對人機交互關系的倫理規約和行業自律規范,防止“算法黑箱”對人的主體地位、認知團結和共識凝聚的潛在威脅。當前,算法黑箱正在“加劇社群內部分化,部分弱勢群體或將面臨信息不透明的挑戰,又或是成為算法霸凌的受害者,動搖普遍意義上的人本主義立場”[32]。人類社會不能以人機關系替代人際關系,不能讓人工智能判斷替代人類價值判斷,不能讓機器數據和算法共識替代人類的普遍共識。因此,在算法監管方面還應當堅持法律與道德、倫理以及行業自律規范協同共治、并駕齊驅的治理模式,共同維護國家主權、公共利益和圖書行業的發展利益,使治理成為一種善治。
4.4 提升圖書館的自我合規能力
由于人工智能Sora主要以自動生成視頻為載體,因此圖書館應當建立起與視頻內容相關的風險防范機制。這主要涉及視頻內容審查與虛假信息防范兩個方面。就視頻內容審查而言,應分別建立實質性審查與形式審查相結合的模式。在內容實質性審查上,為避免人工智能生成的視頻內容存在有害、色情、歧視性或不道德內容,應以公序良俗、社會主義核心價值觀作為視頻內容的一般審查標準。加強對中華優秀傳統文化的保護,提升文化自信,杜絕包含宣揚暴力、分裂社會、制造對立、侮辱性等色彩的視頻內容輸出。在形式審查上,應根據《深度合成管理規定》《生成式人工智能服務內容標識方法》的規定履行內容標識義務[26]。標識的方式主要有兩種:即顯式水印標識和隱式水印標識。顯式水印標識是指在人工智能生成內容的顯示區域中添加顯示帶有“由人工智能生成”或“由AI生成”的提示文字;隱式水印標識是指在由人工智能生成的圖片、音頻、視頻時,應通過時空域水印或變換域水印的方式實現標識信息。通過這種方式要求相關主體在發布、傳播Sora生成的視頻內容時應以顯著的方式對視頻來源、內容質量進行標識和審查,能夠強化主體責任。
為了保障信息內容安全,營造清朗的網絡環境與維護社會穩定,圖書館在運用人工智能Sora時,應構建起虛假信息的防范機制。《生成式人工智能服務管理暫行辦法》第15條規定了“投訴、舉報”規則以及辟謠機制,要求對虛假信息的生成和傳播進行預測、監控及治理。在圖書館利用人工智能搭建起的數字化信息平臺中,用戶與Sora進行人機交互時可隨時上傳、發布、共享自己創作的視頻作品。對于這些視頻作品內容的妥當性、真實性與合法性,圖書館應當及時進行審查,建立動態監管機制,防止有害信息、虛假信息流動到公眾視野。圖書館對虛假信息防范的范圍應適當明確,即以有害信息控制為目的,以維護國家安全和社會安全為基本要求,推動中國式現代化進程中的數字文化強國建設。然而,對虛假信息的治理并非一家之責,還需立足于現行法律法規結合技術發展水平,探索多手段合作治理的路徑,才能真正建立起健康有序的人機共存的生態。
5 結語
以Sora為代表的文生視頻類生成式人工智能的誕生,標志著人工智能技術發展有了質的飛躍。當下階段,人工智能技術正成為一種“新質生產力”,衍生出多樣化的應用場景與業態。文生視頻類生成式人工智能在圖書領域中有著廣泛的應用前景,包括建立可視化數字資源知識庫、建設虛擬空間、創新智慧服務模式、實現個性化定制服務體驗等。但與此同時,其也帶來了侵犯人身權、知識產權、數據安全、算法以及增加虛假信息等風險。為消除這些法律風險和科技隱患,讓科技能更好地服務于圖書行業的可持續發展,應當加強對人格權、知識產權的法律保護,厘清Sora生成視頻的著作權歸屬。在此基礎上進一步強化算法監管和視頻內容審查,以營造清朗的網絡環境,建立一個健康有序的人機共存發展前景。
參考文獻:
[1] 何自力.新質生產力理論的科學內涵和時代意義[J].中國高校社會科學,2024(3):4-14,157.
[2] 令小雄,王鼎民,唐銘悅.ChatGPT到Sora:Sora文生視頻大模型對影視創作的機遇、風險及矯治[J].新疆師范大學學報(哲學社會科學版),2024(6):91-99.
[3] 朱光輝,王喜文.人工智能文生視頻大模型Sora的核心技術、運行機理及未來場景[J].新疆師范大學學報(哲學社會科學版),2024,45(4):149-156.
[4] Perez-Liebana D,Liu J L,Khalifa A,et al.General Video Game AI:A Multitrack Framework for Evaluating Agents,Games, and Content Generation Algorithms[J].IEEE Transactions on Games,2019,11(3):195-214.
[5] 周誠辰,于千城,張麗絲.Graph Transformers研究進展綜述[J].計算機工程與應用,2024(1):1-14.
[6] Beraldo G,De Benedictis R,Cesta A,et al.Toward AI Enabled Commercial Telepresence Robots to Combine Home Care Needs and Affordability[J].IEEE Robotics And Automation Letters,2023,8(10):6691-6698.
[7] Luo G,Zhou Y,Sun X,et al.Towards Lightweight Transformer Via Group-Wise Transformation for Vision-and-Language Tasks[J].IEEE Transactions On Image Processing,2022,31:3386-3398.
[8] Afrasiabi M,Khotanlou H,Mansoorizadeh M.DTW-CNN:time series-based human interaction prediction in videos using CNN-extracted features[J].The Visual Computer,2020,36(6):1127-1139.
[9] Croitoru F A,Hondru V,Ionescu R T,et al.Diffusion Models in Vision:A Survey[J].IEEE Transactions On Pattern Analysis And Machine Intelligence,2023,45(9):10850-10869.
[10] Wu C H,Liu C H.Sentence Correction Incorporating Relative Position and Parse Template Language Models[J].IEEE Transactions on Audio Speech and Language Processing,2010,18(6):1170-1181.
[11] Xiao J,Bi X J.Multi-Scale Attention Generative Adversarial Networks for Video Frame Interpolation[J].IEEE Access,2020,8:94842-94851.
[12] 郎林芳,黃世晴,王玨,等.元宇宙圖書館閱讀推廣服務創新發展研究[J].圖書館雜志,2023,42(10):55-63.
[13] 喻國明,蘇芳.作為真實世界模擬器的媒介與后真相時代的“撥亂反正”[J].新疆師范大學學報(哲學社會科學版),2024,45(4):143-148.
[14] 柯和平,龔自振,謝海先.智慧圖書館建設中混合式智慧學習空間的構建研究[J].現代教育技術,2024,34(4):112-121.
[15] 陸道坤,陳吉鈺.Sora:學校教育的“終結者”還是“拯救者”[J].新疆師范大學學報(哲學社會科學版),2024(6):110-125.
[16] 杜牧真.智慧圖書館建設背景下圖書館交互數據的權利定位與全能[J].圖書館建設,2024(1):96-107.
[17] 馮雨奐.AIGC時代教育的視頻化轉向及其風險應對——由文生視頻模型Sora引發的思考[J].思想理論教育,2024(5):27-33.
[18] 尹克寒,陳紀文.AGI浪潮下Sora何以賦能智慧圖書館建設[J].圖書館理論與實踐,2024(3):12-19.
[19] 李濤.論聲音權在人格權編中的確立[J].三峽大學學報(人文社會科學版),2019,41(3):92-96.
[20] 馬俊駒,余延滿.民法原論(第四版)[M].北京:法律出版社,2016:107.
[21] 王藝,曹越.AIGC技術賦能下圖書選題智能策劃系統的技術邏輯與體系建構[J].出版發行研究,2024(2):31-37.
[22] 趙楊,張雪,范圣悅.AIGC驅動的智慧圖書館轉型:框架、路徑與挑戰[J].情報理論與實踐,2023,46(7):9-16.
[23] 鐘曉東.論生成式人工智能的數據安全風險及回應型治理[J].東方法學,2023(5):106-116.
[24] 胡泳.人工智能驅動的虛假信息:現代與未來[J].南京社會科學,2024(1):96-109.
[25] 李衛東.數字組織論[M].武漢:華中科技大學出版社,2022:113.
[26] 漆晨航.生成式人工智能的虛假信息風險特征及其治理路徑[J].情報理論與實踐,2024,47(3):112-120.
[27] 胡泳.AI視頻的興起:Sora類生成式平臺的可能性與風險[J].傳媒觀察,2024(4):5-19.
[28] 叢立先,李泳霖.人工智能文生視頻大模型的作品風險、著作權歸屬及有效治理[J].新疆師范大學(哲學社會科學版),2024(6):153-163.
[29] 徐小奔.論算法創作物的可版權性與著作權歸屬[J].東方法學,2021(3):41-55.
[30] 徐小奔.論人工智能生成內容的著作權法平等保護[J].中國法學,2024(1):166-185.
[31] 張淑玲.破解黑箱:智媒時代的算法權力規制與透明實現機制[J].中國出版,2018(7):49-53.
[32] 曹克亮.Sora的意識形態效應及其治理[J].統一戰線學研究,2024(3):166-178.
作者簡介:李濤(1993-),男,中南財經政法大學法學院博士研究生,研究方向:民商法學、知識產權法。