AI語音合成技術(shù)在有聲出版中的法律風(fēng)險(xiǎn)及其治理策略：域外經(jīng)驗(yàn)與中國方案

2025-09-06 00:00:00張炎坤

出版科學(xué) 2025年3期

[摘要] 作為推動(dòng)有聲出版行業(yè)數(shù)字化轉(zhuǎn)型的新質(zhì)生產(chǎn)力，AI語音合成技術(shù)在重構(gòu)生產(chǎn)模式與產(chǎn)業(yè)生態(tài)的同時(shí)，衍生出人格權(quán)益保護(hù)、著作權(quán)合規(guī)及數(shù)據(jù)安全治理三重法律風(fēng)險(xiǎn)。比較法研究表明，美國通過分層立法模式構(gòu)建了有效的風(fēng)險(xiǎn)防控體系，歐盟則依托統(tǒng)一立法強(qiáng)化了透明度管理與平臺(tái)責(zé)任落實(shí)。借鑒域外治理經(jīng)驗(yàn)并結(jié)合我國治理需求，建議構(gòu)建“權(quán)利界定－規(guī)則適配－風(fēng)險(xiǎn)防控”的復(fù)合型法律框架，包括：明確聲音權(quán)的獨(dú)立法律地位并完善侵權(quán)認(rèn)定標(biāo)準(zhǔn)，制定針對著作權(quán)使用與傳播的合規(guī)規(guī)則，以及強(qiáng)化聲音數(shù)據(jù)在采集、存儲(chǔ)及跨平臺(tái)共享中的安全管理。同時(shí)，應(yīng)積極推動(dòng)國際合作，建立跨國合作機(jī)制以應(yīng)對全球治理挑戰(zhàn)。通過國內(nèi)治理框架與國際協(xié)作機(jī)制的規(guī)則銜接，為有聲出版行業(yè)的健康、有序發(fā)展提供全面的制度保障。

[關(guān)鍵詞] AI語音合成技術(shù) 有聲出版法律風(fēng)險(xiǎn) 域外治理經(jīng)驗(yàn)

[中圖分類號] G237.9 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號] 1009-5853 （2025） 03-0027-12

Legal Risks and Governance Strategies of AI Speech Synthesis Technology in Audio Publishing： Foreign Experience and the Chinese Approach

Zhang Yankun

（Center for Studies of Intellectual Property Rights，Zhongnan University of Economics and Law，Wuhan，430073）

[Abstract] As an emerging productive force driving the digital transformation of the audio publishing industry， AI speech synthesis technology is not only reshaping production models and industrial ecosystems but also engendering three critical legal risks： the protection of personality rights， copyright compliance， and data security governance. A comparative legal analysis indicates that the United States has developed a multilayered legislative framework to effectively mitigate risks， whereas the European Union has adopted a unified legislative approach to enhance transparency regulation and platform accountability. Drawing upon foreign regulatory experiences and integrating them with China’ s governance imperatives， this study proposes a composite legal framework based on the tripartite structure of “rights definition–regulatory adaptation–risk prevention.” This framework entails establishing the independent legal status of voice rights and refining the criteria for infringement determination， formulating compliance regulations for the use and dissemination of copyrighted content， and strengthening security governance in the collection， storage， and cross-platform sharing of voice data. Simultaneously， proactive international cooperation should be pursued through the establishment of transnational regulatory mechanisms to address global governance challenges. By fostering the convergence of domestic regulatory frameworks with international legal mechanisms， this approach seeks to provide a robust institutional safeguard for the sustainable and orderly development of the audio publishing industry.

[Key words] AI speech synthesis technology Audiobook publishing Legal risks Foreign governance experience

數(shù)字出版產(chǎn)業(yè)的快速發(fā)展正在重構(gòu)有聲出版市場格局，據(jù)大觀研究（Grand View Research）預(yù)測，全球有聲出版市場規(guī)模至2030年有望達(dá)到354.7億美元[1]。作為有聲出版行業(yè)的新質(zhì)生產(chǎn)力，AI語音合成技術(shù)憑借高效、智能與個(gè)性化等優(yōu)勢，迅速成為催生有聲出版生產(chǎn)模式變革的關(guān)鍵“引擎”。據(jù)統(tǒng)計(jì)，AI合成語音相較人工錄制可提升生產(chǎn)效率達(dá)50倍，大幅縮短內(nèi)容生成周期并降低了運(yùn)營成本[2]。目前，該項(xiàng)技術(shù)已在教育出版、新聞播報(bào)以及個(gè)性化內(nèi)容服務(wù)等諸多場景得到廣泛應(yīng)用，正深刻影響著有聲出版的生態(tài)格局。不過，技術(shù)紅利的快速釋放往往伴隨著法律風(fēng)險(xiǎn)的暗流涌動(dòng)。2023年，全國首例AI生成聲音侵權(quán)案就已經(jīng)為我國有聲出版行業(yè)敲響警鐘[3]。更讓人擔(dān)憂的是，學(xué)界迄今對AI語音合成技術(shù)在有聲出版領(lǐng)域可能引發(fā)的法律爭議，多停留于零散討論，尚缺乏系統(tǒng)化、可操作的應(yīng)對框架[4]。如何在技術(shù)變革與法律滯后之間進(jìn)行利益平衡，使有聲出版行業(yè)既能充分擁抱AI語音合成技術(shù)賦予的智能化生產(chǎn)力，又不至于陷入潛在法律風(fēng)險(xiǎn)的泥沼，成為當(dāng)務(wù)之急。

本文從AI語音合成技術(shù)的基本原理切入，系統(tǒng)梳理其在有聲出版領(lǐng)域的多樣化應(yīng)用場景，并深入分析行業(yè)實(shí)踐中可能面臨的主要法律風(fēng)險(xiǎn)。鑒于AI語音合成技術(shù)的全球性特征，各國在應(yīng)對該挑戰(zhàn)時(shí)的法律調(diào)整不僅進(jìn)一步深刻影響國內(nèi)利益格局，還將重塑其在國際信息流動(dòng)中的法律地位與競爭力。因此，本文將從比較法的視角分析域外主要法域的相關(guān)立法經(jīng)驗(yàn)，并結(jié)合我國國情，探討如何在現(xiàn)有法律框架下尋求技術(shù)與法律之間的平衡，以期為有聲出版產(chǎn)業(yè)在“AI+出版”時(shí)代的健康發(fā)展提供理論支撐。

1 AI語音合成技術(shù)及其在有聲出版行業(yè)中的應(yīng)用

1.1 AI語音合成技術(shù)原理概述

AI語音合成技術(shù)是一種基于深度學(xué)習(xí)框架的跨模態(tài)映射技術(shù)，通過文本解析、聲學(xué)建模、聲碼器生成及情感建模四個(gè)核心模塊，實(shí)現(xiàn)語言符號向自然語音的高效、精準(zhǔn)轉(zhuǎn)換，在有聲出版等內(nèi)容生產(chǎn)領(lǐng)域具有重要的技術(shù)支撐作用。文本預(yù)處理是AI語音合成的起始環(huán)節(jié)[5]。首先，相較于依賴傳統(tǒng)規(guī)則驅(qū)動(dòng)的解析方式，AI語音合成依托自然語言處理技術(shù)，實(shí)現(xiàn)對語言符號的動(dòng)態(tài)建模，從而提升語義解析的精確度，并增強(qiáng)文本輸入的語境適應(yīng)性[6]。其次，聲學(xué)建模通過深度學(xué)習(xí)模型替代傳統(tǒng)隱馬爾可夫模型，成功規(guī)避了由于靜態(tài)參數(shù)固化所引發(fā)的局限性，進(jìn)而促使合成語音具備更加流暢且自然的特質(zhì)[7]。再次，聲碼器生成利用神經(jīng)網(wǎng)絡(luò)聲碼器（如WaveNet）來實(shí)現(xiàn)聲學(xué)特征到波形的動(dòng)態(tài)映射，使合成語音具有更高的音質(zhì)和自然度。最后，情感與個(gè)性化建模突破了傳統(tǒng)語音合成在音高、語調(diào)和節(jié)奏上的靜態(tài)規(guī)則，使AI語音能夠根據(jù)不同應(yīng)用場景傳達(dá)豐富的情感特征，同時(shí)實(shí)現(xiàn)個(gè)性化音色定制，為用戶提供更加沉浸式的聽覺體驗(yàn)[8]。

1.2 AI語音合成技術(shù)在有聲出版中的應(yīng)用場景變革

AI語音合成技術(shù)重塑了有聲出版行業(yè)的生產(chǎn)模式、服務(wù)模式和產(chǎn)業(yè)結(jié)構(gòu)，帶來從效率到生態(tài)層面的多重躍遷。

從“匠人之作”到“規(guī)模之力”的生產(chǎn)模式顛覆。傳統(tǒng)有聲出版依賴人類配音，成本高、效率低，導(dǎo)致市場長期供需失衡。AI語音合成技術(shù)突破了該瓶頸，使文本可自動(dòng)轉(zhuǎn)換為高質(zhì)量語音，大幅降低生產(chǎn)成本并提高效率。例如，喜馬拉雅珠峰語音實(shí)驗(yàn)室的文語轉(zhuǎn)換技術(shù)每分鐘可處理3000字[9]；反思音頻（Reflect Audio）的AI有聲讀物平臺(tái)每日可生產(chǎn)超過500萬字內(nèi)容，生產(chǎn)成本降低90%以上[10]。因此，技術(shù)革新降低了有聲內(nèi)容生產(chǎn)的準(zhǔn)入門檻，使中小出版機(jī)構(gòu)和獨(dú)立創(chuàng)作者得以低成本進(jìn)入市場，從依賴個(gè)體技能的“小規(guī)模精作”，邁向依托技術(shù)驅(qū)動(dòng)的“大規(guī)模工業(yè)化”生產(chǎn)階段。

從“同質(zhì)內(nèi)容”到“個(gè)性體驗(yàn)”的服務(wù)模式延展。AI語音合成技術(shù)對有聲出版的價(jià)值不僅體現(xiàn)在規(guī)模化生產(chǎn)的“量變”，更在服務(wù)模式上實(shí)現(xiàn)了“質(zhì)變”突破。首先，AI語音合成的多語言能力推動(dòng)了有聲出版的全球化發(fā)展。如谷歌語音合成系統(tǒng)（Google Text-to-Speech）支持40多種語言的語音合成，并能根據(jù)需求調(diào)整語調(diào)與情感表達(dá)，大幅降低了跨文化傳播的障礙[11]。其次，AI語音合成技術(shù)展現(xiàn)了普惠性價(jià)值，尤其為視障人士和老年群體提供了更便捷的信息獲取渠道。例如，微軟語音服務(wù)平臺(tái)（Azure Speech Studio）與心目圖書館合作，將大量書籍轉(zhuǎn)換為適合視障人士的有聲讀物，體現(xiàn)了AI語音合成技術(shù)在信息平等與社會(huì)包容方面的重要價(jià)值[12]。此外，AI語音合成技術(shù)更重塑了用戶個(gè)性化體驗(yàn)。如微信“作者音色朗讀”功能使內(nèi)容創(chuàng)作者能夠使用自己的聲音朗讀文章[13]，不僅保留創(chuàng)作者風(fēng)格，還增加了傳播方式的人性化與個(gè)性化設(shè)計(jì)。

從“分工體系”到“智慧生態(tài)”的行業(yè)形態(tài)躍遷。AI語音合成技術(shù)推動(dòng)有聲出版產(chǎn)業(yè)由傳統(tǒng)的分工式布局向動(dòng)態(tài)協(xié)同的“智慧生態(tài)”范式演進(jìn)。在教育出版領(lǐng)域，智能語音模塊賦予教材內(nèi)容以個(gè)性化學(xué)習(xí)路徑的適配能力[14]。具體而言，通過掃描教材內(nèi)的二維碼即可獲取可調(diào)節(jié)語速、語調(diào)的音頻講解，實(shí)現(xiàn)精準(zhǔn)教學(xué)。在新聞出版領(lǐng)域，新華社“AI合成主播”通過端到端語音合成架構(gòu)，實(shí)現(xiàn)新聞文本向音頻的高效轉(zhuǎn)換[15]。因此，該技術(shù)顯著促進(jìn)了數(shù)據(jù)互通與產(chǎn)業(yè)共融，推動(dòng)有聲出版業(yè)從單一產(chǎn)品輸出向數(shù)據(jù)驅(qū)動(dòng)的智能內(nèi)容運(yùn)營模式轉(zhuǎn)型。

2 AI語音合成技術(shù)在有聲出版中的法律風(fēng)險(xiǎn)

AI語音合成技術(shù)雖顯著提升了有聲出版行業(yè)的生產(chǎn)效率與內(nèi)容供給靈活性，但同時(shí)也引發(fā)了圍繞人格權(quán)、著作權(quán)及數(shù)據(jù)安全等領(lǐng)域的多重法律爭議。若缺乏系統(tǒng)性、可操作性的制度安排，勢必對技術(shù)紅利的持續(xù)釋放形成掣肘，并導(dǎo)致法律規(guī)制滯后于技術(shù)發(fā)展，從而引發(fā)更廣泛的合規(guī)與治理困境。本文擬從人格權(quán)、著作權(quán)及個(gè)人數(shù)據(jù)安全三大核心維度，系統(tǒng)梳理AI語音合成技術(shù)在有聲出版領(lǐng)域面臨的法律挑戰(zhàn)。

2.1 侵犯人格權(quán)風(fēng)險(xiǎn)

AI語音合成技術(shù)對自然人聲音數(shù)據(jù)的深度依賴，使其在應(yīng)用中潛藏著對聲音權(quán)、名譽(yù)權(quán)和隱私權(quán)等多重侵害風(fēng)險(xiǎn)，甚至波及死者人格權(quán)益。由于技術(shù)的隱蔽性與濫用性，傳統(tǒng)法律框架在對其進(jìn)行有效規(guī)制時(shí)面臨諸多挑戰(zhàn)。

首先，聲音權(quán)侵權(quán)風(fēng)險(xiǎn)尤為突出。《民法典》第1023條雖賦予自然人對其聲音獨(dú)立的人格權(quán)益，但并未就“聲音權(quán)”進(jìn)行細(xì)化立法或作具體司法解釋，這導(dǎo)致AI深度合成技術(shù)在“仿聲”領(lǐng)域的應(yīng)用處于灰色地帶。當(dāng)技術(shù)能高度克隆個(gè)人聲線、語調(diào)乃至情感表達(dá)時(shí)，權(quán)利人對自身聲音的控制權(quán)便面臨被侵蝕風(fēng)險(xiǎn)。例如，北京互聯(lián)網(wǎng)法院在全國首例AI合成聲音侵權(quán)案中，認(rèn)定平臺(tái)擅自克隆配音演員聲音構(gòu)成侵權(quán)，但由于缺乏統(tǒng)一標(biāo)準(zhǔn)，平臺(tái)仍常以“技術(shù)中立”或“用戶默認(rèn)許可”為由規(guī)避責(zé)任，加劇了維權(quán)難度[16]。

其次，AI合成語音若被用于惡搞或傳播虛假言論，可能誤導(dǎo)公眾評價(jià)權(quán)利人，構(gòu)成名譽(yù)侵權(quán)。同時(shí)，不當(dāng)采集與傳播聲音樣本可能泄露個(gè)人偏好與習(xí)慣等敏感信息，威脅隱私權(quán)。例如，利用知名企業(yè)家雷軍的聲音制作“起床鬧鐘”在網(wǎng)絡(luò)平臺(tái)上傳播甚至售賣，既侵犯其隱私，亦貶損其聲譽(yù)[17]。而商業(yè)化濫用則進(jìn)一步放大了該問題，使權(quán)利人難以及時(shí)制止侵權(quán)內(nèi)容的傳播與“二次創(chuàng)作”。

最后，針對已故人物聲音的復(fù)刻和傳播，爭議同樣顯著。盡管《民法典》第994條規(guī)定了死者人格權(quán)益的保護(hù)原則，但實(shí)務(wù)中對如何區(qū)分“紀(jì)念性用途”與“商業(yè)化利用”缺乏明確規(guī)范。一些平臺(tái)以懷舊或致敬名義復(fù)刻知名藝術(shù)家聲音，卻將其用于付費(fèi)內(nèi)容或廣告項(xiàng)目，違背逝者生前意愿，引發(fā)社會(huì)反感與輿論批評[18]。若近親屬或遺產(chǎn)管理人事先不知情，平臺(tái)甚至可能面臨侵權(quán)責(zé)任和道德爭議的雙重壓力。

2.2 著作權(quán)侵權(quán)風(fēng)險(xiǎn)

AI語音合成技術(shù)的訓(xùn)練通常依賴海量文字作品、錄音制品等素材，在大規(guī)模商業(yè)化應(yīng)用的背景下，常常出現(xiàn)平臺(tái)或技術(shù)方未經(jīng)權(quán)利人許可，便將受著作權(quán)保護(hù)的內(nèi)容納入模型訓(xùn)練庫的情況。這種未經(jīng)授權(quán)的不當(dāng)使用行為因其隱蔽性而難以被及時(shí)察覺，卻直接觸及《著作權(quán)法》中有關(guān)復(fù)制權(quán)的規(guī)定；并且，在數(shù)據(jù)規(guī)模與商業(yè)收益較為可觀的情況下，“合理使用”抗辯多被視為難以成立[19]。

此外，部分平臺(tái)借助AI語音合成技術(shù)對曲藝、小品或文學(xué)作品進(jìn)行跨語言合成或情節(jié)改動(dòng)，倘若缺乏權(quán)利人授權(quán)，此類行為極易引發(fā)對翻譯權(quán)、改編權(quán)的侵害指控，尤其當(dāng)這些經(jīng)二次創(chuàng)作的作品通過有聲平臺(tái)進(jìn)行付費(fèi)分發(fā)，或被用于廣告合作等商業(yè)活動(dòng)時(shí)，將會(huì)對信息網(wǎng)絡(luò)傳播權(quán)與廣播權(quán)造成潛在侵害。諸如“讓趙本山飆英文”的音頻片段在網(wǎng)上走紅，平臺(tái)或個(gè)人若未經(jīng)權(quán)利人許可便擅自進(jìn)行播放、下載或二次剪輯，實(shí)際上剝奪了原作者或版權(quán)所有人對作品的控制與收益分配權(quán)[20]。更何況，數(shù)字音頻的碎片化傳播、低門檻再加工，都在削弱權(quán)利人的取證與維權(quán)效率，加劇著作權(quán)侵權(quán)問題的復(fù)雜程度。

2.3 個(gè)人數(shù)據(jù)泄露風(fēng)險(xiǎn)

大規(guī)模語音數(shù)據(jù)的采集與應(yīng)用是AI語音合成技術(shù)發(fā)展的“燃料”，但若平臺(tái)在采集、存儲(chǔ)、傳輸及共享等關(guān)鍵環(huán)節(jié)缺乏明確授權(quán)機(jī)制和安全管理策略，將對個(gè)人隱私與數(shù)據(jù)安全構(gòu)成嚴(yán)重威脅。

第一，在數(shù)據(jù)采集階段，諸多平臺(tái)出于提升模型精度的目的，廣泛在直播、播客等場景下對用戶語音進(jìn)行錄制與抓取操作，卻未嚴(yán)格遵循《個(gè)人信息保護(hù)法》中“最小必要原則”和“明示告知—充分同意”要求。這就使得用戶對于自身聲音數(shù)據(jù)可能被二次利用的情況缺乏應(yīng)有的知情權(quán)。一旦上述語音數(shù)據(jù)被用于深度偽造或詐騙冒用，權(quán)利人往往難以及時(shí)行使撤回或限制處理等權(quán)利。可以說，若數(shù)據(jù)采集之初缺乏明確邊界和規(guī)范，后續(xù)更難以在監(jiān)管或技術(shù)層面實(shí)現(xiàn)有效回溯與補(bǔ)救。

第二，部分平臺(tái)在數(shù)據(jù)存儲(chǔ)與傳輸環(huán)節(jié)未建立完善的加密和訪問控制機(jī)制，導(dǎo)致語音樣本面臨高泄露風(fēng)險(xiǎn)。一旦遭遇系統(tǒng)漏洞或內(nèi)部違規(guī)操作，語音數(shù)據(jù)可能被不法分子濫用，用于仿聲技術(shù)制作虛假身份。近年來頻發(fā)的“AI換聲”[21]詐騙事件表明，技術(shù)門檻因合成算法的進(jìn)步而不斷降低，卻使公民個(gè)人防范的難度急劇增大。

第三，有聲出版行業(yè)的多元化商業(yè)模式趨勢，加劇了數(shù)據(jù)共享及跨平臺(tái)濫用的隱患。在有聲出版領(lǐng)域，數(shù)據(jù)共享本是推動(dòng)行業(yè)發(fā)展的有效手段之一，但若缺乏相應(yīng)的規(guī)范和約束，便可能引發(fā)一系列問題。例如，當(dāng)共享協(xié)議未對語音數(shù)據(jù)的使用用途進(jìn)行嚴(yán)格限定，或者在數(shù)據(jù)流轉(zhuǎn)過程中缺乏有效的追溯機(jī)制時(shí)，聲音數(shù)據(jù)在轉(zhuǎn)售與挪用過程中便有可能被無限制地使用。這將導(dǎo)致權(quán)利人對自身音頻數(shù)據(jù)的掌控權(quán)逐漸喪失，無法有效地保護(hù)自己的合法權(quán)益。更為嚴(yán)重的是，聲紋、語言習(xí)慣等深層信息若與其他數(shù)據(jù)庫進(jìn)行交叉匹配，可能會(huì)還原出更多涉及個(gè)人隱私的信息，從而給權(quán)利人的人身與財(cái)產(chǎn)安全帶來風(fēng)險(xiǎn)。

第四，當(dāng)前，AI語音合成技術(shù)領(lǐng)域的行業(yè)監(jiān)管與平臺(tái)治理尚不完善，部分平臺(tái)在面臨數(shù)據(jù)安全威脅時(shí)，缺乏有效的應(yīng)急預(yù)案和聯(lián)動(dòng)機(jī)制，無法及時(shí)、有效地應(yīng)對突發(fā)情況。同時(shí)，由于技術(shù)門檻和權(quán)限限制的存在，跨部門取證工作難以順利推進(jìn)。一旦語音數(shù)據(jù)被不當(dāng)獲取并投入深度合成，幾乎無法逆轉(zhuǎn)或全面撤回，這使得權(quán)利人面臨的風(fēng)險(xiǎn)遠(yuǎn)超傳統(tǒng)數(shù)字內(nèi)容泄露的影響。

3 AI語音合成技術(shù)在有聲出版行業(yè)應(yīng)用風(fēng)險(xiǎn)的域外治理經(jīng)驗(yàn)

AI語音合成技術(shù)在有聲出版行業(yè)應(yīng)用的法律風(fēng)險(xiǎn)并非我國獨(dú)有，全球范圍內(nèi)，各主要法域均面臨上述問題。不同國家和地區(qū)采取了不同的治理模式，例如，美國通過分層立法和行業(yè)自律形成了一定的合規(guī)框架；歐盟則采取統(tǒng)一立法模式，強(qiáng)調(diào)透明度管理和平臺(tái)責(zé)任。下文將分別梳理美國和歐盟的治理實(shí)踐，并探討其對我國的借鑒價(jià)值。

3.1 美國：聯(lián)邦－州權(quán)分層治理模式下的規(guī)制策略

美國在AI語音合成技術(shù)的法律治理上采用聯(lián)邦監(jiān)管、州級立法、司法裁判和行業(yè)自律并行的模式。

第一，在聯(lián)邦監(jiān)管層面，美國版權(quán)局于2023年發(fā)布的《人工智能作品版權(quán)注冊指南》明確指出，完全由AI生成且缺乏人類創(chuàng)造性貢獻(xiàn)的內(nèi)容不受版權(quán)法保護(hù)[22]。據(jù)此，AI朗讀本身不具有獨(dú)創(chuàng)性，不過，若AI朗讀未經(jīng)授權(quán)即轉(zhuǎn)換并傳播原作，仍可能構(gòu)成版權(quán)侵權(quán)。盡管AI朗讀不具有獨(dú)創(chuàng)性，其市場效應(yīng)可能導(dǎo)致原作品的替代性使用，進(jìn)而影響著作權(quán)人的經(jīng)濟(jì)利益。因此，AI朗讀的版權(quán)風(fēng)險(xiǎn)，實(shí)質(zhì)上取決于其對原作品的利用方式，而非自身的創(chuàng)作屬性。

第二，由于聯(lián)邦法律對AI仿聲行為未作專門規(guī)定，部分州率先推動(dòng)地方立法，以填補(bǔ)這一監(jiān)管空白。田納西州于2024年通過《確保肖像、聲音和圖像安全法案》（Ensuring Likeness， Voice， and Image Security Act），確立未經(jīng)授權(quán)仿聲并用于商業(yè)用途的行為構(gòu)成侵權(quán)，并賦予受害者提起民事及刑事訴訟的權(quán)利[23]。該法案的出臺(tái)為有聲出版行業(yè)提供了一個(gè)值得關(guān)注的法律基準(zhǔn)，即若利用AI語音合成技術(shù)以未經(jīng)授權(quán)的方式模仿知名播音員或作家的聲音，并用于商業(yè)化有聲書出版或朗讀服務(wù)，則可能承擔(dān)法律責(zé)任。類似的，加利福尼亞州正在推進(jìn)的《數(shù)字內(nèi)容欺詐法案》（Digital Content Fraud Act），擬針對未經(jīng)授權(quán)的AI語音合成內(nèi)容設(shè)定更嚴(yán)格的法律責(zé)任，以應(yīng)對AI仿聲帶來的名譽(yù)權(quán)侵害和商業(yè)濫用風(fēng)險(xiǎn)[24]。

第三，在司法實(shí)踐層面，相關(guān)案例正在逐步推動(dòng)AI語音合成內(nèi)容的法律適用發(fā)展。2024年，美國聯(lián)邦通信委員會(huì)（FCC）在靈歌電信（Lingo Telecom）案中認(rèn)定AI語音深度偽造自動(dòng)撥號構(gòu)成“欺詐性通信”，并依據(jù)《聯(lián)邦通信法》對該企業(yè)處以100萬美元罰款[25]。盡管該案主要涉及電信行業(yè)，但其法律適用邏輯可擴(kuò)展至AI朗讀內(nèi)容—若AI合成語音導(dǎo)致公眾誤認(rèn)，或損害原著作權(quán)人權(quán)益，法院可能擴(kuò)大法律適用范圍，使相關(guān)方承擔(dān)更嚴(yán)格的法律責(zé)任。這意味著未來AI朗讀未經(jīng)授權(quán)使用受保護(hù)作品的行為可能在司法實(shí)踐中被認(rèn)定為版權(quán)侵權(quán)或公眾誤導(dǎo)行為，從而影響有聲出版行業(yè)的商業(yè)模式與版權(quán)管理。

第四，在立法尚不完善的情況下，行業(yè)自律機(jī)制在一定程度上填補(bǔ)了法律空白。部分科技企業(yè)和出版機(jī)構(gòu)主動(dòng)采取透明化措施，以降低法律風(fēng)險(xiǎn)并增強(qiáng)市場信任。例如，谷歌電子書（Google Play Books）在推出AI朗讀有聲書服務(wù)時(shí)，采取了內(nèi)容標(biāo)識(shí)措施，包括在有聲書封面設(shè)置特定徽章，并在音頻開頭加入聲明性句子，表明內(nèi)容由AI生成[26]。此外，OpenAI、字母表（Alphabet）和元宇宙（Meta）等企業(yè)承諾對AI生成的語音內(nèi)容實(shí)施水印標(biāo)識(shí)[27]，以確保AI生成內(nèi)容可追溯，并降低其被濫用于虛假信息傳播的風(fēng)險(xiǎn)。

3.2 歐盟：基于風(fēng)險(xiǎn)預(yù)防的多層次治理路徑

作為全球數(shù)字監(jiān)管的先驅(qū)，歐盟圍繞“統(tǒng)一立法+強(qiáng)制合規(guī)”構(gòu)建了多層次AI治理體系，通過《人工智能法案》（Artificial Inte-lligence Act）與《通用數(shù)據(jù)保護(hù)條例》（General Data Protection Regulation，GDPR）等法律框架，以確保內(nèi)容透明度、加強(qiáng)數(shù)據(jù)保護(hù)、限制深度偽造及規(guī)范商業(yè)用途為核心目標(biāo)，對AI語音合成技術(shù)進(jìn)行嚴(yán)格規(guī)范。

首先，《人工智能法案》作為歐盟首部針對AI技術(shù)的綜合性立法，確立了基于風(fēng)險(xiǎn)等級的監(jiān)管框架，按照用途和影響程度將AI系統(tǒng)劃分為“不可接受風(fēng)險(xiǎn)”“高風(fēng)險(xiǎn)”“有限風(fēng)險(xiǎn)”“最低風(fēng)險(xiǎn)”四級，并為不同類別的AI技術(shù)設(shè)定相應(yīng)的合規(guī)要求。在有聲出版領(lǐng)域，AI朗讀技術(shù)雖未被歸入高風(fēng)險(xiǎn)類別，但若涉及誤導(dǎo)性內(nèi)容、虛假宣傳或深度偽造，則可能被認(rèn)定為高風(fēng)險(xiǎn)應(yīng)用，需接受更嚴(yán)格的監(jiān)管。例如，《人工智能法案》明確規(guī)定，所有AI生成的音頻、視頻、文本等內(nèi)容必須添加顯著標(biāo)識(shí)，以防止公眾將其誤認(rèn)為其為其為真人創(chuàng)作，同時(shí)要求開發(fā)者提供完整的技術(shù)文檔，以供監(jiān)管機(jī)構(gòu)審查[28]。若違反強(qiáng)制性透明度規(guī)定，可能面臨高達(dá)3500萬歐元或上一年度全球營業(yè)額7%的罰款[29]。該規(guī)定對有聲出版行業(yè)的AI朗讀服務(wù)提出了更嚴(yán)格的透明度要求，意味著未來所有AI朗讀的有聲書，必須明確標(biāo)注合成來源，并提供可驗(yàn)證的溯源信息。

其次，《通用數(shù)據(jù)保護(hù)條例》作為全球最嚴(yán)格的個(gè)人數(shù)據(jù)保護(hù)法規(guī)，對于個(gè)人數(shù)據(jù)采集、存儲(chǔ)與使用環(huán)節(jié)均施加嚴(yán)格約束，而AI語音合成技術(shù)依賴海量語音數(shù)據(jù)進(jìn)行訓(xùn)練，涉及播音員、作家、出版商乃至終端用戶的個(gè)人信息，因而受到《通用數(shù)據(jù)保護(hù)條例》的規(guī)制。依據(jù)《通用數(shù)據(jù)保護(hù)條例》第6條規(guī)定，任何涉及個(gè)人數(shù)據(jù)的處理必須獲得合法授權(quán)，通常包括用戶明確同意、合同履行或基于法律義務(wù)等正當(dāng)理由[30]。更為嚴(yán)格的是，AI語音合成可能涉及生物特征數(shù)據(jù)（如聲紋），《通用數(shù)據(jù)保護(hù)條例》第9條明確規(guī)定，未經(jīng)明確授權(quán)，禁止處理此類特殊類別數(shù)據(jù)[31]。這些規(guī)定直接影響有聲出版行業(yè)的AI語音訓(xùn)練流程，要求平臺(tái)在使用播音員聲音數(shù)據(jù)訓(xùn)練模型時(shí)，必須事先獲得授權(quán)，并確保數(shù)據(jù)處理的合規(guī)性。否則，AI朗讀平臺(tái)可能因非法處理生物特征數(shù)據(jù)而面臨法律訴訟。

最后，透明度治理是歐盟AI監(jiān)管體系的核心原則之一。《人工智能法案》針對高風(fēng)險(xiǎn)AI系統(tǒng)，要求采用水印、元數(shù)據(jù)嵌入等技術(shù)，以確保AI生成內(nèi)容的可追溯性。2023年6月，歐盟委員會(huì)副主席薇拉·堯羅娃（Vera Jourova）進(jìn)一步強(qiáng)調(diào)，簽署《虛假信息行為準(zhǔn)則》（Code of Practice on Disinformation）的科技公司，應(yīng)主動(dòng)識(shí)別AI生成內(nèi)容，并向用戶提供顯著標(biāo)識(shí)[32]。行業(yè)實(shí)踐亦順應(yīng)該監(jiān)管趨勢。例如，奧多比公司（Adobe）推出的“內(nèi)容憑證”技術(shù)，可在AI生成內(nèi)容（包括音頻）中嵌入認(rèn)證數(shù)據(jù)，使用戶能夠追溯內(nèi)容的來源、生成工具及發(fā)布平臺(tái)[33]。雖然上述措施主要針對AI合成內(nèi)容在虛假信息傳播中的潛在風(fēng)險(xiǎn)，但這一技術(shù)路徑已被用于AI生成圖片、視頻及音頻內(nèi)容的標(biāo)記，亦對AI朗讀內(nèi)容的市場運(yùn)作形成實(shí)質(zhì)性約束，如在有聲出版行業(yè)，要求AI生成的朗讀作品嵌入認(rèn)證元數(shù)據(jù)，包括出版方、朗讀者（AI或真人）及訓(xùn)練模型信息，從而確保內(nèi)容來源的可驗(yàn)證性，提高用戶信任度并減少版權(quán)糾紛。

3.3 美歐治理模式的比較分析及經(jīng)驗(yàn)借鑒

美歐在AI語音合成技術(shù)的法律規(guī)制上展現(xiàn)出截然不同的治理范式，反映了兩大法域在技術(shù)監(jiān)管理念、合規(guī)體系與市場調(diào)節(jié)機(jī)制上的制度差異。美國采取聯(lián)邦監(jiān)管、州級立法、司法裁判與行業(yè)自律并行的模式，以靈活適應(yīng)性為特點(diǎn)，在版權(quán)保護(hù)、聲音權(quán)規(guī)范及透明度管理方面形成了一定的合規(guī)框架。然而，由于各州立法的自治性較強(qiáng)，法律標(biāo)準(zhǔn)不統(tǒng)一，企業(yè)在跨州運(yùn)營時(shí)需應(yīng)對復(fù)雜的法律適用問題，行業(yè)自律的執(zhí)行力亦存在局限性。相較之下，歐盟依托統(tǒng)一立法與強(qiáng)制合規(guī)模式，通過《人工智能法案》與《通用數(shù)據(jù)保護(hù)條例》，確立了嚴(yán)格的透明化管理、數(shù)據(jù)安全要求及AI內(nèi)容標(biāo)識(shí)制度，為AI語音合成監(jiān)管提供了系統(tǒng)化法律依據(jù)。但該模式的剛性合規(guī)要求亦帶來了較高的制度成本，可能對行業(yè)創(chuàng)新構(gòu)成一定約束。

在有聲出版領(lǐng)域，美國模式更強(qiáng)調(diào)市場調(diào)節(jié)與行業(yè)自律的作用。例如，谷歌電子書在推廣AI朗讀有聲書時(shí)，采取自愿性標(biāo)識(shí)機(jī)制，使用戶能夠辨別朗讀者身份。但由于缺乏強(qiáng)制性法律支撐，透明度與版權(quán)合規(guī)性仍存在不確定性。此外，各州法律在聲音權(quán)保護(hù)、AI仿聲規(guī)制等方面立法進(jìn)程不一，導(dǎo)致司法適用的區(qū)域性差異。相比之下，歐盟模式則更加強(qiáng)調(diào)平臺(tái)責(zé)任與用戶權(quán)益保護(hù)，確保所有AI朗讀內(nèi)容須附加顯著標(biāo)識(shí)，并要求開發(fā)者提供可追溯信息，以防止版權(quán)侵權(quán)及誤導(dǎo)性傳播。不過，該模式下嚴(yán)格的透明化要求和數(shù)據(jù)合規(guī)義務(wù)，可能會(huì)對中小型出版企業(yè)構(gòu)成較大合規(guī)壓力。

總的來看，在應(yīng)對AI語音合成技術(shù)引發(fā)的法律風(fēng)險(xiǎn)方面，美歐均實(shí)施了具有針對性和操作性的措施。這些舉措不僅在預(yù)防侵權(quán)風(fēng)險(xiǎn)、保護(hù)人格權(quán)和版權(quán)方面樹立了示范作用，而且推動(dòng)了相關(guān)企業(yè)建立健全的自律機(jī)制。借鑒美歐經(jīng)驗(yàn)，我國在完善現(xiàn)有法律體系時(shí)，應(yīng)基于AI語音合成技術(shù)可能侵害的聲音權(quán)、著作權(quán)及數(shù)據(jù)安全問題，參照國外立法模式，制定適應(yīng)本土需求的法律框架，進(jìn)一步細(xì)化法律責(zé)任，避免法律適用的模糊性。

4 AI語音合成技術(shù)在有聲出版行業(yè)應(yīng)用風(fēng)險(xiǎn)的治理路徑

域外的治理經(jīng)驗(yàn)固然具有重要借鑒價(jià)值，但我國的AI語音合成技術(shù)治理路徑必須根植于本土法治體系與社會(huì)環(huán)境展開，以構(gòu)建符合實(shí)際需求的合規(guī)框架。因此，在吸收域外立法經(jīng)驗(yàn)的基礎(chǔ)上，可從以下幾個(gè)方面探索適應(yīng)我國國情的治理路徑。

4.1 強(qiáng)化人格權(quán)保護(hù)

首先，需要確立聲音權(quán)的獨(dú)立法律地位。傳統(tǒng)人格權(quán)保護(hù)主要聚焦于肖像權(quán)、名譽(yù)權(quán)和隱私權(quán)等方面，難以直接涵蓋AI語音合成技術(shù)帶來的法律挑戰(zhàn)。如美國加州法院曾在“聲音模仿”糾紛中依據(jù)公眾形象權(quán)判定未經(jīng)授權(quán)的商業(yè)仿聲構(gòu)成對名人財(cái)產(chǎn)性利益的侵犯[34]。但AI語音深度合成的高仿真性使傳統(tǒng)人格權(quán)保護(hù)體系面臨邊界模糊與法律適用困境。若不從現(xiàn)有框架中剝離聲音權(quán)，并將其確立為獨(dú)立的法律權(quán)益，則可能導(dǎo)致界定混亂，增加司法適用的難度。借鑒美國《確保肖像、聲音和圖像安全法案》的立法思路，建議通過司法解釋對聲音權(quán)的權(quán)能與行使條件加以嚴(yán)格界定[35]。細(xì)化其定義、權(quán)利內(nèi)容與行使條件，并在司法實(shí)踐中將其確立為獨(dú)立民事案由，以便更精準(zhǔn)地審理相關(guān)案件[36]。同時(shí)，平臺(tái)和技術(shù)提供方也可據(jù)此明確責(zé)任邊界，減少侵權(quán)行為的發(fā)生。

其次，完善聲音侵權(quán)的救濟(jì)手段與維權(quán)機(jī)制。由于聲音權(quán)侵權(quán)往往具有隱蔽性和技術(shù)壁壘，權(quán)利人往往難以及時(shí)發(fā)現(xiàn)或舉證。為提高救濟(jì)效果，法院可依據(jù)《民法典》第997條建立更靈活的禁令制度，在確認(rèn)侵權(quán)風(fēng)險(xiǎn)時(shí)迅速中止行為，避免損害擴(kuò)大。在賠償機(jī)制上，應(yīng)綜合考慮市場價(jià)值與權(quán)利人知名度，對于難以量化的損失適用法定賠償，并引入舉證責(zé)任倒置機(jī)制，敦促侵權(quán)方提供合規(guī)性證據(jù)，減輕權(quán)利人的舉證負(fù)擔(dān)。此外，若侵權(quán)行為導(dǎo)致嚴(yán)重精神或聲譽(yù)損害，可提高精神損害賠償力度，以增強(qiáng)法律威懾力[37]。

最后，還需構(gòu)建多層次的人格權(quán)保護(hù)體系。AI語音合成技術(shù)對人格權(quán)的侵害不僅限于聲線克隆，還可能涉及惡意剪輯、虛假評論、死者聲音商業(yè)化再利用等復(fù)雜情形。對此，一方面需將《民法典》第1023條與第994條的保護(hù)框架進(jìn)行銜接，并在司法解釋或案件審理中明確：若合成語音涉及詆毀、隱私泄露或死者聲音的濫用，可適用相應(yīng)的人格權(quán)救濟(jì)；另一方面，平臺(tái)應(yīng)設(shè)立審慎的內(nèi)部審核程序和多級審批機(jī)制，防止借“紀(jì)念”之名行商業(yè)牟利之實(shí)。只有當(dāng)法律規(guī)范、技術(shù)審核與監(jiān)管體系協(xié)同運(yùn)作，才能在保障技術(shù)創(chuàng)新的同時(shí)，筑牢人格權(quán)益保護(hù)的底線。

4.2 加強(qiáng)著作權(quán)合規(guī)與內(nèi)容傳播規(guī)范

在強(qiáng)化人格權(quán)保護(hù)的同時(shí)，有聲出版行業(yè)也須重視AI語音合成在著作權(quán)層面所引發(fā)的沖擊。大量受保護(hù)作品被用于訓(xùn)練、改編或跨語言合成，如若沒有完善的授權(quán)機(jī)制，勢必引起版權(quán)爭議，甚至破壞已有的版權(quán)利益格局。

一是明確合理使用邊界，構(gòu)建合規(guī)授權(quán)路徑。AI語音合成模型通常需要大規(guī)模音頻與文字素材進(jìn)行訓(xùn)練，可一旦訓(xùn)練過程對原作者或版權(quán)所有人的市場利益產(chǎn)生實(shí)質(zhì)性沖擊，則“難以構(gòu)成版權(quán)法上的合理使用”[38]。美國版權(quán)局亦認(rèn)為若AI訓(xùn)練過程中對原作品產(chǎn)生實(shí)質(zhì)性替代影響或形成商業(yè)性收益，即應(yīng)納入許可體系，而不宜籠統(tǒng)適用合理使用[39]。我國學(xué)者也有類似觀點(diǎn)，主張對“科研或教學(xué)目的”與“大規(guī)模商業(yè)化用途”進(jìn)行區(qū)分：前者或可相對寬松地納入合理使用，后者需評估對市場替代效應(yīng)的影響程度[40]。若能在司法解釋或行業(yè)指導(dǎo)文件中確立類似標(biāo)準(zhǔn)，不僅能為平臺(tái)和技術(shù)企業(yè)提供合規(guī)指引，也能增強(qiáng)權(quán)利人的維權(quán)可預(yù)見性。此外，可借鑒歐盟的透明度管理要求，通過建立統(tǒng)一的授權(quán)與登記平臺(tái)并輔以完善的可追溯機(jī)制，有效記錄AI訓(xùn)練數(shù)據(jù)的來源與使用情況，降低后期取證難度，減少潛在糾紛。

二是切實(shí)保障著作權(quán)人對AI生成內(nèi)容的控制與收益。在有聲出版場景下，AI語音合成尤其易于對曲藝、小品或長篇文學(xué)作品進(jìn)行跨語言或多版本改編。若缺乏權(quán)利人許可，勢必違背《著作權(quán)法》第10條及第45條所涵蓋的復(fù)制權(quán)、改編權(quán)、信息網(wǎng)絡(luò)傳播權(quán)與錄音制品獲酬權(quán)等規(guī)定。對此，可借鑒谷歌電子書的內(nèi)容標(biāo)識(shí)措施，要求平臺(tái)及技術(shù)方在發(fā)布有聲內(nèi)容前實(shí)行更嚴(yán)格的版權(quán)審查與公示程序，在顯著位置標(biāo)注作者、版權(quán)所有者及許可狀態(tài)，以增強(qiáng)透明度；監(jiān)管部門也應(yīng)設(shè)立“AI音頻侵權(quán)”快速處理機(jī)制，并對惡意或規(guī)模化侵權(quán)行為進(jìn)行曝光與懲戒，以在全行業(yè)形成合理的版權(quán)保護(hù)生態(tài)。

三是應(yīng)對二次分發(fā)與碎片化傳播帶來的執(zhí)法難題。相較于紙質(zhì)作品，數(shù)字音頻的碎片化傳播與二次剪輯更加便捷，傳統(tǒng)的版權(quán)水印與登記機(jī)制在此環(huán)境下容易失效。一方面，可借鑒國外流媒體平臺(tái)優(yōu)兔（YouTube）的內(nèi)容識(shí)別（Content ID）系統(tǒng)，運(yùn)用語音指紋等溯源技術(shù)，對侵權(quán)內(nèi)容進(jìn)行快速識(shí)別和實(shí)時(shí)管控，以減少規(guī)模化盜用及惡意二次傳播的情形[41]。另一方面，鑒于跨平臺(tái)與跨區(qū)域的侵權(quán)行為日益增多，執(zhí)法部門和行業(yè)協(xié)會(huì)應(yīng)探索國際或跨平臺(tái)協(xié)作機(jī)制，通過聯(lián)動(dòng)處置與證據(jù)共享提升維權(quán)效率，防止二次或多次侵權(quán)的蔓延。

4.3 構(gòu)建數(shù)據(jù)安全治理體系

首先，在數(shù)據(jù)采集階段，應(yīng)當(dāng)強(qiáng)化合法授權(quán)與“最小必要原則”的落地執(zhí)行。歐洲消費(fèi)者協(xié)會(huì)的AI應(yīng)用合規(guī)調(diào)研報(bào)告指出：過度采集與模糊授權(quán)常是引發(fā)系統(tǒng)性隱私泄露的主要根源，亟須各方在源頭環(huán)節(jié)就設(shè)立“最小必要”的保護(hù)閥門[42]。為此，我國可根據(jù)《個(gè)人信息保護(hù)法》第6條和《生成式人工智能服務(wù)管理辦法》第7條規(guī)定，要求平臺(tái)在采集用戶語音時(shí)需明示告知用途、存儲(chǔ)時(shí)間與共享范圍，并獲得充分的用戶同意；任何不具備明確法定或用戶許可基礎(chǔ)的強(qiáng)制錄音，都應(yīng)依法加以禁止，以免不當(dāng)收集在后期演變成深度偽造或詐騙的“原材料”。

其次，在數(shù)據(jù)存儲(chǔ)與傳輸環(huán)節(jié)，應(yīng)借鑒歐盟《通用數(shù)據(jù)保護(hù)條例》與《人工智能法案》的相關(guān)規(guī)定，對數(shù)據(jù)生命周期實(shí)行嚴(yán)格管理，防止因系統(tǒng)漏洞或內(nèi)部違規(guī)而造成大規(guī)模泄露。即便數(shù)據(jù)獲取合法，若平臺(tái)忽視了內(nèi)部訪問控制和分級授權(quán)機(jī)制，一旦出現(xiàn)黑客攻擊或內(nèi)部泄露，海量音頻數(shù)據(jù)仍可能迅速流入交易市場，造成嚴(yán)重的隱私侵害與商業(yè)欺詐風(fēng)險(xiǎn)。臉書（Facebook）-劍橋分析數(shù)據(jù)丑聞表明，數(shù)據(jù)加密與權(quán)限審計(jì)不僅是技術(shù)要求，更是企業(yè)合規(guī)治理的核心環(huán)節(jié)[43]。因此，建議將《網(wǎng)絡(luò)安全法》第42條與《個(gè)人信息保護(hù)法》第51條的核心原則貫穿于數(shù)據(jù)生命周期全程，并實(shí)施分級管理與持續(xù)審查，避免出現(xiàn)“技術(shù)空窗期”的出現(xiàn)。

最后，在數(shù)據(jù)共享環(huán)節(jié)，應(yīng)堅(jiān)持共享過程透明、授權(quán)程序嚴(yán)格，并在此基礎(chǔ)上完善應(yīng)急預(yù)案。平臺(tái)與第三方公司或跨境機(jī)構(gòu)的數(shù)據(jù)交換可參考?xì)W盟《通用數(shù)據(jù)保護(hù)條例》倡導(dǎo)的跨境傳輸規(guī)范，設(shè)立授權(quán)審批與風(fēng)險(xiǎn)溯源機(jī)制，預(yù)防語音數(shù)據(jù)被不當(dāng)轉(zhuǎn)售或?yàn)E用。倘若依然發(fā)生大規(guī)模泄露或“AI換聲”詐騙，平臺(tái)應(yīng)盡快啟動(dòng)應(yīng)急響應(yīng)機(jī)制，及時(shí)通知用戶并配合主管部門調(diào)查，以追究違法主體責(zé)任。若執(zhí)法部門能進(jìn)一步提高懲戒力度，也能對潛在違規(guī)者形成更有效的威懾。

4.4 推動(dòng)國際合作與跨境數(shù)據(jù)監(jiān)管

由于AI語音合成技術(shù)具有顯著的跨境屬性，許多有聲出版平臺(tái)和技術(shù)供應(yīng)商的業(yè)務(wù)已覆蓋多個(gè)法域。因此，我國在完善國內(nèi)治理框架的同時(shí)，必須積極推動(dòng)國際合作，以應(yīng)對全球治理挑戰(zhàn)，確保我國在全球AI語音合成技術(shù)及其法律規(guī)制領(lǐng)域的國際話語權(quán)。

其一，應(yīng)深度參與全球AI治理體系，推動(dòng)標(biāo)準(zhǔn)統(tǒng)一。當(dāng)前，AI語音合成的監(jiān)管體系尚未形成統(tǒng)一標(biāo)準(zhǔn)，國際規(guī)則的制定仍處于博弈階段，我國應(yīng)主動(dòng)融入全球AI治理體系，與世界知識(shí)產(chǎn)權(quán)組織、經(jīng)濟(jì)合作與發(fā)展組織等國際組織加強(qiáng)合作，推動(dòng)在AI朗讀內(nèi)容標(biāo)識(shí)、數(shù)據(jù)安全、版權(quán)保護(hù)等方面建立國際標(biāo)準(zhǔn)，以減少跨境合規(guī)障礙，降低企業(yè)合規(guī)成本，同時(shí)增強(qiáng)我國在全球AI治理中的話語權(quán)，避免受制于現(xiàn)有歐美主導(dǎo)的監(jiān)管框架。

其二，AI語音合成技術(shù)在有聲出版領(lǐng)域的廣泛應(yīng)用使得跨境版權(quán)侵權(quán)問題日益凸顯，傳統(tǒng)版權(quán)執(zhí)法模式難以應(yīng)對AI生成內(nèi)容的分布式生產(chǎn)與全球傳播，我國可探索與主要貿(mào)易伙伴（如美國、歐盟、日本）建立雙邊或多邊合作機(jī)制，包括共享AI語音版權(quán)數(shù)據(jù)庫、建立侵權(quán)信息通報(bào)機(jī)制、推動(dòng)跨國版權(quán)訴訟協(xié)調(diào)機(jī)制等，以提高跨境維權(quán)效率，并借助國際版權(quán)仲裁制度優(yōu)化爭議解決路徑，確保法律適用的穩(wěn)定性。

其三，我國應(yīng)推動(dòng)國際合規(guī)技術(shù)標(biāo)準(zhǔn)的互認(rèn)，鼓勵(lì)國內(nèi)企業(yè)與國際平臺(tái)在合規(guī)管理方面展開合作，如參與全球AI內(nèi)容真實(shí)性驗(yàn)證標(biāo)準(zhǔn)的制定，借鑒奧多比公司（Adobe）的內(nèi)容憑證技術(shù)（Content Credentials），通過元數(shù)據(jù)嵌入確保AI生成音頻的可追溯性，并推動(dòng)國內(nèi)AI合規(guī)框架與美國、歐盟治理標(biāo)準(zhǔn)的對接，同時(shí)加強(qiáng)我國在ISO/IEC等國際標(biāo)準(zhǔn)化組織中的話語權(quán)，確保國內(nèi)企業(yè)在全球有聲出版市場的長期競爭優(yōu)勢。

通過深度參與國際AI治理體系、構(gòu)建跨境版權(quán)保護(hù)合作框架、推動(dòng)合規(guī)性技術(shù)標(biāo)準(zhǔn)的國際互認(rèn)，我國能夠更好地應(yīng)對AI語音合成技術(shù)在有聲出版領(lǐng)域的全球化挑戰(zhàn)，確保法律規(guī)制與技術(shù)創(chuàng)新的同步推進(jìn)，這不僅有助于提升我國在AI語音合成領(lǐng)域的國際競爭力，也將為全球AI有聲出版的規(guī)范化應(yīng)用提供“中國方案”。

5 結(jié) 語

AI語音合成技術(shù)正以前所未有的速度融入有聲出版行業(yè)，既開辟了規(guī)模化與智能化的內(nèi)容生產(chǎn)新途徑，也帶來了人格權(quán)保護(hù)、版權(quán)侵權(quán)與數(shù)據(jù)安全等深層次法律難題。本文通過分析梳理美國和歐盟的治理實(shí)踐，提出在借鑒域外治理經(jīng)驗(yàn)的基礎(chǔ)上，構(gòu)建適應(yīng)我國國情的復(fù)合型法律框架。在完善現(xiàn)有法律體系的同時(shí)，進(jìn)一步強(qiáng)調(diào)跨境數(shù)據(jù)監(jiān)管與國際合作的重要性，以應(yīng)對全球化背景下的挑戰(zhàn)。未來，隨著AI語音合成技術(shù)在出版生態(tài)中的持續(xù)拓展，現(xiàn)行制度還需動(dòng)態(tài)調(diào)整，從權(quán)利界定、責(zé)任劃分到國際化合作都亟待更具前瞻性的部署。唯有在清晰的法律框架與道德底線內(nèi)實(shí)現(xiàn)技術(shù)與法律的良性互動(dòng)，有聲出版行業(yè)方能在AI驅(qū)動(dòng)的變革中穩(wěn)健前行、不斷繁榮。

注釋

[1]Grand View Research. Audiobooks Market Size To Reach $35.04 Billion By 2030 [EB/OL].[2024-11-16].https：//www.grandviewresearch.com/press-release/global-audiobooks-market

[2]中國網(wǎng)科技. AI為音頻注入新質(zhì)生產(chǎn)力，喜馬拉雅重塑內(nèi)容生態(tài)[EB/OL].[2024-12-08]." https：//tech.china.com.cn/app/20240627/404438.shtml

[3]北京互聯(lián)網(wǎng)法院.（2023）京0491民初12142號民事判決書 [EB/OL].[2025-01-28].https：//wwwhtb prol pkulawhtbprolcom-s.libvpn.zuel.edu.cn/pfnl/08df102e7c10f206715276a14dc558e1bd5563a7216c6accbdfb.html

[4]王娟娟.我國有聲書發(fā)展的現(xiàn)狀、困境與破局[J].科技與出版，2021（12）：63-67

[5]Reichel U D， Pfitzinger H R. Text preprocessing for speech synthesis [C]// Proceedings of the 4th International Conference on Speech Prosody. University of Munich， 2009： 1-4

[6]Ferrone L， Zanzotto F M. Symbolic， distributed， and distributional representations for natural language processing in the era of deep learning： a survey[J]. Frontiers in Robotics and AI， 2019， 6： 153

[7]Shen J， Pang R， Weiss R J， et al. Natural TTS synthesis by conditioning WaveNet on mel spectrogram predictions[C]//Proceedings of the IEEE International Conference on Acoustics， Speech and Signal Processing （ICASSP），2018： 4779-4783

[8]王巍，王志良，鄭思儀，等. 人機(jī)交互中的個(gè)性化情感模型[J]. 智能系統(tǒng)學(xué)報(bào)，2010，5（1）：10-16

[9]程輝，劉松弢，李武.作為新質(zhì)生產(chǎn)力的技術(shù)創(chuàng)新驅(qū)動(dòng)：AI2.0時(shí)代有聲出版產(chǎn)業(yè)鏈建設(shè)現(xiàn)狀、挑戰(zhàn)及對策[J].出版發(fā)行研究，2024（6）：30+46-53

[10]李武，謝澤杭，楊飛. AI有聲書：價(jià)值優(yōu)勢與未來進(jìn)路[J].科技與出版，2023（6）：41-47

[11]Google Cloud. Text-to-Speech Documentation. [EB/OL].[2024-12-01].https：//cloud.google.com/text-to-speech

[12]紅丹丹與微軟AI技術(shù)的合作：為視障人士構(gòu)建無障礙世界[EB/OL]. [2024-12-18]. https：//customers.azure.cn/hongdandan/index.html

[13]新京報(bào)：微信又上新功能！網(wǎng)友：這個(gè)可以[EB/OL]. [2024-12-25].https：//mp.weixin.qq.com/s？__biz=MzU2MzA2ODk3Nw==amp;mid=2247988910amp;idx=1amp;sn=721afb6cd2a370b54301afef3cbdfdd2

[14]王天平. 生成式人工智能引發(fā)數(shù)字教材變革的新機(jī)遇[EB/OL]. [2024-12-18]. http：//www. moe.gov.cn/jyb_xwfb/moe_2082/2024/2024_zl04/202405/t20240517_1131151.html

[15]婁艷閣. “AI合成主播”對新聞業(yè)態(tài)的影響：以新華社“AI合成主播”為例[J]. 傳媒，2019（3）：49-51

[16]北京互聯(lián)網(wǎng)法院課題組.AI生成聲音侵害聲音權(quán)益的法律認(rèn)定：以殷某某訴北京某智能科技公司等人格權(quán)侵權(quán)案為例[J].法律適用，2024（9）：123-133

[17]解放日報(bào)：AI玩梗視頻，暗藏法律風(fēng)險(xiǎn)[EB/OL]. [2024-12-30]. https：//gdstc.gd.gov.cn/kjzx_n/mtjj/content/post_4527575. html

[18]財(cái)經(jīng)網(wǎng)：“不能接受”，要求立即下架！AI“復(fù)活”公眾人物惹爭議[EB/OL]. [2024-12-25].https：//m.caijing.com.cn/article/328624？target=blank

[19]胡開忠，江璐迪. 生成式人工智能機(jī)器學(xué)習(xí)的版權(quán)爭議及應(yīng)對（上）[J]. 版權(quán)理論與實(shí)務(wù)， 2024 （9）： 44-53

[20]新京報(bào)：讓趙本山飆英文，“人工智能嘴替”沒那么好玩[EB/OL]. [2024-12-28].https：//finance.sina.com.cn/jjxw/2023-11-01/doc-imztciwn8862810.shtml

[21]法治周末：15秒，你的聲音已被AI“偷”走[EB/OL]. [2025-01-10]. https：//m. thepaper.cn/news Detail_forward_28352137

[22]Copyright Registration Guidance： Works Containing Material Generated by Artificial Intelligence[EB/OL].（2023-03-16）[2025-02-13]https：//www.federalregister.gov/documents/2023/03/16/2023-05321/copyright-registration-guidance-works-containing-material-generated-by-artificial-intelligence

[23]Tennessee Snatches “Voice” from the Jaws of Artificial Intelligence [EB/OL]. [2025-02-13]. https：//www.aoshearman.com/en/insights/ao-shearman-on-tech/tennessee-snatches-voice-from-jaws-of-artificial-intelligence

[24]New 2025 California laws： Artificial intelligence， octopuses， cannabis cafes and more [EB/OL]. [2025-02-13]. https：//abc7.com/post/new-2025-california-laws-artificial-intelligence-protection-octopuses-cannabis-cafes-more/15652909

[25]Lingo Telecom to Pay $1 Million in FCC Settlement Over Deepfake Robocalls [EB/OL].（2024-08-22）[2025-02-14]. https：//commlawgroup.com/2024/lingo-telecom-to-pay-1-million-in-fcc-settlement-over-deepfake-robocalls

[26]Auto-Narrated Audiobooks With Ryan Dingler From Google Play Books [EB/OL]. [2025-02-14]." https：//www.thecreativepenn.com/2022/08/19/auto-narrated-audiobooks-google-play-books

[27]OpenAI， Google， others pledge to watermark AI content for safety， White House says [EB/OL]. [2025-02-14]. https：//www.reuters.com/technology/openai-google-others-pledge-watermark-ai-content-safety-white-house-2023-07-21

[28]歐盟.《人工智能法案》第50條第2款 [EB/OL]. [2025-01-28]. https：//artificialintelligenceact.eu/article/50

[29]歐盟.《人工智能法案》第99條第3款 [EB/OL]. [2025-01-28]. https：//artificialintelligenceact.eu/article/99

[30]歐盟.《通用數(shù)據(jù)保護(hù)條例》第6條 [EB/OL]. [2025-01-28]. https：//gdpr.eu/article-6-how-to-process-personal-data-legally

[31]歐盟.《通用數(shù)據(jù)保護(hù)條例》第9條 [EB/OL]. [2025-01-28]. https：//gdpr.eu/article-9-processing-special-categories-of-personal-data-prohibited

[32]EU urges transparency measures for AI Tools to combat disinformation [EB/OL]. [2025-02-14]. https：//news.todayq.com/eu-urges-transparency-measures-for-ai-tools-to-combat-disinformation

[33]Adobe Help Center [EB/OL].[2025-02-12]. https：//helpx.adobe.com/firefly/get-set-up/learn-the-basics/content-credentials-overview.html

[34]Midler v. Ford Motor Co.， 849 F.2d 460 （9th Cir. 1988） [EB/OL]. [2025-01-28]. https：//law.justia.com/cases/federal/appellate-courts/F2/849/460/37485

[35]林愛珺，馬瑞萍.人工智能時(shí)代聲音權(quán)立法的前瞻性思考[J].青年記者，2019（34）：72-73

[36]民主與法制時(shí)報(bào).人工智能時(shí)代的聲音權(quán)保護(hù) [EB/OL]. [2024-12-08]. http：//e.mzyfz.org.cn/paper/ 2154/paper_57760_11881.html

[37]王紹喜.《民法典》時(shí)代聲音保護(hù)的解釋與適用[J].法律適用，2023（6）：35-44

[38]任安麒.數(shù)字出版領(lǐng)域智能語言模型的應(yīng)用、風(fēng)險(xiǎn)與治理：基于ChatGPT技術(shù)特征的分析[J].出版科學(xué)，2023，31（3）：94-102

[39]National Music Publishers’ Association. National Music Publishers’ Association Comments in Response to the Notice of Inquiry[EB/OL]. [2025-01-09]. https：//www.music businessworldwide.com/files/2023/11/NMPA. pdf

[40]胡開忠，江璐迪. 生成式人工智能機(jī)器學(xué)習(xí)的版權(quán)爭議及應(yīng)對（下）[J]. 版權(quán)理論與實(shí)務(wù)， 2024 （10）： 41-58

[41]YouTube Help.How Content ID works [EB/OL]. [2025-01-09]. https：//support.google.com/youtube/answer/2797370？hl=enamp;ref_topic=2778544#

[42]Survey： Consumers see potential of artificial intelligence but raise serious concerns [EB/OL]. [2025-01-09].https：//www.beuc.eu/press-releases/survey-consumers-see-potential-artificial-intelligence-raise-serious-concerns

[43]Wikipedia contributors. Facebook–Cambridge Analytica data scandal[EB/OL]. [2025-01-09].https：//en.wikipedia.org/wiki/Facebook%E2%80%93Cambridge_Analytica_data_scandal

（收稿日期：2025-01-16；修回日期：2025-02-16）

出版科學(xué)2025年3期

出版科學(xué)的其它文章: 數(shù)字出版史學(xué)建構(gòu)需要“瞻前顧后”; 構(gòu)建系統(tǒng)閱讀方法，賦能出版教育實(shí)踐; 日本有鄰堂書店新媒體視頻推動(dòng)實(shí)體書店發(fā)展的創(chuàng)新策略及其啟示; 解體與重構(gòu)：繪本圖像的荒誕性、兒童立場與教育啟示; 融合出版環(huán)境下圖書輔文的功能變遷及應(yīng)用拓展研究; 國外學(xué)術(shù)出版機(jī)構(gòu)開放獲取版權(quán)協(xié)議框架、特征與啟示