黃莎莎 張學知
【摘 要】人工智能生成內容早已融入生活的方方面面,AI音頻生成作為其中的重要分支,被廣泛地運用到虛擬演唱、自動配音、語音播報等領域。但是在實踐過程中,AI音頻生成技術的使用伴隨著侵害他人著作權和聲音權等人格權以及發生其他衍生犯罪行為等法律風險,一些倫理問題也需要得到正視。對此,本文從政策、企業、公眾三個維度提出了相應的對策,政府應該完善人工智能生成內容的規制體系,企業應該明確自身的責任邊界,公眾則應該以更加開放包容的態度去對待這些技術。
【關鍵詞】人工智能生成內容;AI音頻生成;風險規制
作者簡介? ?黃莎莎,湖南科技大學人文學院2022級新聞與傳播專業研究生;張學知,湖南科技大學人文學院副教授、碩士生導師
人工智能生成內容(Artificial Intelligence Generated Content,簡稱AIGC)是指由AI根據用戶的需求和指令自動生成的文本、圖像、音頻或視頻等內容。[1]AI音頻生成是人工智能生成領域的重要分支,作為一種具有顛覆性意義的生產方式,它為社會眾多行業的發展提供著新的動能,在現實生活中有著越來越廣泛的應用場景。以下將對AI音頻生成技術的應用場景進行分類,探討該技術在實踐過程中面臨的法律風險,對其伴隨的倫理問題進行審視,并嘗試從多個層面提出應對措施。
一、AI音頻生成技術在現實生活中的應用
整體而言,當下AI音頻生成技術主要應用在兩大領域:一是在TTS(Text-To-Speech),即文本生成語音場景下,廣泛運用于語音播報、有聲讀物制作、虛擬歌手演唱、自動配音等;二是利用該技術生成樂曲或歌曲。而隨著技術的不斷革新,AI音頻生成技術運用的領域將進一步拓寬。
(一)TTS場景
1.AI歌手
AI 歌手最早可追溯到2007年第一代虛擬偶像初音未來的誕生,初音未來本身是以雅馬哈VOCALOID系列語音合成程序為基礎開發的音源庫,VOCALOID聲音合成引擎技術與CG角色形象的融合,實現了其從音源庫到歌姬身份的跨越。2012年,國內第一位中文虛擬偶像洛天依的聲音最初基于VOCALOID3引擎合成,在運營中實現了對初音未來的本土化復制。
隨著人工智能技術的更新迭代,以“AI孫燕姿”為代表的“真人分身型”虛擬歌手曾在網絡上掀起了一股熱潮。在B站,“AI孫燕姿”翻唱的《發如雪》《愛在西元前》《半島鐵盒》都已超過百萬播放量。隨后“AI周杰倫”“AI林俊杰”等AI歌手也相繼出現。“AI孫燕姿”們使用了AI音色替換技術(Sovits4.0),前期收集了真人的聲音素材,利用生成式模型來合成目標音色的音頻,訓練出用戶想要的聲學模型,再通過模型進行推理,最終實現了聲音的替換。
2.AI配音
與傳統的真人配音不同,AI配音依托于音頻生成技術,結合文本語境,將文本信息自動轉化為可聽的、流暢的語音。[2]AI配音是有聲語言藝術和人工智能技術的一次深度融合,如今已經被廣泛地應用到紀錄片、短視頻、廣告、影視劇等領域,它成功地將配音員從單一繁重的工作中解放出來,節省了人力資源,降低了工作成本,提高了配音效率,對整個配音行業的生態環境產生著影響。但是AI配音作為一種人工智能技術,當前仍然存在著情感生硬、重音不明顯、聲音缺乏個性、停頓時間不精確等缺陷,未來還有很大的發展潛力。
3.AI語音助手
AI語音助手在新聞、教育、智能家居、車聯網等領域有著廣泛的應用前景。在新聞領域主要是借助AI語音助手進行語音新聞播報,早在2017年,亞馬遜Alexa開發團隊就推出了Flash Briefing(新聞簡報)功能,每日定時更新,拓展了內容的分發渠道,吸引了大量專業媒體入駐合作。智能語音新聞播報讓可看的新聞變成了可收聽的語音,打破了人們獲取新聞的場景限制,能夠更加便利地接收新聞。在教育、智能家居等領域,同樣是通過喚起語音助手,讓其完成人類發出的行動指令。隨著“5G+物聯網”時代的到來,智能家居、智能車載等聲音驅動設備的功能將進一步延伸,AI語音系統的賽道也將進一步拓寬。
4.AI虛擬主播
AI虛擬主播是人工智能技術應用于傳媒領域的又一重要成果。AI虛擬主播的運作除了對人工智能技術中AI音頻生成技術的使用,還依托于人臉合成技術、音源庫,結合語音、圖像等多模態信息進行聯合建模訓練后才生成。[3]AI虛擬主播具有智能化、便捷化、場景化多方面的優勢,被廣泛運用在各類新聞報道中,例如,全國兩會期間推出了運用AI虛擬主播解讀兩會政策的欄目、2020東京奧運會推出了虛擬主播解說等。隨著人工智能技術的不斷升級,AI虛擬主播的語音處理、交流互動水平越來越高,外形也愈發逼真。
(二)樂曲/歌曲生成
隨著AI技術的不斷發展,AI音頻生成還被運用到了音樂詞曲創作中,從純音樂、古典音樂到搖滾、電音、流行等領域均有涉獵,為專業創作者提供了一個便捷的輔助工具,提高了創作的效率,如谷歌2023年1月推出的AI音樂生成器MusicLM,該系統相較于之前研發的其他系統,能夠生產出聽起來更接近于人類創作的音頻。AI音頻生成技術降低了音樂創作的門檻,能夠滿足大部分對音樂質量要求不高的場景。但是AI只是從大量的數據中將節奏、音高這些樂理信息提取出來,分析其中的規律然后進行工業化流水線式的創作,難以理解其中蘊含的獨特情感以致難以創作出具有靈魂的藝術作品。
二、AI音頻生成技術在實踐中面臨的法律與倫理問題
(一)法律風險
1.有可能涉嫌侵害他人著作權
《中華人民共和國著作權法》第四十二條第二款規定,使用他人已經合法錄制為錄音制品的音樂作品,再制作錄音制品,可以不經著作權人許可,但應當按照規定支付報酬,著作權人聲明不許使用的不得使用。所以當語音合成技術打造的AI歌手們翻唱他人已經錄制出的音樂作品時,若未按照規定支付報酬獲得相關授權,就可能涉嫌侵害了相關著作權人的合法權益。
例如,“AI孫燕姿”的開發與一個名為so-vits-svc(音色轉換)的開源項目息息相關,在該項目網頁的最底部的使用條款中有這樣一條警告:“請自行解決數據集的授權問題,因輸入源造成的侵權問題由您自行承擔”,也就是說開發者們早就已經意識到了該項目可能會帶來的版權問題。
2.有可能涉嫌侵害他人人格權
AI音頻生成技術的使用伴隨著有可能涉嫌侵害他人人格權的風險,具體主要表現為對他人聲音權、肖像權、名譽權的侵害。[4]與著作權保護的對象不同,聲音權是對聲音本身的特點和表現形式的保護。[5]在《中華人民共和國民法典》第一千零二十三條第二款中明確提出“對自然人聲音的保護,參照適用肖像權保護的有關規定”,也就是說《中華人民共和國民法典》認為應該將自然人的聲音視為一種人格權利。參照《民法典》中關于肖像權侵權行為的有關規定,對AI音頻生成技術可能會侵害聲音權的行為進行了以下總結:未經聲音權人許可使用其聲音,丑化、污損他人的聲音,未經同意擅自制作、使用、公開聲音權人的聲音。而利用AI音頻生成技術用當事人的聲音發布一些帶有侮辱性、誹謗性的不當言論時,當事人可以以侵害自身名譽權為由起訴。
被AI音頻生成技術侵犯聲音權等人格權的對象主要集中在聲音辨識度比較高的明星、政治人物等公共人物身上。2020年,美國說唱歌手Jay-Z的唱片公司起訴網站Vocal Synthesis,稱該網站使用AI創作了他的聲音來朗讀《哈姆雷特》《海明威小說》等文學作品和翻唱Billy Joel的We didn't start the fire等歌曲。
3.發生詐騙和其他衍生犯罪行為
人工智能在為人們生活提供更多可能性的同時,也為不法分子利用AI音頻生成技術犯罪提供可能,且手段也越來越高明。
一些詐騙分子通過撥打騷擾電話等方式,對受害人的聲音進行錄音,提取其聲音特征,然后對得到的聲音素材進行AI加工,進而用偽造出來的聲音實施詐騙。出于對聽到的聲音的信任,人們很容易上當受騙。2023年4月,福州市某科技公司法人代表郭先生因為詐騙犯使用AI換臉和擬聲技術10分鐘內被騙430萬元。“AI詐騙”案件層出不窮,科技的進步提高了防范詐騙的難度,除此之外,還要謹防利用AI合成家長聲音拐賣兒童、“殺豬盤”騙取錢財等其他衍生犯罪行為的發生。
(二)倫理審視
AI音頻生成技術以及由此可能擴展出的AI虛擬人背后,還存在著一些倫理問題,需要正視和亟待解決。
一方面是關于道德倫理問題的討論。人工智能作為一種極具顛覆性的技術,在實踐的過程中深刻地改變和塑造著人與人、人與社會之間的關系。AI音頻生成的應用將會對人的倫理道德提出挑戰,例如,某個網紅用AI去訓練自己的聲音模型,然后同時跟很多人開展對話,培養感情,這就可能會導致道德倫理問題的出現。在現實生活中已經出現了這樣的情況,國外一個名叫Caryn的網紅在Telegram應用程序上推出了基于自己聲音的AI聊天機器人,粉絲通過按分鐘付費的方式就可以與“Caryn AI”進行深層次的交流互動甚至“談戀愛”,而Caryn本人則利用“Caryn AI”實現了變現。盡管這種基于AI音頻生成技術的AI伴侶的設計初衷是為人們提供有意義的支持和陪伴,但與此同時,其伴隨的倫理問題也需要得到正視。
另一方面是AI音頻生成技術的廣泛使用可能會削弱人的主體性。技術是為人服務的,應該以人為本,但是當人工智能開始涉獵人的工作領域,將會對人的主體性提出挑戰,造成主客體顛倒的風險。當下,AI音頻生成技術已經被運用到AI主播、AI配音等領域,盡管該技術在實踐中仍然存在著一些缺陷,但是技術隨著時間的推移在日趨完善,這將會引發該技術的使用是否會降低人在生活中的重要性以及是否會取代人類工作崗位的憂思。
三、AI音頻生成技術的風險規制對策與思考
AI音頻生成不只是一種簡單的新技術或者新的生產工具,它還是人工智能生成內容崛起的一大重要表現,它意味著原有的生產方式的重大變革,對科技、社會、經濟等層面起著支撐作用,同時也可能意味著原有的內容審查制度和監管體系亟待完善。因此,對于該技術的使用必須予以高度的重視,對其可能帶來的風險可以按照國家法治、行業共治、公眾自治的治理邏輯進行規避。
(一)政策維度:完善法律規制體系
人工智能生成內容已經形成了一股浪潮,席卷著生活中的各個領域,與此同時,也增加了政府部門監管與治理的難度和成本。AI生成作為一種顛覆式的生產力工具,只有加強前瞻預防與約束引導,才能最大限度降低風險,確保其可靠、可控發展。對此,政府部門應該與時俱進,構建匹配我國國情的生成式人工智能法律體系,制定具體的法律法規條款,完善人工智能生成內容的規制體系,應對可能出現的風險。
國內外對于AI的監管都予以了高度的重視。作為生成式AI重要的參與者之一,中國相繼發布了《互聯網信息服務深度合成管理規定》和《生成式人工智能服務管理辦法(征求意見稿)》,其中分別對深度合成服務提供者和技術支持者的義務進行了明確的規定,以及對AI生成內容、提供者的主體責任、數據信息的合規、算法備案等制度提出了更加細化的要求。在國際層面,歐盟修訂的《人工智能法案》目前處于立法程序的最后階段。除此之外,日本、加拿大、澳大利亞等國家也正在制定各自針對人工智能的法律框架。隨著技術的不斷更迭,對于新一代的生成式人工智能,需要確立新的法律體系來適應其動態的發展,國家之間也應該超越意識形態,加強對話,共同維護AI技術的生態秩序。
(二)企業維度:明確平臺責任邊界
在生成式人工智能技術飛速發展的大背景下,僅僅依靠政府來規避AI音頻合成技術帶來的風險是遠遠不夠的,還要從企業維度對其進行干預。作為內容傳播流通的關鍵節點,把控著平臺的企業尤其應當加強對AI音頻生成技術濫用行為的審查和管理,為用戶提供專門的侵權反饋入口,后臺對反饋的侵權行為以及對人工智能生成內容衍生的問題進行及時處理。除此之外,平臺還應該明確劃分責任主體,對參與者提出細化的要求,其中包括基礎服務的提供者,使用了人工智能生成內容工具的生產者以及將作品上傳到平臺的發布者。一旦發生了侵權行為,可以準確地找出責任主體,及時地解決問題。當迭代的AI技術在實踐過程中產生諸多問題時,平臺的自我約束不僅能有效地幫助解決問題,而且履行了平臺的社會責任,彰顯企業的擔當精神。
2023年5月9日,抖音平臺發布了關于人工智能生成內容的平臺規范暨行業倡議,對創作者、主播、用戶、商家、廣告主等平臺生態參與者,在抖音應用生成式人工智能技術時提出了不同的要求,其中包括發布者應對人工智能生成內容進行顯著標識和對人工智能生成內容產生的相應后果負責、虛擬人需在平臺進行注冊、虛擬人技術使用者需實名認證、禁止利用生成式人工智能技術創作與發布侵犯他人著作權等權利方面的內容。對于違反上述規范的行為,一經發現,平臺將采取相應措施進行嚴格處罰。抖音平臺的這一做法可為其他的互聯網企業作為借鑒,在實踐中探索出可行的應對措施。
(三)公眾維度:主動擁抱AI技術
AI時代的到來將給人們帶來難以估量的影響,技術本身是中立的,社會對于AI音頻生成這一類生成式人工智能技術的發展應該持鼓勵和包容的態度,使用的過程中雖然伴隨著風險和挑戰,但是這一類技術蘊含的廣闊發展空間和應用場景也是不能忽視的。
面對不斷更迭的現代技術,社會公眾既不能一味地拒絕和排斥,又不能盲目地崇拜,而是應該理性地去應對這場能夠對生活產生重大影響的技術變革,拓展思維,提高對AI生成技術的認知和了解。一方面,只有增進對以AI音頻生成為代表的生成式人工智能的認識,才能更好地辨別生活中利用這些技術制造的詐騙陷阱,降低風險。另一方面,學習和掌握這些新興的AI生成技術,可以讓其轉化為自己的有力工具,為工作提質增效。例如,歌手陳珊妮于2023年3月14日發布的新歌《教我如何做你的愛人》就是自己的AI模型演唱的,新歌封面也由AI生成。人類主動擁抱AI生成技術并合理應用,可以開創無限可能,在開放和包容的土壤下,AI生成技術才能更好地落地生根,開辟出更加廣闊的發展前景。
四、結語
人工智能生成內容技術對于社會的沖擊是巨大的,AI音頻生成技術作為其中的一個重要領域,在現實生活中不斷地拓寬其應用的邊界。但是技術是一把雙刃劍,對AI音頻生成技術的濫用可能會帶來諸多法律風險,并且由該技術引發的道德倫理問題和對人的主體性的挑戰風險也不容忽視。為此本文提出了從政策、企業、公眾三個維度去應對其帶來的挑戰,在多方的協同之下,由AI音頻生成技術帶來的法律和倫理問題將得到較好的解決,才能在發展的路上行穩致遠。
參考文獻
[1]李白楊,白云,詹希旎,等.人工智能生成內容(AIGC)的技術特征與形態演進[J].圖書情報知識,2023(1): 66-74.
[2]陳志業,張智騫,王兵,等.AI語音合成技術的應用與展望[J].影視制作,2023(3):51-55.
[3]郭琳.“AI主播”技術挑戰下新聞主播傳播角色重構與策略優化研究[J].新聞愛好者, 2019(8):30-33.
[4]蒙曉陽,杜超凡.虛擬偶像行業中聲音侵權現象及其治理[J].西南政法大學學報, 2021(5): 72-83.
[5]林愛珺,馬瑞萍.人工智能時代聲音權立法的前瞻性思考[J].青年記者, 2019(34):72-73.