摘要:人工智能技術的突飛猛進正在重塑人類感知和理解世界的方式。繼Midjourney、Stable Diffusion等引領視覺生成式AI掀起新浪潮后,以ElevenLabs為代表的先進語音合成平臺也標志著音頻生成式AI的崛起。ElevenLabs憑借其高度擬真、富有情感、支持個性化定制的AI合成語音,造就了一種前所未有的聲音景觀,但也帶來了人聲合成泛濫對“語音身份”認同的解構與沖擊,由此造成社會傳統“語音秩序”的崩潰和重構,帶來語音身份多變與身份識別困境、語音身份盜用與社會信任危機、數字語音規訓與意識形態操控、虛假語音煽動與社會沖突威脅等風險。
關鍵詞:ElevenLabs;語音身份;語音秩序;數字人;人機共生;技術向善
中圖分類號:G206.3 文獻標識碼:A 文章編號:1674-3180(2025)01-0048-09
聲音,歷來不僅是個體身份的標識,更是情感的載體、記憶的容器,是人與人之間最為私密也最為真實的紐帶。每一個熟悉的聲音都在編織著我們的情感地圖,構建著我們的社會信任。然而,隨著以ElevenLabs為代表的新一代語音合成技術的橫空出世,傳統的聲音景觀開始出現深刻的變化,這一變化意味著人類社會生活的一種全新可能,同時也構成了對人類文明韌性的深刻考驗。
一、ElevenLabs:智能語音技術的突破
2024年年初,Sora橫空出世,繼ChatGPT之后,引起了社會新一輪關注和討論,使“人工智能生成內容”(Artificial Intelligence Generated Content, AIGC)又一次成為全球關注的焦點。[1]而正當大家對文生視頻大模型的討論方興未艾時,一款文字轉語音(Text-To-Speech, TTS)的AI工具——ElevenLabsa面世,再次帶來了新的震撼:僅需30秒到5分鐘左右的極少的數據集,就可以直接克隆任何一個人的聲音,完美復刻他(她)的說話方式、音色,甚至連他(她)的情緒都能復刻。最先進之處在于,操作者不需要再額外進行任何操作,就可以直接用同樣的聲音,流暢地說出數十國的語言。
傳統的語音合成多采用參數合成或拼接合成方法,依賴大量人工調校和語料積累,其生成的聲音在自然度、情感表現力上都難以與人聲相媲美。ElevenLabs開創的“端到端”語音合成范式,標志著智能語音技術的革命性突破。
(一) ElevenLabs的技術創新
ElevenLabs的AI模型能夠直接建模原始語音信號,通過海量真實語音數據的自主學習,掌握語音合成的內在規律。[2]其突出優勢體現在以下幾個方面:
首先,ElevenLabs率先實現了真正意義上的“端到端”語音合成。b有別于傳統的聲學特征抽取、中間表征映射等繁復步驟,其AI模型直接對原始語音信號進行神經網絡建模,并通過“端到端”的生成式對抗網絡(GAN)進行模型優化,最終實現從原始語音到合成語音的直接轉換。這不僅大幅提升了訓練和生成效率,也讓合成語音更加貼近人聲。“端到端”范式的突破性意義不僅在于簡化了語音合成流程,更在于開辟了一條全新的技術路線,為下一代語音合成系統的發展指明了方向。
其次,ElevenLabs的合成語音在韻律、情感等細微特征的表現力上實現了質的飛躍。傳統語音合成往往需要海量的專業錄音語料庫,才能在情感表達上取得有限的突破。而ElevenLabs借助深度學習技術,通過對海量真實語音數據的挖掘,充分學習了語音韻律、停頓、語氣等表征人類情感的關鍵特征。此外,其獨創的情感編碼模塊,可以根據文本情感和說話人特征,自動推斷合成語音的情感狀態,并進行實時調整。由此,其合成語音不再是冷冰冰的“機器音”,而是一種飽含情感、栩栩如生的“類人聲”。
再次,ElevenLabs開創性地實現了語音的“few-shot learning”(少樣本學習)。得益于其AI模型卓越的遷移學習能力,用戶只需提供幾分鐘的目標音色樣本,即可快速訓練出一個與原聲難以區分的定制化語音。這種能力過去被視為語音合成的“終極挑戰”,如今卻被ElevenLabs輕松攻克。由此,個性化AI語音的生成門檻被大幅拉低,為亞馬遜的Alexa、蘋果的Siri等智能語音助手的全面升級鋪平了道路。c
(二) ElevenLabs的應用前景與行業變革
可以預見,ElevenLabs引領的技術變革必將掀起智能語音應用的新一輪革命浪潮。
高度擬真的語音克隆技術,為語音產業帶來了空前的可能。從有聲讀物、游戲配音、語音導航到虛擬偶像,ElevenLabs等智能語音系統的問世昭示著人工智能正加速滲透內容生產的各個領域。尤其是其逼真的音色模擬以及音頻內容的實時生成能力,不啻為聲音藝術注入了新的活力。譬如,在廣播劇創作中,AI配音的介入既能極大地提升制作效率,又能通過海量音色庫催生更多個性化的人物形象。再如,在有聲讀物領域,ElevenLabs不僅能還原名人原聲,還可為普通大眾定制“私人專屬”的聲音助手。種種技術紅利的持續釋放,無疑將助推泛語音產業迎來井噴式的發展。
高度擬真的語音克隆技術,為情感互動帶來了空前的可能。更多個性化的聲音形象有望脫穎而出,與用戶建立更加情感化的聯結。另一方面,類人的AI之聲與情感計算、心理分析技術的結合,也將催生出虛擬心理咨詢師、智能語音社交等一系列功能性和情感性俱佳的創新應用,由此開啟人機混生的嶄新圖景。
高度擬真的語音克隆技術,更為社會生活領域帶來了空前的可能。在教育領域,聲音技術為個性化學習提供了有力支持。例如,針對有閱讀障礙的學生,通過調整語音速度、語調及添加語義強調等方式,能幫助他們更好地理解學習內容。一些在線學習平臺利用聲音合成技術,為這類學生定制專屬的有聲學習資料,大大提高了他們的學習效果。實證研究表明,使用語音合成輔助學習工具的學生,語言學習成績平均提高10—15分(滿分為100分)。[3]在語言學習方面,模擬真實語境下的多語種語音對話,為學生提供沉浸式語言學習環境,能有效提升語言聽說能力。在醫療保健領域,聲音技術同樣發揮著重要作用。對于視障人群,高質量的語音合成技術將文字信息轉化為清晰、自然的語音,使他們能夠無障礙獲取醫療資訊、健康科普等內容。在康復訓練中,定制化的語音引導被應用于語言康復訓練,通過精準控制語音節奏、音高和音量,輔助患者進行發音矯正與語言功能恢復。[4]聲音技術的融入不再僅僅是簡單的功能補充,還彰顯了深刻的人文內涵和對社會公平正義的切實探索。
與此同時,ElevenLabs開啟的語音合成技術變革,也為人工智能產業生態和社會形態圖景的深刻重塑埋下了伏筆。當下,以OpenAI、DeepMind為代表的科技巨頭正憑借算法和算力優勢,力圖主導通用人工智能的發展方向。而ElevenLabs在智能語音合成領域的突破性進展,無疑為這場人工智能競賽再添一把火。可以預見,谷歌、微軟、蘋果等科技巨頭勢必將語音合成視為人工智能布局的戰略高地,由此加劇行業競爭的復雜性。ElevenLabs的開放平臺戰略,為全球開發者參與語音模型的開發、優化、商業化提供了機會,但能否撼動寡頭壟斷的局面還有待觀察。隨著技術創新加速演進,智能語音行業的格局想必還將出現新的變數。
進而言之,ElevenLabs開創的語音合成新范式既為人機協同、產業創新、社會進步開啟了想象空間,也對人類主體性、文化認同、公共生活帶來新的挑戰。
二、數字時代“語音身份”的重塑及其挑戰
在人類文明的長河中,聲音始終以一種獨特的方式印刻著個體存在的痕跡。先秦那一枚枚按壓在竹簡木牘上的手印,見證了古人對生物特征與身份認同關系的深刻理解。其實,在漫長的歷史進程里,聲音,這個看似易逝卻又深深嵌入人類記憶的存在,承載了比指紋更為豐富的意涵。隨著以ElevenLabs為代表的智能語音技術的飛速發展,個體“語音身份”的建構方式正面臨前所未有的重塑。
(一)聲紋作為“語音身份”的標識曾具有獨一無二的價值
語音的獨特性深深植根于其生理基礎之上。從人類發聲機制來看,聲帶作為發聲的核心器官,其長度、厚度以及緊張度的個體差異構成了聲音獨特性的物理基礎。
進而言之,這種差異不僅體現在聲帶的物理屬性上,更反映在整個發聲系統的協同運作中,這一組合既復雜又穩定,形成了各自獨特的節奏韻律和音高變化。這些聲學特征相互交織,形成了如同指紋般獨一無二的聲紋模式,為個體身份的精準識別提供了可靠的聲學標識。正是這種聲學特征的多維組合,使聲紋在身份識別領域具有獨特的應用價值,由此形成了習焉不察但極其重要的“語音身份”建構問題。
“你是誰,你從哪兒來,你到哪兒去”,這一“門衛問題”,也就是“身份問題”,向來被認為是人類社會生活最重要的問題。所謂“身份”(identity),“通常指的是一個人或實體的獨特特征、特性或屬性,用來識別和區分這個人或實體。身份可以包括個體的姓名、性別、年齡、民族、國籍、職業、文化背景、宗教信仰、性取向等各種方面”[5]。“語音身份”,指的就是特定個體借助語音而構建出的主體地位。
“語音身份”絕非單一要素的線性組合,而是多重因素矛盾運動的復雜系統,是個體將生理稟賦、心理特質、社會屬性、文化認同等多重因素物化于語音形態,并在傳播互動中獲得主體性確認的動態過程。作為人之為社會存在物的基本標識,“語音身份”的建構有如下意義:一是語音的生理屬性,包括發聲器官結構、基頻范圍等決定音色的先天稟賦;二是語音的心理特質,包括表達意圖、情感態度等影響語音韻律的主觀因素;三是語音的社會指認,包括階層、地域、種族、性別、職業等影響語音形態的社會身份;四是語音的文化內涵,包括時代主流審美、意識形態話語等對語音風格的規訓機制。諸如20世紀20年代北京出現的“女國音”、西方社會語言學者討論的“女性語體的聲音表征”等,不僅意味著某種語音上的聲學特征,更意味著一定社會身份的建構。
在漫長的歷史演化中,“人發其音”“聽音識人”早已深刻地融入人類的認知模式,以至于形成了一種比政治身份、文化身份、經濟身份等更隱蔽卻更深刻的身份標記,從而支配著我們的行動與認知。
(二)數字聲音正對“語音身份”造成空前的解構
ElevenLabs的崛起正從根本上解構“語音身份”的傳統建構邏輯,并重塑個體認同的話語圖景。
數字聲音的發展直接威脅著“公眾人物”語音身份的維護。無論播音主持、影視演員、社會名流還是政治領袖,都具有特定的語音身份,這一身份不僅意味著一種“主體建構”的過程,更意味著一種特定權力。[6]ElevenLabs開創的超寫實語音克隆技術,使個人專屬的語音特征,如聲紋、音色、腔調等生物識別信息,變得前所未有地易于模仿。這固然為普通用戶打開了扮演他者的想象空間,卻也讓公眾人物產生了語音身份被盜用的焦慮。聲音的唯一性是個體同一性得以確立的重要前提,然而語音克隆卻讓這種獨特性蕩然無存。當一個人的聲音可以被任意復制,其身份認同所依賴的穩定性無疑遭遇了解構。[7]尤其是對公眾人物而言,當你的魅力元素可以不受控制地被無限復制,你還能宣稱擁有一個穩固的“公共形象”嗎?
進而言之,ElevenLabs引領的高度擬真語音合成浪潮,還從更深層次上動搖了幾乎所有個體語音身份認同的根基。在算法賦能下,虛擬人聲不但在音色、語調等表層特征上亂真,更在情感、個性等深層風格上實現了以假亂真。這意味著,當下個體語音身份所依賴的差異性正面臨消解的危機。倘若人人都能模仿他人之聲,誰還能說自己擁有獨一無二的嗓音?當個體難以用穩定一致的聲音特征彰顯自我,語音難道不是淪為了可以被無限篡改的符號游戲?可以想見,當社會語音差異被數字技術抹平,個體語音身份歸屬感將日益模糊。
更令人警醒的是,商業化驅動下大行其道的數字虛擬人設,亦將“造音”技術的身份雜糅效應推向極致。當虛擬偶像大行其道,其高度擬真、極富感染力的聲音背后,究竟映射的是誰的情感,塑造的又是什么樣的人設?在人格面具的無限疊加中,個體的自我何以安放?這一切都預示著,當算法掌控了語音生產的話語權,個體語音身份認同的主體性將面臨全面瓦解。
三、數字時代“語音秩序”的崩潰與重構
身份的本質不僅是個體主體性的建構過程,更是“社會秩序”的建構過程。“語音身份”同樣如此,它不僅意味著某個個體的聲音特征和主體地位的建構,更意味著由此而來的“語音秩序”的崩潰與重構。
任何社會的正常運行都會體現為一定的秩序,所謂“語音秩序”(speech order)是指人類通過語音交互所形成的社會性規則與結構系統,旨在協調語音行為、維護溝通效率、保障信息傳遞、確保個體與群體在語言交流中的權益平衡。其核心是通過技術規范、社會倫理、文化共識和法律約束,對語音的產生、傳播、接收及反饋進行系統性管理。這不僅意味著當代語音技術(如語音識別、合成、存儲)普及帶來的新型社會關系與矛盾,更意味著一種基于歷史形成的相對穩定的語音實踐模式。它規定了在特定社會中什么樣的語音形式被視為合法、正當和規范,由此形塑了社會成員的日常語音互動方式,影響著語音資源的社會分配,旨在揭示語音實踐如何受到社會結構、權力關系、意識形態等因素的制約,進而再生成特定的社會秩序。
“語音秩序”可以被視為一種社會話語秩序的體現,它通過語音、語體和風格來實現對社會秩序的表達。在語言學層面,“語音秩序”強調語音的標準化和規范性,例如語音的發音、語調等方面的統一性;在社會文化層面,“語音秩序”反映了語音在社會互動中的功能,如身份標識、文化傳播、社會認同等;在技術層面,“語音秩序”涉及語音技術的應用、語音數據的管理和隱私保護等。
(一)“語音秩序”的社會認知圖式變化
在社會認知領域,聲音不僅是一種物理聲學信號,更是個體身份在社會互動中的重要象征。從心理學角度而言,個體對聲音的感知與識別,是基于長期的社會學習和記憶形成的。在日常社會交往中,人們通過聲音所傳達的信息,如語調、語氣、方言特征等,構建起對他人身份、性格、社會角色等方面的認知圖式。
從社會建構論的視角審視,個體“語音身份”的形塑,本質上是自我建構和社會指認的動態過程。身份建構既是個體通過話語表達傳遞自我、獲得認同的過程,也是社會集體通過語言符號將個體納入特定群體的“歸類”過程。換言之,個體語音身份的同一性,既取決于自我聲音表達的連貫性,也受制于社會評價體系的一致性。[8]然而,ElevenLabs重塑的數字語音景觀卻從兩個方面加劇了這一身份認同的不確定性。一方面,數字語音時代自我表達方式的革新,客觀上加劇了語音身份認同的“去中心化”傾向。互聯網語音社區的興起,使個體獲得了更多借助聲音展演自我的機會。語音身份建構空間不再局限于現實社會情境,虛擬人聲的生成、傳播、消費成為身份認同新的主戰場。然而,數字語音空間的匿名性、片段化、非線性等特點,卻讓個體語音表達趨于碎片化。自我話語實踐的非連續性,動搖了傳統意義上語音身份的同一性基礎。[9]另一方面,個性化AI合成語音的廣泛傳播,也使社會對個體語音身份的評判標準愈發失范。在數字時代,傳統聲音評價體系被算法推薦、流量邏輯所綁架,個體語音身份的社會認可度很大程度上取決于其能否迎合主流審美趣味。信息繭房中,同質聲音不斷自我強化,異質聲音則面臨邊緣化威脅。于是,社會對個體語音身份的風格期待也愈發單一化。非主流語音腔調、草根口音風格,其合法性地位往往受到質疑和排斥。
可見,數字語音語境下,個體語音身份認同正遭遇“雙向失范”:既面臨自我話語建構連貫性的失序,又面臨社會評判體系一致性的潰散。傳統身份認同所賴以建立的互動儀式,在算法霸權的侵蝕下正土崩瓦解。
(二)“語音秩序”的社會信任機制變化
在家庭場域,聲音歷來維系著親密信任:從發展心理學的視角看,個體在家庭環境中通過長期的互動與情感交流,對家庭成員的聲音形成了高度敏感的識別能力。這種識別能力不僅基于聲學特征的記憶,更與情感依戀緊密相連。例如,嬰兒在早期發育階段,便能通過母親的聲音獲得安全感和情感滿足,母親的聲音成為嬰兒認知世界和建立情感聯系的重要媒介。隨著個體成長,家庭成員之間通過聲音傳遞的情感信息、情緒狀態以及言語習慣,進一步強化了彼此之間的信任關系。神經科學研究表明,大腦在處理家庭成員聲音時,會激活與情感加工、記憶相關的腦區,如杏仁核、海馬體等,這從神經生物學層面解釋了家庭中基于聲音的親密信任的形成機制。家庭作為社會結構的基本單元,是聲音信任機制形成的核心場域。
在社區環境,聲音歷來構筑著社交信賴:在傳統社區環境中,聲音成為構建社交信賴關系的重要紐帶。社區作為一個地域性生活共同體,居民之間頻繁的日常互動使聲音成為彼此識別與信任的重要標識。社區成員通過聲音建立起一種基于地域文化和生活實踐的社交網絡。例如,鄉村社區中,村民們獨特的打招呼方式、方言口音以及在田間地頭、鄰里聚會中形成的聲音交流模式,構成了社區內部獨特的聲音景觀。這種聲音景觀不僅是社區文化的重要組成部分,更是社區成員相互識別、信任與合作的基礎。通過聲音,社區成員能夠快速確認彼此身份,分享信息,解決生活中的問題,從而增強社區的凝聚力和穩定性。這種基于聲音的社交信賴,是社區社會資本積累的重要方式,對社區的持續發展具有深遠影響。
在行業領域,聲音歷來凝聚著職業認同:在特定行業領域,聲音在職業認同的形成與維系中發揮著關鍵作用。不同行業常常具有不同的聲音文化和交流模式,這些聲音特征成為從業者身份認同的重要組成部分。例如,在音樂演奏行業,音樂家們通過獨特的演奏風格、音色控制以及對音樂作品的個性化詮釋,形成了各自獨特的聲音標識。這種聲音標識不僅是音樂家專業能力的體現,更是他們在行業內獲得認可和身份認同的重要依據。
但是,隨著數字聲音的快速發展,從家庭到社區到行業,傳統的語音信任機制正在遭遇越來越多的挑戰:社交媒體上虛假聲音的泛濫、金融領域中聲紋欺詐的蔓延、司法實踐中聲紋證據的失信,無不預示著一個建立在聲音真實性基礎上的“社會語音秩序”正在發生根本性動搖。
(三)“語音秩序”的聲音生產權力轉移
在傳統聲音生產的特定場域內,專業技術與專業設備共同構建起一道幾乎難以跨越的屏障。這一技術壁壘不僅塑造了特定的生產關系,更在深層次上維持著一種文化權力的等級秩序。
在過去,聲音生產往往被專業的廣播電臺、錄音工作室等機構所掌控,普通個體由于缺乏專業知識和昂貴的設備,很難涉足其中。然而,數字技術的強勢介入正逐漸改變這一局面。以ElevenLabs為代表的創新平臺,通過將復雜的聲音生產流程簡化為直觀的文本輸入方式,不僅帶來技術操作上的簡便化,更關鍵的是引發了文化生產權力的重新分配。ElevenLabs的用戶界面設計極為友好,即使是毫無音頻制作經驗的普通創作者,也能通過簡單的文本輸入,快速生成高質量的語音內容,無須再為復雜的音頻編輯技巧和聲學知識所困擾。這種轉變的意義絕不僅僅體現在效率提升。從本質上講,它重新定義了數字時代文化生產的主體特性。以往,普通個體多為聲音文化的被動接收者,僅能消費專業機構產出的聲音內容。如今,他們正轉變為積極的創作者,得以依據自身意愿創作并傳播聲音作品。
在算法賦能的新型聲音生產環境中,個性化定制能力的顯著提升,絕非一般意義上的技術進步,而是預示著一種全新文化生產范式的誕生。這種范式的獨特之處,不僅體現在對音色、語調、語速等聲音的物理屬性的精準把控上,更深刻地體現在它為文化表達開拓了嶄新的維度。當聲音內容借助先進技術突破語言的限制,在不同文化語境中自由轉換時,一種前所未有的文化交流景象正逐步呈現。這不僅僅意味著傳播范圍的擴大,更是對傳統文化傳播秩序的根本性重塑。以ElevenLabs強大的多語言合成功能為例,它支持三十多種語言和五十多種口音的合成,創作者可以輕松地將自己的作品轉化為多種語言版本。比如一部具有中國傳統文化特色的有聲故事,通過ElevenLabs的技術,能迅速被翻譯成英語、西班牙語、阿拉伯語等多種語言,讓全球不同地區的聽眾都能領略到中國文化的獨特魅力。在這個過程中,聲音技術的創新實際上開啟了一種全新的文化生產與傳播模式,使各種文化都有機會在全球舞臺上展示自身特色,促進了多元文化的共生與交流。
在這樣的技術圖景下,我們不禁要問:當聲音不再是個體獨特性的可靠標識,人類社會賴以維系的信任基礎將走向何方?當算法可以完美復制每個人的聲音,我們是否正在進入一個聲音身份加速解構的時代?這些問題,不僅折射出技術進步與人文傳統的深層沖突,更關乎人類社會最基本的信任機制與文化認同的重構。
四、數字聲音景觀重構中的風險與危機
在ElevenLabs引領的數字化聲音景觀重構中,傳統“社會語音秩序”正在被顛覆,而一系列風險與危機也在慢慢凸顯。
(一)語音身份多變與身份識別困境
聲紋是每個人與生俱來的獨特“身份證”。它攜帶著個體的生理特征、性格氣質、文化背景等多重信息,是人格同一性的重要體現。從社會學角度看,語音身份是自我認同與他者認同的統一。個體通過言說塑造自我,用聲音傳遞個性,彰顯存在。社會則以聲紋為線索,將個體身份歸類、定位,形成秩序化的人際網絡。可以說,語音同時承載了個人與群體的雙重身份屬性。這種獨特性一旦被打破,便給身份識別帶來空前的困境。
ElevenLabs等AI企業推出的聲音克隆服務,既能輕易復制他人聲紋,生成以假亂真的語音,又能生成某種特定條件的語音,由此,制造出一個又一個“數字語音分身”,幫助不同的主體在線發聲、參與內容創作。不過,語音AI民主化在賦能大眾創造力的同時,也引發了諸多隱憂。例如,他人聲音數據的采集是否侵犯他人隱私?虛擬人聲的版權歸誰所有?……
進而言之,擬人化、個性化、情感化的AI之聲,也將深刻影響人們的社會交往方式和文化心理。[10]倘若智能音箱、虛擬助手成為人們傾訴衷腸的對象,傳統人際交往的空間勢必會被虛擬互動所侵蝕。當算法成為情感慰藉的供給者時,人的尊嚴能否在人機共生的語境下獲得新的詮釋同樣值得思考。更進一步講,個性化合成語音對公共話語生態的影響也不容忽視。
(二)語音身份盜用與社會信任危機
語音身份識別的困難導致語音身份的盜用難以避免。而一旦某人的聲音被惡意克隆,其言論遭到隨意篡改,社會公眾難免對“耳聞”產生懷疑。尤其在當下后真相語境下,公眾人物的演講可以被隨意篡改,權威人士的言論可能被肆意偽造,政客的公信力和企業高管的聲譽都將面臨危機,“我聽到的未必是真相”恐怕將成為常態思維。人們對聲音真實性的信任危機一旦全面爆發,對以音頻形式呈現的各類傳媒內容的信賴度勢必大打折扣。長此以往,公信力和社會資本的流失將不可避免,人工智能生成虛假信息所導致的危害將是破壞性的、難以彌補的。這絕不僅僅是一個技術問題,更是一個關乎人類未來命運的社會問題。
(三)數字語音規訓與意識形態操控
ElevenLabs預示的智能語音時代,可能帶來數字聲音規范對公眾話語生態的隱性規訓。
具體而言,當算法推薦、智能音箱等成為主導個體語音消費的核心機制,它們必然會形塑特定的語音風格偏好。ElevenLabs重塑的數字人聲音景觀,從話語互動層面加劇了群體語音風格的同質化傾向。長此以往,迎合算法口味的語音腔調將獲得更多流量,進而主導數字語音市場。與之相對,非主流語音風格,如方言口音、草根腔調等,其地位則可能日益邊緣化。這種算法霸權導致的話語生態失衡,很可能將加劇語音表達的數字鴻溝。處于弱勢地位的語音群體,如底層勞動者、邊緣族裔等,其聲音訴求更難獲得公平對待。而這種以技術之名進行的意識形態規訓,其隱蔽性和滲透性遠甚于傳統話語管制。
算法推薦和同質化傳播,使個體更多地接觸到與自身(喜好的)語音風格相近的聲音內容,久而久之便形成了同質化的語音認同群體“信息繭房”。在“回音室”效應的強化下,群體語音身份認同愈發封閉,彼此對立的語音腔調、話語風格被放大,甚至極端化。于是,原本流動的群體語音界線被固化,族群對立情緒在同質化聲音圖景中被推向極端。
進而言之,當語音造假以“歷史錄音材料”的身份出現,更可能淪為意識形態斗爭的助推器。人聲經由算法重組、拼貼乃至虛構,不啻為集體記憶抹去歷史經驗的根基。可以預見,借助ElevenLabs的造假能力,不同陣營制造并傳播有利于己方、攻擊對方的虛假語音將變得更加便捷。于是,“他們”塑造的形象被妖魔化,“我們”捍衛的價值被神圣化。歷史真相的泯滅將為新一輪的話語博弈埋下隱患。
(四)虛假語音煽動與社會沖突威脅
ElevenLabs釋放的高度擬真、富有感染力的虛擬人聲,也可能成為政治沖突的助燃劑。
政客可能利用智能語音轟炸式傳播片面言論,操縱民意;不法分子可能利用智能語音系統批量制造深度偽造(deepfake)音頻,配合社交機器人傳播虛假信息,甚至操縱金融市場、干預選舉過程;極端政治團體可能利用ElevenLabs的音頻生成能力,批量制造煽動性的民粹主義、種族主義爭議言論,社會語音生態的健康發展將面臨巨大挑戰。
更值得警惕的是,政客還可能利用智能語音偽造各種“語音事件”,挑起沖突,如偽造對方陣營代表性人物的荒謬“發言”、私下“交談”來刺激社會公眾。而語音這一富于感染力的媒介本就更易引發群體的情緒共振,一段精心編造的爭議性言論,往往比書面語言更能調動起人們的斗志。當煽動性的音頻材料充斥于各路陣營的信息流中,群情激憤幾乎在所難免。如此,原本就勢同水火的對立方很可能進一步激化矛盾,導致街頭政治的泛濫,引發暴力沖突。
隨著人工智能向通用智能邁進的腳步日益堅定,以ElevenLabs為代表的語音合成技術已然成為重塑歷史話語權的新型力量。當AI工具將個體的聲音完美模仿、克隆乃至篡改,智能影像制造導致的“信息的扭曲和偽造問題,或將社會推向政治非穩態”[11]。
由此,數字語音技術如何撬動未來政治版圖的棋局,或許正是AI治理需要直面的終極拷問。
總之,隨著ElevenLabs等智能語音系統的崛起,人類社會正加速邁入一個“語音造夢”的新時代。這場由人工智能引領的聲音革命在提供豐富的創意和表達可能的同時,其潛在的破壞力也令人生畏。當虛擬人聲難辨真偽,當語音記憶面臨解構,我們究竟該如何守護聲音世界的真善美?這一命題不僅事關人機關系的重塑,更折射出人文精神在智能革命年代的尊嚴訴求。只有捍衛聲音真實的尊嚴、呼喚理性治理的自覺,我們方能在樂音喧囂中不失詩意棲居的方向,進而揚帆駛向人與技術和諧共生、多元共榮的未來之境。如何以科技向善、數字向美的姿態擁抱新的數字景觀,考驗的正是每一個理性公民的智慧與勇氣。[12]
參考文獻:
[1]吳冠軍,趙憲章. Sora:從技術哲學到文藝學的思考[J].文化藝術研究,2024(1).
[2]Goodfellow, Ian, Yoshua Bengio, and Aaron Courville. Deep Learning[M]. Cambridge: The MIT Press, 2016. 200-400.
[3]Black, A., S. Gray, and Brown, T. \"The Impact of AI-Generated Speech in Language Learning\" [J]. Journal of Educational Technology, 2023(3).
[4]Clark, M., and R. Turner. \"Using Speech Synthesis in Rehabilitation Therapy\" [J]. Rehabilitation Medicine Journal, 2022(2).
[5]胡范鑄.元主體、社會身份、情景角色:言語主體范疇的重新分析[J].復旦學報(社會科學版),2024(3).
[6]胡范鑄.我的“新修辭學”研究四十年[J].中國語言戰略,2024(2).
[7]Giddens, Anthony. Modernity and Self-Identity: Self and Society in the Late Modern Age[M]. Redwood City: Stanford University Press, 1991. 264.
[8]彭增安.語言與社會身份[M]. 上海:上海外語教育出版社,2020:120-130.
[9]朱明.媒介賦權下群體自我身份認同建構分析[J]. 聲屏世界,2025(2).
[10]羅昕,楊心玥.演進中的數字身份:交往特征與風險治理[J].青年記者,2024(4).
[11]高奇琦,臺潤澤.基于世界模擬的政治非穩態:Sora的智能影像生成與歷史重塑[J].新疆師范大學學報(哲學社會科學版). 2025(2).
[12]胡范鑄,胡亦名.“數字孤獨”:數字景觀中空間認同的斷裂及主體的異化[J].現代出版,2024(3).
(責任編輯:馮靜芳)
a 加拿大AI公司ElevenLabs開發的情感語音合成系統,利用深度學習算法,通過海量語音數據的訓練,可以高度擬真地模仿人類的語音特征、情感狀態和說話方式,為用戶提供個性化的語音合成服務。
b 參見:https://elevenlabs.io/blog/eleven-multilingual-v1/。
c 參見:https://elevenlabs.io/blog/what-is-voice-translation-and-why-does-it-matter/。