趙 馨
(華東師范大學傳播學院,上海 200241)
新華社聯合搜狗在2018年發布了以真人主播邱浩為原型的全球首個AI合成新聞主播。他依靠“搜狗分身”建模技術,將數字化信息深度整合,對合成主播進行人臉特征提取重構、唇語識別、情感遷移等多方位組合訓練最終達到與真人主播無異的AI分身。這一所謂的技術“分身術”引起學者們多角度地觀察與思考,一時之間,AI合成新聞主播的“離身性”與真人新聞主播的“具身性”成為研究熱潮,同時“傳情達意”的感情交流等問題再次喚醒學界對于技術與真人的身體對比討論,尤其是在身體互動的非語言符號方面。本文將探究AI合成新聞主播的身體互動傳播發展歷程與存在的不足,進而為真人主播提供可持續發展的方向。
數字媒體技術更新迭代速度不斷加快,人工智能,大數據算法與媒介相互融合使得AI合成新聞主播應運而生。從2018年以邱浩為原型的AI合成主播到2019年以新華社女主播屈萌為原型打造的國內第一位AI合成女主播新小萌,在全國兩會期間“上崗”并實現了站立式新聞播報。再到2020年5月新華社聯合搜狗公司推出的以新華社記者趙琬微為原型可以高度還原真人皮膚和肌肉驅動的全球首位3D版AI合成主播新小微。AI合成新聞主播在技術上呈現出技術迭代快、技術細致升級化的特點。 三代的AI合成新聞主播皆以真人播音員,記者的外在特征、語音面貌為原型,進行信息采集捕捉和搭建。在新聞播報中可以做到基本的文字到聲音的轉換,達到與真人播音員相似的音色和規范的吐字,展現與真人主播無異的信息傳達效果。
20世紀60年代,兩位美國科學家曼弗雷德.克林斯和內森.克蘭在《賽博與空間》中首次提出了“賽博格”這一概念。后來這一概念延伸至定義人的身體性能經由機器拓展進而超越人體限制的新身體,簡稱“電子人”。國內學者彭蘭在《智能時代人的數字化生存》一文中將賽博格的概念引入分析AI合成新聞主播:“他們都是從真人原型身上獲取了面貌、聲音等元件,中性地說,這些智能技術帶來的是人的數字化的重組……這樣一種將個體元件數字化并將各種元件重組方式,也許也成為另一種賽博格。”[1]這樣一種賽博格是一種將真人語言風格、外貌中的表情、長相甚至身材等元素符號進行數字化描寫加以復制并移植到新的智能身體上。
人工智能技術當中的人臉合成技術和語音合成技術日益完善,作為賽博格化的AI合成新聞主播,它們在整體視覺上和聽覺上都已經達到了幾乎與真人主播相同的效果。尤其是在文本轉化為的有聲語言與動態人臉捕捉到的圖像視頻化配合下,顯然達到了驚艷受眾的逼真形象要求。在身體經驗中,精神性的“自我”和物理性的“身體”都是反思后經由理性概念構造的產物,在這兩者生成之前的身體經驗場更為本源。在熒屏中出現的AI合成新聞主播顯然與真人主播之間因同樣的“身體經驗場”產生了一種形象主體二重性的特點。
從2012年左右,搜狗就開始針對其語音技術領域的研發和摸索,現在已逐步成為中國最大的語音識別引擎。音高、音強、音色、音長是構成語音的物理基礎四要素。AI合成新聞主播融合語音識別技術和大量的語音數據計算采集,具備各大語種、各聲線、音色等語音合成的能力。在聽覺效果上大約與真人主播音色一致,甚至有很強的音色辨識度效應。然而,語音的生成來源是人的發音器官,并且它也是社會交際的工具之一。這強調了語音的來源具有具身性,即人的發音器官。強調了語音的本質屬性,也是區別于其他意義上的屬性,即社會性。因此,嚴格意義上講,AI合成主播所發出的聲音屬于一種語音識別模仿,不能稱之為具有社會意義的語音。受眾的聽覺接收感官接收到這樣的聲音符號時,其技術逐漸成熟可以達到“以假亂真”的效果時,其兩者語音樣態就出現了一定的模糊性。
當下的AI合成新聞主播在表達中的語言符號和非語言符號中都不斷進行了優化升級,甚至在單獨的非語言符號領域也探索新路徑——2021年搜狗公司發布了全球首個手語AI合成主播小聰,它的手勢的動程基于《國家通用手語詞典》,播報內容以服務于聽障人士的新聞接收作為基本目標,在外部形象和手勢動作方面達到逼真自然的效果。AI合成新聞主播的打造仍然基于數字化的技術處理,這與播音學當中播音的創作方法大相徑庭:所謂播音的創作方法是一種創作主體對客體進行認識、感受、理解、歸納、組織、結構的過程。在這個緯度上,情感的生發并非一種程式化的機械處理,而是涌動著的不斷變化著的感情起伏。[2]AI合成新聞主播在現階段依然處于剛剛起步到功能優化的階段,它的誕生和所依照的大數據恰恰反映了其情感表達上的不足,因而在這一方面考慮,人機耦合也成為目前人工合成主播應用的主流。
新聞播報具有立體性、全方位的特點,它被看作是新聞宣傳中的一個重要組成部分。新聞播音的性質分為兩大類:創造性和多質性。其中,多質性里又包含有言語傳播性、新聞性和藝術性。這些性質對研究當下AI合成新聞主播的身體互動具有引領作用。
創造性在新聞播報方面體現在創作主體發揮其主觀能動性,生發出一定情感,借助情感的力量,將原先文字排列的符號系統進行改造加工,搭建起一套新的符號系統。關于創作主體,AI合成主播和真人主播在這一方面有很大的不同。身體,是活的身體,其內在的控制、引導過程驅動著對外界的認知和互動。[3]身體是人們了解世界的媒介,人們通過身體在世界上獲得各種感覺、感知,并用身體去詮釋和反映獨特的生命體驗。動作是身體的語言,我們通過動作了解和構建世界。每天,人們會進行大量的身體動作的變化,包括肢體姿勢的改變、目光的移動、肌肉的調整等,這些是人們身體動作的變化,也是日常的動作習性。AI合成新聞主播在這里算不上是真正的具備主觀能動性的創作主體。央視財經新聞主播姚雪松在向觀眾介紹以它為原型的AI合成主播姚小松時會不自覺地有著“介紹性”的身體反應,如伸手介紹、微笑等。相比之下,連線到的姚小松卻略顯呆板,更無任何體態語可言。
2.2.1 語傳播性質
當AI合成主播以與真人無異出現在熒幕上時,它們最重要也是最能表現技術的一點就在于它們的言語傳播。言語傳播前的傳播內容的來源以及它們如何編碼成聲音符號的過程對研究AI合成新聞主播的身體互動有著內在的關聯。威廉·詹姆斯在《心理學原理》中比較過兩個概念“相識的知識”(Knowledge of acquaintance)和“相知的知識”(Knowledge-about)。前者依靠接觸過程中的感知,直覺反應;后者則依靠概念,理性判斷。這一點也就解釋了為什么真人新聞主播在播報過程中為什么會自然性地伴隨相應的眼神、表情和動作。AI合成主播沒有自身主體與外界的身體感知和直覺反應,它們的言語傳播與真人主播的“心理—生理—心理”不同,而是“通過提取真人原型在新聞播報中的語音、唇形、表情、動作和形象等,運用智能合成技術和深度學習等聯合建模數據庫,將所輸入的中英文文本非線性自動生成相應內容的智能音視頻。”[4]目前AI合成新聞主播所對應的身體動作諸如眨眼、伸手、臉部肌肉張弛等都是利用多模態合成模型基于語音驅動表情序列生成對應序列的視覺效果而已。
2.2.2 新聞性
國內對“新聞”這一概念的界定普遍沿用的是學者陸定一的定義:“新聞是新近發生事實的報道。”[5]在新聞播報領域,“新”要求體現出時代感、新鮮感;“事實”要求體現出新聞的真實性和分寸感;“報道”則要求主播具有一定的表態性。新聞性的表達特征也是引發身體變化的基礎,比如表達激動時語速加快的同時不自覺地嘴角上揚,放大明眸;表痛心悲傷時,不自覺地皺眉等。具體再到播報不同的內容有不同的身體變化。因而,AI合成主播在深度學習的過程中是否可以達到與真人一樣精細的情感轉換也有待觀察。
2.2.3 藝術屬性
新聞播報因其具有情緒渲染下的二度創作且在聽感上、視覺上兼具美的享受,因而稱這一活動具有藝術屬性。保羅·萊文森曾提出過媒介演進三階段理論,前兩個階段分別為“技術作為玩具”和“技術作為現實的鏡子”。他將最終的階段比喻為“藝術”。AI合成主播已經在技術層面上達到玩具階段甚至鏡子階段的水平,其仿真度越來越高。然而根據突發狀況做出有聲語言與自然的身體動程相匹配直擊心靈的傳播卻難以做到。通向“傳情達意”的藝術性依然道阻且長。
媒體置于社交景觀下,帶來的是更強的人機互動和群際文化的交流。在強連接下,順應媒介樣態發展,注重人的生命價值,打造詩意棲息化的生活可能是未來主持傳播發展的一大方向。在現實和虛擬的轉換中,具身離身的智能互構體現出在互聯網飛速發展時代下人類對于現實問題的反思和追求自我的渴望和嘗試,構建了一個后現代的“解構重塑”的新聞傳播邏輯。人機耦合凝練著對技術的創新性期待和對真實情感傳達的保留。但是關于主持傳播的現實和虛擬的轉換搭配中,如何才是真人主持最佳的狀態,如何才能達到主持傳播最大化的效果,這些問題還有待進一步的探索和研究。
在日趨精準導向下的媒體發展態勢中,新聞主播在類別上還可以做出細化如財經新聞、國際新聞、體育新聞等,AI合成新聞主播在受眾導向方面發力不失為一條精準簡明的優化路徑。精準定位對不同的受眾群體進行分析以及AI合成主播類型化打造對未來新聞傳播的發展有一定積極意義。在新聞傳播方面,AI人工智能主播以龐大的信息數據作為自身的優勢支撐力,在這個基礎上不斷將其優勢放大,將信息整合、傳播的單一任務逐漸朝著與真人新聞主播進行搭檔、模仿等深度學習方向發展,進而發展為一種多維度服務為導向的傳播方式。
“傳情達意”濃縮了對新聞主播的工作內容和工作性質的要求。在人機耦合的思潮下,理性看待未來AI合成新聞主播的發展、洞見人機耦合的新聞傳播實質對于未來人工智能走向及其應用有著重要作用。當前,人工智能在內容創作方面缺乏原創性的本質是因為人工智能是理性和“單純”的,而人的內心世界是感性和“復雜”的。[6]在智能時代,AI合成主播在升級實踐中集成的龐大語料可以為新聞工作者提供充足的信息保障。未來,真人新聞主播不僅是播報者的角色,而且是分析者、應用者的角色。人機協同不僅僅表現在信息處理流程層面,更多表現的又是在身心一體的深度情感溝通層面上。
就像朱廣權介紹人工智能時所說:“江湖行走三尺劍六鈞弓,不會武術路難行;人工智能百種智千種能,幫不到人也不成。”傳播的目的是要滿足人的信息需要和情感需求。本文一開始從AI合成新聞主播“傳情達意”的硬性功能入手,順著中國播音學的主要線索重申AI合成新聞主播身體動程的必要性,以及其所產生的新聞性、社會性影響。同時,立足于中國播音學中的播音性質解釋了傳統新聞主播的優勢所在,為傳統新聞主播自身提供另一條可持續發展思路。從另一角度看,結合當下的具身理論,扎根于本體實踐下的中國播音學也有助于繼續探索AI合成新聞主播的深度發展。