高維嘉,巴勝超,李健
人工智能(Artificial Intelligence,簡稱AI)技術被譽為“開啟未來的鑰匙”,近年來已應用于社會生活的各個領域,為人們的生活帶來巨大改變。習近平總書記曾提出,要運用信息革命成果,推動媒體融合向縱深發展[1];中國傳媒大學新媒體研究院與新浪AI媒體研究院聯合發布的《中國智能媒體發展報告(2020—2021)》中指出,以“新基建”為基礎的媒體智能化升級轉型按下“快進鍵”;國家廣播電視總局發布的《廣播電視和網絡視聽“十四五”科技發展規劃》也明確指出,要推動虛擬主播應用于新聞播報等節目中[2]。近兩年來,人工智能技術已廣泛應用于電視新聞業,人們利用人工智能技術賦能新聞報道,產生了較強的視覺沖擊力與互動效果,開啟了新聞生產的新思路。例如,2022 年 4 月,百度數字人“度曉曉”以AI記者的身份出現在首屆大國工匠創新交流大會上,帶領觀眾“云巡館”“云觀展”,播報展會現場展出的中國工業化成果,為觀眾解讀中國工業、中國制造在發展中取得的輝煌成就。
人工智能技術是計算機科學的分支,其核心是用計算機模擬人的思維方式。人工智能主播起源于英國,隨后在中國、韓國、日本、美國等國家應用[3],其概念界定在學術界尚未有統一的表述標準,呈現在大眾眼前的人工智能主播又稱“機器主播”“虛擬主播”“合成主播”等。在不同的歷史時期,人工智能主播以各種形態存在,其是利用語音合成、人臉合成、多模態技術生成的人工智能分身模型[4],是人工智能技術與新聞媒體深度融合的產物,在新聞制作的采集、輸入、生產和傳播等多個環節都有技術的加持。我國初代人工智能主播是由“搜狗分身”技術打造的,主要通過人臉關鍵點檢測、人臉特征提取、人臉重構、唇語識別、情感遷移等人工智能技術,在真人主播錄制的新聞視頻中提取關鍵信息,再利用語音、圖像等多模態信息進行聯合建模訓練后,克隆出的機器人分身[5]。分身即真人主播的復制,能模擬真人的播報能力,是新技術的創新和突破。
新興科技的創新成果潛移默化地影響著我們的生活,人工智能技術以機器人的新形態出現在電視新聞業,擁有著許多真人主播所不具備的先天性優勢,在電視新聞業開創了先河。
20 世紀 90 年代,媒體的改革使記者、播音、主持三者融為一體,催生了新一代主持人,一個新的名詞誕生——主播。隨著互聯網的興起,一些國家開始推出“虛擬主播”,并在不同年份以不同身份慢慢浮現在大眾眼前。人工智能主播的發展歷程大致可分為三個階段,即萌芽階段、探索階段和應用階段。
1.萌芽階段(2000—2004)
人工智能主播最早源于“虛擬主播”,起初研發的目的是希望機器人能代替真人主播的部分工作,實際上,這一時期的機器人呈現出稚嫩化、高成本的特點。2001 年,全球首位虛擬主播“阿娜諾娃”(ANANOVA)問世(見圖1),其是一個 2D虛擬動畫人物模型。2004 年,我國CCTV-6頻道推出國內首位虛擬電視節目主持人——小龍,其造型時尚,肢體動作和面部表情也非常接近真人,對電影知識更能如數家珍、娓娓道來,并單獨主持了《光影周刊》欄目。

圖1 全球首位虛擬主播“阿娜諾娃”(ANANOVA)
2.探索階段(2005—2018)
視頻網站的興起,為人工智能主播提供了新的應用平臺。2016 年,日本率先推出動漫虛擬主播“絆愛”(KIZUNA AI),其由真人扮演、真人配音、3D建模,主要借助動作捕捉等技術捕捉真人的面部表情。“絆愛”在語言表達和肢體動作方面都有明顯進步。在這一時期,我國科大訊飛、搜狗及百度等科技公司不斷鉆研人工智能技術,突破了語音識別技術上的瓶頸,識別準確率再創新高,提升了新聞播報工作的效率,掀起了新一輪人工智能主播的熱潮。2017 年,人工智能主播“石榴娃”在《西安新聞》節目的直播間亮相,成為全球硬科技創新大會宣傳報道中引人矚目的科技新亮點。2018 年,虛擬主持人“康曉輝”以全動態的逼真形象出現在電視上,為熒幕前的觀眾播報實時新聞。
3.應用階段(2019 年至今)
人工智能主播以虛擬化、數字化的特征被廣泛運用于全球電視新聞業。在中國,人工智能主播也掀起研發和應用的熱潮,主要有科大訊飛系、搜狗系和百度系三大技術研發機構,其在電視新聞業的具體應用案例如表1所示。

表1 中國人工智能主播在電視新聞業的應用案例①
2020 年,全球首位 3D合成主播“新小微”亮相(見圖2),其以表情多樣的播報形態呈現出多場景、全方位、立體感強的效果[6]。在2021 年全國兩會期間,人工智能主播實現了自由的“時空穿越”,從演播室到新聞現場,跨場景沉浸式的報道給觀眾帶來了全新的視聽體驗[7]。2022 年,科大訊飛正式啟動“訊飛超腦 2030 計劃”,著力“軟硬機器人”“數字虛擬人”等領域(見圖3)。

圖2 全球首位 3D合成主播“新小微”

圖3 訊飛超腦 2030 計劃
借助人工智能技術進行新聞播報,是我國電視新聞業的一次大膽嘗試和創新。在一定程度上,人工智能主播不僅將真人主播從繁重的工作中解脫出來,而且滿足了觀眾多元化的需求。人工智能主播助力新聞領域,推動新聞生產的智慧化變革,體現出以下優勢。
1.能夠運用多語言報道精準、及時、高效的新聞
人工智能主播可以借助智能識別系統,進行 24 小時循環播報工作,省時又高效,且質量穩定,避免了因外界干擾而影響播報效果的情況出現。人工智能主播的播報方式誤差很小,比如口誤、斷句錯誤、字音錯誤等人為失誤情況不會出現。
自從新華網人工智能主播“新小浩”“新小萌”上崗以來,已播報新聞 13 000 多條,為觀眾帶來精準、及時、高效的中英文新聞資訊[8]。由此可見,對人工智能主播輸入新聞文本數據后,依照一定的程序,人工智能主播就可以輸出具體的新聞,保證了新聞的時效性和準確性。另外,科大訊飛研發的人工智能主播“小晴”(見圖4),不僅顏值高,還精通多種語言,可在中文、日語、英語、韓語等多種語境中靈活切換。

圖4 科大訊飛研發的人工智能主播“小晴”
2. 能夠推薦多樣性、趣味性的新聞內容
自人工智能主播誕生以來,電視新聞節目一直在嘗試突破與創新。人工智能主播借助智能推薦系統發揮數據采集、數據處理、數據計算、模型訓練等優勢,精準推送符合觀眾需求的新聞,同時也呈現出多樣化的新聞播報模式[9],主要體現在:(1)人工智能主播實現了新聞播報多場景穿越。AI技術賦能下,人工智能主播實現了從實體演播室轉至虛擬場景的播報,高度還原了新聞現場,滿足了新聞呈現方式的多樣化需求。(2)人工智能主播依托大數據和智能算法,可篩選出高質量的新聞內容。(3)人工智能主播可以憑借精準的計算能力,記錄觀眾的觀看數據,分析和反饋觀眾的需求,并進行相關新聞的篩選。只要新聞內容一更新,人工智能主播就會根據觀眾的需求,向其推送相關的新聞內容,滿足觀眾對優質新聞的選擇。
3.能夠節省新聞制作成本
從人力資源成本來看,新聞生產的配音大多依賴于主持人,倘若新聞的配音稿件出稿比較慢,意味著對配音人員的要求更高。如果用人工智能主播來播報新聞,不僅不會出現問題,還能保證一定的時長和質量,節省了大量的人力,減少了人員開支。例如,騰訊、今日頭條等媒介平臺會在每天早上 6 點左右推送早新聞,一些早新聞的播報會運用人工智能合成的配音,節省了大量人力成本[10]。另外,人工智能主播可以穿越不同場景,切換現場報道,打破時間和空間的限制,不僅節省了人力,而且降低了新聞制作成本。就實際費用支出來說,出于資歷、物價等因素的影響,真人主播的工資一定是逐年上升的,但人工智能主播只需支付一定的維護成本,一次性投資即可反復使用,成本相對較低。
4.能夠優化信息傳播效果和用戶體驗
從信息獲取和傳播的效果來看,人工智能主播播報的新聞資訊保證了傳播的質量和效果,有著主題突出、感染力強、信息簡約、針對性強的特點,符合觀眾的生活節奏與閱讀習慣。從用戶體驗來看,人工智能主播的誕生明顯改變了信息傳播的方式。從單純讀取文字內容的刻板反饋,到與觀眾雙向互動的傳播能力,人工智能主播不僅改善了新聞傳播的方式,引起了觀眾對新聞內容的注意,而且提升了傳播信息的接受率和轉化率,豐富和優化了用戶體驗。
智能時代背景下,人工智能主播雖然打破了真人主播一統天下的局面,但從目前的應用情況來看,還不能做到普及化發展,仍面臨很多困境。人工智能主播雖然有著技術上的顯著優勢,但諸如機械化、沒人情味、受眾度低等因素則成為制約我國電視新聞業長期發展的障礙。如何擺脫目前的困境,找到正確的發展道路,是當前新聞界亟須解決的一個重要問題。
1.播報語言生硬,擬人化水平較低
人工智能主播目前只能進行“見字讀字”的單一播報,語氣比較平淡、單調,詞組之間、句子之間的銜接、停頓較為生硬和機械化,缺乏真人發音的自然感,偶爾也會呈現出短期記憶喪失、信息超載的狀態。這是因為人工智能主播是依靠智能算法和數據語料庫來完成新聞播報的,其主持風格和播報方式相較于真人主播而言,較為僵硬,少了真人主播的靈動與魅力。
人與機器的最大區別在于人有生命氣息,有著豐富的經驗和閱歷。真人主播獨特的人格魅力和情懷感染著每一位觀眾,能較好地將自己的情緒和思考融入新聞傳播中,讓觀眾更好地理解其深層內涵。而人工智能主播只能機械地朗讀新聞文本,觀眾在機器身上無法感受到人特有的個性、人情味、生命活力和情感激蕩,甚至長時間接觸會令觀眾感到乏味,產生排斥心理[11]。
2.缺乏思考能力和價值判斷
現階段人工智能主播并沒有獨立思考的能力,所以無法對新聞進行深度解析,即把控不了新聞的思想和內涵,也不能對新聞的發展進行趨勢性、科學性的預判。隨著人類審美能力和價值追求的提升,觀眾對新聞節目也提出了越來越高的要求。真人主播能憑借優異的人格魅力和深厚的閱歷知識吸引觀眾。人工智能主播雖能不間斷地工作,但相比真人主播而言,還存在思維局限和應變能力不靈活等問題,也因此造成對新聞內容理解和判斷不足,容易出現虛假新聞的情況[12]。
人工智能主播是不具備人類思維意識的復讀機器,其只能播報標準式的新聞文本內容,不能對其進行理解和思考。人工智能主播的大腦不像人類一樣會感知周圍的環境,更體會不到人類內心深處的想法,無法與觀眾產生共鳴,也就無法對新聞進行有溫度、有情感的報道,只能機械式地完成命令。因為缺乏思考能力,人工智能主播不能一針見血、犀利睿智地評論新聞事實、表達觀點,也無法對新聞內容進行深層次的感悟,缺少對新聞內容的判斷和理解。
3.情感表達匱乏
在目前的技術條件下,人工智能主播的情感表達和敘事節奏還處于初級水平,并不能做到對文字深層次的情感理解,不能做到“言志傳神”。在播報時,主播要充分理解不同新聞的不同背景,并融入自己的情感,使冰冷的文字變得有靈魂。而人工智能主播的情感基調是固定的,只能模仿表層,難以通過語音內容引起觀眾的共鳴,也無法表達文字的深層含義。人工智能主播目前僅能做到模擬真人的表情和動作,對新聞文本和受眾情感的深度推敲、感知和預測[13],依然很機械化,并不能進行真正的情感表達。也就是說,人工智能主播是沒有感情、冰冷的播報機器,機器自然無法感受人類的溫度,而沒有情感支撐的新聞,就會失去靈魂,缺乏感染力。
4.觀眾認可度低
人工智能主播目前還未做到普及化應用,觀眾對人工智能主播播報新聞的可信度、擬人化水平和互動效果仍存疑,并不完全信任和依賴,甚至產生了模仿能力差、能動效果不好等一系列負面評價[14]。此外,人工智能主播以播報娛樂化的新聞為主,如此一來,觀眾只能接觸到同類型的新聞,導致觀眾與其他新聞內容相隔絕,這對人工智能主播的發展來說也是不利的。
1.突破人工智能技術瓶頸,強化播報性能
人工智能技術是新時代的科技生產力,只有突破人工智能對話技術的瓶頸,才能擺脫機械的吐字播報風格,提高人工智能主播與觀眾的互動能力。人工智能對話系統主要有基于規則、基于檢索、基于生成三種類型。基于規則的對話系統是機器提前設置好對話模式,寫入對話內容,再進行輸出;基于檢索的對話系統是對已有的內容進行模型訓練和學習,輸出最優質的內容;基于生成的對話系統是利用計算機進行深度學習和機器學習等,使其能夠根據不同的信息,得到相應的結果。目前,基于生成的對話系統是提高智能會話的重要研究領域,也是提高計算機播報質量的重要趨勢。唯有將人工智能主播與人工智能技術相融合并創新發展,發揮各自優勢,才能增強人工智能主播的擬人化播報水平和良好的互動能力,使人工智能主播不僅是一個信息傳遞者,還是一個信息處理者,進而實現人工智能主播具備情感理解和表達能力的美好愿望。
2.倡導人機協同,提升新聞生產價值
數十年的發展經驗證明了機器替代人類工作,并不是一個正確的發展方向。要想讓產出的新聞內容更具深度,我們應該注重人機協同,引入人的思考能力,制造更具深度的、真實的、高品質的新聞內容。雖然人工智能主播是人工智能技術在新聞傳播領域的最新產品之一,但人是主宰世界的主體,有著獨特的情感、意識、思想、人格等特性,任何技術都無法超越。我們應清楚地認識到,雖然人工智能技術在不斷發展,但人工智能并非無所不能,更不能將人取而代之。人工智能技術只能完成機械化、簡單化、基礎化的新聞內容產出,無法完成復雜的、自由的創作表達。
人工智能時代,人依然是主導者,具有評判新聞真假性的主觀能力。所以需要把人工智能主播視為真人主播的得力助手,發揮人工智能主播的優勢與特長,代替人類行為受限或無法到達的場地工作,與真人主播一起協同開展工作[15]。同時,真人主播在機器的刺激下,需不斷完善自我,發揮自身在精準分析事物、妥善處理情感元素等方面的優勢,形成“人無我有,人有我優”的獨特優勢,從而把關新聞的生產力和生產深度。
3.具象化情感表達設計,提升與觀眾的互動水平
具象化情感表達,是通過對人工智能主播的面部表情、身體語言和服飾進行設計,使觀眾對人工智能主播有親切感、認同感,甚至產生感情上的依賴[16]。目前人工智能主播只能模仿分析人類的表情和動作,識別記錄人類的情緒,自己卻不具有人類的情感表達能力,為了讓觀眾與人工智能主播產生共鳴,設計者要創新情感表達的設計手段。首先,需要借助詞性、詞頻、語義分析等算法深度加工文字語言,將機器不能直接理解的抽象情緒與具象化的人工智能主播情緒進行統一,然后注入人工標注的情感詞典,讓文字轉化為情感。其次,運用 5G時代的傳感器、多模態數據識別等技術,對觀眾的心流體驗、面部表情、肢體語言等信息進行提取與分析。人工智能主播可以根據觀眾對信息的情感和喜好,模仿人的思想,并給予情感反饋,滿足觀眾的心理需求,提高互動水平。
馬歇爾·麥克盧漢(Marshall McLuhan)曾提出“媒介即訊息”的觀點,認為傳播形態和傳播方式的變革,是由每一次媒介技術的變革催生的,而人工智能主播是一種新技術賦能的產品,必然會給電視新聞業帶來影響[17]。事實上,人工智能技術在新聞傳播領域的應用是通過計算機將人的肢體、感官,甚至是人類的精神活動和思維活動以程序的形式,完美地呈現出人的活動過程。雖然人工智能主播面臨的挑戰是多元的,但人工智能技術也在不斷更新發展,人工智能主播在電視新聞業的未來發展前景仍然可觀。
人工智能主播的革新意味著在角色設置上有更多的創造性,也就是我們通常所說的人物角色的再設計方面應添加必要的元素,如在外形、語言、聲音等方面設計新穎而有吸引力的形象。在未來,語音識別、人臉建模、口唇預測、音頻驅動等技術會逐漸成熟,人工智能主播可基于多維度的觀眾畫像,實現個性化開發,為觀眾提供多種角色自由選擇的訂制服務,打造專屬于觀眾個人的人工智能主播。例如,觀眾不僅能通過語言、音色等對人工智能主播的唇部進行控制,還能根據自己的喜好、興趣、職業、年齡、性別、視覺等需求,選擇個性化的人工智能主播。通過改變人工智能主播的外形皮膚、性別年齡、人格個性等,使其以俱佳的形象氣質適用于不同的場景。
目前人工智能主播雖然在人物還原、語音發音及細微表情處理等方面已實現了質的飛越,但在智能化方面還存在不足。現實中,真人主播不只負責完成某一項工作,還要負責前期策劃、編輯文本、現場采訪、視頻拍攝及直播導播等工作。因此,人工智能主播在未來不僅要提升形象、動作及語言,還要引入智能領域的“采、編、播”一體融合。又或者,人工智能主播在未來將越來越有“感情”,無限接近真人主播,能運用數據和案例,為節目策劃和精準分析提供一定的依據和決策。人工智能主播還可以緊跟時代節奏,迎合觀眾的需求,依托人工智能技術制定采編計劃,創新播報形式,產出高效高質、符合觀眾需求的優質新聞作品。因此,人工智能主播具有廣闊的發展前景,是未來電視新聞業和人工智能產業融合發展的結晶。
人工智能主播作為一種高科技產品,倘若僅局限于單一場景的應用,未來前景將令人擔憂。因此,需不斷提高人工智能技術的成熟度與市場的認可度,讓人工智能主播在新聞、直播帶貨、醫療、娛樂文化、教育等領域大放異彩,進而形成多元場景的發展格局。例如,在直播帶貨領域,打造個性化的虛擬IP形象,以“線上+線下”雙渠道聯動的形式,喚醒觀眾潛在的心理需求,形成情感共鳴,激發觀眾的購買欲望,創造更大的商業價值;在教育領域,人工智能主播可以在線傳授趣味化的知識,以有趣的課程講解加深學生對知識的理解。此外,人工智能主播還可以使用多種網絡資源實現實時互動教學,為學生提供“面對面”的權威知識講解等,拉近與學生的距離。
人工智能時代,隨著時間的推移和技術的進步,人工智能主播的應用進一步深入,重塑并奠定了電視新聞業發展的基礎。“人工智能+新聞媒體”的融合,為電視新聞業開創了豐富、多元的可能性,革新了新聞播報的方式,提高了新聞傳播的速度,創新了新聞呈現的形態,降低了節目制作成本。但需注意的是,當前人工智能技術在新聞傳播領域的應用還存在不足,人工智能主播作為新一代產品,仍有改進的空間,未來應向著更加高效化、創新化、個性化、智能化的方向不斷邁進,不斷推廣應用于更多的領域。總之,未來的電視新聞業應樹立互聯網思維,主動“擁抱”人工智能技術,緊跟時代發展,在充分發揮真人主播獨特價值和個性風格的同時,不斷增強人工智能主播的能力,把人工智能主播看作與真人主播一同工作的“戰友”和“幫手”,使真人主播與人工智能主播能夠更好地實現人機協同、互補共贏發展。
注釋
①資料來源:根據各媒體官方網站信息整理而成,具體參見中國新聞網、央視網、新華網等。