前段時間,全球首個AI合成女主播“新小萌”正式上崗新華社,而她的第一個工作任務便是參與今年全國兩會報道。對此,許多海外媒體進行了大幅報道,并表示“近年來,中國已成為全球領先的人工智能發(fā)展中心之一”。
對AI合成主播,人們在驚嘆和稱贊之余,對于其背后的人工智能技術(shù)都無比好奇:AI合成主播是如何誕生的?它未來又將有哪些應用價值?
在2018年11月舉行的第五屆世界互聯(lián)網(wǎng)大會上,新華社聯(lián)合搜狗發(fā)布全球首個合成新聞主播——“AI合成主播”,運用最新人工智能技術(shù),“克隆”出與真人主播擁有同樣播報能力的“分身”,在全球AI合成領域和新聞領域均開創(chuàng)了先河,引起了世界范圍內(nèi)的關注。
路透社報道稱,這個AI主播是以中國新聞主播邱浩為原型的,它身穿黑西裝打著領帶。這是中國旨在提升其在人工智能技術(shù)方面能力努力的一部分。
英國《獨立報》網(wǎng)站則稱,新華社的AI主播是一位栩栩如生的數(shù)字化播報員,可以通過模仿真人主播的形象和聲音朗讀文本內(nèi)容。
近期,該AI合成主播經(jīng)過技術(shù)攻關,在多項重要技術(shù)上取得突破。這款被命名為“新小浩”的站立式AI合成主播,仍然以新華社主播邱浩為原型,在聲音和圖像兩大引擎上有了較大的優(yōu)化和突破。“新小浩”不僅能坐著播報新聞,還能站起來,帶著手勢、姿態(tài)等多種肢體動作聲情并茂地播報新聞,更加智能,更接近于真人。
作為新華社的新員工,AI合成主播上線后立即投入新聞報道并實現(xiàn)量產(chǎn),目前已發(fā)稿3400余條,累計時長超過10 000分鐘,參與了包括第五屆世界互聯(lián)網(wǎng)大會、首屆中國國際進口博覽會、2019年春運、農(nóng)歷豬年春節(jié)等重要內(nèi)容的報道。這些報道充分結(jié)合圖片、視頻、文字、動漫等元素,生產(chǎn)出一系列內(nèi)容豐富、形式多樣、可讀性強的融媒體新聞產(chǎn)品。這些產(chǎn)品不僅在新華社中英文客戶端、新華社微信公眾號、中國新華新聞電視網(wǎng)等平臺發(fā)布,還以豎屏形態(tài)在各移動短視頻平臺大量播發(fā),引起熱烈反響,海內(nèi)外媒體紛紛跟進報道。
AI合成主播閃亮登場,引起了全球傳媒業(yè)和人工智能領域的極大關注,成為中國人工智能與傳媒業(yè)大膽融合并付諸規(guī)模化應用的典型案例。
AI合成主播無論是聲音還是表情,都做到了以假亂真的地步。其不僅能全年365天、每天24小時不停歇地提供服務,還能用無數(shù)個分身,同時在不同的現(xiàn)場播報各種資訊。
AI合成主播有極強的“克隆”能力。真人主播面對鏡頭錄制一段播報新聞的視頻后,AI合成主播憑借這段視頻,就能將真人主播的聲音、唇形、表情動作等特征提取出來,隨后“克隆”出真人主播的分身。用戶只需輸入新聞文本,這個分身就能用和真人一樣的聲音進行播報,而且唇形和面部表情等也能與真人主播完全吻合,真假難辨,效果相當震撼。那么,為什么AI合成主播如此逼真?
初代AI合成主播由“搜狗分身”技術(shù)打造,這項技術(shù)讓機器首次做到逼真地模擬人類說話時的聲音、嘴唇動作和表情,并且將三者自然匹配,創(chuàng)造出人類的AI分身,進而幫助人類提高信息表達和傳遞的效率。
而首個入職新華社的站立式AI合成主播,在聲音、嘴唇動作和表情之外,利用“搜狗分身”技術(shù)繼續(xù)賦予其肢體語言的能力,讓其更加智能逼真。

以新華社主播邱浩為原型的“AI合成主播”(圖/搜狗網(wǎng))
3月初加入全國兩會報道的AI合成主播進一步采用了“搜狗分身”最新的wavernn波形建模技術(shù),可以實現(xiàn)逼真的語音合成效果,讓AI合成主播的聲音更具有真實情感和表現(xiàn)力。而在圖像生成方面,新版的AI合成主播實現(xiàn)了更加逼真的表情生成、自然的肢體動作以及嘴唇動作預測等能力,完成了站立并可以做出肢體動作的主播形象,進一步提升了合成主播的表現(xiàn)力。
全國兩會期間,AI合成女主播的首次登場亮相,所帶來的沖擊感是非同凡響的。和真人主播相比,通過“搜狗分身”技術(shù)打造的AI合成主播能夠不知疲倦地連續(xù)工作24小時,同時還掌握多國語言,大大提升了效率、降低了成本。
據(jù)搜狗公司透露,隨著“搜狗分身”技術(shù)能力的不斷提高,AI合成主播的定制周期也大為降低,合成效果和穩(wěn)定性也有著顯著提升。僅靠少量用戶真實音視頻數(shù)據(jù),即可快速定制出高逼真度的分身模型,幫助媒體在融媒體轉(zhuǎn)型、新聞時效性、跨語種傳播能力等領域升級。全球首個AI合成女主播,正是“搜狗分身”技術(shù)持續(xù)復制不同類型、不同特點AI合成主播能力的體現(xiàn)。
根據(jù)搜狗和新華社達成的戰(zhàn)略合作協(xié)議,未來雙方還將在AI合成主播領域展開長期合作,更多的AI合成主播將不斷涌現(xiàn),而這些主播播報的新聞也將會通過新華社客戶端、新華社微信公眾號等平臺與觀眾見面。可以預見,AI合成主播注定會成為AI時代信息資訊傳播鏈條相當重要的一環(huán)。
然而,AI合成主播僅僅只是一個開始。伴隨著人工智能技術(shù)的不斷升級,個性化內(nèi)容生產(chǎn)的門檻大大降低,應用范圍愈發(fā)廣泛。未來,“搜狗分身”技術(shù)還將應用于娛樂、醫(yī)療、健康、教育、法律、金融等多個領域,通過提供個性化的行業(yè)解決方案,為不同職業(yè)賦能,從而提升整個社會的信息生產(chǎn)力。根據(jù)不同場景創(chuàng)造出虛擬教師、虛擬客服、虛擬管家、虛擬醫(yī)生等,深度滲透到人類的內(nèi)容表達和信息傳遞場景中,提供服務并發(fā)揮更多價值。屆時,各行各業(yè)都將迎來AI技術(shù)下的新一輪變革。(本刊綜合)※