郭 棟 肖愛云
(作者單位:西安工程大學(xué)新媒體藝術(shù)學(xué)院)
從農(nóng)業(yè)時代到工業(yè)時代再到信息化時代,人們口中的“互聯(lián)網(wǎng)+”是什么?“互聯(lián)網(wǎng)+”是互聯(lián)網(wǎng)思維的進一步實踐。其實,“互聯(lián)網(wǎng)+”就是“互聯(lián)網(wǎng)+各個傳統(tǒng)行業(yè)”。它指的是利用互聯(lián)網(wǎng)平臺和信息通信技術(shù)將互聯(lián)網(wǎng)與傳統(tǒng)產(chǎn)業(yè)等各個行業(yè)深度融合在一起,從而在新領(lǐng)域創(chuàng)造出新的發(fā)展生態(tài)。
從“你今天搶紅包了嗎?”“你今天逛淘寶了嗎?”到“網(wǎng)上號碼,不要等待”,這些盛行的網(wǎng)絡(luò)語言背后,顯示了互聯(lián)網(wǎng)對傳統(tǒng)行業(yè)的滲透,這種影響幾乎可以在每個行業(yè)中看到。
清早起床收到優(yōu)酷的一條推送,是每日的新聞簡報。與以往不同的是,視頻的配音不再是專業(yè)的播音員而是人工智能配音;中午去魏家涼皮吃飯,吧臺時不時傳出類似岳云鵬的訂單提示音,這個也是人工智能軟件的合成聲音;晚上開車回家,車載導(dǎo)航使用的仍然是人工智能配音,人工智能配音在不知不覺中已經(jīng)融入人們的生活。例如,人工智能界的大紅人-蘋果手機的語音助手siri,先是由美國大媽蘇珊貝內(nèi)特用了一個多月的時間進行錄制,而后技術(shù)人員使用電腦提取聲音,最后利用人工智能算法將其改寫成新的短語和句子,至此全球幾千萬用戶使用的siri語音系統(tǒng)就誕生了。
百度教育團隊也利用人工智能語音合成技術(shù)代替?zhèn)鹘y(tǒng)配音做了一個關(guān)于阿基米德的教學(xué)視頻。“阿基米德,出生于公元前287年……”隨著阿基米德的肖像照片,伴著沉著鎮(zhèn)定不快不慢的男聲,給人一種肖像和聲音渾然一體的感覺。雖然視頻中的聲音是機器合成的,但它的聲音標準、節(jié)奏合適,斷句也很合理,其中,英語、數(shù)字和語氣詞等表達都非常出色。還有一款閱讀產(chǎn)品iReader,使用智能語音合成技術(shù)來實現(xiàn)語音朗讀效果,增強用戶的閱讀體驗。目前,它支持中文普通話廣播,中英文混合廣播以及各種聲音。此外,以大型游戲《逍遙西游》為例,通過百度語音合成技術(shù)實現(xiàn)游戲場景中的公告、任務(wù)等信息發(fā)布,讓玩家玩游戲的同時,也可接聽新任務(wù)。
實踐證明,配音合成不僅可以用于視聽閱讀,還可以用于教學(xué)視頻制作和課件制作場景。若是用在無需真人配音場景,或是低成本視頻制作,視頻配音的時間、人力等制作成本會大幅降低。
人工智能配音技術(shù)稱為“TTS”(文本到語音)。它是一種將計算機生成或外部輸入的文本信息轉(zhuǎn)換為可聽、流暢的口頭輸出的技術(shù)。簡單地說,文本被合成為一個聲音,即一個聲音文件。這種合成技術(shù)將用戶輸入的文本轉(zhuǎn)換為流暢自然的語音輸出,并支持語速、音調(diào)、音量和音頻設(shè)置。其打破了傳統(tǒng)的人機交互方式,使人們更加自然地溝通。在此技術(shù)基礎(chǔ)上,結(jié)合頂級聲學(xué)模型和語言模型,結(jié)合韻律處理,情感語音合成等技術(shù),最終呈現(xiàn)出自然而富有張力的配音。
AI語音合成技術(shù)支持中英文混合閱讀,并提供各種聲音包括男性、女性、情感和兒童,等等。
AI語音合成采用在線融合技術(shù),可以根據(jù)當(dāng)前網(wǎng)絡(luò)環(huán)境自動判斷本地引擎或云端引擎,進行語音合成。
在合成效果方面,良好的AI合成效果接近真人的聲音,流暢自然,非常富有表現(xiàn)力,能夠提供更舒適的聆聽體驗。
用戶只需要讀取軟件指定的文本兩分鐘,就可以模擬它們的電子聲音。它用于唱歌、背誦,并以所有可以想象的語言去模擬一切可能的聲音。由于這項技術(shù),今天許多技術(shù)行業(yè)將進一步發(fā)展。
首先,所有種類機器人的擬人化將更加成功,因為它們可以模擬真實、可控的聲音模型。一個具體的例子是,在今年的國際消費電子展上,ObEN和凱撒娛樂集團與微信合作。在凱撒娛樂旗下的酒店中,提供名為“Ben”的虛擬客戶服務(wù)。入住凱撒娛樂集團酒店的客人可以通過跟隨凱撒娛樂集團的微信號與手機進行互動,它可以用任何語音或語言回復(fù)。
針對人工智能配音的適應(yīng)性進行了一些抽樣問卷調(diào)查,結(jié)果顯示,對于資訊類消息和任務(wù)播報場景等,63%的人從一開始就沒有表現(xiàn)出不適應(yīng)和排斥;21%的人表示在使用過程中不適感慢慢消失,開始習(xí)慣人工智能的配音;仍有16%的人堅持認為人工智能配音缺乏獨特的個性,更習(xí)慣真人配音。傳統(tǒng)的配音方法很大程度上依賴于配音演員,演員錄制的內(nèi)容是固定的。而這一切將可能因為人工智能而改變。一些看似簡單的視頻也需要專業(yè)團隊在制作、場地、設(shè)備、演員、配音等方面花費數(shù)天時間,投資不小。除人聲合成外,AI配音在對環(huán)境音和景物音的模擬中更是表現(xiàn)出色,常常使人真假難辨。很長一段時間、高價格、緩慢的過程、反復(fù)的確認和修改是傳統(tǒng)配音的軟肋,尤其是高操作門檻讓很多普通用戶抱怨。人工智能軟件配音的誕生改變了傳統(tǒng)配音的弊端,操作門檻較低,配音效率較高,文字通過智能算法即刻變成人聲,這中間也省略了很多過程。隨著合成技術(shù)和專業(yè)設(shè)備的升級,人工智能配音的服務(wù)能力也將提升到一個新水平。
但AI智能配音還是有一定的缺陷,首先它沒有情感也沒有思想,在現(xiàn)階段僅僅只是能夠做到更接近人聲,但缺乏配音員對于聲音形象和具體情節(jié)的塑造,所以適用場景有限。其次,在智能語音交互方面,它還無法達到完全理解用戶的程度。要充分了解用戶不僅需要高度的語音識別,還需要復(fù)雜的動態(tài)語義理解,機器才能準確理解用戶的意圖。這是兩種不同的技術(shù):語音識別僅將用戶的語音命令與嘈雜的背景聲音分開,確保原始命令正確;而語義理解更復(fù)雜,是增強用戶體驗以支持不同用戶場景的關(guān)鍵步驟,能夠了解用戶的號令和真實需求,執(zhí)行上下文管理以及有效完成對話。
雖然智能化很方便也專業(yè)省事,但是遠比人工服務(wù)冰冷機械很多,在越來越發(fā)達的科技背后,人們會更加懷念人與人之間的交流與溝通。例如,在智能手機流行的當(dāng)代時代,許多人呼吁放下手機與周圍的人面對面交流。所以,未來科技越發(fā)達,越要重視人工服務(wù)的重要性。人工智能聽起來仿佛很遙遠,但事實上已滲透到人們的日常工作和生活中。在不久的將來,互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)、硬件和軟件優(yōu)化,甚至整個社會的參與,人工智能將離開實驗室真正發(fā)揮作用,成為改變?nèi)藗兩畹囊徊糠帧H斯ぶ悄茈m好,但也離不開人,所以智能配音不僅不會成為威脅,還將為配音行業(yè)帶來更大的商機。