殷樂 殷宇婷


【摘要】聲音媒體的智能化發展,不僅深化了用戶的聽覺體驗,拓展了日常場景對接,還增強了社交屬性,發掘了音頻社交新的可能。本文從智能音箱的技術升級、報業面向智能音頻的新突破和音頻社交三方面,解析音頻智能化發展的新態勢。
【關鍵詞】智能化 ?智能音箱 ?音頻社交
【中圖分類號】G221 ? ? 【文獻標識碼】A
智能音頻行業近年呈現上升發展態勢。艾迪森調研機構報告顯示,在12歲以上的美國人中,2021年有至少51%的人與其他人一起聽過音頻,這一比例在12至34歲的美國年輕人中上升到69%。音頻的平均收聽時長也比去年增加了一小時,智能音箱的擁有量更是同比增長了22%以上,近一半主要在家工作的人現在都擁有一個智能音箱。①其實,這一快速發展變化不僅發生在美國,全世界皆有案例。
本文即以智能音箱、報業的智能音頻策略和音頻社交為例,結合各國實踐來探究音頻智能化發展的新態勢。
一、終端革命:智能音箱的技術升級
智能音箱在聲音媒體的智能化發展中具有革命性意義。作為智能語音服務所倚賴的載體和聯通個性化場景的橋梁,智能音箱在嵌入人們生活的同時也使得用戶以前所未有的方式將技術擬人化。美國福布斯公司一本商業雜志《福布斯》(Forbes)將其稱為一種技術、網絡和世界互動的新方式,并認為如今的智能音箱正在展開一個潛在的更大的轉變,而我們正經歷著智能音箱技術的指數級增長。②
有兩大要素促進了智能音箱技術增長。
第一,源于越來越多智能設備供應商的入局。
2019年是全球智能音箱市場創紀錄的一年,銷量達到1.469億臺,同比增幅增至70%。雖然亞馬遜和谷歌仍是其中排名第一、二位的品牌,但它們的銷售額與2018年相比都有了不同程度的下滑。③究其原因,主要是百度、阿里巴巴、小米等中國供應商的增長,其他國家的強勢企業也在陸續推出自己的智能音箱。
各國本土智能音箱與內置語音助手的推出,給智能音箱的發展帶來更多技術可能性。智能音箱可搭載的語言模式不再局限于英語,俄語語音助手Alice、法語語音助手HomeSound、漢語語音助手天貓精靈和小愛同學等陸續擠占本國市場。各國企業也在依據自身優勢,嘗試開發語音助手的更多功能與本地服務。如俄羅斯的Mail.Ru將語音助手Marusya與旗下的社交媒體平臺整合,讓注冊該社交平臺賬號的用戶可以直接通過智能音箱進行數字通話,通過語音助手進行線上社交活動,并實現信息詢問、食物訂購、智能家居設備控制以及第三方語音應用程序運行等。④百度推出的小度在家系列,借助其對應手機軟件的家庭互動功能,使得用戶能夠遠程監控家中老人、孩子的生活動態,滿足了中國青年白領群體顧家、工作的雙向需求。⑤
JBL(全球最大的專業揚聲器生產商)、哈曼卡頓(Harmon Kardon)、貝爾金(Belkin)等硬件廠商的到來提升了智能音箱的音質,其更高的聲學配置也使內置語音助手的指令識別能力得到提高。JBL推出的智能音箱大多擁有超越市場水準的音質,全頻揚聲器、四麥克風陣列與先進的麥克風降噪技術的搭配也能讓智能音箱更加準確地識別語音指令。⑥貝爾金聯合帝瓦雷(Devialet)最新推出的智能音箱Soundform Elite采用了多項聲學專利技術,在提供更具立體感、沉浸感的音樂體驗的同時,依靠拾音陣列強化了其對各項語音操控的識別能力。⑦
第二,歸于行業領跑者對產品的不斷開拓。
以亞馬遜、谷歌為代表的市場頭部企業,利用人工智能技術對智能音箱進行著持續升級與拓展。
首先是內置語音助手的技術更新。智能音箱背后都有智能語音助手的支撐,語音助手賦予智能音箱擬人化的交互意義,是音箱智能化的核心。依靠深度學習技術,亞馬遜的語音助手Alexa在2019年增添了更自然的新語音,并專為雙語家庭設計了多語言模式以及在收到錯誤請求時道歉的“挫折檢測”功能。2020年,Alexa已經能夠通過了解對話的上下文調整語氣,辨別相互交談與直接尋址,還能自主地向用戶提出澄清性問題并記住問題的答案。⑧同樣進行著擬人化探索的還有谷歌,2021年5月,谷歌在其神經網絡架構之上構建出了最新的語言模型LaMDA。⑨LaMDA可以讓語音助手將自己代入不同角色與用戶進行對話,在保持對話自然開放的同時給出盡量明確的回答,實現更加無縫、舒適的語音交互體驗。其理解對話語境的能力也為語音助手帶來了理智、敏銳、幽默等人類特質,技術升級讓語音助手與人類形象越來越接近。
其次是智能屏的出現。有市場研究機構發布的最新報告顯示,2021年第2季度全球智能音箱市場,前50名暢銷機型占該季度總出貨量的88%,而前50款機型中有19款是百度的小度在家智能屏X8、在家1C和谷歌的Nest Hub主導的智能顯示器系列。⑩美國國家公共廣播電臺(NPR)與艾迪森聯合發布的智能音頻報告也表明了類似的屏技術需求:在18歲以上的美國人中,2020年有65%的人更喜歡帶屏幕的智能音箱,74%的人認為屏幕可以讓智能音箱的使用更加方便。?從單純的智能音箱過渡至智能屏,這一轉變在增加視頻輸出的同時也為人機交互帶來了更多可能性。一方面可以提供直播、通信、教育、家庭互動游戲等多種內容服務,另一方面基于不同技術基礎,還可以實現手勢控制、眼神喚醒、遠場語音交互、人臉識別等多種交互模式,用戶可以在多種應用場景采用不同方式完成人機交互。可以說,智能屏的出現,拓展了智能音箱的應用邊界,也推動了其人機交互的多樣性發展。
再次是應用場景的不斷開拓。科技公司對智能語音的愿景遠超音箱本身,智能家居是其設想中典型的嵌入場景。除適應于各個場景的智能音箱外,亞馬遜以語音助手為核心,將其產品線向智能家居不斷鋪開。目前,亞馬遜已將語音助手嵌入微波爐、掛鐘、插座、路由器、恒溫器、家居機器人等多個品類。在國內,小度智能音箱所支持的家居用品幾乎覆蓋了整條家居產品線,阿里巴巴旗下的天貓精靈也開始提倡家庭場景升級,與多家物聯網平臺、智能硬件和家電廠商展開了合作。
教育、酒店、汽車、娛樂等場景也陸續加入進來。2020年,谷歌與連鎖酒店合作,將智能顯示器和智能助手陸續整合至酒店客房中。住客能夠通過語音助手控制房內環境和娛樂、通信,向智能音箱詢問當地的旅游信息和活動建議。新冠肺炎疫情期間,語音助手還能與酒店系統相連,安排叫醒服務,滿足住客的日用品需求并處理退房事宜。?國內市場方面,在小度智能屏試水教育領域后,百度公司便對各類場景進行布局,強調“全場景智能生活”,阿里巴巴公司也在嘗試讓天貓精靈走入各類生活情境。
智能音箱正在逐漸破除形態的邊界,將核心的智能語音服務融入人們生活的方方面面。其日益開放的發展態勢,有助于滿足用戶多場景、多樣化的需求,實現全場景生態和無縫隙服務。
二、策略轉向:傳媒業的智能化音頻新突破
當前,智能音頻正在成為全球傳媒業關注的重點。路透新聞研究院對以報紙、廣播為主的全球26家主流媒體的管理者進行訪談,大多數人表示他們正在圍繞智能音頻采取各種策略。?廣播電視機構積極參與智能播客的內容生產,建設播客平臺,跟進智能音箱的發展趨勢,報業也緊跟著布局播客產業,并在提供獨家內容、自建音頻應用、文字與語音融合等方面有突出表現,顯示其發展的獨特性。
《紐約時報》推出音頻欄目《每日》(The Daily),是報業向智能播客邁出的重要一步。欄目為用戶提供熱點事件匯編、新聞事件的細節補充與跟蹤報道以及主持人的觀點等,一經播出便廣受歡迎。截至2019年,The Daily的下載量已達10億次。The Daily不僅是美國最受歡迎的新聞播客之一,也是2014至2020年本地每日新聞播客數量增長曲線的拐點。不少報紙受到該形式的啟發,紛紛在智能播客應用上推出自己的The Daily。 路透新聞研究院《2021數字新聞調查報告》顯示?,新冠肺炎疫情給傳統報業帶來了沉重一擊,但疫情則又是報業向智能音頻發展的重要催化劑。在過去的一年里,報紙或暫停或減少印刷發行,許多報業公司都面臨減薪、裁員、關閉等窘況。為了生存,報紙不得不加速數字化轉型,而疫情下人們對音頻新聞的依賴給這一轉型提供了方向。艾迪森調研機構關于智能音頻的報告稱,音頻新聞成為人們了解情勢的重要途徑,尤其年輕人會收聽更多新聞。?于是,我們可以看到越來越多的紙媒出現在智能播客應用上,并通過與科技公司的合作在一定程度上實現了音頻轉向的智能化創新。
智能播客之外,報紙業還有更為廣泛的智能音頻策略。一是自有音頻應用,《紐約時報》于2020年收購了音頻應用“奧德姆”(Audm),陸續發布了《黑色劇院》(Black Theater)、《伯尼·桑德斯》(Bernie Sanders)等多篇本報雜志的音頻故事;正在開發的新音頻應用“紐約時報音頻”(The New York Times Audio)收錄了《紐約時報》的各類播客與文章,并從《紐約時報》新聞室的新音頻格式中提取內容。與此同時,《紐約時報》也開始嘗試將更多標志性音頻故事編入核心的新聞應用程序中。?二是文本轉語音技術。2021年5月,《華盛頓郵報》整合了亞馬遜的Polly。Polly擁有全新的機器學習方法,能夠以較高的速度將文本轉換為逼真的人類語音。憑借這一智能語音服務,用戶可以在跨平臺收聽報紙的報道時獲得不錯的音頻體驗。未來,用戶還可能通過該技術接觸到《華盛頓郵報》更多的音頻功能,如播放控制、西班牙語音頻、音頻播放列表等。除《華盛頓郵報》外,《今日美國》《環球郵報》等報紙的出版商也在整合Polly,通過引入成熟的文字轉語音技術,以更優質、便捷的方式用音頻解鎖書面新聞。?三是沉浸式音頻體驗。2020年11月,《華盛頓郵報》品牌工作室(WP BrandStudio)與佛羅里達官方旅游營銷公司合作推出沉浸式音頻平臺“佛羅里達之聲”(The Sounds of Florida),借助高互動界面圖標后的音頻通道,用戶無須離家就能被“傳送”到該州的各個景點,借助多音軌分層聲音置身地標性景點之中,在視覺識別之外通過聲音增加與該地的情感聯系。?工作室還為上班族打造了一種沉浸式音頻驅動體驗“聲音圣地”(The Sound Sanctuary),以對沖工作場所的數字噪音干擾。有錄音師將各地的自然聲音收集制成雙耳錄音,通過模擬在大自然中的實際聽感,緩解用戶在工作中產生的倦怠,探索聲音對創建更專注且人性化的工作方式的意義與作用。?
報業向智能音頻的融合發展,值得廣電業借鑒。
三、社交加速:面向音頻交往的新聚焦
疫情影響下,智能音頻領域迎來的不僅是報業的加速轉向,還有音頻社交的復興。音頻社交不是一個新概念,卻恰好滿足了人們在特殊時期的交際需求:隔離在家的人們既想建立超越文字之上的人際聯系,又疲于屏幕的過度使用,而純語音交流音頻技術因其認知負荷低而在很大程度上促成了音頻社交的加速發展。
引起這場潮流的是音頻社交應用——Clubhouse(直譯是俱樂部房子或者會所的意思),這也是目前全球唯一一個可以實時和科技、金融、藝術、文化領域的高層人脈溝通交流的平臺。2020年4月,Clubhouse首次上線。在該應用中,每個人都可以創建語音房間,也可以跳轉到任何他們感興趣的房間,若想發言則按“舉手”鍵申請成為嘉賓參與對話。實時聊天激發了語音社交的情緒價值優勢,陌生人社交則在提高社交新鮮感的同時降低了交際成本。低門檻、高自由、近距離和質量上佳的內容分享讓越來越多的人進入應用。研究報告稱,Clubhouse的注冊用戶在2020年10月初就達到了1萬名,截至2021年2月該數字已超過1000萬且注冊用戶數量仍在加速增大。?
Clubhouse的興起讓科技界看到了音頻社交的新可能。推特(Twitter)、臉書(Facebook)、聲破天(Spotify)等科技公司都察覺到音頻在社交領域迸發的巨大能量。于是,過去的一年里,“推特空間”(Twitter Space)、“休息室”(Greenroom)、“語音聊天室”(Voice Chats)等音頻社交產品如雨后春筍般出現。國內,復制的中國版Clubhouse也不斷出現。天眼查數據顯示,中國目前約有270家企業發布過音頻社交相關產品,?其中很多都是Clubhouse的模板風格。
隨著科技公司的大量涌入,其帶入的人工智能技術正在使音頻社交以更智能化的面貌呈現于市場。
其一,智能語音技術增進語音服務。2021年3月,廷科夫(Tinkoff)公司在Clubhouse應用中推出智能語音助手Oleg。?它具有成熟的語音識別和人工智能驅動交互技術,可以在聊天室中執行各種秘書任務,如主持討論、刷新房間、提醒人們有關討論的時間限制和規則等,還可以實時轉錄對話,將對話流傳輸為文本。廷科夫公司稱,Oleg將被開發出更多適應俱樂部/會所社交情景的語音助手功能。語音助手的加入滿足了用戶要求獲得更多智能服務的呼聲及其隱私需求,使應用以更為智能的面貌呈現在用戶面前,一定程度上展示了音頻社交智能化發展的一種可能性。
智能語音技術的加入,讓用戶可以在對話中使用表情符號,并記錄對話與他人分享;實時字幕功能的增加,也讓聽力障礙人士在收聽時更加方便。“房間”中的音頻對話還可以鏈接TikTok(抖音海外版)上的創意音頻剪輯功能,用戶可以利用包含語音轉文本、語音變形等技術在內的音頻創建工具剪輯、編輯音頻對話,將其生成為錄音剪輯并通過算法進行推廣。
其二,算法推薦提高用戶社交效率。目前,市場中的音頻社交應用主要解決的是陌生人社交問題,而陌生人社交中,聲音更多地被視作一種用戶身份的核心組成部分、人與人互動的媒介,意在助推用戶互動的成功。在這一目的性極強的社交過程中,快速匹配/推薦就成為了重點。到了2021年9月,有科技公司又推出了通信新功能——My Friends(我的朋友),這項基于算法的推薦功能,優化了用戶間的匹配路徑,用戶能夠更為便捷地找到具有相似社交意愿和實時動態的朋友,并可以在平臺內一鍵加入其他朋友的房間,通過實時語音參與多種主題活動。用戶的興趣、標簽等成為推薦的坐標。精細化標簽讓人們對用戶的了解更為全面、詳細,也有助于商家觀察到更明確的用戶需求,從而開發定制化匹配功能。
與注重創建語音派對、營造社區氛圍的Clubhouse一類應用不同,強調算法推薦的音頻社交應用意在實現語音向社交鏈的完全嵌入,除實時聊天外,用戶可以關注好友、發布動態、建立私人關系等。應用內的主要鏈接方式不是以音頻內容為中介的興趣社區,而是人與人的直接相連。語音實是作為手段而非主體建立社交場景來滿足人們的快節奏交際需求,可以促進陌生人間的社交聯系。算法推薦的加入提高了用戶的社交效率,也推動著音頻社交朝著強社交屬性的方向不斷發展。
四、結語
總體而言,智能音頻的發展呈現了三個基本方向:深化聽覺體驗、拓寬場景入口、增強社交屬性。智能音箱對智能語音技術在聽覺層面應用的深入挖掘,使智能音頻在互動體驗方面獲得技術升級。而智能音頻社交的強勢興起則將聲音嵌入交際鏈,切入不同的社交場景,為音頻的智能化發展帶來強有力的新驅動。
但智能音頻的發展亦存在隱憂,高速前進的另一面是與智能音頻相關的安全隱私問題:個人語音數據泄露導致的信息騷擾或安全隱患,以及語音合成技術引發的語音詐騙和信息失實,都成為用戶擔心的主要方向。同時,智能音頻產品的過快更迭也模糊了重點,讓其發展變得細碎、多面,缺乏計劃性的優勢挖掘。因此,如何創造一個健康、有效的生態環境與總體計劃是智能音頻發展應著重考慮的問題。
注釋
①?Edison Research and Triton Digital: The Infinite Dial 2021, March 11, 2021, https://www.edisonresearch.com/the-infinite-dial-2021-2/.
②Saeed Elnaj. The Rise Of AI-Enabled Smart Speakers And Their Future In Our Lives, July 8, 2019, https://www.forbes.com/sites/forbestechcouncil/2019/07/08/the-rise-of-ai-enabled-smart-speakers-and-their-future-in-our-lives/?sh=2708e7b335ab.
③David Watkins. Global Smart Speaker Vendor & OS Shipment and Installed Base Market Share by Region: Q4 2019, February 13, 2020, https://www.strategyanalytics.com/access-services/devices/connected-home/s.
④mart-speakers-and-screens/market-data/report-detail/global-smart-speaker-vendor-os-shipment-and-installed-base-market-share-by-region-q4-2019.
⑤Eric Hal Schwartz. Russian Social Media Platform VKontakte Integrates Marusia Voice Assistant, May 27, 2021, https://voicebot.ai/2021/05/27/russian-social-media-platform-vkontakte-integrates-marusia-voice-assistant/.
⑥ ZOL中關村在線:《JBL TOWER SMART 音樂城堡全新上市》,知乎,2019年6月12日,https://zhuanlan.zhihu.com/p/70177739.
⑦我愛音頻網評測室:《貝爾金SOUNDFORM ELITE智能音箱評測:聯合帝瓦雷重現高保真音質》,百度,2021年7月12日,https://baijiahao.baidu.com/s?id=1705046563698486596&wfr=spider&for=pc.
⑧Jon Porter. Alexa's latest upgrades help it listen to multiple people and ask clarifying questions, September 24, 2020, https://www.theverge.com/2020/9/24/21452313/alexa-voice-assistant-ai-upgrade-amazon-echo-smart-speaker-multiple-people-tone-questions.
⑨Eli Collins & Zoubin Ghahramani.LaMDA: our breakthrough conversation technology, May 18, 2021, https://blog.google/technology/ai/lamda/.
⑩David Watkins. Global Smart Speaker and Smart Display Vendor Shipments, Wholesale Revenue, ASP and Price Band by Model: Q2 2021, August 30, 2021, https://www.strategyanalytics.com/access-services/devices/connected-home/smart-speakers-and-screens/reports/report-detail/global-smart-speaker-and-smart-display-vendor-shipments-wholesale-revenue-asp-and-price-band-by-model-q2-2021?slid=1684678&spg=7.
?Edison Research and NPR: The smart audio report, April 1, 2021, https://www.nationalpublicmedia.com/uploads/2020/04/The-Smart-Audio-Report_Spring-2020.pdf.
?Eric Hal Schwartz. New Google Hospitality Program Adds Nest Hub Smart Displays to Hotel Rooms, August 26, 2020, https://voicebot.ai/2020/08/26/new-google-hospitality-program-adds-nest-hub-smart-displays-to-hotel-rooms/.
?Nic Newman. The Future of Voice and the Implications for News, Reuters Institute for the Study of Journalism, November 2018, https://reutersinstitute.politics.ox.ac.uk/sites/default/files/2020-01/Newman%20-%20Future%20of%20Voice%20FINAL.pdf.
?Nic Newman. Reuters Institute Digital News Report 2021, July 2021, https://reutersinstitute.politics.ox.ac.uk/digital-news-report/2021.
?The New York Times Is Building a New Audio Product, The New York Times Company, October 12, 2021, https://www.nytco.com/press/the-new-york-times-is-building-a-new-audio-product/.
?Robin Dautricourt. Breaking news: Amazon Polly's Newscaster voice and more authentic speech, launching today, July 30, 2019, https://aws.amazon.com/cn/blogs/machine-learning/breaking-news-amazon-pollys-newscaster-voice-and-more-authentic-speech-launching-today/.
?The Washington Post's brand studio adds immersive audio to its suite of innovative storytelling capabilities, The Washington Post, November 30, 2020, https://www.washingtonpost.com/pr/2020/11/30/washington-posts-brand-studio-adds-immersive-audio-its-suite-innovative-storytelling-capabilities/.
?Jerrid Grimm. The Top 100 Branded Content Partnerships of 2020, December 16, 2020, https://www.pressboardmedia.com/magazine/the-top-100-branded-content-partnerships-of-2020.
?Bret Kinsella. MrBeast Join and Starts Drawing More Scrutiny, February 23, 2021, https://voicebot.ai/2021/02/23/clubhouse-surpasses-10-million-users-after-musk-zuckerberg-rogan-and-mrbeast-join-and-starts-drawing-more-scrutiny/.
?天眼查數據研究院:《中國版Clubhouse頻出?數據顯示我國目前約有270家企業發布過語音社交相關產品》,澎湃新聞,2021年2月25日,https://www.thepaper.cn/newsDetail_forward_11443347.
?Eric Hal Schwartz. The First Bot on Clubhouse Speaks Russian–Will the Voice Assistant’s Presence Change Social Audio Dynamics, March 12, 2021, https://voicebot.ai/2021/03/12/the-first-bot-in-clubhouse-speaks-russian-will-the-voice-assistants-presence-change-social-audio-dynamics/.
【本文系國家社會科學基金國家應急管理體系建設研究專項“新冠肺炎疫情期間的輿論傳播及引導研究”(項目編號:20VYJ038)、中國社會科學院國家高端智庫課題“全媒體時代的新聞發布與國家治理”(項目編號:〈2021〉C-69)的階段性研究成果】
(作者殷樂系中國社會科學院大學教授、中國社會科學院新聞與傳播研究所研究員、廣播影視研究中心主任、博士生導師,殷宇婷系中國社會科學院大學新聞傳播學院碩士研究生)
(本文編輯:李靜)