摘 要:這些年AI技術(shù)不斷地被運(yùn)用在各領(lǐng)域,在消費(fèi)級市場中,AI技術(shù)最常見的表現(xiàn)方式之一就是語音交互。過去一兩年電視的語音交互發(fā)展普遍是在基礎(chǔ)的電視操作上不斷豐富可應(yīng)用的場景,本文將通過語音智能技術(shù)在電視技術(shù)上的應(yīng)用和對電視產(chǎn)業(yè)的影響等幾個方面分析智能語音技術(shù)在電視技術(shù)上應(yīng)用現(xiàn)狀和前景。
關(guān)鍵詞:智能語音;聲控;語音交互;電視
在今天科技使生活方式得到了很大的改變,很多家電都因科技發(fā)展變得更加智能化,電視也因科技發(fā)展在人工智能方面不斷取得突破,當(dāng)你一打開電視不再需要遙控器,便可直接與高清的視覺屏幕直接對話,往日的手控變成了只要你說話便可借助語音聲控在大屏上,選擇自己喜歡的娛樂畫面,因智能化,電視不再只是一個播放工具,它的智能化使你想象畫面變得真實,現(xiàn)在只要大廳有一臺人工智能化的電視,便可隨時變成一個大家庭的娛樂場所,大人小孩都可以直接與電視進(jìn)行“對話”,讓我們的生活更貼心和諧歡樂。
1 語音智能交互技術(shù)介紹
首先我們要了解一下智能語音交互又是什么? 這是基于語音輸入的新一代交互模式,通過說話就可以得到反饋結(jié)果。語音交互系統(tǒng)分為四個部分:語音采集、語音識別、語義理解和語音合成。語音采集完成音頻的錄人、采樣及編碼等;語音識別主要是通過語音識別引擎將已采集到的語音數(shù)據(jù)。依據(jù)場景設(shè)置條件與語音識別庫中的數(shù)據(jù)進(jìn)行匹配,匹配成功后,將結(jié)果轉(zhuǎn)換成文本或命令;語義理解主要是根據(jù)語音識別轉(zhuǎn)換后的文本字符或者命令,完成指定的相應(yīng)操作;語音合成引擎則將相應(yīng)的文本內(nèi)容或命令轉(zhuǎn)化為聲音輸出。語音識別庫可以選擇放在終端或云端,但因為語音識別庫算法復(fù)雜且內(nèi)容龐大,現(xiàn)在一般都放在云端處理;語義理解庫可以選擇放在終端或云端,這個庫需要和操作系統(tǒng)或某些應(yīng)用進(jìn)行耦合綁定,現(xiàn)一般放在終端;語音合成庫同樣也可以選擇放在終端或云端,目前放在云端和終端的均有。
2 語音智能技術(shù)在電視上應(yīng)用
2.1 應(yīng)用背景
隨著廣播電視的發(fā)展,電視頻道數(shù)和節(jié)目源的日益增多,傳統(tǒng)電視遙控方式弊端也越來越明顯,需要用戶記憶大量電視臺對應(yīng)頻道,故語音智能技術(shù)慢慢被應(yīng)用在傳統(tǒng)電視市場的需求也變得越來越強(qiáng)烈。
2.2 應(yīng)用場景
(1)語音遙控開關(guān)、選臺功能。最典型的應(yīng)用就是語音遙控。這是一種依賴智能技術(shù)有一個可以用聲音來激活的微型計算機(jī)系統(tǒng),它可以識別人們不同的語言,然后控制電視機(jī)的程序。還有一種方式是在智能手機(jī)上安裝APP,然后將指令發(fā)送到特定的遙控器,遙控器再將指令轉(zhuǎn)換成紅外遙控信號。這兩種方式都可以實現(xiàn)對普通電視的智能遙控。目前市面上有些專用語音識別芯片設(shè)計的智能選臺系統(tǒng),該系統(tǒng)設(shè)計在保留原有遙控功能基礎(chǔ)上,實現(xiàn)以下功能:開關(guān),選臺,以及音量,亮度調(diào)節(jié)等功能。
(2)視頻圖譜檢索+多輪對話。視頻圖譜檢索很常見了,我們來說說什么是多輪對話。多輪對話的場景還蠻常見的,比如說,“我想看相聲”,然后你看到電視篩選結(jié)果沒有你想看的,就可以接著說“郭德綱的”,智能語音必須要結(jié)合上下文語義,才能知道你想要的是“郭德綱的相聲”這個結(jié)果。
(3)音樂圖譜檢索。打開電視,聽聽音樂,語音輸入“我想聽孫燕姿新歌”,目前多家電視廠商都與某音樂軟件合作,反饋回來的界面則會按照不同方式展示是孫燕姿音樂播放界面,有歌單形式,或是圖片形式等。
(4)短視頻新聞。如今網(wǎng)絡(luò)短視頻這么火,在電視上看看短視頻也不錯,可以搜索到“最近的娛樂新聞”,體育新聞等,由于電視廠商選擇的合作單位不同導(dǎo)致資源形式的豐富程度也會有所不同。
(5)圖像識別。圖像識別,顧名思義,就是對電視內(nèi)容中的圖像進(jìn)行識別,常見的有對人臉、花草、書籍、建筑等的識別。想想看,當(dāng)你和朋友一起看熱播劇,但小鮮肉太多,認(rèn)不過來,就可以直接問電視“這人是誰”。不過必須要說,圖像識別的整體反饋速度要比語音識別慢上不少。
以上就是目前市面上主流的語音技術(shù)在電視上的應(yīng)用場景,這些場景的應(yīng)用使人們的視聽生活變得豐富多彩也給電視產(chǎn)業(yè)注入了新的生命力。但受環(huán)境的干擾,比如方言、背景噪音,還有說話語速的差異,語音的識別率會有所下降,而這些也只是皮毛,只停留在“語音識別”這個層面,電視機(jī)通過用戶語音進(jìn)行識別,基于數(shù)據(jù)庫對用戶所給出的“關(guān)鍵詞”進(jìn)行自動搜索片名、播放,這離真正的人工智能還遠(yuǎn)著呢。
3 智能語音技術(shù)對電視產(chǎn)業(yè)未來的影響
就目前而言,電視智能語音功能更多的是扮演了“遙控器”的替代者的角色。研究者一直在嘗試尋找“遙控器替代者”。而采用語音技術(shù)的產(chǎn)品,不僅可以直接呼喚電視菜單、電視臺和電視網(wǎng)絡(luò)節(jié)目菜單的內(nèi)容,也可以實現(xiàn)文字輸入、直接查詢網(wǎng)絡(luò)上的以文字信息為索引的“非標(biāo)準(zhǔn)菜單”內(nèi)容。或者說語音技術(shù)不僅“替代了遙控器的所有功能”,而且還“創(chuàng)造出遙控器不擅長的(例如文字輸入)和不存在的(語音對話)等功能”。
從未來發(fā)展看,語音智能技術(shù)會為電視產(chǎn)品打開一些嶄新的應(yīng)用場景。傳統(tǒng)電視的作用主要是視頻娛樂——即內(nèi)容始終是單向傳輸?shù)模Z音技術(shù)可以讓電視成為一個“關(guān)鍵節(jié)點”。作為一個語音交互和信息處理器,電視可成為其他智能家居產(chǎn)品的“中控大腦”。某種意義上,智能語音技術(shù)的電視只是電視真正進(jìn)入“人機(jī)智能”時代的一個窗口。以此為線索,涉及的是整個家居、生活、家庭和個人“智能應(yīng)用”的體系網(wǎng)絡(luò);以及這個網(wǎng)絡(luò)背后所依賴的云存儲、計算和知識體系。電視企業(yè)高度看中AI電視的發(fā)展,恰是因為語音電視背后巨大的“潛在可能”。甚至,語音語意技術(shù)的創(chuàng)新已經(jīng)成為一項重要的國家戰(zhàn)略。2017年12月,工業(yè)和信息化部印發(fā)了《促進(jìn)新一代人工智能產(chǎn)業(yè)發(fā)展三年行動計劃(2018-2020年)》的通知。其中就提到,“支持新一代語音識別框架、口語化語音識別、個性化語音識別、智能對話、音視頻融合、語音合成等技術(shù)的創(chuàng)新應(yīng)用”。“2020年,實現(xiàn)多場景下中文語音識別平均準(zhǔn)確率達(dá)到96%,5米遠(yuǎn)場識別率超過92%,用戶對話意圖識別準(zhǔn)確率超過90%”;“多語種智能互譯取得明顯突破,中譯英、英譯中場景下產(chǎn)品的翻譯準(zhǔn)確率超過85%”;“智能電視市場滲透率達(dá)到90%以上等重要目標(biāo)和要求”。
4 結(jié)語
從智能語音的交互界面到語音識別、圖像識別、知識圖譜等技術(shù)能力,再到音樂、短視頻、體育百科這樣的內(nèi)容的體驗,真實的家庭環(huán)境中,口音還有小孩老人的吐詞不清都會成為識別的障礙,智能語音還有很長一段路要走。但這一技術(shù)在電視上的應(yīng)用至少對于那些行動不便和健忘的老人來說顯得尤其重要。智能語音以智能電視為承載,為智能電視能夠成為未來智能家居中心奠定了基礎(chǔ),我們期待更“智能”的智能電視出現(xiàn)在客廳。
作者簡介:夏銳(1980-),男,漢族,浙江人,碩士,助理工程師,研究方向:新型電視/視頻解碼芯片/無限光纜通訊/人工智能/項目管理。