王 琳,肖 晴,馬宇飛
(1.中國電信股份有限公司上海研究院 上海 200122;2.中國電信股份有限公司上海分公司 上海 200120)
隨著“三網融合”新政下業務的不斷發展,2012年整個行業已經進入智能化時代,IPTV正經受著來自互聯網電視、移動互聯網等多個方面的考驗。為了保持在視訊領域的技術領先性,IPTV業務需要引入互聯網中具有用戶影響力的前沿技術。人機交互技術,特別是智能語音控制技術,是目前在智能電視、互聯網電視應用的新興技術,該技術的應用不但提升了客戶體驗,而且有望助力電視界面成為新的用戶信息獲取界面。蘋果、谷歌、微軟等業界公司都積極地在相關的產品中引入智能語音控制技術。
為了適應業務及技術的發展潮流,進一步提升IPTV業務體驗,需要通過語音控制技術為用戶提供更好的人機交互手段,實現對傳統遙控習慣的改變。本文對比了現有智能電視語音搜索方案,針對現狀及需要,提出了一種新的智能電視語音搜索方案,并從智能電視語音搜索提供的業務、平臺功能要求、系統架構等方面對方案進行了闡述和分析。
智能電視語音搜索業務是指用戶在收看電視時,可以利用語音遙控器或手機客戶端中安裝的語音控制產品,通過標準普通話對想要收看的節目進行搜索,完成點播影片、頻道、節目等操作,使用自然語言理解控制代替遙控器控制,是視頻業務的一種新業務。
已有越來越多的智能電視開發語音搜索業務,如聯想、TCL、長虹、海信、三星智能電視以及 XBOX one、Dragon TV等。智能電視語音搜索方案的構成主要包括兩個方面:終端側對語音的采集和展現、語音平臺側對語音的識別和理解。
終端側對語音的采集和展現主要包括語音搜索的啟動和結束、語音搜索的交互界面、語音搜索結果的顯示等,以下將從這幾個方面對已有智能電視語音產品的語音使用方式進行比較分析。
(1)語音搜索的啟動與結束
智能電視語音搜索產品的語音開啟與關閉方式主要分為以下3種:
·通過長按遙控器上的語音按鍵開啟語音功能,如聯想智能電視;
·通過按一下遙控器上的語音按鍵開啟語音功能,如TCL、長虹、海信智能電視;
·通過純語音方式開啟語音功能,如XBOX one、Dragon TV、三星智能電視。
3種語音開啟方式的優缺點比較見表1。

表1 語音開啟方式比較
(2)語音開啟頁面
語音搜索功能開啟后,智能電視產品會出現一個語音功能啟動頁面,啟動頁面的展現方式主要有以下4種:
·全屏顯示,如TCL產品;
·覆蓋屏幕中間顯示,如海信、長虹、康佳產品;
·覆蓋屏幕上方顯示,如聯想產品;
·覆蓋屏幕下方顯示,如Dragon TV、創維、三星、XBOX one、Google TV 等產品。
4種語音開啟頁面顯示方式的優缺點比較見表2。

表2 語音開啟頁面顯示方式比較
在智能電視產品中,語音功能啟動時部分產品會出現卡通形象與用戶進行模擬對話,如創維、康佳、長虹、海信、TCL等產品。有無動畫形象的語音頁面顯示的優缺點比較見表3。

表3 語音開啟頁面動畫形象顯示比較
(3)語音錄入后是否確認執行
智能電視語音搜索產品在語音錄入結束后,主要采用以下3種方式啟動語音搜索的執行功能:
·語音錄入結束后直接執行搜索,如Google TV、Dragon TV、XBOX one、三星產品;
·語音錄入結束等待數秒后自動執行搜索,如康佳產品;
·語音錄入結束后,需先確認識別結果再執行搜索,如TCL、海信、聯想、長虹產品。
以上3種操作反饋方式的優缺點比較見表4。
(4)語音搜索結果的顯示
智能電視語音搜索產品在語音搜索的結果顯示方面,主要分為以下2類:
·覆蓋顯示,如長虹、聯想、Dragon TV、三星、海信產品;
·全屏顯示,如康佳、Google TV、TCL產品。
2種語音搜索結果顯示方式的優缺點比較見表5。

表4 語音搜索操作反饋方式比較

表5 語音搜索結果的顯示方式比較
從上述比較可以看出,語音采集時操作要相對方便,界面展現要能保留原先的視頻業務并使語音搜索的頁面不大且操作流暢,同時應減少用戶的交互步驟,能相對快速地定位到想要搜索的節目,從而更能吸引用戶使用語音搜索業務。
本文設計了IPTV智能電視語音搜索產品的流程,如圖1所示,具體介紹如下。
(1)按下語音鍵即可開啟語音功能,從使用上來說,更方便快速,誤操作的成本也比較低,誤操作造成的影響基本可忽略。
(2)考慮到用戶啟動語音錄音后,可能還要思考一下再輸入想要觀看的節目,故預留10 s的時間;如超過10 s用戶還未錄入語音,則提示未收到錄音,并退出語音錄音界面。
(3)語音錄音時,啟動端點檢測功能,對用戶的語音進行分析,若檢測到語音停止,則直接啟動語音識別及搜索功能,可以減少用戶的操作步驟,更符合語音產品快速簡潔的定位要求。
(4)當語音搜索結果唯一時直接播放,以減少用戶的操作步驟;若搜索結果不唯一,則顯示結果列表,讓用戶對搜索結果進行選擇。
IPTV智能電視語音搜索的界面如圖2所示,具體介紹如下。
·用戶在觀看IPTV過程中,可以在任意頁面調出語音搜索功能,語音搜索界面以半透明的形式疊加在IPTV界面下方,如圖2(a)所示。用戶觀看的節目保持原來的播放速度,不影響觀看。
·用戶第一次使用語音功能時,會彈出“幫助”圖示,告知用戶如何使用語音功能,使用戶能更快地掌握語音搜索業務的使用技巧,如圖2(b)所示。
·當語音搜索有結果時,搜索結果以半透明的形式疊加在IPTV界面下方,通過海報和節目名稱進行呈現,方便用戶選擇,如圖2(c)所示。當搜索結果較多時,用戶可以按翻頁鍵,以對更多的結果進行選擇。
·當沒有搜到用戶想觀看的節目時,語音平臺根據用戶輸入的關鍵詞進行分析,給出推薦的節目列表,如圖 2(d)所示。

圖1 IPTV智能電視語音搜索產品的流程

圖2 語音搜索界面
語音搜索業務到底能搜索到哪些節目,能聽懂用戶哪些語句,這些都需要語音平臺提供支持。本方案的IPTV語音平臺由語音識別服務器、語義理解服務器、IPTV知識庫構成。用戶輸入的語音音頻先經IPTV知識庫訓練的語音識別服務器轉換為文本,再通過語義理解服務器將文本轉換為IPTV節目對象列表輸出,輸出的結果由機頂盒呈現。
(1)語音識別服務器
語音識別服務器的原理如圖3所示。
與IPTV相關的語音語料和文字語料分別通過訓練形成聲學模型和語言模型,語音信號經過特征提取后,與聲學模型和語言模型進行比對并進行語言解碼,輸出音頻相對應的文字。
IPTV用戶輸入的語音音頻經過語音識別服務器轉化為音頻對應的文字。語音識別服務器可以支持全中文任意語音音頻的輸入,系統可以自動將之轉化為對應的文字并輸出到語義理解服務器。
(2)語義理解服務器
語義理解服務器的原理如圖4所示。
語音識別服務器輸出的文本通過與語義理解系統的句式模板相匹配,對語音識別服務器輸出結果進行糾錯,同時提取其中的關鍵詞,再通過與IPTV相關的關鍵詞匹配,輸出對應的節目列表,并按照特定的排序規則,輸出最終的節目列表。該方案采用語義理解服務器,在解析語音識別服務器輸出結果的同時,還可以對語音識別服務器的輸出結果進行二次糾錯,從而可以大大提高系統識別的準確率。

圖3 語音識別服務器的原理

圖4 語義理解服務器的原理
(3)IPTV 知識庫
IPTV知識庫的原理如圖5所示。

圖5 IPTV知識庫的原理
IPTV知識庫主要實現以下3個功能:
·從IPTV節目服務器上下載節目信息并進行存儲;
·對節目信息進行解析、分類,并提供給語義理解系統進行關鍵詞匹配和節目列表輸出;
·將節目信息提煉成文字語料,供語音識別服務器訓練成語言模型。
本方案將IPTV知識庫獨立于語音識別服務器和語義理解服務器,可以使它在為語義理解服務器提供IPTV節目更新庫的同時,也能為語音識別服務器提供最新的訓練語料,從而大大提高整個系統的實時性。
本方案的優勢主要體現在以下3個方面。
·與市面上的智能電視語音控制系統相比,真正實現了全中文語音的任意輸出以及全量節目的任意搜索。集成了全中文語言模型的語音識別引擎,可以針對任意中文語音輸入進行語音識別,再配合集成豐富句式模板的語義理解引擎,可以從任意句式的文本中提取出業務信息。
·語音識別與自然語義理解技術相結合,保證輸出結果的準確性。市面上大多數語音控制電視僅用語音識別技術將音頻信息轉化為文本結果,但語音識別的識別準確率與音頻源文件的質量關系很大,并不能保證完全識別準確。本方案利用語義理解技術對語音識別的輸出文本進行二次糾錯,大大提高了輸出結果的準確性。
·將IPTV知識庫獨立出來,可以同時服務于語音識別系統和語義理解系統,大大提高系統增量信息的更新效率。由于IPTV系統的節目更新時效性非常高,會出現很多新節目,如果不及時訓練到語音識別平臺的語言模型中,會影響語音識別的準確率,本方案將集成在語義理解平臺中的知識庫獨立出來,使它在為語義理解平臺提供節目搜索資源的同時,也能建立語音識別平臺的訓練庫,并對語音識別平臺進行實時訓練,從而大大提高IPTV節目識別和更新的效率。
圖6為本文提出的IPTV語音搜索產品的總體系統架構。
(1)用戶終端
用戶終端是指在用戶家庭內部可以使用的智能終端,主要包括:語音遙控器,具備語音功能的IPTV遙控器,將用戶語音通過麥克風進行拾取,進行A/D轉換之后傳給IPTV機頂盒;IPTV智能機頂盒,基于Android操作系統,集成了中國電信的IPTV、視頻通信、TV伴侶、應用商城等應用,其中TV伴侶是語音客戶端內集成的語音控制模塊和視頻疊加模塊,用于智能語音功能的實現和界面展現。
(2)智能語音平臺
包含語音識別平臺、語義理解平臺、IPTV知識庫,提供針對IPTV應用的語音識別客戶端調用能力,將語音轉化為文字并識別出客戶端傳遞的文字內容含義,從而可以被客戶端用來對機頂盒進行控制。
(3)TV 伴侶平臺
TV伴侶平臺是本方案所特有的,主要功能是將IPTV內容元數據同步給智能語音平臺中的語義理解服務器,同步的內容元數據包含點播內容和直播頻道列表以及直播、回看節目單等IPTV智能語音遙控業務所需要的相關信息數據。

圖6 IPTV智能電視語音搜索產品架構
IPTV的內容每天都在實時更新,TV平臺需要實時將IPTV的播放內容元數據注入語義理解服務器,從而保證用戶能隨時搜索到最新的IPTV視頻內容和節目列表。
(4)IPTV 平臺
IPTV業務中提供EPG及流媒體服務的基本能力平臺具有EPG導航瀏覽、直播頻道、即時時移、菜單時移等基本業務功能。業務能力平臺接收來自于內容運營平臺的基本業務內容及服務打包關系,當業務管理平臺完成內容、服務、產品的打包后,由該平臺為用戶提供EPG瀏覽及視頻流媒體服務。用戶在使用業務過程中,通過與業務管理平臺的橫向接口完成基本的業務鑒權、訂購等操作。
基于以上架構的IPTV智能電視語音搜索業務已于2013年完成開發,經過3個多月的測試和優化,2014年4月初在上海電信開始試商用。
隨著智能語音產品的全面推廣,語音技術正逐漸成為智能電視的標配。語音識別技術面向語音交互控制的需求,還有許多需要完善的技術點,以下兩個方面的研究需求最為急迫:第一,降噪技術,語音交互控制的場景十分復雜,依靠硬件降噪的技術在產品實際推廣中會遇到問題,依靠軟件進行服務端降噪及有效控制語音分離技術顯得非常重要;第二,語言模型實時或準實時更新問題,雖然大詞匯量連續語音識別解決了目前所需的應用問題,但語言模型本身的更新及維護在實際業務系統中還存在問題,即如何使語音識別系統適應業務的發展,滿足業務內容變動的識別需求。
伴隨著語音識別技術和智能電視的發展,越來越多的用戶將會體驗到智能電視語音搜索帶來的友好、智能的視頻體驗。