李 奧,梁 博,蘇雨聃,劉含宇
(1.中國聯通網絡技術研究院,北京100048;2.中國聯通系統集成有限公司,北京
100032)
隨著人工智能相關技術飛速發展以及人們對生活品質要求不斷提高,人工智能技術逐漸被引進智能家居產品中。語言是人類最重要最便捷的交流方式。通過語音交互技術實現智能音箱對智能家居產品的控制,是目前智能家居交互入口的目標。本文從技術和產業層面分析智能音箱的發展現狀和趨勢,研究智能音箱在電信運營商業務中的難點、對應解決方案和實際應用部署情況,展望電信運營商在智能音箱產業的發展策略。
智能音箱是一種由人工智能與傳統音箱結合的產品,擁有了解天氣、打電話、點歌等基礎功能。借助穩定的網絡連接和良好的收音效果喚醒音箱,最終實現人機對話。目前市場上智能音箱的核心功能有4個,如表1所示。
隨著家居控制進入信息化、智能化時代,智能音箱逐漸成為市場熱點,其作為智能家居的入口,也將成為電信運營商們競爭的焦點。

表1 智能音箱的核心功能及其具體內容
智能音箱擁有從聽(語音識別)到理解思考(語義理解)再到說(語音合成)的完整閉環能力。基本的智能音箱語音交互流程如圖1所示。

圖1 智能音箱語音交互流程圖[9]
1.2.1 語音識別技術
語音識別的原理圖如圖2所示。

圖2 語音識別原理圖[6]
預處理模塊:包含預濾波、采樣和量化、分幀、加窗、預加重、端點檢測等。其中,端點檢測(VAD)是語音喚醒的重要環節,它標記語音信號的開始和結束,準確性直接影響語音識別的效果。智能音箱多采用基于隱馬爾可夫模型的語音喚醒模型。隱馬爾可夫模型(HMM)解決的3個問題如表2所示。
特征提取模塊:提取語音信號中反映語音特征的若干參數。常用的有線性預測系數(LPC)、線性預測倒譜系數(LPCC)、MEL頻率倒譜系數(MFCC)。LPCC從發音模型角度出發,運算復雜度低,但是高頻干擾多、系統可靠性差;MFCC從聽覺模型出發,與LPCC相比,MFCC有更好的系統識別性能。
訓練階段:用戶輸入訓練的語音,經過預處理及特征提取后,每個詞條取得一個特征矢量參數,并作為模板保存,建立特征模板庫,參與訓練的人越多,識別的魯棒性越好。
識別階段:將輸入的語音信號經過特征矢量參數提取后,生成測試模板,與參考模板進行相似性比較,并根據一定的搜索和匹配策略找出一系列最優的、與輸入語音信號匹配的模板,最后查表得出識別結果。
目前語音識別最常用的算法有:動態時間規整(DTW)算法(解決說話速度不均勻造成的識別困難)、矢量量化(VQ)、隱馬爾可夫模型(HMM)法(研究熱點)和人工神經網絡(ANN)法(語音識別常用的神經網絡有反向傳播(BP)算法神經網絡、徑向基函數網絡(RGF)神經網絡等,雖然可以處理一些環境復雜、知識背景不清楚、推理原則不明確的問題,但是不能很好地描述語音信號的時間動態性,所以多與傳統識別方法結合使用)。

表2 隱馬爾可夫模型要解決的3個問題及其解決方法和應用
1.2.2 語義理解技術
語義理解就是將自然語言文本轉化為用戶的意圖。基于深度學習的自然語言處理(NLP)技術,可支持多個垂直領域的精準語義解析,可以進行新領域的快速擴展。建立基于感知機的中文分詞、詞性標注和命名實體識別框架,可以實現分詞、詞性標注和命名實體識別,還可以進行“在線學習”(或“增量訓練”)。最后將識別結果匹配到具體的操作指令中。
1.2.3 語音合成技術
語音合成技術使智能音箱能根據文本內容發出人類的聲音。該技術涵蓋了語言學、聲音學、信號數字化處理等多種技術,具體流程如圖3。
語音合成的步驟如下:

圖3 語音合成流程圖[10]
a)文本整理、詞匯切分、語法意義分析,使智能音箱對文本信息完全理解。
b)解碼和韻律特征提取,為語音合成設計和規劃音頻特征(音長、音強、音調等)。
最后合成的語音可以正確表達語義,得到音頻輸出。
智能語音技術剛剛落地,還需要獲取大量用戶的數據資源,通過用戶數據不斷學習訓練,智能音箱才能更加智能。市場占有率和銷量會影響到智能音箱的體驗,也是智能音箱產品的重要影響因素。全球智能音箱的市場份額見圖4。

圖4 全球智能音箱的市場份額
如圖4所示,2014年11月首發的亞馬遜智能音箱(Echo)憑借其先發優勢和豐富的產品,占據了市場41%的份額;2016年5月首發的谷歌智能音箱(google home)通過其低、中、高產品矩陣和用戶基礎,占據了市場28%的份額,2017年7月首發的阿里巴巴智能音箱(天貓精靈)占據7%的份額,2018年2月首發的蘋果智能音箱(HomePod)占據5.9%的份額,2015年5月首發的京東智能音箱(叮咚)占據2.2%的份額,其他品牌共占據16%的份額。
1.4.1 技術發展趨勢
語音識別系統已進入商品化階段,但是機器與人自然交流的終極目標目前仍未實現。需要繼續研究解決的技術難點見表3。
語義理解技術是自然語言理解領域研究的熱點,目前需要繼續研究解決的技術難點見表4。

表3 語音識別技術難點及其對應解決方案

表4 語義理解技術難點及其對應解決方案
語音合成技術未來還需要提升自然度(從句子到篇章這一級的自然度),豐富合成語音的表現力(增加年齡特征、性別特征及語氣語速特征);降低語音合成技術的復雜度,減小音庫容量;增加多語種語音合成,容納不同地域的方言。
1.4.2 產業發展趨勢
智能音箱是一個潛在而又龐大的市場,也是家庭娛樂的延伸領域。國外市場中如亞馬遜、谷歌等互聯網企業多采用“走量”策略,通過大量設備搶占市場份額。未來智能音箱市場不但重視硬件銷量,還重視挖掘新盈利模式,如口播廣告、內容訂閱服務(音樂訂閱、高級會員服務和企業解決方案)等。相比2018年美國智能音箱市場亞馬遜、谷歌和蘋果“三足鼎立”的態勢,國內市場則更復雜,京東、阿里都有相應產品,在2017年底,百度、騰訊也參與進來。
國內智能音箱產業在未來仍需要深入研究解決以下問題。
a)如何提高智能家居普及率以促進智能音箱在家居控制中的循環發展。
b)中西方生活方式差異對智能音箱的使用率有何影響,如國外的應用場景主要在客廳和廚房,國內則是客廳和臥室。
c)廠商在開拓語音交互技術過程中如何提升用戶體驗。
d)智能音箱可能會收集越來越多的敏感數據,如通話記錄、電子郵件信息、生活習慣等,如何保障用戶隱私安全也是問題之一。
e)智能等級不清晰,外界不能以量化的方式合理評估智能音箱能力。
國內電信運營商正在尋找新的收入增長領域,目前,市場上主流的智能家居產品均需聯網,對于擅長做“管道”的運營商而言,進入智能家居的門檻并不高,特別是對于技術、硬件和內容整合都不占優勢的國內電信運營商而言,聚焦智能音箱以打通智能家居交互入口是一個好的選擇,但是目前仍面臨以下難點,其中難點d)和e)為國內電信運營商特有,其他為國內外運營商共有。
a)價格影響。互聯網公司相對更早進入智能音箱市場,擁有更成熟的技術、更豐富的配套智能家居產品,多采用低價“走量”策略。在低價策略下,電信運營商很難與互聯網公司推出的智能音箱搶占市場,難以形成一定的規模,降低成本難度較大。
b)盈利策略。電信運營商的盈利模式是通過智能音箱控制智能家居產品以實現流量變現,這促使電信運營商將智能音箱與IPTV類產品進行融合。但是音箱類產品完全不同于傳統電視視頻,其仍需要大量數據建模分析及運營優化工作來滿足廣泛的用戶需求,以此增強用戶黏性,進而達到開拓用戶、匯聚流量的目的,最終實現流量變現,為電信運營商帶來更大的盈利。
c)互聯網生態。與互聯網企業相比,電信運營商缺乏豐富的生態內容和強大的消費硬件物聯網。
d)捆綁補貼政策。國內電信運營商對智能音箱的銷售主要采取與寬帶業務捆綁補貼的政策,保證用戶能以更低的價格買到高端音箱。補貼有助于國內電信運營商的智能音箱普及,但是如果不能快速帶來相應的增量收入,則會陷入成本泥潭。
e)“運營”策略。如何平衡國內電信運營商和智能音箱硬件廠商的利益仍需要考慮,這關乎到雙方的盈利策略。國內電信運營商不愿僅僅替硬件廠商銷售設備,變成智能音箱硬件廠商的零售渠道商,而智能音箱硬件廠商更愿意把產品拿到互聯網公司的電商平臺上銷售。
f)標準規范。各電信運營商都在做自己的智能音箱規范,但是目前并沒有一個統一的規范,而各電信運營商自己的規范可能不全面,或多或少地缺乏完善的智能等級評測、安全條例、防廣告規范。
g)技術水平。相較于互聯網企業,擅長做“管道”的電信運營商的優勢在于其擁有成熟的通信網絡技術,劣勢在于其涉足人工智能相關技術較晚且技術能力較弱,即便擁有自研的人工智能平臺,運營商在語音識別、自然語言處理等模型構建、訓練方面仍然與互聯網企業存在一定差距。
根據上文提及的電信運營商難點,提出了如下的解決方案。
為了避免陷入成本泥潭,國內電信運營商可以加大運營力度,提升流量變現能力;控制智能設備的補貼水平(如對高值用戶和戰略業務可以適當加大補貼力度),這既體現了經營的向導性,也是一種客戶經營的差異化手段,同時也會提升用戶的感知度,盡量避免贈送后用戶感知度低、使用率低的局面。
為了縮小與互聯網企業的價格差距,同時擴展規模,電信運營商可以采用與光貓、機頂盒類似的手段,統一標準,一起降低成本。
國內電信運營商可以向德國電信學習,與智能音箱硬件廠商合作,通過類似于收取商場或者商家租金的模式,從設備商的銷售收入中獲得分成,。
電信運營商可以充分利用產業鏈資源,提出相關的標準規范。運營商可以利用自己的品牌優勢,作為安全保障者或第三方機構為智能音箱產品做測評、評級、認證,與互聯網企業聯合起草評估規范(評估規范包括語音識別、語音交互、語音合成、安全服務等測試),共同完成對音箱整體智能化能力的評估,為用戶的選擇提供量化依據。
電信運營商可以與互聯網企業合作,利用互聯網企業豐富的技術資源、生態內容等,共同打造一款智能音箱,并集全國之力進行線上線下的銷售,保持一致性、穩定性的銷售政策,從而可以匯聚流量,實現流量變現,達到互利共贏的目標。
電信運營商需要發掘智能音箱與傳統IPTV業務在內容處理和推薦業務邏輯上的差異,短期內對用戶使用數據進行深度分析,并依次優化內容運營工作,從而盡可能滿足更多用戶的需求,為電信運營商匯聚更多流量,實現流量變現,帶來更大的盈利。
目前國內外電信運營商在智能音箱產業上均部署了相應的應用。
中國聯通自主研發的智能音箱可以由語音控制IPTV機頂盒實現視頻點播、頻道切換、系統控制等功能,智能家居的其他智能設備控制、VoWiFi等能力將被進一步整合融入,從而打造中國聯通智慧家庭智能語音生態。同時中國聯通也在積極參加智能音箱評測標準的制定工作。
中國電信與科大訊飛合作,運用科大訊飛語音識別技術研發出智能音箱小翼。這款音箱是基于中國電信光纖寬帶網絡能力,可進行語音操控的智能化終端。該音箱集4K機頂盒、高清攝像頭和藍牙音箱于一體。
中國移動自主研發的智能AI音箱(咪咕Home音箱)具備獨特的多輪語音操控功能。另外音箱還與移動通信業務相結合,通過Andlink快速連接智能家居,成為智能家居的控制入口。中國移動也在參加智能音箱評測標準的制定工作。
德國電信發布了一款具備語音助理功能的智能音箱Magenta。該智能音箱的定位是連接智能家庭、電視和其他在線服務的樞紐。該智能音箱可以支持EntertainTV及Magenta SmartHome智能家居服務,該音箱還能與亞馬遜的智能語音助理Alexa服務互聯。
電信運營商可以通過加大運營力度來提升流量變現的能力,控制智能設備的補貼水平和力度,提升客戶感知度,進而避免陷入成本泥潭。另外,互聯網公司的智能音箱多以線上銷售為主,電信運營商的智能音箱銷售服務政策需要保持一定的穩定性和一致性,集全國之力聚焦某幾款重點銷售,在形成規模后,進而降低成本,匯聚流量,實現流量變現。電信運營商可以建立標準規范,增強對智能音箱的量化評級力度,最終才能夠真正實現“以智能音箱為統一入口,以智能家居產品群為核心載體,以智慧化運營為運營邏輯和流量變現手段,以智能家居產品的合作伙伴群為生態圈”。
電信運營商應該抓住人工智能行業快速發展的契機,學習互聯網企業的商業模式,大力推動以智能音箱為首的智能家居產品的應用,進而搶占智能家居市場,變現流量,提高收益。同時電信運營商也應該積極關注智能音箱的安全隱患,增大對系統安全的投入,并推動建立相關行業標準(如智能音箱接口、智能度測評等)。