章金水
(中國移動通信集團福建有限公司,福州 350001)
人工智能作為新一輪產業革命的核心動力,將引發技術、產品、產業以及經濟結構的重大變革,帶動社會生產力的整體提升。從人工智能發展的技術視角看,語音、圖像、自然語言處理、機器人是當前業界研究的熱點領域。其中,語音識別和自然語言處理是當前發展最成熟及應用最廣泛的人工智能技術。
在AI 語音交互的全球市場看,Amazon Echo 和Google Home 在該領域主導智能語音入口的發展。截止目前,谷歌已與220多個品牌的1500多種智能設備達成合作。與此同時,亞馬遜也累計發布了15款Echo 家族智能硬件產品,覆蓋全球1億智能硬件和數千萬用戶群體。智能語音入口作為最符合應用場景的交互方式,將成為每個智能硬件的“標配”,并使語音搜索成為了主流的AI 技術。
根據Strategy Analytics 的數據(圖1),全球智能家居市場2019年超千億美元,2016到2020年都保持年約20%的復合增長。面對高速增長的巨大市場,國內的終端廠家、互聯網企業及各運營商都積極布局該領域。小米、VIVO 等手機廠商為代表的終端類企業,以終端為切入點構建智慧家庭平臺與生態系統。阿里、騰訊等為代表的互聯網企業以平臺為突破口,積極做大智慧家庭生態,變現后向服務。

圖1 全球智能家居市場規模數據來源:Strategy Analytics 2019
智慧家庭是人類社會發展的必然階段,現已從單品智能邁向全屋智能。福建移動瞄準當前最為成熟的AI 語音技術,通過AIUI 集成能力,打造AI 語音入口,為千家萬戶提供語音智控、隨需接入、自動響應、逼真體驗和高性價比的綜合智能信息服務,大大降低客戶的使用門檻和智能應用的接入門檻。
AI 語音入口是以具有語音交互能力的家庭智能硬件產品(如手機、智能電視、音箱等),向用戶提供基于智能語音控制的影視音、娛樂、智能家居控制等智慧家庭應用及陪伴服務。
AI語音入口能力建設不是一蹴而就的,需要長期的演化過程。按照語音識別、語義理解、語音合成和語音技能四個核心主體,對AI 語音成熟度劃分為五個等級,具體定義詳見表1。

表1 AI語音能力成熟度模型
2.2.1 語音識別
語音識別是指將人類的語音中的詞匯內容轉換為計算機可讀的輸入,如文本、音頻、二進制編碼或者字符序列等格式,并支持多種方言識別。具體包括語音采集、語音識別及聲紋識別的過程。
2.2.2 語義理解
語義理解使功能單元理解說話人的意圖。即將音頻轉化成的文本解析成合理的意圖及標簽?;谡Z義理解的基礎上,可實現語音多輪交互和智能終端控制。
2.2.3 語音合成
通過機械的、電子的方法產生人造語音的技術,如:TTS(文語轉換技術)技術。具體分為四個等級:語音播放、機器合成、自然合成、智能翻譯。
2.2.4 語音技能
作為AI 語音入口的核心能力,基于語音識別、語義理解和語音合成技術,通過抽象、建模和分析,形成AI 客廳語音入口的用戶交互體系(即AIUI),具體包含以下技能:
(1)設備喚醒
利用特定的操控,實現主動喚醒能力,如遙控器的主動按鍵喚醒和設備的命令詞喚醒。
(2)應用打開
通過語音AI 能力,快速打開設備中已經安裝的應用。
(3)欄目操控
實現內部欄目的所見即所說能力。如說:打開綜藝欄目,實現應用內頁面的語音操控。
(4)內容搜索
通過內容歸一整合,搜索的邊界從傳統的影視內容擴大到了IPTV/OTT 上所有內容。
(5)多級互動
通過上述能力組合實現內容語音深度交互。如:購物查詢、下單、付款及教育產品的中英文識字、唱歌評測等。
2.3.1 語音模型管理
語音模型管理為了更好支持語音應用場景,設定語音識別、語義理解和語音合成方面的基礎參數和模型,實現及時準確的熱詞動態擴充、快速的流式識別、定制化的發音人合成以及多結果排序。
2.3.2 語音技能管理
語音技能管理實現對合作伙伴的開發的語音技能進行審核、發布上線的管理。包括以下流程:申請技能開放、審核技能授權、技能開發測試、技能審批上線。
2.3.3 媒資庫管理
內容服務商將媒資信息同步至AI 語音能力平臺,作為語音搜索素材。媒資信息包括影音、游戲、應用及應用內視頻等,媒資庫管理對媒資信息進行欄目管理、索引建立、內容審核、發布功能。
2.4.1 平臺建設方案
福建移動的AI 語音開放能力平臺,是基于智慧家庭業務平臺及智能終端開發的智能語音系統,配套智能遙控器及客戶端SDK,具備語音識別、語義理解、語音合成、語音技能等服務,面向應用、開發者、合作伙伴提供統一的AI 語音能力接口,平臺創新地采用動態語言偵測和混語識別技術。AI 語音能力平臺主要包括五大模塊,分別是應用層、接口層、服務層、管理層和數據層,平臺總體架構示意圖2所示。

圖2 智能語音能力平臺總體架構示意圖
2.4.2 應用層
應用層提供面向客戶的語音應用,具體包括互聯網電視應用、手機終端應用。其中,互聯網電視應用運行于IPTV 或OTT 機頂盒上,為客戶提供直播、點播、K 歌、購物、系統控制等語音控制功能。手機終端應用包括移動自主研發的八閩家庭、八閩生活、和家親等APP 應用。
2.4.3 接口層
接口層集成語音基礎處理能力入口,包括AIUI 的語音接口、業務接口、搜索接口,以及語音權限管理接口、安全認證接口等。
2.4.4 服務層
服務層是語音平臺核心架構,提供語音識別、語義合成、語義理解和語音技能的關鍵服務能力。
2.4.5 管理層
管理層對支撐能力模塊進行統一管理和調度,提供語音模型管理、語音技能管理、媒資庫管理、大數據分析及推薦、日志管理等管理功能。
2.4.6 數據層
數據層提供分布式文件存儲和關系型數據存儲,包括語音數據、技能數據、媒資數據、日志數據以及各種數據間的對應關系。
2.5.1 影視娛樂導航
通過語音AI 終端實現語音搜索、播放控制電視節目和影片。如說:我想看中央一套、我想看成龍電影,前進到30分鐘等即可進行直播、點播、播放控制操作。
通過語音AI 終端實現語音點歌和播控,如說:我想聽周杰倫的歌、調大音量等即可實現啟動音樂應用、音樂搜索、控制音量、播放/暫停、快進/快退等播放操控。
2.5.2 語音生活服務
通過語音AI 終端實現語音購物、支付等,如說:我想買可樂、買同款、我要付款等即可實現搜索商品,以及在觀影過程中使用語音截屏購買影片中出現的物品。
2.5.3 智能家居控制
通過語音AI 終端實現語音控制智能家居,如說:打開空調或窗簾、關閉攝像頭等實現對智能設備進行控制。
至2017年起,本人致力于智慧家庭軟硬件體系的規劃設計和探索實踐,以AI 入口作為核心智慧家庭標準化頂層設計,推動產業鏈各方參與智慧家庭開放融合的標準化體系建設。依托AI 入口的前沿性探索,協同科大訊飛、奧比中光、華為、福諾、未來電視、易視騰等眾多合作伙伴開展智慧家庭業務創新,實現AI 語音能力成熟度模型達到Level-4級,通過培育AI 語音入口規模,構建家庭業務生態圈。截止到2019年底,已深入對接25個生態應用,AI 語音活躍用戶數突破70萬戶,交換次數超過3600萬次/月,通過語音入口點播大屏增值業務收入達到2.5億元。
回顧2019年AI 語音入口應用的排行榜,福建移動智慧家庭業務最熱門的使用場景是點播,最??吹念l道是中央一套,最喜愛的電影是《哪吒》。隨著用戶AI 入口使用習慣的逐步形成,我們非常可喜的看到,非影視業務應用場景語音交互次數占比已經從2019年初的1%增長到年底的11%,增長點主要集中在調取應用、音樂以及計算等方面,未來這一比例還將持續增長。
隨著5G+千兆帶寬的來臨,智慧家庭市場前景更加廣闊,福建移動借助自身在5G+千兆帶寬網絡經營的獨特優勢,以AI 為核心目標驅動,依托多屏互動的AIUI 技術,打造高忠誠高頻次的家庭核心應用場景,實現對客戶美好生活的全面覆蓋,形成運營商流量紅利之后的新收入來源和穩定客戶的業務支撐點。