越來越聰明的語音助手

2018-04-12 00:00:00李詩

風流一代·TOP青商 2018年5期

微軟小冰，這個一直混跡在微信、QQ里的逗貧“少女”，一直讓人又愛又恨。當微軟小冰搖身一變，成了一個肌膚雪白、面若玉盤、身形玲瓏的智能音箱時，又以新花招開始“搞事情”了。

米家生態鏈Yeelight語音助手是雙AI（人工智能）系統，同時搭載了小愛同學和微軟小冰。這是搭載微軟小冰的第一款智能音箱，也是微軟小冰在中國落地的第一個智能硬件。

這一年來，BAT（百度、阿里巴巴、騰訊）都在積極將人工智能語音助手落地為智能硬件。阿里的天貓精靈在去年“雙11”以99元的低價賣出40多萬臺；百度推出帶屏幕的智能音箱小度在家；騰訊發布了自己的人工智能語音助手叮當，并與長虹電視展開合作。當然，還有京東的叮咚和小米的小愛同學。

大家都在忙著布局語音助手的軟硬件，期望搶奪智能家居場景的入口。在對話式人工智能領域耕耘多年，還沒有硬件落地的微軟終于坐不住了。

去年12月，微軟發布與小米合作的米家生態鏈Yeelight語音助手。今年3月22日，微軟（亞洲）互聯網工程院宣布推出新一代語音交互技術：全雙工語音交互感官（Full-duplex Voice Sense）。微軟小冰的對話能力因此顯著提高，相比同類語音助手，她能實現自然流暢的對話式交流。

進化

藏身于手機中的蘋果Siri和電腦中的微軟小娜早已被人們所熟知，現在亞馬遜的Alexa、阿里的天貓精靈、京東的叮咚以及小米的小愛同學都搖身一變“住進”了智能音箱里。在對話體驗上，用戶要發音清楚、一字一頓地說話，才能被理解。這種體驗可以用一個詞來形容——費勁。

在微軟看來，這種“費勁”不只是前端表現的問題，更是底層框架的問題。微軟小冰全球負責人、微軟亞洲互聯網工程院副院長李笛認為：“國內對人工智能整體的發展更像在堆積木，而沒有探索到底層框架的設計上。”

他介紹，在全球范圍內，從基礎框架的基本理念來看，目前的對話式人工智能可以分為兩種。第一種叫Turnoriented（面向單一任務的框架）；第二種為Sessionoriented（面向對話全程的框架）。目前，大部分的語音助手都是第一種框架。從Turn-oriented到Session-oriented是技術底層框架的變化。

Session-oriented到底能給對話式人工智能帶來什么樣的改變呢？Turn-oriented面向單個任務，一問一答，能很迅速地通過最少的對話幫你完成任務。在Turn-oriented的框架下，每一個對話就像是一個十字路口，你每發出一個指令，助手就把你帶向一個目的點，然后又回到路口中央。當助手不能回答問題/完成指令時，一般會用搜索引擎直接給出搜索答案。體驗過Siri、微軟小娜的人都有感觸，問一兩個簡單問題還好，想多說幾句幾乎是不可能的，而且人們時常會感到“很尷尬”，還有一些挫敗感。

在Session-oriented框架下，對話不只是命令，而是混合的，在閑聊的過程中它還能完成每一個任務，更接近人與人之間自然的對話。“對話像河流一樣，我們認為任何一個自然發生的對話，都是混合的。隨著進一步的交流有可能引發出新的任務，然后再隨著新的任務引發一些知識的了解，然后走下去，持續流轉。”

當用戶喚醒Yeelight中的微軟小冰后，它能和用戶連續聊天超過20分鐘。在聊天過程中它也保持傾聽，你可以打斷它，讓它去關燈、設置鬧鐘，在它完成任務后可以再回到閑聊，或者回到唱歌、講笑話、講故事的功能模式中。

全雙工語音交互感官

微軟從4年前開始同時布局兩種框架，微軟小娜是Turnoriented，微軟小冰是Session-oriented。但當時，兩邊的技術都還不成熟。全雙工語音交互技術補上了Seesionoriented框架的最后一個環節。

全雙工語音交互技術可實時預測人類即將說出的內容，實時生成回應并控制對話節奏，能理解對話場景在訴說者/傾聽者之間實現角色轉變，還可以識別說話人的性別以及說話人的數量。

微軟小冰首席架構師周力說，國內大部分的語音助手在IOT（物聯網）上采用的是單層交互，通常都是一問一答，用戶說完一句話，智能音箱才能回答；或者是智能音箱在說話的時候，就沒法接受新的指令。而全雙工能實現一直聽加一直說，聽和說都是一直持續動態進行的。

全雙工語音交互背后主要有兩個關鍵技術：一是預測模型，實現邊聽邊想。例如，當用戶說出一句話的時候，小冰會先回答“嗯，你說”，然后再去完成指令，這樣可以填補完成指令的空白時間。

二是生成模型，讓其更好理解場景，自動生成回復。正常的對話都不是單向的一問一答，小冰也會在適當的時候主動提供內容，并且能知道在用戶完成指令沉默幾秒后自動結束對話。周力介紹，現在小冰的所有回復都是自己生成的，有別于傳統的基于模塊、搜索來進行的回復。

周力認為，在電腦、智能手機帶動的即時通信時代下，人們習慣了遠距離的、隔著屏幕的消息的發送和接收，而對話式人工智能和智能硬件把人們拉回到非文字的純語音交流狀態。但許多設計還是基于消息的一來一往設計的，并不是一種連續的交互的狀態。“無屏幕的語音交互應擺脫消息式的對話，進入連續交互的對話。”

全雙工語音交互技術已經首先在微軟小冰全球產品線中落地。其中在中國市場，已經應用在中國科技館的小冰電話亭、米家生態鏈Yeelight語音助手中。在日本有小冰凜菜的直播平臺，還有車載智能項目，未來6個月會覆蓋更多的產品線。

李笛談道：“3年前，國內很多人工智能的硬件設備就來找過我們。那時候我們還沒準備好，不想把時間放在一定會被取代的框架上。”

微軟小冰一直活躍在微信、Line等即時通信軟件上，而微軟深知IOT和IM（即時通信）對話式人工智能的要求不同。在IM上，小冰的延遲、插科打諢更容易被接受。Yeelight中的微軟小冰目前具備的功能有：連續聊天、控制智能設備、日常查天氣/時間、設置鬧鐘/提醒、唱歌、講故事、讀心術、猜歌名。陪聊和娛樂的功能很強大，但是目前還不能播放音樂、收聽新聞等內容。

李笛說，如今各個智能音箱都在強調的技能對微軟來說并不困難，難的是如何能夠構建出一個很完整的系統。“這個我們已經做到了。我們缺內容，其他人缺好的系統。”

在他看來，微軟語音助手落地智能硬件有以下優勢：

第一，提供AI的解決方案。跟其他的API（操作系統留給應用程序的調用接口）相比，微軟的解決方案更關注終端產品體驗。

第二，提供一部分與AI解決方案相關的內容，包括與其他資訊、資源的整合。比如對接米家生態鏈中的幾十種設備，實現語音交互功能。

第三，提供自創的內容。例如現有的“小冰姐姐講故事”已經出現在90%以上的兒童可交互機器人中。微軟既是AI助手，又是內容提供商。

未來的智能硬件

雖說全雙工語音交互這樣的底層技術應用范圍很廣，但大家目前爭奪的焦點依然在于智能家居場景。音箱、電視、電冰箱、頂燈這些常見的家居設備，哪一個會成為日后的中樞呢？

李笛認為，目前智能音箱的成功和AI的成功是兩件事。產品設計、價格、渠道、補貼等市場策略會影響智能音箱的銷量，但硬件存在換機周期。即使某個品牌現在擁有較大的市場份額，但只要有真正強大好用的AI出現，就很可能被替換掉。

但是，人們喜歡的AI助手究竟是什么樣的呢？把各種技能都塞進智能音箱，把音箱當遙控器、播放器等各種工具就一定受歡迎嗎？所有人都會期望與AI助手有良好的聊天體驗甚至情感交流嗎？小冰的聊天體驗確實好于其他的AI助手，但是目前還不能播放音樂著實令人覺得可惜。以后的小冰會把各種技能都學到手嗎，那個時候小冰還是小冰嗎？這些問題都值得我們繼續思考、探索。

風流一代·TOP青商2018年5期

風流一代·TOP青商的其它文章: 花溪夜郎谷：建一座民族記憶的奇幻城堡; gosun Go：讓你隨時隨地享美食; 理財顧問也需轉型升級; 張一元茶莊的沉與浮; 斯皮爾伯格告訴你：爆米花也是種風格; 把工作變得有意義