人工智能概念在2017年持續不斷升溫,語音智能音箱的入口意義逐漸被認可。在7月初舉辦的百度AI開發者大會上,阿里人工智能實驗室發布了第一款語音智能音箱產品天貓精靈X1,音箱內置智能語音助手AliGenie,能夠聽懂中文普通話語音指令,并實現智能家居控制、語音購物、手機充值、音樂播放等功能,引發了廣泛關注。
事實上,早在2014年,美國亞馬遜公司就推出了基于Alexa語音助手的智能音箱Echo,起初并不引人注目,但近年來銷售量持續攀升。根據美國消費者情報研究合作伙伴(CIRP)的報告,截至2016年年底,Echo系列產品在美國的銷售量已經達到700萬臺,市場熱度可見一斑。Echo及其背后的語音助手Alexa讓亞馬遜公司一飛沖天,谷歌、蘋果等國際科技巨頭以及百度、阿里、騰訊等國內巨頭紛紛推出自家的智能語音產品或者解決方案,對話式人工智能產業似乎馬上就要全面爆發。
在智能語音產品大熱的背后,我們也應該注意到其所依托的語音交互技術在現階段仍存在諸多問題,人工智能技術尚處在起步期,還需要大量數據訓練才能進一步完善。目前的智能語音產品市場,存在一定的“虛火”。
目前,市場上的語音智能音箱都以語音交互作為主要的交互方式,但在具體的應用場景中,現階段語音識別技術的表現還不夠完美。
在輸入端,讓機器“聽懂”人的語言,是人機交互的第一步。目前,很多語音識別系統是基于標準的發音進行識別的,實際上,人們說話存在個體差異,發音也各不相同,各種方言、俚語更是千差萬別,這些都對語音識別提出了嚴峻的挑戰。系統在對語音進行識別之后,還需要理解語音背后的含義,這就涉及自然語言的理解。然而,當前的技術還只能對關鍵詞進行內容識別和上下文分析,不能消除自然語言中廣泛存在的歧義和多義。
在輸出端,機器“聽懂”了人類的語言后,需要像正常的人類對話一樣及時進行反饋,這就涉及語音合成技術。目前,語音合成的自然程度和響應速度還有很大的進步空間。由于受到關鍵基礎技術的制約,語音智能音箱的語音交互還缺乏嚴格意義上的“人工智能”,對話的現場感還無法達到正常人類交流的水平,存在眾多需要克服的技術難點。

在移動互聯網與物聯網時代,產品智能化幾乎成為一種時代的共識,Echo的意外受捧讓人們意識到,智能音箱可能就是傳說中的物聯網的入口。借助人工智能和物聯網,語音智能音箱可以將我們的想法傳達給智能設備,實現遠程交互控制,其中的關鍵是“有物可聯”。然而,目前的智能音箱所接入的服務更多的是娛樂、購物等互聯網應用,硬件類產品相對較少。
由于智能家居概念還處在起步階段,具有智慧功能的家電還沒有普及,傳統家電占據主流,加之家電類產品價格較高且耐用,更新換代周期長,智能音箱實現其物聯網入口的使命還需要一定時間。同時,各大廠商都在打造自己的產品生態鏈,不同廠商的產品傳輸控制協議不同,不易互相連接控制,無法做到互聯互通。在互聯網內容服務方面,國內的內容和服務存在割裂現象,音樂版權大多屬于騰訊,搜索上百度,網上購物在阿里,如何將各家的優勢集中起來是很困難的事情。這些因素都制約了智能音箱在智能家居領域的進一步應用。
由于語音識別技術在現階段還不成熟,尤其是蘋果公司的Siri和微軟公司Cortana在智能手機上的表現并不盡如人意,語音輸入在國內的接受程度不高。在美國,語音智能音箱大多擺放在廚房,這與美國住房面積較大、廚房烹飪噪聲較小有關。智能音箱的體積限制了其可移動性。語音識別技術還不能同時進行噪聲處理和用戶身份識別,因此只能應用于單一場景,不能很好地融合到日常生活中。
語音智能音箱在國內的應用還受東西方文化差異的影響,東方文化相較于西方文化的直接更加含蓄,具有更大的模糊性。由于當前語音交互的現場感和即時性還不夠好,從而使東方人更加不愿意使用這類語音智能產品。隨著智能音箱類產品在美國等西方國家逐漸流行,隱私問題也逐漸顯現。由于語音識別技術需要大量樣本數據進行訓練以提高識別能力,智能音箱在采集到使用者的音頻數據后會上傳至后臺服務器進一步分析并存儲在云端。2017年年初,亞馬遜公司的Echo就曾牽扯進了一宗謀殺案。美國阿肯色州警方要求亞馬遜公司交出嫌疑犯家中Echo錄下的聲音信息以破解該謀殺案,但亞馬遜公司拒絕向警方提交Echo服務器上的相關信息,引發了廣泛討論。
以Echo為代表的語音智能音箱產品在概念上并不新鮮,很大程度得益于亞馬遜公司背后強大的軟件、硬件和市場資源。在硬件供應鏈基礎上,打造一個能夠對聲音進行反饋的音箱并不難,關鍵在于如何讓音箱做到足夠智能。語音智能音箱不是簡單的硬件產品,而是以人工智能為基礎的綜合實體應用。當前市場的繁榮引來了眾多企業參與到這個領域,如果只是趕風口、蹭熱點,不在技術積累上扎扎實實下功夫,短暫的繁榮只會是“虛火”,未來在面對人工智能所帶來的產業機會面前,只會更加焦慮。