張曉潔
什么是聽覺的高級體驗?計算機不光要知道人們說了些什么,還要通過了解語音以外的表情、肢體語言、說話的語氣等“潛臺詞”,知道人們想要表達些什么,并與人類有感情的互動。
不管是通電話,聽音樂還是用語音搜索餐廳、電影院等生活信息,與其他感官相比,聽覺與移動設備的配合都更天然。
從剛性需求來說,移動設備的特征讓聲音是最容易實現且穩定可靠的選擇。比如用耳朵聽,終端可以小巧方便攜帶,而移動過程中駕駛和走路的場景,聽覺最容易兼顧協調其他感官,另外,語音作為人類傳遞信息最高效的工具,即使在傳輸中被打斷,也可以重新啟動繼續上一次的體驗,更重要的是,聲音具有個性可識別,這對于移動設備的加密的迅速解鎖尤其重要。
從心理需求上看,聲音作為人類最自然的本能可以傳遞情感,無論語言還是音樂,飽含情感的聲音都能給予聽者異樣的感受。而且,人們天然對于好的聲音具有追求和炫耀的心理,容易形成粉絲和競爭性。
因此,聽覺是人機交互開發最成熟的感官,科技公司對語音的探索可以追溯到上世紀90年代末IBM公司發布的ViaVoice 98 連續語音識別產品,比爾·蓋茨早在2006年就提出過未來將在操作系統中實現自然語音的人機交互,微軟還收購了TeLLMEe,平臺每年執行110億次以上語音識別的請求。同樣,蘋果公司在人機交互上最出名的應用也是語音控制產品Siri,從語音識別軟件拓展開去,腰搖身變成用戶的私人生活助手,幫助用戶通過手機讀短信、詢問天氣、語音設置鬧鐘等,并搜索生活和地理信息,一度被認為是蘋果在搜索上與谷歌競爭的殺手锏,但是也被更多人評論為漏洞百出,供人“調戲”的大玩具。
無論如何,基于聲音的產品已經成為去年以來最火熱的產品,這些應用中,語音可以是主菜也可能是調料,像騰訊微信、百度語音搜索、YY語音、唱吧、啪啪等等都借助聲音的特色一躍成為國內移動產品中的明星。而在從事語音基礎研究的科大訊飛向合作伙伴開放的語音云上,已經有不少開發者正在投身聲音的應用,都有機會成為移動世界里的下一個幸運兒。
2013年,將是聲音產品真正獲得認可之年。如同科大訊飛副總裁江濤對市場的預期,“隨著去年新一代iPhone正式發布,Google 開始推動語音云技術;加上百度、騰訊等互聯網廠商推出相關產品,用戶教育過程會很快。到今年下半年,哪個手機沒有語音交互的功能,就會很奇怪了”。
另一方面,語音識別技術也在加速成熟,百度多媒體事業部副總監余凱博士就表示,“大數據時代和更強大的計算能力,都使得數據更容易搜集,模型的訓練速度大幅提高,過去一年里,語音搜索識別率提高了30%-50%,比過去10年提高的速度還快。”他補充說,“移動時代的需求也和從前大不一樣了。”可以預見的是,當語音技術和市場逐漸成熟后,Siri等應用作為語音入口的能量,必將催生新的產業群鏈。
未來,成熟的語音技術將使得機器的表達具備人類的情感。就像劍橋大學計算機實驗室的教授彼得·羅賓遜所希望的那樣,計算機不光要知道人們說了些什么,還要通過了解語音以外的表情、肢體語言、說話的語氣等“潛臺詞”,知道人們想要表達些什么,并與人類有感情的互動,這才是聽覺的高級體驗。