吳勇毅


“只動嘴不動手”,就可以指揮滿屋子的家電為你服務,這在今天看來仍是科幻片的一幕,因語音技術的發展正在一步步成為現實。
阿里巴巴說出“芝麻芝麻,開開門”,寶庫的厚重石門便自動打開了。這個古老的阿拉伯神話,在如今數字時代語音技術的幫助下,完全可能成為現實。在多年的技術積累后,時下語音技術的春天正“千樹萬樹梨花開”。
當前,智能語音應用已是移動互聯領域的絕對熱點之一。除了國外Siri、Google Now、微軟必應添加的語音搜索功能外,近一兩年,國內市場也陸續出現百度語音助手、搜狗語音助手、盛大的百靈語音助手、訊飛語點與訊飛語音助手、靈犀助手、蟲洞語音助手、智能360語音助手等語音搜索工具。其中既有國際IT巨頭、互聯網大佬,也有二三十人的創業團隊,市場堪稱火爆,愈演愈烈。
智能語音交互技術日新月異
時下,語音應用分為三大技術環節:語音識別、語義理解、搜索,每個環節的技術難度系數都很高。以百度的語音助手為例,用戶對它的需求大致分為三類:第一類是指令性的需求,包括打電話、發短信、發微博等。第二類是搜索需求,其中分為垂直搜索需求、通用搜索需求、知識類搜索需求,例如用戶如果希望播放某首歌,就進入百度音樂等垂直搜索;如果是綜合類的搜索需求,就進入百度的搜索引擎;如果是知識類需求,例如問“世界最長的河流是哪個”,語音助手就會進入知識庫給出結果。第三類是調侃類的需求,百度有互動性資源,例如“小黃雞”等。
自蘋果iPhone 4S內置語音助手Siri以來,語音識別技術近年來經歷了前所未有的繁榮。穿戴式設備、智能家居和車載設備的興起,更是將語音識別技術推到應用的臺前。語言的創造原本就是人類歷史的一個拐點,而當將語言與科技結合時,所謂的人機交互的革命史又翻開了新篇章。
可以說,智能語音交互首先改變的是移動互聯網,語音識別在移動終端上的應用最為火熱。語音對話機器人、語音助手、互動工具等層出不窮,許多互聯網公司紛紛投入人力、物力和財力展開此方面的研究和應用。在國內,目前除了手機內自帶的語音助手,不少第三方語音助手應用也如雨后春筍般涌現,譬如訊飛語點、百度語音助手、搜狗語音助手、蟲洞語音助手、智能360語音助手等。以iPhone中內置的Siri為例,這是一個很炫的功能。用戶以自然語言的方式對智能手機下達指令,而手機根據用戶語音和用戶當前的環境及上下文對用戶意圖進行理解,并按照用戶意圖執行命令。如用戶說“查找附近的閩菜館”,則手機會搜索用戶當前所在位置附近的閩菜風味餐廳,并將列表顯示出來供用戶選擇查看。
騰訊公司將智能語音整合到手機上網領域,讓打開網頁、控制瀏覽器等功能操作“口語化”。只要你叫一聲“搜狐網”,手機就會自然跳出搜狐網來,用不著用手輸入網址。
很難想象會有用戶通過手機打上五六百字向自己的領導論述某個項目的可行性,這樣的工作通常是在有實體鍵盤的電腦上完成的。語音輸入使得通過手機完成上述行為成為可能。
在未來的物聯網時代,“說出需求得到落實”的互動模式將進一步延伸,屆時所有的手機、電器等都將擁有“聽”甚至是“說”的能力,語音控制將成為構建智慧城市的重要手段,人們美好的生活將再次“傳為佳話”。用戶躺在沙發上,對著手機就可給各種電器下達命令,電器就能自動完成操作,隨著物聯網的發展成熟,這種看似奇幻的情景正愈來愈廣泛地變為現實。
而未來,借助語音識別技術,可實現“只動嘴不動手”的智能化支付,更能讓用戶體驗到高速便捷。比如,消費者可對著手機發出命令——“請轉賬500元到××賬戶”,手機就能幫助消費者輕松實現口述化轉賬、付款。
近日,去哪兒攜手百度,在其App加入語音功能,用戶只需要對著手機說話,即可完成旅游出行搜索和預訂、支付。該功能是去哪兒旅行與百度語音共同打造的智能語音產品,標志著百度和去哪兒在語音技術領域再上一層樓,“只動嘴不動手”的智能化,讓用戶“說去哪兒就去哪兒”,“想付多少錢就付多少錢”。
去哪兒無線高級產品總監楊昌樂表示,他非常看好智能語音的未來發展前景,智能語音最終必然會成為手機端的一個重要輸入手段,并且會對現今的使用環境、支付環境造成很大的沖擊。尤其多交互語音技術的出現,完全令用戶有不同于以往的使用感受。未來去哪兒希望能夠打造出僅依靠語音技術即可完成各種操作的App產品,將手指輸入和語音輸入并行提供給用戶。
而目前國內最大的獨立第三方支付平臺支付寶,也已逐步針對全國手機用戶推出獨創的語音支付方式。此舉將令國內數億手機用戶有機會通過手機終端隨時隨地完成語音支付行為。
一項公開調查的數據顯示,除了通常網上購物之外,40%的消費者會選擇電視購物,34%的消費者會選擇目錄購物,在這些人中,65%的消費者表示愿意在一定條件下使用語音支付進行付款。語音支付“錢景”十分誘人。
基于這種高智能化的技術進化,Enfodesk易觀智庫研究發現,語音必將成為日后移動互聯網的最重要入口之一。手機和PC相比有著先天的操作和視覺劣勢(手機屏幕面積小、操作輸入繁瑣),而語音輸入無疑是比較好的替代輸入方式之一,它使得操作者開始逐步擺脫雙手與機器的操控交流,讓手機成為更智能化、更人性化、更通用的工具。Enfodesk易觀智庫調查數據顯示,到2015年全球智能語音交互技術市場將達到600多億美元,未來三年年復合平均增長率高達15%以上。
無縫語音交互境界還有多難
不過,有些業界專家認為,語音應用能否成為下一個移動應用重要入口,還要經過技術和市場的雙重考驗。無論是類似蘋果的“大牛”,還是口碑相傳的智能360,目前均尚未帶動語音成為移動互聯的入口,迎接語音技術全面春暖花開的春天還要克服一些難關。
雖然蘋果、谷歌、百度等這些巨頭紛紛以非常認真的態度投入語音應用,語音用戶市場還是發展不太快,離達到流量變現的程度還有一段距離。而目前國內手機語音搜索市場雖然已具備一定的用戶需求與初步的技術積累,但仍處在市場導入期階段。
近年來語音技術門檻逐漸降低,但不可否認的是,語音技術在人機交互中仍有一些尷尬局面。比如語音識別的正確率,其在實際應用中依然不夠“聽話”。一些專家認為,中國地域遼闊,光方言就有成百上千種,而且即便是同一種方言被不同的人說出來發音上也會有差距。機器系統哪怕采樣再全,識別率也不會太理想。比起其他語種,中文的識別難度會更高。在中文中,同樣的一句話,在不同的語境中,具備了不同的含義,識別難度會更大,甚至同一句話的不同語氣,其表達意思也不同,這就讓語音技術難以識別其準確意義,甚至可能“失之毫厘,謬以千里”。
有業內人士坦承說,語音識別的遺憾是再努力也做不到百分之百。這或是整體語音技術應用中的一個最大痛點。不過,業界專家對此進行反駁,任何事物沒有所謂百分之百完美,語音識別準確率達到90%以上就算成功,不能吹毛求疵。
還有,為了調用語音、語義庫,以更加精準地理解用戶的意思,目前不少語音技術服務商的做法是將用戶所說的語音上傳到服務器,由服務器進行識別,但這對服務商網絡的速度、服務器的處理能力、數據庫等提出了很高的要求與很大的挑戰。
因此,從某些技術上講,未來要達到無縫的語音交互境界,難度還是相當大的。
除了技術方面的攔路虎,語音應用還面臨商業模式、生態圈建設的重大難題。從桌面時代轉變到移動時代,全新的語音搜索和語音助手也需要新的商業模式。而這中間的環節涉及很多不同領域的技術服務商和開發者,需要將所有的生態鏈打通,覆蓋用戶體驗的完整路徑。因為要涉及所有的上下游環節,每項語音產品就需要和很多服務商、開發者合作、協調,市場鏈條的高度復雜性非常明顯。這就觸及商業利益如何合理分配的問題。比如科大訊飛只做語音識別、自然語言理解這些入口層的技術,后端的服務常就轉給擅長處理該需求的合作伙伴來做。
不過,新興技術總要經歷不斷完善的過程,蒸汽機經多次改良才帶來了大規模工業化,語音技術或也如此,其根本的優勢注定它將會把人類帶入一個移動生態的新時代,它終會爆發,迎來春天的!
(編輯:寇尚偉 358902172@qq.com)