牛祿青


蘋果手機(jī)語音助手Siri的亮相,在全球掀起智能語音產(chǎn)業(yè)的發(fā)展熱潮,這是人機(jī)交互革命,抑或又一輪投資泡沫?為了深入了解智能語音技術(shù)和產(chǎn)業(yè)的發(fā)展背景、市場(chǎng)潛力、未來趨勢(shì)以及中國(guó)的機(jī)遇與挑戰(zhàn)等相關(guān)問題,本刊記者專訪了清華大學(xué)電子工程系副教授、多媒體信號(hào)與智能信息處理實(shí)驗(yàn)室主任吳及。
前所未有的高度
《新經(jīng)濟(jì)導(dǎo)刊》:語音技術(shù)自上世紀(jì)50年代就出現(xiàn)了,為何最近兩年才開始火爆,是與蘋果的語音助手Siri推出有關(guān)嗎?
吳及:清華大學(xué)電子工程系多媒體信號(hào)與智能信息處理實(shí)驗(yàn)室的前身,是由王作英教授1987年創(chuàng)建的語音識(shí)別技術(shù)實(shí)驗(yàn)室。這個(gè)實(shí)驗(yàn)室是國(guó)內(nèi)語音識(shí)別領(lǐng)域最有影響的研究團(tuán)隊(duì)之一,到現(xiàn)在快三十年了。我的博士生導(dǎo)師王作英教授是我國(guó)語音識(shí)別技術(shù)領(lǐng)域的開拓者之一,當(dāng)時(shí)在第一批國(guó)家863計(jì)劃中就對(duì)“語音翻譯”進(jìn)行了立項(xiàng),王老師是這個(gè)項(xiàng)目的負(fù)責(zé)人。從那時(shí)候起,我們一直在研究語音識(shí)別技術(shù),親眼見證了語音技術(shù)的起起伏伏,猶如過山車一樣。
如果把應(yīng)用前景展示給企業(yè)和用戶,他們會(huì)很興奮,希望馬上開發(fā)和應(yīng)用語音識(shí)別技術(shù),產(chǎn)業(yè)界也會(huì)以很大的熱情投入進(jìn)來,隨后發(fā)現(xiàn)這種技術(shù)比想象的難很多,短期內(nèi)應(yīng)用的可能性不大,于是就冷卻了。
這樣的起伏歷史上發(fā)生過好幾次了,上世紀(jì)70年代到80年代是一個(gè)高峰期。這時(shí)語音識(shí)別技術(shù)有很大提高,許多企業(yè)涌入,例如IBM、蘋果等,后來大部分企業(yè)都放棄了,包括蘋果,只有科研院所和少數(shù)企業(yè)還在繼續(xù)研究。上世紀(jì)90年代后期到2000年前后,又是一個(gè)高峰期,最典型的是IBM開發(fā)出聽寫機(jī)引擎Viavoice,漢王是這款產(chǎn)品的國(guó)內(nèi)代理,并結(jié)合手寫識(shí)別技術(shù)推出了漢王聽寫大師,雖然紅火了一陣,但大家在電腦上還是習(xí)慣于用鍵盤而不是語音輸入,接著又歸于沉寂。
這次的興起與過去不太一樣,超過以往任何一次的高度,商業(yè)化應(yīng)用的規(guī)模、普通民眾的接受和認(rèn)可程度,都遠(yuǎn)遠(yuǎn)超過了以往。不可否認(rèn),蘋果的Siri對(duì)語音識(shí)別技術(shù)的推廣起到了推波助瀾作用,刮起了智能語音風(fēng)。但我認(rèn)為,這輪熱潮是從Google開始的。2008年,Google在美國(guó)推出英文語音搜索服務(wù)Voice Search,剛開始用戶通過免費(fèi)411電話,就可以獲取搜索結(jié)果。2009年,Google在全球范圍正式發(fā)布了谷歌中文語音搜索。
2010年,中國(guó)的科大訊飛發(fā)布了語音云平臺(tái)。科大訊飛之所以推出語音云,正是因?yàn)榭吹搅嘶ヂ?lián)網(wǎng)特別是移動(dòng)互聯(lián)網(wǎng)的發(fā)展,對(duì)智能語音產(chǎn)業(yè)的帶動(dòng)已經(jīng)表現(xiàn)出來了。2011年,蘋果在iPhone4S的發(fā)布會(huì)上推出了Siri語音助手。2012年,科大訊飛又發(fā)布了第二代語音云,名為“訊飛語點(diǎn)”的中文語音助手可以用中文進(jìn)行應(yīng)答。很快,蘋果也推出中文版Siri。
從2012年開始,語音市場(chǎng)迅速升溫,國(guó)內(nèi)的互聯(lián)網(wǎng)企業(yè)開始涉足,例如百度、騰訊、搜狗,還涌現(xiàn)了許多創(chuàng)業(yè)公司,智能360、云知聲等。
我認(rèn)為,智能語音已經(jīng)進(jìn)入到產(chǎn)業(yè)化層面,最近5年的產(chǎn)業(yè)發(fā)展速度超過了過去50年,并且跟以往主要靠技術(shù)推動(dòng)有很大差異。
最近幾年,智能語音產(chǎn)業(yè)之所以有突破性發(fā)展,有幾個(gè)因素起到了關(guān)鍵作用:一是移動(dòng)互聯(lián)網(wǎng)的發(fā)展,使手機(jī)成為重要的客戶端。現(xiàn)在手機(jī)數(shù)量已經(jīng)遠(yuǎn)遠(yuǎn)超過PC和筆記本,導(dǎo)致越來越多的交互行為通過手機(jī)來完成。蘋果ios、安卓等智能手機(jī)操作系統(tǒng)推出后,手機(jī)應(yīng)用和手機(jī)交互逐漸增多,但在手機(jī)上靠傳統(tǒng)的鍵盤輸入很不方便,手寫又太慢,而使用語音輸入很方便,這樣用戶的需求就被激發(fā)了。
二是云計(jì)算的發(fā)展。以前語音識(shí)別講兩頭,一方面看電信領(lǐng)域能否應(yīng)用,另一方面盡量挖掘手機(jī)的資源潛力,但手機(jī)的計(jì)算資源和存儲(chǔ)資源很有限。現(xiàn)在隨著移動(dòng)互聯(lián)網(wǎng)和云計(jì)算的發(fā)展,語音識(shí)別不需要在本機(jī)做了,可以在云端做。這樣資源條件大為放松,對(duì)語音識(shí)別引擎不需要非常嚴(yán)格的限制了。此外,用戶的語音數(shù)據(jù)可以存放在云端,就能有大量的真實(shí)數(shù)據(jù)用于模型訓(xùn)練,語音識(shí)別性能得到了迅速地提高,識(shí)別率可以達(dá)到85%~90%以上,這就達(dá)到了用戶使用的最低門檻。有了服務(wù)端以后,數(shù)據(jù)形成了循環(huán),計(jì)算資源的要求放松,這是智能語音產(chǎn)業(yè)發(fā)展的重要條件。
三是語音識(shí)別技術(shù)一直在進(jìn)步,最近十年也不斷有新的突破,例如聲學(xué)模型的鑒別力訓(xùn)練和近年來非常熱的深度神經(jīng)網(wǎng)絡(luò)。
《新經(jīng)濟(jì)導(dǎo)刊》:語音技術(shù)包括語音合成、語音識(shí)別、語義理解、知識(shí)圖譜等子技術(shù),為何把語音識(shí)別稱作智能語音行業(yè)的“皇冠”?
吳及:這是把交互的環(huán)節(jié)拆解了,好比甲乙兩臺(tái)設(shè)備對(duì)話,甲說話就是語音合成,把文字轉(zhuǎn)化成聲音,乙聽到后轉(zhuǎn)化成內(nèi)容就是語音識(shí)別,真正理解了聽到的內(nèi)容就是語義理解,然后乙再進(jìn)行應(yīng)答,又是語音合成,這樣循環(huán)往復(fù)。
語音合成技術(shù)相對(duì)容易,成熟最早,比如打電話查詢考試分?jǐn)?shù);而語音識(shí)別技術(shù)難度大,雖然過去性能一直在提高,但距離推廣應(yīng)用總有一段距離。現(xiàn)在國(guó)內(nèi)外企業(yè)的語音識(shí)別準(zhǔn)確率,在某些應(yīng)用領(lǐng)域超過了90%,比如語音搜索、語音輸入、語音提醒等,但在有些領(lǐng)域還達(dá)不到。
知識(shí)圖譜是把人的知識(shí)結(jié)構(gòu)化、關(guān)聯(lián)化。比如劉德華是歌手,有哪些特點(diǎn)、愛好等,把更多相關(guān)知識(shí)呈現(xiàn)給用戶。
《新經(jīng)濟(jì)導(dǎo)刊》:最近聽說一個(gè)很流行的IT概念“深度神經(jīng)網(wǎng)絡(luò)”(Deep Neural Network, DNN),這和語音識(shí)別有什么關(guān)系呢?
吳及:神經(jīng)網(wǎng)絡(luò)也是一個(gè)有幾十年歷史的技術(shù)了,包括一個(gè)輸入層和一個(gè)輸出層,當(dāng)中有很多隱層(不是外部直接可見)。以往方法只能訓(xùn)練出比較少的層次,更深的層次,訓(xùn)練算法做不好,數(shù)學(xué)證明,層次越多,描述能力越強(qiáng)。最近三至五年,深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法有了突破,深度神經(jīng)網(wǎng)絡(luò)的理論和應(yīng)用問題有了迅速的發(fā)展。于是大家紛紛研究深度神經(jīng)網(wǎng)絡(luò),最重要的應(yīng)用成果之一就是語音識(shí)別,這既提高了語音識(shí)別的性能,也證明了深度神經(jīng)網(wǎng)絡(luò)的價(jià)值。所以,這個(gè)技術(shù)現(xiàn)在很火,學(xué)者采用深度神經(jīng)網(wǎng)絡(luò)來研究包括語音識(shí)別在內(nèi)的許多問題。
2006年,加拿大多倫多大學(xué)教授Hinton提出了深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法,使得多層神經(jīng)網(wǎng)絡(luò)的有效訓(xùn)練成為可能,這就是所謂的DNN。
微軟雷德蒙德研究院的研究員鄧力敏銳地捕捉到了神經(jīng)網(wǎng)絡(luò)技術(shù)的這一突破性的進(jìn)展,就把Hinton請(qǐng)到微軟,討論如何把深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到語音識(shí)別技術(shù)上。2011年8月份,微軟亞洲研究院發(fā)表了一篇學(xué)術(shù)論文,闡述在這方面取得的成果,通過引入DNN使得在特定語料庫上的語音識(shí)別準(zhǔn)確率得到了大幅提高,性能的相對(duì)改善約為30%。
從這以后,越來越多的企業(yè)和研究機(jī)構(gòu)都對(duì)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行研究、開發(fā)和應(yīng)用。深度學(xué)習(xí)是一個(gè)更寬泛的概念,主要指如何把深度神經(jīng)網(wǎng)絡(luò)學(xué)得更好、更快,并能在不同場(chǎng)合更好地應(yīng)用。
市場(chǎng)應(yīng)用前景巨大
《新經(jīng)濟(jì)導(dǎo)刊》:語音識(shí)別技術(shù)在移動(dòng)互聯(lián)網(wǎng)、智能電視、車載終端、教育、玩具等方面已經(jīng)有所應(yīng)用,您對(duì)該技術(shù)的發(fā)展趨勢(shì)怎么看?哪些領(lǐng)域會(huì)最先成為爆發(fā)點(diǎn)?
吳及:智能語音技術(shù)的發(fā)展趨勢(shì)包括兩個(gè)層面,一是在線應(yīng)用(B2C),與語音工具實(shí)時(shí)對(duì)話,例如普通用戶拿手機(jī)語音命令控制、咨詢問題、搜索、獲取信息等;可以讓語音玩具背詩、唱歌、翻跟頭等;打客服電話獲得某項(xiàng)服務(wù),比如自動(dòng)語音查詢余額等。在線應(yīng)用主要解決兩個(gè)問題:方便性和有效性。
二是離線應(yīng)用(B2B),離線應(yīng)用是通過與數(shù)據(jù)挖掘技術(shù)的結(jié)合,能夠從海量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)、規(guī)律,為人們解決問題提供征兆、趨勢(shì)和思路。語音數(shù)據(jù)也是大數(shù)據(jù),比如呼叫中心,每天的電話數(shù)據(jù)非常驚人,中國(guó)移動(dòng)的一個(gè)省級(jí)呼叫中心,一天的數(shù)據(jù)就有上萬小時(shí)。還有電視、廣播、互聯(lián)網(wǎng)等媒體上的語音數(shù)據(jù)太多了。這些數(shù)據(jù)如果不能被有效處理,就無法被應(yīng)用,只能被閑置,實(shí)際上可以利用語音識(shí)別技術(shù)將這些數(shù)據(jù)轉(zhuǎn)化成文字等符號(hào)性表示,然后再被挖掘、檢索和利用。
離線應(yīng)用比在線應(yīng)用確定性更強(qiáng),語音交互的在線應(yīng)用需要和其它的交互方式競(jìng)爭(zhēng),而離線應(yīng)用由于面向海量數(shù)據(jù),只能選擇語音識(shí)別技術(shù),使用人工轉(zhuǎn)寫,時(shí)間和人力成本都太高了。在線應(yīng)用更貼近老百姓,離線應(yīng)用服務(wù)于企業(yè)。
在線應(yīng)用領(lǐng)域,最先被接受和爆發(fā)的是最有價(jià)值的、應(yīng)用條件最好的、企業(yè)愿意投入更大精力去優(yōu)化的、用戶群更大的垂直領(lǐng)域,比如短信、搜索、查詢(天氣預(yù)報(bào)、航班、火車、音樂、電影)。離線應(yīng)用由于沒有可替代性,也一定會(huì)發(fā)展起來。
我們實(shí)驗(yàn)室已經(jīng)在做離線應(yīng)用了,與科大訊飛有合作,我們負(fù)責(zé)離線技術(shù)研發(fā),科大訊飛負(fù)責(zé)應(yīng)用系統(tǒng)開發(fā)和產(chǎn)業(yè)推廣。很多運(yùn)營(yíng)商已經(jīng)使用我們的技術(shù),語音識(shí)別準(zhǔn)確率達(dá)到了80%以上。今年會(huì)在中國(guó)移動(dòng)的一些分公司進(jìn)行推廣。
離線應(yīng)用有兩方面價(jià)值,一是監(jiān)控客服質(zhì)量,提高企業(yè)服務(wù)水平。實(shí)際還可以推廣到金融、保險(xiǎn)等領(lǐng)域。二是語音分析,通過語音識(shí)別和數(shù)據(jù)挖掘技術(shù),可以更全面地了解實(shí)際情況,比如哪些業(yè)務(wù)最受歡迎或最不受歡迎,哪些業(yè)務(wù)出現(xiàn)了問題等等。
信息技術(shù)是滲透性的,它可以改變所有產(chǎn)業(yè)的形態(tài),語音技術(shù)也是如此。隨著工作和生活節(jié)奏的加快,人們需要隨時(shí)隨地獲取信息和知識(shí),提高效率,語音交互提供一種最為方便快捷的手段。
目前語音市場(chǎng)規(guī)模還不大,但這個(gè)領(lǐng)域的想象空間非常大。如果所有手機(jī)、電視、汽車、教育、呼叫中心變成語音智能化,每一個(gè)細(xì)分領(lǐng)域都將是上千億。五年之內(nèi),智能語音技術(shù)產(chǎn)業(yè)將會(huì)有一個(gè)很大的發(fā)展。
躋身主流交互方式
《新經(jīng)濟(jì)導(dǎo)刊》:現(xiàn)在的語音識(shí)別技術(shù)完全可以支持產(chǎn)業(yè)化應(yīng)用嗎?
吳及:人機(jī)交互的可選方式很多,除了語音輸入,還可以選擇手寫輸入、鍵盤輸入等。現(xiàn)在市場(chǎng)上的語音產(chǎn)品只能支持普通話和帶口音的普通話,逐步支持個(gè)別方言,大部分的方言還不行。從性能上來講,語音識(shí)別技術(shù)的對(duì)手是人,老百姓容易對(duì)語音技術(shù)有過高的期望,要能像人一樣聽懂別人說的話,這是十分困難的。
目前,語音技術(shù)并沒有成熟到像賣手機(jī)一樣可以普及推廣,需要根據(jù)不同場(chǎng)景和應(yīng)用對(duì)語音識(shí)別引擎、數(shù)據(jù)、技術(shù)進(jìn)行針對(duì)性優(yōu)化,才能讓用戶接受。這也是語音識(shí)別技術(shù)大范圍推廣的瓶頸。如果想讓語音識(shí)別技術(shù)非常成熟,需要一個(gè)長(zhǎng)期的過程,語音識(shí)別和語義理解,實(shí)際上已經(jīng)屬于人工智能的范疇了。
當(dāng)然,針對(duì)不同領(lǐng)域,可以開發(fā)相應(yīng)的語音識(shí)別引擎和私有云,這里面就蘊(yùn)藏著巨大商機(jī),但要選擇用戶規(guī)模大的領(lǐng)域。
《新經(jīng)濟(jì)導(dǎo)刊》:我體驗(yàn)了一下已推向市場(chǎng)的語音助手產(chǎn)品,有些情況下還是聽不懂我說的話?
吳及:語音識(shí)別只是解決了一個(gè)問題,把語音變成了文字,但通常還需要對(duì)識(shí)別內(nèi)容進(jìn)行理解,即語義理解,這就非常難了。所以語音工具有時(shí)候還不錯(cuò),有時(shí)候很傻,有時(shí)候極其愚蠢。人的智能不是目前的機(jī)器所能達(dá)到的,說話的場(chǎng)合、語氣、手勢(shì)、表情等都會(huì)影響內(nèi)容的表達(dá)效果。如果僅靠聲音識(shí)別就丟失了很多信息,而且還會(huì)存在表達(dá)歧義、知識(shí)背景等問題,所以,通暢無阻的語音識(shí)別技術(shù)太難了。我雖然說它逐步成熟,但也是在有限場(chǎng)合和范圍得到應(yīng)用,至少在短期內(nèi)不要期望它能適用于任何場(chǎng)景。
《新經(jīng)濟(jì)導(dǎo)刊》:對(duì)于智能語音技術(shù)的興起,現(xiàn)在業(yè)內(nèi)有兩種聲音,有人認(rèn)為這是一次人機(jī)交互革命,還有人認(rèn)為又是一輪投資泡沫。您怎么看?
吳及:每一種新技術(shù)的興起,總會(huì)有不同聲音,有人可能很興奮,有人可能會(huì)質(zhì)疑它。我們?cè)谡Z音領(lǐng)域時(shí)間較長(zhǎng),相對(duì)平靜一些,但我們覺得,這次要超過以往的高度,而且確實(shí)在一些領(lǐng)域?qū)崿F(xiàn)了比較成功的商業(yè)化應(yīng)用。是否能成為特別重要的入口,還存在不確定因素。在若干種交互方式同時(shí)發(fā)展、都能起作用的情況下,成為惟一的交互方式,不太容易,因?yàn)橛行﹫?chǎng)合不適合語音交互,而且技術(shù)上也會(huì)有一定限制。未來最可能的還是混合的交互方式,成為主流交互方式之一,不同的場(chǎng)景,不同的用戶需要,不同的用戶習(xí)慣,都會(huì)造成選擇交互方式的多元化。
人類對(duì)未來的預(yù)測(cè)和展望實(shí)際上是被人類創(chuàng)造出來的,如果人們?cè)絹碓接X得語音交互重要,那語音技術(shù)就會(huì)逐漸趨于成熟,并被廣泛應(yīng)用。現(xiàn)在幾乎所有互聯(lián)網(wǎng)廠商都把語音作為非常重要的入口之一,因?yàn)樗哂蟹奖憧旖莸膬?yōu)勢(shì),而且在車載、行走等移動(dòng)環(huán)境下,優(yōu)勢(shì)更明顯。通過技術(shù)上的不斷優(yōu)化和完善,我相信語音交互會(huì)成為人機(jī)交互的重要組成部分,快則一兩年,慢則三五年。人和語音供應(yīng)鏈?zhǔn)莻€(gè)相互適應(yīng)的過程,技術(shù)不斷在發(fā)展,用戶也在逐步被熏陶和教育,到一個(gè)點(diǎn)就平衡了。
產(chǎn)業(yè)格局:一專多大?
《新經(jīng)濟(jì)導(dǎo)刊》:如何判斷一家公司的語音識(shí)別技術(shù)水平?有人說,關(guān)鍵看是否推出了語音云平臺(tái)。請(qǐng)談一下您的看法?
吳及:實(shí)踐是檢驗(yàn)真理的惟一標(biāo)準(zhǔn),衡量一家公司的語音識(shí)別技術(shù)水平,首先要看它的語音識(shí)別準(zhǔn)確率。要想達(dá)到85%以上的語音識(shí)別準(zhǔn)確率,必須掌握主流的語音識(shí)別技術(shù)。
實(shí)際上,語音識(shí)別技術(shù)是一個(gè)復(fù)雜的系統(tǒng),包括信號(hào)處理的前端、特征提取、特征的后處理、模型訓(xùn)練、解碼等許多環(huán)節(jié),后來又加入高鑒別性模型訓(xùn)練和深度神經(jīng)網(wǎng)絡(luò)。
語音識(shí)別技術(shù)包括兩個(gè)層面,一是研發(fā)語音識(shí)別系統(tǒng)的能力,語音信號(hào)輸入后處理成文字的速度和準(zhǔn)確率;二是云架構(gòu),是具備提供大規(guī)模語音識(shí)別服務(wù)能力的基礎(chǔ),要求識(shí)別服務(wù)是否能同時(shí)響應(yīng)成千上萬人的需求。云平臺(tái)需要對(duì)大規(guī)模的服務(wù)器集群進(jìn)行建設(shè)、維護(hù)和管理,這也是語音企業(yè)的核心競(jìng)爭(zhēng)力之一。
《新經(jīng)濟(jì)導(dǎo)刊》:清華大學(xué)是智能語音研究比較早的機(jī)構(gòu)之一,請(qǐng)介紹一下國(guó)內(nèi)智能語音的學(xué)術(shù)格局和產(chǎn)業(yè)格局?
吳及:國(guó)內(nèi)從事智能語音研究的高校和科研機(jī)構(gòu)比較多,其中研究時(shí)間較早、具有自己的語音識(shí)別系統(tǒng)、綜合實(shí)力較強(qiáng)的單位有清華大學(xué)、中國(guó)科學(xué)技術(shù)大學(xué)、中科院自動(dòng)化所、中科院聲學(xué)所,此外北京大學(xué)、北京郵電大學(xué)、北京理工大學(xué)等也具備一定實(shí)力。
從國(guó)際上看,智能語音產(chǎn)業(yè)表現(xiàn)為一專多大,即一個(gè)專業(yè)公司Nuance和幾個(gè)大的IT公司,Google、微軟、IBM、蘋果等。目前,國(guó)內(nèi)的產(chǎn)業(yè)格局也基本相似,一個(gè)專業(yè)公司科大訊飛,其他幾個(gè)互聯(lián)網(wǎng)公司,如百度、騰訊、搜狗等,阿里巴巴和360可能也會(huì)逐步加入進(jìn)來。
除中國(guó)以外,國(guó)外的語音技術(shù)企業(yè)基本都被Nuance收購了,誰做得好,Nuance就把它收購。這與語音技術(shù)的特點(diǎn)有關(guān)系,語音技術(shù)投資大,應(yīng)用面很寬,但單位價(jià)值不高,它不是一個(gè)暴利的行業(yè),所以一定要形成規(guī)模優(yōu)勢(shì),而小公司的生存和發(fā)展就相對(duì)困難,國(guó)際上語音專業(yè)公司已經(jīng)是Nuance一家獨(dú)大。
Google、微軟、IBM、蘋果雖然也做智能語音技術(shù),但它們不指望語音業(yè)務(wù)本身帶來收入,而是與它的生態(tài)系統(tǒng)建設(shè)息息相關(guān)。比如成為入口,吸引更多用戶,主要靠其他業(yè)務(wù)獲得收益。
如果不是中國(guó)語言和文化的特殊性,有可能全世界都是一專多大的格局。Nuance進(jìn)入中國(guó),需要解決的問題很多,比如文化融合、語言、技術(shù)工程師的支持等。即使Nuance中文識(shí)別做得很好,一旦涉及到具體應(yīng)用就很吃力。
科大訊飛與Nuance雖然都是專業(yè)的語音技術(shù)公司,但有所差別。由于國(guó)外的互聯(lián)網(wǎng)企業(yè)實(shí)力很強(qiáng),Nuance的定位就是提供語音技術(shù)服務(wù),它的主要收入渠道是醫(yī)療、律師、運(yùn)營(yíng)商,此外還為手機(jī)廠商如蘋果、車載等提供語音技術(shù)服務(wù)。
國(guó)內(nèi)的互聯(lián)網(wǎng)企業(yè)進(jìn)入語音技術(shù)領(lǐng)域要晚一些,但也在加大投入。科大訊飛的發(fā)展目標(biāo)也不是單純的技術(shù)提供商,希望通過推出語音云打造自己的語音技術(shù)應(yīng)用平臺(tái),從而構(gòu)建自己的生態(tài)系統(tǒng)。
百度專注于互聯(lián)網(wǎng)模式下的語音技術(shù),是國(guó)內(nèi)互聯(lián)網(wǎng)企業(yè)做得最早的,引進(jìn)國(guó)內(nèi)外人才,充分發(fā)揮自身優(yōu)勢(shì),時(shí)機(jī)抓得很好,進(jìn)步非常明顯。
需要引起重視的是,智能語音行業(yè)人才缺乏,很多企業(yè)在專業(yè)人才招聘時(shí)都遇到了很大的困難。清華大學(xué)、中國(guó)科技大學(xué)、中科院自動(dòng)化所、中科院聲學(xué)所的學(xué)生一畢業(yè),馬上被搶走了。頂尖人才那就更稀缺了。
構(gòu)建語音生態(tài)系統(tǒng)
《新經(jīng)濟(jì)導(dǎo)刊》:智能語音行業(yè)具有很高的技術(shù)壁壘,面對(duì)國(guó)際巨頭的強(qiáng)勢(shì),國(guó)內(nèi)一些公司也在加大語音識(shí)別產(chǎn)品的研發(fā)和推廣,與國(guó)外企業(yè)相比,中國(guó)企業(yè)有哪些優(yōu)勢(shì)和劣勢(shì)?如何縮小差距?
吳及:中國(guó)企業(yè)最大的優(yōu)勢(shì)就是語言,中文讓中國(guó)的互聯(lián)網(wǎng)、文化產(chǎn)業(yè)等具有很大發(fā)展?jié)摿ΑV袊?guó)企業(yè)經(jīng)常談國(guó)際化,如果是新加坡、以色列的企業(yè)就不會(huì)有國(guó)際化的問題,它一誕生就必須是國(guó)際化,因?yàn)榭勘就潦袌?chǎng)不足以支撐其發(fā)展。中國(guó)的企業(yè)普遍存在國(guó)際化問題,因?yàn)閲?guó)內(nèi)外的市場(chǎng)差異比較大,同時(shí)中國(guó)的市場(chǎng)足夠大,不需要走出去同樣可以獲得生存和發(fā)展。語言和文化的壁壘有時(shí)候無法逾越,這也是國(guó)內(nèi)的互聯(lián)網(wǎng)企業(yè)雖然技術(shù)和商業(yè)模式上并不比國(guó)外企業(yè)先進(jìn),但依然活得很好,能夠與國(guó)外企業(yè)抗衡的一個(gè)基本因素。
中國(guó)市場(chǎng)環(huán)境的成熟化方面,比美國(guó)還是有差距的。國(guó)內(nèi)企業(yè)在構(gòu)建自己的生態(tài)系統(tǒng)、文化創(chuàng)新、商業(yè)化運(yùn)作、發(fā)展模式創(chuàng)新等需要加強(qiáng)。國(guó)內(nèi)的科研院所和企業(yè)在語音識(shí)別技術(shù)上與國(guó)際先進(jìn)水平差距不大,在互聯(lián)網(wǎng)環(huán)境下技術(shù)跟進(jìn)很快,在漢語語音技術(shù)上還有自身的優(yōu)勢(shì),是一個(gè)很有發(fā)展前景的產(chǎn)業(yè)。工信部副部長(zhǎng)楊學(xué)山曾表示,智能語音是中國(guó)為數(shù)不多的具有自主知識(shí)產(chǎn)權(quán)又能達(dá)到國(guó)際先進(jìn)水平的產(chǎn)業(yè)。
國(guó)際上移動(dòng)互聯(lián)網(wǎng)領(lǐng)域應(yīng)用最成功的企業(yè)是Google和蘋果,蘋果用iPhone終端打造了一個(gè)生態(tài)系統(tǒng),而Google用安卓操作系統(tǒng)打造了一個(gè)生態(tài)系統(tǒng)。這些頂級(jí)企業(yè)具有很強(qiáng)的創(chuàng)新能力,蘋果重新構(gòu)建了手機(jī),Google重新定義了開放的手機(jī)操作系統(tǒng)。國(guó)內(nèi)企業(yè)目前還是有差距的,這與國(guó)內(nèi)企業(yè)的競(jìng)爭(zhēng)實(shí)力、創(chuàng)新能力和市場(chǎng)環(huán)境有關(guān)系。當(dāng)然,也有不少企業(yè)開始了這方面的努力,例如百度、騰訊、科大訊飛等。
《新經(jīng)濟(jì)導(dǎo)刊》:您認(rèn)為中國(guó)推進(jìn)智能語音產(chǎn)業(yè)化,需要解決哪些問題?
吳及:中國(guó)人口眾多,市場(chǎng)容量大,有很好的機(jī)會(huì)。只有加快智能語音產(chǎn)業(yè)發(fā)展,才能避免受制于人。國(guó)家要支持企業(yè)建立語音生態(tài)系統(tǒng),但要把握好力度和分寸。美國(guó)政府對(duì)語音技術(shù)和語音產(chǎn)業(yè)的支持力度很大,從簡(jiǎn)單的任務(wù)做起,航空、銀行數(shù)據(jù)的識(shí)別,華爾街日?qǐng)?bào)數(shù)據(jù)的采集和識(shí)別,逐步走向難度更大,更接近真實(shí)場(chǎng)景的任務(wù)。如電話語音識(shí)別、語音翻譯等,剛開始是純技術(shù)研究,逐步轉(zhuǎn)向?qū)嶋H應(yīng)用,比如不同語言的互譯,可以應(yīng)用于情報(bào)收集和軍事安全需要。
所謂生態(tài)系統(tǒng),是指所有事情非某個(gè)人或某個(gè)企業(yè)包辦,既有企業(yè)提供基礎(chǔ)平臺(tái)服務(wù),又有大量二次開發(fā)產(chǎn)生自己的價(jià)值。如果蘋果和安卓上沒有那么多應(yīng)用,蘋果和安卓平臺(tái)也沒有那么大價(jià)值。
同樣,如果有越來越多的企業(yè)去做語音應(yīng)用和進(jìn)行二次開發(fā),用戶就會(huì)享有更多更好的語音產(chǎn)品和體驗(yàn)。這樣平臺(tái)企業(yè)也會(huì)做大做強(qiáng),整個(gè)語音生態(tài)系統(tǒng)就形成了,國(guó)內(nèi)語音產(chǎn)業(yè)抵御風(fēng)險(xiǎn)的能力就提高了。除了移動(dòng)互聯(lián)網(wǎng)的平臺(tái),還應(yīng)該推動(dòng)教育、電視等智能化平臺(tái)的建設(shè)。
諾基亞手機(jī)的質(zhì)量和用戶體驗(yàn)一直得到用戶贊許,很早推出基于Symbian的智能手機(jī),但由于沒有建立起良性的生態(tài)系統(tǒng),沒有開發(fā)商做應(yīng)用,也丟掉了用戶,因此在移動(dòng)互聯(lián)網(wǎng)時(shí)代很快落伍了。如果國(guó)內(nèi)企業(yè)不能建立起自己有生命力的語音生態(tài)系統(tǒng),國(guó)外企業(yè)遲早會(huì)喧賓奪主搶占地盤。