


“星際迷航開始探險!”隨著一聲指令,飛船迅速作出響應,相位炮開火,儲能,靠近……在最新一部《星際迷航》上映之際,智能移動語音搜索Mobvoi創始人、CEO李志飛將這個同名語音操控游戲加載到新產品“出門問問”中,以此向科技致敬——《星際迷航》作為經久不衰的科幻系列作品曾吸引無數狂熱的科技愛好者投身其中。視人工智能為終極目標的谷歌曾以電視劇版《星際迷航》的配音演員瑪吉·巴瑞特·羅登貝利( Majel Barrett Roddenberry)的名字命名Google Now的前身產品;而從美國谷歌研究院辭職創業的李志飛則立志將其產品做成中文版的Google Now。
人工智能大潮正在來襲。 Google Now之于谷歌正如Siri之于蘋果、ViaVoice 之于IBM。以語音識別、語義理解為代表的語言分析技術領域正成為巨頭們的新角斗場。
人工智能(Artificial Intelligence)概念由來已久。早在上世紀五十年代,美國科學家企圖憑借計算機技術生產出一種與人類智能相似的智能機器。這些技術以人的器官感知為基礎,而衍生出“看得到”的計算機視覺、“聽得到”的語音識別、以“理解”為基礎的自然語言等。
科學家曾樂觀估計在計算機誕生后數年,人工智能即可實現,但現實卻殘酷得多。時至今日即使計算機擁有相當于人腦上億倍的運算和存儲能力,人工智能仍遙遙無期。其難點在于如何訓練一臺機器使其擁有人類的思考方式、思維邏輯甚至情感。
眼下自然語言以及語音研究的發展令人工智能曙光初現。具體而言,首先在不需要理解句子的前提下,機器要能將語音自動準確地轉化為文字;第二步需輔以邏輯、自我學習能力,使其正確理解語義并作出反饋。在PC時代,實現上述兩點非常困難。原因在于語言樣本收集非常復雜,這一過程不僅需要麥克風等外部傳感器,還需耗費專門的人力物力。
而移動端的興起則能改變這一切。首先是硬件支撐,以往數據的采集多基于實驗室內安靜環境,而移動環境下數據則來自四面八方,隨時隨地均可收集;其次,移動場景下輸入輸出相對麻煩,用戶由此對語音的需求大大增強;再次,人工智能算法需強大的計算能力,手機計算能力正得到大幅提升;第四則是人工智能系統依賴數據而生,移動端所提供的海量數據可令機器模擬學習。
在搜狗副總裁茹立云看來,語音技術的發展使得機器更加友好,人機對話也將大大改善交互體驗,而基于互聯網大數據形成的巨型知識庫則支持機器具備更完整的人類知識體系和邏輯推理能力。 “如果從用戶的角度來看,人工智能好像真的實現了一點兒。” 李志飛對《環球企業家》說,“雖然這離嚴格意義上的人工智能還差十萬八千里。”
爆發
2010年,尚在美國工作的李志飛曾有這樣的經歷:下班后太太讓買東西回家,沿途雖有超市卻并非時時開門,他希望通過手機上網查詢其營業情況,卻因開車駕駛導致操作極不便。李志飛由此萌生了開發說話就能讓手機直接告知答案的工具。
這正是李的本行。畢業于約翰霍普金斯大學語言語音處理實驗室(CLSP)的李志飛,其博士研究方向正是人工智能分支之一的機器翻譯領域。他曾是當今世界兩大主流機器翻譯開源軟件之一的約書亞(Joshua)的發明者。在李看來,如果機器翻譯系統可完全替代人工翻譯,最終就有可能實現人工智能。博士畢業后,李志飛進入谷歌研究院開發谷歌翻譯(Google Translate)產品,其中一個具體項目正好與移動相關,即在不聯網的情況下將整個翻譯系統移植至手機,最終避免網絡漫游等困擾。這一項目對其啟發頗多——以往數千臺機器同時運算的系統如今可通過技術手段平移至手機,從算法到存儲空間均可優化,這使得人工智能在移動時代能被充分挖掘。
早在2000年,李曾在南京創建從事手機上網的移軟,后者被美國Palm公司收購。這一經歷使其對創業興致頗濃。 2012年10月,在谷歌研究院工作兩年半后,李離開硅谷回到中國,創建聚焦智能移動語音搜索公司Mobvoi,并在半年后發布首款基于微信平臺的語音語義交互應用“出門問問”。 現在,如果你打開微信對其提出各種問題,例如“下周二從魔都到帝都南航最后一趟航班是哪班”,它都能給你全面準確的回答。這一應用在復雜語句處理方面有時甚至超過Siri、百度語音助手等產品。
雖然“出門問問”面臨科大訊飛、百度、騰訊、搜狗等勁敵,但同行間的競爭優勢并不相同。科大訊飛優勢在語音識別,即將帶有方言、噪音的語言轉化為文本,其準確率可達85%甚至更高。百度、搜狗的優勢則在于基于搜索所積累的大量數據,以此幫助機器完成語義理解,進而對用戶作出反饋,這正是自然語言理解的第二步。而將上述機器理解的關鍵詞放到具體的應用里去搜索查詢用戶想要的內容,將表格再轉化為內容是第三步,在此過程中需要更多數據源支持,比如包含知識庫的維基百科、社交為內容的facebook、海量購物信息的淘寶、O2O領域的大眾點評網、去哪兒網等數據。以上述數據為依托,可產生滿足用戶需求的內容和應 用。
李志飛想做的正是以語義理解為核心優勢、以O2O方向為主的垂直應用。在擁有強大算法的前提下,出門問問的訓練數據可能比百度少很多,但五六百個數據庫就能將整個系統做得很好。出門問問以開發和使用工具見長,并支持新應用的語義分析,進而提升準確率。例如在應用中接入新的查詢內容“電影院”、“景點門票”或時令性的“星際迷航游戲”只需要耗費一個工程師1-2天時間。 此外在數據分析和積累方面,出門問問亦可能顛覆以往的巨頭。以谷歌為例,其語音識別系統在短短兩年時間內就超越最早提出算法的IBM,原因就在于谷歌的互聯網基因,在云計算方面優勢顯著。出門問問在一開始則鎖定移動互聯網,并以此為基因則使其更具有針對性和專項性。
為了在語音識別、語義理解的精準度上比肩谷歌等超級巨頭,李志飛向《環球企業家》透露秘訣在于做窄,即不像Siri那樣大而全,不搞娛樂化,專門針對O2O領域;第二則是做深,即針對一個問題力爭所有維度都能覆蓋,比如回答“附近人均50元以內有wifi有停車場的川菜館”此類細致的問題。
為了實現人工智能,以語義見長的李志飛注意走捷徑。在基礎語音識別部分,出門問問的技術就來自于谷歌以及一家只有數十人的本土創業公司云知聲。后者在短短一年時間內, 就已在技術水平上能與科大迅飛并駕齊驅,并受到諸多互聯網公司和個人開發者的關注。
云知聲最早出現在公眾面前是在2012年11月,其獨家支持的搜狗語音助手發布備受矚目。今年3月,在錘子ROM手機發布會上,云知聲再次名列其中。此前錘子ROM在語音方面選擇的合作對象是科大訊飛,但在距發布會僅一周時,雙方的合作仍未能推進。情急之下,云知聲則為羅永浩提供了解決方案。雖然該方案在英文識別上略遜于科大訊飛,對于錘子ROM而言卻堪稱雪中送炭之舉。此后5月,在LeTV樂視超級電視發布會上,云知聲悄然現身,為其量身定制了一套面向智能電視的語音助手。藉此,樂視TV完全實現語音遙控。 云知聲的出現已改變了以往在語音領域,用戶只能唯科大訊飛馬首是瞻的局面,并再度激發同業間的競爭。
與訊飛類似,梁家恩亦是“科大系”。 2001年梁畢業于中國科技大學,進入中科院自動化所碩博連讀,專攻語音識別。而科大訊飛成立于1999年,當時正讀本科的梁家恩見證了科大訊飛的迅猛發展。2008年前,科大迅飛和捷通華聲主要聚焦在語音合成領域,即“把文本用機器念出來”。而 2008年后,科大訊飛借助移動互聯網開始在語音識別領域一支獨秀。這給了梁很大啟發。基于在語音領域的多年積累,他決定帶領團隊創業。
2012年初,梁家恩帶著一批擁有十年以上從業經驗的同仁向語音識別領域挺進。雖然前有科大訊飛、百度,后有騰訊、搜狗等競爭者,但云知聲卻擁有最核心最稀缺的人才優勢。僅數月后,云知聲語音云平臺就已完成。更令梁家恩得意的是目前最火熱的深度神經網絡(DNN)技術,微軟需要數百臺機器集群才能完成,其團隊卻能在不到三個月內就全部完成,而其所用的全部部件竟是團隊淘寶DIY而成,總投入不到十萬元。在DNN系統上線后僅四個月,云知聲就對系統進行重大升級,效率提升幅度達30%以上。
云知聲的優勢還在于在識別能力業內領先的情況下,其反應速度可比競爭者快二至三倍。例如一般機器處理一秒鐘語音需要0.6-0.8秒,云知聲可達0.2秒。如此可大大提升用戶體驗,并降低服務成本。梁家恩認為如此并無捷徑,主要靠經驗。“算法和系統原理其實沒有差異,學術論文也可以找到,但是即便你知道這個原理,能做好是另外一回事。就像大家都知道手機怎么做,但有人做出的是蘋果、三星,有的是山寨機。” 梁家恩解釋說。
隨著移動互聯網的迅速發展,梁家恩認為在智能語音領域,云知聲還將擁抱諸多可能。第一是為開發者提供基礎的語音云服務,即完全開放和永久免費的語音平臺;二是為手機、電視、可穿戴產品、玩具等智能設備提供解決方案;三是為口語學習、智能客服、醫療等傳統行業提供智能化解決方案,在國外客服系統智能化已超過30%,而國內才剛剛起步。在英語學習領域,通過人工智能可提供機器對話、機器打分等新服務。
試圖在語音識別領域淘金的創業者不僅包括梁家恩,還包括靈聲信息科技有限公司創始人、CEO吳義堅。雖然今年只有32歲,但吳已是中國智能語音領域的“前輩”。吳15歲考入中國科技大學少年班,25歲獲得博士學位。博士期間,他在創立科大訊飛的電子工程與信息科學系教授、博士生導師王仁華帶領下,進行訊飛語音技術的研發工作,成為科大迅飛的早期骨干員工之一。之后,吳義堅還進入微軟亞洲研究院、日本名古屋工業大學等國內外頂尖語音機構就職和學習。在從事語音技術研發的近12年間,他獲得了多項語音產品的專利。
2012年7月,吳義堅加入盛大創新院任語音創新院院長,幾個月后,其項目從盛大獨立出來,他亦從大公司的領導者變成創業者。為了繼續在語音領域精耕細作,他一方面穩住團隊,另一方面則開始思考如何將人工智能真正落實到產品層面。
在谷歌公布的一組數據中顯示,2012年北美移動端搜索量超過40%來自語音,這令吳看到語音技術應用的商業價值。他決定做兩件事,一是依靠過去十余年積累的語音基數積累,打造語音平臺,二是完成一系列B2B、B2C的應用。
在吳義堅看來,從事語音領域的應用開發,沒有獨立的語音系統將受制于語音提供商,后者提供的通用語音平臺的準確率一般在90%左右。若通過定制細分領域的語音平臺,其準確率可達95%甚至更高,因此擁有自己的語音技術平臺十分重要。此外,研發必須深入B2C業務,細分方向在于服務于老人的電話助手、針對幼兒教育的娛樂助手、游戲助手、醫療助手等。 而在B2B業務上,智能家電、呼叫中心、車載等領域的語音應用將是大勢所趨,吳認為這正是靈聲科技的營收重點。
如今,百度、搜狗、騰訊、阿里巴巴、 聯想、華為等公司均在智能語音領域攻城略地,靈聲科技亦與上述公司合作。“困難在于這些公司不太可能真的深度合作,他們不希望語音卡在第三方手上。”吳義堅對《環球企業家》說。對于聯想、華為等新進入者來說,困難在于若想從零開始,通常需要在技術和數據的積累上至少兩年,技術研發的投入亦很昂貴。此外,最大的阻力還在于人才稀缺。創業公司經常被迫面對大公司的挖角,還有經常被侵害的知識產權。因此,想活下去必須“跑得 快”。
進化
人工智能在近幾年出現革命性變化,除了移動互聯網的崛起外,最重要的推動力在于大數據的興起。以云知聲為例,它需要大量的語音語料來支持語音識別算法,這在以往很難做到。圖像、文本領域亦是如此,只有建立一個全面而深入的數據庫,才能讓機器更加聰明成為可能。
數據堂科技有限公司共同創始人、總經理齊紅威曾在NEC工作八年,他發現公司每年都要耗費重金進行數據分析處理。如果外包給散戶,往往不夠專業,而招大批實習生則成本高,管理復雜。如此,專業數據外包的需求應運而生。
齊紅威畢業于中科院自動化所,博士論文正是人工智能機器學習。2011年8月底,在市場需求驅動下,他決心和幾個伙伴創辦數據堂,在人工智能的范疇下提供不同數據層面的服務。這被其稱為“數據外包2.0”。其核心是在大數據背景下進行不同領域的數據處理和數據挖掘。
以圖像數據采集加工為例,佳能希望通過相機對焦框讓人臉曝光更充分,為了滿足這個功能,數據堂就要為其處理數十萬張圖片,包括采集不同場景、膚色、年齡段、以及不同表情的人臉圖片,繼而進行全方位的圖像標注。
聲音亦是如此,比如出門問問通過用戶獲取大量原始聲音素材(即生語料),但這些數據本身不能使用。數據堂就要為其進行人工處理和標注,例如有無噪音、口音、性別等,形成可自動理解和訓練的基礎數據,并以這些語料去組建訓練模型。
數據分析挖掘則是另一個領域。這項業務主要面向移動、汽車、電子商務等廠商,這也是數據堂的核心業務。比如,汽車廠商想要調研用戶對不同車型的口碑,包括剎車、油耗、外觀、內飾等方面,以往只能通過問卷進行,并且需要大量取樣。而數據堂則可以通過網絡“爬蟲”潛入到各大汽車論壇、貼吧,抓取相關帖子,用程序分析用戶的語言。比如“XX車漆有點軟,一次倒車碰到樹就出了劃痕。”機器即可據此識別出用戶所提的汽車品牌、車型、配置、用戶情緒等。
針對數據處理,數據堂在南京、鎮江、蘇州建立三個數據基地,員工近500人。百度、NEC、英特爾、佳能、聯想、三星、IBM、騰訊等均是其合作伙伴。通過處理越多數據,數據堂就能形成更大的數據庫。基于此,在獲得用戶授權后,數據堂就能通過數據出售的方式,縮短客戶數據累積的時間。
完成這一過程并非一蹴而就,齊紅威就已耗費了十年時間。“數據是一種資源,與石油、煤炭一樣,在開采之前產生不了價值。只有人把他開采或凝練出來,才能發揮價值。我做的就是這么個事情。”齊紅威告訴《環球企業家》。
齊紅威在讀書期間曾經歷人工智能的研究高潮,但這一領域曾在2004至2009年間陷入低迷——很多科研工作室做了不少產品,但都不能解決實際問題。但如今世界正在發生變化,數以萬計的語音積累令語音識別的精度產生了很大飛躍 。“我個人判斷未來五年,人工智能會有一個質的變化。大數據將造就了新一代人工智能。”齊紅威對《環球企業家》說。
事實上,在個人創業之外,以語音語義為代表的人工智能已成為中國互聯網公司的標準配置。搜狗副總裁茹立云對《環球企業家》稱在語音方面,利用深度學習技術改進的聲學模型和語言模型已使搜狗語音識別精度得到明顯改善。百度亦是深度學習技術的獲益者,百度語音識別的錯誤率曾藉此降低了20%-30%。在語義方面,互聯網大數據的深入挖掘可使得知識庫不斷更新,而人工智能未來的發展方向在于在特定應用領域對語音語義識別進行整合優化。
語音功能的提升亦帶動搜索市場的發展。2002年初,百度語音搜索占移動搜索的流量僅為1%,但到2012年底,這一數字已升至8%,預計今年會達到20%。此外,百度基于互聯網搜索上的優勢也將得到發揮。“我們的語音團隊在很短時間里能夠迅速地達到業界一流水平。互聯網公司的最大優勢在于大數據,特別是以技術主導、技術驅動的搜索公司有‘基因優勢’。”百度多媒體總監余凱對《環球企業家》說。
不過,若想挑戰半個世紀前就涉足人工智能領域研究的美國,中國仍有很長的路要走。吳義堅向《環球企業家》透露國內真正了解語音技術、并能實際進行技術研發的人才不足百人。此外,中文智能語音研究領域仍有諸多困難尚待克服。“應用領域上最大的技術壁壘是如何更好的整合語音識別與語義分析。此外,如何對不常見的‘長尾表達’的語音和語義分析效果進行提升,亦是尚存的難點。”茹立云對《環球企業家》說。