張曉潔

大公司爭奪入口,小公司找準位置。從蘋果發布人機交互語音助手Siri開始,國內創業者就已經意識到,在語音這條產業鏈中找準位置,完全有機會基于中國語音語言在Siri概念上面分得一杯羹。
要打通語音與應用之間的聯系,首先要準確地聽懂用戶的語言,了解他要表達的意思;其次,要在后臺調出相應的生活類資源或者娛樂應用,準確給出應用及數據結果,甚至是用戶相關的評價、評測和推薦等;在這兩方面都深入理解后,才能將其聚合起來,產生一種超智能的回答結果。另外,語音在不同的終端設備中呈現出的不同體驗,語音與圖像、體感等技術配合也讓硬件的升級變得更加精彩紛呈。
從這個角度看,語音能力提供商、語音應用開發商、垂直應用提供商和設備提供商,都可以圍繞語音逐漸形成一條清晰的產業鏈。而在這四個領域中,語音能力提供商將與微軟、谷歌和蘋果等大公司直接競爭,對于技術、人工智能、大數據處理和資源整合的能力要求都很高,對創業公司挑戰巨大,而另外三個領域則幾乎可以涵蓋移動互聯網的所有應用。
科大訊飛:中文語音深度服務
今年3月,科大訊飛發布了新一代語音云平臺,其推出的官方示范應用,就是類似于Siri中文版的訊飛語點。在沒有大規模的推廣下,訊飛語點依然取得了不錯的效果,“現在基于訊飛語音云的賬戶已經有6000多個,上線的有幾百個應用,覆蓋了娛樂、虛擬形象搜索等等各個領域都有一些很典型的應用。” 科大副總經理江濤解釋說。
與“蘋谷微”等國際巨頭在語音基礎技術上直接競爭,科大訊飛還是有些底氣的,而當移動互聯網和人機交互概念風靡,如何立足中文尋找與蘋果Siri競合的路線將是公司未來立足的根本。
“我們將致力于中文語音的深度服務”,江濤說,科大訊飛中文語音技術上面有著多年的沉淀,而中國的語言博大精深,在語音的識別率和語音處理上面,提高用戶體驗,永遠有提升的空間。比如,同樣的普通話不同人的發音習慣不同也會發出不同的聲調,如何建立語音模型掌握用戶的發音習慣,更準確地理解用戶的話?更復雜的是中國幅員遼闊,不同地區都有自己的方言,建立四川、廣東、上海等不同地區方言的語言模型是科大訊飛未來的課題。如此復雜的語音基礎數據和模型都并不是一個創業公司能夠輕易完成的,因此科大訊飛的目標也是對開發者開放語料和數據,使其能在此基礎上進行各種應用開發。目前,包括盤古搜索、騰訊等國內知名公司都在基于科大訊飛的語音平臺做開發。
江濤認為,當語音平臺整合了越來越多的資源,后面的商業模式也就順理成章。目前,語點的用戶輸入語音需求以后,語點將自動轉向最適合的應用。雖然目前用戶活躍度還不夠,但是未來語音平臺完全可以通過導航獲得收入。
而語音更大的商業價值來自于開發者,科大訊飛提供的語音平臺為創業者開發語音特色的應用提供了基礎。江濤非常看好語音游戲的開發,比如人們喜歡在打牌時“一個王兩個二”的叫牌,完全可以通過IT技術在游戲打牌中表現出來。事實上,微信、唱吧等走紅應用也是很好的語音應用開發的例子。
中微通:語音的下一站是語義
中微通嚴格地說并不是語音技術提供商,其所經營的“語義云”卻正好在語音的下一站,幫助機器準確理解用戶語音的意思。具體而言,不管用戶以任何方式提問,中微通都努力通過“自然語言處理及語義云解析引擎”轉化成數據進行解釋,幫助機器配對精準的答案。不過,語音業內已經達成這樣共識,“未來語音遠遠不是識別的問題,而是語音的理解,識別不是目的,需要更多創新”,因此,語義與語音掛鉤來說絕非偶然而是必然。
“我們是語義內容服務的提供商,不僅提供語義內容,還有對內容進行語義處理和改造服務,以及語音語義產業鏈上面延伸出來的應用化服務。” 北京中微通信息技術有限公司創始人兼總裁苑雪山告訴記者,他所理解的Siri有三個層次,最基礎的層次是語音處理,把語音轉化為文字,第二個層次是語義的操作和控制,即把用轉化后的文字去調用相應的應用,第三個層面是語義數據業務的融合,后面兩個層面都是與中微通現在的業務直接相關的。
與語音行業掛鉤,并非是苑雪山最初的計劃。2006年,苑雪山就利用北航學生會的資源組織了一些碩士博士共同籌建科研項目,當時設定方向時,只是覺得未來的移動互聯網應該是具有更高的智能,用戶應該更容易地解決自己的問題。于是,幾個伙伴用業余時間進行攻關,經過五六年的時間進行梳理,技術開始成熟后在2010年成立了創業公司。此時,語音語義改造已經成為IBM、蘋果、微軟等大公司關注的熱點,中微通在這個產業鏈上找到自己的位置,并獲得了風險投資的認可。
在苑雪山的設計中,用戶可以通過文本、語音、體感動作輸入信息,中微通的引擎對字符串進行解釋,變成數據之間的交換,之后通過規則與引擎中的本體進行關聯,理解出用戶所表達的意思。以語音為例,用戶用語音提問“我想在附近吃飯?”引擎對聲波進行切分,在后臺與不同類別的的詞進行聚合關系結構,分析出用戶的表達在附件找餐館的意思,調出相應的應用或者直接給出答案。理想的狀態下,未來人類與機器進行對話,不再是生硬的而是和人對話一樣,表達自然而豐富。
苑雪山與中微通在Siri產業鏈上的定位和嘗試頗具典型性。現在對于大多數用戶來說語音助理只是一個供“調戲”的大玩具。Siri之所以給人的印象“趣味”遠遠多于“實用”。探究其主要原因,除了語音識別率和無線網絡環境的不成熟,語音和應用整合的不夠多,語義理解相差甚遠都大大降低了用戶體驗。而目前中文自然語音分詞是業內最前沿的技術,與國內少數同類企業相比,苑雪山果斷地加強在應用層面的優勢,對企業進行語義化改造的項目,以及面對個人用戶應用服務。
目前,中微通承接了電信天翼空間的應用下載的語義化改造項目,用戶只要輸入游戲的描述而不是游戲的名稱就可以查找到相關的游戲。比如,用戶只要輸入小鳥或者小豬類的游戲,就可以找到《憤怒的小鳥》或者《壞豬的逆襲》這樣的游戲,而輸入最近女生喜歡玩的泡泡類游戲,系統就會自動把排名相應高的相關游戲列出來。不僅如此,中微通還為個人用戶提供交易信息的撮合服務,比如,用戶對著手機輸入“我要找某某附近的小時工”,系統就會自動篩選出3條信息發送到用戶手機上。
中微通現在的服務仍然以文本為主,這也是語音輸入的準確度不成熟和用戶習慣并未養成所致,但未來語音語義的理解體驗一定會成為用戶選擇服務的標準。事實上,如果語音的抗噪性和語義理解足夠令人滿意,那么龐大的呼叫中心將會被自動語音系統所取代,這對于金融、航空、電信等行業絕對是巨大的需求。