嚴冬雪
當下語音識別可能已達到平均95%的準確度,一旦提升到99%,就將發生質變。
來自商界的種種動向顯示,語音識別,這項把人類語音轉換成文本的研究,已經成為人工智能領域最接近應用的技術。
過去數月間,這種動口不動手的“黑科技”頻繁出現在國內科技行會中。7月,奇點極客公園創新者峰會上,搜狗CEO王小川一邊演講,大屏幕上一邊顯示出內容,識別結果令人驚艷;10月上旬,在杭州云棲大會上,4萬人現場見證馬云一邊演講,一邊在大屏幕上秀出阿里機器人打出的字幕,還有700萬人通過在線直播觀看了這一幕,造就了語音識別最大規模的一次亮相;10月下旬,錘子手機M1發布會上,科大訊飛的語音識別技術快速、精準地將羅永浩的講話譯成文字,幾乎成為發布會主角。
一邊演講,一邊在大屏幕上彈出語音識別字幕,日趨成為潮流標配。這也意味著,這項技術正在步入成熟期。微軟10月底發布的一份學術聲明表示:語音識別技術的精準性已經媲美人類,在產業標準測試中,其語音識別實現了詞錯率低至5.9%——與人類專業速記員的最好記錄持平,這意味著其識別能力已經高于世界上絕大多數人,而與人類專業高手持平。
頂級語音專家、微軟研究院首席研究員俞棟表示,在安靜環境下,使用近距離麥克風,語音識別的正確率已經跨過了應用門檻。
巨頭的共同動作
來自巨頭們的動作亦可印證這一趨勢:從2010年開始,蘋果公司先后收購包括Siri在內的3家語音識別公司;谷歌、亞馬遜、Facebook也各自收購2~4家;微軟則從自家戰略層面發展Skype、Cortana和微軟小冰;今年,英特爾宣布與語音識別技術公司Sensory達成合作,在以后最新的芯片中集成整合該公司的語音識別技術。
相比國外大公司在收購技術上花錢,國內公司則將各自語音識別技術大膽靠近應用。例如百度語音嵌入百度旗下其他App,搜狗語音應用于輸入法,騰訊則讓微信具備語音轉文字功能。創業公司也紛紛利用語音技術,依靠硬件作為流量分發入口,應用在智能家居、車載語音助手等產品上。
事實上,現階段大部分人早已享受語音識別科技,比如客服服務。作為全球最大的電商,阿里巴巴的客服需求一直伴隨業務的激增而擴大,這導致人力成本高企。應對這一狀況的傳統方式是客服外包,但其服務不可靠、不穩定的缺點難以克服。最開始,阿里采用抽檢式的質檢,從每100通電話里抽取1通,由人工逐句檢驗錄音是否合規。
負責人很快發現,1%的抽檢率不足以覆蓋全部問題,因為每個人犯錯的方式存在很大差異。于是,阿里云的人工智能機器人ET介入該項服務,將語音轉化為文字,再利用關鍵詞搜索等完成質檢,一旦觸發違規,會自動進入處罰流程。如果客服認為ET識別有誤,自己被冤枉了,可以點擊“申訴”——人工質檢員只在這一步介入。如此,在同等人力條件下,質檢率從1%提升到了100%。
阿里云智能語音高級專家陳一寧告訴《財經天下》周刊,除了客服,語音識別也應用在淘寶、支付寶、釘釘等移動端應用,甚至進入了杭州市西湖區人民法院的庭審現場。自今年6月起,該法院的書記員工作被ET替代。法官及訴訟參與各方人士的發言,都會在顯示屏上即時顯示。
陳一寧解釋,讓語音識別參與庭審不僅可以節省人力,其最大意義在于方便檢索和后續分析。法官們在審案前,需要參考同類案件的處理,而ET自動將庭審內容轉化為文字并歸檔,就能方便法官輸入同類關鍵詞,查看所有相關案件的記錄。
電腦與人耳的優劣
微軟稱最新的語音識別詞錯率與專業速記員持平,阿里也做了類似的測試。在今年年初的2016阿里云年會上,阿里ET與世界速記大賽亞軍得主姜毅同時為現場演講做速記。與姜毅的對決中,ET以0.67%的微弱優勢取勝。
面對人類中的頂級選手,ET的取勝優勢在于其穩定性和并發計算能力。人類的體力有極限,在高強度壓力下難以保持穩定;此外,計算機的高并發能力使其可以在發現錯誤后,瞬間完成修改,速記員則只能在演講者話語中斷的間歇見縫插針返回修改。
人類的另一個弱項是對短句的識別。如果沒有前后語境,突然冒出一句語速又快、內容又短的句子,一般人很難聽清。但計算機不怕語速快,并且能通過大數據學習沉淀下的經驗,去根據之前聽過的類似語音,來計算出這句話最可能是什么。
但若論真正“聽懂”的智慧,電腦尚未追趕上人類。比如在環境嘈雜、多人同時發音、中英夾雜等條件下,電腦便不及人類能迅速過濾無用信息,理解對方的意思。或者,講述者說的是一個全新的、創新性的詞語,此前沒有人說過,機器自然沒學習過,就很難識別。
有趣的是,方言與口音并不在計算機懼怕的領域范圍內。以阿里客服為例,他們每天會接聽來自全國乃至世界各地的電話,后臺的ET被各種口音訓練過,只要積累足夠的訓練量,可以無上限地成為N種方言專家,識別標準普通話之外的口音。
離消費級僅一步之遙
與大部分被束之高閣的前沿研究不同,語音識別技術已經應用到實際產品中,例如科大訊飛已經推出一系列手機應用,用于錄音轉化文字。微軟也在其Xbox游戲平臺、最新的Windows中部署語音識別助手。
根據人工智能世界級專家、百度首席科學家吳恩達的說法,當下語音識別可能已達到平均95%的準確度,一旦提升到99%,就將發生質變:你從偶爾使用語音,變到常常自然而然地使用。屆時,人機交互方式將徹底改變,雙手與鍵盤被解放,人們真的“動口不動手”。
事實上,來自亞馬遜的一款產品已經印證了這一趨勢:Echo智能音箱被嵌入亞馬遜的語音識別技術Alexa,成為語音控制智能家居的入口。上市兩年以來,Echo已經學會了朗讀小說、用Uber叫車、叫匹薩外賣、配合戶主玩語音游戲。由于當下的語言技術已能支撐不錯的用戶體驗,Echo獲得了市場認可。根據今年6月公開的新銷售計劃,亞馬遜計劃在2017年賣出第1000萬臺Echo。
一旦95%到99%一步跨越成功,可以預見的是,類似Echo的智能語音交互產品會遍地開花式取得成功。巨頭們顯然有相似的判斷與考慮,并在一致加速步伐:例如,由于Siri表現糟糕,已經引發了蘋果高管的關注,已在不久前從美國卡耐基梅隆大學挖來人工智能技術的教授負責組建團隊,其使命之一便是提高Siri識別語音率和回答問題的“智商”。
陳一寧也向《財經天下》周刊透露,阿里云也會在明年春節前后推出消費級的語音識別產品,屆時,你只需將語音傳送到阿里云,便可由其經過翻譯,實時返回文字。
有意思的是,這一次,科研不再只是科學家的事。你我作為人類的一員,同樣參與其中,你每次撥打客服電話,都在給計算機學習人類語言提供了一次寶貴的學習機會。而為你服務的,除了客服年輕人,還有背后的一整支科學家團隊。