近日,谷歌宣布推出Google Duplex,一個能在電話中用自然語言完成“現實世界”任務的對話AI。它目前已經能完成一些特定任務,如安排某些類型的預約。這類工作要求系統能像人與人正常溝通一樣,而無須強制對方適應機器。
據悉,Google Duplex的研發核心是一個專用于解決自然對話問題的遞歸神經網絡(RNN),在TensorFlow Extended (TFX)平臺上完成構建,使用的訓練數據來自匿名電話會話數據語料庫。該網絡有多個輸入,包括原音頻特征、把原音頻輸入Google自動語音識別(ASR)技術后的輸出、上下文、對話的參數(例如預約的所需服務或當前時間)等,研究人員為每種任務分別訓練了一些模型,但語料庫是跨任務共享的。最后,他們又用TFX中的超參數優化進一步改進了模型。
Google Duplex組合使用文本到語音(TTS)引擎和綜合TTS引擎(使用Tacotron和WaveNet)控制語調。
由于在對話中加入了“嗯”“呃”等字,系統的回應聽起來更自然。但這其實是TTS連接兩個音調不同的聲音或正在等待合成時使用的小障眼法,是一種自然的表示問題正在受理中的狀態(人們也經常這么做)。經過用戶研究,研究人員發現這種反應能在不利的對話情景下給對方帶來熟悉、自然的感覺。
此外,Google Duplex在回應速度方面也比較符合用戶期望。當人們說完一件簡單的事后,比如“hello”他們希望得到及時的回復,對回復延遲也比較敏感。如果系統檢測到這種情況,它會馬上切換成更快、精度更低的模型來工作。在極端情況下,Google Duplex甚至都不會調用RNN,而直接使用最快的近似值(通常會帶各種表示猶豫的詞匯,人類面對這種事情也會有類似的反應)。這種做法使系統的響應延遲能小于100毫秒。
Google Duplex系統能夠應對復雜對話,并且能完全自主地完成絕大部分任務,無須人工干預。該系統具有自我監控功能,可以識別無法自動完成的任務(例如安排異常復雜的預約),面對這種情況時,它會主動向施令者發出信號。