如今,語言模型的能力越來越強,在各種任務中都發揮了很大的作用。其中,開放域對話可能是最難以完成的一類任務,需要做到能夠就任何主題進行對話。
在對話任務中,除了生成人類認為合理、有趣且特定于上下文的響應之外,語言模型還須按照負責任的人工智能框架工作,以免生成無信息源證實的內容。

近日,谷歌在以《LaMDA:對話應用程序的語言模型》為題的一篇論文中介紹了語言模型LaMDA在安全、可靠和高質量的對話方面取得的最新進展。
據悉,LaMDA模型具有1370億個參數,通過微調采用Transformer架構的專用對話神經語言模型而構建,可以利用外部知識源展開對話。

對于訓練對話模型來說,定義目標和指標至關重要。LaMDA模型具有質量、安全和扎實性三個關鍵目標,每個目標有各自的衡量指標。
質量上,谷歌將其拆分為合理性、特異性和趣味性這三個方面。

其中,合理性是指模型在對話中作出有實際意義的回應,如回應中沒有出現常識性錯誤;特異性是指模型在對話中針對特定的上下文來響應,而不是在常規情形下的通用響應;趣味性是指模型作出了富有洞察力和智慧的回應。
安全上,谷歌在開發和部署負責任的人工智能方面有很大的進步。為避免出現各種偏見以及可能對用戶造成傷害的內容,其用一組可限制模型輸出對話的安全目標來組成安全指標。

由于語言模型有時會輸出貌似合理實際卻與已知事實相悖的內容,谷歌對LaMDA模型的扎實性展開了研究。
扎實性是指在外部世界聲明上能夠獲得權威外部信息來源支持的百分比。但是,在這些來源中建立的LaMDA模型也無法完全保證所生成響應的準確性,所以谷歌允許用戶及外部系統來源的可靠性來判斷響應有效與否。
此外,谷歌在論文介紹了LaMDA模型的預訓練和微調階段。
預訓練階段,谷歌做了一個包含1.56T詞匯的數據集,并將該數據集中的詞匯標記為2.81T Sentence Piecetoken ,接著通過GSPMD系統對LaMDA模型進行預訓練。
據了解,谷歌將經過預訓練的LaMDA模型用于其自然語言處理的研究中,包括程序合成、零樣本學習和風格遷移等。
微調階段,谷歌讓LaMDA模型執行兩類任務,一類是作出面向指定上下文自然語言回應的混合生成任務,另一類響應是否安全和高質量的分類任務,從而成為一個多任務模型。
對話時,LaMDA生成器會對面向的上下文生成幾個候選回應, 然后LaMDA分類器預測每個候選回應的合理性、特異性和趣味性和安全分數,最后根據這兩項數據的排名選出最佳回應。
人類可以通過現存的工具和知識庫來明確事實,而語言模型僅能依靠其內部參數來得到訊息。
為此, 谷歌做了一個人類與LaMDA模型交流的數據集,并通過該數據集對LaMDA模型的生成器和分類器進行微調,讓其在與對話期間調用外部信息檢索系統,以提高回應的扎實性。

谷歌表示,“在對LaMDA模型進行評估后得出,其在每個維度和所有模型大小情況下都顯著優于預先訓練的模型。無論微調與否,合理性、特異性和趣味性等質量指標通常會隨模型參數量而提升。而安全性雖然無法僅根據模型縮放變化,但可以通過微調來提升。”
此外,LaMDA模型的扎實性會因模型大小的增加而不斷提升。造成的原因可能是,模型越大,其記住不常見知識的能力越強,且微調允許模型訪問外部知識源,并將記住知識的負載轉移到外部知識源。
不過,微調雖然縮小了語言模型與人類之間的差距,但該模型在安全性和扎實性上的水平依然弱于人類。
LaMDA模型的出現為完成開放域對話開辟了新的途徑,同時表明了神經語言模型面臨的關鍵挑戰,如安全指標的使用和扎實性的提高,以及如何通過更大的模型和更清晰標記的數據來進行微調。
但是,這還是一項非常早期的工作,且具有很大的局限性。未來,谷歌將探索新的方法來進一步改進安全指標和LaMDA模型的扎實性,并與其人工智能原則保持一致。