谷歌聯(lián)合發(fā)布SayCan模型讓機器人做出合理回答，還能“說到做到”

2022-03-16 12:52:12美《深科技》

海外星云 2022年20期

關鍵詞：指令物理技能

在人工智能中，近幾年來大型語言模型領域的發(fā)展尤為突飛猛進，經(jīng)過訓練的大型語言模型已經(jīng)可以做到按照提示要求生成復雜的文本、回答較難理解的問題，甚至可以就某個主題展開對話。

大型語言模型的能力之所以如此優(yōu)異，正是在于這些模型在訓練的過程中，從由網(wǎng)絡提取的大型文本語料庫中吸取了數(shù)據(jù)量龐大的信息。

既然大型語言模型的理解能力如此強大，是否就意味一個機器人如果直接以此為基礎進行語言類的各種處理工作，就可以同樣出色地與人類交流、并進一步出色地完成任務了呢？

答案是否定的，原因就在于大型語言模型并不是以物理世界為基礎的，它的工作過程中也并沒有對周圍物理環(huán)境的觀察與影響這一步。這就導致大型語言模型給出的有些答案有時與周圍環(huán)境格格不入、顯得不切實際。

例如在上圖所示的這一實例中，在人類向一個只能進行“拿起廚具”“移動到某位置”等基本操作的廚房機器人給出“我的飲料灑了，可以幫忙嗎？”

這一請求之后，著名的三種大型語言模型給出的答案都不那么符合當時的場景：GPT 3的回復是“你需要一個吸塵器”，LaMDA的回復是“需要我?guī)湍乙粋€吸塵器嗎？”FLAN則回復了“抱歉，我并不是故意讓飲料灑了的”。

可以看出，由于在回答時沒有結合周圍的環(huán)境以及上下文，大型語言模型無法直接為機器人提供最合適的回答。

用戶提出同一請求時，不同的大型語言模型（左側）和新SayCan模型（右側）給出的不同的反饋

為了讓機器人的語言系統(tǒng)更符合周圍的物理環(huán)境，從而使其更加有效地幫助人類，谷歌機器人聯(lián)合Everyday機器人開發(fā)了一種新的語言處理模型，即SayCan。

這一模型在訓練的過程中，不僅學習如何很好地理解語言指令并給出回答，更要評估在當前物理環(huán)境中每個回答真正實現(xiàn)的可能性，從而讓機器人實現(xiàn)“說到做到”。

近日，相關論文也以《盡我所能，而非盡我所說：機器人供能的基礎語言》為題發(fā)表。

簡單來說，SayCan模型在基于物理環(huán)境的任務中會將大型語言模型中的結果進行提取，它主要由兩部分構成。

首先，Say部分中由大型語言模型來完成理解語言含義，并給出相應的有助于解決問題答案的任務。

然后，Can部分則會對這些答案進行評估，即“可供行功能”，從而結合當時的物理環(huán)境來確定此時什么行為是可以執(zhí)行的。

在這里，研究人員采用了強化學習方式來進行以語言為條件的價值函數(shù)的學習和訓練，而這些價值函數(shù)將確定某一行為在當前環(huán)境的可行性。

具體來說，SayCan模型將問題抽象為如下：系統(tǒng)首先會接收用戶所提供的自然語言指令i，這一指令也給出了機器人所需執(zhí)行的任務，該指令可以很長、很抽象甚至模棱兩可。

系統(tǒng)還事先設定機器人所擁有的一組技能Π，其中的每個技能π∈Π都是一個被分解后的很簡短的任務，例如撿起某個特定的物體。每個技能都有自己的簡短的語言描述 lπ，如“找刀叉”等，還有自己的可供性函數(shù)p（cπ |s,lπ ），它表示從狀態(tài)s成功實現(xiàn)描述為lπ的技能的概率。

通俗地說，可供行函數(shù)p（cπ |s,lπ）就是在狀態(tài)s下，有著描述標簽為lπ的技能π成功完成的概率，其中cπ是伯努利隨機變量。在強化學習中，p（cπ |s,lπ）也是技能的價值函數(shù)，例如如果可以成功完成就將獎勵設為1，否則為0。

而SayCan模型解決問題的算法和思路，如下圖所示。

為了驗證SayCan模型性能，研究人員提出的兩個主要指標進行評估。第一個指標是計劃成功率，它用于衡量模型給出的回答是否符合指令，這里并不考慮該技能在當前環(huán)境的可行性。

SayCan模型的算法

評估結果

第二個指標是執(zhí)行成功率，它衡量系統(tǒng)是否真正能夠成功地執(zhí)行并完成指令要求的任務。

研究人員讓該模型執(zhí)行了101個任務，結果顯示，在模擬廚房的任務中，SayCan模型的規(guī)劃成功率為 84%，執(zhí)行成功率為74%。而在真實廚房環(huán)境中進行的評估中，SayCan的規(guī)劃成功率相比模擬廚房降低了3%，執(zhí)行成功率降低了14%。

SayCan執(zhí)行其他任務的例子

回到上文中提到的例子，在面對用戶的“我的飲料灑了，可以幫忙嗎？”這一指令時，與其他大型語言模型不同，SayCan的反應則是，將會“1.找到一塊抹布，2.拿起抹布，3.將其帶給用戶，4.完成”。可以說相比其他模型，可以讓機器人更好地幫助用戶。