如何讓機器人更聰明地自主學習,是當前研究人員探究的重點方向。
為了教會人工智能一項新任務,例如如何打開廚柜,研究人員通常會使用強化學習方法,即一種試錯過程,在這個過程中,如果人工智能采取的行動使其更接近目標,就會得到獎勵。
在許多情況下,人類專家必須精心設計一個獎勵函數,這是一種激勵機制,可以激發人工智能進行探索。當人工智能探索并嘗試不同的行動時,人類專家必須反復更新獎勵函數。這可能會耗費大量時間,效率低下,而且難以擴大規模,尤其是當任務復雜且涉及許多步驟時更是如此。
美國麻省理工學院、哈佛大學和華盛頓大學的研究人員開發的一種新型強化學習方法一一人類引導探索( HuGE),利用眾包反饋來高效地教授人工智能復雜的任務,在模擬和實際應用中都顯示出良好的效果。


“HuGE”使人工智能能夠在人類的幫助下快速學習,即使人類犯了錯誤。此外,這種新方法允許異步收集反饋,因此世界各地的非專業用戶都能為人工智能的教學作出貢獻。
研究人員將機器訓練過程分解為兩個獨立部分,每個部分都由獨立的算法控制。一方面,目標選擇器算法會根據眾包反饋不斷更新,非專家人員的反饋起到輔助引導作用;另一方面,智能體會在指導下以自我監督的方式自行探索,這種探索可以自主循環式進行。這樣一來,即使非專家用戶有時反饋的信息不準確(數據噪聲),也不會造成太大影響,智能體最終還是可以完成學習任務。
原理提出后,有人表示疑惑,“HuGE”訓練方法是否真的能幫助智能體提高學習效率呢?
研究人員在一些模擬任務和實際任務中測試了這種方法。在模擬任務中,他們使用“HuGE”有效地學習了具有較長操作序列的任務,例如按照特定順序堆疊積木或在大型迷宮中導航。


在真實世界的測試中,他們利用“HuGE”訓練機械臂繪制字母U,以及取放物品。在這些測試中,他們從橫跨三大洲13個不同國家的109位非專家用戶那里獲得了眾包數據。
在真實世界和模擬實驗中,“HuGE”比其他方法更快地幫助機器人學會實現目標。
研究人員還發現,與研究人員制作和標注的合成數據相比,從非專家那里眾包的數據性能更好。對于非專業用戶來說,標注30張圖片或視頻所需的時間不到兩分鐘。
研究人員發表了一篇相關論文,他們對“HuGE”進行了改進,使人工智能能夠學會執行任務,然后自主重置環境繼續學習。例如,如果人工智能學會了打開櫥柜,該方法也會引導人工智能關閉櫥柜。
研究人員表示, “未來,這種方法可以幫助機器人快速學習在用戶家中執行特定任務,而無需主人向機器人展示每個任務的物理示例。機器人可以自行探索,并通過眾包的非專家反饋來指導其探索。”
研究人員還強調,在這種學習方法和其他學習方法中,確保智能體與人類價值觀保持一致至關重要。他們表示,“下一階段將繼續完善‘HuGE’,以便智能體可以從其他形式的通信中學習,例如自然語言和與機器人的物理交互。也有興趣應用這種方法來同時教授多個智能體。”
未來,他們希望繼續改進“HuGE”,使人工智能能夠從其他形式的交流中學習,如自然語言和與機器人的身體互動。他們還有興趣將這種方法用于同時教授多個人工智能機器人。(綜合整理報道)(策劃/黃李玲)