寇建超

如果有一臺機器人,幾乎可以通過 “自學” 的方式,完成人類 80%~90% 的日常工作和任務,你信嗎?或許你會說,人類可以做到的事,機器人為什么不可以?但很顯然,我們如今看到的機器人,功能單一,遠遠達不到我們對智能的期望,也滿足不了現實中對任務和場景自適應的需求。如今,我們會根據不同的任務和場景設計各種機器人和相應的算法,但由于外部變量空間太大,同一機器人在不同任務或操作之間的可遷移性較弱,不能替人類完成各種各樣的任務。
一直以來,“通用智能” 被認為是一個很好的技術解決方案,具備與人類同等智慧或超越人類的人工智能,能表現出正常人類所具有的所有智能行為,可以為機器人提供一個統一的模型,一直都是人工智能行業內的學者、科研機構和企業的追求。但是,要實現機器人在多領域內的通用,這項技術還需要一個載體—— “通用智能本體”,其可以在很大程度上提高機器人對不同任務的可遷移性。
事實上,人本身就是一個通用智能本體。要像人一樣,通用智能本體需要對其所在環境(特別是操作對象)有深度的理解。近期,上海交通大學與非夕機器人科技聯合在《中國工程院院刊》上發表了 “通用智能本體” 的論文,提出基礎理論概念。論文作者盧策吾教授表示,“通用智能本體是機器人(至少是通用機器人)的終極目標。通用智能本體不僅能看懂(人類的行為),也能很好地去理解,還能對外界作出反饋。”盧策吾認為,通用智能本體有點像我們日常使用的通用計算機,幾乎可以完成日常生活中的所有任務,但一些特殊的任務,依然需要一些專用機器人來完成。

人類生產所需完成的任務個數接近無窮且大多各不相同,兩條線之間的區間就是通用智能帶來的紅利

任務遷移能力是衡量一個通用智能本體智能程度的最重要標準。如果要讓擅長下圍棋的 AlphaGo 去玩其他棋類或者星際爭霸之類的游戲,其遷移成本會很高。有了通用智能本體,未來工廠內的產品組裝、醫院內的病人看護、家庭內的按摩和家務勞動等操作,都可以由一個通用智能本體來完成。“這就是通用智能本體的初衷。” 盧策吾說。
當前的智能機器人通過深度學習來認知世界,但深度學習對外部世界的感知能力比較弱,它只是去看,并沒有真正理解物體的本質。比如,深度學習只是通過模式識別去辨認一把剪刀,如果 “眼前” 的物體像一把剪刀,就判斷其為剪刀,而并沒有真正理解剪刀的概念。而通用智能本體不是做簡單的模式識別,它關心的是這個物體的功能,可以直達物體的本質。“就像人類,一個杯子能不能被用來喝水,與杯身的花紋無關。” 盧策吾說。
因為有了交互,通用智能本體就可以接受不同的概念,概念之間的搜索空間就會大大減少。比如,通用智能本體在看到一個礦泉水瓶時,會先通過視覺進行猜測,再去用力擰開,確定其為礦泉水瓶后,再將結果上傳到云端,完成這一過程后,通用智能本體又增加了一次學習經驗。這不只是視覺上的經驗,也與力覺有關,在一定程度上具備了自學習的可能性。
人類的大部分操作都可以被肢解為一些不可再分的元操作(可不再向下分解的通用操作,比如抓取、插、拔、揉壓等),而這些元操作之間有特別強的通用性。人類的元操作集合是有限的,在定義好元操作集合后,人類的任何操作任務都可以解析為一個元操作流,也就是一串元操作序列。一旦機器人學會所有人類的元操作,再加上大量的(物體)知識引擎,就使得通用智能本體具有可行性。
由于多個信息維度交互的存在,通用智能本體很有可能在遷移能力上實現突破。比如,擰瓶蓋和擰螺帽是差不多的,力學模式和操作范式就也是差不多的。瓶蓋和螺帽都有一個凸起,都可以被旋轉,這些特點都可以被泛化和定義,不管它是綠色的,還是藍色的,都需要用手握住并轉動,而且力的模式,大概需要多大的力,也是很清楚的。但要實現通用智能本體的愿景,依然存在不小的挑戰——通用智能本體既要符合人類的智能設計,又要符合與計算機相似的體系架構。
我們可以通過簡單的編程為通用計算機賦予很多功能,但在通用智能本體上編程卻不會那么簡單,因為教會通用智能本體去做一件事(比如照顧一位老人)的成本很高。如果把各種可能的情況都寫入通用智能本體,難度就太大了。“如何把一個抽象的任務編譯給機器人是一個很難的 AI 問題,但我們對此還是很有信心的。”盧策吾說:“目前 ‘積木 已經有了,機器人如何通過看人類怎么做去模仿人類把 ‘積木 搭起來,這是一個開放的學術問題,需要持續的討論。”

通用智能本體可完成的操作,由簡單到復雜,由已知到未知,可以分為四個等級。對于拿杯子接可樂等低等級操作,其操作步驟很固定,機器人知道第一步做什么,第二步又做什么。當操作步驟未知,一旦涉及到對周圍環境的理解和判斷時,情況就比較復雜了。比如,如何炒一盤回鍋肉?通用智能本體會通過觀看大量人類炒回鍋肉的視頻,提取相關特性去學習如何炒回鍋肉,之后會是一個不斷嘗試的過程。在這一過程中,通用智能本體需要來自人類的糾正,比如回鍋肉好不好吃,這也會涉及到一些學術問題,但成本會很低。盡管最終結果可能會存在一定誤差,但通用智能本體需要做的調節幅度會比較小。如果按照從0~1的自主學習模式去炒一盤回鍋肉,現有機器人是做不到的。但是,如果通用智能本體之前看過人類炒小炒肉的視頻,并且已經將這一經驗信息上傳到云端,通用智能本體就會利用炒小炒肉的經驗去炒回鍋肉,或者用剛剛學到的炒回鍋肉的經驗去炒一盤魚香肉絲,然后再上傳到云端,形成機器人自己的知識庫。結果就是,機器人學到的技能越來越多,知識庫內的經驗信息也會彼此關聯。
未來,在執行大多數任務時,用戶不需更換本體,只需要提供簡單的任務描述,也不需要重新設計底層通用硬件、協議和操作系統;就像通用計算機的模塊(CPU,RAM)一樣,各個基本模塊相對獨立,且可升級;隨著通用智能本體群完成任務的增加,知識體系得到擴展,學習新任務所需的時間減少。
多功能家用機器人是未來機器人的攻關方向之一,但我們不可能對每個家庭特殊環境的每個任務重新設計硬件、軟件或學習模型,這是阻礙家用機器人發展的重要原因。通用智能本體有望解決這一問題。“與在各個領域實現廣泛應用所需的難度相比,通用智能本體工業自動化應用中是在一個更結構化的環境中運行,實現起來沒有那么困難。” 盧策吾說。由于通用智能本體的視覺和力覺傳感比人類更精準,它完成任務的專業性會超越人類。
但通用智能本體一開始不會像一個保姆那樣會察言觀色,會主動做些什么。它就像一個 iPhone,比如你裝一個疊衣服的 app,它就學會了疊衣服,過幾天你再裝一個清理桌面的 app,它也就學會了如何清理桌面。一開始,通用智能本體只是一個功能化的機器人。盧策吾表示:“你可以認為它是一個多功能家電,但隨著知識庫的不斷增加,它會慢慢向智能化發展,一旦學會了所有家用功能,它就會像一個保姆一樣,會幫老人喂飯、洗臉和按摩肌肉等,它的功能會越來越強大。”
但通用智能本體并非適用于人類的所有活動,它可以適用于人類的大部分日常活動。比如,工業上的生產線,醫療上的護理、打針和智能 ICU,以及娛樂交互、家用按摩和更簡單的接可樂等,都可以被編程進通用智能本體中,進而提高效率。“我們會先做一個不需要教的機器人,把操作步驟固定寫出來,比如叫機器人去麥當勞買一個漢堡,它第一步做什么,第二步又做什么,你只需要一個 iPad,就能完成這件事。最終,有了大量經驗信息后,更高級別的操作就能很順其自然地完成了,這就會涉及到 AI 的相關研究了。” 盧策吾說。
(摘自美《深科技》)(編輯/多洛米)