寇建超
無論是在擁擠的人行道上行走,還是在社區足球聯賽中射門進球,人類都會下意識地利用感知動作循環(perception-aclion loop)做幾乎所有的事情。感知動作循環可以使我們在一個連續的實時循環中使用感官輸入做出正確的動作,其也是“自治系統”的核心。


但當前一代的機器人等“自治系統”在直接根據視覺數據做出正確決策方面仍遠遠不及人類,其依然受到難以收集大量真實世界數據的限制。此外,雖然我們能輕易生成大量模擬數據,但這類數據在現實生活的各種場景中,通常不能催生安全的行為。
如何讓機器人具有如人類一般的“自治”能力?一項來自微軟研究人員的研究,讓我們看到了巨大的可能性。研究人員向我們描述了這樣一種機器學習系統:它可以幫助機器人直接從相機圖像中推理出正確的動作。以無人機為例,無人機可以通過模擬學習完成特定路線的導航。通過模擬訓練,機器人可以學會獨立觀察現實世界中的環境和條件(包括看不見的情況),然后作出正確決策,這使得機器人非常適合用于搜索和救援任務。研究人員認為,在不久的將來,這種機器學習系統可以幫助機器人更快地識別出需要幫助的人。

?系統框架通過模擬學習使用多個數據模態的低維狀態表征
受人類大腦的啟發,該系統將視覺信息直接映射到正確的控制動作上,也就是說,將視頻幀的高維序列轉換為代表真實世界狀態的低維形態。根據研究人員的說法,這種方法使模型更容易解釋和調試。
研究人員在微軟官網上的一篇博客文章中寫道:“我們希望可以借助這個系統使得當前技術更加接近人類應對環境提示、適應困難條件和自主操作的能力。我們有興趣去探索要建立一個達到人類水平的自主系統需要做些什么。”
在機器學習系統框架內,研究人員將感知組件(即理解所看到的東西)與控制策略(根據看到的東西決定做什么)分開。“通過將‘感知行動循環分為兩個模塊,并將多種數據模式納入感知訓練階段,我們可以避免網絡過度擬合傳入數據的非相關特征。比如,盡管用于模擬和物理實驗中的門的大小相同,但它們的寬度、顏色,甚至內在的相機參數卻不一樣。”一位研究人員說。
該團隊將機器學習框架應用在一個帶有前置攝像頭的小型四軸飛行器上,在只使用來自相機的圖像的情況下,試圖通過為無人機傳授一種AI策略,從而使其完成特定路線的導航。研究人員使用一個名為AirSim的高保真模擬器在模擬環境下訓練Al,然后將其部署到現實世界的無人機上。其中,一個關鍵挑戰是模型必須對模擬和現實世界之間的差異(如光照、紋理)具有魯棒性(指控制系統在一定結構/大小的參數攝動下維持其它某些性能的特性)。為此,研究人員使用了一個名為跨模態變量自動編碼器(CM-VAE)的框架,來生成緊密彌合模擬與現實差距的表征,從而避免對無關數據的過度擬合。

? a,控制系統架構。來自無人機的視頻的輸入圖像被編碼到一種潛在的環境表征中。一個控制策略作用于低維入,以輸出所需的機器人控制命令。b.跨模態VAL架構。每個數據樣本被編碼成單獨的潛在空間中,這個潛在空間可以被解碼成圖像,或者轉換成另一種數據模態,比如門相對于無人機的姿態?
在無人機實驗中,一種數據模態考慮了原始無標簽傳感器輸入(FPV圖像),而另一種數據模態描述了與當前任務直接相關的狀態信息,后者對應于無人機坐標框架中定義的下一個門的相對姿勢。研究人員通過擴展CM-VAE框架,得到了一種低維的潛在環境表征。該框架為每個數據模態使用一個編碼器—解碼器對(encoder-decoder pair),同時壓縮與單個潛在空間之間的所有輸入和輸出(圖b)。該系統將有標記和無標記的數據模式自然地納入潛在變量的訓練過程,然后使用模仿學習訓練一種深度控制策略,將潛在變量映射到無人機的速度命令中(圖a)。

? 由跨模態表示生成的虛化圖像的可視化,解碼后的圖像直接捕捉到門對應的背景信息
該系統的感知模塊將輸入圖像壓縮到上述的低維表示中,從2.7648萬個變量下降到可以描述它的最基本的10個變量。解碼后的圖像提供了無人機可以看到的前方情況的描述,包括所有可能的門的大小和位置,以及其它不同的背景信息。

45米長的S形軌道和40米長的圓形軌道
研究人員在45米長的帶有門的S形軌道和40米長的帶有不同門的圓形軌道上,分別測試了這個系統的能力。他們表示,使用CM-VAE的效果明顯優于直接編碼下一位置的端到端AI策略,即使背景存在“強烈”的視覺干擾,無人機還是通過使用跨模態感知模塊成功完成了任務。
研究人員表示,這些結果顯示了該系統在現實世界應用的“巨大潛力”。比如,盡管存在年齡、體型、性別和種族差異,該系統可能幫助自主搜索和救援機器人更好地識別人類,從而讓機器人有更好的機會識別和找回需要幫助的人。
盡管無人機的實驗結果著實令人興奮。但研究人員表示,他們在實驗中遇到了一個意想不到的結果,即將未標記的真實世界數據與標記的模擬數據結合起來訓練表征模型,并沒有提高整體性能,只使用模擬數據效果更好。
對此,他們認為,未來工作的一個有趣的方向是使用對抗性技術來降低由模擬和真實圖像編碼的相似場景之間的潛在空間距離,這將降低訓練和測試階段數據分布的差異。此外,研究人員沒想擴展使用無標簽數據進行策略學習的方法。比如,除了圖像之外,是否可以結合不同的數據模式(激光測量、甚至聲音)來學習如何對環境進行表征。
盡管還存在一些問題,但無人機實驗的成功證明了這種方法具有應用于其他真實機器人任務的巨大潛力,其他機器人同樣需要類似的能力來實現實時解釋輸入,并在確保安全操作的同時做出正確決策。(摘自美《深科技》)(編輯/華生)