基于強化學習的月表地貌主動感知方法研究

2019-10-31 01:34:54居鶴華韓亮亮

載人航天 2019年5期

余萌，居鶴華，韓亮亮

(1.南京航空航天大學航天系統工程系，南京210016；2.上海宇航系統工程研究所，上海201109；3.中國航天科技集團有限公司空間結構與機構技術實驗室，上海201108)

1 引言

隨著航天技術的不斷發展，在月球表面漫游巡視任務呈現多元化、多地化的發展趨勢，如嫦娥四號月表巡視器執行的月球背面勘探任務[1]，以及正在論證的月面極地探索計劃[2-3]等。未來的月面勘探任務將在可靠性得到充分保障的前提下，不斷探索新區域，包括與地面基站存在通訊阻礙、欠缺先驗測繪知識的月表區域。因此如何在陌生的星表環境執行安全的自主任務，利用巡視器有限的壽命自主探索更多具有科學價值的地況與地貌，便成為提高月表巡視任務的關鍵要素。

Schuster等[4]認為安全性高、成本低廉的星表地貌自主探索可靠方案能夠顯著提高星表探索任務效率[4]。Schwarz等[5]提出在巡視器上裝備一些主動感知設備，如放置靈巧機械手，通過主動接觸巖面來感知地貌。Ono等提出利用人工智能方法進行地貌自主分析，如利用圖像分割方法去理解星表圖像中的興趣區域[6]、利用局部特征檢測方法進行障礙檢測[7]等。雖然地貌自主感知技術能夠有效提高探測效率，但出于可靠性考慮，目前的星表巡視任務尚以半自主遙操作為主[8]，針對星表地貌自主感知技術也尚處在概念研究與初步仿真測試階段。

考慮未來月表漫游巡視任務的發展需求，針對面向未來月面巡視器自主地貌感知的應用需求，本文提出一種月表地貌主動感知方法，構建地貌特征知識庫，并利用強化學習方法進行在線規劃相機參數以實現地貌的主動感知。

2 組建月表地貌知識庫

月表地貌主動感知方法流程如圖1所示。圖中地貌主動感知方法分為離線(左)與在線(右)過程。其中離線過程包括組建供強化學習訓練的地貌知識庫，以及基于知識庫的獎勵函數構建；在線過程包括基于顯著性分析的目標地貌檢測以及后續主動感知觸發判據的設定。

圖1 月表地貌主動感知方法流程圖Fig.1 Flow chart of lunar landform active perception

地貌知識庫目的是為強化學習方法提供訓練樣本，進而通過訓練實現目標地貌的主動感知。由于月表地貌普遍顏色單一，圖像紋理表征稀疏，且缺乏普適的描述模型。紋理特征細節的匱乏造成基于機器學習的方法很難找到一個合適的分類界限。同時，現階段所能獲取的月表圖像的分辨率及數量有限，難以構建用于機器學習方法訓練的大規模樣本集。考慮上述因素，本文從圖像局部特征描述的角度來構建樣本集，以保證小規模平紋理樣本彼此之間的辨識度。

將前期收集的星表圖像集合表示為Ip，并在每張圖像中標注興趣地貌特征，將地貌類別表示為 Oi，i=1，…，No。其中 Oi代表第 i個地貌類別，No代表地貌類別的總數。針對每類地貌，在其所屬圖像區域內提取SURF(Speeded up robust feature)特征描述算子，構成特征描述算子集合Oi，見式(1)。SURF算子是由Bay等[9]提出的一種圖像局部特征描述算子，其借鑒Haar模板與積分圖像思想，有效提高了尺度不變特征提取的運行效率。

其中，SOi表示針對地貌類別Oi的SURF特征描述子集合，nOi代表含有Oi類地貌的圖像個數。值得注意的是某類地貌的特征描述集合并不是單幅圖像特征，而是通過從多幅圖像中提取局部特征來完成組建。由于每幅圖像拍攝條件受多種因素影響，如太陽高度角、拍攝距離與角度、光照強度等，其陰影區域并不具備代表性，因此在進行SURF特征提取前利用K-means方法[10]劃分圖像陰影區域，并忽略分布在距離陰影邊緣距離5個像素內的SURF特征描述子。

3 目標地貌預估

3.1 顯著性分析

在進行地貌感知前，需要先預估當前場景是否存在興趣目標。不同于地球地貌，月表地貌的顏色更為單一，且紋理表征較為貧瘠，可能導致在地面成熟應用的目標識別方法(如基于深度學習的一系列目標識別算法)因樣本區分度不高而出現頻繁誤報。綜合考慮月表地貌的特殊性與星載計算機運算能力，將地貌目標的興趣程度近似等同于其圖像表征的紋理復雜程度，認為圖像中紋理特征越明顯、與背景區分度越高的區域，其對應興趣地貌的可能性越高。選擇圖像顯著性分析方法來預判地貌的興趣程度，圖像的顯著性根據視覺關注機理指視覺角度值得關注的局部區域，對應本文的應用背景便是具有一定紋理特征的月表地貌。

綜合考慮顯著性分析方法的精度與實時性，選擇經典的譜殘差方法(Spectral Residual Method)[11]進行圖像中地貌顯著性分析，示例結果見圖2。圖2(a)為原星表拍攝圖像，圖2(b)為顯著區域提取結果，可以看到顯著性區域集中在圖中視覺關注度最高的巖石附近。在圖像顯著性分析的基礎上，設定地貌主動感知的觸發條件，主要依據是圖像顯著性區域中對應目標地貌的可能性。

圖2 譜殘差顯著性分析示意圖Fig.2 Illustration of Spectral Residual Method

3.2 感知目標判定依據

假設單幅圖像中檢測到N個閉合顯著輪廓，其相應的像素面積記作式(2)。

其中，s1，s2，…，sN為N個閉合輪廓的像素面積。計算像素面積中最大面積與次大面積的面積比，見式(3)。

其中，Smax1為圖像中最大的顯著性輪廓面積；Smax2=max{MSmax1}為第二大的輪廓面積。當rS＞1.5時，認為當前圖像內含有目標地貌，即滿足地貌主動感知觸發判據。

4 月表地貌主動感知

4.1 地貌主動感知概念

主動感知地貌的核心在于“主動”，具體指通過主動調節相機的內外參數來實現對當前場景內目標地貌的更好觀測。

對目標地貌更好的觀測可以體現在與地貌知識庫中與某一地貌具有更高的相似度。假設在k時刻觸發地貌主動感知判據，從像素面積最大的顯著性區域中提取SURF局部特征集合，并記作Zk，則當前目標地貌與知識庫中地貌的相似度可以通過Zk與知識庫中隸屬地貌的特征集的交集來判斷，見式(4)。

其中‖·‖代表集合的基數，即所含元素的個數，Zk∩SOq為觀測特征集Zk與第q類地貌特征集中匹配的特征集合。式中ak∈(0，1)為目標與知識庫中地貌的相似度，ak越接近于1，則意味當前目標與知識庫中的某類地貌越相似。地貌主動感知的目的是不斷通過主動調節參數最大化相機視場內的目標地貌與知識庫中某類地貌的相似度。

由式(4)可知，地貌相似度僅與觀測量與知識庫中地貌特征集交集的個數有關。這種相似度判斷方法雖簡單易行，但在本文應用背景下存在隱患：由于月表地貌顏色單一、紋理貧瘠，與自然圖像相比，其反應在圖像上的特征多樣性較為匱乏，進而導致在樣本集中不同的地貌特征集間也存在交集，影響相似度判斷的準確性。針對此問題，將結合強化學習框架，從另一角度對地貌相似性進行判斷。

4.2 基于貝葉斯方法的地貌相似度度量指標

以貝葉斯方法為基礎，構建地貌知識庫相對于觀測特征集的后驗概率，并據此建立觀測特征集與已編目地貌相似程度的度量。典型的知識庫地貌-觀測特征集條件概率見式(5)。

其中，Fk=Zk∩SO為k時刻觀測特征集Zk與某類地貌特征集SO的交集。式中p(Fk|SO)為Fk關于某地貌特征集SO的先驗概率，見式(6)。

其中， S= {SO1，SO2，…，SOK}為知識庫中所有地貌類別的特征描述子集合(共計K類地貌)。若不區分地貌出現的優先級，則可以認為任何一類地貌出現的概率都相同，即p(SO)=1/K。式(5)中p(Fk)可以通過遍歷地貌類別的概率密度積分來實現，見式(7)。

如式(5)～(7)所示，將地貌相似度求取建模為貝葉斯后驗概率形式，弱化了因不同地貌特征集間存在交集這一情況對相似度判斷精度的影響，在后驗概率描述基礎上，進一步結合強化學習框架建立完整的地貌主動感知方法。

4.3 強化學習框架下的地貌主動感知

服務于主動感知的敏感器動作參數(以離散的形式描述)見式(8)。

其中，Af為單目相機焦距的調整參數序列，Aδ為相機云臺偏航角的動作空間序列，f0、δ0分別代表初始的焦距與云臺偏航角，+、-分別代表焦距放大收縮，以及云臺沿體軸z軸左轉及右轉。上述動作參數為2個維度，在實際任務中還可以根據計算能力增加動作空間的自由度，如加入相機的云臺俯仰角控制。

根據4.2節中建立的后驗概率，此處重新梳理強化學習框架中的獎勵函數，如式(9)所示。

其中，Rh·()為獎勵函數，x為當前相機狀態量，x′為下一時刻相機狀態量，xmax為最大許用狀態量；a=[af，aδ]為當前相機調整動作，其中 af∈ Af，aδ∈ Aδ；ΔI(a，x，x′) 為執行動作 a 后的后驗概率Fisher信息熵增；CR?ΔI為獎勵常數，設置此常數項的目的是當相機狀態達到極限時(最大/最小焦距或云臺偏航角度)停止算法的訓練工作；Cs?ΔI為動作停止獎勵常數，目的是若當前狀態下執行任何動作均不能獲得回報時，立即停止動作并結束訓練。ΔI(a，x，x′)的具體描述形式見式(10)。

其中Z、Z′分別為當前時刻以及下一時刻的觀測特征集；H O|Z( )為地貌集相對于觀測集的Fisher信息熵，用來描述觀測量關于地貌知識庫后驗概率的完備性，其離散形式見式(11)。

式(11)不同于常規Fisher信息熵，引入了歸一化參數log NK( )，其中NK為與當前觀測特征集Z相關的地貌類別總和，引入該項參數目的一是降低計算量，二是增加算法的針對性，即更加準確感知某一類的地貌，而非追求感知地貌的數量。基于式(9)的獎勵函數，可以建立完整的強化學習框架。具體而言，強化學習訓練開始于基于圖像顯著性的主動感知觸發，經策略估值——策略更新的迭代最終收斂于最佳策略，此處的策略指的是為獲得更好的地貌感知結果而訓練出來的相機參數動作調整序列。將策略記作πA|X( )，其中 A={a1，a2，…，ak} 為動作序列； X={x1，x2，…，xk}為相機狀態的歷史參數；將策略估值函數記為v，并認為初始估值為v0=0，并將相機的狀態空間設定為7×7，對一個策略的改進更新需要遍歷所有的狀態，針對每一步狀態都選擇能最大化獎勵函數的參數動作，該過程類似“貪婪”選取，即式(12)：

在得到新的估值函數與策略后進行策略更新，并不斷進行評估-更新的迭代，直到策略收斂[12]，見式(13)：

其中E代表策略評估，I代表策略改進，由于狀態空間僅限定為7×7，策略估值-迭代通常能夠快速收斂。強化學習中的策略迭代算法如下：

輸入：地貌知識庫O，初始動作序列A0，觀測特征集Z

初始化： vπ={0，….0}；π0=null；

設定收斂閾值：ε＞0，TStable?ε，CR，Cs＞0

While(TStable＞ε)

1.策略評估(Policy Evaluation)

利用貪婪選取方法，輸出vπ以及π//(式(12))2.策略更新(Policy Improvement)

輸出最終控制策略：π*=π

5 仿真算例與分析

基于改進增強學習的地貌主動感知方法進行仿真計算。首先利用Rhino軟件生成三維行星地景，并在其中添加數個興趣地貌作為待感知目標地貌，完整的三維行星地景以及目標興趣地貌如圖3所示。針對這些興趣地貌分別模擬不同的光照條件及拍照位置，并從渲染的行星圖像中提取SURF特征點組建地貌知識庫。

圖3 基于Rhino的行星三維地景及模擬地貌Fig.3 3D planetary surface and simulated landforms generated by Rhino

將相機的調控參數離散化為7×7的狀態空間，即針對相機的焦距以及云臺載體均有7個不同取值，如式(14)所示：

其中狀態之間的轉移通過式(8)中的動作參數完成。利用模擬變焦距相機以及1自由度載具云臺進行實時仿真分析。仿真算例結果如圖4所示。S代表地貌感知開始時拍攝的圖像，G代表地貌感知結束時拍攝的圖像。圖5為所生成的控制序列。

圖4 仿真開始與結束時的地貌感知對比Fig.4 Comparison of landform sensing before and after simulation

圖5 地貌主動感知動作序列Fig.5 Sequence of actions in active landform sensing

如圖5所示，經過強化學習訓練后，最終生成的主動感知調整動作一共有6步，見式(15)。

相機的動作參數最終收斂于狀態 [ fc++，δc-]，算法的迭代停止閾值設定為ε=0.01，共經過14次迭代完成收斂，其中每次迭代生成的主動感知動作次數如圖6所示。

圖6 每次策略估值-更新迭代的動作次數Fig.6 Number of actions per each policy evaluationupdating iteration

如圖4、圖5所示，由增強學習訓練得到的結果為拉近相機焦距，并向左旋轉相機云臺，即a*=[]。相比原有的地貌觀測，經參數調整后能夠更清晰地分辨圖像中的地貌，這是因為在相機拉近后從地貌對應的圖像區域內提取的SURF特征集與特征知識庫中對應的地貌特征及匹配度更高。在其余算例仿真中，經強化學習訓練后的地貌感知結果在視覺顯著性上均有不同程度的改善。

在仿真中發現本文算法的一些不足，該方法對地貌知識庫構建的質量較為依賴，若當前待感知的興趣地貌在知識庫中未被描述充分(例如拍攝視角/位置欠佳或光照條件欠佳)，其地貌主動感知結果并不理想。此外，供組建地貌數據庫的月表地貌圖像數量及地元分辨率也影響算法的效果：圖像數量的欠缺會導致訓練集完備性不足，影響興趣地貌的響應成功率；圖像地元分辨率的不足也會增大觀測特征集與地貌特征集的差異，進而影響識別精度。針對以上不足，解決途徑是在巡視器前期勘探任務中根據收集到的現場圖像對地貌特征集進行增廣，即在線篩選優秀地貌特征實時更新地貌特征集，提高訓練集的完備性與精度。與此同時，在實際任務中仍有必要針對地貌知識庫中未充分編目的興趣地貌開發主動感知技術，后續工作將圍繞相關內容展開進一步研究。

6 結論

1)利用SURF特征描述算子組建了地貌特征知識庫，并在強化學習框架下設計了相應地貌識別獎勵函數，該方法利用SURF算子完成地貌的表征，在有效保證運行效率的同時，實現對地貌的準確識別；

2)在地貌在線感知階段，采用局部顯著性分析方法設計了地貌主動感知的觸發判據，確保了地貌感知的有效性，將在線地貌感知與強化學習方法相結合建立了完整的月表地貌主動感知方法；

3)仿真算例結果顯示，所提方法能夠在有限的策略估值-更新迭代次數內給出有效地貌主動感知的相機調整動作參數，并且地貌感知結果較未采取主動感知策略的拍攝結果從視覺顯著性角度具有一定幅度的提升，體現了地貌主動感知算法的有效性。