王梓,孫曉亮,*,李璋,程子龍,于起峰
1.國防科技大學 空天科學學院,長沙 410073
2.中國航天員科研訓練中心,北京 100094
非合作衛星目標位姿估計(三維旋轉+三維平移)是實現交會對接、編隊飛行、空間碎片清除等應用的關鍵技術之一。基于單目視覺的非合作目標位姿估計技術以其低功率、低質量、小體積等優勢受到了國內外研究人員的廣泛關注,并得到了充分研究。相比雙目位姿估計方案,單目視覺具有視場大、可靠性高的優勢。于2020年,歐航局高級概念小組與斯坦福大學交會對接實驗室共同發起了KPEC (Kelvins Pose Estimation Challenge)比賽,并發布了航天器位姿估計數據集(Spacecraft PosE Estimation Dataset, SPEED),聚力推動空間非合作衛星目標位姿估計技術相關研究。
針對非合作目標單目位姿估計,傳統方法依賴人工設計的特征,如SIFT (Scale Invariant Feature Transform)、SURF (Speeded Up Robust Features)等,依靠位姿先驗通過特征點檢測與匹配建立二維-三維對應關系,進而通過求解n點透視(Perspective-n-Points, PnP)問題得到相對位姿參數。然而,面對復雜光照環境、弱紋理或結構復雜的剛體目標,人工設計的特征在穩定性、魯棒性等方面顯出不足。此外,若不結合位姿先驗,傳統方法求解的可靠性較差。近年來,卷積神經網絡(Convolutional Neural Network, CNN)技術得到了快速發展,憑借其強大的特征提取與表達能力在計算機視覺、圖像處理等領域得到了廣泛應用。已有基于CNN的目標單目位姿估計方法,依據位姿參數估計的方式,可以分為直接法和間接法。
直接法無需顯式建立二維-三維對應關系,采用回歸或分類的形式直接得到目標位姿參數。由于旋轉和平移的物理量綱不同,通常采用分離的表示方法,即將物體的旋轉和平移分開表示。在SPEED數據集上,Proen?a和Gao使用高斯混合模型與軟標簽技術實現了旋轉量的預測。Sharma和D′amico提出了Spacecraft Pose Network (SPN),實現了2D目標檢測,使用2D檢測框內的圖像估計相對姿態,然后利用2D檢測框與相對姿態形成的約束條件,使用高斯牛頓方法求解平移量。
間接法使用點、線等特征表示剛體目標,該類方法首先預測二維到三維的對應性,然后通過PnP方法求解目標位姿參數。相關方法可進一步分為基于密集坐標表示和基于稀疏坐標的表示方法,前者一般預測二維圖像上目標掩膜區域所有像素到三維模型上的對應關系,后者則首先定義一組稀疏的控制點,例如三維模型包圍框角點、模型表面特征點等,進而預測這些點在二維圖像上的坐標。Chen等使用熱力圖表示方法回歸目標稀疏關鍵點,使用模擬退火算法篩選外點,并設計非線性優化方法求解PnP問題;Park等使用向量表示目標關鍵點序列,使用EPnP解算目標位姿參數;Huan等同樣使用向量表示關鍵點,然后通過非線性優化求解位姿;EPEL_cvlab將圖像均勻分割成若干網格,借助圖像分割的方式預測衛星的8個三維包圍框角點,使用EPnP求解位姿。
雖然基于CNN的方法在目標單目位姿估計中取得了優越的性能,但依然存在諸多不足。首先,CNN存在歸納偏置問題,導致訓練得到模型泛化能力不足;其次,CNN在訓練過程中缺少絕對位置信息,對絕對位置的描述不夠直接;最后,CNN的長距離建模能力不足,缺少對關鍵點間的上下文建模。上述問題限制了已有相關方法的實際工程應用,尤其是當訓練數據與測試數據有較大差異時,模型性能表現較差。例如缺少獲得高質量6D標注的真實圖像、僅能使用仿真渲染圖像進行訓練的場景,對模型的泛化遷移能力提出了更高要求。因此,本文在已有工作的基礎上探索了新的神經網絡結構,即基于注意力機制的Transformer模型,在航天器等剛體目標單目位姿估計中的應用。
注意力機制是一種新型深度學習模型,用于對整個輸入序列的自身長距離建模,比CNN具有更好的泛化能力,該模型在自然語言處理領域取得了巨大成功。Vaswani等在注意力的基礎上設計了一種用于機器翻譯的端到端模型Transformer,在多個語言任務上取得了最佳性能。將Transformer思想應用于計算機視覺領域,設計面向不同視覺任務的端到端模型,近年來得到了研究人員的廣泛關注。Carion等首先使用Transformer模型實現了端到端的二維目標檢測器(DEtection TRansformer, DETR),達到了與Faster RCNN相近的性能水平;He等將Transformer應用在高光譜圖像分類上,在分類精度和計算時間上均優于已有基于CNN的模型。Liu等針對車道線檢測任務,重新參數化車道線的表示,借助Transformer模型實現了端到端的車道線參數回歸,在車道線檢測精度、計算耗時、遷移泛化等方面取了良好性能。
針對已有方法的模型泛化遷移能力不足、缺少上下文建模等問題,本文探索了Transformer模型在單目剛體位姿估計中的應用,創新地提出了一種基于端到端關鍵點回歸的衛星單目位姿估計方法:首先設計一種基于關鍵點集合的剛體目標表示方法,并構建了相應的損失函數,其中每個關鍵點的表示由坐標項和分類項組成,其中坐標項描述了關鍵點的位置,分類項描述了關鍵點的序號;進一步,依據目標表示形式本文設計了預測關鍵點集合的端到端回歸網絡模型,并根據任務特點改進了用于特征提取的主干網絡結構。不同于已有基于稀疏點集的目標表示方法中關鍵點與預測點之間一一對應的有序形式,本文方法輸出預測點是無序的,預測點與事先定義關鍵點間的對應性由網絡預測并通過概率模型得到,坐標預測頭和類別預測頭分別輸出一組坐標項和分類項,其逐項的組合構成關鍵點集合的預測值,屬于端到端集合預測,有利于關鍵點間的上下文建模,減少模型對數據的歸納偏置。最后,在公開數據集上的實驗測試結果表明,本文方法實現了可靠、高效的衛星目標單目位姿估計,性能優于已有同類方法。本文貢獻總結如下:
1) 探索了新的神經網絡結構在航天器位姿估計中的應用,創新地將Transformer模型應用到剛體目標單目位姿估計中,獲得了更優的遷移泛化能力。
2) 設計了一種基于關鍵點集合的剛體目標表示方法,并構建了相應的損失函數和位姿求解方法,使用網絡預測建立輸出的語義關鍵點與事先定義的三維關鍵點間的對應性,增強了模型對關鍵點間上下文建模的能力。
3) 設計了用于關鍵點回歸任務的網絡結構,針對關鍵點回歸任務改進了用于特征提取主干網絡結構。
本節首先對剛體目標單目位姿估計問題進行簡要描述,然后對本文提出基于關鍵點集合的剛體目標表示方法及損失函數設計進行詳細闡述。
剛體目標單目位姿估計通過建立二維-三維對應關系,求解目標位姿參數。設剛體目標在相機坐標系下的位姿為∈,∈,第個關鍵點的三維坐標為[,,],其像點坐標的估計值[,]。由針孔成像模型可得約束

(1)


(2)
當存在3組及以上關鍵點時,式(2)可解,例如P3P、EPnP等求解方法。為提升算法對匹配外點的魯棒性,本文使用隨機采樣一致性 (RANdom SAmple Consensus, RANSAC)方法實現魯棒估計。


(3)


(4)


(5)
圖1給出了使用本文描述方法表示一個包含11個關鍵點的剛體目標的具體形式,其中對于不屬于集合中的點,其分類項的最后1項為1。由于本文描述方法具有無序性,圖中的下標不能用于由元素到三維空間點的索引。

圖1 基于本文方法描述包含11個關鍵點的剛體示意圖Fig.1 Description of a rigid object with 11 key points using proposed representation method
本文采用關鍵點集合的形式表示剛體目標,決定了模型的預測輸出是元素數量固定的集合,每個元素由坐標值和類別預測概率組成

(6)


(7)


(8)


(9)


(10)
通過匈牙利算法求解式(7),得到點對應集合。
在得到單射函數后,網絡的損失定義為

(11)
式中:坐標項的損失采用了smooth損失,

(12)

(13)
基于關鍵點集合的衛星目標表示方法,本節提出端到端關鍵點回歸模型,設計一種適合關鍵點任務的主干網絡,詳細描述了模型結構。
如圖2所示,本文模型主要包含4個部分。第1個組件由在ImageNet上預訓練的卷積神經網絡和位置編碼模塊組成,分別用于提取特征和提供特征圖的位置編碼,稱為主干網絡。第2個組件是編碼器,該組件將主干網絡輸出的二維語義特征圖和位置編碼圖堆積并展平為一維,送入多層Transformer模型中,輸出編碼特征向量。第3個組件是解碼器,該組件輸入是查詢向量、特征向量和位置編碼向量,輸出是解碼特征向量。最后一個組件是前向傳遞網絡,即線性層,由坐標項預測頭和分類項預測頭組成,兩者分別從解碼特征向量中得到坐標項和分類項的預測。

圖2 基于Transformer模型的端到端關鍵點回歸網絡模型總體結構Fig.2 Overall architecture of transformer-based end-to-end key points regression network

本文結合Transformer模型特點,以ResNet-50為基礎,設計了一種適用于關鍵點回歸的主干網絡。一方面,特征圖的尺寸越接近輸出圖像尺寸,位置信息保留越充分;另一方面,訓練Transformer模型所需要的顯存與特征圖像素個數的平方成正比,如輸入特征圖過大,模型幾乎是不可訓練的。為平衡兩者的需求,本文擬將主干網絡輸出的特征圖尺寸降為輸入圖像的1/8。如圖3所示,在ResNet-50的基礎上,使用了Layer2和Layer3的輸出。Layer2和Layer3輸出的特征圖尺寸分別是原圖像的1/8和1/16。對于Layer2的輸出,使用1×1卷積調整通道數量;對于Layer3的輸出,依次經過上采樣和3×3卷積得到1/8特征圖。最后將Layer2和Layer3的特征圖疊加,并通過1×1卷積調整通道數量輸出1/8特征圖。表1給出額外卷積層的通道數。

圖3 主干網絡結構示意圖Fig.3 Structure of backbone

表1 主干網絡中額外卷積層的通道數Table 1 Number of channels of additional convolution modules in backbone
編碼器與解碼器的結構如圖4所示,主要結構包括多頭注意力模塊、跳轉連接與正則化模塊和前向傳遞模塊。多頭注意力模塊(Multi-Head Attention, MHA)是編、解碼器的核心,其結構如圖5所示。單頭注意力模塊即為縮放點積注意力,即

圖4 編碼器和解碼器模塊結構示意圖Fig.4 Structure of encoder and decoder module

圖5 多頭注意力模塊結構和縮放點積結構Fig.5 Structure of multi-head attention module and scale dot-product

(14)
式中:、和分別表示查詢向量、鍵向量和值向量;為輸入數據的維度。多頭注意力機制表述為
MHA(,,)=Concat(,,…,)
(15)

(16)
相比于縮放點積注意力,多頭注意力機制將輸入線性映射到個不同空間里計算特征相關性,提高了特征的表達能力。正則化模塊(layer-Nnormalization, Norm)用于降低訓練過程中的數據偏差,提高訓練的穩定性。前向傳遞模塊(Feed Forward Network, FFN)由2個線性變換單元和1個修正線性單元組成
FFN()=max(+,0)+
(17)
本節首先介紹用于分析的公開數據集和評價指標,然后在實驗細節方面,介紹整體實驗的流程和神經網絡的參數以及關鍵點、目標檢測真值的獲取方法。最后的分析實驗主要分為2部分,首先在訓練數據集上分別完成組件分析實驗,以確定最優的網絡結構、組件層數等超參數;然后分別在訓練數據集和測試數據集上完成了精度分析實驗,與當前業界最優算法比較,分析本文方法優勢。
為驗證本文方法性能,使用SPEED數據集進行實驗,該數據集提供了Tango衛星圖像,像素尺寸為1 920×1 200,僅訓練集提供衛星的位姿真值。表2給出了訓練集和測試集中真實與仿真圖像的數量,訓練集僅有5張真實圖像。本文在訓練集上完成組件分析實驗和交叉驗證實驗,完成參數調優。通過將位姿估計結果上傳至KPEC平臺,在線測評得到2種測試集的評分結果。

表2 SPEED數據集中訓練集和測試集圖像數量Table 2 Number of images for training set and validation set in SPEED
SPEED數據集中的仿真圖像分有無地球背景2種,真實圖像均無背景。仿真圖像中衛星目標的距離跨度較大,從3~40.5 m,衛星目標在圖像中所占像素從1 k~500 k不等,為位姿估計帶來較大挑戰。真實圖像中目標距離從2.8~4.7 m,真實圖像與仿真圖像有較大差異,如圖6所示。

圖6 SPEED訓練集部分圖像示例Fig.6 Example images of SPEED train set
對于6D位姿估計結果,旋轉量的得分為旋轉向量的夾角

(18)


(19)


(20)

3.2.1 整體實驗流程與參數設置
圖7展示了本文通過關鍵點回歸進行剛體位姿估計的流程。首先,輸入圖像經過目標檢測器得到目標的二維包圍框,然后對輸入圖像進行裁減、縮放得到尺度相同的圖像作為關鍵點回歸網絡的輸入;經過關鍵點回歸網絡輸出關鍵點的像素坐標,最后經過RANSAC+PnP得到目標的位姿。

圖7 基于關鍵點的剛體位姿估計流程圖Fig.7 Flow chart of keypoints-based pose estimation of rigid object
在2D目標檢測中,本文使用了mmdetection中的Faster RCNN,訓練數據為12 000張仿真訓練圖像,圖像尺寸短邊為800,長邊不超過1 333,批大小為6,epoch總數為3。使用隨機梯度下降法(Stochastic Gradient Descent, SGD)進行優化,初始學習率為0.01,第1個epoch之后降為0.001,動量為0.9,權重衰減系數為0.000 5。數據增強包括隨機旋轉、隨機亮度和對比度調整、RGB值漂移、JPEG壓縮質量、高斯噪聲、ISO噪聲、模糊等。
在關鍵點回歸實驗中,本文將12 000張仿真訓練數據集隨機分為6等分,進行6-fold交叉驗證,以更好地分析并選擇模型中的超參數。批大小為20,epoch總數為150。使用SGD進行優化,初始學習率為0.000 1,在第100個epoch之后降為0.000 01,動量為0.9,權重衰減系數為0.000 5。數據增強方法與2D目標檢測基本一致。考慮到Transformer模塊占用的顯存受輸入特征圖的尺寸影響較大,本文將裁減之后的圖像縮放為224×224。
在位姿求解的過程中,求解方法為EPnP,RANSAC算法中重投影誤差閾值為20個像素,最大迭代次數為20。
3.2.2 關鍵點與檢測框真值獲取
SPEED訓練集僅標注了目標衛星的位置和姿態,沒有給出目標衛星的三維模型。如圖8所示,本文以文獻[23]的方法為基礎,從訓練集中選擇若干圖像,手工選擇11個關鍵點,使用多視圖三角的方法求解關鍵點的三維坐標,以重投影誤差3為標準剔除粗大誤差。根據關鍵點三維坐標,重投影得到相對應的像素坐標,作為關鍵點回歸的真值,以關鍵點包圍框作為2D目標檢測的真值。

圖8 由位姿標注得到關鍵點和2D目標檢測標注流程圖Fig.8 Flow chart of acquiring keypoints and 2D bounding boxes from pose annotations


(21)
得到,其中:(·)表示透視模型,即
([,,])=[,,1]
(22)
在得到關鍵點三維坐標之后,由于訓練集中每幅圖像位姿真值已知,可以通過針孔成像模型式(1)得到每個關鍵點在每幅圖像中的像素坐標,從而得到關鍵點真值。
本節將仿真訓練數據集進行6等分,以前5組作為訓練集,最后1組作為測試集,分析主干網路結構、編/解碼器層數、查詢向量個數、圖像縮放尺寸對位姿估計精度的影響。本節分析實驗默認參數為:批大小為15,查詢向量個數為40,圖像縮放尺寸為224,epoch總數為150。由于模型訓練所占用的顯存受待考察超參數的影響,相應的編、解碼器層數越少,查詢向量個數越少,圖像縮放尺寸越小,則占用顯存越少,可增加批大小以獲得更好性能,因此最佳性能需要在本節實驗的基礎上調參獲得。
3.3.1 主干網絡
針對關鍵點回歸任務的特點,2.2節中設計了特征圖分辨率為輸入圖像1/8的主干網絡,本節將簡要分析主干網絡的作用。為方便描述,將本文設計主干網絡稱為ResNet50s8,將原ResNet-50的第3個殘差模塊輸入的網絡稱為ResNet50s16,后者特征圖分辨率為輸入圖像為1/16。為公平比較,實驗中將ResNet50s8和ResNet50s16的輸入尺寸分別設為224和448,使其特征圖分辨率相等。批大小設置為1,重復計算100次,統計主干網絡的平均計算耗時。兩者得分與計算耗時比較如表3所示。可見,在特征圖分辨率相同的情況下,本文設計的ResNet50s8在得分上有明顯優勢。在計算耗時上,本文在ResNet50s16的基礎上添加了上采樣層與2個卷積層,所增加的計算時間約為0.7 ms,幾乎可以忽略不計。

表3 2種主干網絡得分與耗時比較Table 3 Comparison of two backbones in terms of score and time-consumption
3.3.2 編、解碼器層數
為方便描述將編、解碼器層數為的模型稱為,圖9展示了不同模型得分隨訓練進行的變化。首先以最終得分來看,隨著編、解碼器層數的增加,模型得分先增加后減少。其次,隨著訓練進行,復雜度最高的和最低的的得分下降最慢,且收斂之后的最終得分也低于其他模型。其解釋為:一方面,編、解碼器層數過少,會導致對卷積網絡提取的特征解釋不足;另一方面,隨著編、解碼器層數的增加,不同特征之間相互包含程度越大,對關鍵點定位不利。在該試驗的設置下,當編、解碼器層數為5時達到最佳得分。當減少層數時,可以使用更大的批次進行訓練。因此,該超參數的最佳選擇范圍為3~5。

圖9 不同編、解碼器層數的模型在訓練過程中的得分Fig.9 Scores of models with different encoder/decoder layers during training
3.3.3 圖像輸入尺寸
2.2節中提到,提高特征圖分辨率有利于關鍵點回歸任務,因此,增加輸入圖像的尺寸應該也可以提高位姿估計精度。如表4所示,隨著圖像輸入尺寸的體征,模型得分呈現明顯的減小的趨勢,再次驗證了本文觀點。當輸入尺寸達到272時,模型得分略微上升,其原因可能有2點:① 實驗中噪聲所致;② 輸入尺寸應與RANSAC+PnP的參數相適配。但是輸入圖像越大,占用顯存急劇增加,對該值的選擇應在224~256。

表4 不同圖像輸入尺寸的模型得分Table 4 Scores of models with different input sizes
3.3.4 查詢向量個數
不同查詢向量個數的模型得分如表5所示,可見,隨著查詢向量數量的增加,位姿求解精度呈現微弱的提高趨勢。該現象可以解釋為模型的復雜性提高,增強了模型對數據的擬合。增加查詢向量個數會提高訓練所需顯存,因此該值的選擇不應超過40。

表5 不同查詢向量個數的模型得分Table 5 Scores of models with different query numbers
本節進行實驗分析位姿估計精度,并與業界最優方法進行比較。由于SPEED數據集沒有提供測試數據集的位姿真值,本節首先在訓練數據集上完成交叉驗證實驗,給出較為詳細的實驗數據分析;然后將測試集位姿估計結果上傳至比賽平臺得到評分,通過與同類型方法比較分析本文方法的優劣。
3.4.1 仿真訓練數據集實驗
將訓練數據集6等分,選擇其中5組進行訓練,剩余1組進行測試,6組實驗的詳細結果如表6所示。選擇SPN和文獻[14]進行對比,其中SPN將視角采樣離散化,將旋轉量預測描述為分類問題和偏移量回歸問題,并結合2D檢測結果求解平移量。文獻[14]采用的方法與本文方法類似,選擇11個關鍵點,在目標檢測部分使用更強的檢測器,在關鍵點回歸部分采用更復雜的主干網絡,圖像輸入尺寸與本文相同,使用維度為1×1×22的向量表示所有關鍵點序列。表6說明,相對于同類型基于關鍵點的方法,本文方法在旋轉量和平移量上有較高提升,驗證了本文方法的優勢。

表6 訓練數據集上的實驗結果Table 6 Experimental results on training dataset
圖10可視化了一組交叉實驗訓練過程中,模型在分割測試數據集上的歸一化重投影誤差為

(23)


圖10 一組交叉驗證實驗中不同迭代輪次的歸一化重投影誤差散點圖Fig.10 Scatter plots of normalized reprojection errors for different iteration epochs in a cross validation experiment

圖11 部分測試圖像上的預測結果Fig.11 Prediction results of some images from test set
3.4.2 測試數據集實驗
在使用單個模型進行預測的基礎上,本文將在仿真訓練數據上分割的6個訓練集上得到的模型進行集成,以得到更優效果。集成方法為將模型預測結果先以3為標準剔除,然后求平均。在部分真實、仿真測試圖像上的目標檢測與關鍵點重投影結果如圖12和圖13所示。

圖12 在仿真測試數據集上的部分圖像二維目標檢測與關鍵點重投影Fig.12 Results of 2D object detection and key points re-projection of part of synthetic test images

圖13 在真實測試數據集上的部分圖像二維目標檢測與關鍵點重投影Fig.13 Results of 2D object detection and key points re-projection of part of real test images
KPEC比賽中有48支隊伍提交了有效結果,表7選擇前5名的模型及基準模型與本文方法作比較,本文方法在仿真與真實測試集上均得到第3名的成績。除本文方法外,其他方法均使用訓練集中的5張真實圖像參加訓練,提高在真實測試集上的表現。結合表6中的實驗結果分析,在仿真測試集上的單模型實驗結果略高于表3中的6次實驗均值,但仍然在3標準以內,說明模型在仿真測試集上具有良好的泛化表現;在真實測試集上的得分高于表6中6次實驗的均值,其原因為仿真與真實測試圖像在光照與信噪比等方面有較大差異,導致模型泛化較差。

表7 各種模型在測試數據集上的得分Table 7 Scores of various models on test data sets
重點分析與本文方法類似的UniAdelaide和SLAB Baseline,兩者均使用關鍵點表示剛體目標。UniAdelaide使用11個關鍵點表示衛星目標,用熱力圖表示關鍵點真值,使用了HRNet輸出了高分辨率熱力圖,其尺寸為768×768,使用非極大值抑制(Non-Maximum Suppression, NMS)從熱力圖中提取關鍵點,并使用多個模型進行集成取得更好效果;SLAB Baseline采用類似于UniAdelaide類似的方法,以1×1×22的向量表示11個關鍵點。本文方法在仿真與真實測試集上的得分均優于SLAB Baseline,但在仿真測試集上低于UniAdelaide。可能原因是特征圖分辨率因素,UniAdelaide使用的特征圖為768×768,而本文方法使用的特征圖僅28×28,約為前者的1/27。使用分辨率較高的特征圖不僅會降低模型推理速度,也給后處理操作帶來較高計算量,嚴重影響模型實時性。此外,在真實測試數據集上,本文方法取得優于UniAdelaide的表現,說明本文方法在不同數據域間具有更好的泛化優勢。
本節針對算法實時性進行考察。測試平臺硬件為:NVIDIA RTX2080Ti顯卡,Intel i7-7700k CPU和16 GB RAM,軟件平臺為Python、Pytorch。模型參數為:編、解碼器層數為3,查詢向量個數為30,圖像縮放尺寸為224,主干網絡為ResNet50s8,批大小為1。模型推理各個部分耗時如表8所示,可見本文方法基本達到5幀/s。本文算法在目標檢測之后需要將原圖像進行裁剪縮放,依次經過圖像預處理和關鍵點回歸模型得到預測結果,其中,最為耗時的部分為關鍵點回歸部分。未來工作可以考慮優化主干網絡,減少編、解碼器中的計算量以提高模型實時性。

表8 模型推理過程中各部分耗時Table 8 Time consumption of every stage during model inference
如圖14所示,為更好地理解模型的工作原理,將最后一個解碼器中的交叉注意力權重,即查詢向量與來自編碼器的的相似性,進行可視化。其中圖14(a)為模型的預測結果,模型正確地預測了11個關鍵點的位置;圖14(b)~圖14(l) 依次為第0~10個關鍵點對應的查詢向量與可視化結果;圖14(m)為圖14(a)中顏色對應的關鍵點標簽序號。可見,交叉注意力權重較大的地方,對應著關鍵點在圖像中位置。交叉注意力權重更加類似于關鍵點熱力圖表示中的熱力圖,但構建熱力圖真值需要額外超參數,且從熱力圖中推理關鍵點位置需NMS或加權等操作。與之相比,本文的端到端關鍵點回歸模型無需額外參數,模型更加簡潔直接。

圖14 模型特征可視化Fig.14 Feature visualization
圍繞衛星目標單目位姿估計問題,針對已有基于卷積神經網絡方法存在歸納偏置、絕對距離描述不直接、長距離建模能力不足等問題,本文創新地將Transformer模型應用到剛體目標位姿估計任務中。首先,提出一種基于關鍵點集合的表示方法,集合中的每個元素由坐標項與分類項組成;其次,構建了基于該表示形式的損失函數;借鑒自然語言處理中的Transformer模型,設計了一種端到端的關鍵點回歸網絡模型,增強關鍵點間的上下文建模。本文在公開發布的SPEED數據集上對所提方法進行測試,實驗結果表明本文方法達到了與當前最優性能相當的性能表現,在遷移泛化性能方面優于已有同類型方法。特征可視化實驗表明解碼器的交叉注意力權重具有關鍵點熱力圖表示的特點,說明本文端到端關鍵點回歸模型具有隱式的熱力圖學習能力。
在進一步的工作中,可以考察具有線性計算和空間復雜度的注意力機制模型,同時也可以將本文關于剛體目標的表示形式擴展到多個目標和剛體目標的六自由度位姿跟蹤。