路 昊 石 敏 李 昊 朱登明
(*華北電力大學控制與計算機工程學院 北京 102200) (**中國科學院計算技術研究所前瞻研究實驗室 北京 100190) (***太倉中科信息技術研究院 太倉 215400)
近20年的時間里,增強現實無論在技術層面還是應用層面都得到了前所未有的發展。對于現實中普遍應用的單目視覺而言,連續運動的相機的位姿估計是3維姿態估計的核心技術。傳統的3維姿態估計方法存在許多的局限,GPS無法應用于室內定位且定位精度較低;高精度的慣性導航單元價格過于昂貴,低廉的精度損失又相對過大;基于人工標識的定位方法需要預先設定場景,導致應用場景無法擴展。而反觀人類,依靠雙眼獲取的視覺信息就可實現對周圍環境的感知,因此基于連續視頻序列的相機運動姿態估計,即通過攝像頭采集的視頻圖像信息就可以實現在位置環境下的自身定位,同時恢復周圍環境的3維結構,這對于增強現實設備實現自身與虛擬物體的相對運動映射關系尤為重要。
由于基于特征點匹配估計相機姿態的方法受目標場景特征提取的難易程度影響較大,尤其是在復雜動態場景下,由于相機的快速運動或者目標場景的快速變化導致特征點提取效果不理想。基于這種情況,利用端到端的深度學習方法來解決這一問題成了研究的重點。
Kendall等人[1]提出了一種具有魯棒性和實時性的單目相機6自由度重定位方法。通過卷積神經網絡(convolution neural network, CNN)對輸入的單張RGB圖像進行6自由度相機姿態的回歸預測。……