陳禹蒲 馬曉川 李 璇
(1.中國科學院聲學研究所中科院水下航行器信息技術重點實驗室,北京 100190;2.中國科學院大學,北京 100049)
側掃聲吶技術通過對海底散射物的散射回波進行處理獲取海底地形地貌特征[1-2]。由于側掃聲吶能夠直觀地提供海底形態(tài)的聲成像,且具有價格低廉、分辨率高等優(yōu)點,其在水下目標探測和識別領域有廣闊的應用前景[3-4]。然而,諸如聲吶盲區(qū)、混響和多徑等復雜的水下聲傳播特點導致了聲吶圖像中目標位置和類別的辨認往往需要專業(yè)人士進行解讀,這就不可避免地會耗費大量的人力。因此,研究自主的聲圖像目標檢測方法是十分重要的。
傳統(tǒng)的聲吶圖像目標檢測算法主要包括基于像素的檢測,基于特征的檢測和基于回波的檢測三種[5],其基本思路為根據聲吶圖像中的高亮和陰影特性來對目標是否存在進行判決。當高亮與陰影同時出現在某一區(qū)域時,說明該區(qū)域可能存在目標。若高亮與陰影相連,則目標為沉底目標,若高亮與陰影分開,則目標為懸浮目標。然而,傳統(tǒng)的目標檢測方法依賴于準確的數學模型的建立,當數學模型和真實的水聲環(huán)境存在差異時,算法的目標檢測性能也會隨之下降。
隨著深度學習目標檢測技術的發(fā)展,基于深度學習的聲吶圖像目標檢測問題獲得了諸多學者的關注。Faster R-CNN[6]作為一種兩階段的目標檢測網絡于2015 年被提出。它使用RPN(Region Proposal Network)網絡生成候選區(qū)域,提升了RCNN系列網絡[7-8]的檢測速度,并利用錨框回歸預測框的位置,提升了網絡的目標檢測性能。……