余俊宇,劉孫俊,許 桃
成都信息工程大學(xué) 軟件工程學(xué)院,成都 610225
隨著遙感技術(shù)領(lǐng)域迅速發(fā)展,遙感目標(biāo)檢測技術(shù)逐漸成為當(dāng)下研究的一個熱點(diǎn),其被廣泛應(yīng)用在國防、交通、城市建設(shè)發(fā)展等方面。對于遙感圖像而言,這些圖像中的目標(biāo)通常都是分布密集、尺度差異顯著,而且還會因光照、天氣和其他建筑的影響造成這些圖像的檢測背景十分復(fù)雜,從而給檢測過程帶來一定的影響。比如,對于遙感圖像中常見的飛機(jī)、汽車、油罐、操場等檢測目標(biāo)而言,飛機(jī)、汽車不僅分布密集、檢測尺度差異顯著而且還受一些外形相似的建筑影響,而油罐、操場的檢測會受檢測背景復(fù)雜等因素的影響。
在2012 年的ImageNet 圖像分類比賽中,基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)表現(xiàn)優(yōu)異,使得卷積神經(jīng)網(wǎng)絡(luò)得到快速發(fā)展,在目標(biāo)檢測中,卷積神經(jīng)網(wǎng)絡(luò)是目標(biāo)檢測的主要方向,而目前基于深度學(xué)習(xí)的目標(biāo)檢測算法可以分為兩類,一類是基于候選區(qū)域的雙階段目標(biāo)檢測算法,另一類是基于回歸的單階段目標(biāo)檢測算法。對于雙階段的目標(biāo)檢測算法通過專門的模塊生成候選框并尋找前景和調(diào)整候選框,再居于生成的邊界框進(jìn)一步分類及調(diào)整,其典型算法主要有SPP-Net[1]、Fast R-CNN[2]系列等,該類檢測算法精度高但速度慢;而對于單階段的目標(biāo)檢測算法是放棄生成候選框的階段,將檢測任務(wù)作為一個回歸問題,直接對目標(biāo)進(jìn)行分類和回歸操作,其典型算法主要有SSD[3]、YOLO[4]系列,對于該類算法,不僅具備較高的檢測精度同時還有較好的檢測速度,所以單階段的檢測算法得到廣泛的應(yīng)用。
由于使用的遙感圖像都存在檢測背景復(fù)雜、目標(biāo)尺度差異顯著以及分布密集等特點(diǎn),因此對于遙感目標(biāo)的檢測,研究人員都是利用遙感圖像實(shí)際存在的情況對應(yīng)用的模型展開具體的改進(jìn)從而提升網(wǎng)絡(luò)的檢測精度。Xu 等人[5]針對YOLOv3 網(wǎng)絡(luò)對遙感目標(biāo)的特征提取能力不足,從而通過增加DenseNet[6]模塊提升主干網(wǎng)絡(luò)對遙感目標(biāo)的特征提取能力以提升網(wǎng)絡(luò)的檢測精度,但是由于DenseNet 模塊有較深的網(wǎng)絡(luò)結(jié)構(gòu),包含了大量的參數(shù),會使得改進(jìn)的網(wǎng)絡(luò)訓(xùn)練時間變長,而且可能會造成網(wǎng)絡(luò)出現(xiàn)過擬合的現(xiàn)象;李惠惠等人[7]為了提升網(wǎng)絡(luò)對遙感目標(biāo)檢測的性能,通過將網(wǎng)絡(luò)的檢測層增加至4個,從而提升網(wǎng)絡(luò)對目標(biāo)的檢測能力,進(jìn)一步降低網(wǎng)絡(luò)對遙感目標(biāo)的漏檢率,但是對于遙感圖像中尺寸大小不一的目標(biāo)其效果也存在缺陷;Qing 等人[8]通過對YOLO模型的主干網(wǎng)絡(luò)進(jìn)行優(yōu)化,其使用RepVGG[9]作為骨干特征提取模塊用以提升網(wǎng)絡(luò)對遙感目標(biāo)的特征提取能力,對于該模塊同樣存在Xu 等人[5]出現(xiàn)的問題,加入該模塊會增加大量的參數(shù),使得計算變得更復(fù)雜,進(jìn)而影響整個網(wǎng)絡(luò)的性能;Yang 等人[10]通過將GIOU[11]損失函數(shù)替換原網(wǎng)絡(luò)的損失函數(shù)使得改進(jìn)后的網(wǎng)絡(luò)對遙感圖像中的飛機(jī)等檢測目標(biāo)的預(yù)測框回歸精度和收斂速度都得到提升;同樣,高倩等人[12]利用邊界框回歸之間的向量角度從而引入SIOU[13]損失函數(shù)使得模型的檢測精度得到提升,但是對于GIOU損失函數(shù)而言很容易退化成IOU,無法區(qū)分預(yù)測框與真實(shí)框的相對位置,而SIOU對目標(biāo)存在遮擋和類似于目標(biāo)的其他非檢測目標(biāo)的處理效果會出現(xiàn)誤差較大的情況;Hou等人[14]針對遙感圖像中存在目標(biāo)分布密集并且檢測背景復(fù)雜,其通過將卷積注意力機(jī)制[15]引入到Y(jié)OLOv5網(wǎng)絡(luò)中,以提升網(wǎng)絡(luò)對密集目標(biāo)的檢測精度,但是由CBAM 可知該模塊更適合用于檢測大目標(biāo),而對于遙感圖像中的目標(biāo),其中的小目標(biāo)和細(xì)節(jié)信息得不到很好的表現(xiàn)。
通過上述可以發(fā)現(xiàn),針對遙感圖像普遍存在的分布密集、目標(biāo)尺度差異顯著、檢測背景復(fù)雜等問題,研究人員基本的改進(jìn)方法都是通過優(yōu)化網(wǎng)絡(luò)的特征提取能力、增加模型對待檢測目標(biāo)的關(guān)注度,但大多數(shù)方法考慮對目標(biāo)特征的提取都是停留在層間特征交互這個關(guān)系,而沒有想過層內(nèi)特征規(guī)則這個關(guān)系。因此,本文選擇以YOLOv7[16]網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),并根據(jù)上述的分析來提升網(wǎng)絡(luò)的檢測效果。YOLOv7 模型作為較為優(yōu)秀的目標(biāo)檢測模型,雖然對于一些大目標(biāo)而言,其檢測效果比較好,但是對于遙感目標(biāo),該類目標(biāo)的圖像中存在大量的背景信息,絕大多數(shù)都是小目標(biāo)而且分布密集,存在遮擋,模型很難從全局的角度上完整地提取目標(biāo)的特征,并且由于大量的背景信息,模型的注意力大都集中在背景信息上,使得模型對遙感目標(biāo)的檢測效果不佳。由于YOLOv7在遙感圖像中存在的問題,本文將針對遙感圖像中存在大量背景信息、目標(biāo)特征提取困難等角度對YOLOv7模型進(jìn)行優(yōu)化。首先,為了模型能夠完整地提取遙感目標(biāo)的特征,本文通過結(jié)合層內(nèi)特征圖的關(guān)系,使用集中特征金字塔獲取目標(biāo)的完整特征信息;其次,為了加強(qiáng)模型對待檢目標(biāo)的關(guān)注度,并且為了不影響整個模型的性能,本文結(jié)合卷積與自注意力機(jī)制組成一種混合注意力模塊,提升模型對目標(biāo)的注意力并且通過使用WIOU損失函數(shù)提升網(wǎng)絡(luò)對檢測目標(biāo)的定位能力,進(jìn)一步提升網(wǎng)絡(luò)的檢測能力。
因此,對于本文所提出的方法,主要工作分為:(1)由于遙感圖像存在大量的背景信息而且待檢目標(biāo)尺度差異顯著并且分布密集、相互遮擋,本文針對這些問題,對其進(jìn)行優(yōu)化,提出一種優(yōu)化后的目標(biāo)檢測新網(wǎng)絡(luò)。(2)對于優(yōu)化的方法,首先結(jié)合全局語義與局部語義的思想,通過在YOLOv7網(wǎng)絡(luò)的頸部使用集中特征金字塔,使網(wǎng)絡(luò)充分地提取待檢目標(biāo)的特征;其次,為了加強(qiáng)網(wǎng)絡(luò)對目標(biāo)的注意力,通過在網(wǎng)絡(luò)的backbone 中CBS 模塊和尾部中使用混合注意力模塊,在提升對待檢目標(biāo)的關(guān)注度的同時不增加網(wǎng)絡(luò)的參數(shù);最后通過WIOU 損失函數(shù)提升網(wǎng)絡(luò)對檢測目標(biāo)的定位能力。(3)將改進(jìn)后的YOLOv7模型在RSOD數(shù)據(jù)集上進(jìn)行實(shí)驗,最終結(jié)果表明,本文所改進(jìn)的方法對aircraft、oiltank、playground 檢測的Map相對于原YOLOv7提升了0.068、0.061、0.098。
YOLO 系列算法經(jīng)歷一系列迭代,目前最新版本YOLOv7是由Chien-Yao Wang等人于2022年7月提出。該算法主要由三部分組成:第一部分為輸入端,輸入端是尺寸為640×640三通道的RGB訓(xùn)練圖像;第二部分是BackBone 主干網(wǎng)絡(luò),與之前YOLO 系列的主干網(wǎng)絡(luò)不同的是,該版本的主干網(wǎng)絡(luò)主要是由ELAN模塊、MP模塊組成,其中ELAN模塊主要用于圖像的特征提取和通道數(shù)控制,MP 模塊用于保持輸入前和輸入后的通道數(shù)一致;第三部分是Head結(jié)構(gòu),該結(jié)構(gòu)是由改進(jìn)空間池化結(jié)構(gòu)SPP 后提出的SPPCSPC 模塊、PaFPN 結(jié)構(gòu)以及輸出端組成,該結(jié)構(gòu)通過將高層特征圖與底層特征圖反復(fù)進(jìn)行特征融合再進(jìn)行特征提取,最后對生成的特征圖進(jìn)行預(yù)測輸出。YOLOv7算法的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖1所示。
在YOLOv7的網(wǎng)絡(luò)結(jié)構(gòu)中,采用的卷積核的大小有1×1和3×3兩種,在Backbone主干網(wǎng)絡(luò)中,為了不破壞原有梯度路徑的前提下提高網(wǎng)絡(luò)學(xué)習(xí)的能力,故YOLOv7提出了一種ELAN 模塊,用于加強(qiáng)網(wǎng)絡(luò)的特征提取能力;在進(jìn)入到Head部分,網(wǎng)絡(luò)依舊采用FPN與PANet思想,對生成的三個網(wǎng)絡(luò)特征層反復(fù)融合再提取,最后生成了分別為20×20、40×40、80×80 的特征圖分別用來檢測圖像中存在的大目標(biāo)、中目標(biāo)、小目標(biāo)。
對于生成的特征圖,YOLOv7依舊延續(xù)YOLO系列的方法去進(jìn)行類別預(yù)測,首先將生成的特征圖分為S×S個網(wǎng)格,對于每個網(wǎng)格用來檢測物體中心點(diǎn)落入該網(wǎng)格的目標(biāo)并計算三個目標(biāo)預(yù)測框,對每個的預(yù)測框都有五個參數(shù),分別代表框的中心的坐標(biāo)(x,y)和高寬尺度(w,h)以及預(yù)測框的置信度(Confidence)。預(yù)測框的置信度代表當(dāng)前預(yù)測框內(nèi)是否有對象的概率,其計算公式如式(1)所示:
對于背景復(fù)雜的遙感圖像,因其背景范圍較大且受光照因素以及圖像中其他紋理形狀類似的建筑以及檢測目標(biāo)相互遮擋的原因,導(dǎo)致YOLOv7網(wǎng)絡(luò)對遙感目標(biāo)特征的提取不夠充分,造成YOLOv7對遙感目標(biāo)的檢測效果不佳。因此,本文通過在YOLOv7網(wǎng)絡(luò)的頸部使用一種集中特征金字塔CFP[17]模塊,來加強(qiáng)網(wǎng)絡(luò)對遙感圖像中目標(biāo)的特征提取能力,如圖2為該模塊的網(wǎng)絡(luò)結(jié)構(gòu)圖。

圖2 CFP結(jié)構(gòu)圖Fig.2 CFP structure diagram
具體而言,在得到網(wǎng)絡(luò)Backbone 部分輸出的深層特征圖時,將該深度特征圖經(jīng)過一個stem 模塊平滑處理,對特征圖上的噪聲進(jìn)行抑制,從而保留特征圖的具體細(xì)節(jié),之后輸入到CFP 模塊中,CFP 是由輕量級MLP與視覺中心LVC并行連接的模塊而組成的,如圖所示。對于CFP 模塊中的MLP 而言,其作用是捕獲全局的長依賴關(guān)系,使用該模塊可以獲得更全面、更準(zhǔn)確的遙感圖像中尺度差異較大目標(biāo)的特征表示,從而提高目標(biāo)的識別和分類的準(zhǔn)確性以及更加準(zhǔn)確地對目標(biāo)進(jìn)行一個定位。對于該過程可以用于式(2)表示:
對于LVC 而言,該模塊主要是由卷積層、全連接層以及字典編碼器組成。通過卷積層對輸入特征進(jìn)行編碼,并使用具有歸一化的卷積和Relu 激活函數(shù)組成的CBR模塊對編碼進(jìn)行處理并輸送到字典編碼器當(dāng)中,使用編碼器能夠獲得關(guān)于編碼的整個圖像的完整信息,之后通過將編碼器的輸出饋送到全連接層和卷積層以預(yù)測突出關(guān)鍵類的特征。在遙感圖像中使用LVC模塊能夠捕獲圖像的局部角落區(qū)域,通過該模塊可以更好地辨別出遙感圖像中需要檢測的目標(biāo)和那些與目標(biāo)相似的背景和建筑,可以更好地找出需要檢測的目標(biāo),而且對于遙感圖像而言,需要檢測的目標(biāo)不一定在圖像的中心,該模塊還可以調(diào)整網(wǎng)絡(luò)的關(guān)注的區(qū)域,避免出現(xiàn)漏檢的現(xiàn)象,從而提高目標(biāo)檢測的準(zhǔn)確性。對于該過程可以用于式(3)表示:
其中,Z的計算公式如式(4)所示:
最后通過并行連接MLP 與LVC 的輸出結(jié)果,最終使得網(wǎng)絡(luò)能夠充分提取遙感目標(biāo)的具體特征。為了使網(wǎng)絡(luò)能夠充分提取遙感目標(biāo)的特征,這里通過將CFP模塊嵌入到Y(jié)OLOv7 網(wǎng)絡(luò)中的頸部,如圖3 所示,CFP 不僅通過NLP以全局的角度出發(fā)獲取頂層特征圖中目標(biāo)的特征,而且還考慮了特征圖的局部信息,從而使網(wǎng)絡(luò)充分提取檢測目標(biāo)的特征信息,提高對目標(biāo)的檢測精度。
對于遙感圖像中的小目標(biāo)而言,在檢測該類目標(biāo)時,往往會因為其特征的表現(xiàn)能力不足,并且分布的空間位置不定,檢測網(wǎng)絡(luò)極易忽略該類小目標(biāo),從而導(dǎo)致網(wǎng)絡(luò)在檢測過程中存在一些漏檢誤檢的情況,因此需要使網(wǎng)絡(luò)能夠更加關(guān)注該類目標(biāo)。而目前自注意力機(jī)制在自然語言處理(NLP)領(lǐng)域表現(xiàn)突出,于是注意力機(jī)制被引入計算機(jī)視覺領(lǐng)域,雖然注意力機(jī)制擁有較強(qiáng)的模型能力,但是缺乏歸納偏置的特性,所以其泛化性相對于卷積來說處于劣勢。文獻(xiàn)[18]為了結(jié)合transformer與卷積的優(yōu)點(diǎn),提出一種新的結(jié)構(gòu)CoAtNet,受該文獻(xiàn)啟發(fā),本文同樣結(jié)合自注意力與卷積的優(yōu)點(diǎn)引入一種新的注意力機(jī)制ACmix[19],該模塊不僅能夠加強(qiáng)網(wǎng)絡(luò)對遙感圖像中目標(biāo)的敏感度而且還能降低由背景帶來的噪聲影響。如圖4為ACmix的結(jié)構(gòu)圖。

圖4 ACmix結(jié)構(gòu)圖Fig.4 ACmix structure diagram
首先通過將輸入的特征圖通過投影、分割后并在深度維度上進(jìn)行連接,得到一組的豐富中間特征集對于采用卷積的路徑,中間特征集先通過通道層的全連接對通道進(jìn)行擴(kuò)張,之后對其位移,再聚合成對應(yīng)的維度。該路徑能夠很好地提取遙感圖像中局部的特征信息,并將不同層級的特征進(jìn)行融合,該路徑最終能夠得到H×W×C的特征輸出。對于采用自注意力的路徑,將中間特征聚合為N個組,每一組包含三個特征圖并且每個組都是由不同的1×1的卷積產(chǎn)生的特征,之后將這三個特征圖作為查詢、鍵、值輸入到多頭自注意力模塊中。該路徑不僅從圖像的全局考慮而且又充分關(guān)注目標(biāo)存在的區(qū)域,該路徑最終能夠得到H×W×C的特征輸出。最后,通過concat操作得到最終輸出結(jié)果。
因此,原網(wǎng)絡(luò)通過添加該注意力模塊能夠更好地關(guān)注重要的區(qū)域,同時也能關(guān)注到其他一些非重要的局部區(qū)域,如圖5 所示,本文通過將該注意力模塊嵌入到主干Backbone 中的CBS 模塊以及主干Backbone 的末尾,讓網(wǎng)絡(luò)提升對重要區(qū)域內(nèi)與非重要區(qū)域的目標(biāo)特征的提取能力。例如對分布零散的飛機(jī)的注意力更大了,能夠減少在檢測過程中對飛機(jī)漏檢的情況。

圖5 ACmix模塊嵌入示意圖Fig.5 ACmix module embedding diagram
在原YOLO7 網(wǎng)絡(luò)中,計算預(yù)測框的坐標(biāo)損失所采用的是CIOU[20]損失函數(shù),其計算如式(5)所示:
雖然CIOU 對于大多數(shù)損失函數(shù)而言,其考慮了預(yù)測框的重疊面積、中心距離、高寬比,但通過上式可以看出當(dāng)預(yù)測框與真實(shí)框重合時v=0,此時長寬比的懲罰項沒有起到任何作用,并且在預(yù)測框的回歸中,高質(zhì)量的預(yù)測框一般而言要比低質(zhì)量的預(yù)測框少得多,將影響網(wǎng)絡(luò)的訓(xùn)練,于是受focal EIOU[21]損失函數(shù)的啟發(fā),提出動態(tài)非單調(diào)的聚焦機(jī)制,引入WIOU[22]損失函數(shù)。其計算公式如式(6)所示:
本實(shí)驗訓(xùn)練所用環(huán)境為Window10 操作系統(tǒng),CPU處理器型號為Intel Xeon CPU,顯卡型號為NVIDIA TITAN Xp,使用Python語言基于Pytorch框架搭建運(yùn)行環(huán)境,并采用CUDA 11.6加速工具箱。
本實(shí)驗所用數(shù)據(jù)集為武漢大學(xué)于2017年所制作的RSOD遙感數(shù)據(jù)集。對于遙感數(shù)據(jù)集而言,由于其拍攝獲取的方式都是由空中對地進(jìn)行數(shù)據(jù)的獲取,拍攝的角度、方式將使拍攝的目標(biāo)特征與真實(shí)的目標(biāo)特征不一致,從數(shù)據(jù)集中可以看出,這些檢測的目標(biāo)通常存在分布密集、大小不一,并且由于光照等因素,將導(dǎo)致數(shù)據(jù)的檢測背景十分復(fù)雜,通過考慮數(shù)據(jù)集的大小以及設(shè)備因素,本文將選取RSOD數(shù)據(jù)集中的包含飛機(jī)、油管、操場的數(shù)據(jù)組成一個新的數(shù)據(jù)集進(jìn)行研究。新的數(shù)據(jù)集總共包含800 張圖片,總共7 263 個檢測目標(biāo),其中飛機(jī)5 374個,油罐1 698個,操場191個,如圖6所示,因?qū)嶒灴紤]將數(shù)據(jù)依照6∶1∶1 的比例劃分為訓(xùn)練集、驗證集、測試集。

圖6 數(shù)據(jù)示例圖Fig.6 Data example figure
在本實(shí)驗中,對模型性能好壞的評估將采用平均精度率(mean average precision,mAP)和幀率(frame per second,F(xiàn)PS)作為實(shí)驗結(jié)果的評估指標(biāo)。平均精度率能夠檢測模型對待檢目標(biāo)的預(yù)測框類別和具體位置是否正確,該值是由精確率和召回率共同計算得出,其中精確率是指預(yù)測結(jié)果中,正確預(yù)測樣本為正的樣本數(shù)占總體預(yù)測為正樣本總數(shù)的比例,召回率是指在正確識別的正例樣本占實(shí)際的正例樣本總數(shù)的比例。其計算公式如式(7)所示:
式中,TP為將正類預(yù)測為正類的數(shù)量,F(xiàn)P為將負(fù)類預(yù)測為正類的數(shù)量,F(xiàn)N為將正類預(yù)測為負(fù)類的數(shù)量。對于平均精度均值,是指所使用的數(shù)據(jù)集中每個類別平均檢測精度(AP)的均值,其計算公式如式(8)所示:
式中,n為所有類別的數(shù)量,AP的值為召回率-準(zhǔn)確率曲線下的面積。
對于另外一個指標(biāo)幀率,該指標(biāo)是來評價一個模型的檢測速度,其數(shù)值越大,表明模型的檢測速度越快。
通過將原YOLOv7 網(wǎng)絡(luò)與改進(jìn)后的網(wǎng)絡(luò)放在相同的實(shí)驗平臺進(jìn)行實(shí)驗,對網(wǎng)絡(luò)中損失函數(shù)的收斂性和迭代過程中mAP值的變化進(jìn)行對比驗證,如圖7為兩種網(wǎng)絡(luò)中損失函數(shù)loss隨網(wǎng)絡(luò)迭代次數(shù)的變化曲線。圖8為兩種網(wǎng)絡(luò)的mAP隨網(wǎng)絡(luò)迭代次數(shù)的變化曲線。

圖7 模型的損失函數(shù)Fig.7 Loss function of the model

圖8 mAP變化的曲線Fig.8 mAP change curve
從圖7中可以看出,兩種網(wǎng)絡(luò)都隨著迭代次數(shù)的增加最終都處于一個收斂的狀態(tài),但由圖可以看出本文模型損失函數(shù)的值比YOLOv7的損失函數(shù)的值明顯要小,其穩(wěn)定性也要更高,因此使用本文改進(jìn)的損失函數(shù)將能夠提升網(wǎng)絡(luò)的性能,使網(wǎng)絡(luò)對邊界框的損失更小。圖8體現(xiàn)出本文改進(jìn)算法能夠很好地提高對檢測目標(biāo)的檢測精度。
為了驗證本文所使用的方法在遙感目標(biāo)檢測中的實(shí)際效果,本文在RSOD數(shù)據(jù)集上對改進(jìn)的模塊進(jìn)行一系列的消融實(shí)驗。如表1所示,√表示使用該模塊。在表中YOLOv7_4、YOLOv7_5、YOLOv7_8分別對應(yīng)的是添加WIOU、CFP、ACmix 模塊;當(dāng)針對網(wǎng)絡(luò)的損失函數(shù)進(jìn)行優(yōu)化時,本文所使用的WIOU從整體效果來說要優(yōu)于SIOU 和Facal IOU,相比較于原YOLOv7,三個待檢目標(biāo)的mAP 也得到了優(yōu)化,整體mAP 提升0.007;而為了提升網(wǎng)絡(luò)對待檢目標(biāo)的注意力,本文使用的混合注意力模塊ACmix 相對于CBAM 和SimAM 這兩個模塊來說,分別提高了0.019、0.006,而對于原YOLOv7,則是提升了0.069;而使用集中特征金字塔CFP 從全局的角度提取待檢目標(biāo)的特征,從表中可以看出,使用該模塊相對于原YOLOv7網(wǎng)絡(luò),提升了0.059;當(dāng)同時添加WIOU,CFP,ACmix模塊時即本文方法,可以看出,對三個待檢目標(biāo)的效果有明顯的提升,相對于原YOLOv7 網(wǎng)絡(luò),本文方法整體提升了0.075。從整體上看,本文使用的方法相對于前面的方法,本文檢測效果達(dá)到最好。因此,實(shí)驗結(jié)果證明了本文所改進(jìn)的方法在遙感圖像目標(biāo)檢測上具有很好的效果。

表1 不同模塊精度對比Table 1 Precision comparison of different modules
為了驗證改進(jìn)算法對遙感目標(biāo)的檢測性能,將改進(jìn)的網(wǎng)絡(luò)與原網(wǎng)絡(luò)和具有代表性的網(wǎng)絡(luò)如Faster Rcnn、SSD、YOLOv5、DenseNet-yolov3 等以FPS 和mAP 指標(biāo)進(jìn)行對比,其實(shí)驗結(jié)果如表2 所示。從表中可以看出,雖然改進(jìn)后網(wǎng)絡(luò)的FPS 指標(biāo)不及SSD、DC-SPP-YOLO等其他網(wǎng)絡(luò),但對于三個檢測目標(biāo)的mAP 值都達(dá)到了最好的效果。對于檢測的三個目標(biāo),YOLOv7系列的網(wǎng)絡(luò)相對于經(jīng)典的YOLOv5 網(wǎng)絡(luò)和優(yōu)化的YOLOv3 網(wǎng)絡(luò)而言,三個目標(biāo)的mAP都有明顯的提升,對于YOLOv5而言,原YOLOv7 對于aircraft、oiltank、playground 分別提升了0.015、0.025%和0.053,而本文改進(jìn)后的網(wǎng)絡(luò)在此基礎(chǔ)上進(jìn)一步提升了0.068、0.061 和0.098;對于其他研究人員提出的DenseNet-yolov3,本文改進(jìn)后的網(wǎng)絡(luò)對于aircraft、oiltank、playground 分別提升了0.12、0.109和0.08。而對于網(wǎng)絡(luò)檢測中的FPS,可以明顯地看出,單階段的檢測算法要明顯優(yōu)于雙階段的檢測算法,從表中可以看出,由于本文對原網(wǎng)絡(luò)添加了改進(jìn)模塊從而導(dǎo)致本文改進(jìn)的網(wǎng)絡(luò)在檢測效率略低于YOLOv7 和YOLOv5,但是總體而言,本文所改進(jìn)的方法在檢測精度方面可以更好地彌補(bǔ)這一缺點(diǎn)帶來的影響。

表2 不同網(wǎng)絡(luò)對比Table 2 Comparison of different networks
為了可以更直觀地體現(xiàn)實(shí)驗效果,分別使用YOLOv7和本文改進(jìn)的方法對遙感圖像進(jìn)行可視化實(shí)驗展示,其中包括在小目標(biāo)、目標(biāo)尺度差異顯著以及背景復(fù)雜情況下的目標(biāo)檢測。圖9 代表的是小目標(biāo)并且相同類型的目標(biāo)之間大小相差較大的aircraft 檢測,從圖中可以看出,本文改進(jìn)的方法能夠?qū)⒊叽鐦O小和尺寸差異較大的aircraft檢測出來,而原YOLOv7對于尺寸較小且特征不夠明顯的目標(biāo)則會出現(xiàn)漏檢的現(xiàn)象;圖10 代表的是紋理背景復(fù)雜下的playground 檢測,相較于YOLOv7 而言,本文算法同樣可以將YOLOv7漏檢目標(biāo)全部檢測出來,進(jìn)一步提升檢測效果。圖11 代表的強(qiáng)光背景復(fù)雜下的oiltank 檢測,對于該目標(biāo)的檢測,雖然原YOLOv7檢測效果不錯,但是本文算法檢測精度更高,效果更好。因此可以說明,本文使用的方法能夠很好地提高檢測效果。

圖9 小目標(biāo)且目標(biāo)尺度差異較大的aircraft檢測Fig.9 Aircraft detection with small targets and significant differences in target scales

圖10 紋理復(fù)雜背景下的playground檢測Fig.10 Playground detection in complex textured backgrounds

圖11 強(qiáng)光復(fù)雜背景下oiltank的檢測Fig.11 Oilbank detection under strong light and complex background
在遙感圖像中,因小目標(biāo)的特征難以捕獲,而且相同目標(biāo)尺寸差異較大所處的檢測背景復(fù)雜從而加大了檢測任務(wù)的難度,因此,本文首先從全局的角度出發(fā)充分考慮角點(diǎn)區(qū)域,通過在網(wǎng)絡(luò)中加入集中特征金字塔CFP,提升網(wǎng)絡(luò)對背景復(fù)雜下的密集目標(biāo)的檢測能力;其次,為了同時擁有自注意力機(jī)制與卷積注意力機(jī)制的優(yōu)點(diǎn),本文在網(wǎng)絡(luò)中引入新的注意力模塊ACmix,增加網(wǎng)絡(luò)對小目標(biāo)的敏感度;最后通過使用新的WIOU損失函數(shù),提升網(wǎng)絡(luò)對檢測目標(biāo)的定位能力。通過將改進(jìn)的網(wǎng)絡(luò)在公開的遙感數(shù)據(jù)集中進(jìn)行訓(xùn)練,通過最終的實(shí)驗表明,改進(jìn)后的網(wǎng)絡(luò)要優(yōu)于其他網(wǎng)絡(luò),實(shí)現(xiàn)了網(wǎng)絡(luò)最終優(yōu)化的一個目的。但在提升的網(wǎng)絡(luò)中,當(dāng)對于一些更加微小并外觀特征特別接近于待檢目標(biāo)的非檢測目標(biāo),網(wǎng)絡(luò)存在一些誤檢、漏檢的情況,接下來的研究方向是通過增加數(shù)據(jù)集,優(yōu)化網(wǎng)絡(luò)對于圖像中密集小目標(biāo)的檢測能力。