999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx

基于雙流對比特性學習和圖像多尺度退化增強的小目標檢測方法

2024-12-14 00:00:00王宇何志康朋新涂曉光周超劉建華雷霞王文敬
南京信息工程大學學報 2024年6期

摘要針對小目標檢測任務中目標圖像尺寸小、目標特征信息模糊、目標和背景難區(qū)分等問題,提出一種基于雙流對比特性學習和圖像多尺度退化增強的小目標檢測方法.首先,將對比學習模型的輸入圖像進行多尺度退化增強,增強算法對小目標的捕獲感知;其次,在空間域和頻率域同時進行對比學習表征,以學習更具鑒別性的目標識別特征,增強模型對目標與背景的區(qū)分能力,從而提高小目標檢測的效果.為驗證所提方法的有效性設計了消融實驗,并對比分析了與其他先進算法的檢測性能優(yōu)劣.實驗結果表明:所提方法在MS COCO數(shù)據(jù)集上平均精度均值mAP相較基線算法提升3.6個百分點,小目標平均精度均值mAPS相較主流先進算法提升7.7個百分點;在VisDrone2019數(shù)據(jù)集上,所提方法平均精度均值mAP較基線算法提升2.4個百分點,所提方法綜合性能優(yōu)于基線算法與其他主流先進算法.可視化檢測效果分析表明,所提方法在小目標檢測上的漏檢、誤檢問題得到較大改善.

關鍵詞小目標檢測;對比學習;雙流網(wǎng)絡;圖像退化;圖像增強;多尺度

中圖分類號TP391.4

文獻標志碼A

0 引言

隨著高性能硬件與深度學習架構的迅速發(fā)展,小目標檢測作為目標檢測的重要子領域,被廣泛應用于虛擬現(xiàn)實[1]、航拍圖像檢測[2]、自動駕駛[3]、搜救搜查[4]等領域.由于上述場景存在檢測角度多變、背景復雜、目標特征信息少、小目標物體密集、目標與背景之間尺度失衡等問題,對圖像中的物體進行實時檢測與精準定位就更具挑戰(zhàn).目前,基于卷積神經(jīng)網(wǎng)絡深度學習的主流目標檢測算法主要分為兩階段算法(Two-Stage)與單階段算法(Single-Stage)兩類.兩階段算法(如Faster R-CNN[5]、Mask R-CNN[6]、Mask-R-FCN[7])通常包含兩個步驟:生成目標區(qū)域候選區(qū)域;對候選區(qū)域進行分類和邊界框回歸.單階段算法(如DF-SSD[8]、Mini-YOLOv3[9]、TPH-YOLOv5[10])則通過一次前向傳播直接完成目標檢測.

近年來,研究人員為提升小目標檢測性能,做了許多研究.Betti 等[11]提出的YOLO-S利用一個小的特征提取器,通過旁路和級聯(lián)的跳過連接,以及一個重塑直通層來促進跨網(wǎng)絡的特征重用,并將小目標低級位置信息與更有意義的高級信息相結合,但是面對復雜環(huán)境時其檢測效果依然具有局限性.Wei 等[12]以特征變換的方式增強特征通道間的通信,該方案能夠根據(jù)全局特征相關性自適應確定每個通道的校準權重以減少計算資源并提升小目標檢測性能.Gong 等[13]使用一個新概念“融合因子”來控制深層向淺層傳遞的信息量,以使特征金字塔網(wǎng)絡(FPN)適應小目標檢測.Zhu等[14]提出一種基于特征增強的機場小目標檢測方法,在增強記憶的全局-局部聚合(MEGA)基礎上構建了一個關注多尺度特征融合增強(A-MSFFE)網(wǎng)絡,以補充小物體的語義和空間信息,并設計了一個上下文特征增強(CFE)模塊,通過不同的膨脹卷積獲得不同的感受野.秦強強等[15]將通道注意力(CA)和空間注意力(SA)相結合,重新組合連接結構,提出一種混合注意力模塊(MAM),根據(jù)不同大小的感受野對目標影響的不同,基于混合注意力提出一種多分支混合注意力模塊(SMAM),增強不同分支下對小目標特征信息的捕獲能力,但過度特征提取網(wǎng)絡的深度會導致其自身特征信息的丟失.李利霞等[16]在YOLOv5主干網(wǎng)絡中融入多頭注意力機制,使用淺層特征增強模塊來學習底層特征信息,設計了一種多級特征融合模塊,將不同層級的特征信息進行聚合,使網(wǎng)絡能夠動態(tài)調節(jié)各輸出檢測層的權重,該方法雖然對航拍圖像小目標檢測效果有所改進,但對小目標的誤檢、漏檢仍然存在.

由于小目標對象分辨率低(分辨率小于32×32像素[17]),在圖像中像素占比少,極易與圖像背景混合在一起,小目標檢測任務亦可以近似為低分辨率圖像目標檢測.在算法提取目標特征時,隨著下采樣次數(shù)增多,特征圖尺寸不斷減小,小目標對象的特征變得難以提取,導致算法檢測過程對小目標定位識別出現(xiàn)嚴重偏差,不能有效區(qū)分檢測小目標和圖像背景.針對以上問題,本文提出一種基于空頻雙流對比學習的改進小目標檢測算法,其主要創(chuàng)新如下:

1)所提算法利用對比學習來學習表征特征空間中更多具有區(qū)分性和通用性的語義表征,用以區(qū)分圖像背景和檢測目標,而不是僅僅依賴于所標記的訓練數(shù)據(jù).

2)所提算法使用圖像多尺度退化增強,對小目標對象進行多種不同尺度的圖像退化增強,增強算法對不同尺度低分辨率圖像的特征感知能力.

3)將對比學習模塊設計為空域和頻域的雙流網(wǎng)絡,允許算法模型同時學習目標圖像來自空域和頻域的雙重特征信息,為目標檢測網(wǎng)絡創(chuàng)造更多的可鑒別性的融合特征.

1 網(wǎng)絡模型框架

如圖1所示,所提算法的整體架構包括一個雙流對比學習網(wǎng)絡和目標檢測網(wǎng)絡,其中,雙流對比學習網(wǎng)絡負責在空域和頻域提取圖像的語義特征,目標檢測網(wǎng)絡負責目標檢測.在雙流對比學習網(wǎng)絡訓練前,其輸入圖像將進行多尺度退化增強,增強算法對小目標的捕獲感知,雙流對比學習網(wǎng)絡提取到的高層次語義特征將繼續(xù)用來幫助目標檢測網(wǎng)絡進一步提取到更多的強辨別性和廣泛通用性的語義特征,目標檢測網(wǎng)絡利用獲取的額外語義特征來區(qū)分檢測目標和背景,進而提升目標檢測網(wǎng)絡的檢測精度和魯棒性.

1.1 雙流對比學習網(wǎng)絡

依據(jù)對比學習思想構建空頻雙流編碼器.空頻雙流編碼器包含空域編碼器與頻域編碼器,空域編碼器與頻域編碼器網(wǎng)絡結構相同,如圖2所示.空頻雙流編碼器通過相應的對比學習損失函數(shù)約束構成雙流對比學習網(wǎng)絡,如圖3所示.圖3中訓練樣本圖像被隨機裁分成不同的矩形框圖,訓練樣本圖像中的真實標簽框表示查詢實例(紅框),與查詢實例相同或相似的矩形框圖被認為是正樣本(藍框),查詢實例中的背景矩形框圖與其他不同類別的樣本圖像的矩形框圖被認為是負樣本(橙框).隨后這些矩形框圖被送入雙流對比學習網(wǎng)絡,其中一個流用于提取空域特征,另一個流用于提取頻域特征.每一個流的編碼器包含6個卷積層、1個平均池化層和1個多層感知機(Multi-Layer Perceptron,MLP)層.隨機裁分矩形框圖中的查詢實例、正樣本和負樣本分別被編碼為q、k+和k-,依據(jù)MoCo對比學習算法[18]定義,q和k+在特征空間中被拉近,被近似為相似,而q和k-在特征空間中被推開,被視為不相似.上述特征空間關系都由InfoNCE損失函數(shù)所決定.

式中:queue表示負樣本的數(shù)量;τ是一個超參數(shù),表示對負樣本的懲罰程度,增加τ的值會導致懲罰更弱.

本文將對比學習構建為一個雙流網(wǎng)絡,包含空域與頻域2個分支.對比學習是一種用于自監(jiān)督學習的方法,其目標是使相似的樣本在特征表征空間中更接近,使不相似的樣本更遠離.將訓練樣本圖像處理得到的查詢實例、正樣本、負樣本直接傳入空域對比學習流中,對空域中圖像的近似離散特征進行表征學習.圖像中的目標可能以不同的大小和比例

出現(xiàn)在圖像中,網(wǎng)絡通過對空域圖像中的像素分布和相對距離的尺度特征信息學習,可以進一步推斷目標的尺度,學習目標在圖像中的位置特征信息.空域對比學習流通過學習圖像信息中的目標紋理特征,網(wǎng)絡可學習到更多可鑒別特征幫助區(qū)分不同的目標類別.空域對比學習流可獲取圖像中目標周圍的上下文信息,使網(wǎng)絡更好地理解目標語境,有助于減少誤檢或漏檢.空域網(wǎng)絡流所學習到的額外語義特征將進一步提升目標檢測網(wǎng)絡骨干網(wǎng)對圖像特征上下文信息的提取能力,幫助目標檢測網(wǎng)絡對檢測目標更精準地定位與分類.

將上述同樣的矩形框圖經(jīng)過如式(2)所示頻域變換轉換為頻域信息.

式中:F(u,v)是圖像在頻域中的復數(shù)表示,表示圖像中對應頻率的幅度和相位;M和N分別表示圖像的寬度和高度;u和v為頻率域中的變量,分別表示在水平和垂直方向上的頻率.處理得到的信息傳入頻域對比學習流中,在頻域中學習額外的高級語義特征表示.

高頻信息通常對應圖像中的細節(jié)、紋理等變化較快的部分,表達式如下:

式中:AH(u,v)表示高頻信息的振幅譜;A(u,v)是原始圖像的振幅譜;DH是高頻截止半徑.

低頻信息通常對應圖像中相對平滑的區(qū)域和整體結構,表達式如下:

式中:AL(u,v)

表示低頻信息的振幅譜;A(u,v)是原始圖像的振幅譜;DL是低頻截止半徑.

在頻域對比學習時,網(wǎng)絡可利用低頻信息學習圖像全局特征、圖像結構,在訓練圖像較模糊時,低頻信息通常可以保持圖像的主要特征,網(wǎng)絡依然可以學習到足量的鑒別特征.高頻信息為圖像中變化最劇烈的部分,網(wǎng)絡通過對高頻信息的特征學習能學習到更多的區(qū)分目標與圖像背景的可鑒別特征.

而空域和頻域信息融合可以提供更全面、豐富的圖像表示,捕捉到更多不同層次的圖像特征.這有助于提高模型對圖像內(nèi)容的理解和表示能力,增加模型對不同類型圖像變化的魯棒性,提升算法在各種應用場景下的檢測精度.雙流對比學習網(wǎng)絡可以根據(jù)任務自適應地學習空域和頻域中更有效的特征,從而更好地完成不同類型的任務,如圖像分類、目標檢測等.

1.2 圖像多尺度退化增強

小目標對象通常具有較小尺寸,小目標可能被相鄰的背景像素淹沒.本文將對比學習模型的輸入圖像進行多尺度退化增強,增強算法對小目標的捕獲感知.如圖4所示,即在對比學習模型訓練前,分別將查詢實例(紅框)、與查詢實例相同或相似的正樣本(藍框)、查詢實例中的背景矩形框圖(橙框)從訓練數(shù)據(jù)集中裁切扣取出來.圖像裁切矩形塊中有2/3以上區(qū)域包含檢測目標即被認為是正樣本(藍框),圖像裁切矩形塊中只有1/5以下區(qū)域包含檢測目標即被認為是負樣本(橙框),依據(jù)訓練圖像真實標簽框裁切摳取的檢測目標矩形框圖即被認為是查詢實例(紅框),每張訓練圖像分別裁切摳取4張正樣本與4張負樣本矩形框圖.

將以上裁切摳取得到的正樣本圖像做圖像退化操作,具體操作為將正樣本圖像分別進行最近鄰插值、雙線性插值、雙三次插值圖像退化操作.最近鄰插值圖像退化如式(5)所示:

式中:xsrc、ysrc分別為原圖的x坐標和y坐標;xdes、ydes分別為目標圖像的x坐標和y坐標;hsrc、wsrc分別為原圖的高度和寬度;hdes、wdes分別為目標圖像的高度和寬度.

雙線性插值圖像退化如式(6)所示:

雙線性插值是對線性插值在二維直角網(wǎng)格上的擴展,其核心思想是在x、y兩個方向分別進行一次線性插值.式(6)中,Q11=(x1,y1),Q12=(x1,y2),Q21=(x2,y1),Q22=(x2,y2)分別為函數(shù)f上4個點的已知值.

雙三次插值圖像退化如式(7)所示:

其中:(x,y)表示待插值的像素點的坐標;f(x,y)表示經(jīng)過計算待插值像素點應該插入的值;(xi,yj),i,j=0,1,2,3表示待插值點附近4×4鄰域的點.W函數(shù)稱為 BiCubic函數(shù),如式(8)所示:

其中:t為超分放大倍數(shù);a為指定的值.

經(jīng)上述多種圖像退化操作,得到3組不同退化圖像,分別隨機選取圖像退化方法再次進行圖像退化操作得到另外3組不同的退化圖像,共得6組不同退化圖像.完成對訓練數(shù)據(jù)集的擴充豐富,使模型更好地適應不同的場景變化,提高模型的泛化能力.基于已有的模型訓練樣本數(shù)據(jù),使用數(shù)據(jù)增強方式來生成更多的訓練數(shù)據(jù),使擴增的訓練數(shù)據(jù)盡可能接近真實分布的數(shù)據(jù),迫使模型學習更多魯棒性特征,從而有效提高模型的泛化能力.對上述6組退化圖像及原始圖像數(shù)據(jù)采用以下數(shù)據(jù)增強方式:Random Affine(隨機縮放和平移變換)、Augment HSV(調整圖像的色度、飽和度和亮度)和MixUp(將2張圖像用一定的透明度融合在一起).

本文采用上述圖像多尺度退化增強策略降低模型對圖像的敏感度,避免樣本不均衡,增加圖像中小目標的可見性,使模型更容易感知學習小目標語義特征.

1.3 目標檢測網(wǎng)絡

目標檢測網(wǎng)絡包含3個主要部分,即Backbone、Neck和Prediction.圖1所示的Backbone部分主要由2個Focus structures和2個CSP structures組成.圖像在進行語義特征提取前將經(jīng)過Focus模塊對圖片進行切片操作,獲取到4張相似互補圖像,將W、H信息集中到通道空間,輸入通道擴充4倍,即拼接起來的圖像相對于原先的RGB 3通道變成了12通道,將得到的新圖像再經(jīng)過卷積操作,最終得到?jīng)]有信息丟失情況下的2倍下采樣特征圖.而CSP操作是將Feature map拆成2個部分,一部分進行卷積操作,另一部分與卷積操作的結果進行Concate拼接操作,可有效降低計算量.在Backbone主干網(wǎng)絡部分采用CSP1_X結構,Backbone后續(xù)部分繼續(xù)從處理后的輸入特征圖中提取多層語義特征.

CSP1_X結構應用于Neck部分以加強網(wǎng)絡特征融合能力,Neck部分進一步融合Backbone所提取的各特征通道的語義特征.傳統(tǒng)的特征金字塔結構會在所有尺度上構建高級語義特征圖,然而,在通過特征金字塔網(wǎng)絡(Feature Pyramid Network,F(xiàn)PN)[19]中的多層網(wǎng)絡后,物體的底層語義信息會變得十分模糊.為解決這個問題并加強定位信息,目標檢測網(wǎng)絡Neck部分采用具有自下而上路線的聚合網(wǎng)絡(Path Aggregation Network,PAN)[20]對不同層次的特征圖進行融合,生成具有多尺度信息的特征圖,還采用多層級特征融合的方法,將不同層級的特征圖進行融合,得到更加豐富的特征信息,從而提高檢測性能.

最后,Prediction部分根據(jù)得到的細化完整語義特征完成對目標的檢測,將CIoU_Loss作為目標檢測網(wǎng)絡的Bounding box損失函數(shù).目標檢測預測組件Prediction主要由3個檢測頭組成,這些檢測頭在不同尺度的特征圖上使用,Grid-based anchors來對目標進行多尺度目標檢測.當輸入圖像尺寸為608×608時,3種尺度的特征圖尺寸分別為76×76、38×38和19×19.在目標檢測的后處理過程中,針對多個目標檢測框的篩選,通常需要非極大值抑制(Non-Maximum Suppression,NMS)操作.因為CIoU_Loss中包含影響因子v,涉及Groudtruth的信息,而在算法測試推理時,沒有Groundtruth信息.所以,在目標檢測網(wǎng)絡中采用加權非極大值抑制(Soft-NMS),通過降低重疊框的置信度而不是將其丟棄,從而更加平滑地抑制多余的框.Soft-NMS 通過減小與最高置信度框的IoU(Intersection over Union)來懲罰其他相交框的置信度,這使得即使有重疊區(qū)域,次高得分的框也有機會被保留,從而提高檢測的魯棒性.

1.4 網(wǎng)絡聯(lián)合優(yōu)化

在算法訓練階段,對比學習雙流網(wǎng)絡與目標檢測網(wǎng)絡同時聯(lián)合優(yōu)化訓練.目標檢測網(wǎng)絡訓練使用完整圖像進行訓練,對比學習雙流網(wǎng)絡使用分割的圖像矩形框圖進行訓練,將2個網(wǎng)絡損失函數(shù)通過相應權重系數(shù)組合構成整體網(wǎng)絡的損失函數(shù),總體損失函數(shù)(L)如式(9)所示:

L=Lobj+ω1 Lspl+ω2 Lfre. (9)

總體損失函數(shù)L被表示為3個不同損失函數(shù)的組合,即Lspl、Lfre和目標檢測網(wǎng)絡損失函數(shù)Lobj.Lspl和Lfre分別表示空域和頻域的對比學習損失函數(shù);權重系數(shù)ω1、ω2分別為0.3、0.1.它們將在模型訓練時被聯(lián)合優(yōu)化以提高所提算法性能.Lobj由3個不同的部分組成,即分類損失、定位損失和置信度損失.分類損失是為了衡量預測類標簽和真實類標簽之間的差異,定位損失反映預測框位置和真實邊界框位置之間的差異,而置信度損失是為了懲罰假陽性和假陰性.Lobj表示為3個單獨的損失函數(shù)的加權和,如式(10)所示.Lcls、Lloc和Lconf的權重系數(shù)分別表示為λcls、λloc和λconf,其具體值分別為0.5、0.25、0.25.Lobj為目標檢測模型提供了一個靈活有效的損失函數(shù)框架,允許對檢測任務不同方面的側重進行精細控制,在模型訓練過程對其分量進行單獨控制調整.

Lobj=λcls Lcls+λloc Lloc+λconf Lconf." (10)

Lcls為分類損失函數(shù):

式中:N表示類別總數(shù);xi為當前類別預測值;yi為經(jīng)過激活函數(shù)后所得到的當前類別的概率;y*i為當前類別的真實值(0或1).

在對圖像中的物體進行檢測時,需要準確預測出被檢測物體周圍的邊界框的位置.定位損失函數(shù)[21]被用來提高邊界框回歸的準確性.

式中:α是一個平衡因子,用來權衡長寬比造成的損失和IoU引起損失的重要性;β為0和1之間的值;gt表示真實標簽;v是預測框和實際框的長寬比之差的歸一化值.

置信度損失函數(shù)Lconf用于計算所有樣本的置信度損失.置信度是指目標檢測網(wǎng)絡預測的邊界框和真實的邊界框之間的CIoU.

Lconf=(1.0-self.gr)+self.gr·socre_iou. (16)

式中:self.gr為目標檢測網(wǎng)絡的一個超參數(shù),表示用于平衡分類損失和定位損失的參數(shù).在計算置信度損失時,它用于平滑地結合目標存在得分(socre_iou,表示網(wǎng)絡預測目標存在時的得分,是通過IoU計算得到的)和目標不存在得分(1.0-self.gr).

整體網(wǎng)絡模型通過反向傳播算法聯(lián)合優(yōu)化雙流網(wǎng)絡分支與目標檢測網(wǎng)絡的參數(shù),在雙流對比學習網(wǎng)絡與目標檢測網(wǎng)絡的Backbone部分共享層參數(shù),減少整體參數(shù)量,提高模型的效率.通過聯(lián)合優(yōu)化綜合損失函數(shù),可以使兩個網(wǎng)絡同時訓練學習、優(yōu)化參數(shù),每個網(wǎng)絡都可以學到一些對方網(wǎng)絡所學到的獨特特征信息,最終提高整體算法模型的性能.

2 實驗設置與評價指標

2.1 實驗設置

在NVIDIA GTX 4090 GPU上使用MS COCO數(shù)據(jù)集[17]、VisDrone2019數(shù)據(jù)集[22]進行實驗評估.MS COCO 數(shù)據(jù)集包含自然圖片以及生活中常見的目標圖片,背景比較復雜、目標數(shù)量比較多且目標尺寸更小,數(shù)據(jù)集中包含大約 41% 的小目標 、34% 的中等目標(分辨率大于32×32像素小于96×96像素)和 24% 的大目標(分辨率不小于96×96像素).VisDrone2019數(shù)據(jù)集由天津大學機器學習和數(shù)據(jù)挖掘實驗室AISKYEYE團隊收集,在不同的場景、不同的天氣和光照條件下使用不同的無人機平臺進行收集,數(shù)據(jù)集圖像背景復雜、目標擁擠稠密,包含大量航拍小目標,被廣泛應用于小目標檢測算法訓練評估.訓練過程中,對比學習縮放系數(shù)ω1

被設置為1,對比學習雙流網(wǎng)絡和目標檢測網(wǎng)絡同時聯(lián)合訓練,共300次迭代.模型深度系數(shù)被設置為0.33,目標檢測算法訓練圖像大小被設置為640×640,初始學習率被設置為0.01,使用Adam 優(yōu)化器.

2.2 評價指標

為驗證所提算法的性能,使用mAP50、mAP75、mAP50∶95、mAPS、mAPM和mAPL作為評估指標,其中,mAPS、mAPM和mAPL分別是小目標、中等目標、大目標的評價指標.對于目標檢測任務,依據(jù)樣本的真實類和算法預測類的不同組合可以將樣本劃分為4種類型:預測為正的正樣本(TP)、預測為負的正樣本(FN)、預測為正的負樣本(FP)、預測為負的負樣本(TN).準確率P表示所有預測為正的樣本中真正為正的樣本所占的比例,P越大表示預測結果正確的樣本占比越高,誤檢的越少.

mAP表示所有類別平均精度AP值的平均值,mAP值越高,目標檢測模型各個類別的平均檢測效果越好.

mAP50 、mAP75分別表示非極大值抑制(NMS)過程中設定IoU閾值為0.5和0.75;mAP50∶95 表示步長為0.05,計算 IoU 閾值從 0.5到0.95 的所有 IoU 閾值下的檢測精度的平均值.

3 實驗結果與分析

3.1 消融實驗

為了驗證提出的每種改進策略的有效性,使用MS COCO數(shù)據(jù)集、VisDrone2019數(shù)據(jù)集對基線算法YOLO-V5進行消融實驗,設置以下4種消融實驗組合形式:E0為基線算法YOLO-V5,不包含對比學習算法;E1為YOLO-V5目標檢測算法融合空域對比學習;E2為YOLO-V5目標檢測算法融合空頻雙流對比學習;E3在E2的基礎上采用圖像多尺度退化增強,其他訓練參數(shù)保持不變.不同組合的MS COCO數(shù)據(jù)集實驗結果如表1所示.由表1可知:E1組通過將訓練圖像裁切摳取形成查詢實例、正樣本、負樣本3種不同矩形框圖傳入空域對比學習算法中,使得所提方法可利用對比學習算法所提取的語義特征更容易區(qū)分圖像中的檢測目標與背景,從而提升算法檢測性能,相較于E0基線算法各評估指標均有提升,對小目標檢測性能提升明顯,mAPS提升0.8個百分點;E2組將對比學習構建為空頻雙流網(wǎng)絡,可以分別對圖像高頻信息與低頻信息進行感知學習,更好地捕獲檢測目標邊緣像素變化信息,相較于只采用空域對比學習流改進策略的E1來說,各項評估指標均有提升;E3組(本文方法)相較于E0基線算法各項指標均有提升,小目標檢測性mAPS性能提升明顯.

因圖像多尺度退化增強改進策略適配于雙流對比學習算法訓練階段,故圖像多尺度退化增強改進策略的消融實驗不再單獨設置.不同組合的VisDrone2019數(shù)據(jù)集實驗結果如表2所示,其組合設置與MS COCO數(shù)據(jù)集實驗一致.VisDrone2019數(shù)據(jù)集是由不同的無人機平臺對地航拍所收集的,包含各種不同光照條件的圖像和多目標擁擠稠密場景圖像,其中有行人、三輪車、自行車等多種小目標.由表2可知,E3組(本文所提算法)相較于E0組基線算法的mAP50∶95、mAP50、mAP75分別提升2.4、2.7、1.8個百分點,可顯著提升小目標檢測性能.

3.2 與其他先進算法比較

3.2.1 MS COCO數(shù)據(jù)集實驗

為驗證所提算法的有效性,選取FIENet[23]、Conditional-DETR[24]、Anchor-DETR[25]、DAB-DETR[26]等目標檢測先進算法與所提方法在MS COCO數(shù)據(jù)集上進行對比分析.FIENet使用VGG-16 作為Backbone,Input size為512×512.Conditional-DETR、Anchor-DETR、DAB-DETR、AdaMixer[27]、DN-Deformable-DETR[28]均使用R50作為Backbone.PP-YOLOv2[29]使用ResNet50-vd-dcn作為Backbone,Input size 為512×512.默認將數(shù)據(jù)集分成118 287個訓練集、40 670個測試集和5 000個驗證集.為減小實驗誤差證明實驗可信度,將文中所提算法進行10次實驗后,取10次評估指標平均值作為所提算法的最終評估指標(下同).對比分析結果如表3所示,可見,所提方法在各項評估指標上均取得最佳成績.小目標對象在圖像中的像素占比少,邊緣特征不明顯,容易淹沒在圖像背景中,而空頻雙流對比學習能更好區(qū)分圖像中檢測目標和背景,增強目標與背景之間對比度,故所提方法對小目標檢測性能提升更加明顯.同時,所提方法對中、大目標的檢測性能仍有較大提升.

3.2.2 VisDrone2019數(shù)據(jù)集實驗

為進一步驗證所提算法的有效性,選取YOLOv8s、YOLOv6m等小目標檢測先進算法與所提方法在VisDrone2019數(shù)據(jù)集上進行對比分析.相比MS COCO數(shù)據(jù)集,VisDrone2019數(shù)據(jù)集包含更多尺度較小的目標檢測對象,能更好反映目標檢測算法對小目標對象的檢測性能.如表4所示,對比其他先進目標檢測算法,文中所提方法在mAP50∶95、mAP50兩項評估指標上均取得最好成績.

3.2.3 DOTA數(shù)據(jù)集實驗

為進一步驗證所提算法在其他數(shù)據(jù)集上的有效性及泛化性能,選取RetinaNet[36]、RepPoints[37]、GWD[38]等小目標檢測先進算法與所提方法在DOTA數(shù)據(jù)集上進行對比分析.DOTA數(shù)據(jù)集包含2 806張4 000×4 000分辨率圖像,總共包含188 282個小目標,圖像場景豐富、目標尺度較小,能進一步反映目標檢測算法對小目標對象的檢測性能.如表5所示,對比其他先進目標檢測算法,文中所提方法取得最優(yōu)成績.

通過以上3個不同數(shù)據(jù)集上的實驗,結果表明所提算法切實有效,對小目標檢測性能有較為明顯提升,擁有較優(yōu)的泛化性能,算法綜合性能優(yōu)于所對比的其他先進算法.

3.3 算法可視化檢測效果分析

為驗證所提方法在實際場景中的檢測效果,分別從MS COCO數(shù)據(jù)集、VisDrone2019數(shù)據(jù)集中選取若干不同場景下的圖像進行目標檢測.MS COCO數(shù)據(jù)集檢測效果如圖5、圖6所示.如圖5a、5b所示,相較于基線算法,所提方法在黑暗環(huán)境中對目標的檢測效果更佳.圖5a組,基線算法將黑暗場景中的地燈識別為鳥類,歸因于黑暗場景中目標與圖像背景區(qū)分度不足,目標在圖像中較為模糊,使得基線算法對其目標檢測更加困難,而所提方法得益于增強了檢測目標與圖像背景之間的區(qū)分對比度,有效地避免了此類情況的誤檢.圖5b組,所提方法在光照條件不佳的場景下仍能有效地檢測出圖像中的中、小目標.圖5c組,因待檢測目標特征在圖像中被部分遮擋,容易導致算法對其特征學習不充分而出現(xiàn)漏檢,所提方法通過對檢測目標進行圖像多尺度退化增強,使得算法能夠學習同一檢測目標的多種數(shù)據(jù)形態(tài)語義特征,增強算法對檢測目標特征的感知理解,在目標被部分遮擋的情況下依然能夠有效檢出.圖5d組,基線算法的目標檢測定位框包含圖像中目標的水中倒影,而所提方法則對目標的定位更加精準,歸因于空頻雙流對比學習算法可充分利用圖像頻域信息,算法在圖像頻域特征空間能學習到更多有關目標邊緣像素變化劇烈的特征,可以有效區(qū)分目標邊緣與圖像背景.圖6a、6b、6c組,基線算法在面對同一張圖像中目標尺度跨度巨大、目標尺度分布不均的情況下容易出現(xiàn)漏檢,基線算法對6a中的碗、6b中遠處的信號燈、6c中右側的人出現(xiàn)了漏檢,并對6a中圖像虛化背景出現(xiàn)了錯檢,相比之下,本文所提方法對以上漏檢、錯檢的問題都有很好的解決.通過分析圖6b、6c可知,所提方法相較于基線算法對小目標、極小目標具有更好的檢測性能.對于小目標檢測,其應用場景往往伴隨著目標擁擠稠密、圖像模糊、目標尺度跨度大等附加挑戰(zhàn),如圖6d所示,檢測圖像中目標稠密擁擠,圖像模糊只有前景目標較為清晰明顯,基線算法對于前景目標可以有效檢出,但對于遠景目標的檢測就顯得力不從心,而所提方法在有效檢出前景目標的同時,也對遠景模糊目標做出了較多有效檢出,因此,所提方法面對目標稠密、像素模糊的圖像時依然可以保持較高的檢測性能.

為進一步驗證所提方法在實際場景中對小目標對象的檢測效果,從VisDrone2019數(shù)據(jù)集隨機選取部分圖像進行檢測效果分析.如圖7所示,通過無人機航拍圖像所采集到的圖像,圖像中部分目標可能存在互相遮擋,而基線算法對航拍圖像中的遮擋目標無法有效檢出,出現(xiàn)較為嚴重的漏檢,而所提方法則很好地解決了這一問題.圖7a組,基線算法對圖像中被部分遮擋的行人和遠處像素值較小的行人目標漏檢,所提方法則將上述漏檢目標全部檢出.圖7b、7c組,面對暗光照條件下的稠密小目標檢測場景,在同等條件下,相較于基線算法,所提方法對圖像中的小目標檢出成功率更高.

4 結束語

為解決目標檢測算法在未知場景中對小目標檢測能力低以及不能有效區(qū)分檢測目標和背景等問題,提出一種基于空頻雙流對比學習的改進小目標檢測算法.將對比學習與目標檢測算法相結合,以提高目標檢測算法的通用性與檢測性能;采用空頻雙流編碼器架構,利用空域和頻域使網(wǎng)絡學習更多額外的具有可鑒別性的語義特征,幫助目標檢測網(wǎng)絡利用額外的語義特征來區(qū)分檢測目標與背景.在進行對比學習算法訓練時,將雙流對比學習網(wǎng)絡輸入圖像進行多尺度退化增強,提升算法對小目標的感知捕獲能力.對所構建的對比學習雙流網(wǎng)絡與目標檢測網(wǎng)絡采用聯(lián)合優(yōu)化訓練,將兩獨立網(wǎng)絡學習到的目標語義特征進行有機融合實現(xiàn)特征共享、網(wǎng)絡參數(shù)共用,提升算法綜合性能,提升網(wǎng)絡訓練效率.在MS COCO數(shù)據(jù)集、VisDrone2019數(shù)據(jù)集、DOTA數(shù)據(jù)集上的實驗結果表明,所提方法在不同場景下具有良好的檢測效果,對小目標檢測性能提升明顯,穩(wěn)健性較好,綜合性能更優(yōu).下一步,將展開模型輕量化研究,為移動設備在線實時檢測提供技術支持.

參考文獻References

[1]靳曉芳,岳鼎,劉金羽.基于YOLOv3-tiny的智能偵察虛擬訓練系統(tǒng)研究[J].兵器裝備工程學報,2023,44(8):186-190

JIN Xiaofang,YUE Ding,LIU Jinyu.Research on virtual intelligent reconnaissance training system based on YOLOv3 tiny[J].Journal of Ordnance Equipment Engineering,2023,44(8):186-190

[2] 劉安邦,施賽楠,楊靜,等.基于虛警可控梯度提升樹的海面小目標檢測[J].南京信息工程大學學報(自然科學版),2022,14(3):341-347

LIU Anbang,SHI Sainan,YANG Jing,et al.Sea-surface small target detection based on 1-alarm-controllable gradient boosting decision tree[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2022,14(3):341-347

[3] 李偉文,繆小冬,顧曹雨,等.融合點柱網(wǎng)絡和DETR的三維復雜道路目標檢測[J].重慶理工大學學報(自然科學),2023,37(11):32-39

LI Weiwen,MIAO Xiaodong,GU Caoyu,et al.3D complex road target detection method by fusing PointPillar network and DETR[J].Journal of Chongqing University of Technology (Natural Science),2023,37(11):32-39

[4] 溫秀蘭,焦良葆,李子康,等.復雜環(huán)境下小尺度煙火目標檢測研究[J].南京信息工程大學學報(自然科學版),2023,15(6):676-683

WEN Xiulan,JIAO Liangbao,LI Zikang,et al.Small scale smoke & fire target detection in complex environment[J].Journal of Nanjing University of Information Science & Technology (Natural Science Edition),2023,15(6):676-683

[5] Girshick R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV).December 11-17,2015,Santiago,Chile.IEEE,2015:1440-1448

[6] He K M,Gkioxari G,Dollr P,et al.Mask R-CNN[C]//2017 IEEE International Conference on Computer Vision (ICCV).October 22-29,2017,Venice,Italy.IEEE,2017:2980-2988

[7] Zhang Y F,Chi M M.Mask-R-FCN:a deep fusion network for semantic segmentation[J].IEEE Access,2020,8:155753-155765

[8] Zhai S P,Shang D R,Wang S H,et al.DF-SSD:an improved SSD object detection algorithm based on DenseNet and feature fusion[J].IEEE Access,2020,8:24344-24357

[9] Mao Q C,Sun H M,Liu Y B,et al.Mini-YOLOv3:real-time object detector for embedded applications[J].IEEE Access,2019,7:133529-133538

[10] Zhu X K,Lyu S C,Wang X,et al.TPH-YOLOv5:improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]//2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW).October 11-17,2021,Montreal,BC,Canada.IEEE,2021:2778-2788

[11] Betti A,Tucci M.YOLO-S:a lightweight and accurate YOLO-like network for small target selection in aerial imagery[J].Sensors,2023,23(4):1865

[12] Wei Z Q,Liang D,Zhang D,et al.Learning calibrated-guidance for object detection in aerial images[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing,2022,15:2721-2733

[13] Gong Y Q,Yu X H,Ding Y,et al.Effective fusion factor in FPN for tiny object detection[C]//2021 IEEE Winter Conference on Applications of Computer Vision (WACV).January 5-9,2021,Waikoloa,HI,USA.IEEE,2021:1159-1167

[14] Zhu X,Liang B B,F(xiàn)u D Y,et al.Airport small object detection based on feature enhancement[J].IET Image Processing,2022,16(11):2863-2874

[15] 秦強強,廖俊國,周弋荀.基于多分支混合注意力的小目標檢測算法[J].計算機應用,2023,43(11):3579-3586

QIN Qiangqiang,LIAO Junguo,ZHOU Yixun.Small object detection algorithm based on split mixed attention[J].Journal of Computer Applications,2023,43(11):3579-3586

[16] 李利霞,王鑫,王軍,等.基于特征融合與注意力機制的無人機圖像小目標檢測算法[J].圖學學報,2023,44(4):658-666

LI Lixia,WANG Xin,WANG Jun,et al.Small object detection algorithm in UAV image based on feature fusion and attention mechanism[J].Journal of Graphics,2023,44(4):658-666

[17] Lin T Y,Maire M,Belongie S,et al.Microsoft COCO:common objects in context[M]//Computer Vision-ECCV 2014.Cham:Springer International Publishing,2014:740-755

[18] He K M,F(xiàn)an H Q,Wu Y X,et al.Momentum contrast for unsupervised visual representation learning[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 14-19,2020,Seattle,WA,USA.IEEE,2020:9726-9735

[19] Lin T Y,Dollr P,Girshick R,et al.Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017,Honolulu,HI,USA.IEEE,2017:936-944

[20] Li H C,Xiong P F,An J,et al.Pyramid attention network for semantic segmentation[J].arXiv e-Print,2018,arXiv:1805.10180

[21] Zheng Z H,Wang P,Liu W,et al.Distance-IoU loss:faster and better learning for bounding box regression[J].Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993-13000

[22] Du D W,Zhu P F,Wen L Y,et al.VisDrone-DET2019:the vision meets drone object detection in image challenge results[C]//2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW).October 27-28,2019,Seoul,Korea (South).IEEE,2019:213-226

[23] 劉建政,梁鴻,崔學榮,等.融入特征融合與特征增強的SSD目標檢測[J].計算機工程與應用,2022,58(11):150-159

LIU Jianzheng,LIANG Hong,CUI Xuerong,et al.SSD visual target detector based on feature integration and feature enhancement[J].Computer Engineering and Applications,2022,58(11):150-159

[24] Meng D P,Chen X K,F(xiàn)an Z J,et al.Conditional DETR for fast training convergence[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV).October 11-17,2021,Montreal,QC,Canada.IEEE,2021:3631-3640

[25] Wang Y M,Zhang X Y,Yang T,et al.Anchor DETR:query design for transformer-based detector[J].Proceedings of the AAAI Conference on Artificial Intelligence,2022,36(3):2567-2575

[26] Liu S L,Li F,Zhang H,et al.DAB-DETR:dynamic anchor boxes are better queries for DETR[J].arXiv e-Print,2022,arXiv:2201.12329

[27] Gao Z T,Wang L M,Han B,et al.AdaMixer:a fast-converging query-based object detector[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-24,2022,New Orleans,LA,USA.IEEE,2022:5354-5363

[28] Li F,Zhang H,Liu S L,et al.DN-DETR:accelerate DETR training by introducing query DeNoising[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 18-24,2022,New Orleans,LA,USA.IEEE,2022:13609-13617

[29] Huang X,Wang X X,Lv W Y,et al.PP-YOLOv2:a practical object detector[J].arXiv e-Print,2021,arXiv:2104.10419

[30] Shang J C,Wang J S,Liu S B,et al.Small target detection algorithm for UAV aerial photography based on improved YOLOv5s[J].Electronics,2023,12(11):2434

[31] Liu H Y,Duan X H,Lou H T,et al.Improved GBS-YOLOv5 algorithm based on YOLOv5 applied to UAV intelligent traffic[J].Scientific Reports,2023,13(1):9577

[32] Liu H Y,Sun F Q,Gu J,et al.SF-YOLOv5:a lightweight small object detection algorithm based on improved feature fusion mode[J].Sensors,2022,22(15):5817

[33] Ding K W,Li X J,Guo W J,et al.Improved object detection algorithm for drone-captured dataset based on Yolov5[C]//2022 2nd International Conference on Consumer Electronics and Computer Engineering (ICCECE).January 14-16,2022,Guangzhou,China.IEEE,2022:895-899

[34] 吳明杰,云利軍,陳載清,等.改進YOLOv5s的無人機視角下小目標檢測算法[J].計算機工程與應用,2024,60(2):191-199

WU Mingjie,YUN Lijun,CHEN Zaiqing,et al.Improved YOLOv5s small object detection algorithm in UAV view[J].Computer Engineering and Applications,2024,60(2):191-199

[35] 劉展威,陳慈發(fā),董方敏.基于YOLOv5s的航拍小目標檢測改進算法研究[J].無線電工程,2023,53(10):2286-2294

LIU Zhanwei,CHEN Cifa,DONG Fangmin.Improved aerial small object detection algorithm based on YOLOv5s[J].Radio Engineering,2023,53(10):2286-2294

[36] Lin T Y,Goyal P,Girshick R,et al.Focal loss for dense object detection[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2020,42(2):318-327

[37] Yang Z,Liu S H,Hu H,et al.RepPoints:point set representation for object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 2,2019,Seoul,Korea (South).IEEE,2019:9656-9665

[38] Yang X,Yan J C,Ming Q,et al.Rethinking rotated object detection with Gaussian Wasserstein distance loss[J].arXiv e-Print,2021,arXiv:2101.11952

[39] Tian Z,Shen C H,Chen H,et al.FCOS:fully convolutional one-stage object detection[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV).October 27-November 2,2019,Seoul,Korea (South).IEEE,2019:9626-9635

[40] Chen Q,Wang Y M,Yang T,et al.You only look one-level feature[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 21-25,2021,Nashville,TN,USA.IEEE,2021:13034-13043

[41] Yang X,Zhang G F,Li W T,et al.H2RBox:horizontal box annotation is all you need for oriented object detection[J].arXiv e-Print,2022,arXiv:2210.06742

Small object detection based on dual-stream contrastive

feature learning and multi-scale image degradation

augmentation

Abstract To address the challenges in small object detection tasks,such as the small size of target images,blurred target features,and difficulty in distinguishing targets from backgrounds,a method based on dual-stream contrastive feature learning and multi-scale image degradation augmentation is proposed.First,the input images of the contrastive learning model are subjected to multi-scale degradation augmentation,thus enhancing the model’s ability to perceive and capture small targets.Second,contrastive learning representations are conducted in both spatial and frequency domains simultaneously to learn more discriminative target recognition features,thereby improving the model’s ability to differentiate between targets and backgrounds.To verify the effectiveness of the proposed scheme,ablation experiments are designed,and the detection performance is compared with that of other advanced algorithms.Experimental results show that the proposed scheme achieves an improvement of 3.6% in mean Average Precision (mAP) over the baseline algorithm on the MS COCO dataset,and an improvement of 7.7% in mAP for small objects (mAPS) compared to mainstream advanced algorithms.On the VisDrone2019 dataset,the proposed method achieves a 2.4% increase in mAP compared to the baseline algorithm,demonstrating its superior overall performance over the baseline algorithm and other mainstream advanced algorithms.Visual analysis of detection results indicates a significant improvement in the rates of 1 negatives and 1 positives for small object detection.

Key words small object detection;contrastive learning;dual-stream network;image degradation;image enhancement;multiscale

404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
404 Not Found

404 Not Found


nginx
主站蜘蛛池模板: 免费国产无遮挡又黄又爽| 婷婷六月在线| 国产午夜在线观看视频| 97国产在线视频| 中字无码精油按摩中出视频| 天天视频在线91频| 久操中文在线| 欧美黄色网站在线看| 女人18毛片久久| 亚洲中文字幕无码爆乳| 无码福利视频| 婷婷伊人五月| 国产成人无码AV在线播放动漫| 日韩国产欧美精品在线| 福利片91| 欧美日韩亚洲综合在线观看| 极品国产在线| 91人人妻人人做人人爽男同| 久久香蕉国产线看观看精品蕉| 精品国产污污免费网站| 岛国精品一区免费视频在线观看| 97精品国产高清久久久久蜜芽| 国产精品专区第一页在线观看| a级免费视频| 欧美中文字幕一区| 老司机久久99久久精品播放| 亚洲精品国产自在现线最新| 亚洲精品无码AⅤ片青青在线观看| 亚洲性网站| 欧美在线一级片| V一区无码内射国产| 国产成人精品第一区二区| 亚州AV秘 一区二区三区| 国产91九色在线播放| 久久96热在精品国产高清| 精品久久香蕉国产线看观看gif| 啊嗯不日本网站| 亚洲国产日韩欧美在线| 国产喷水视频| a亚洲视频| 99无码熟妇丰满人妻啪啪| 久久久久久久97| www.91中文字幕| 欧美伊人色综合久久天天| 亚洲欧美精品一中文字幕| 91区国产福利在线观看午夜| 亚洲天天更新| 欧美视频在线第一页| 91青青视频| 亚洲va视频| 久草青青在线视频| 亚洲综合香蕉| 亚洲天堂视频在线免费观看| 欧美视频在线播放观看免费福利资源 | 欧美一级视频免费| 99久久国产综合精品2023| 99在线视频免费观看| 国产91高跟丝袜| 亚洲中文字幕在线一区播放| 久久青草热| 四虎永久免费地址| 国产精品熟女亚洲AV麻豆| 国产SUV精品一区二区| 久久精品波多野结衣| 老司国产精品视频91| 色首页AV在线| 国产精品成人啪精品视频| 992tv国产人成在线观看| 99热这里只有成人精品国产| 久久久久人妻一区精品色奶水| 波多野结衣AV无码久久一区| 国产香蕉国产精品偷在线观看| 亚洲美女一区二区三区| 日韩精品高清自在线| 91区国产福利在线观看午夜| 无码精品福利一区二区三区| 久久婷婷人人澡人人爱91| 精品国产香蕉伊思人在线| 制服丝袜在线视频香蕉| 亚洲成a人在线观看| 无码免费视频| 成人小视频网|