






摘"要:海洋垃圾不僅嚴(yán)重威脅海洋動(dòng)物的健康及其棲息地,由其釋放的有毒物質(zhì)進(jìn)入食物鏈后對(duì)人類身體健康同樣造成消極影響。由于海洋圖像受到光照投影的影響,并且垃圾的尺寸通常較小,以往的目標(biāo)檢測(cè)算法對(duì)海洋垃圾的檢測(cè)性能并不理想,因此提出了一種基于YOLOv8網(wǎng)絡(luò)模型的改進(jìn)算法(YOLOESD),該算法共有三個(gè)改進(jìn)點(diǎn):首先,采用Stemblock模塊替換了模型的初始卷積,在減少模型參數(shù)量的同時(shí),提高模型檢測(cè)的精確度;其次,融合高效多尺度注意力模塊(EMA),有效減少了模型的漏檢和誤檢問題;最后,在原模型的頭部額外增加一個(gè)小目標(biāo)檢測(cè)頭,提高模型對(duì)小尺度目標(biāo)的敏感度。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的YOLOv8網(wǎng)絡(luò)模型與原網(wǎng)絡(luò)模型相比,漏檢情況得到明顯改善,mAP@0.5達(dá)到90.8%,精度提高了3.6個(gè)百分點(diǎn);YOLOESD網(wǎng)絡(luò)模型的檢測(cè)效果優(yōu)于原網(wǎng)絡(luò)模型及經(jīng)典的網(wǎng)絡(luò)模型。
關(guān)鍵詞:目標(biāo)檢測(cè);小目標(biāo)檢測(cè);海洋垃圾檢測(cè);EMA注意力機(jī)制;Stem模塊;YOLOESD
中圖分類號(hào):TP391""""""文獻(xiàn)標(biāo)識(shí)碼:A
YOLOESD"Marine"Litter"Image"Detection
Based"on"Improved"YOLOv8
LI"Cui,WANG"Jiao
(School"of"Software,"Dalian"Jiaotong"University,""Dalian,Liaoning"116021,China)
Abstract:Marine"litter"is"a"serious"threat"to"the"health"of"marine"animals"and"their"habitats,"and"it"also"has"a"negative"impact"on"human"health"through"the"release"of"toxic"substances"that"enter"the"food"chain.The"performance"of"previous"target"detection"algorithms"for"marine"litter"is"not"satisfactory"due"to"the"fact"that"marine"images"are"affected"by"light"projection"and"the"size"of"the"litter"is"usually"small.Therefore,"this"paper"proposes"an"improved"algorithm"(YOLOESD)"based"on"the"YOLOv8"network"model,"which"has"three"improvement"points.Firstly,"the"initial"convolution"of"the"model"is"replaced"by"the"Stemblock"module."While"reducing"the"number"of"model"parameters,"improve"the"detection"accuracy"of"the"model.Secondly,"we"have"integrated"the"efficient"multiscale"attention"module"(EMA)."Effectively"reducing"the"problem"of"missed"and"1"alarms"in"the"model.Finally,"an"additional"small"target"detection"head"is"added"to"the"head"of"the"original"model"to"improve"the"model's"sensitivity"to"smallscale"targets."The"experiments"results"show"that"the"improved"YOLOv8"network"model"has"significantly"improved"leakage"detection"compared"to"the"original"network"model,"the"mAP@0.5"reached"90.8%,"and"the"accuracy"is"improved"by"3.6"percentage"points;"the"YOLOESD"network"model"outperforms"both"the"original"network"model"and"the"classical"network"model"in"terms"of"detection.
Key"words:"target"detection;small"target"detection;marine"litter"detection;EMA"attention"mechanism;Stem"module;YOLOESD
目前,海水資源受污染程度越來越重,自1950年以來,塑料垃圾在全球范圍內(nèi)存在且呈指數(shù)級(jí)增長(zhǎng),據(jù)估計(jì),每年僅陸地地區(qū)就有13萬噸塑料垃圾流入海洋[1]。塑料垃圾可作為運(yùn)輸其他污染物的載體,天然毒素可以吸附在塑料上,海洋生物通過攝入毒素正在影響器官的健康。此外,垃圾還存在養(yǎng)分循環(huán)惡化、瀕危物種滅絕等潛在的影響,這不僅污染海洋環(huán)境,還波及人類健康,甚至如今的海水中檢測(cè)出了直徑小于5"mm的微塑料,這種微塑料已經(jīng)滲透到食物鏈中,最終流向人體內(nèi)部[2]。
海洋垃圾檢測(cè)方面仍然有許多挑戰(zhàn)需要解決。Ma等[3]將RetinaNet算法與數(shù)據(jù)增強(qiáng)、損失函數(shù)優(yōu)化以及遷移學(xué)習(xí)相結(jié)合,有效提升了海洋垃圾檢測(cè)的精度值。Zaaboub等[4]將無人機(jī)與機(jī)器學(xué)習(xí)技術(shù)、K近鄰算法相結(jié)合,在垃圾識(shí)別的四次測(cè)試中誤差平均值僅為6.3%。Winans等[5]使用單次多盒探測(cè)器結(jié)合MobileNetV2特征提取器對(duì)夏威夷沿海海洋垃圾進(jìn)行了檢測(cè),最終達(dá)到了71.8%的精度值。雖然以上的研究都表明,新技術(shù)的使用,可以在有效地檢測(cè)海洋垃圾的同時(shí)節(jié)省大量的人力物力,但詳細(xì)查看結(jié)果時(shí),可以發(fā)現(xiàn),實(shí)驗(yàn)結(jié)果總體精度偏低,特別是在小目標(biāo)物體增加時(shí),漏檢率很高,檢測(cè)精度削弱。
為了解決上述問題,提升目標(biāo)檢測(cè)的精度,有效解決海洋垃圾中小目標(biāo)漏檢及誤檢問題,文中提出了一種改進(jìn)的YOLOv8目標(biāo)檢測(cè)模型(YOLOESD)。本文的主要改進(jìn)如下:
(1)融合新型高效多尺度注意力(EMA)[6]機(jī)制,通過將先前幀的預(yù)測(cè)結(jié)果納入考慮范圍,將當(dāng)前幀的預(yù)測(cè)結(jié)果與先前幀的結(jié)果相結(jié)合,有助于模型降低漏檢率與誤檢率。
(2)模型輕量化,用Stemblock模塊[7]替換YOLOv8網(wǎng)絡(luò)模型[8]中的起始卷積,在精度稍有提高的情況下,減少模型的參數(shù)量。
(3)在YOLOv8網(wǎng)絡(luò)模型的頭部額外添加一個(gè)小目標(biāo)檢測(cè)頭,有效解決小目標(biāo)漏檢率高的問題,進(jìn)一步提升檢測(cè)精度。
1"改進(jìn)YOLOv8的方法
本文采用近年來較先進(jìn)的單階段目標(biāo)檢測(cè)算法YOLOv8模型作為本次實(shí)驗(yàn)的基本模型,修改YOLOv8模型來定位整個(gè)圖像中的垃圾點(diǎn),并進(jìn)行有效分類。模型整體的框架圖如圖1所示,將在下面的小節(jié)中進(jìn)行詳細(xì)解釋。
1.1"融合EMA"注意力模塊
跨通道關(guān)系建模提取深度視覺表示時(shí),通道降維會(huì)帶來副作用,為了解決這一問題,高效多尺度注意力模塊(EMA)橫空出世。EMA專注于保留每個(gè)通道的信息,并盡可能減少計(jì)算開銷,一方面對(duì)全局信息進(jìn)行編碼,校準(zhǔn)每個(gè)并行分支中的通道權(quán)重;另一方面,通過跨維度交互來進(jìn)一步組合兩個(gè)并行分支的輸出特征。EMA的總體結(jié)構(gòu)如圖2所示。
EMA注意力機(jī)制的跨空間信息聚合方法:由圖2陰影部分可知,1×1分支的輸出和3×3分支的輸出作為陰影部分的輸入。然后,在1×1分支中,利用2D全局平均池化對(duì)全局空間信息進(jìn)行編碼,使用非線性函數(shù)Softmax來擬合線性變換。將上述輸出與矩陣點(diǎn)積運(yùn)算相乘,導(dǎo)出了第一個(gè)空間注意力圖。文中類似的利用2D全局平均池化來編碼3×3分支中的全局空間信息,導(dǎo)出保留了整個(gè)精確空間位置信息的第二空間注意力圖。
EMA在卷積運(yùn)算中不降低通道維度的情況下學(xué)習(xí)有效的通道描述,并為高級(jí)特征圖產(chǎn)生更好的像素級(jí)關(guān)注。2D全局池化操作式如下:
Zc=1H×W∑0≤j≤H"∑0≤i≤WXc(i,j)(1)
式中,H代表特征圖的高,W代表特征圖的寬,Xc表示在第c個(gè)通道處的輸入特征。
1.2"集成Stem"block模塊
Stem"block結(jié)構(gòu)是用于下采樣的方法,該模塊能夠在保持較強(qiáng)特征能力的同時(shí)減少模型的參數(shù),基于多次實(shí)驗(yàn)后分析YOLOv8網(wǎng)絡(luò)模型的結(jié)構(gòu)發(fā)現(xiàn),backbone部分起始的兩個(gè)3×3卷積是為了進(jìn)行下采樣操作,較少提取小物體的空間信息。因此,如圖1所示,在原YOLOv8網(wǎng)絡(luò)模型的基礎(chǔ)上,本文使用Stem"block模塊替換起始卷積,修改原模型的主干網(wǎng)絡(luò),在精度稍有提高的同時(shí)降低模型的整體參數(shù)。
從圖3可以看出,Stem"block"結(jié)構(gòu)有左右兩個(gè)分支,右側(cè)分支先將通道數(shù)量減少,再進(jìn)行下采樣;左側(cè)分支將原始輸入進(jìn)行最大值池化;之后兩個(gè)分支的結(jié)果進(jìn)行拼接。目的是將輸入中的部分信息進(jìn)行傳遞,確保最終的結(jié)果既減少了參數(shù)量又具備足夠的語義信息,不會(huì)造成信息的過度損失。
1.3"增加小目標(biāo)檢測(cè)頭
在進(jìn)行海洋垃圾檢測(cè)時(shí),由于海洋垃圾體積較小,易出現(xiàn)小目標(biāo)漏檢問題。在YOLOv8中,檢測(cè)頭由P3、P4和P5三個(gè)輸出特征映射組成,P3對(duì)應(yīng)的特征圖大小為80"×"80,用于檢測(cè)大小在8"×"8以上的目標(biāo),下采樣8倍;P4對(duì)應(yīng)的特征圖大小為40"×"40,用于檢測(cè)大小在16"×"16以上的目標(biāo),下采樣16倍;P5對(duì)應(yīng)的特征圖大小為20×20,用于檢測(cè)大小在32×32以上的目標(biāo),下采樣32倍。雖然上述三個(gè)檢測(cè)頭能夠?qū)Χ喑叨饶繕?biāo)進(jìn)行檢測(cè),但較大的下采樣倍數(shù)使模型對(duì)小目標(biāo)及微小目標(biāo)的檢測(cè)能力不佳。本文提出的模型中,增加了一個(gè)額外的檢測(cè)頭Ps,如圖1所示,其特征圖大小為160"×"160,用于檢測(cè)大小在4×4以上的目標(biāo),下采樣4倍。較小的下采樣倍數(shù)包含更多的低層次信息,可以有效地檢測(cè)出小目標(biāo),提高了模型在給定圖像中有效檢測(cè)物體的能力,進(jìn)一步提高了模型的檢測(cè)精度。
2"實(shí)驗(yàn)
2.1"數(shù)據(jù)集
在實(shí)驗(yàn)部分,使用Okahublot公開的FlowImg[9]數(shù)據(jù)集來驗(yàn)證模型的準(zhǔn)確性,F(xiàn)lowImg數(shù)據(jù)集是Okahublot發(fā)布的無人船視角下的漂浮垃圾數(shù)據(jù)集,共包括2000張圖片。
2.2"實(shí)驗(yàn)細(xì)節(jié)
網(wǎng)絡(luò)實(shí)驗(yàn)環(huán)境為Windows10、Python3.9.13和PyTorch1.13.0,相關(guān)硬件配置和模型參數(shù)如表1所示,數(shù)據(jù)的訓(xùn)練輪數(shù)為200。
實(shí)驗(yàn)指標(biāo)主要選取平均精度值mAP(mean"Average"Precision)。mAP@0.5代表IoU設(shè)置為0.5時(shí),所有圖片的平均準(zhǔn)確率;mAP@0.5-0.95代表IoU從0.5到0.95步長(zhǎng)為0.05時(shí)取得的平均準(zhǔn)確率;公式如下所示:
P=True"PositiveTrue"Positive+False"Positive(2)
R=True"PositiveTrue"Positive+False"Negtive(3)
mAP=∫10P(R)d(R)(4)
其中:式(2)代表準(zhǔn)確率P(Precision),式(3)代表召回率R(Recall)。True"Positive表示預(yù)測(cè)正確;False"Positive表示預(yù)測(cè)錯(cuò)誤,包括目標(biāo)檢測(cè)類別錯(cuò)誤和漏檢兩種情況。
2.3"實(shí)驗(yàn)對(duì)比
在本節(jié)中,將在FlowImg數(shù)據(jù)集上比較YOLOESD模型與其他經(jīng)典網(wǎng)絡(luò)模型的精度值,主要包括FasterRCNN網(wǎng)絡(luò)模型(MobileNetv2骨干網(wǎng)絡(luò))[10]、SSD網(wǎng)絡(luò)模型(ResNet50骨干網(wǎng)絡(luò))[11]、YOLOv7網(wǎng)絡(luò)模型[12]、YOLOv8網(wǎng)絡(luò)模型。實(shí)驗(yàn)結(jié)果見表2。
從表2中可以看出,改進(jìn)版YOLOESD網(wǎng)絡(luò)模型,相較于以往的經(jīng)典模型,檢測(cè)精度遙遙領(lǐng)先,mAP@0.5達(dá)到了90.8%,mAP@0.5-0.95達(dá)到了49.1%,與基線模型Yolov8相比,mAP@0.5提升了3.6個(gè)百分點(diǎn),mAP@0.5-0.95提升了1.8個(gè)百分點(diǎn)。
為了說明改進(jìn)版模型的性能,文中以FlowImg數(shù)據(jù)集上YOLOv8網(wǎng)絡(luò)模型和YOLOESD網(wǎng)絡(luò)模型的檢測(cè)結(jié)果為例進(jìn)行展示。在圖4中,第一行為YOLOv8網(wǎng)絡(luò)模型的檢測(cè)結(jié)果,第二行為YOLOESD網(wǎng)絡(luò)模型的檢測(cè)結(jié)果。具體來看,圖4中的第一組圖片,YOLOv8網(wǎng)絡(luò)模型檢測(cè)出目標(biāo)的置信度分?jǐn)?shù)為0.3,改進(jìn)版模型檢測(cè)出的分?jǐn)?shù)為0.4;第三組圖片YOLOv8網(wǎng)絡(luò)模型檢測(cè)出的分?jǐn)?shù)為0.5和0.8,改進(jìn)版模型檢測(cè)出的分?jǐn)?shù)為0.6和0.9,均高于原網(wǎng)絡(luò)模型;第四組圖片,改進(jìn)版模型在分?jǐn)?shù)提高的基礎(chǔ)上,額外檢測(cè)出了一個(gè)原模型漏檢的小目標(biāo),由此可見,改進(jìn)版模型的精度更高、性能更好(注:同一列的一對(duì)圖片稱為一組,由左向右,分別為第一組至第四組)。
2.4"消融實(shí)驗(yàn)
表3是YOLOESD消融實(shí)驗(yàn)的結(jié)果。使用YOLOv8網(wǎng)絡(luò)模型作為基線模型。為了驗(yàn)證不同模塊的性能,本文進(jìn)行了8個(gè)不同的實(shí)驗(yàn),首先,單獨(dú)增加小目標(biāo)檢測(cè)頭、融合EMA注意力機(jī)制、集成Stem"block模塊,檢測(cè)精度均有所上升;這表明三個(gè)改進(jìn)點(diǎn)對(duì)YOLOv8網(wǎng)絡(luò)模型的精度提高均是有益的。為了進(jìn)一步分析模型性能,將三個(gè)改進(jìn)點(diǎn)兩兩組合進(jìn)行實(shí)驗(yàn),結(jié)果顯示,除了EMA與Stem"block的組合外,其余組合實(shí)驗(yàn)精度提升比單獨(dú)的改進(jìn)更明顯。EMA與Stem"block的結(jié)合精度無增加,分析認(rèn)為Stem"block結(jié)構(gòu)的引進(jìn)是為了降低模型的復(fù)雜程度,進(jìn)一步降低模型的通道數(shù),而EMA注意力機(jī)制善于融合通道信息,通道減少,融合信息相應(yīng)縮減,因此模型的精度沒有上升。最后,本文融合三個(gè)改進(jìn)點(diǎn),對(duì)提出的YOLOESD網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn),如表2和表3所示,該模型取得了最優(yōu)的結(jié)果,檢測(cè)精度相比基線模型提升了3.6個(gè)百分點(diǎn)。
模型的改進(jìn)會(huì)增加模型的參數(shù),進(jìn)而增加模型的復(fù)雜度,降低模型的運(yùn)行時(shí)間。為了驗(yàn)證模型的運(yùn)行速度,本文進(jìn)行了一系列實(shí)驗(yàn)。結(jié)果顯示,YOLOv8模型的運(yùn)行速度為118.89"FPS,YOLOv7模型的運(yùn)行速度為103.22FPS,YOLOESD模型的運(yùn)行速度為99.4"FPS。運(yùn)行速度相比原模型稍有下降,但仍然能夠滿足實(shí)時(shí)檢測(cè)的需求。本文認(rèn)為,較小的速度下降換來較大的精度提升是值得的,YOLOESD在達(dá)到高精度的同時(shí)也滿足了實(shí)時(shí)檢測(cè)的需求。
3"結(jié)"論
近年來,海洋污染日益嚴(yán)重,檢測(cè)與清理海洋垃圾成為現(xiàn)階段的熱議話題,海洋垃圾不僅污染水源、危害水中的動(dòng)植物,更為病毒傳播提供了有效途徑,加快其傳播速度,危害陸地動(dòng)植物,進(jìn)一步危害人類。基于海洋垃圾圖像中小目標(biāo)多且難辯別的問題,本文提出了一種基于改進(jìn)YOLOv8網(wǎng)絡(luò)模型的海洋垃圾檢測(cè)方法YOLOESD。首先,文中將EMA注意力機(jī)制融合進(jìn)YOLOv8網(wǎng)絡(luò)模型,通過EMA注意力機(jī)制關(guān)聯(lián)通道信息,顯著提升了目標(biāo)檢測(cè)的精度;其次,將Stem"block"模塊與YOLOv8網(wǎng)絡(luò)模型集成,在提升精度的同時(shí)有效地降低參數(shù)量;最后對(duì)YOLOv8網(wǎng)絡(luò)模型的整體結(jié)構(gòu)進(jìn)行更改,添加小目標(biāo)檢測(cè)頭,使模型更精準(zhǔn)地抓住小目標(biāo)。實(shí)驗(yàn)結(jié)果表明,文中提出的三個(gè)改進(jìn)點(diǎn)可以有效地提升目標(biāo)檢測(cè)的精度,mAP@0.5與mAP@0.5-0.95分別為90.8%與49.1%,相較于原模型分別提升了3.6個(gè)百分點(diǎn)與1.8個(gè)百分點(diǎn)。
海洋垃圾檢測(cè)是一個(gè)值得研究的問題,現(xiàn)階段海洋垃圾圖像較少且種類單一,極端情況的圖片較少,例如大霧天氣、大雨天氣、雷暴天氣等。這種極端天氣會(huì)給目標(biāo)檢測(cè)帶來極大挑戰(zhàn)。未來,將對(duì)當(dāng)前工作進(jìn)行擴(kuò)展,應(yīng)用到不同的情景中。
參考文獻(xiàn)
[1]"LAU"W"W"Y,"SHIRAN"Y,"BAILEY"R"M,"et"al."Evaluating"scenarios"toward"zero"plastic"pollution[J]."Science,"2020,"369(6510):"1455-1461.
[2]"MCADAM"R."Plastic"in"the"ocean:"how"much"is"out"there?[J]."Significance,"2017,"14(5):"24-27.
[3]"MA"D,"WEI"J,"LI"Y,"et"al."MLDet:"Towards"efficient"and"accurate"deep"learning"method"for"marine"litter"detection[J]."Ocean"amp;"Coastal"Management,"2023,"243:"106765.
[4]"ZAABOUB"N,"GUEBSI"R,"CHAOUACHI"R"S,"et"al."Using"unmanned"aerial"vehicles"(UAVs)"and"machine"learning"techniques"for"the"assessment"of"Posidonia"debris"and"marine"(plastic)"litter"on"coastal"ecosystems[J]."Regional"Studies"in"Marine"Science,"2023,"67:"103185.
[5]"WINANS"W"R,"CHEN"Q,"QIANG"Y,"et"al."Largearea"automatic"detection"of"shoreline"stranded"marine"debris"using"deep"learning[J]."International"Journal"of"Applied"Earth"Observation"and"Geoinformation,"2023,"124:"103515.
[6]"HUANG"W,"LI"Y,"ZHANG"K,"et"al."An"efficient"multiscale"focusing"attention"network"for"person"reidentification[J]."Applied"Sciences,"2021,"11(5):"2010.
[7]"SZEGEDY"C,"IOFFE"S,"VANHOUCKE"V,"et"al."Inceptionv4,"inceptionresnet"and"the"impact"of"residual"connections"on"learning[C]//Proceedings"of"the"AAAI"Conference"on"Artificial"Intelligence,2017,"31(1):4278-4284.
[8]"WANG"J,"XU"P,"LI"L,"et"al."DAssdNet:"a"lightweight"steel"surface"defect"detection"model"based"on"multibranch"dilated"convolution"aggregation"and"multidomain"perception"detection"head[J]."Sensors,"2023,"23(12):"5488.
[9]"CHENG"Y,"ZHU"J,"JIANG"M,"et"al."Flow:"a"dataset"and"benchmark"for"floating"waste"detection"in"inland"waters[C]//Proceedings"of"the"IEEE/CVF"International"Conference"on"Computer"Vision,2021:"10953-10962.
[10]SHARMA"V"K,"MIR"R"N."Saliency"guided"fasterRCNN"(SGFrRCNN)"model"for"object"detection"and"recognition[J]."Journal"of"King"Saud"UniversityComputer"and"Information"Sciences,"2022,"34(5):"1687-1699.
[11]LI"Y"D,"HAN"D,"LI"H"G,"et"al."Multiblock"SSD"based"on"small"object"detection"for"UAV"railway"scene"surveillance[J]."Chinese"Journal"of"Aeronautics,"2020,"33(6):"1747-1755.
[12]WANG"C"Y,"BOCHKOVSKIY"A,"LIAO"H"Y"M."YOLOv7:"trainable"bagoffreebies"sets"new"stateoftheart"for"realtime"object"detectors[C]//Proceedings"of"the"IEEE/CVF"Conference"on"Computer"Vision"and"Pattern"Recognition,2023:7464-7475.