













關(guān)鍵詞:煙火檢測(cè);雙向特征金字塔;YOLOv8s;多尺度卷積注意力
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)志碼:A 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
文章編號(hào):1003-3106(2024)11-2566-10
0引言
當(dāng)今社會(huì),城市化進(jìn)程正在迅速發(fā)展,城市建設(shè)規(guī)模與復(fù)雜性不斷增加。然而,隨著城市規(guī)模的擴(kuò)大和建筑結(jié)構(gòu)的復(fù)雜化,城市面臨著各種安全挑戰(zhàn),包括火災(zāi)?;馂?zāi)不僅對(duì)人們的生命和財(cái)產(chǎn)構(gòu)成巨大威脅,還可能對(duì)城市的穩(wěn)定運(yùn)行和社會(huì)秩序產(chǎn)生嚴(yán)重影響。在城市建設(shè)中,高層建筑、商業(yè)中心和人口密集區(qū)域等地存在著潛在的火災(zāi)風(fēng)險(xiǎn),有效的火災(zāi)檢測(cè)與預(yù)防成為城市安全管理的當(dāng)務(wù)之急。目前市面上大多采用傳感器進(jìn)行煙火檢測(cè)[1],然而這種方法存在成本高昂、覆蓋范圍有限以及難以應(yīng)對(duì)復(fù)雜的城市環(huán)境等問(wèn)題。為解決傳感器檢測(cè)存在的弊端,有學(xué)者提出傳統(tǒng)圖像處理的方法[2]。傳統(tǒng)的圖像處理方法主要依靠分析火焰和煙霧的顏色、輪廓和運(yùn)動(dòng)等物理特征進(jìn)行火災(zāi)檢測(cè)。Kim 等[3]提出了一種創(chuàng)新性的方法,采用了RGB 顏色模型,提高了火災(zāi)檢測(cè)的效果,但是泛化能力不足,可能無(wú)法有效應(yīng)對(duì)不同類(lèi)型的火災(zāi)或煙霧,以及一些復(fù)雜環(huán)境的挑戰(zhàn)。
隨著計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)的不斷發(fā)展,將深度學(xué)習(xí)網(wǎng)絡(luò)模型應(yīng)用于煙火檢測(cè)成為近年來(lái)的研究熱點(diǎn)。Wu 等[4]使用Faster R-CNN[5]、YOLO[6-9]、SSD[10]等經(jīng)典目標(biāo)檢測(cè)網(wǎng)絡(luò)實(shí)時(shí)檢測(cè)森林火災(zāi),提高了檢測(cè)準(zhǔn)確率,但未能實(shí)現(xiàn)在嵌入式硬件平臺(tái)上的低成本實(shí)現(xiàn)。Zhang 等[11]提出了一種基于Faster R-CNN的煙霧檢測(cè)方法,取得了不錯(cuò)的檢測(cè)精度,但是檢測(cè)速度比較慢,不符合煙火檢測(cè)的實(shí)時(shí)性要求。YOLO 系列可以在檢測(cè)精度和實(shí)時(shí)性這兩方面達(dá)到較好的平衡。羅小權(quán)等[12] 提出了一種改進(jìn)的YOLOv3 火災(zāi)檢測(cè)方法,以提升火災(zāi)檢測(cè)的準(zhǔn)確性和速度。然而,這一方法的誤報(bào)率較高,不符合實(shí)際工業(yè)需求。王一旭等[13]也對(duì)YOLOv5s 模型進(jìn)行了改進(jìn),成功提高了模型對(duì)煙火的檢測(cè)精度。
深度學(xué)習(xí)算法在煙火檢測(cè)領(lǐng)域仍然存在一些問(wèn)題,煙火的形狀和顏色多種多樣,而且受天氣、光照和背景等多種因素影響,容易導(dǎo)致深度學(xué)習(xí)網(wǎng)絡(luò)模型煙火檢測(cè)的準(zhǔn)確度不高、高誤檢率問(wèn)題,而且現(xiàn)在的煙火檢測(cè)耗時(shí)比較長(zhǎng)。
針對(duì)上述問(wèn)題,本文引入了基于YOLOv8s 改進(jìn)的煙火檢測(cè)模型,以解決當(dāng)前深度學(xué)習(xí)中煙火檢測(cè)存在的精度低、誤檢率高和耗時(shí)長(zhǎng)等問(wèn)題。
1YOLOv8s網(wǎng)絡(luò)模型
YOLOv8 是最新的YOLO 模型,根據(jù)網(wǎng)絡(luò)的深度和寬度分為YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l 和YOLOv8x 不同版本,它們的網(wǎng)絡(luò)結(jié)構(gòu)相同,唯一的差異在于網(wǎng)絡(luò)的深度和寬度不同。YOLOv8s 具有較少的參數(shù)量和計(jì)算量,同時(shí)精度又能滿(mǎn)足煙火檢測(cè)的需求,因此本文選擇YOLOv8s 作為改進(jìn)模型。
YOLOv8s 模型的架構(gòu)主要由三部分組成:主干部分(Backbone )、頸部(Neck )網(wǎng)絡(luò)和輸出頭(Head)。Backbone 主要負(fù)責(zé)從輸入圖像中提取特征,然后在主干中選擇3 個(gè)有效的特征層輸入到YOLOv8s 的Neck 中。Neck 的主要任務(wù)是融合多尺度的特征,生成特征金字塔,為后續(xù)任務(wù)提供更多信息。Neck 網(wǎng)絡(luò)采用PANet[14]結(jié)構(gòu),該結(jié)構(gòu)由特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,FPN)和路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PAN)兩部分組成。FPN 首先從卷積神經(jīng)網(wǎng)絡(luò)中提取特征圖,構(gòu)建特征金字塔,然后自頂向下進(jìn)行上采樣和特征圖的融合。在這個(gè)過(guò)程中,每一層特征圖的信息都與上下相鄰層的特征圖進(jìn)行融合,這樣可以保留高層特征圖中的目標(biāo)信息,同時(shí)可以充分利用底層特征圖中的背景信息。PAN 是一種用于增強(qiáng)FPN 性能的網(wǎng)絡(luò)結(jié)構(gòu),引入了路徑聚合的概念,通過(guò)自底向上的結(jié)構(gòu),從不同層級(jí)的特征圖中提取信息并將其融合,充分保留了空間特征信息。YOLOv8 使用了解耦頭(Decoupled Head),使用2 個(gè)卷積分別做分類(lèi)和回歸。
YOLOv8s 主要由CBS 模塊、C2f 模塊和快速空間金字塔池化(Spatial Pyramid Pooling-Fast,SPPF)模塊組成。CBS 模塊由Conv、BN 和SiLU 激活函數(shù)構(gòu)成。YOLOv8s 創(chuàng)新性地引入了C2f 結(jié)構(gòu),這是對(duì)殘差特征進(jìn)行學(xué)習(xí)的重要組成部分,能夠高效地捕獲豐富的梯度流信息。在模型主干網(wǎng)絡(luò)的最后一層,引入了SPPF 結(jié)構(gòu),這一結(jié)構(gòu)通過(guò)一系列連續(xù)的5×5 卷積核最大池化操作,分別捕捉感受野大小為5、9、13的信息。隨后,這些經(jīng)過(guò)SPPF 處理的特征層與未經(jīng)處理的特征層進(jìn)行融合,以綜合不同尺度的特征信息,從而提高模型的性能。YOLOv8 的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
2YOLOv8s 算法改進(jìn)策略
2.1高效多尺度注意力機(jī)制
在煙火場(chǎng)景檢測(cè)中,光照變化問(wèn)題可能會(huì)導(dǎo)致圖像的亮度分布不均勻,影響煙火目標(biāo)與周?chē)尘暗膶?duì)比度。此外,煙火本身具有高度的動(dòng)態(tài)性,在空中迅速移動(dòng)和變形,這種運(yùn)動(dòng)性質(zhì)使得煙火目標(biāo)的邊緣和輪廓變得模糊不清,會(huì)降低煙火檢測(cè)的準(zhǔn)確性。其次,周?chē)h(huán)境可能呈現(xiàn)出錯(cuò)綜復(fù)雜的場(chǎng)景,包括大量建筑物、道路、車(chē)輛以及人群等各種背景元素,這些背景元素會(huì)在圖像中引入大量冗余信息和干擾,導(dǎo)致煙火目標(biāo)難以從復(fù)雜的背景中分離出來(lái)。近年來(lái),注意力機(jī)制在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛應(yīng)用,其基本原理是在強(qiáng)化有用特征信息的同時(shí),抑制無(wú)用特征信息,使模型能夠更自適應(yīng)地關(guān)注圖像中的重要區(qū)域。傳統(tǒng)的Squeeze-and-Excitation(SE)[15]注意力機(jī)制主要關(guān)注于構(gòu)建通道之間的相互依賴(lài)關(guān)系,對(duì)空間特征的考慮較少。卷積塊的注意力模塊(Convolutional Block Attention Module,CBAM)[16]通過(guò)有效結(jié)合空間注意力和通道注意力提高了模型性能,但只能有效地捕獲本地信息,難以建立長(zhǎng)距離通道依賴(lài)性。坐標(biāo)注意力(CoordinateAttention,CA)[17]機(jī)制將精確的位置信息嵌入到通道中,并在空間上捕捉長(zhǎng)距離的相互作用,提高了性能,2 個(gè)1D 全局平均池化被設(shè)計(jì)用于沿2 個(gè)空間維度方向?qū)θ中畔⑦M(jìn)行編碼,并分別沿不同維度方向在空間上捕獲長(zhǎng)程相互作用。然而,它忽略了整個(gè)空間位置之間相互作用的重要性,此外,1×1 卷積的有限感受野阻礙了局部跨通道相互作用的建模和利用上下文信息。高效多尺度注意力(EfficientMulti-scale Attention,EMA)模塊[18]提出了一種新的跨空間學(xué)習(xí)方法,設(shè)計(jì)了一個(gè)用于建立短期和長(zhǎng)期依賴(lài)關(guān)系的多尺度并行子網(wǎng)絡(luò),而且考慮了一種通用方法,將部分通道維度重塑為Batch 維度,以避免通過(guò)通用卷積進(jìn)行某種形式的降維。與CBAM、空間注意力(Spatial Attention,SA)和CA 相比,EMA 不僅具有更高的性能,而且在所需參數(shù)方面更高效。因此在模型中引入了EMA 機(jī)制,EMA 模塊如圖2 所示。
2.2融合BiFPN思想
YOLOv8s 頸部采用了FPN+PAN 結(jié)構(gòu),FPN 的核心特點(diǎn)是自頂向下的特征傳遞和橫向連接,目標(biāo)是通過(guò)金字塔形式的特征連接,將不同尺度的特征圖融合在一起,將高層次的特征與低層次的特征相結(jié)合。雖然FPN 與PAN 的結(jié)合增強(qiáng)了網(wǎng)絡(luò)的特征融合能力,但帶來(lái)了一個(gè)潛在問(wèn)題,即PAN 結(jié)構(gòu)的輸入完全依賴(lài)于FPN 結(jié)構(gòu)處理的特征信息,而來(lái)自骨干特征提取網(wǎng)絡(luò)的原始信息可能會(huì)部分丟失。這種缺乏原始信息的參與可能會(huì)導(dǎo)致模型訓(xùn)練的偏差,從而影響檢測(cè)的準(zhǔn)確性。為了解決這一問(wèn)題,從特征融合的角度出發(fā),引入了加權(quán)雙向特征金字塔(Bi-directional Feature Pyramid Network,BiFPN)[19]結(jié)構(gòu),以增強(qiáng)底層信息的表現(xiàn)。通過(guò)BiFPN,可以更好地利用骨干特征提取網(wǎng)絡(luò)中的原始信息,將其與FPN 和PAN 結(jié)構(gòu)處理的特征信息相結(jié)合。這種全方位的特征融合方式有助于減輕由于原始信息丟失而導(dǎo)致的偏差問(wèn)題,促進(jìn)多尺度融合,從而提高模型的檢測(cè)性能。
在原始的YOLOv8s 網(wǎng)絡(luò)中,下采樣倍數(shù)比較大,這會(huì)導(dǎo)致高層特征圖在經(jīng)過(guò)多次卷積處理后,逐漸喪失了細(xì)節(jié)信息,深層特征圖很難有效地捕獲小目標(biāo)的特征信息。這意味著在高級(jí)語(yǔ)義信息中,包含較少關(guān)于小目標(biāo)的有用信息。本文的煙火數(shù)據(jù)集中包含較多的小目標(biāo)信息,數(shù)據(jù)集目標(biāo)框大小分布如圖3所示,橫/ 縱坐標(biāo)分別代表標(biāo)簽寬/ 高度與對(duì)應(yīng)數(shù)據(jù)本身寬/ 高度的比值。
在YOLOv8s 網(wǎng)絡(luò)融合BiFPN 的基礎(chǔ)上增加一個(gè)160×160 的小目標(biāo)檢測(cè)層,會(huì)有效增強(qiáng)小目標(biāo)的語(yǔ)義信息和特征表達(dá)能力,但是會(huì)增加不少的參數(shù)量和計(jì)算量,降低煙火檢測(cè)的速度,而煙火檢測(cè)對(duì)于實(shí)時(shí)性的要求比較高。為了充分利用P2層的小目標(biāo)信息同時(shí)又不增加比較多的參數(shù)量和計(jì)算量,創(chuàng)新性地將P2 層的特征融合在BiFPN中。首先對(duì)P2 層的特征圖進(jìn)行下采樣操作,以確保與BiFPN 中的下一層特征圖具有相同的分辨率,將下采樣后的P2 層特征圖通過(guò)Concat 融合在BiFPN 的自底向上的特征傳遞中,然后輸入到C2f模塊進(jìn)一步特征提取。這樣既可以有效利用小目標(biāo)的語(yǔ)義信息,又不會(huì)增加許多的計(jì)算量和參數(shù)量。P2 層的特征圖具有較高的分辨率,包含大量無(wú)關(guān)的背景信息和冗余特征信息。為了更有效地利用P2 層的特征信息,在P2 特征圖進(jìn)行下采樣后添加一個(gè)EMA 機(jī)制模塊,可以有效抑制無(wú)關(guān)信息,提取更加有用的特征信息。為了有效減少參數(shù)量、計(jì)算量和模型權(quán)重大小,在主干網(wǎng)絡(luò)的P2、P3、P4、P5 四個(gè)特征層后添加1 ×1 卷積核的普通卷積進(jìn)行通道數(shù)的壓縮。改進(jìn)后的BiFPN 結(jié)構(gòu)如圖4 所示,P2、P3、P4、P5為經(jīng)過(guò)主干網(wǎng)絡(luò)提取的特征層,每層中的4、8、16、32 代表原圖的下采樣倍數(shù)。
2.3CARAFE
YOLOv8s 中默認(rèn)采用最近鄰插值的上采樣方法,這種方法僅僅依靠像素點(diǎn)的空間位置來(lái)進(jìn)行上采樣,屬于一種均勻的上采樣方式,無(wú)法有效地利用特征圖的語(yǔ)義信息。此外,最近鄰插值的特征感知范圍相對(duì)較小。因此,引入了一種輕量級(jí)通用上采樣算子——Content-Aware ReAssembly of Features(CARAFE)[20],它擁有更大的感知范圍,可以更充分地利用特征圖的語(yǔ)義信息,并且能夠在大的感受野內(nèi)進(jìn)行上下文信息的聚合,同時(shí)不會(huì)引入過(guò)多的參數(shù)和計(jì)算負(fù)擔(dān)。CARAFE 算子具有內(nèi)容感知的處理,不會(huì)對(duì)所有樣本使用固定的內(nèi)核,而是支持特定于實(shí)例的內(nèi)容感知處理,能夠?qū)崟r(shí)生成自適應(yīng)的內(nèi)核。因此,在YOLOv8s的頸部部分,將CARAFE 替代原來(lái)的上采樣方法,有助于提高模型對(duì)特征信息的捕捉和語(yǔ)義信息的利用,同時(shí)不會(huì)增加過(guò)多的計(jì)算負(fù)擔(dān)。CARAFE 模塊如圖5所示。
CARAFE 分為2個(gè)主要模塊:上采樣核預(yù)測(cè)模塊和特征重組模塊。在給定一個(gè)輸入特征圖(形狀為H×W×C)和上采樣倍率σ 的情況下,CARAFE 的工作流程如下。
特征重組模塊:對(duì)于輸出特征圖的每個(gè)位置,將其映射回輸入特征圖,取出以之為中心的kup ×kup 的區(qū)域,然后與預(yù)測(cè)的上采樣核進(jìn)行點(diǎn)積運(yùn)算,得到輸出值。相同位置但不同通道的特征圖共享同一個(gè)上采樣核。將所有位置的運(yùn)算結(jié)果匯總,得到輸出特征圖,其形狀為σH×σW×C。
2.4輕量化的多尺度卷積注意力檢測(cè)頭設(shè)計(jì)
YOLOv8s 采用了Decoupled Head,將回歸分支和預(yù)測(cè)分支進(jìn)行分離,每一個(gè)分支都會(huì)進(jìn)行2 個(gè)3×3 卷積核的CBS 模塊和一個(gè)1 ×1 卷積核的Conv2d模塊,這樣會(huì)產(chǎn)生許多計(jì)算量和參數(shù)量。煙火檢測(cè)對(duì)于實(shí)時(shí)性要求比較高,模型的輕量化設(shè)計(jì)有助于提升模型檢測(cè)的速度。因此重新設(shè)計(jì)了檢測(cè)頭,采用共享權(quán)重參數(shù)的方式,從頸部輸出的3 個(gè)特征層進(jìn)入檢測(cè)頭后,經(jīng)過(guò)一系列共享權(quán)重參數(shù)的模塊提取特征,將回歸分支和預(yù)測(cè)分支進(jìn)行分離,每一個(gè)分支采用1×1 卷積核的Conv2d 模塊進(jìn)行回歸預(yù)測(cè),共享權(quán)重參數(shù)的設(shè)計(jì)可以有效地減少參數(shù)量和計(jì)算量,從而提升模型的運(yùn)行速度。本文設(shè)計(jì)了一種多尺度卷積注意力(Multi-scale Convolutional Attention,MCA)模塊共享權(quán)重參數(shù)。多尺度卷積可以同時(shí)處理不同尺度的特征,能夠捕獲圖像中各種尺寸的信息并且同時(shí)考慮不同尺度上的上下文信息,這有助于模型更好地理解圖像中物體之間的關(guān)系,提供更多的語(yǔ)境,從而提高檢測(cè)性能。而普通卷積在單一尺度上進(jìn)行操作,可能會(huì)錯(cuò)過(guò)或模糊小尺寸或大尺寸的特征。普通卷積只關(guān)注局部信息,可能無(wú)法捕獲足夠的上下文信息。另外,在多尺度的基礎(chǔ)上添加注意力機(jī)制可以在強(qiáng)化有用特征信息的同時(shí),抑制無(wú)用特征信息,使模型能夠更自適應(yīng)地關(guān)注圖像中的重要區(qū)域。MCA 在前向傳播中,首先輸入特征被分成多個(gè)組,然后每個(gè)組的特征分別經(jīng)過(guò)不同卷積核大小的卷積層和EMA 機(jī)制處理,最后將各尺度的特征融合在一起,通過(guò)1×1 卷積得到最終輸出。MCA 模塊如圖6 所示。
輕量化多尺度卷積注意力檢測(cè)頭如圖7所示。
2.5SPPFCSPC_Group
YOLOv8s 中引入了SPPF,允許模型在不同尺度上對(duì)特征圖進(jìn)行池化操作,有助于捕獲不同尺寸目標(biāo)的特征,并增加了感受野。但在池化過(guò)程中會(huì)損失一些空間信息,這可能導(dǎo)致模型在處理一些需要詳細(xì)空間信息的任務(wù)時(shí)性能下降。YOLOv7 設(shè)計(jì)了空間金字塔池化跨階段部分連接(Spatial PyramidPooling Cross Stage Partial Connection,SPPCSPC),該模塊使用了具有CSP 結(jié)構(gòu)的SPP 擴(kuò)大感受野,在SPP 結(jié)構(gòu)中引入了CSP 結(jié)構(gòu),具有一個(gè)大的殘差邊輔助優(yōu)化與特征提取,相對(duì)于SPPF 具有更好的表現(xiàn)但是具有更大的參數(shù)量和計(jì)算量。本文引入結(jié)合了SPPCSPC 和SPPF 優(yōu)點(diǎn)的SPPFCSPC 模塊,考慮到會(huì)增加比較多的參數(shù)量和計(jì)算量,采用組卷積(Group Convolution)的思想減少參數(shù)量和計(jì)算量。Group Convolution 是一種卷積神經(jīng)網(wǎng)絡(luò)中的卷積操作,將輸入通道分成多個(gè)組,每個(gè)組內(nèi)的通道進(jìn)行獨(dú)立的卷積操作,然后將各個(gè)組的輸出特征圖合并在一起,在減少參數(shù)量的同時(shí),保持網(wǎng)絡(luò)的表征能力。
通過(guò)對(duì)比式(1)和式(2),分組卷積可以有效減少參數(shù)量,使用組卷積進(jìn)行重構(gòu)SPPFCSPC。SPPF-CSPC_Group 模塊如圖8所示。
3實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
3.1數(shù)據(jù)集
本文所用的數(shù)據(jù)集是從公開(kāi)數(shù)據(jù)集FASDD上選取1800張圖像作為訓(xùn)練集、250 張圖像作為驗(yàn)證集和400張圖像作為測(cè)試集,數(shù)據(jù)集包含煙霧和火焰2 個(gè)類(lèi)別。
3.2實(shí)驗(yàn)環(huán)境與參數(shù)配置
本文的實(shí)驗(yàn)環(huán)境為:Windows 11 系統(tǒng);CPUIntel(R)Core(TM)i9-10900X CPU @ 3. 70 GHz;內(nèi)存64 GB;GPU NVIDIA GeForce RTX 3090;顯存24 GB。深度學(xué)習(xí)框架采用PyTorch,編程語(yǔ)言采用Python 3.8,在Pycharm 中搭建實(shí)驗(yàn)環(huán)境。選用YOLOv8s 網(wǎng)絡(luò),基本采用官方推薦參數(shù),在此基礎(chǔ)上更改的參數(shù)設(shè)置如表1所示。
3.3評(píng)價(jià)指標(biāo)
本文采用的指標(biāo)主要有精確率(Precision)、召回率(Recall )、平均精度均值(mean AveragePrecision,mAP)、Param、計(jì)算量(GFLOPs)、模型權(quán)重大?。▎挝唬停拢┖蜋z測(cè)速度(FPS)。檢測(cè)耗時(shí)是在batchsize 設(shè)置成1 的情況下單張圖片預(yù)測(cè)所需要的時(shí)間(單位ms ),FPS 為1 000 / 檢測(cè)耗時(shí)。Precision 是指在所有模型預(yù)測(cè)為正類(lèi)別的樣本中,實(shí)際上是正類(lèi)別的比例。Precision 衡量了模型在正類(lèi)別預(yù)測(cè)中的準(zhǔn)確性。Precision計(jì)算如下:
式中:FN 表示模型錯(cuò)誤預(yù)測(cè)為負(fù)類(lèi)別的樣本數(shù)量。
mAP 是目標(biāo)檢測(cè)任務(wù)中常用的評(píng)估指標(biāo),它綜合了模型在不同類(lèi)別上的精確率-召回率曲線(Pre-cision-Recall Curve)并計(jì)算了平均值,衡量了模型在多類(lèi)別上的檢測(cè)性能,常用于評(píng)估目標(biāo)檢測(cè)算法的整體效果。
3.4實(shí)驗(yàn)結(jié)果與分析
3.4.1消融實(shí)驗(yàn)
為了驗(yàn)證本文算法,通過(guò)多個(gè)模塊組合的方式進(jìn)行消融實(shí)驗(yàn),在測(cè)試集上的實(shí)驗(yàn)結(jié)果如表2 所示。由表2 可以看出,以YOLOv8s 為基線模型,引入融合EMA 的BiFPN 后,mAP 提升了2.4% ,參數(shù)量、計(jì)算量和模型權(quán)重分別下降了3.46×106,2. 6,6.2 MB;在此基礎(chǔ)上添加輕量級(jí)通用上采樣算子CARAFE后,mAP 提升了0. 2% ;在此基礎(chǔ)上改進(jìn)檢測(cè)頭,mAP提升了0.4% ,參數(shù)量、計(jì)算量和模型權(quán)重分別下降了0. 89×106,5,1.7 MB;添加分組卷積空間金字塔池化SPPFCSPC_Group 模塊,mAP 提升了0.4% 。最終改進(jìn)的模型相較于基準(zhǔn)YOLOv8 模型,mAP 提升了3.4% ,參數(shù)量、計(jì)算量和模型權(quán)重分別下降了4. 18×106 ,7.1,7.1 MB,證明了本文所提算法的有效性。
為了更加全面地研究本文算法的性能,進(jìn)行數(shù)據(jù)可視化工作,以呈現(xiàn)改進(jìn)模型(Improve_YOLOv8s)與YOLOv8s 之間的性能比較。專(zhuān)注于這2個(gè)模型在150 輪訓(xùn)練過(guò)程中的Precision、Recall、mAP_0.5和mAP_0. 5:0. 95 的變化情況,其中mAP _0.5是在IoU 閾值為0.5計(jì)算的精度,mAP_0.5:0.95是在IoU 閾值為0. 5 ~ 0.95 計(jì)算的平均精度。對(duì)比數(shù)據(jù)如圖10 所示。
3.4.2對(duì)比實(shí)驗(yàn)
為了更深入地研究本文所提改進(jìn)模型在煙火檢測(cè)任務(wù)中的性能,進(jìn)行了一系列與其他主流目標(biāo)檢測(cè)模型的對(duì)比實(shí)驗(yàn),包括Faster R-CNN、SSD、YOLOv5s、YOLOv8s 以及YOLOv7-tiny。在相同的數(shù)據(jù)集和訓(xùn)練參數(shù)下進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3 所示。由表3 可以看出,本文改進(jìn)模型的mAP、精度和召回率優(yōu)于YOLOv5s、YOLOv8s 和YOLOv7-tiny 模型;改進(jìn)模型精度略低于SSD,但是召回率高出SSD 不少;召回率低于Faster R-CNN,但是精度高出Faster R-CNN 不少;在參數(shù)量、計(jì)算量和模型權(quán)重大小方面,相對(duì)于SSD 和Faster R-CNN,本文改進(jìn)的模型具有非常明顯的優(yōu)勢(shì);本文改進(jìn)算法的FPS 基本滿(mǎn)足煙火檢測(cè)的實(shí)時(shí)性要求。從各個(gè)指標(biāo)綜合考慮,本文的改進(jìn)模型更加適合煙火檢測(cè)。
3.4.3實(shí)驗(yàn)效果驗(yàn)證
為了展示模型性能的提升,本文選擇了測(cè)試集中不同場(chǎng)景下的圖像,對(duì)比改進(jìn)前后的模型檢測(cè)效果以便清晰地展現(xiàn)改進(jìn)所帶來(lái)的差異。對(duì)比效果如圖11 所示,左側(cè)展示了原始的YOLOv8s 模型的檢測(cè)結(jié)果,右側(cè)則呈現(xiàn)了改進(jìn)后模型的檢測(cè)效果。圖11(a)中左圖受背景干擾沒(méi)有識(shí)別出煙霧和小目標(biāo)火焰,右圖識(shí)別出了淡色的煙霧和小目標(biāo)火焰,提升了檢測(cè)精度和小目標(biāo)的檢測(cè)性能;圖11(b)中右圖比左圖在背景復(fù)雜的環(huán)境下識(shí)別火焰更加的全面準(zhǔn)確,同時(shí)煙霧識(shí)別的置信度更高;圖11(c)中左圖受背景干擾錯(cuò)誤地把地面識(shí)別成了煙霧,煙霧中的火焰也未識(shí)別出來(lái),右圖準(zhǔn)確地識(shí)別出了煙霧中的火焰,未把地面識(shí)別成煙霧,減少了漏報(bào)和誤報(bào)問(wèn)題。
4結(jié)束語(yǔ)
為了解決目前城市背景煙火檢測(cè)方法存在檢測(cè)精度不高,易出現(xiàn)誤檢、漏檢和耗時(shí)長(zhǎng)等問(wèn)題,本文提出了一項(xiàng)改進(jìn)YOLOv8s 的煙火檢測(cè)模型,首先選擇了一部分來(lái)自公開(kāi)數(shù)據(jù)集FASDD 的數(shù)據(jù),并在這些數(shù)據(jù)集上引入了陽(yáng)光和白云等各種干擾因素,增強(qiáng)模型的魯棒性;改進(jìn)的模型引入BiFPN 增強(qiáng)特征融合;添加基于跨空間學(xué)習(xí)的EMA 突出目標(biāo)特征;引入了CARAFE 有效地利用特征圖的語(yǔ)義信息;設(shè)計(jì)了一種MCA 添加到檢測(cè)頭輕量化設(shè)計(jì);引入分組卷積空間金字塔池化SPPFCSPC_Group 模塊更有效地提取特征。改進(jìn)的模型相比于YOLOv8s 基準(zhǔn)模型,減少了參數(shù)量、計(jì)算量和模型權(quán)重大小,并且精度有比較大的提升。
作者簡(jiǎn)介
于泳波 男,(2000—),碩士研究生。主要研究方向:計(jì)算機(jī)視覺(jué)。
袁棟梁 男,(1993—),博士研究生。主要研究方向:計(jì)算機(jī)視覺(jué)。
孫振 男,(1986—),博士,副教授,碩士生導(dǎo)師。主要研究方向:計(jì)算機(jī)視覺(jué)、人工智能、數(shù)據(jù)分析。中國(guó)計(jì)算機(jī)學(xué)會(huì)會(huì)員,ISA Transactions審稿人。
朱靈茜 女,(1998—),碩士研究生。主要研究方向:計(jì)算機(jī)視覺(jué)。嚴(yán)增興 男,(1978—),博士,教授。主要研究方向:校園智慧安防。
鞠瑞文 男,(2000—),碩士研究生。主要研究方向:計(jì)算機(jī)視覺(jué)。
(*通信作者)李慶黨 男,(1973—),博士,教授,博士生導(dǎo)師,泰山學(xué)者海外特聘專(zhuān)家。主要研究方向:智能制造系統(tǒng)及其裝備、人工智能及大數(shù)據(jù)。