






文章編號:1671?251X(2024)08?0105?07 DOI:10.13272/j.issn.1671-251x.2024060013
關(guān)鍵詞:采掘工作面;小目標(biāo)檢測;YOLOv8n;安全防護(hù)裝備檢測;多尺度目標(biāo)識別
中圖分類號:TD67 文獻(xiàn)標(biāo)志碼:A
0引言
在煤礦井下采掘工作面,工作人員需佩戴安全防護(hù)裝備,如安全帽、礦燈、口罩、自救器等[1]。這些裝備為人員生命安全提供基本保障。實(shí)際生產(chǎn)中,一些人員對安全防護(hù)裝備的重視程度不夠,無法有效地使用這些裝備來確保自身安全。目前,煤礦企業(yè)主要依靠視頻監(jiān)控系統(tǒng)來監(jiān)測人員是否正確佩戴防護(hù)裝備[2]。隨著深度學(xué)習(xí)和人工智能技術(shù)的不斷發(fā)展及應(yīng)用,采用基于深度學(xué)習(xí)的計(jì)算機(jī)視覺算法來檢測和識別人員安全裝備佩戴情況,可有效降低煤礦安全事故發(fā)生概率[3],提高煤礦安全生產(chǎn)水平。
在煤礦井下作業(yè)環(huán)境中,監(jiān)控?cái)z像頭位置固定,且覆蓋范圍廣泛,拍攝距離大,安全防護(hù)裝備目標(biāo)在監(jiān)控畫面中的尺寸較小,加之裝備顏色與周圍環(huán)境相近,易受環(huán)境變化影響,增加檢測難度。因此,實(shí)現(xiàn)煤礦井下場景中小目標(biāo)(如尺寸小于32×32 的目標(biāo))精準(zhǔn)檢測,在人員安全防護(hù)裝備監(jiān)測中具有重要意義[4]。
目前,目標(biāo)檢測領(lǐng)域廣泛采用卷積神經(jīng)網(wǎng)絡(luò)模型, 如R?CNN(Region-based Convolutional NeuralNetworks, 基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)) 、Fast R?CNN(Fast Region-based Convolutional Neural Networks,快速基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)) 、Faster R?CNN(Faster Region-based Convolutional Neural Networks,更快的基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò))、SSD(Single ShotMultiBox Detector, 單次檢測多框檢測器) 、YOLO等[5-12]。相較于R?CNN 系列模型和SSD 模型,YOLO系列模型具備出色的高速性能、端到端訓(xùn)練、多尺度融合、自適應(yīng)錨框等特點(diǎn),能夠高效地將底層位置信息和上層語義信息融合,實(shí)現(xiàn)目標(biāo)檢測任務(wù)的快速、準(zhǔn)確、高效執(zhí)行,已被學(xué)者用于煤礦井下目標(biāo)檢測研究中。崔鐵軍等[13]采用基于Keras 框架的YOLOv4目標(biāo)檢測算法, 結(jié)合MTCNN(Multi-taskConvolutional Neural Networks, 多任務(wù)卷積神經(jīng)網(wǎng)絡(luò))和FaceNet 構(gòu)成人臉識別模型,對人員是否佩戴防塵口罩進(jìn)行了高精度的快速檢測與識別,檢測佩戴防塵口罩人員的AP(Average Precision,平均精度)為92.78%、未佩戴防塵口罩人員的AP 為91.63%。李熙尉等[14]針對煤礦井下綜采工作面煤塵干擾導(dǎo)致的人員和安全帽檢測算法精度低、漏檢率高等問題,提出了基于改進(jìn)YOLOv5s 的礦井人員和安全帽檢測算法,通過引入CBAM(Convolutional Block AttentionModule,卷積塊注意力模塊)更準(zhǔn)確地提取圖像關(guān)鍵特征,采用αCIoU 損失函數(shù)替換原始CIoU 損失函數(shù)來提升整體目標(biāo)檢測的準(zhǔn)確率。曹帥等[15]提出了一種基于YOLOv7?SE 的煤礦井下小目標(biāo)檢測方法,通過融合模擬退火算法和k-means++聚類算法優(yōu)化YOLOv7 模型中的初始錨框值,增加新的檢測層以減少煤塵干擾,并在骨干網(wǎng)絡(luò)中引入雙層注意力機(jī)制強(qiáng)化小目標(biāo)特征表示,對安全帽和自救器檢測的AP 分別達(dá)到72.5% 和64.5%。王科平等[16]提出了一種改進(jìn)的YOLOv4 模型,用于檢測綜采工作面的大型設(shè)備及行人目標(biāo),通過在CSPDarkNet53 網(wǎng)絡(luò)中融入殘差自注意力模塊來提升圖像關(guān)鍵目標(biāo)特征的表達(dá)能力和目標(biāo)檢測精度,引入深度可分離卷積以減少模型參數(shù)量和計(jì)算量,檢測AP 為92.59%。顧清華等[17]提出了一種基于改進(jìn)YOLOv5 的目標(biāo)檢測算法,采用弱光增強(qiáng)網(wǎng)絡(luò)Zero?DCE 提升模型的泛化能力, 引入C?ASPP(Cross-scale Atrous Spatial PyramidPooling, 跨尺度空洞空間金字塔池化) 模塊、Transformer 算法和雙向特征融合金字塔網(wǎng)絡(luò)來提高模型的特征提取能力和檢測性能,對井下人員安全防護(hù)裝備檢測的AP 為90.2%,檢測速度為81.2 幀/s。寇發(fā)榮等[18]提出一種YOLOv5 改進(jìn)模型——Ucm?YOLOv5,使用PP?LCNet 作為主干網(wǎng)絡(luò)以加強(qiáng)CPU端的推理速度,取消Focus 模塊,使用shuffle_block模塊替代C3 模塊以減少計(jì)算量,并引入H swish 作為激活函數(shù),對井下目標(biāo)的檢測精度較YOLOv5 提高11.7%。
在背景復(fù)雜、光照條件差的采掘工作面惡劣環(huán)境下, 小目標(biāo)檢測精度仍有待提高。YOLOv8 是YOLO 系列的最新版本[19],具有更優(yōu)的性能和靈活性,能更好地應(yīng)對井下復(fù)雜環(huán)境中的目標(biāo)檢測任務(wù)。YOLOv8n 是YOLOv8 系列中更小型、更輕量級的變體,專為速度和資源受限的環(huán)境設(shè)計(jì)。本文提出一種基于改進(jìn)YOLOv8n 的采掘工作面小目標(biāo)檢測方法,通過井下實(shí)際監(jiān)控視頻圖像驗(yàn)證了改進(jìn)YOLOv8n 模型對井下人員及其佩戴安全防護(hù)裝備檢測的AP 優(yōu)于主流目標(biāo)檢測模型,滿足采掘工作面小目標(biāo)檢測精度和實(shí)時(shí)性要求。
1改進(jìn)YOLOv8n模型
改進(jìn)YOLOv8n模型結(jié)構(gòu)如圖1所示,其中H,W,C 分別為輸入圖像長度、寬度、通道數(shù),S 為卷積步長,K 為卷積核大小,n 為模塊個(gè)數(shù)。輸入圖像在骨干網(wǎng)絡(luò)(Backbone)層通過卷積層提取特征和語義信息,這些信息經(jīng)改進(jìn)C2f 模塊(C2f?DSConv)進(jìn)行深度融合,以提取多尺度特征,增強(qiáng)對小目標(biāo)和人體細(xì)節(jié)的感知能力。在Neck 層引入PSA(PolarizedSelf?Attention,極化自注意力)機(jī)制,對特征圖進(jìn)行處理,以減少信息損失,提高特征表達(dá)能力,從而更好地定位和識別目標(biāo)。在Head 層增設(shè)了專門針對小目標(biāo)的檢測頭,以擴(kuò)大模型檢測范圍,提升對微小目標(biāo)的感知能力。
1.1Backbone層改進(jìn)
在YOLOv8n 模型Backbone 層的C2f 模塊中,Bottleneck 結(jié)構(gòu)通常采用固定尺寸的卷積核,且每個(gè)卷積核的位置是預(yù)先設(shè)定的,在處理具有復(fù)雜或不規(guī)則形狀的小目標(biāo)時(shí)精度較差。DSConv(DynamicSnake Convolution,動態(tài)蛇形卷積)的卷積核[20]能夠根據(jù)輸入特征圖的形狀和邊界信息進(jìn)行自適應(yīng)調(diào)整,從而更精確地適應(yīng)目標(biāo)物體的形狀,提升復(fù)雜或不規(guī)則形狀小目標(biāo)的處理能力。因此,將C2f模塊中的固定卷積替換為DSConv,得到C2f?DSConv 模塊,如圖2 所示。輸入數(shù)據(jù)經(jīng)CBS(Con?BN?Silu)模塊進(jìn)行卷積操作,再經(jīng)Split 模塊分割為2個(gè)部分,其中一部分經(jīng)多個(gè)DSConv模塊處理后,與另一部分融合拼接,最終經(jīng)CBS模塊輸出。
DSConv 卷積的核心在于引入了變形偏移量,這使得卷積核能更靈活地關(guān)注目標(biāo)物體的復(fù)雜幾何特征。為了有效控制模型學(xué)習(xí)過程中的變形偏移,避免感知場過度偏離目標(biāo),采用迭代策略,為每個(gè)目標(biāo)選擇一系列觀察點(diǎn),確保注意力的連續(xù)性,同時(shí)防止由于過大的變形偏移導(dǎo)致感知場過度擴(kuò)散[20]。DSConv 卷積不僅能感知并適應(yīng)目標(biāo)的幾何結(jié)構(gòu),還能自適應(yīng)關(guān)注彎曲或卷曲的結(jié)構(gòu)特征。在煤礦井下應(yīng)用場景中,人員安全防護(hù)裝備可能呈現(xiàn)各種形狀和大小,且常與其他背景元素重疊,導(dǎo)致檢測困難。DSConv 的引入使得模型能更加專注于安全防護(hù)裝備的關(guān)鍵特征,自由貼合其形狀學(xué)習(xí)特征,且在一定約束條件下確保卷積核不會偏離目標(biāo)結(jié)構(gòu)太遠(yuǎn),從而提高檢測的準(zhǔn)確性和可靠性。
1.2 Neck層改進(jìn)
由于井下小目標(biāo)圖像的復(fù)雜性,YOLOv8n 在處理空間和通道計(jì)算時(shí)計(jì)算量和顯存需求急劇增加。為了平衡性能與資源消耗,在YOLOv8n 的Neck 層引入PSA 機(jī)制。其核心是通過動態(tài)聚焦來減少信息損失[21]。PSA 機(jī)制有并行和順序2 種布局模式。本文采用并行布局模式,如圖3 所示。其包含多個(gè)卷積層(Conv) 、池化層(Global Pooling) 、激活函數(shù)(Softmax)、重塑層(Reshape),采用多個(gè)1×1卷積實(shí)現(xiàn)通道極化,并使用不同的重塑和池化操作來處理數(shù)據(jù)。
PSA 機(jī)制在空間維度和通道維度均沒有進(jìn)行大規(guī)模的壓縮。在空間維度上,PSA 機(jī)制保持原始輸入圖像的大小H×W;在通道維度上,使用了原始通道數(shù)C 的一半。這使得模型在處理大量數(shù)據(jù)時(shí)能夠保持較高的效率。此外,PSA機(jī)制在通道和空間分支均采用Softmax 和Sigmoid相結(jié)合的函數(shù),使得模型能夠擬合出細(xì)粒度回歸結(jié)果的輸出分布,從而提高檢測的準(zhǔn)確性。
1.3Head層改進(jìn)
YOLOv8n 的Head 層有3 個(gè)檢測頭,在不同尺度上進(jìn)行目標(biāo)檢測。由于小目標(biāo)在不同尺度上可能表現(xiàn)出多樣化的特征,較淺的網(wǎng)絡(luò)結(jié)構(gòu)難以充分捕捉這些細(xì)微的差別,且微小目標(biāo)在圖像中的占比較小,難以被模型有效捕捉。針對井下環(huán)境中小目標(biāo)檢測需求,在YOLOv8n 模型中增加1 個(gè)專門針對微小目標(biāo)檢測的檢測頭,形成4 檢測頭結(jié)構(gòu),如圖4所示。Detect1 為新增的檢測頭, 用于檢測大小為160×160 的特征圖中4×4 以上大小的目標(biāo)。Detect 2—Detect4 為原始YOLOv8n 中的檢測頭,分別檢測80×80 特征圖中8×8、40×40特征圖中16×16、20×20特征圖中32×32以上大小的目標(biāo)。
Detect1 利用來自底層網(wǎng)絡(luò)的高分辨率特征圖生成預(yù)測結(jié)果, 顯著提高了對微小目標(biāo)的敏感度。Detect1 的增加可能導(dǎo)致計(jì)算量和內(nèi)存消耗增大,但由于YOLO系列算法具有高并行性,所以并不會顯著影響檢測的實(shí)時(shí)性。與原始的3 檢測頭結(jié)構(gòu)相比,4檢測頭結(jié)構(gòu)通過更深層次的網(wǎng)絡(luò)結(jié)構(gòu)來捕獲復(fù)雜的特征,使模型能夠更有效地應(yīng)對目標(biāo)尺度變化、遮擋等情況,提升井下小目標(biāo)檢測精度。
2實(shí)驗(yàn)及結(jié)果分析
為驗(yàn)證改進(jìn)YOLOv8n 模型對于井下人員安全防護(hù)裝備這類小目標(biāo)的檢測性能,在實(shí)驗(yàn)室環(huán)境下進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)平臺配置見表1。
采集江蘇省某煤礦綜采工作面原始監(jiān)控視頻圖像,選取其中1 319 張圖像,按照9∶1 的比例劃分,其中1 183 張作為訓(xùn)練集、136 張作為驗(yàn)證集。采用LabelImg 工具標(biāo)注5 個(gè)類別,分別為人員(person) 、安全帽(helmet)、礦燈(lamp)、口罩(mask)、自救器(self-rescuer) ,如圖5 所示。標(biāo)注后的數(shù)據(jù)集共有8 273 個(gè)目標(biāo)框。
改進(jìn)YOLOv8n 模型訓(xùn)練過程中應(yīng)用PyTorch 框架。設(shè)置隨機(jī)梯度下降初始動量為0.937,權(quán)值衰減系數(shù)為0.000 5,學(xué)習(xí)率為0.01。使用余弦衰減率調(diào)度器。經(jīng)過100 次訓(xùn)練,得到最優(yōu)模型。
為了驗(yàn)證DSConv、PSA機(jī)制、新增檢測頭的作用,進(jìn)行消融實(shí)驗(yàn),結(jié)果見表2。
從表2 可看出,與改進(jìn)模型相比,原始YOLOv8n模型的精確率、召回率和mAP50(mean AveragePrecision at 50% Intersection over Union,50% 交并比下的平均精度均值)最低。在C2f 模塊中引入DSConv后,模型精確率和召回率均超過原始YOLOv8n 模型,表明C2f?DSConv 能夠準(zhǔn)確捕獲井下人員及其佩戴安全防護(hù)裝備的特征。采用4 檢測頭結(jié)構(gòu)后,精確率、召回率、mAP50 分別提高1.1%, 4.2%, 2.0%,表明4 檢測頭結(jié)構(gòu)通過在不同尺度上進(jìn)行檢測,增大了模型對目標(biāo)的覆蓋范圍。引入PSA 機(jī)制后,精確率、召回率、mAP50 分別達(dá)89.3%,91.3%,92.4%,在4 組模型中最高,驗(yàn)證了改進(jìn)方法的有效性。另外,改進(jìn)YOLOv8n 模型的檢測速度為208 幀/s,滿足礦井實(shí)時(shí)檢測要求。
在相同數(shù)據(jù)集上, 將改進(jìn)YOLOv8n 模型與Faster?RCNN,YOLOv5s,YOLOv7,YOLOv8n 模型進(jìn)行對比實(shí)驗(yàn),結(jié)果如圖6 所示。可看出改進(jìn)YOLOv8n模型對人員及其佩戴4 種安全防護(hù)裝備的檢測精度均優(yōu)于其他模型。
5種模型對各類目標(biāo)檢測的AP 見表3。可看出與4 種對比模型相比,改進(jìn)YOLOv8n 模型對于各類目標(biāo)檢測的AP 均最優(yōu),特別是檢測礦燈和自救器的AP分別達(dá)89.9% 和90.8%,較YOLOv8n 模型分別提升10.1% 和5.7%,且對各類別目標(biāo)檢測的mAP達(dá)92.4%。
5種模型的檢測性能對比見表4。與Faster R?CNN 相比,改進(jìn)YOLOv8n 模型的mAP 提高13.2%,且參數(shù)量和GFLOPs(Giga Floating Point OperationsPer Second,每秒十億次浮點(diǎn)運(yùn)算)大幅降低,檢測速度提高了201 幀/s。與YOLOv5s 和YOLOv7 相比,改進(jìn)YOLOv8n 模型的mAP 分別提高6.8% 和6.1%,檢測速度分別提升149,66 幀/s。與YOLOv8n 相比,改進(jìn)YOLOv8n 模型的參數(shù)量和GFLOPs 略高, 但mAP提高3.3%。實(shí)驗(yàn)結(jié)果驗(yàn)證了改進(jìn)YOLOv8n 模型能夠很好地平衡檢測時(shí)間和準(zhǔn)確性。
3結(jié)論
1) 改進(jìn)YOLOv8n 模型將DSConv 和主干網(wǎng)絡(luò)的C2f 模塊融合,提高了模型提取多尺度特征的能力;引入PSA 機(jī)制,使模型能捕獲更多的像素級別信息,提升小目標(biāo)檢測效果;采用4 檢測頭結(jié)構(gòu),增強(qiáng)了對微小目標(biāo)的檢測能力。
2) 實(shí)驗(yàn)結(jié)果表明,對井下人員及其所佩戴安全帽、礦燈、口罩、自救器進(jìn)行檢測時(shí),改進(jìn)YOLOv8n模型的AP 分別為98.3%,95.8%,89.9%,87.2%,90.8%,均高于主流目標(biāo)檢測模型Faster R?CNN,YOLOv5s,YOLOv7,YOLOv8n。
3) 未來將著重研究在不顯著增加計(jì)算負(fù)擔(dān)的前提下,提升模型的識別精度。方案包括:① 增加特征提取網(wǎng)絡(luò)的深度,從而更有效地提取井下特殊環(huán)境中人員與安全防護(hù)裝備特征。② 利用并行計(jì)算來提高分類器計(jì)算速度,從而更快地匹配識別的特征。