康傳利, 張思瑤, 李玄皓, 林梓濤, 耿崇銘, 張賽, 王世偉
(桂林理工大學(xué)測(cè)繪地理信息學(xué)院, 桂林 541006)
道路交叉口檢測(cè)是城市路網(wǎng)更新、交通網(wǎng)絡(luò)分析與建模的重要依據(jù)[1],其準(zhǔn)確的檢測(cè)結(jié)果有利于道路網(wǎng)的構(gòu)建。在遙感影像中道路提取的結(jié)果通常不連續(xù),為滿(mǎn)足應(yīng)用,需要利用道路交叉口檢測(cè)輔助道路網(wǎng)的提取。而道路交叉口在遙感影像上受樹(shù)木遮擋、與周?chē)匚锾卣飨嘟⒆陨砟繕?biāo)小且密集,諸多特征導(dǎo)致檢測(cè)難度大、精度低,需要大量人工干預(yù)。因此,如何利用更輕量的模型準(zhǔn)確地進(jìn)行遙感影像道路交叉口檢測(cè)亟待解決。
傳統(tǒng)的道路交叉口檢測(cè)主要包括聚類(lèi)算法、張量投票、支持向量機(jī)等。文獻(xiàn)[2]針對(duì)單一數(shù)據(jù)源對(duì)于道路交叉口的描述能力有限設(shè)計(jì)了一種集成形態(tài)學(xué)處理、密度峰值聚類(lèi)與張量投票提取種子交叉口的方法;文獻(xiàn)[3]使用具有噪聲的基于密度的聚類(lèi)方法(density-based spatial clustering of applications with noise,DBSCAN)得到道路交叉口的中心坐標(biāo);文獻(xiàn)[4]通過(guò)計(jì)算出疑似特征點(diǎn)以及層次密度聚類(lèi)算法(hierarchical density-based spatial clustering of applications with noise,HDBSCAN)得到道路交叉口。但以上方法都依賴(lài)于低層次特征,需要大量的人工干預(yù)。
隨著中外學(xué)者的不斷研究,深度學(xué)習(xí)方法憑借深度網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力和高效的特征表達(dá)能力,能夠從像素級(jí)別原始數(shù)據(jù)到抽象的語(yǔ)義概念逐層提取信息。近年來(lái),深度學(xué)習(xí)目標(biāo)檢測(cè)模型YOLOv5[5]、YOLOF[6]、YOLOv7[7]及其改進(jìn)模型[8-9]被相繼提出。文獻(xiàn)[10]在YOLOv3中引入輕量級(jí)網(wǎng)絡(luò)Mobilev3模塊改進(jìn)特征提取網(wǎng)絡(luò),減小模型復(fù)雜度。文獻(xiàn)[11]基于YOLOv5s算法提出一種輕量化改進(jìn)的檢測(cè)識(shí)別方法。雖然目前熱門(mén)的模型在生活中的人或物的檢測(cè)中表現(xiàn)較優(yōu),但這些模型是針對(duì)特征信息簡(jiǎn)單的目標(biāo)設(shè)計(jì)的,更適合較大尺寸的目標(biāo)。而道路交叉口在遙感影像中表現(xiàn)出復(fù)雜的特點(diǎn),以上網(wǎng)絡(luò)模型不完全適用。因此,眾多學(xué)者對(duì)道路交叉口與熱門(mén)網(wǎng)絡(luò)模型進(jìn)行融合,文獻(xiàn)[12]提出一種基于動(dòng)態(tài)圖神經(jīng)網(wǎng)絡(luò)的道路交叉口分類(lèi)方法。文獻(xiàn)[13]針對(duì)道路交叉口目標(biāo)較小、存在較多的植被遮擋、鄰近地物顏色相近等問(wèn)題,將CIoU損失函數(shù)融入YOLOv3模型中,提升了網(wǎng)絡(luò)檢測(cè)精度。但YOLOv3模型提出距今已有一段時(shí)間,模型訓(xùn)練速度不高。文獻(xiàn)[14]提出GoogLeNet神經(jīng)網(wǎng)絡(luò)的復(fù)雜交叉路口檢測(cè)方法,雖然具有較強(qiáng)的泛化性和抗干擾性,但不適合目標(biāo)細(xì)小數(shù)據(jù)集的檢測(cè)。文獻(xiàn)[15]使用參數(shù)修正單元激活卷積層改進(jìn)YOLOv3模型檢測(cè)道路交叉口,但該方法對(duì)于特征不明顯的目標(biāo)仍存在一定的漏檢。文獻(xiàn)[16]利用Mask R-CNN完成了道路交叉口的矢量配準(zhǔn)。文獻(xiàn)[17]提出了針對(duì)小目標(biāo)的檢測(cè)模型,在YOLOv7網(wǎng)絡(luò)模型的基礎(chǔ)上,對(duì)MPConv模塊進(jìn)行改進(jìn),提取圖片中的細(xì)節(jié)信息,但其檢測(cè)范圍較小,且不適用于道路交叉口。
針對(duì)處理密集的城市道路和目標(biāo)較小的道路交叉口時(shí),出現(xiàn)的先驗(yàn)框定位誤差以及模型訓(xùn)練參數(shù)量增多的問(wèn)題,現(xiàn)提出一種改進(jìn)的輕量級(jí)YOLOv7網(wǎng)絡(luò)模型。使用歸一化高斯Wasserstein距離(normalized Gaussian Wasserstein distance, NGWD)度量?jī)蓚€(gè)先驗(yàn)框概率分布之間的差異改進(jìn)先驗(yàn)框定位損失函數(shù),以提高網(wǎng)絡(luò)模型對(duì)于目標(biāo)尺寸的魯棒性;針對(duì)自身目標(biāo)小且密集的誤檢,引入注意力機(jī)制,結(jié)合三維注意力機(jī)制實(shí)現(xiàn)特征優(yōu)化;最終通過(guò)增加新穎的FasterNeXt模塊,使用一種更快的部分卷積,以減少網(wǎng)絡(luò)訓(xùn)練參數(shù)量。
YOLOv7[7]是YOLO(you only look once )系列的目標(biāo)檢測(cè)模型,其基于深度神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)象的檢測(cè)和定位,具有使用更小的模型和更快的卷積操作的特點(diǎn)。YOLOv7模型延續(xù)了YOLO系列網(wǎng)絡(luò)結(jié)構(gòu),包括主干特征提取網(wǎng)絡(luò)(backbone)、加強(qiáng)特征提取網(wǎng)絡(luò)(neck)以及分類(lèi)器與回歸器(head)3個(gè)部分,且整個(gè)網(wǎng)絡(luò)模型由多分支堆疊模塊、過(guò)渡模塊、特征金字塔模塊構(gòu)成。該網(wǎng)絡(luò)模型首先將影像輸入到主干特征提取網(wǎng)絡(luò)中得到3個(gè)有效特征層。接著將3個(gè)有效特征層輸入到加強(qiáng)特征提取網(wǎng)絡(luò)中,在這一過(guò)程中得到了不同尺度的特征信息。最后將主干特征提取網(wǎng)絡(luò)和加強(qiáng)特征提取網(wǎng)絡(luò)輸出的3個(gè)有效特征層輸入到分類(lèi)器與回歸器部分進(jìn)行判斷,這一部分主要是對(duì)每個(gè)特征點(diǎn)進(jìn)行判斷,判斷特征點(diǎn)上的3個(gè)先驗(yàn)框是否有物體與其對(duì)應(yīng),最終獲得道路交叉口的預(yù)測(cè)結(jié)果。
以YOLOv7作為基線(xiàn)網(wǎng)絡(luò),在主干特征提取網(wǎng)絡(luò)以及加強(qiáng)特征提取網(wǎng)絡(luò)中融合FasterNeXt模塊,在加強(qiáng)特征提取網(wǎng)絡(luò)的過(guò)渡模塊中融合SimAM注意力機(jī)制模塊,其網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。

圖1 網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Network model
針對(duì)道路交叉口在遙感影像上受樹(shù)木遮擋、與周?chē)匚锾卣飨嘟⒆陨砟繕?biāo)小且密集的問(wèn)題主要進(jìn)行了3個(gè)方面改進(jìn)。首先,在YOLOv7模型中融合歸一化高斯Wasserstein距離以及CIoU(complete IoU)改進(jìn)先驗(yàn)框定位損失函數(shù),度量?jī)蓚€(gè)先驗(yàn)框之間的差異,提高網(wǎng)絡(luò)模型對(duì)于目標(biāo)尺寸的魯棒性;其次,在模型中加入SimAM注意力機(jī)制,實(shí)現(xiàn)道路交叉口的特征優(yōu)化;最后,為了降低網(wǎng)絡(luò)的訓(xùn)練過(guò)程加入注意力機(jī)制所增加的參數(shù)量設(shè)計(jì)一種輕量化模型。
交并比(intersection over union, IoU)是評(píng)價(jià)兩個(gè)先驗(yàn)框之間關(guān)系的測(cè)量標(biāo)準(zhǔn),體現(xiàn)著預(yù)測(cè)框與真實(shí)框的相似度[18]。對(duì)于道路交叉口來(lái)說(shuō),由于目標(biāo)太小或周?chē)匚锃h(huán)境太復(fù)雜。先驗(yàn)框里會(huì)包含背景像素,因?yàn)樵趯?shí)際過(guò)程中需要提取的道路交叉口目標(biāo)集中在中間位置,而背景像素集中在邊緣。道路交叉口在整張遙感影像上屬于小目標(biāo),這類(lèi)目標(biāo)的自動(dòng)檢測(cè)是一個(gè)非常具有挑戰(zhàn)性的問(wèn)題。在目標(biāo)較小的物體上包括為數(shù)不多的像素,缺少具體的內(nèi)部信息,使用目前熱門(mén)的檢測(cè)模型時(shí),小的道路交叉口兩個(gè)先驗(yàn)框IoU指標(biāo)會(huì)產(chǎn)生較大偏差,如圖2所示。

圖2 目標(biāo)先驗(yàn)框Fig.2 Target box
圖2中的網(wǎng)格代表遙感影像,先驗(yàn)框內(nèi)為檢測(cè)的道路交叉口目標(biāo),先驗(yàn)框外為背景像素。從圖2(a)可得出小目標(biāo)的A與B先驗(yàn)框IoU為0.53,而從圖2(b)可以得出A與B先驗(yàn)框IoU為0.86,在小目標(biāo)的先驗(yàn)框即使變化不大,但在計(jì)算IoU時(shí)其會(huì)發(fā)生較大變化,使得模型的損失函數(shù)難以收斂且較為敏感[18]。因此,研究適應(yīng)小目標(biāo)數(shù)據(jù)集的損失函數(shù)亟待解決。
在YOLOv7網(wǎng)絡(luò)模型中損失函數(shù)包括先驗(yàn)框定位損失、目標(biāo)置信度損失、分類(lèi)損失以及非極大抑制。其中,由于檢測(cè)目標(biāo)僅有道路交叉口一類(lèi),故分類(lèi)損失可以忽略。YOLOv7模型使用中先驗(yàn)框定位損失的CIoU損失函數(shù)雖然考慮到重疊面積、中心點(diǎn)距離、長(zhǎng)寬比3個(gè)因素,但仍是基于IoU評(píng)價(jià)的,在小目標(biāo)檢測(cè)時(shí)使得先驗(yàn)框太過(guò)敏感。CIoU損失函數(shù)如下。

(1)

(2)

(3)
式中:bpr為預(yù)測(cè)先驗(yàn)框;bgt為真實(shí)先驗(yàn)框;d為同時(shí)包含預(yù)測(cè)先驗(yàn)框和真實(shí)先驗(yàn)框的最小對(duì)角線(xiàn)距離;α為平衡參數(shù);ν為衡量長(zhǎng)寬比是否一致的標(biāo)準(zhǔn);wpr為預(yù)測(cè)先驗(yàn)框?qū)挾?hpr為預(yù)測(cè)先驗(yàn)框高度;wgt為真實(shí)先驗(yàn)框?qū)挾?hgt為真實(shí)先驗(yàn)框高度。
從式(2)可看出,當(dāng)先驗(yàn)框的長(zhǎng)寬一致時(shí),長(zhǎng)寬比懲罰項(xiàng)失效,使用CIoU的先驗(yàn)框定位損失函數(shù)得不到穩(wěn)定收斂。
針對(duì)YOLOv7網(wǎng)絡(luò)模型在檢測(cè)道路交叉口時(shí)IoU指標(biāo)只能進(jìn)行離散性變化且考慮到運(yùn)算效率的問(wèn)題,通過(guò)歸一化高斯Wasserstein距離與CIoU配比改進(jìn)先驗(yàn)框定位損失函數(shù),提高其在道路交叉口的檢測(cè)精度。Wasserstein距離是用來(lái)度量?jī)蓚€(gè)概率分布之間差異的方法,歸一化高斯Wasserstein距離對(duì)于位置的差別變換相較于IoU平緩,并且在兩個(gè)先驗(yàn)框不相交時(shí),具有度量其相似性的能力,如圖3所示。

(xpr,ypr)、(xgt,ygt)為內(nèi)嵌橢圓中心坐標(biāo);bpr、bgt分別為預(yù)測(cè)先驗(yàn)框、真實(shí)先驗(yàn)框圖3 預(yù)測(cè)先驗(yàn)框與真實(shí)先驗(yàn)框差異Fig.3 Difference between predicted a priori frame and real a priori frame
步驟1假設(shè)bpr為預(yù)測(cè)先驗(yàn)框,bgt為真實(shí)先驗(yàn)框,為了更好地對(duì)先驗(yàn)框中的每個(gè)像素進(jìn)行加權(quán),將先驗(yàn)框建模成一個(gè)二維高斯分布。二維高斯分布的概率密度函數(shù)為

(4)
式(4)中:X為先驗(yàn)框中心坐標(biāo)變量(x,y);μ為先驗(yàn)框中心坐標(biāo)的均值矩陣;Σ為先驗(yàn)框關(guān)于高和寬的協(xié)方差矩陣。μ與Σ的值如下。

(5)

(6)

步驟2在先驗(yàn)框建模成高斯分布后,用Wasserstein距離測(cè)量這兩個(gè)高斯分布之間的相似度,公式為


(7)
式(7)中:Npr為預(yù)測(cè)先驗(yàn)框的高斯分布;Ngt為真實(shí)先驗(yàn)框的高斯分布。
步驟3在上述基礎(chǔ)下進(jìn)行歸一化,公式為

(8)
式(8)中:M為與數(shù)據(jù)集相關(guān)的常數(shù)。
步驟4最終NGWD損失函數(shù)為
LNGWD=1-NGWD(Npr,Ngt)
(9)
式(9)中:LNGWD為歸一化高斯Wasserstein距離(NGWD)損失函數(shù)。
步驟5最后,先驗(yàn)框定位損失函數(shù)為
Lbox=λ1LNGWD+λ2LCIoU
(10)
λ1+λ2=1
(11)
式中:LNGWD為歸一化高斯Wasserstein距離損失函數(shù);LCIoU為CIoU損失函數(shù);將LNGWD和LCIoU融合起來(lái)作為先驗(yàn)框定位損失函數(shù);λ1、λ2為比例系數(shù)。
注意力機(jī)制最早源于人類(lèi)在視覺(jué)方面的研究,人類(lèi)會(huì)選擇性地關(guān)注重要信息,同時(shí)忽略其他次要信息。將注意力機(jī)制與深度學(xué)習(xí)目標(biāo)檢測(cè)融合,可以提升網(wǎng)絡(luò)模型檢測(cè)精度以及運(yùn)算效率。注意力機(jī)制主要包括通道注意力機(jī)制、空間注意力機(jī)制以及通道注意力機(jī)制與空間注意力機(jī)制的結(jié)合。通道注意力機(jī)制屬于一維注意力,空間注意力機(jī)制屬于二維注意力,由于一維與二維具有一定的局限性,會(huì)限制網(wǎng)絡(luò)模型的推理能力,使用的SimAM注意力機(jī)制[19]屬于一種三維的注意力機(jī)制,可以同時(shí)顧及通道和空間信息,其結(jié)構(gòu)如圖4所示。

圖4 SimAM結(jié)構(gòu)Fig.4 SimAM structure
針對(duì)道路目標(biāo)密集的問(wèn)題,在YOLOv7網(wǎng)絡(luò)模型以及歸一化高斯Wasserstein距離損失函數(shù)基礎(chǔ)上,將SimAM注意力機(jī)制加入加強(qiáng)特征提取部分。具體將過(guò)度模塊中的卷積、批量歸一化及激活函數(shù)(CBS)模塊替換為SimAM注意力機(jī)制模塊,使得網(wǎng)絡(luò)結(jié)構(gòu)關(guān)注到較為重要的道路交叉口目標(biāo)如圖5所示,實(shí)現(xiàn)道路交叉口的特征優(yōu)化,有效提升了模型的準(zhǔn)確度。

圖5 本文SimAM結(jié)構(gòu)Fig.5 SimAM structure of this paper


H為特征圖高度;W為特征圖寬度;Cp為特征圖部分通道;PConv為部分卷積圖6 FasterNeXt模塊結(jié)構(gòu)Fig.6 FasterNeXt module structure
網(wǎng)絡(luò)模型加入注意力機(jī)制增加了模型訓(xùn)練的時(shí)間成本,為了提升網(wǎng)絡(luò)訓(xùn)練速度,故提出了一種適合YOLOv7網(wǎng)絡(luò)模型的FasterNeXt模塊。具體是將YOLOv7網(wǎng)絡(luò)結(jié)構(gòu)中的部分多分支堆疊模塊替換為FasterNeXt模塊,首先對(duì)網(wǎng)絡(luò)進(jìn)行三次卷積、批量歸一化、激活函操作;再將其輸入FasterNetBlock模塊。其中FasterNetBlock中使用PConv模塊,減少了計(jì)算冗余和內(nèi)存訪(fǎng)問(wèn)。圖6為FasterNeXt模塊的整體結(jié)構(gòu)。
使用準(zhǔn)確率(precision,P)、召回率(recall,R)、平均準(zhǔn)確率(average precision,AP)和F1對(duì)模型訓(xùn)練效果進(jìn)行評(píng)價(jià),計(jì)算公式如下。

(12)

(13)

(14)

(15)
式中:TP為正確預(yù)測(cè);FP為錯(cuò)誤預(yù)測(cè),包括非道路交叉口檢測(cè)為交叉口以及漏檢兩種類(lèi)型;FN為錯(cuò)誤將交叉口檢測(cè)為其他類(lèi)別;P為準(zhǔn)確率;R為召回率。在P-R曲線(xiàn)圖中,P-R曲線(xiàn)與兩坐標(biāo)軸圍成的面積為AP值的大小。對(duì)所檢測(cè)數(shù)據(jù)集種類(lèi)的AP值取平均值可得到平均準(zhǔn)確度(mean average precision,mAP),由于類(lèi)別僅有道路交叉口一類(lèi),故AP與mAP相等。F1為P與R的調(diào)和平均值。
數(shù)據(jù)集Ⅰ為馬薩諸塞州數(shù)據(jù)集,其具有豐富道路信息的公共數(shù)據(jù)集,裁剪出888張影像;數(shù)據(jù)集Ⅱ?yàn)镻léiades衛(wèi)星所拍攝的廣西梧州市影像,裁剪出990張影像。實(shí)驗(yàn)對(duì)影像進(jìn)行椒鹽噪聲、鏡像、旋轉(zhuǎn)、剪切等操作,選取道路目標(biāo)較小且密集的影像制作模型訓(xùn)練過(guò)程中的數(shù)據(jù)集。利用labelimg進(jìn)行道路交叉口的標(biāo)注,其中包括道路“T”“+”“×”“Y”形道路交叉口。按照訓(xùn)練集、測(cè)試集、驗(yàn)證集7∶2∶1劃分。
實(shí)驗(yàn)的網(wǎng)絡(luò)模型在Windows11系統(tǒng),Python3.8以及Pytorch1.11.0,利用Pycharm編譯器完成實(shí)驗(yàn)。相關(guān)硬件配置如表1所示。在多次實(shí)驗(yàn)過(guò)程中,選取最合適的參數(shù),模型參數(shù)設(shè)置如表2所示。

表1 硬件配置Table 1 Hardware configuration

表2 模型參數(shù)值Table 2 Model parameter values
使用原始的YOLOv7模型后,部分道路交叉口由于目標(biāo)較小、樹(shù)木遮擋、與周?chē)匚镱伾嘟葐?wèn)題導(dǎo)致檢測(cè)偏差。通過(guò)改進(jìn)高斯Wasserstein距離與CIoU的先驗(yàn)框損失函數(shù)以及SimAM注意力機(jī)制。進(jìn)一步,加入了FasterNeXt模塊有效地解決了上述問(wèn)題。在保證系統(tǒng)配置環(huán)境、初始訓(xùn)練參數(shù)值一致的情況下,對(duì)改進(jìn)前后的YOLOv7網(wǎng)絡(luò)模型前后的先驗(yàn)框定位損失、精確度、召回率及平均準(zhǔn)確率進(jìn)行對(duì)比,得出網(wǎng)絡(luò)模型訓(xùn)練曲線(xiàn),如圖7所示。

平均準(zhǔn)確度@0.5表示預(yù)測(cè)先驗(yàn)框與真實(shí)先驗(yàn)框IoU閾值為0.5時(shí)得到的平均準(zhǔn)確度;平均準(zhǔn)確度@0.5: 0.95表示預(yù)測(cè)先驗(yàn)框與真實(shí)先驗(yàn)框IoU閾值為0.5~0.95,步長(zhǎng)為0.05得到的平均準(zhǔn)確度圖7 網(wǎng)絡(luò)模型訓(xùn)練曲線(xiàn)Fig.7 Network model training curves
圖7(a)與圖7(d)分別代表訓(xùn)練集與驗(yàn)證集先驗(yàn)框定位損失,可以看出由于原始的YOLOv7網(wǎng)絡(luò)模型損失值出現(xiàn)在訓(xùn)練集上的表現(xiàn)優(yōu)異,但在測(cè)試集上的損失值表現(xiàn)一般,而改進(jìn)后的模型損失函數(shù)較為穩(wěn)定,更加適合道路交叉口的檢測(cè)。而從準(zhǔn)確率、召回率、平均準(zhǔn)確度指標(biāo)來(lái)看,使用改進(jìn)網(wǎng)絡(luò)模型均有所提升。
針對(duì)實(shí)際情況中道路交叉口受樹(shù)木遮擋、周邊地物密集及小目標(biāo)三類(lèi)問(wèn)題,選取3種具有代表性的道路影像作為目標(biāo)檢測(cè)的對(duì)象,通過(guò)原始YOLOv7與改進(jìn)的YOLOv7網(wǎng)絡(luò)模型進(jìn)行對(duì)比檢測(cè),檢測(cè)效果如圖8~圖10所示。如圖8(a)所示的影像中道路四周植被較多,由于道路交叉口和樹(shù)木同時(shí)位于先驗(yàn)框中,其對(duì)先驗(yàn)框造成一定干擾,故原始YOLOv7模型未檢測(cè)出交叉口[圖8(a)①]且檢測(cè)出的道路交叉口目標(biāo)置信度較低,而使用改進(jìn)后的模型更加穩(wěn)定,在一定程度上避免上述問(wèn)題[圖8(b)]。如圖9(a)所示的影像中道路交叉口與建筑物較為密集,且交叉口的顏色與周?chē)匚锵嘟?導(dǎo)致交叉口的檢測(cè)產(chǎn)生遺漏[圖8(a)②,圖9(a)①],而改進(jìn)后的模型中加入了SimAM注意力機(jī)制減少了漏檢測(cè)[圖9(b)]。如圖10所示的影像中部分道路呈現(xiàn)出細(xì)長(zhǎng)的特點(diǎn),導(dǎo)致道路交叉口目標(biāo)更小、更不易被檢測(cè),在圖10(a)①②表現(xiàn)出來(lái),而改進(jìn)后的模型由于對(duì)于此類(lèi)目標(biāo)檢測(cè)較為穩(wěn)定,故檢測(cè)結(jié)果更加準(zhǔn)確。

圖8 樹(shù)木遮擋道路交叉口檢測(cè)對(duì)比Fig.8 Comparison of tree-shaded road intersection identification

圖9 密集地物道路交叉口檢測(cè)對(duì)比Fig.9 Comparison of dense feature road intersection identification

圖10 小目標(biāo)道路交叉口檢測(cè)對(duì)比Fig.10 Comparison of small target road intersection identification
在保證系統(tǒng)配置環(huán)境、初始訓(xùn)練參數(shù)值一致的情況下,將原始的 YOLOv7網(wǎng)絡(luò)模型、融合歸一化高斯Wasserstein距離與CIoU損失函數(shù)、加入SimAM注意力機(jī)制模塊以及FasterNeXt模塊進(jìn)行實(shí)驗(yàn)用來(lái)驗(yàn)證改進(jìn)后網(wǎng)絡(luò)模型的有效性,結(jié)果如表3所示。

表3 道路交叉口檢測(cè)結(jié)果對(duì)比Table 3 Comparison of road intersection identification results
以上實(shí)驗(yàn)表明,改進(jìn)后的 YOLOv7網(wǎng)絡(luò)模型在輸入相同尺寸圖片的情況下,其中P、R、AP及F1值分別提升了6.2%、4.9%、6.7%、6.5%,均超過(guò)了原始網(wǎng)絡(luò)模型,表明改進(jìn)后的模型更適合樹(shù)木遮擋、密集地物及小目標(biāo)道路交叉口檢測(cè)場(chǎng)景。其中,參數(shù)量和浮點(diǎn)運(yùn)算數(shù)(FLOPs)在加入注意力機(jī)制后 有所提升,而本文模型在提升精度的同時(shí),降低了參數(shù)量和浮點(diǎn)運(yùn)算數(shù)。
針對(duì)實(shí)際情況中道路交叉口目標(biāo)密集、小目標(biāo)、植被較多等問(wèn)題,在數(shù)據(jù)集Ⅰ與數(shù)據(jù)集Ⅱ中分別選取 3 種類(lèi)型影像,其中原始YOLOv7模型與改進(jìn) YOLOv7模型的檢測(cè)結(jié)果如圖11~圖14所示。數(shù)據(jù)集Ⅰ中,圖11 (a)表現(xiàn)為目標(biāo)密集影像,原圖共32個(gè)目標(biāo),原網(wǎng)絡(luò)模型檢測(cè)到19個(gè)目標(biāo),漏檢12 個(gè),原模型與改進(jìn)后模型均未錯(cuò)檢,而圖12 (a)中改進(jìn)后的網(wǎng)絡(luò)模型目標(biāo)置信度明顯大于原網(wǎng)絡(luò)模型;圖11 (b)針對(duì)小目標(biāo)影像,原圖共有17個(gè)目標(biāo),原網(wǎng)絡(luò)模型檢測(cè)到20個(gè)目標(biāo),漏檢4 個(gè)、錯(cuò)檢7個(gè),改進(jìn)后網(wǎng)絡(luò)模型漏檢、錯(cuò)檢情況有所改善;對(duì)于圖11(c)植被較多的影像,原網(wǎng)絡(luò)模型漏檢2個(gè),錯(cuò)檢5個(gè),而改進(jìn)后的網(wǎng)絡(luò)模型僅錯(cuò)檢1個(gè)目標(biāo),錯(cuò)檢明顯降低。數(shù)據(jù)集Ⅰ與數(shù)據(jù)集Ⅱ檢測(cè)結(jié)果對(duì)比,如表4所示。

表4 檢測(cè)結(jié)果對(duì)比Table 4 Comparison of test results

圖11 數(shù)據(jù)集Ⅰ原始模型檢測(cè)結(jié)果Fig.11 Dataset Ⅰ original model detection results

圖12 數(shù)據(jù)集Ⅰ本文模型檢測(cè)結(jié)果Fig.12 Dataset Ⅰ model detection results of this paper

圖14 數(shù)據(jù)集Ⅱ本文模型檢測(cè)結(jié)果Fig.14 Dataset Ⅱ model detection results of this paper
針對(duì)樹(shù)木遮擋、密集地物及小目標(biāo)的道路交叉口,出現(xiàn)的先驗(yàn)框定位誤差以及模型訓(xùn)練參數(shù)量增多的問(wèn)題,提出一種改進(jìn)的輕量級(jí)YOLOv7 目標(biāo)檢測(cè)模型。根據(jù)定性、定量分析以及實(shí)驗(yàn)驗(yàn)證,得出以下結(jié)論。
(1)使用歸一化高斯Wasserstein距離與CIoU進(jìn)行先驗(yàn)框定位損失函數(shù)的改進(jìn),提高了網(wǎng)絡(luò)模型對(duì)于目標(biāo)尺寸的魯棒性。
(2)在加強(qiáng)網(wǎng)絡(luò)特征提取模塊中加入三維SimAM注意力機(jī)制,實(shí)現(xiàn)了網(wǎng)絡(luò)處理的特征優(yōu)化,適應(yīng)道路的各種復(fù)雜場(chǎng)景,進(jìn)一步提高了網(wǎng)絡(luò)檢測(cè)精度,同時(shí)減少了在檢測(cè)過(guò)程中的誤檢和漏檢。
(3)為了降低模型訓(xùn)練的參數(shù)及顯存占用,引入一種新穎的輕量級(jí)FasterNeXt模塊,減少了模型訓(xùn)練參數(shù)。
實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的 YOLOv7 網(wǎng)絡(luò)模型更適合道路交叉口的檢測(cè)。雖然在一定程度上提高了模型的檢測(cè)精度以及訓(xùn)練過(guò)程中的參數(shù)量,但數(shù)據(jù)集種類(lèi)依然較少。因此,接下來(lái)的研究中將在數(shù)據(jù)集方面對(duì)其進(jìn)行擴(kuò)增,增加數(shù)據(jù)集可提升模型檢測(cè)能力的廣泛性,以提高網(wǎng)絡(luò)模型在實(shí)際應(yīng)用中的需求。