








關(guān)鍵詞:圖像超分辨率;駕駛員異常行為檢測(cè);SRGAN;深度學(xué)習(xí);ConvNeXt
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)36-00024-05"開(kāi)放科學(xué)(資源服務(wù)) 標(biāo)識(shí)碼(OSID) :
0 引言
隨著汽車(chē)保有量的持續(xù)增長(zhǎng),交通安全問(wèn)題已成為影響人身安全的主要問(wèn)題之一。據(jù)公安部數(shù)據(jù),2022年全國(guó)共發(fā)生交通事故254 609起[1],平均每天發(fā)生約695起交通事故。研究表明,駕駛員的不良行為是導(dǎo)致交通事故的重要因素之一,駕駛分心導(dǎo)致的交通事故占重大事故的14%~33%[1]。在交通事故中,未系安全帶的駕駛員死亡率為75%,而系安全帶的生還率高達(dá)95%[2]。因此,對(duì)駕駛員異常行為的檢測(cè)具有重要的現(xiàn)實(shí)意義。
針對(duì)駕駛員異常行為監(jiān)測(cè),許多學(xué)者開(kāi)展了一系列研究。Zhao[3]等人通過(guò)改進(jìn)YOLOv5的方式,對(duì)低照度圖像下駕駛員分心行為進(jìn)行準(zhǔn)確檢測(cè)。Huo[2]等人提出了一種STN-CNNs模型,通過(guò)加入空間變換神經(jīng)網(wǎng)絡(luò),使檢測(cè)模型可以更好地定位圖像中的駕駛員區(qū)域,并通過(guò)改進(jìn)的Hough變換檢測(cè)駕駛員安全帶佩戴情況,但由于數(shù)據(jù)集中部分圖片清晰度不高,影響了檢測(cè)精確度。針對(duì)這一問(wèn)題,Kang[4]等人針對(duì)收集到的道路監(jiān)控駕駛員圖像噪聲明顯、圖像質(zhì)量低等問(wèn)題,利用改進(jìn)的EDSR模型進(jìn)行圖像超分辨率,通過(guò)去掉BN層精簡(jiǎn)模型結(jié)構(gòu),有效提升了圖像重建質(zhì)量,但該研究未對(duì)駕駛員行為進(jìn)行檢測(cè)。
為了解決上述問(wèn)題,本文首先基于前期研究,構(gòu)建了駕駛員異常行為超分辨率數(shù)據(jù)集LD以及駕駛員異常行為目標(biāo)檢測(cè)數(shù)據(jù)集SD。針對(duì)數(shù)據(jù)集中圖像清晰度不高和噪聲較為明顯的問(wèn)題,本文提出了一種改進(jìn)的超分辨率生成對(duì)抗網(wǎng)絡(luò)SRGAN[5]算法以提升圖像質(zhì)量。在四倍超分辨率任務(wù)中,盡管原始SRGAN 算法能夠生成相對(duì)清晰的圖像,但由于其生成器和判別器結(jié)構(gòu)的局限性,訓(xùn)練過(guò)程不夠穩(wěn)定[6],且在重建過(guò)程中容易丟失部分高頻信息,導(dǎo)致生成圖像出現(xiàn)紋理細(xì)節(jié)缺失、邊緣模糊等現(xiàn)象,進(jìn)而影響重建效果。為了解決這些問(wèn)題,本文提出了改進(jìn)SRGAN算法引入ConvNeXt-v2[7]模塊替代原有模型中的殘差塊,以解決高頻特征丟失的問(wèn)題,并增強(qiáng)算法對(duì)邊緣輪廓的感知能力。此外,在判別器中加入了金字塔注意力模塊,以減少噪聲干擾,進(jìn)一步提升圖像質(zhì)量。最后,本文將改進(jìn)的SRGAN超分辨率算法與YOLOv8目標(biāo)檢測(cè)模型相結(jié)合進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,本文提出的模型顯著提升了駕駛員異常行為檢測(cè)的準(zhǔn)確性。
1 駕駛員異常行為監(jiān)測(cè)模型
1.1 數(shù)據(jù)集構(gòu)建
許多研究采用YawDD等駕駛員車(chē)內(nèi)視角公開(kāi)數(shù)據(jù)集,主要針對(duì)駕駛員異常行為的事前預(yù)防和事中發(fā)現(xiàn)。然而,由于車(chē)內(nèi)自主監(jiān)控在現(xiàn)實(shí)中推廣難度較大,目前主要通過(guò)公共安全部門(mén)的懲戒性處罰方式來(lái)管理駕駛員行為。但是,從公共安全部門(mén)角度出發(fā)的針對(duì)駕駛員異常行為的研究較少,主要原因包括數(shù)據(jù)集構(gòu)建困難和城市道路圖像質(zhì)量較差,導(dǎo)致目標(biāo)檢測(cè)效果不理想[8]。為解決上述問(wèn)題,本文首先建立了城市道路監(jiān)控駕駛員行為數(shù)據(jù)集,并對(duì)數(shù)據(jù)圖像進(jìn)行超分辨率重建。
1) 超分辨率圖像數(shù)據(jù)集構(gòu)建
為了提高模型對(duì)多樣化數(shù)據(jù)的魯棒性,并考慮監(jiān)控場(chǎng)景的特點(diǎn),本文采用了兩個(gè)數(shù)據(jù)集聯(lián)合訓(xùn)練。首先,使用DIV2K數(shù)據(jù)集[9]對(duì)模型進(jìn)行預(yù)訓(xùn)練,之后使用自建數(shù)據(jù)集LD進(jìn)行微調(diào),最終在LD數(shù)據(jù)集上評(píng)估模型的超分辨率效果。LD數(shù)據(jù)集的部分代表性圖片如圖1所示。
2) 目標(biāo)檢測(cè)數(shù)據(jù)集構(gòu)建
自建的LD數(shù)據(jù)集覆蓋了不同的駕駛員行為,包括正常駕駛、未系安全帶、使用手機(jī)等。同時(shí),數(shù)據(jù)集涵蓋了不同光照條件、單一駕駛員目標(biāo)和多個(gè)車(chē)內(nèi)目標(biāo),以確保目標(biāo)檢測(cè)模型在實(shí)際場(chǎng)景中的準(zhǔn)確性?;贚D數(shù)據(jù)集,進(jìn)一步建立了駕駛員異常行為目標(biāo)檢測(cè)數(shù)據(jù)集SD。
SD數(shù)據(jù)集中包括658張正常駕駛圖像和1 295張異常駕駛行為圖像,其中訓(xùn)練集1 562張,驗(yàn)證集391 張,訓(xùn)練集與驗(yàn)證集的比例約為8∶2,具體如表1 所示。
對(duì)原始圖片進(jìn)行篩選與裁剪后,使用LabelImg圖像標(biāo)注軟件建立了PASCAL VOC格式的目標(biāo)檢測(cè)數(shù)據(jù)集。對(duì)數(shù)據(jù)集中的駕駛員檢測(cè)區(qū)域進(jìn)行了矩形邊界標(biāo)注,示例如圖2所示。
1.2 SRGAN 殘差塊改進(jìn)
ConvNeXt[10]是Facebook AI于2021年提出的深度卷積網(wǎng)絡(luò)模型,使用純卷積網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)Trans?former[11]模型性能的超越。ConvNeXt主要由4個(gè)階段(stage) 堆疊構(gòu)成,每個(gè)階段包含一個(gè)下采樣模塊和多個(gè)ConvNeXt塊。為了增強(qiáng)SRGAN網(wǎng)絡(luò)對(duì)圖像中物體邊緣輪廓的重建效果,本文借鑒了ConvNeXt-v2的思想,重新設(shè)計(jì)了原始SRGAN 網(wǎng)絡(luò)的殘差塊。ConvNeXt-v2版本去除了LayerScale,提高了模型的訓(xùn)練速度;增加了GRN層以緩解特征折疊問(wèn)題。改進(jìn)的殘差塊結(jié)構(gòu)如圖3所示。
在改進(jìn)的殘差塊中,使用LayerNorm層歸一化取代了原始SRGAN殘差塊中的BatchNorm層歸一化,以減少生成圖像中的偽影問(wèn)題。同時(shí),使用深度可分離卷積調(diào)整通道維度,進(jìn)一步增強(qiáng)對(duì)圖片特征的提取能力。最后,經(jīng)過(guò)上采樣操作將特征圖放大為原來(lái)的4 倍。改進(jìn)的生成器結(jié)構(gòu)如圖4所示。
1.3 金字塔注意力機(jī)制
為了提高算法對(duì)駕駛員圖像細(xì)節(jié)的關(guān)注度,有效抑制道路監(jiān)控圖像噪聲對(duì)生成圖像的干擾,并增強(qiáng)模型對(duì)復(fù)雜道路場(chǎng)景的魯棒性,本文在SRGAN判別器中引入了金字塔注意力機(jī)制[12](pyramid attention) 。金字塔注意力機(jī)制能夠充分利用圖像中的跨尺度自相似性,顯著提高模型在面對(duì)噪聲或偽影等干擾時(shí)的魯棒性。金字塔注意力機(jī)制可用公式(1) 進(jìn)行表述:
金字塔注意力模塊的結(jié)構(gòu)如圖5所示。在判別器中引入DW卷積,可以在減少模型參數(shù)量的同時(shí)增加模型寬度,從而提高模型的訓(xùn)練速度[13]。改進(jìn)后的SRGAN判別器結(jié)構(gòu)如圖6所示。將金字塔注意力模塊嵌入在第2個(gè)SRGANeXt模塊之后,幫助判別器在平均池化層判別前強(qiáng)化細(xì)節(jié)特征,有效提高判別器的區(qū)分能力。
1.4 YOLOv8目標(biāo)檢測(cè)模型
YOLO[14] (You Only Look Once) 算法是一種基于CNN的目標(biāo)檢測(cè)算法,可用于目標(biāo)檢測(cè)、圖像分類(lèi)等領(lǐng)域,具有檢測(cè)速度快、體積小、準(zhǔn)確度高等優(yōu)點(diǎn)。YOLOv8是目前主流的單階段目標(biāo)檢測(cè)算法,根據(jù)網(wǎng)絡(luò)深度、特征圖寬度及參數(shù)量大小,YOLOv8可分為YOLOv8-n、YOLOv8-s、YOLOv8-m、YOLOv8-l、YO?LOv8-x共5個(gè)版本。其中,YOLOv8-n的網(wǎng)絡(luò)卷積深度較小,檢測(cè)速度快。基于配置與輕量化部署的需求,本文選用YOLOv8-n作為目標(biāo)檢測(cè)的基準(zhǔn)模型。
YOLOv8-n主要由主干(Backbone) 、頸部(Neck) 和檢測(cè)頭(Head) 三個(gè)部分組成,其結(jié)構(gòu)如圖7所示。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)環(huán)境搭建
本文的模型訓(xùn)練在云服務(wù)器上進(jìn)行,服務(wù)器系統(tǒng)為Ubuntu 20.04,硬件配置包括12 GB 內(nèi)存的Intel?Xeon? Gold 6230 @ 2.1 GHz CPU 和6 GB 顯存的NVIDIA GeForce RTX 3060 GPU。實(shí)驗(yàn)的軟件環(huán)境包括Conda 3.9科學(xué)計(jì)算包、Pytorch 2.0.1深度學(xué)習(xí)框架和Python 3.8,訓(xùn)練過(guò)程中采用CUDA 11.7.1加速GPU 運(yùn)算。改進(jìn)的SRGAN模型訓(xùn)練超參數(shù)設(shè)置如表2所示,優(yōu)化過(guò)程采用ADAM 算法,以提高模型的收斂速度。
2.2 重建圖像質(zhì)量評(píng)價(jià)指標(biāo)
改進(jìn)的SRGAN 模型使用DIV2K 數(shù)據(jù)集進(jìn)行訓(xùn)練,并使用自建駕駛員異常行為數(shù)據(jù)集LD進(jìn)行微調(diào)。為了增強(qiáng)數(shù)據(jù),訓(xùn)練圖像進(jìn)行了隨機(jī)水平翻轉(zhuǎn)和90度隨機(jī)旋轉(zhuǎn),同時(shí)將訓(xùn)練集歸一化到[0,1]區(qū)間。
2.3 改進(jìn)的SRGAN 算法效果展示
圖8 和圖9 分別展示了SRGAN 網(wǎng)絡(luò)與改進(jìn)的SRGAN網(wǎng)絡(luò)在三個(gè)真實(shí)場(chǎng)景下駕駛員區(qū)域圖像重建效果的對(duì)比圖。
如圖9所示,在細(xì)節(jié)重建效果上,改進(jìn)的SRGAN 相比原始SRGAN網(wǎng)絡(luò)提升明顯。引入改進(jìn)后殘差塊的網(wǎng)絡(luò)模型對(duì)圖片邊緣提取了更多有用信息,對(duì)安全帶的輪廓重建效果更顯著,手部的細(xì)節(jié)更加真實(shí),且質(zhì)量更加細(xì)膩。同時(shí),加入金字塔注意力機(jī)制的SRGAN網(wǎng)絡(luò)在圖片噪聲抑制方面效果顯著,減少了圖片噪聲在重建時(shí)的干擾,提升了超分辨率圖像的質(zhì)量。
2.4 改進(jìn)的SRGAN 算法消融實(shí)驗(yàn)
針對(duì)SRGAN網(wǎng)絡(luò)在細(xì)節(jié)重建真實(shí)感較差、輪廓感知不明顯以及噪聲敏感等問(wèn)題,本文引入Con?vNeXtv2模塊改進(jìn)生成器與判別器的殘差塊,同時(shí)在判別器中加入金字塔注意力機(jī)制。為驗(yàn)證改進(jìn)方法對(duì)網(wǎng)絡(luò)重建效果的提升,本節(jié)對(duì)改進(jìn)的SRGAN超分辨率算法進(jìn)行了消融實(shí)驗(yàn)。選用LD數(shù)據(jù)集中的測(cè)試集,放大因子為4倍。根據(jù)表3實(shí)驗(yàn)結(jié)果可以看出,兩種改進(jìn)方法均對(duì)網(wǎng)絡(luò)的重建能力有顯著提升。改進(jìn)的SRGAN 網(wǎng)絡(luò)的PSNR 與SSIM 平均值相比原始SRGAN網(wǎng)絡(luò)分別提升了4.2251 dB和0.098,并且使用ConvNeXtv2代替殘差模塊對(duì)網(wǎng)絡(luò)的圖片重建效果提升最為明顯。
根據(jù)對(duì)模型重建過(guò)程中的特征圖分析可得,改進(jìn)的SRGAN可以感知更多的高頻信息,保留圖像的紋理和邊緣方面,改進(jìn)的SRGAN相比原始SRGAN表現(xiàn)得更好,同時(shí)對(duì)比度的提高體現(xiàn)出對(duì)不同特征之間的差異進(jìn)行了更為明顯的區(qū)分,使生成圖像的輪廓更加清晰。
2.5 橫向?qū)Ρ葘?shí)驗(yàn)
為了體現(xiàn)改進(jìn)的SRGAN網(wǎng)絡(luò)的有效性,本節(jié)選取了4個(gè)具有代表性的超分辨率算法進(jìn)行橫向?qū)Ρ?。超分辨率算法在DIV2K數(shù)據(jù)集和自建數(shù)據(jù)集LD上進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表4 所示。可以看出,改進(jìn)的SRGAN在PSNR指標(biāo)上優(yōu)于其他算法,證明其在重建圖片精度上的優(yōu)勢(shì)。結(jié)構(gòu)相似度SSIM指標(biāo)體現(xiàn)了模型對(duì)邊緣結(jié)構(gòu)的重建質(zhì)量,雖然改進(jìn)的SRGAN 在SSIM指標(biāo)上略低于EDSR,但生成的圖像在人眼感受上更加真實(shí)。為了更直觀地展示各算法的圖像重建效果,上述算法各自重建的圖像整體對(duì)比圖如圖11 所示。
2.6 改進(jìn)SRGAN 對(duì)駕駛員異常行為檢測(cè)精度的驗(yàn)證實(shí)驗(yàn)
為驗(yàn)證提出的改進(jìn)算法在駕駛員異常行為檢測(cè)任務(wù)中的有效性,本節(jié)進(jìn)行了改進(jìn)SRGAN處理前后的駕駛員異常行為檢測(cè)精度對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,加入改進(jìn)SRGAN超分辨率算法可以提高YOLOv8算法對(duì)駕駛員異常行為檢測(cè)的精度。實(shí)驗(yàn)結(jié)果如表5 所示,與單獨(dú)使用YOLOv8模型進(jìn)行檢測(cè)相比,加入改進(jìn)SRGAN處理后的圖像檢測(cè)AP精度提升了4.5%,改進(jìn)對(duì)檢測(cè)精度的提升效果顯著。
3 結(jié)論
本文針對(duì)道路監(jiān)控圖像質(zhì)量較低對(duì)駕駛員異常行為檢測(cè)精度的影響,提出了一種基于ConvNeXt和金字塔注意力機(jī)制的改進(jìn)SRGAN算法。通過(guò)改進(jìn)生成器和判別器,引入ConvNeXt-v2模塊增強(qiáng)高頻特征提取與輪廓細(xì)節(jié)重建;在判別器中加入金字塔注意力機(jī)制,有效抑制噪聲干擾,提升了圖像重建的整體質(zhì)量。實(shí)驗(yàn)結(jié)果表明,與原始SRGAN模型相比,本文提出的改進(jìn)模型的PSNR和SSIM值分別提升了4.225 1dB和0.098,且在圖像重建細(xì)節(jié)效果上具有明顯優(yōu)勢(shì)。同時(shí),通過(guò)將改進(jìn)的SRGAN算法與YOLOv8目標(biāo)檢測(cè)模型相結(jié)合,平均AP精度提升了4.5%,顯著提高了檢測(cè)準(zhǔn)確度。
盡管取得了較好的效果,但仍存在模型參數(shù)量較大、推理速度有待提升等問(wèn)題。未來(lái)研究將進(jìn)一步優(yōu)化算法結(jié)構(gòu),減少模型參數(shù),提高推理速度,以實(shí)現(xiàn)更高效的實(shí)時(shí)應(yīng)用。