基于改進(jìn)SRGAN的駕駛員異常行為檢測(cè)算法

2024-02-09 00:00:00趙益辰張雅麗

電腦知識(shí)與技術(shù) 2024年36期

關(guān)鍵詞：圖像超分辨率；駕駛員異常行為檢測(cè)；SRGAN；深度學(xué)習(xí)；ConvNeXt

中圖分類(lèi)號(hào)：TP391 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2024）36-00024-05"開(kāi)放科學(xué)（資源服務(wù)）標(biāo)識(shí)碼（OSID）：

0 引言

隨著汽車(chē)保有量的持續(xù)增長(zhǎng)，交通安全問(wèn)題已成為影響人身安全的主要問(wèn)題之一。據(jù)公安部數(shù)據(jù)，2022年全國(guó)共發(fā)生交通事故254 609起[1]，平均每天發(fā)生約695起交通事故。研究表明，駕駛員的不良行為是導(dǎo)致交通事故的重要因素之一，駕駛分心導(dǎo)致的交通事故占重大事故的14%～33%[1]。在交通事故中，未系安全帶的駕駛員死亡率為75%，而系安全帶的生還率高達(dá)95%[2]。因此，對(duì)駕駛員異常行為的檢測(cè)具有重要的現(xiàn)實(shí)意義。

針對(duì)駕駛員異常行為監(jiān)測(cè)，許多學(xué)者開(kāi)展了一系列研究。Zhao[3]等人通過(guò)改進(jìn)YOLOv5的方式，對(duì)低照度圖像下駕駛員分心行為進(jìn)行準(zhǔn)確檢測(cè)。Huo[2]等人提出了一種STN-CNNs模型，通過(guò)加入空間變換神經(jīng)網(wǎng)絡(luò)，使檢測(cè)模型可以更好地定位圖像中的駕駛員區(qū)域，并通過(guò)改進(jìn)的Hough變換檢測(cè)駕駛員安全帶佩戴情況，但由于數(shù)據(jù)集中部分圖片清晰度不高，影響了檢測(cè)精確度。針對(duì)這一問(wèn)題，Kang[4]等人針對(duì)收集到的道路監(jiān)控駕駛員圖像噪聲明顯、圖像質(zhì)量低等問(wèn)題，利用改進(jìn)的EDSR模型進(jìn)行圖像超分辨率，通過(guò)去掉BN層精簡(jiǎn)模型結(jié)構(gòu)，有效提升了圖像重建質(zhì)量，但該研究未對(duì)駕駛員行為進(jìn)行檢測(cè)。

為了解決上述問(wèn)題，本文首先基于前期研究，構(gòu)建了駕駛員異常行為超分辨率數(shù)據(jù)集LD以及駕駛員異常行為目標(biāo)檢測(cè)數(shù)據(jù)集SD。針對(duì)數(shù)據(jù)集中圖像清晰度不高和噪聲較為明顯的問(wèn)題，本文提出了一種改進(jìn)的超分辨率生成對(duì)抗網(wǎng)絡(luò)SRGAN[5]算法以提升圖像質(zhì)量。在四倍超分辨率任務(wù)中，盡管原始SRGAN 算法能夠生成相對(duì)清晰的圖像，但由于其生成器和判別器結(jié)構(gòu)的局限性，訓(xùn)練過(guò)程不夠穩(wěn)定[6]，且在重建過(guò)程中容易丟失部分高頻信息，導(dǎo)致生成圖像出現(xiàn)紋理細(xì)節(jié)缺失、邊緣模糊等現(xiàn)象，進(jìn)而影響重建效果。為了解決這些問(wèn)題，本文提出了改進(jìn)SRGAN算法引入ConvNeXt-v2[7]模塊替代原有模型中的殘差塊，以解決高頻特征丟失的問(wèn)題，并增強(qiáng)算法對(duì)邊緣輪廓的感知能力。此外，在判別器中加入了金字塔注意力模塊，以減少噪聲干擾，進(jìn)一步提升圖像質(zhì)量。最后，本文將改進(jìn)的SRGAN超分辨率算法與YOLOv8目標(biāo)檢測(cè)模型相結(jié)合進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，本文提出的模型顯著提升了駕駛員異常行為檢測(cè)的準(zhǔn)確性。

1 駕駛員異常行為監(jiān)測(cè)模型

1.1 數(shù)據(jù)集構(gòu)建

許多研究采用YawDD等駕駛員車(chē)內(nèi)視角公開(kāi)數(shù)據(jù)集，主要針對(duì)駕駛員異常行為的事前預(yù)防和事中發(fā)現(xiàn)。然而，由于車(chē)內(nèi)自主監(jiān)控在現(xiàn)實(shí)中推廣難度較大，目前主要通過(guò)公共安全部門(mén)的懲戒性處罰方式來(lái)管理駕駛員行為。但是，從公共安全部門(mén)角度出發(fā)的針對(duì)駕駛員異常行為的研究較少，主要原因包括數(shù)據(jù)集構(gòu)建困難和城市道路圖像質(zhì)量較差，導(dǎo)致目標(biāo)檢測(cè)效果不理想[8]。為解決上述問(wèn)題，本文首先建立了城市道路監(jiān)控駕駛員行為數(shù)據(jù)集，并對(duì)數(shù)據(jù)圖像進(jìn)行超分辨率重建。

1）超分辨率圖像數(shù)據(jù)集構(gòu)建

為了提高模型對(duì)多樣化數(shù)據(jù)的魯棒性，并考慮監(jiān)控場(chǎng)景的特點(diǎn)，本文采用了兩個(gè)數(shù)據(jù)集聯(lián)合訓(xùn)練。首先，使用DIV2K數(shù)據(jù)集[9]對(duì)模型進(jìn)行預(yù)訓(xùn)練，之后使用自建數(shù)據(jù)集LD進(jìn)行微調(diào)，最終在LD數(shù)據(jù)集上評(píng)估模型的超分辨率效果。LD數(shù)據(jù)集的部分代表性圖片如圖1所示。

2）目標(biāo)檢測(cè)數(shù)據(jù)集構(gòu)建

自建的LD數(shù)據(jù)集覆蓋了不同的駕駛員行為，包括正常駕駛、未系安全帶、使用手機(jī)等。同時(shí)，數(shù)據(jù)集涵蓋了不同光照條件、單一駕駛員目標(biāo)和多個(gè)車(chē)內(nèi)目標(biāo)，以確保目標(biāo)檢測(cè)模型在實(shí)際場(chǎng)景中的準(zhǔn)確性?；贚D數(shù)據(jù)集，進(jìn)一步建立了駕駛員異常行為目標(biāo)檢測(cè)數(shù)據(jù)集SD。

SD數(shù)據(jù)集中包括658張正常駕駛圖像和1 295張異常駕駛行為圖像，其中訓(xùn)練集1 562張，驗(yàn)證集391 張，訓(xùn)練集與驗(yàn)證集的比例約為8∶2，具體如表1 所示。

對(duì)原始圖片進(jìn)行篩選與裁剪后，使用LabelImg圖像標(biāo)注軟件建立了PASCAL VOC格式的目標(biāo)檢測(cè)數(shù)據(jù)集。對(duì)數(shù)據(jù)集中的駕駛員檢測(cè)區(qū)域進(jìn)行了矩形邊界標(biāo)注，示例如圖2所示。

1.2 SRGAN 殘差塊改進(jìn)

ConvNeXt[10]是Facebook AI于2021年提出的深度卷積網(wǎng)絡(luò)模型，使用純卷積網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)Trans?former[11]模型性能的超越。ConvNeXt主要由4個(gè)階段（stage）堆疊構(gòu)成，每個(gè)階段包含一個(gè)下采樣模塊和多個(gè)ConvNeXt塊。為了增強(qiáng)SRGAN網(wǎng)絡(luò)對(duì)圖像中物體邊緣輪廓的重建效果，本文借鑒了ConvNeXt-v2的思想，重新設(shè)計(jì)了原始SRGAN 網(wǎng)絡(luò)的殘差塊。ConvNeXt-v2版本去除了LayerScale，提高了模型的訓(xùn)練速度；增加了GRN層以緩解特征折疊問(wèn)題。改進(jìn)的殘差塊結(jié)構(gòu)如圖3所示。

在改進(jìn)的殘差塊中，使用LayerNorm層歸一化取代了原始SRGAN殘差塊中的BatchNorm層歸一化，以減少生成圖像中的偽影問(wèn)題。同時(shí)，使用深度可分離卷積調(diào)整通道維度，進(jìn)一步增強(qiáng)對(duì)圖片特征的提取能力。最后，經(jīng)過(guò)上采樣操作將特征圖放大為原來(lái)的4 倍。改進(jìn)的生成器結(jié)構(gòu)如圖4所示。

1.3 金字塔注意力機(jī)制

為了提高算法對(duì)駕駛員圖像細(xì)節(jié)的關(guān)注度，有效抑制道路監(jiān)控圖像噪聲對(duì)生成圖像的干擾，并增強(qiáng)模型對(duì)復(fù)雜道路場(chǎng)景的魯棒性，本文在SRGAN判別器中引入了金字塔注意力機(jī)制[12]（pyramid attention）。金字塔注意力機(jī)制能夠充分利用圖像中的跨尺度自相似性，顯著提高模型在面對(duì)噪聲或偽影等干擾時(shí)的魯棒性。金字塔注意力機(jī)制可用公式（1）進(jìn)行表述：

金字塔注意力模塊的結(jié)構(gòu)如圖5所示。在判別器中引入DW卷積，可以在減少模型參數(shù)量的同時(shí)增加模型寬度，從而提高模型的訓(xùn)練速度[13]。改進(jìn)后的SRGAN判別器結(jié)構(gòu)如圖6所示。將金字塔注意力模塊嵌入在第2個(gè)SRGANeXt模塊之后，幫助判別器在平均池化層判別前強(qiáng)化細(xì)節(jié)特征，有效提高判別器的區(qū)分能力。

1.4 YOLOv8目標(biāo)檢測(cè)模型

YOLO[14] （You Only Look Once）算法是一種基于CNN的目標(biāo)檢測(cè)算法，可用于目標(biāo)檢測(cè)、圖像分類(lèi)等領(lǐng)域，具有檢測(cè)速度快、體積小、準(zhǔn)確度高等優(yōu)點(diǎn)。YOLOv8是目前主流的單階段目標(biāo)檢測(cè)算法，根據(jù)網(wǎng)絡(luò)深度、特征圖寬度及參數(shù)量大小，YOLOv8可分為YOLOv8-n、YOLOv8-s、YOLOv8-m、YOLOv8-l、YO?LOv8-x共5個(gè)版本。其中，YOLOv8-n的網(wǎng)絡(luò)卷積深度較小，檢測(cè)速度快。基于配置與輕量化部署的需求，本文選用YOLOv8-n作為目標(biāo)檢測(cè)的基準(zhǔn)模型。

YOLOv8-n主要由主干（Backbone）、頸部（Neck）和檢測(cè)頭（Head）三個(gè)部分組成，其結(jié)構(gòu)如圖7所示。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)環(huán)境搭建

本文的模型訓(xùn)練在云服務(wù)器上進(jìn)行，服務(wù)器系統(tǒng)為Ubuntu 20.04，硬件配置包括12 GB 內(nèi)存的Intel?Xeon? Gold 6230 @ 2.1 GHz CPU 和6 GB 顯存的NVIDIA GeForce RTX 3060 GPU。實(shí)驗(yàn)的軟件環(huán)境包括Conda 3.9科學(xué)計(jì)算包、Pytorch 2.0.1深度學(xué)習(xí)框架和Python 3.8，訓(xùn)練過(guò)程中采用CUDA 11.7.1加速GPU 運(yùn)算。改進(jìn)的SRGAN模型訓(xùn)練超參數(shù)設(shè)置如表2所示，優(yōu)化過(guò)程采用ADAM 算法，以提高模型的收斂速度。

2.2 重建圖像質(zhì)量評(píng)價(jià)指標(biāo)

改進(jìn)的SRGAN 模型使用DIV2K 數(shù)據(jù)集進(jìn)行訓(xùn)練，并使用自建駕駛員異常行為數(shù)據(jù)集LD進(jìn)行微調(diào)。為了增強(qiáng)數(shù)據(jù)，訓(xùn)練圖像進(jìn)行了隨機(jī)水平翻轉(zhuǎn)和90度隨機(jī)旋轉(zhuǎn)，同時(shí)將訓(xùn)練集歸一化到[0，1]區(qū)間。

2.3 改進(jìn)的SRGAN 算法效果展示

圖8 和圖9 分別展示了SRGAN 網(wǎng)絡(luò)與改進(jìn)的SRGAN網(wǎng)絡(luò)在三個(gè)真實(shí)場(chǎng)景下駕駛員區(qū)域圖像重建效果的對(duì)比圖。

如圖9所示，在細(xì)節(jié)重建效果上，改進(jìn)的SRGAN 相比原始SRGAN網(wǎng)絡(luò)提升明顯。引入改進(jìn)后殘差塊的網(wǎng)絡(luò)模型對(duì)圖片邊緣提取了更多有用信息，對(duì)安全帶的輪廓重建效果更顯著，手部的細(xì)節(jié)更加真實(shí)，且質(zhì)量更加細(xì)膩。同時(shí)，加入金字塔注意力機(jī)制的SRGAN網(wǎng)絡(luò)在圖片噪聲抑制方面效果顯著，減少了圖片噪聲在重建時(shí)的干擾，提升了超分辨率圖像的質(zhì)量。

2.4 改進(jìn)的SRGAN 算法消融實(shí)驗(yàn)

針對(duì)SRGAN網(wǎng)絡(luò)在細(xì)節(jié)重建真實(shí)感較差、輪廓感知不明顯以及噪聲敏感等問(wèn)題，本文引入Con?vNeXtv2模塊改進(jìn)生成器與判別器的殘差塊，同時(shí)在判別器中加入金字塔注意力機(jī)制。為驗(yàn)證改進(jìn)方法對(duì)網(wǎng)絡(luò)重建效果的提升，本節(jié)對(duì)改進(jìn)的SRGAN超分辨率算法進(jìn)行了消融實(shí)驗(yàn)。選用LD數(shù)據(jù)集中的測(cè)試集，放大因子為4倍。根據(jù)表3實(shí)驗(yàn)結(jié)果可以看出，兩種改進(jìn)方法均對(duì)網(wǎng)絡(luò)的重建能力有顯著提升。改進(jìn)的SRGAN 網(wǎng)絡(luò)的PSNR 與SSIM 平均值相比原始SRGAN網(wǎng)絡(luò)分別提升了4.2251 dB和0.098，并且使用ConvNeXtv2代替殘差模塊對(duì)網(wǎng)絡(luò)的圖片重建效果提升最為明顯。

根據(jù)對(duì)模型重建過(guò)程中的特征圖分析可得，改進(jìn)的SRGAN可以感知更多的高頻信息，保留圖像的紋理和邊緣方面，改進(jìn)的SRGAN相比原始SRGAN表現(xiàn)得更好，同時(shí)對(duì)比度的提高體現(xiàn)出對(duì)不同特征之間的差異進(jìn)行了更為明顯的區(qū)分，使生成圖像的輪廓更加清晰。

2.5 橫向?qū)Ρ葘?shí)驗(yàn)

為了體現(xiàn)改進(jìn)的SRGAN網(wǎng)絡(luò)的有效性，本節(jié)選取了4個(gè)具有代表性的超分辨率算法進(jìn)行橫向?qū)Ρ?。超分辨率算法在DIV2K數(shù)據(jù)集和自建數(shù)據(jù)集LD上進(jìn)行測(cè)試，實(shí)驗(yàn)結(jié)果如表4 所示。可以看出，改進(jìn)的SRGAN在PSNR指標(biāo)上優(yōu)于其他算法，證明其在重建圖片精度上的優(yōu)勢(shì)。結(jié)構(gòu)相似度SSIM指標(biāo)體現(xiàn)了模型對(duì)邊緣結(jié)構(gòu)的重建質(zhì)量，雖然改進(jìn)的SRGAN 在SSIM指標(biāo)上略低于EDSR，但生成的圖像在人眼感受上更加真實(shí)。為了更直觀地展示各算法的圖像重建效果，上述算法各自重建的圖像整體對(duì)比圖如圖11 所示。

2.6 改進(jìn)SRGAN 對(duì)駕駛員異常行為檢測(cè)精度的驗(yàn)證實(shí)驗(yàn)

為驗(yàn)證提出的改進(jìn)算法在駕駛員異常行為檢測(cè)任務(wù)中的有效性，本節(jié)進(jìn)行了改進(jìn)SRGAN處理前后的駕駛員異常行為檢測(cè)精度對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，加入改進(jìn)SRGAN超分辨率算法可以提高YOLOv8算法對(duì)駕駛員異常行為檢測(cè)的精度。實(shí)驗(yàn)結(jié)果如表5 所示，與單獨(dú)使用YOLOv8模型進(jìn)行檢測(cè)相比，加入改進(jìn)SRGAN處理后的圖像檢測(cè)AP精度提升了4.5%，改進(jìn)對(duì)檢測(cè)精度的提升效果顯著。

3 結(jié)論

本文針對(duì)道路監(jiān)控圖像質(zhì)量較低對(duì)駕駛員異常行為檢測(cè)精度的影響，提出了一種基于ConvNeXt和金字塔注意力機(jī)制的改進(jìn)SRGAN算法。通過(guò)改進(jìn)生成器和判別器，引入ConvNeXt-v2模塊增強(qiáng)高頻特征提取與輪廓細(xì)節(jié)重建；在判別器中加入金字塔注意力機(jī)制，有效抑制噪聲干擾，提升了圖像重建的整體質(zhì)量。實(shí)驗(yàn)結(jié)果表明，與原始SRGAN模型相比，本文提出的改進(jìn)模型的PSNR和SSIM值分別提升了4.225 1dB和0.098，且在圖像重建細(xì)節(jié)效果上具有明顯優(yōu)勢(shì)。同時(shí)，通過(guò)將改進(jìn)的SRGAN算法與YOLOv8目標(biāo)檢測(cè)模型相結(jié)合，平均AP精度提升了4.5%，顯著提高了檢測(cè)準(zhǔn)確度。

盡管取得了較好的效果，但仍存在模型參數(shù)量較大、推理速度有待提升等問(wèn)題。未來(lái)研究將進(jìn)一步優(yōu)化算法結(jié)構(gòu)，減少模型參數(shù)，提高推理速度，以實(shí)現(xiàn)更高效的實(shí)時(shí)應(yīng)用。