





摘 要:近年來,房屋周圍的人車目標檢測算法作為智慧安防領域中的重要部分,備受研究人員的關注。智慧安防中涉及的目標檢測任務需要具備隱蔽性、實時性、持續(xù)性、豐富性等特點。根據這些特點,針對人車目標在白天與夜晚的不同特征,設計了一種基于紅外與微光視頻融合的人車目標檢測算法,該算法采用改進的YOLO-FastestV2目標檢測算法,解決了基于紅外與微光視頻融合下人車目標的快速檢測難題,可以較隱蔽地持續(xù)捕獲行人與車輛目標。在智能分析處理模塊利用聲振探測器與AI智能分析聯(lián)合判斷,能夠有效應對周圍環(huán)境的干擾。經驗證,該算法抗干擾能力強,準確性高,具有較好的應用價值。
關鍵詞:智慧安防;目標檢測;視頻融合;YOLO-FastestV2;AI智能分析;聲振探測器
中圖分類號:TP39 文獻標識碼:A 文章編號:2095-1302(2024)12-00-04
0 引 言
改革開放以來,中國人民的生活發(fā)生了翻天覆地的變化。改革的目的就是促進生產力的逐步發(fā)展和各項事業(yè)的不斷進
步[1]。從“十二五”開始,我國在智慧安防領域的建設、開發(fā)等方面都有了重大技術突破,所設計的產品在朝著國產化方向不斷發(fā)展[2]。智慧安防領域最關注的技術是基于視頻監(jiān)控的目標檢測算法。它不僅可以對重點關注區(qū)域中的目標進行檢測與識別,還能夠對異常情況進行實時報警。當前大多數(shù)視頻輸入或基于常見的可見光相機,或基于紅外相機。可見光相機在光線良好的白天能夠很好地捕捉到畫面中的目標;紅外相機能夠在黑夜中捕捉到畫面中人眼不容易看見的熱目標。由于智慧安防監(jiān)控具有隱蔽性的特點,導致可見光相機的進光量不足,為目標檢測帶來了困難。在這種情況下,微光相機可以很好地呈現(xiàn)出較清晰的監(jiān)控畫面。在微光環(huán)境下,目標表面的照度比較低,一般相機對目標信號的獲取依賴于目標表面反射的自然光,因此很難完成目標檢測任務[3-4]。微光相機因其特殊的傳感器件能夠捕獲更多的自然光線,所以可以獲得比可見光相機更清晰、畫面信息更豐富的照片。綜合考慮,基于微光與紅外相機融合的視頻更有利于檢測智慧安防領域中的目標。
現(xiàn)代目標檢測算法的檢測速度與準確率遠遠高于傳統(tǒng)目標檢測算法。傳統(tǒng)的目標檢測算法因為大部分特征需要手動設計,所以檢測速度較慢;現(xiàn)代的目標檢測算法多基于卷積神經網絡(Convolutional Neural Network, CNN)[5-6]實現(xiàn),所以效率較高。通過網絡自動學習目標的特征,在經過大量數(shù)據訓練以后可以準確快速地檢測到圖像中的目標位置與類別[7]。現(xiàn)代目標檢測算法中的一階段目標檢測算法因為檢測速度比兩階段目標檢測器更快,并且檢測精度高,所以多被用于實時目標檢測。一階段目標檢測算法中最經典的是YOLO系列目標檢測算法[8-9]。YOLO-Fastest系列目標檢測算法是基于YOLO改進的輕量級目標檢測算法,它們專注于單核、實時推理性能和實時條件下的低CPU使用率。在保證低成本的背景下,可以讓功耗設備滿足實時性能標準,使得它們的應用范圍更廣。
本文針對智慧安防領域中人車目標檢測算法的特性,設計了一種基于紅外與微光視頻融合的人車目標檢測算法。該算法在微光與夜晚環(huán)境下也可以很好地檢測到人車目標。此外,針對YOLO-FastestV2目標檢測算法進行改進,使之能夠更好地滿足實時性要求。
1 視頻融合
1.1 設計流程
本文設計了一種微光與紅外雙路圖像實時融合的方法,提高了目標探測的分辨能力和細節(jié),能滿足各種環(huán)境的應用需求。該方法采用雙光融合技術及智能分析處理手段,有效增強了微光圖像的目標反射和熱紅外圖像的目標熱輻射特性,以及微光對光照變化的敏感性和紅外熱成像的透視能力等,解決了在背景與目標特征相似的情況下無法進行目標智能識別的難題。
該方法的工作流程:在正常工作時,如果聲振探測器探測到振動信號,就會喚醒紅外相機與微光相機,而紅外圖像與微光圖像融合后的圖像會送入智能分析處理模塊進行AI檢測,如果檢測到人車目標,就會抓拍一張圖片并錄一段10 s的視頻,如果人車目標仍存在,則循環(huán)上述步驟;如果10 s
內無人車目標,則關閉AI檢測,并終止本地視頻錄制。再次判斷是否有聲振觸發(fā),如果持續(xù)60 s無聲振觸發(fā),那么紅外相機與微光相機會進入休眠模式。通過這種方法可以有效對周圍環(huán)境進行處理,通過聲振探測和圖像檢測的方法進行智能研判,排除周圍環(huán)境對AI檢測準確性的干擾。
本文設計的系統(tǒng)結構如圖1所示。
檢測目標不僅包含目標檢測框,還包含時間、類別、編號等信息,方便后續(xù)查找分析。根據實際安裝區(qū)域和環(huán)境,可以長期記錄人車等目標的數(shù)據信息。通過目標特征設計分類和異常行為分析,可以對新采集的數(shù)據重新進行AI訓練,并對智能分析處理模塊的AI檢測模型進行更新,提高人車目標識別準確率與探測精度。
1.2 融合效果對比分析
圖2(a)是下午光線較暗時的微光圖像。微光相機能夠在低光照環(huán)境中捕捉到清晰、銳利的圖像;能夠在明暗對比強烈的環(huán)境中捕捉到完整的畫面。圖2(b)為與圖2(a)同一時段的紅外圖像。紅外相機比微光相機的分辨率低,但對熱目標的監(jiān)控表現(xiàn)良好,所以常與可見光圖像融合在一起。圖2(c)是微光圖像與紅外圖像融合后的圖像。兩者重疊部分中的目標信息更加豐富,既有微光圖像的紋理信息,又有紅外圖像的熱目標特性。融合后的圖像進行了互補,可以提高智慧安防中目標檢測算法的識別率與準確性。
圖2中3個子圖的左上角是中間有行人目標區(qū)域的放大圖。從3個圖中可以看出,此時微光圖像黑色框中的行人目標用肉眼已經看不清楚,而紅外圖像的行人目標最明顯,融合圖像中的行人目標也比較明顯。微光圖像中樹木房屋的紋理最清晰,紅外圖像中樹木房屋的紋理幾乎不可見,融合圖像中樹木房屋的紋理較清晰。綜上所述,融合后的圖像有利于進行目標檢測。
2 智能分析處理
人車目標檢測算法作為智慧安防領域不可或缺的內容,可以有效增強監(jiān)控人員對監(jiān)控畫面中目標的記錄分析能力。傳統(tǒng)人車檢測算法無法在復雜場景下實現(xiàn)實時性和高精度檢測,原因在于采用了滑動窗口進行區(qū)域選擇導致了較高的時間復雜度和窗口冗余,且外觀形態(tài)的多姿性、光照變化的不定性和背景的多樣性會導致人工手動設計特征的方法魯棒性不佳,泛化性差以及算法步驟繁雜等,從而導致檢測效率慢、精度低,難以滿足實際情況中對目標檢測的高性能需求。
2.1 網絡框架
針對以上問題,本文通過改進YOLO-FastestV2深度學習網絡,提出了一種基于紅外與微光視頻融合的人車目標檢測算法。基于YOLO-FastestV2改進的目標檢測網絡整體框架如圖3所示。
YOLO-FastestV2框架按照Backbone結合Neck與Head的基本范式搭建,其中主要用到的模塊有:ShuffleV2Block、CBS(Conv+BN+SiLU)、Upsample以及DWConvBlock[10]。YOLO-FastestV2采用的圖像數(shù)據增強方式為Mosaic數(shù)據增強,這種增強方式將使用4張訓練圖像按一定比例組合成一張圖像。它通過隨機縮放、隨機裁剪、隨機排布的方式進行拼接,能使模型學會在更小的范圍內識別對象。
從圖3可以看出,YOLO-FastestV2模型的Backbone為ShuffleNetV2。為了在保持較高通道數(shù)量的同時,不能有太多的密集卷積數(shù)量和分組數(shù)量,引入了“channel split”通道分離操作。在每個單元開始之前,輸入通道會被分成2個分支,其中1個分支保持恒等映射,另外1個分支包括3個具有相同輸入輸出通道的卷積。然后2個分支進行通道級融合操作。最后進行通道打亂操作,用來增強神經網絡的信息交互能力。
此外,YOLO-FastestV2使用11×11和22×22共2個尺度的檢測頭,因為通過測試發(fā)現(xiàn),在COCO數(shù)據集上使用3個檢測頭(11×11,22×22,44×44)和使用2個檢測頭(11×11,22×22)的精度無太大差異。
2.2 模型訓練與轉換
在訓練人車目標檢測模型時,共采集了3 587張圖片。其中行人目標6 351個,車輛目標2 589個。經過200個Batchsize的訓練,該模型最終mAP值為89%,可以滿足日常需求。訓練好的模型需要利用RKNN_Toolkit模型轉換工具把Pytorch模型轉換為RKNN模型。經測試,轉換后的模型運行速度最高可以達到50 FPS。
3 實驗與結果分析
3.1 小目標檢測
針對人車目標檢測的距離檢測,在微光模式下進行了實驗驗證。保證攝像頭固定不動,通過調節(jié)攝像頭焦距使得圖像中的目標從大變小,并依次抓拍一張圖像,效果如圖4所示。
圖4最后一列第一幅圖中最左邊的車輛目標的像素是74×73,屬于中小型目標;第二幅圖中行人目標的像素是76×145,也屬于中小型目標。其中,車輛距離攝像頭約100 m,行人距離攝像頭約50 m,能夠滿足日常監(jiān)控需求。
3.2 實際測試指標
網絡訓練的原始模型經過量化轉為unit8的RKNN模型,測試數(shù)據見表1,其中平均每張圖片耗時為22.769 9 ms,幀率大于40 FPS,能滿足實時運行的要求。
針對探測率與虛警率進行了實際測試。在設備正常運行時,行人目標在沿距離探測設備25 m的切線方向上走動20 m(起點和終點分別距離切點10 m);由起點步行至終點后停止運動,記錄此過程實時視頻中行人目標是否有檢測框標識。同樣由終點開始步行至起點,往返運動并記錄(往返共記錄10次)。車輛目標沿距離探測設備80 m的切線方向上運動40 m(起點和終點分別距離切點20 m);由起點開始行駛至終點后停止移動并熄火,直至探測設備不再上報任何報警消息,記錄此過程實時視頻中車輛目標是否有檢測框標識。同樣由終點開始行駛至起點,往返運動并記錄(往返共記錄10次)。通過計算未收到報警的次數(shù)與總測試次數(shù)的比值就可以算出探測率。
在確保視場沒有人員或車輛的情況下,查看實時視頻中是否有人員目標/車輛目標檢測框標識,每隔20 s記錄1次,共計35次并記錄收到的情報總數(shù),計算出虛警率。
測試數(shù)據見表2,其中探測率為90.000 0%,虛警率為2.857 1%。
4 結 語
本文設計的基于視頻融合的人車目標檢測算法,利用微光與紅外圖像的融合,能夠在光線太強或者太弱時捕獲清晰的目標圖像,并通過改進的YOLO-FastestV2目標檢測網絡實時對圖像中的人車目標進行檢測。該算法能夠快速準確地對人車目標進行檢測,并根據目標的位置進行智能分析與報警,具有較高的集成度,可以針對不同的場景與目標重新訓練模型,滿足客戶不同的需求。
參考文獻
[1]李政華. 國家構建視角下統(tǒng)一戰(zhàn)線功能角色變遷研究[D].長春:吉林大學,2023.
[2]陶永,袁家虎,何國田,等.面向中國未來智能社會的智慧安防系統(tǒng)發(fā)展策略[J].科技導報,2017,35(5):82-88.
[3]董發(fā)祥,李瑛,劉朝暉,等.一種基于高靈敏度CCD的微光相機設計[C]//中國電子學會,中國振動工程學會.2010振動與噪聲測試峰會論文集.中國科學院西安光學精密機械研究所,中國科學院研究生院,西安郵電學院,2010:5.
[4]方勇,張建軍.面向智能視頻監(jiān)控中的運動目標檢測方法研究[J].計算技術與自動化,2022,41(4):79-83.
[5]郭曉靜,隋昊達.改進YOLOv3在機場跑道異物目標檢測中的應用[J].計算機工程與應用,2021,57(8):249-255.
[6]杜紫薇,周恒,李承陽,等.面向深度卷積神經網絡的小目標檢測算法綜述[J].計算機科學,2022,49(12):205-218.
[7]羅建晨. 面向車輛多特性檢測的雙目立體視覺車速測量優(yōu)化[D].鄭州:中原工學院,2021.
[8] GU Y Z, MAKOTO S, ZHANG X L. An active stereo vision system based on neural pathways of human binocular motor system [J]. Journal of bionic engineering, 2007, 4(4): 185-192.
[9]龔琳茜.基于YOLO的目標人員身份識別與跟蹤方法[J].計算機與數(shù)字工程,2022,50(12):2669-2672.
[10] dog qiu qiu. YOLO-Fastest: YOLO-fastest-v1.1.0. 2021 [EB/OL]. https: //github.com/dog-qiuqiu/Yolo-Fastest (accessed on 22 August 2022).
作者簡介:李杲陽(1996—),男,碩士,工程師,研究方向為計算機視覺、深度學習。
杜 娟(1984—),女,工程師,研究方向為安防系統(tǒng)集成。
張 磊(1997—),男,碩士,工程師,研究方向為計算機視覺、深度學習。
蔣長帥(1987—),男,碩士,高級工程師,研究方向為伺服控制、圖像處理。
王二紅(1982—),女,工程師,研究方向為安防系統(tǒng)集成。