(西華大學(xué) 四川 成都 610039)
復(fù)雜城市道路中,行人作為該環(huán)境下的弱勢(shì)群體,其安全性引起各大汽車廠商的關(guān)注,建立完善的行人和騎行者檢測(cè)系統(tǒng)成為了一項(xiàng)迫在眉睫的關(guān)鍵技術(shù),其難點(diǎn)在于行人檢測(cè)相關(guān)的算法,現(xiàn)如今,深度神經(jīng)網(wǎng)絡(luò)在視覺領(lǐng)域表現(xiàn)出優(yōu)異的性能,已獲得學(xué)者們廣泛的關(guān)注,將深度學(xué)習(xí)用于駕駛輔助系統(tǒng)正成為發(fā)展趨勢(shì)[1]。本文以車輛前方行人、開展了基于深度學(xué)習(xí)的目標(biāo)檢測(cè)及跟蹤算法的研究。
現(xiàn)階段的目標(biāo)檢測(cè)算法往往分為兩大類,一類為one-stage檢測(cè)算法,其不需要區(qū)域提名(Region proposal)階段,直接產(chǎn)生物體的類別概率和位置坐標(biāo)值,經(jīng)過單次檢測(cè)即可直接得到最終的檢測(cè)結(jié)果,因此有著更快的檢測(cè)速度,比較典型的算法如YOLO,SSD,Retina-Net;另一類為Two-stage檢測(cè)算法,該類算法對(duì)一張圖先進(jìn)行區(qū)域提名選取可能有物體的區(qū)域,同時(shí)抑制掉大量的負(fù)樣本(背景),把第一步中認(rèn)為是正樣本(前景)的候選圖片作為子圖,對(duì)這些候選的子圖進(jìn)行具體類別的分類以及更準(zhǔn)確的定位(回歸),由于兩種算法的差異,其在計(jì)算機(jī)性能的表現(xiàn)上也有不同,two-stage檢測(cè)算法在檢測(cè)準(zhǔn)確率和定位準(zhǔn)確率上占有優(yōu)勢(shì),而one-stage檢測(cè)算法則在算法上優(yōu)勢(shì)明顯[2]。在具體場(chǎng)景下選擇合適的算法以達(dá)到具體應(yīng)用的要求,成為研究人員需要權(quán)衡的事情,本文針對(duì)城市道路下行人檢測(cè)所要求的實(shí)時(shí)性,采用yolov3-tiny算法完成行人的實(shí)時(shí)檢測(cè)。

圖一 yolov3-tiny模型
yolo3-tiny是yolo3的簡(jiǎn)化版本,與Y0L0v3相比,yolo3-tiny主干網(wǎng)絡(luò)采用一個(gè)7層conv+max網(wǎng)絡(luò)進(jìn)行特征提取,結(jié)構(gòu)如下如圖一所示。相比于yolov3,簡(jiǎn)化版本的yolo3-tiny的優(yōu)點(diǎn)主要是,網(wǎng)絡(luò)更加簡(jiǎn)潔,計(jì)算量較小,能夠輕松的將模型移植到移動(dòng)端。該網(wǎng)絡(luò)將輸入的416×416RGB圖像,通過5次卷積運(yùn)算與最大化池化后,輸出13*13*1024的圖像特征,為了減少神經(jīng)網(wǎng)絡(luò)參數(shù)量,使其有更好的實(shí)時(shí)運(yùn)行效果,將13*13*1024特征與256個(gè)1*1的卷積核進(jìn)行卷積運(yùn)算,輸出13*13*256的圖像特征,然后將該層的輸出分別沿路徑一和路徑二輸出,其中路徑一的特征經(jīng)過512個(gè)3*3和255個(gè)1*1的卷積核運(yùn)算后,獲得13*13*255的特征圖像后,輸出到y(tǒng)olo層進(jìn)行預(yù)測(cè),沿路徑二輸出的圖像特征經(jīng)過128個(gè)1*1的卷積運(yùn)算輸出13*13*128的圖像特征,此時(shí),為了適應(yīng)小目標(biāo)檢測(cè),將該特征進(jìn)行2倍率的上采樣,得到26*26*384的圖像特征,接著和路徑一進(jìn)行相同操作后,輸出26*26*255的圖像特征到y(tǒng)olo層進(jìn)行圖像預(yù)測(cè)。
本文使用數(shù)據(jù)標(biāo)注軟件labellmg進(jìn)行城市道路行人標(biāo)記,標(biāo)記結(jié)果如下圖二所示

圖二 labellmg示意圖
標(biāo)注軟件根據(jù)標(biāo)注情況生產(chǎn)xml的數(shù)據(jù)標(biāo)注文件,總共制作包含8000張416*416的行人圖像數(shù)據(jù)集。
本文利用80%訓(xùn)練集、20%測(cè)試集構(gòu)成的數(shù)據(jù)集進(jìn)行模型訓(xùn)練,硬件方面采用I5-9400FCPU,一塊華碩RTX2060-O6G GPU,8g內(nèi)存,環(huán)境配置采用Ubuntu16.04操作系統(tǒng);TensorFlow深度學(xué)習(xí)框架,編程語(yǔ)言采用Python,使用帶動(dòng)量衰減的隨機(jī)梯度下降(Stochastic gradient descent,SGD)方法訓(xùn)練網(wǎng)絡(luò),實(shí)驗(yàn)動(dòng)量系數(shù)設(shè)置為0.9衰減系數(shù)設(shè)置為0.005;初始學(xué)習(xí)率設(shè)置為0.005;迭代輪數(shù)500。

圖三 行人檢測(cè)結(jié)果(一)

圖四 行人檢測(cè)結(jié)果(二)
測(cè)試圖像均為城市道路的復(fù)雜情況,圖像中包含眾多車輛行人、車道線等,每幅圖檢測(cè)速度為0.012s,即83FPS,達(dá)到實(shí)時(shí)檢測(cè)標(biāo)準(zhǔn)。圖三中,檢測(cè)框精確框住行人,無(wú)多框的情況;圖四準(zhǔn)確將行人全部檢測(cè)出,綜上,本文算法yolov3-tiny在進(jìn)行行人檢測(cè)任務(wù)時(shí)具有一定的穩(wěn)定性,但在面對(duì)一些小目標(biāo)對(duì)象時(shí)容易漏檢。
本文利用yolov3-tiny進(jìn)行城市道路下的行人檢測(cè),自建訓(xùn)練數(shù)據(jù)集,完成網(wǎng)絡(luò)的端對(duì)端訓(xùn)練,通過實(shí)驗(yàn)數(shù)據(jù)分析得到以下結(jié)論:yolov3-tiny網(wǎng)絡(luò)可適用于城市道路下的行人檢測(cè),速度達(dá)到83FPS,達(dá)到實(shí)時(shí)檢測(cè)的效果,在城市道路下的行人檢測(cè)中有較好的表現(xiàn),由于其本身的網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單及參數(shù)量小的特點(diǎn),該算法網(wǎng)絡(luò)易于植入到移動(dòng)端,綜上所述,該算法在檢測(cè)效果及實(shí)時(shí)性上有明顯的優(yōu)勢(shì),在實(shí)際中的利用可行性強(qiáng),有較大的工程實(shí)際意義。