許 雪 Tanvir Ahmad
(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院 北京 102206)
隨著汽車使用量的急劇增加,交通擁堵現(xiàn)象日趨嚴(yán)重,交通事故發(fā)生量居高不下,為社會經(jīng)濟(jì)發(fā)展、人們出行安全帶來巨大挑戰(zhàn),引起社會的普遍關(guān)注,成為政府交通管理部門急需解決的問題。為解決上述問題,智能交通[1~2]應(yīng)運(yùn)而生,其利用大數(shù)據(jù)、云計(jì)算、深度學(xué)習(xí)等高新技術(shù),為交管部門和司機(jī)提供實(shí)時(shí)交通數(shù)據(jù)下的交通信息服務(wù),更是為無人駕駛[3]提供技術(shù)服務(wù)。近年來,車載攝像頭被廣泛使用,拍攝了海量的真實(shí)道路場景視頻,為應(yīng)用深度學(xué)習(xí)的方法進(jìn)行對象檢測提供了強(qiáng)大的數(shù)據(jù)支持。車輛和行人檢測是智能車輔助駕駛系統(tǒng)的重要組成部分,是實(shí)現(xiàn)智能車在道路上躲避障礙物安全行駛的關(guān)鍵技術(shù),是智能交通監(jiān)測的重要領(lǐng)域。因此,如何高效利用現(xiàn)有的交通數(shù)據(jù)集來訓(xùn)練性能優(yōu)良的車輛行人檢測模型成為智能交通領(lǐng)域的關(guān)鍵問題之一。
基于DPM[4](Deformable Parts Models)可變型部件模型的方法是HOG[5]的擴(kuò)展,先計(jì)算梯度方向直方圖,然后用SVM[6](Surpport Vector Machine)訓(xùn)練得到物體的梯度模型,進(jìn)而實(shí)現(xiàn)對象檢測。傳統(tǒng)的對象檢測算法主要在檢測區(qū)域選擇、人工設(shè)計(jì)描述子和分類器的設(shè)計(jì)上深入研究。對于檢測區(qū)域選擇,多采用暴力的窮舉法等來完成。對于人工設(shè)計(jì)描述子,比較成功的有1999 年由UBC 的教授David Lowe 提出的SIFT[7~8]、2002 年由Cornell Tech的Serge Belongie 提 出 的shape context[9]以 及2005由Dalal& Triggs 提出的STIP[10]等。對于分類器的設(shè)計(jì),主要包括由Yoav Freund&Robert Schapire 提出 的Adaboost[11]、由Vapnik 等 提 出 的SVM、由J Ross Quinlan 提 出 的ID3[12]經(jīng) 典Decision Tree[13]等。傳統(tǒng)的對象檢測算法信息冗余且計(jì)算量大,時(shí)間復(fù)雜度高;受角度、色差等周圍環(huán)境的影響較大,魯棒性低導(dǎo)致檢測精度低。由于交通檢測涉及行人的人身安全問題,因此對檢測精確度提出了較高的要求。智能交通尤其是無人駕駛領(lǐng)域,對檢測的實(shí)時(shí)性也提出了需求。
近年來,GPU加速計(jì)算的廣泛應(yīng)用使得深度學(xué)習(xí)走出計(jì)算量大、訓(xùn)練速度慢的瓶頸,也為基于深度學(xué)習(xí)方法的對象檢測帶來新的機(jī)遇。基于Re?gion Proposal(候選區(qū)域)的深度學(xué)習(xí)對象檢測算法,利用圖像中的邊緣、顏色、紋理等信息,可以保證在選取較少窗口的情況下保持較高的召回率。比較常用的Region Proposal 算法有Selective Search和Edge Boxes等。對Region Proposal進(jìn)行圖像分類工作主要包括特征提取和分類兩部分,對于圖像分類,在2012 年ImageNet 大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)上,機(jī)器學(xué)習(xí)泰斗Geoffrey Hinton 教授帶領(lǐng)學(xué)生Krizhevsky 使用CNN[14](卷積神經(jīng)網(wǎng)絡(luò))將ILSVRC 分類任務(wù)的Top-5 錯誤率降低到了15.3%,而使用傳統(tǒng)方法的第二名Top-5 錯誤率高達(dá)26.2%,從而開啟了利用CNN(卷積神經(jīng)網(wǎng)絡(luò))進(jìn)行圖像分類的熱潮。2014 年,Ross B.Girshick 使用Region Proposal+CNN方法來代替?zhèn)鹘y(tǒng)對象檢測中使用的滑動窗口+手工設(shè)計(jì)特征方法,設(shè)計(jì)了R-CNN 框架,并在VOC2007 上取得mAP 58%的成績,使得對象檢測取得巨大突破,并開啟了基于深度學(xué)習(xí)的對象檢測的熱潮。2015 年,Ross B.Gir?shick 借 鑒Kaiming He 的SPP-net[15]的 思 路 設(shè) 計(jì) 了Fast-RCNN,跟RCNN 最大區(qū)別就是Fast-RCNN 將proposal的region映射到CNN的最后一層conv layer的feature map 上,這樣一張圖片只需要提取一次feature,大大提高了速度,將VOC2007 上的mAP 提高到了68%。同年,Ross B.Girshick 和Kaiming He等一起推出Faster R-CNN[16],設(shè)計(jì)Region Proposal Networks 將Selective Search 算法整合到深度網(wǎng)絡(luò)中,進(jìn)一步提高計(jì)算速度,并在VOC2007 上訓(xùn)練結(jié)果mAP 達(dá)到了73%。此后,F(xiàn)aster R-CNN 因其較高的精確度和速度開始被廣泛應(yīng)用于計(jì)算機(jī)視覺中的對象檢測領(lǐng)域。
結(jié)合上述目標(biāo)檢測技術(shù)發(fā)展背景,我們對比了目前流行的基于深度學(xué)習(xí)的多目標(biāo)檢測算法Fast?er R-CNN、Yolo[17]和SSD[18]各自的優(yōu)缺點(diǎn),選擇檢測精度和訓(xùn)練與檢測耗時(shí)都符合交通目標(biāo)檢測要求的Faster R-CNN 算法并將其運(yùn)用到真實(shí)的交通圖像的檢測上,通過利用車載攝像頭采集的視頻截取的真實(shí)的城市路況交通圖片,人工標(biāo)注并制作成VOC 格式交通數(shù)據(jù)集,使用NVIDIA GTX1070 GPU加速計(jì)算機(jī)器,在Python版本的Faster R-CNN框架上基于不同預(yù)訓(xùn)練模型進(jìn)行實(shí)驗(yàn),并對實(shí)驗(yàn)結(jié)果進(jìn)行詳細(xì)的比較分析。試圖為目標(biāo)檢測尤其是交通目標(biāo)檢測相關(guān)研究人員在選擇數(shù)據(jù)集規(guī)模、預(yù)訓(xùn)練模型和訓(xùn)練方式提供一些有價(jià)值的分析參考,為調(diào)參時(shí)迭代次數(shù)、閾值等的選擇提供了依據(jù),為預(yù)估實(shí)驗(yàn)耗時(shí)分析具有重要參考價(jià)值。
Faster R-CNN 使用區(qū)域建議網(wǎng)絡(luò)提取候選區(qū)域框,使用非極大值抑制的方式篩選候選區(qū)域框,最后經(jīng)過一對全連接的卷積層進(jìn)行分類和位置回歸,是基于區(qū)域的對象檢測算法。
Faster R-CNN 算法框架設(shè)計(jì)了區(qū)域建議網(wǎng)絡(luò)(Region Proposal Networks),將候選區(qū)域提取階段整合到CNN 中,使用SPP 的映射機(jī)制,利用卷積神經(jīng)網(wǎng)絡(luò)提取得到的特征圖生成候選區(qū)域,代替了傳統(tǒng)的Selective Search 方法,使得獲取候選區(qū)域的速度明顯加快;并在整個(gè)訓(xùn)練網(wǎng)絡(luò)中設(shè)計(jì)了RPN 網(wǎng)絡(luò)與Fast R-CNN 網(wǎng)絡(luò)參數(shù)共享的卷積層,使得檢測只需進(jìn)行一次特征提取,大幅度提高了網(wǎng)絡(luò)的檢測速度。
以ZF 網(wǎng)絡(luò)為例,將輸入的整張圖片尺寸歸一化到600*1000 大小進(jìn)行特征提取生成特征圖,在conv5(卷積層)之后,利用3*3的卷積核(滑動窗口)進(jìn)行卷積,新生成的卷積層的每個(gè)點(diǎn)對應(yīng)著原圖中的k個(gè)anchor(錨點(diǎn)),如圖1所示。

圖1 RPN網(wǎng)絡(luò)的anchor圖
Faster-RCNN 算法采用3 種尺度[128,256,512],3 種長寬比[0.5,1,2]的候選區(qū)域框,設(shè)置k為9,即卷積層的每個(gè)點(diǎn)對應(yīng)著原圖9個(gè)候選區(qū)域,采用非極大值抑制的方法選取符合閾值標(biāo)準(zhǔn)的候選區(qū)域。RPN 對應(yīng)的類別輸出2*9 維,對應(yīng)的位置輸出4*9 維。以ZF 網(wǎng)絡(luò)為例,整個(gè)RPN 網(wǎng)絡(luò)的結(jié)構(gòu)如圖2。

圖2 RPN網(wǎng)絡(luò)結(jié)構(gòu)圖
通過訓(xùn)練上述網(wǎng)絡(luò),可以獲得一個(gè)提取對象候選窗口的網(wǎng)絡(luò)模型,代替原來的Selective Search 模塊,與Fast-RCNN網(wǎng)絡(luò)結(jié)合用于最終的對象檢測。
上述的RPN 網(wǎng)絡(luò)與Fast-RCNN 檢測網(wǎng)絡(luò)一同組成了Faster-RCNN網(wǎng)絡(luò)如圖3。
圖2中,Dx1和Dx2用于檢測X方向的熱誤差,Dy1和Dy2用于檢測Y方向的熱誤差,軸向熱誤差通過Dz來測量。

圖3 Faster-RCNN網(wǎng)絡(luò)圖
Faster R-CNN 第一步是采用基于分類任務(wù)的CNN 模型作為特征提取器,例如ImageNet 的預(yù)訓(xùn)練模型。本文選擇VGG16、VGG_CNN_M_1024、ZF三種ImageNet預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行對比分析。
通過RPN 網(wǎng)絡(luò)輸出候選窗口區(qū)域后輸入ROI-Pooling(池化層),提取候選區(qū)域的特征,再經(jīng)過全連接層進(jìn)行最終分類及位置回歸。針對一張圖片,需要獲得的輸出是每個(gè)邊界框的位置信息、每個(gè)邊界框的類別標(biāo)簽以及每個(gè)邊界框的位置信息和每個(gè)邊界框的類別標(biāo)簽的概率(置信度)。設(shè)置不同閾值即可篩選出不同的檢測結(jié)果信息。
Faster R-CNN提供的訓(xùn)練方式有兩種,一種是交替優(yōu)化的方式(alternating optimization),即分別訓(xùn)練兩個(gè)網(wǎng)絡(luò),一個(gè)是RPN,一個(gè)是Fast-RCNN,總計(jì)兩個(gè)stage,每個(gè)stage 各訓(xùn)練一次RPN 和Fast-RCNN。另外一種訓(xùn)練方式為近似聯(lián)合訓(xùn)練(approximate joint training),也稱end to end 的訓(xùn)練方式,訓(xùn)練過程中只訓(xùn)練一個(gè)權(quán)重網(wǎng)絡(luò)。
多目標(biāo)檢測領(lǐng)域中的基本評價(jià)指標(biāo)有平均精度(Average Precision,AP)、平均精度均值(Mean Average Precision,mAP)、召回率(Recall Rate)和精準(zhǔn)率(Precision Rate),召回率也叫查全率,精準(zhǔn)率也叫查準(zhǔn)率。
在基于計(jì)算機(jī)視覺的對象檢測模型的測試結(jié)果中,分類正確的情形有兩種,一種是原本是正樣例對象檢測模型將其分類成正樣例的情況,記為True Positive 簡稱TP;另一種是原本是負(fù)樣例對象檢測模型將其分類成負(fù)樣例的情況,記為True Negative簡稱TN。分類錯誤的情形也有兩種,一種是原本是負(fù)樣例對象檢測模型將其錯誤的分類成正樣例的情況,記為False Positive 簡稱FP,通常叫誤報(bào);另一種是原本是正樣例對象檢測模型將其錯誤的分類成負(fù)樣例的情況,記為False Negative簡稱FN,通常叫漏報(bào)。
精準(zhǔn)率是針對對象檢測模型在測試時(shí)的檢測結(jié)果而言的,表示預(yù)測為正樣例的樣例里真正為正樣例的樣例所占的比率,公式定義為

召回率是針對測試集中我們本來的樣例而言的,表示被預(yù)測正確的正樣例占總樣例中的正樣例的比率,公式如下:

精準(zhǔn)率和召回率兩者互相影響,理想情況下我們希望兩者都高于檢測標(biāo)準(zhǔn)值,但實(shí)際情況下,統(tǒng)計(jì)在不同的置信度(輸出概率閾值)下的精準(zhǔn)率和召回率數(shù)據(jù),不難看出精準(zhǔn)率和召回率是反比例關(guān)系,隨著置信度的增高,精準(zhǔn)率逐漸增大,召回率逐漸減小。如果統(tǒng)計(jì)在不同的閾值(區(qū)分正負(fù)樣例的閾值)下的精準(zhǔn)率和召回率數(shù)據(jù),不難看出,隨著閾值的增高,精準(zhǔn)率逐漸減小,召回率逐漸增大。在交通領(lǐng)域我們希望盡可能多地將實(shí)際道路上的障礙檢測出來,本文設(shè)定閾值為0.8,大于這個(gè)閾值的稱為正樣例,小于這個(gè)閾值的稱為負(fù)樣例。精準(zhǔn)率和召回率的大小一定在[0,1]區(qū)間內(nèi)。
在多目標(biāo)檢測中,圖像中的標(biāo)簽種類不止一種,不能用mean accuracy 這一單目標(biāo)檢測指標(biāo)來衡量訓(xùn)練所得對象檢測模型的優(yōu)劣,因此引入平均精度、平均精度均值的概念。平均精度反映了訓(xùn)練所得對象檢測模型在某一標(biāo)簽類別上的精準(zhǔn)率,平均精度均值反映了訓(xùn)練所得對象檢測模型在所有標(biāo)簽類別上的平均精準(zhǔn)率。
平均精度(Average Precision,AP)公式定義為

平均精度均值(Mean Average Precision,mAP)公式定義為

由公式可知,PR 曲線圖與橫縱坐標(biāo)圍成的面積就是平均精度均值。平均精度和平均精度均值的大小也一定在[0,1]區(qū)間內(nèi)。
本實(shí)驗(yàn)利用車載攝像頭采集視頻截取的實(shí)際道路交通圖片,使用LabelImage 工具人工標(biāo)注每一幀圖像里面的car(機(jī)動車)、cyc(非機(jī)動車)和ped(行人)三類目標(biāo),即將四輪的機(jī)動車全部定義成car,將三輪的機(jī)動車、兩輪的自行車及其他車輛全部定義成cyc,將車道上和行人道上的人全部標(biāo)注成ped,之后并沒有將圖像進(jìn)行銳化和灰度值修改等預(yù)處理工作,并制作成VOC 格式交通數(shù)據(jù)集,使用NVIDIA GTX1070 GPU 加速計(jì)算機(jī)器,在Python版本的Faster R-CNN 框架上,分析數(shù)據(jù)集規(guī)模、迭代次數(shù)、預(yù)訓(xùn)練模型、訓(xùn)練方式、閾值對訓(xùn)練所得對象檢測模型的檢測效果的影響。本文非特殊說明,實(shí)驗(yàn)參數(shù)設(shè)置為閾值0.8,圖片放縮尺寸600*1000,學(xué)習(xí)率0.001,步長10000,每一次訓(xùn)練數(shù)據(jù)集都按照7∶2∶1 的比例分為train 訓(xùn)練集、test 檢測集和val驗(yàn)證集進(jìn)行訓(xùn)練、檢測和驗(yàn)證,最后我們使用檢測集來測試訓(xùn)練好的模型的目標(biāo)檢測精度。在非迭代次數(shù)研究中,我們將迭代次數(shù)設(shè)置成近似聯(lián)合訓(xùn)練70000 次,交 替優(yōu)化max_iters=[80000,40000,80000,40000],在研究迭代次數(shù)的時(shí)候,按照此比例更改交替優(yōu)化每一階段的迭代次數(shù),根據(jù)數(shù)據(jù)集的特征類別數(shù)設(shè)置為4(3種我們標(biāo)注的類別和1種前景)。
在研究數(shù)據(jù)集規(guī)模對訓(xùn)練模型檢測效果的影響時(shí),我們共制作了6 份數(shù)據(jù)集,每份數(shù)據(jù)集分別包含6500、13000、19500、26000、32500、39000 張圖片,之所以要列為等差數(shù)列而不是等比數(shù)列,是因?yàn)閿?shù)據(jù)集以遞增方式增加時(shí)圖片的采集和標(biāo)注工作已經(jīng)十分龐大,用等比數(shù)列研究1,10,100 的數(shù)據(jù)集訓(xùn)練毫無意義,研究100000,1000000 的數(shù)據(jù)集數(shù)量又過于龐大。經(jīng)過合理推算我們認(rèn)為用6500、13000、19500、26000、32500、39000 的數(shù)據(jù)集即可表明結(jié)論。實(shí)驗(yàn)結(jié)果表明,隨著數(shù)據(jù)集規(guī)模的逐漸增大,訓(xùn)練模型的檢測精度逐漸增高,但最后會趨于穩(wěn)定,因此研究人員在研究過程中可以選擇等差遞增的方式邊訓(xùn)練邊標(biāo)注數(shù)據(jù)集,當(dāng)檢測精度近似趨于穩(wěn)定時(shí)停止標(biāo)注,此時(shí)的數(shù)據(jù)量已經(jīng)可以滿足實(shí)驗(yàn)的需要。當(dāng)訓(xùn)練數(shù)據(jù)集超過32500 張后訓(xùn)練模型的檢測精度稍有下降,我們考慮是當(dāng)數(shù)據(jù)集增大到32500 以后,按照劃分比例檢測集數(shù)量也會增加,檢測集出現(xiàn)的較難檢測圖像的數(shù)據(jù)量增加,影響了檢測精度的判定,且精度降低近似0.0001,在誤差允許的范圍內(nèi)。因此我們可以認(rèn)為,在數(shù)據(jù)集特征大概相同的情況下,最優(yōu)訓(xùn)練數(shù)據(jù)集規(guī)模在19500~32500 之間。圖4 為采用VGG16 預(yù)訓(xùn)練模型,使用近似聯(lián)合訓(xùn)練的訓(xùn)練方式在迭代次數(shù)為70000 次時(shí)的車輛平均精度隨訓(xùn)練集圖片張數(shù)變化的曲線。

圖4 車輛AP隨訓(xùn)練集圖片張數(shù)變化曲線圖
在研究迭代次數(shù)對訓(xùn)練模型檢測效果的影響時(shí),我們將迭代次數(shù)分為100、1000、10000、70000、100000 共四組進(jìn)行實(shí)驗(yàn),因?yàn)榈螖?shù)影響的主要是訓(xùn)練用時(shí),而近似等差的迭代次數(shù)在訓(xùn)練用時(shí)上差異不大,因此我們選擇近似等比的迭代次數(shù)分組。實(shí)驗(yàn)結(jié)果表明,隨著迭代次數(shù)的增高訓(xùn)練模型的精度逐漸提高,迭代次數(shù)為10000 次時(shí)車輛的平均精度已經(jīng)達(dá)到0.776,之后隨著迭代次數(shù)的增加,精度變化不太明顯。因此可以認(rèn)為,在數(shù)據(jù)集特征大概相同的情況下,最優(yōu)迭代次數(shù)在10000 數(shù)量級附近。圖5 為用39000 張圖片訓(xùn)練,1765 張圖片測試,使用近似聯(lián)合訓(xùn)練的訓(xùn)練方式,cyc、ped 和car三類目標(biāo)的AP和mAP隨迭代次數(shù)變化的曲線。

圖5 AP和mAP隨迭代次數(shù)變化曲線圖
在研究預(yù)訓(xùn)練模型和訓(xùn)練方式對訓(xùn)練模型檢測效果的影響時(shí),比較VGG16、VGG_CNN_M_1024和ZF三種網(wǎng)絡(luò)模型在car、cyc和ped三類目標(biāo)上的平均精度和平均精度均值,實(shí)驗(yàn)結(jié)果表明VGG16 網(wǎng)絡(luò)相比VGG_CNN_M_1024 網(wǎng)絡(luò)和ZF 網(wǎng)絡(luò)在檢測ped 和cyc 時(shí)有較為明顯的優(yōu)勢,VGG_CNN_M_1024 網(wǎng)絡(luò)相比ZF 網(wǎng)絡(luò)優(yōu)勢不大,甚至在ped 檢測時(shí)稍顯劣勢。圖6 為VGG16、VGG_CNN_M_1024和ZF三種模型在car、cyc和ped三類目標(biāo)上的平均精度和平均精度均值曲線圖。

圖6 平均精度與平均精度均值變化曲線圖
我們分別對VGG16、VGG_CNN_M_1024 和ZF三種模型使用交替優(yōu)化方法和近似聯(lián)合訓(xùn)練兩種訓(xùn)練方式進(jìn)行了實(shí)驗(yàn),統(tǒng)計(jì)了三種模型使用兩種訓(xùn)練方式對應(yīng)的迭代一次的平均用時(shí),實(shí)驗(yàn)結(jié)果表明,VGG16 網(wǎng)絡(luò)迭代一次的平均耗時(shí)為VGG_CNN_M_1024 網(wǎng)絡(luò)和ZF 網(wǎng)絡(luò)的三陪以上,VGG_CNN_M_1024 網(wǎng)絡(luò)和ZF 網(wǎng)絡(luò)迭代一次的平均耗時(shí)相差不大。實(shí)驗(yàn)結(jié)果表明,VGG16 網(wǎng)絡(luò)訓(xùn)練模型的精度明顯高于VGG_CNN_M_1024網(wǎng)絡(luò)和ZF 網(wǎng)絡(luò),交替優(yōu)化方法(alternating optimization,alt)訓(xùn)練模型的精度略高于近似聯(lián)合訓(xùn)練(approxi?mate joint training,end to end)。圖8 為用39000 張圖片訓(xùn)練,1765 張圖片測試,使用交替優(yōu)化方法和近似聯(lián)合訓(xùn)練兩種訓(xùn)練方式訓(xùn)練所得模型車輛檢測的平均精度。

圖7 每次迭代平均耗時(shí)圖
我們還統(tǒng)計(jì)了三種模型對應(yīng)的檢測單張圖片的平均耗時(shí)情況,VGG16 網(wǎng)絡(luò)檢測單張圖片的平均耗時(shí)為0.192s,VGG_CNN_M_1024 網(wǎng)絡(luò)和ZF 網(wǎng)絡(luò)檢測單張圖片的平均耗時(shí)分別為0.086s 和0.080s,比較而言VGG16 網(wǎng)絡(luò)檢測單張圖片的平均耗時(shí)為VGG_CNN_M_1024 網(wǎng)絡(luò)和ZF 網(wǎng)絡(luò)的兩倍以上,VGG_CNN_M_1024 網(wǎng)絡(luò)和ZF 網(wǎng)絡(luò)檢測單張圖片的平均耗時(shí)相差不大。另外,VGG16 網(wǎng)絡(luò)是大型預(yù)訓(xùn)練網(wǎng)絡(luò),要求訓(xùn)練機(jī)器GPU顯存為11G以上,VGG_CNN_M_1024 是中型的預(yù)訓(xùn)練網(wǎng)絡(luò),要求訓(xùn)練機(jī)器GPU 顯存為3G 以上,ZF 是小型預(yù)訓(xùn)練網(wǎng)絡(luò),要求訓(xùn)練機(jī)器GPU顯存為3G以上。

圖8 車輛AP圖
繪制閾值從0.1開始以0.05的步長增至0.95的PR曲線如圖9。可以看出隨著閾值的增大,準(zhǔn)確率會越來越高,召回率會越來越低,即二者反向變化。我們統(tǒng)計(jì)39000 張訓(xùn)練圖像中包含的cyc、ped和car 的目標(biāo)個(gè)數(shù),分別為20228、57910 和197937個(gè),即車載攝像頭拍攝到三者的目標(biāo)個(gè)數(shù)相差較大,且數(shù)據(jù)集中car 的目標(biāo)邊緣明顯比cyc、ped 清晰,以上原因都可能造成文中car 的檢測精度明顯高于cyc 和ped。針對cyc、ped 和car 三者PR 曲線差異很大這一現(xiàn)象,我們分析原因有兩個(gè),一是三者目標(biāo)個(gè)數(shù)差距較大,二是我們發(fā)現(xiàn)包含行人目標(biāo)的圖像大多是在鬧市區(qū)拍攝,行人目標(biāo)形態(tài)不固定且遮擋比較嚴(yán)重。

圖9 PR曲線圖
圖10 為用39000張圖片作為訓(xùn)練集,使用近似聯(lián)合訓(xùn)練的訓(xùn)練方式迭代130000 次,閾值取0.8,訓(xùn)練所得模型的實(shí)際檢測效果。實(shí)驗(yàn)結(jié)果可以看出,F(xiàn)aster R-CNN在目標(biāo)物體部分遮擋時(shí)仍然可以保持較高的檢測精準(zhǔn)度。
本文主要針對從車載攝像頭錄制的交通視頻截取的真實(shí)道路場景圖像,訓(xùn)練用于交通對象的檢測模型,分析了訓(xùn)練數(shù)據(jù)集規(guī)模、預(yù)訓(xùn)練模型、訓(xùn)練方式、迭代次數(shù)等對車輛行人檢測結(jié)果的影響。實(shí)驗(yàn)結(jié)果表明,這些因素對檢測模型的mAP、精準(zhǔn)率、召回率等指標(biāo)影響很大。下一步將進(jìn)一步擴(kuò)大訓(xùn)練數(shù)據(jù)集、迭代次數(shù)等研究的規(guī)模,融入loss 曲線等來更加精準(zhǔn)地分析這些因素對檢測模型訓(xùn)練的作用,為提高對象檢測模型訓(xùn)練尤其是交通對象檢測模型訓(xùn)練的效率提供服務(wù)。