999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

改進的卷積神經網絡行人檢測方法

2017-09-03 10:23:54閆勝業
計算機應用 2017年6期
關鍵詞:實驗檢測模型

徐 超,閆勝業,2

(1.江蘇省大數據分析技術重點實驗室(南京信息工程大學),南京 210044; 2.大氣環境與裝備技術協同創新中心,南京 210044)

改進的卷積神經網絡行人檢測方法

徐 超1,閆勝業1,2*

(1.江蘇省大數據分析技術重點實驗室(南京信息工程大學),南京 210044; 2.大氣環境與裝備技術協同創新中心,南京 210044)

(*通信作者電子郵箱shengye.yan@gmail.com)

為了在行人檢測任務中使卷積神經網絡(CNN)選擇出更優模型并獲得定位更準確的檢測框,提出一種改進的基于卷積神經網絡的行人檢測方法。改進主要涉及兩個方面:如何決定CNN樣本迭代學習次數和如何進行重合窗口的合并。首先,關于CNN樣本迭代次序問題,在順序迭代訓練多個CNN分類模型的基礎上,提出一種基于校驗集正確率及其在迭代系列分類器中展現出的穩定性進行更優模型選擇的策略,以使最終選擇的分類器推廣能力更優。其次,提出了一種不同于非極大值抑制(NMS)的多個精確定位回歸框合并機制。精確定位回歸框的獲取以CNN檢測過程輸出的粗定位框作為輸入。然后,對每個粗定位框應用CNN精確定位過程并獲得對應的精確定位回歸框。最后,對多個精確定位回歸框進行合并,合并過程考慮了每個精確定位回歸框的正確概率。更精確地說,最終的合并窗口是基于多個相關的精確定位回歸框的概率加權求和方式獲得。針對提出的兩個改進,在國際上廣泛使用的行人檢測公共測試數據集ETH上進行了一系列實驗。實驗結果表明,所提的兩個改進方法均能有效地提高系統的檢測性能,在相同的測試條件下,融合兩個改進的方法相比Fast R-CNN算法檢測性能提升了5.06個百分點。

深度學習;卷積神經網絡;圖像分類;行人檢測

0 引言

人是各類社會活動的中心,在各種現實場景中,人都是最為重要的關注對象,如行人過馬路、車站安檢等。人體目標檢測作為一種特定物體檢測,是車輛輔助駕駛、智能視頻監控和人體行為分析等應用的前提,也可以應用在老年人監護、受害者營救等新興領域中。隨著硬件設備功能的不斷強大和相關算法的提出、改進,使得人體目標檢測系統的性能也不斷提高[1-3]。因此人體目標檢測具有非常重要的研究意義和價值,受到越來越多的研究人員關注。與此同時,人體目標檢測依然存在一些問題。

首先,相比于車輛等不易發生形變的物體,人體具有非剛性特點。人身體的各部位具有極高的自由度,當人做出蹲下、跑步和跳舞等動作時,人體姿態會發生很大變化。其次,人穿著衣物顏色和款式的不同,如風衣、裙子和帽子等都會對人體目標外觀造成極大差異,也在不同程度上對人體造成了遮擋。最后,人體圖像是人體表面反射外界光線并經過攝像設備光電轉換和量化后的結果,光照強度的不同使得圖像亮度存在變化,而光照方向的不同會導致圖像上出現陰影或拉絲,從而影響圖像質量。這些問題的存在使得人體目標檢測成為計算機視覺的研究熱點與難點之一。前人對于這些問題進行了多方面的嘗試:在分類器選擇方面,具有代表性的有支持向量機(Support Vector Machine, SVM)[4]、隨機森林(Random Forest, RF)[5]和瀑布式分類器(Boosting)[6]等;在特征提取方面,提出了很多非常有意義的特征,包括Haar-like特征[7]、Edgelet特征[8]、Shapelet特征[9]、梯度直方圖(Histogram of Oriented Gradient, HOG)特征[10]、詞袋(Bag of Words, BoW)特征[11]、Integral Histograms特征[12]、Color Histograms特征[13]、Covariance Descriptors特征[14]等。這些特征從不同側面嘗試捕獲圖像的不同表示,為系統后續操作提供了更多地選擇。

人體目標檢測任務具有里程碑意義的工作是文獻[10]提出的HOG特征結合SVM算法,該算法在保證精度大幅度提升地同時極大地提高了檢測速度。文獻[15]提出利用積分通道特征(Integral Channel Feature, ICF)和瀑布式分類器相結合的方法,使得行人檢測效果進一步提升。文獻[16]提出基于可變形部件模型(Deformable Part Model, DPM)檢測算法,其主要思想是針對人體高自由度形變部件,建立一定形式的空間約束,根模型與部件模型共同作用來檢測人體目標,該算法在當時取得了很好的性能。雖然上述傳統檢測方法在不同程度上對物體檢測方法進行改進,但手工設計的特征對于復雜場景下目標多樣性變化沒有很好的魯棒性,而卷積神經網絡(Convolutional Neural Network, CNN)[17]最大的特點是可以通過大量數據自動地學習出物體特征,將這種特征送入分類器中可以獲得極好的分類性能。卷積神經網絡的發展可以追溯到文獻[17]提出的反向傳播(Back Propagation, BP)算法,該算法有效地訓練了卷積神經網絡,使得其成功運用到手寫數字識別問題中。

文獻[18]使用深度卷積神經網絡算法在ImageNet大規模視覺識別挑戰賽(ImageNet Large Scale Visual Recognition Challenge, ILSVRC)[19]上取得了當時最低的圖像分類錯誤率,導致計算機視覺領域引發了研究深度學習的熱潮。針對行人檢測任務,文獻[20]提出利用行人屬性和場景屬性來聯合優化行人檢測問題,設計多任務深度模型協調各個任務并減小不同數據集之間的差異,有效地降低了誤檢率,使得分類性能提高。文獻[21]提出深度部件算法,該算法使用大量行人部件檢測器,為深度學習處理遮擋行人的檢測提供了思路。但上述兩種算法并沒有訓練模型對粗定位檢測框進行回歸操作,所以檢測框定位存在不準確情況。

文獻[22]提出了區域卷積神經網絡(Region proposals with CNN, R-CNN)物體檢測框架,該框架使用CNN分別訓練了檢測框分類模型和回歸模型,在物體檢測庫Pascal VOC Challenge[23]上表現出色。R-CNN算法是將每一個候選區域圖像塊都送入網絡中進行一次卷積操作,這導致R-CNN存在運算量大、檢測速度慢等缺點。文獻[24]提出了空間金字塔池化網絡(Spatial Pyramid Pooling Net, SPP-Net)算法來對R-CNN進行加速,該算法的優點是只需提取一次整幅圖片的卷積層特征,再通過坐標映射[24]就可以得到每個候選區域對應的卷積特征。其缺點是特征提取CNN的訓練和SVM分類器的訓練在時間上是先后順序,兩者訓練方式獨立,因此網絡只能更新全連接層參數[24],這在一定程度上限制了深度CNN的潛力。文獻[25]提出的Fast R-CNN算法改進了R-CNN和SPP-Net算法中的不足,該算法最大的特點是將分類任務和坐標回歸任務同時訓練以更新整個網絡參數,相比于R-CNN和SPP-Net提升了效率和精度。

Fast R-CNN算法仍然存在缺點:一方面隨著訓練迭代次數不斷增加,會產生很多中間模型(每迭代訓練1 000次保存一次模型),該算法選擇最后一次迭代產生的模型作為最終模型,而訓練模型過程中樣本選擇是概率事件,最后一次迭代產生的模型不一定使得分類性能最優;另一方面Fast R-CNN算法雖然進行了粗定位檢測框坐標回歸,但部分檢測框定位依然不準確,影響檢測性能。

針對上述問題,本文提出投票Fast R-CNN算法。實驗結果表明,本文提出的兩個改進方法能夠有效地提高檢測性能,設置相同測試條件下,投票Fast R-CNN算法相比Fast R-CNN算法,檢測性能提升了5.06個百分點。

1 投票Fast R-CNN行人檢測算法

投票Fast R-CNN行人檢測算法改進主要體現在兩個方面:第一,測試所有中間模型在驗證集上的檢測性能,根據驗證集測試結果的離散分布情況,挑選出最優模型;第二,使用非極大值抑制(Non-Maximum Suppression, NMS)[22]操作之前的精確定位檢測框得分和位置信息,采用概率加權投票方式來確定最終檢測框位置,使檢測性能進一步提升。

1.1 候選區域提取

基于特征的目標推薦(Object Proposal)是一類常用的目標搜索策略,與窮舉搜索策略[10]不同之處在于窮舉搜索策略會為每類物體分別設置滑動窗口尺寸并考慮目標尺度問題,而基于特征的目標推薦策略無需窮舉出圖像每個尺度位置上的目標區域,且不考慮類別問題,比較適用于圖像中目標類別較多時的候選區域提取。該類算法首先根據一些特征來生成圖像中的疑似目標區域,其數量遠少于窮舉搜索策略產生的候選框數量,極大地減輕了系統后續操作的計算量。基于特征的目標推薦策略代表算法有selective-search[26]、Edge-Boxes[27]等,其中,selective-search算法使用相似區域聚合來提取候選框,而Edge-Boxes算法使用邊緣信息來提取候選框。本文算法在數據準備階段需要提供圖片數據集的感興趣區域(疑似人體目標區域),考慮到行人目標利用邊緣信息提取候選框更加合理,所以本文使用 Edge-Boxes算法來提取圖片數據集中的感興趣區域候選框。

1.2 感興趣區域池化層

Fast R-CNN算法中感興趣區域池化層[25]實質上是SPP-Net算法中空間金字塔池化層的簡化版[24],即將所有感興趣區域卷積特征都池化到同一個尺度。感興趣區域池化層輸入的是表示整幅圖像特征的N個特征圖和數量為R的感興趣區域,其中R?N。整幅圖像特征圖由網絡最后一層卷積層提供(本文使用VGG16[28]網絡的conv5_3卷積層),使用使用多維矩陣H*W*C表示:H表示行數,W表示列數,C表示通道數。每一個感興趣區域用{k,r,c,h,w}表示,其中:k表示每個感興趣區域的索引,(r,c)、h和w分別表示感興趣區域的左上角坐標、高和寬。由于每個感興趣區域大小不同,導致其卷積特征圖大小也不同,而全連接層要求輸入維度不變,所以對于不同大小的感興趣區域特征圖,其池化操作塊大小是變化的[25]。具體計算式如式(1)所示:

(1)

其中:i∈N+;si表示池化操作塊大小;hi和wi表示感興趣區域特征圖的行和列;H′和W′表示感興趣區域池化層的固定輸出大小(VGG16網絡中為7×7),最終感興趣區域池化層輸出多維矩陣H′*W′*C。

1.3 網絡損失函數

圖1 網絡結構示意圖

網絡總損失L為分類任務損失和坐標回歸任務損失之和,計算式如式(2)所示:

L(p,k,t,t*)=Lcls(p,k)+λ[k≥1]Lloc(t,t*)

(2)

其中:k表示類別標簽,k≥1表示只對人體正樣本進行坐標回歸;Lcls(p,k)表示標準交叉熵損失。Lcls(p,k)計算式如式(3)所示:

Lcls(p,k)=-ln(pk)

(3)

(4)

其中:Pi={Px,Py,Pw,Ph}表示需要回歸的正樣本中心點位置、寬和高;Gi={Gx,Gy,Gw,Gh}表示真實標注框中心點位置、寬和高。計算出t和t*后,回歸模型的代價損失函數計算式如式(5)所示:

(5)

其中smoothL1計算式如式(6)所示:

(6)

投票Fast R-CNN算法中網絡損失函數引入參數λ的目的是為了控制兩個子任務之間的平衡。本文所有實驗中設置λ=1,表示分類任務和檢測任務同等重要。

1.4CNN樣本迭代學習次序

FastR-CNN這類物體檢測算法[22,24-25]在測試階段使用最后一次迭代產生的模型作為最終模型,但卷積神經網絡訓練過程中樣本選擇存在隨機性,隨著迭代次數不斷增加,最后一次產生的模型效果往往不是最優。基于此考慮,本文將迭代產生的40個模型分別在訓練集和驗證集上測試模型性能,其性能評價標準和測試集評價標準一致[29]。隨著迭代次數不斷增加,模型在訓練集上檢測性能越來越優,而驗證集上中間迭代次數產生的模型檢測性能最優,這對最后一次迭代產生的模型效果不是最優的假設提供了支持。

考慮CNN樣本迭代次序對檢測性能的影響情況,假設每個中間模型為最優模型的可能性使用置信值β來表示,其中β∈[0,1],那么通過最小值方法取對應模型作為最優模型的做法可能并不充分。本文針對多個CNN模型在驗證集上的檢測性能結果,提出取離散數據中最平滑點對應模型為最優模型的方法,使得其在測試集上檢測性能更優。對離散數據取平滑的方法有多種,其中常用的一種是均值平滑法[30],該方法具有計算簡單、平滑效果明顯等優點,其計算式如式(7)所示:

(7)

考慮到迭代模型在驗證集上所展現的檢測性能結果極可能是呈曲線形式的,中間往后的數據平滑穩定可能性較大,而均值平滑處理方法并沒有使用權重信息,所以本文提出使用傅里葉變換中測不準原理[31]關于分辨率的定義,來平滑處理中間模型在驗證集上的檢測性能數據,其中關于分辨率的計算式如式(8)所示:

(8)

其中:s(r)表示檢測性能,r表示迭代次數,迭代次數和檢測性能成對應關系。選擇最優模型具體做法是將測不準原理分辨率計算公式中的積分變成離散加和,找出Δr2的最小值即分辨率最低點,就得到離散數據最平滑穩定點和對應迭代次數模型,此模型作為最終檢測模型。

1.5 概率加權投票合重框

FastR-CNN算法中雖然訓練了模型對粗定位檢測框坐標進行回歸,但最終檢測結果依然會出現類似于圖3中定位不準確的虛線檢測框。基于此定位不準確情況,本文提出了使用精確定位檢測框概率加權投票算法,進一步精確檢測框位置,從而滿足大部分行人檢測算法采用的評估標準,即檢測框和真實標注框重合度至少50%的條件[29]。整體檢測框投票算法流程如圖2所示。

圖2 合重框算法流程

首先將測試圖片送入到本文使用的卷積神經網絡中進行檢測,使用標準NMS[22]之后得到的檢測框集合標記為Y={(Si,Bi)},其中:i∈N+,Si表示檢測框決策得分,Bi表示檢測框左上角坐標、寬和高。使用類似的定義表示需要進行投票的檢測框集合y={(Sj,Bj)},其中:Bj∈N(Bi),N(Bi)表示NMS后被抑制掉的檢測框中與Bi重合度達到50% 以上的檢測框集合。檢測框投票的主要思想是根據Bj得到最終檢測框的坐標位置,其投票權重為Sj,權重計算式如式(9)所示:

wj=max(0,Sj)

(9)

概率加權投票后,最終檢測框位置計算式如式(10)所示:

(10)

最終檢測框集合記為Y′={(Si,Bi′)},檢測框投票算法示意圖如圖3所示。圖3(a)中的檢測框都是進行了坐標回歸的精確定位檢測框,其中實線框表示被抑制掉的檢測框,虛線框表示NMS之后保留的檢測框,即不使用概率加權投票方法的最終結果檢測框。相比于圖3(b)實線的真實標注框,顯然圖3(a)虛線的檢測框定位不夠準確。利用圖3(a)實線的精確定位框,使用概率加權投票合重框算法后,得到最終檢測框如圖3(b)虛線框所示,可見該檢測框達到評估為正確檢測框的要求[29]。

圖3 檢測框投票示意圖

2 實驗結果與分析

2.1 實驗數據集

2.1.1 訓練數據集

實驗使用多個數據集圖片來組成訓練集,其中包括INRIA行人數據庫[10]提供的訓練集(共614張圖片)、TUD-MotionPairs行人數據庫[32]中的訓練集(共1 092張圖片,將未標注完全的圖片進行了手工標注,增加了2 864個行人目標)和一些手工標注了的互聯網圖片。整個訓練集共有2 981張圖片,圖片包含9 679個人體目標。驗證集由訓練集中隨機取出的600張圖片組成,包含1 232個人體目標。輸入卷積神經網絡的圖片和訓練樣本示例如圖4所示,其中人體正樣本(圖中實線框)要求與真實標注框(圖中較小實線框)重合度至少50%以上,負樣本(圖中虛線框)要求與真實標注框重合度在0.1到0.5之間,按照FastR-CNN算法中的實驗設置,每張圖片隨機選取64個感興趣區域(16個正樣本,48個負樣本)送入網絡進行訓練[25]。在訓練集準備過程中,采用了水平翻轉的方式對數據集進行擴充[18]。

圖4 訓練樣本示意圖

2.1.2 測試數據集

為了評估本文提出算法的性能,測試集選擇國際上廣泛使用且非常具有挑戰的行人檢測公共測試數據集ETH[33],ETH數據集采用一對車載的AVTMarlinsF033C攝像頭進行拍攝。由于拍攝場景是行人眾多的街道,所以圖像背景信息較為復雜。整個測試集含有3個視頻序列,分別在正常光照(999張)、陰天(446張)、強光(354張)3種光照條件下進行拍攝,其中每張圖片分辨率為640×480,幀率13~14frame/s,給出標定信息和行人標注信息。

2.2 實驗設置

考慮到使用FastR-CNN給定的原始參數[25]不會對本文提出的算法造成影響,所以在設置實驗相關參數時,按照FastR-CNN的設置將所有網絡層的權重學習率設置為1,偏差學習率設置為2,全連接層參數使用標準偏差在0.001到0.01之間的零均值高斯分布初始化。對于訓練數據集,考慮到VGG16網絡結構深度[28]會導致訓練時間很長,本文設置訓練迭代總次數為40 000次,其中前30 000次迭代使用的全局學習率為0.001,后10 000次迭代使用的全局學習率為0.000 1,沖量設置為0.9,權重衰減因子設置為0.000 5。

2.3 性能評價指標

目前大部分行人檢測算法[20-22,24]使用進行修改后的Pascal目標檢測競賽[23]評估標準。圖片送入卷積神經網絡檢測后,輸出結果包含最終檢測框的左上角坐標、寬、高和決策得分。如果檢測框與真實標注框重合面積大于某個閾值,則認為該檢測框與真實標注框相匹配。實驗中使用重合面積必須大于50%的標準[29],重合面積計算公式如式(11)所示:

(11)

其中:BBdt表示最終檢測框;BBgt表示真實標注框。若多個BBdt與BBgt匹配,則決策得分高的檢測框將被選擇,而沒有被匹配的BBdt記為誤檢,未被匹配的BBgt記為漏檢。

實驗中使用的檢測性能評價數據是漏檢比例(MissingRate)和平均每幅圖像誤檢率(FalsePositivePerImage,FPPI)[29],其中漏檢率MR計算式如式(12)所示:

MR=1-TP/Npos

(12)

平均每幅圖像誤檢率FPPI計算式如式(13)所示:

FPPI=FP/Nimg

(13)

其中:TP表示準確檢測的正例;Npos表示正例總數;FP表示誤檢總數;Nimg表示測試圖片總數。MR和FPPI構成檢測性能的受試者工作特征(Receiver Operating Characteristic, ROC)曲線,改變決策得分閾值可以得到不同的ROC曲線,當增大決策得分閾值后,可以排除更多的誤檢,同時漏檢率也會增加,而當減小決策得分閾值時,可以降低漏檢率,相應地,誤檢也會增多,由此可見MR和FPPI呈負相關。大部分物體檢測算法性能都使用FPPI數值分別在{0.010 0,0.017 8,0.031 6,0.056 2,0.100 0,0.177 8,0.316 2,0.562 3,1.000 0}時對應漏檢率數值求平均定義,即平均漏檢率(AverageMissRate)[29],所以本文所說的檢測性能也采用這種方式表示。FPPI數值為0.1表示在10張圖存在1個誤檢的情況,如果對應的漏檢率越低則表示算法性能越好,由此可見,平均漏檢率也是越低檢測性能越好。

2.4 實驗分析

為了測試投票FastR-CNN行人檢測算法性能,本文分別進行了3個方面的實驗:樣本迭代學習次序實驗、重框處理機制對比實驗和正確檢測率及檢測時間對比實驗。

2.4.1 樣本迭代學習次序實驗

通常FastR-CNN算法挑選最后一次迭代產生的模型作為最終模型,實驗得到第40 000次迭代模型在ETH測試集上的平均漏檢率數值為45.07%。進行多組實驗后觀察到,迭代過程中產生的其他中間模型檢測效果也很好。基于此考慮,為了選擇性能最優的模型,實驗首先固定決策得分閾值為0.8,NMS閾值為0.3,然后將得到的40個模型依次在訓練集和驗證集上進行測試。檢測性能和迭代次數關系如圖5所示。

圖5 檢測性能和迭代次數關系

隨著迭代次數的增加,模型在訓練集上檢測性能越來越優,如圖5中實折線所示。在設置相同參數和實驗步驟情況下,模型在驗證集上的檢測性能,如圖5中虛折線所示。

由于訓練過程是概率事件,具有隨機性,通過在驗證集離散數據上使用最小值法選擇模型不一定最優。本文選擇性能圖最平滑點對應的迭代模型作為最終檢測模型。考慮到迭代模型在驗證集上性能極可能是呈曲線形式,中間往后的數據平滑穩定的可能性較大,所以本文使用傅里葉變換中測不準原理[31]計算分辨率的方法來找離散結果最平滑點。通常情況下,這樣取得的點對應的模型效果會更優。實驗結果表明,第27 000次迭代對應的點在驗證集上為最小值點,而經過計算后得到第31 000次迭代對應的點為最平滑點。

本文分別將這兩個模型在ETH測試集上進行測試,實驗結果如圖6所示。由圖6可以看出,第31 000次迭代模型的平均漏檢率數值為41.63%,而第27 000次迭代模型的平均漏檢率數值為43.58%,表明第31 000次迭代模型在ETH測試集上的檢測性能優于第27 000次迭代模型,即使用計算分辨率方法得到的模型使得分類性能更優,對本文所提出的假設進行了驗證。所以本文采用計算中間模型在驗證集上檢測性能最平滑點方法找到最終模型,即選取第31 000次迭代產生的模型。

圖6 測試集檢測性能對比

2.4.2 重框處理機制對比實驗

大部分目標檢測算法在后處理過程中,采用標準策略的NMS[22]算法消除多余的檢測框,其特點是簡單高效。如果NMS閾值設置太高,檢測結果中會保留很多誤檢框;而閾值設置得太低,則導致靠近的目標中決策得分低的檢測框被決策得分高的檢測框所抑制;以上兩種情況都會影響檢測性能。

本次實驗使用第31 000次迭代模型,固定決策得分閾值為0.8,設置NMS閾值從0.3~0.6間隔0.05取值,測試NMS閾值對檢測性能的影響。由圖7結果可知,當增大NMS閾值時,誤檢框保留太多會導致性能下降比較明顯。FastR-CNN算法在ETH測試集上使用標準NMS的檢測性能如圖7中折線所示。為了將本文提出的加權投票合重框方法和FastR-CNN提出的標準NMS方法進行性能對比,選擇FastR-CNN取得較優檢測性能時的NMS閾值(0.35)作為加權投票合重框方法的NMS參數,其檢測性能在圖7中使用方塊表示。由圖7可知,相比于FastR-CNN算法提出的標準NMS處理精確定位框方法,本文提出的概率加權投票合重框機制使得最終檢測框定位更加準確,在ETH測試數據集上取得了更優的檢測性能,平均漏檢率數值降低了1.62個百分點。

圖7 重框處理機制對比

分析圖7實驗結果可知,FastR-CNN只是保留了在一定重合條件下決策得分最高的檢測框,然而針對最高決策得分對應的檢測框本身定位不準確的情況,FastR-CNN沒有進行處理。而本文提出的基于概率加權投票合重框方法,本質上與NMS不同,在得到決策得分最高的檢測框后,利用NMS之前的那些精確定位檢測框對決策得分最高的檢測框進行位置再精確,使得那些原來檢測為行人卻由于不符合評估標準而被記為誤檢的檢測框,重新記為正確檢測框。這樣在降低了誤檢率的同時也提高了正檢率,從而使得檢測性能提升。

2.4.3 檢測正確率及檢測時間對比實驗

將投票FastR-CNN算法與HOG+SVM[10]、局部相關通道特征(LocallyDecorrelatedChannelFeature,LDCF)[34]、Roerei[35]、FastR-CNN[25]、可切換深度網絡(SwitchableDeepNetwork,SDN)[36]和SpatialPooling[37]這幾種行人檢測算法從正確檢測率角度進行了對比,正確檢測率定義為各算法在ETH上得到的結果檢測框中與真實標注框重合度大于50%的檢測框(正檢)個數和結果檢測框總數的比值,該比值表示了模型找到正樣本的可靠性。在選取平均每幅圖像誤檢個數都為0.1的情況下,各行人檢測算法的正確檢測率如表1所示。

表1 不同算法在ETH數據集的正確檢測率對比

從表1中可知,本文提出的投票FastR-CNN行人檢測算法具有較高的正確檢測率。

本文對投票FastR-CNN算法的檢測時間也進行了評估,實驗選用幾種比較受關注的且檢測精度較高的行人檢測算法來對比檢測時間,由于有些算法是使用中央處理器(CentralProcessingUnit,CPU)實現的,而有些算法是使用圖形處理器(GraphicProcessingUnit,GPU)實現的,不太好直接比較其計算復雜度,所以本文實驗不區分各算法的硬件環境。其中,HOG+SVM[10]、LDCF[34]、Roerei[35]和SpatialPooling[37]這幾種算法的檢測時間是在CPU環境下測得的,而FastR-CNN[25]、SDN[36]和本文算法的檢測時間是在GPU環境下測得的。檢測時間為檢測一張640×480大小的圖片所需的時間,單位為s。不同算法在ETH行人數據集上的檢測性能平均漏檢率和時間比較如表2所示。

由表2中可以看出,相比于其他幾種行人檢測算法,本文提出的投票FastR-CNN算法檢測性能較優,同時檢測速度也較快。

表2 不同行人檢測算法檢測時間對比

2.5 實驗結果

根據上述實驗分析,最終設置決策得分閾值為0.8,NMS閾值為0.35,并選擇第31 000次迭代產生的模型作為檢測模型。FastR-CNN算法和本文投票FastR-CNN算法的檢測性能比較如圖8所示,本文算法迭代訓練多個CNN模型,并選擇最優模型的方法使得分類性能更優,而通過加權投票合重框方法使得最終檢測框定位更準確,結合這兩種改進方法相比較于FastR-CNN算法,在ETH測試集上檢測性能提升了5.06個百分點。

圖8 本文算法與Fast R-CNN算法檢測性能對比

為了更進一步比較檢測性能,將本文算法與其他幾種受關注的且精度較高的行人檢測算法進行了檢測性能比較,實驗結果對比如圖9所示。在相同測試數據集和評估標準下,本文算法取得較好的檢測性能。

圖9 不同行人檢測算法性能對比

圖10顯示了本文算法在ETH行人測試數據集上進行檢測的部分效果,從圖10中可以看出投票FastR-CNN算法取得了很好的檢測效果。

圖10 本文算法行人檢測結果

3 結語

本文提出了一種卷積神經網絡的行人檢測方法。為了選擇出更優模型使得檢測性能提升,在順序迭代訓練多個CNN分類模型的基礎上,提出根據校驗集正確率及其分類器展現出的穩定性進行更優模型選擇的策略,使最終分類器推廣能力更優。為了獲得定位更準確的檢測框,提出一種新的重框處理機制,機制中對候選區域精確定位框進行概率加權合并。實驗結果表明,相同測試條件下,融合兩個改進方法相比FastR-CNN算法性能提升了5.06個百分點,在國際上廣泛使用的行人檢測公共測試數據集ETH上取得了40.01%的結果。但是本文針對離散數據平滑處理的方法和精確定位重框處理機制的初步探索,仍然存在一些不足,如何使結果檢測框定位更準、效率更高將是下一步工作的研究方向。

)

[1]CAIZ,SABERIANM,VASCONCELOSN.Learningcomplexity-awarecascadesfordeeppedestriandetection[C]//Proceedingsofthe2015IEEEInternationalConferenceonComputerVision.Washington,DC:IEEEComputerSociety, 2015: 3361-3369.

[2]ORENM,PAPAGEORGIOUC,SINHAP,etal.Pedestriandetectionusingwavelettemplates[C]//Proceedingsofthe1997IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 1997: 193-199.

[3]HOSANGJ,BENENSONR,DOLLARP,etal.Whatmakesforeffectivedetectionproposals[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2016, 38(4): 814-830.

[4]MAJIS,BERGAC,MALIKJ.Classificationusingintersectionkernelsupportvectormachinesisefficient[C]//CVPR2008:Proceedingsofthe2008IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2008: 1-8.

[5]BREIMANL.Randomforests[J].Machinelearning, 2001, 45(1): 5-32.

[6]FREUNDY,SCHAPIRERE.Adecision-theoreticgeneralizationofon-linelearningandanapplicationtoboosting[C]//EuroCOLT’95:Proceedingsofthe1995SecondEuropeanConferenceonComputationalLearningTheory,LNCS904.Berlin:Springer, 1995: 23-37.

[7]ZHANGS,BAUCKHAGEC,CREMERSAB.InformedHaar-likefeaturesimprovepedestriandetection[C]//Proceedingsofthe2014IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2014: 947-954.

[8]WUB,NEVATIAR.Detectionofmultiple,partiallyoccludedhumansinasingleimagebybayesiancombinationofedgeletpartdetectors[C]//ICCV’05:Proceedingsofthe2005TenthIEEEInternationalConferenceonComputerVision.Washington,DC:IEEEComputerSociety, 2005: 90-97.

[9]SABZMEYDANIP,MORIG.Detectingpedestriansbylearningshapeletfeatures[C]//Proceedingsofthe2007IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2007: 1-8.

[10]DALALN,TRIGGSB.Histogramsoforientedgradientsforhumandetection[C]//CVPR’05:Proceedingsofthe2005IEEEComputerSocietyConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2005: 886-893.

[11]LAMPERTCH,BLASCHKOMB,HOFMANNT.Beyondslidingwindows:objectlocalizationbyefficientsubwindowsearch[C]//CVPR’08:Proceedingsof2008IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2008: 1-8.

[12]PORIKLIF.Integralhistogram:afastwaytoextracthistogramsincartesianspaces[C]//CVPR’05:Proceedingsof2005IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2005: 829-836.

[13]WALKS,MAJERN,SCHINDLARK,elal.Newfeaturesandinsightsforpedestriandetection[C]//Proceedingsof2010IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2010: 1030-1037.

[14]TUZELO,PORIKLIF,MEERP.Pedestriandetectionviaclassificationonriemannianmanifolds[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2008, 30(10): 1713-1727.

[15]DOLLARP,TUZ,PERONAP,elal.Integralchannelfeatures[C]//Proceedingsofthe2009BritishMachineVisionConference.Durham,UK:BMVA, 2009: 91.1-91.11

[16]FELZENZWALBPF,GRISHICKRB,MCALLISTERD,etal.Objectdetectionwithdiscriminativelytrainedpart-basedmodels[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2010, 32(9): 1627-1645.

[17]LECUNY,BOSERB,DENKERJS,etal.Backpropagationappliedtohandwrittenzipcoderecognition[J].NeuralComputation, 1989, 1(4): 541-551.

[18]KRIZHEVSKYA,SUTSKEVERI,HINTONGE.ImageNetclassificationwithdeepconvolutionalneuralnetworks[C]//NIPS’12:Proceedingsofthe25thInternationalConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2012: 1097-1105.

[19]RUSSAKOVSKYO,DENGJ,SUH,elal.ImageNetlargescalevisualrecognitionchallenge[J].InternationalJournalofComputerVision, 2015, 115(3): 211-252.

[20]TIANYL,LUOP,WANGXG,etal.Pedestriandetectionaidedbydeeplearningsemantictasks[C]//Proceedingsofthe2015IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2015: 5079-5087.

[21]TIANYL,LUOP,WANGXG,etal.Deeplearningstrongpartsforpedestriandetection[C]//Proceedingsofthe2015IEEEInternationalConferenceonComputerVision.Washington,DC:IEEEComputerSociety, 2015: 1904-1912.

[22]GIRSHICKR,DONAHUEJ,DARRELLT,etal.Region-basedconvolutionalnetworksforaccurateobjectdetectionandsegmentation[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2016, 38(1): 142-158.

[23]EVERINGHAMM,VANGOOLL,WILLIAMSCKI,etal.Thepascalvisualobjectclasses(VOC)challenge[J].InternationalJournalofComputerVision, 2010, 88(2): 303-338.

[24]HEKM,ZHANGXY,RENSQ,etal.Spatialpyramidpoolingindeepconvolutionalnetworksforvisualrecognition[C]//Proceedingsofthe2014 13thEuropeanConferenceonComputerVision,LNCS8691.Berlin:Springer, 2014: 346-361.

[25]GRISHICKR.FastR-CNN[C]//Proceedingsof2015IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2015: 1440-1448.

[26]UIJLINGSJRR,VANDESANDEKEA,GEVERST,etal.Selectivesearchforobjectrecognition[J].InternationalJournalofComputerVision, 2013, 104(2): 154-171.

[27]ZITNICKCL,DOLLRP.Edgeboxes:locatingobjectproposalsfromedges[C]//ECCV2014:Proceedingsof2014 13thEuropeanConferenceonComputerVision,LNCS8693.Berlin:Springer, 2014: 391-405.

[28]SIMONYANK,ZISSERMANA.Verydeepconvolutionalnetworksforlarge-scaleimagerecognition[EB/OL]. [2016- 09- 14].http://www.philkr.net/CS395T/slides/w5_vgg.pdf.

[29]DOLLARP,WOJEKC,SCHIELEB,etal.Pedestriandetection:anevaluationofthestateoftheart[J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2012, 34(4): 743-761.

[30] 馮興輝,張旭,陳禮貴,等.直線特征測量數據的平滑去噪[J].機械制造,2015,53(4):71-72.(FENGXH,ZHANGX,CHENLG,etal.Smoothingdenoisingoflinearfeaturemeasurementdata[J].Machinery, 2015, 53(4): 71-72.)

[31] 劉遠社.傅里葉變換與測不準原理[J].西南民族大學學報(自然科學版),2003,29(5):567-569.(LIUYS.Fouriertransformanduncertaintyprinciple[J].JournalofSouthwestUniversityforNationalities(NaturalScienceEdition), 2003, 29(5): 567-569.)

[32]WOJEKC,WALKS,SCHIELEB.Multi-cueonboardpedestriandetection[C]//CVPR2009:Proceedingsofthe2009IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2009: 794-801.

[33]ESSA,LEIBEB,VANGOOLL.Depthandappearanceformobilesceneanalysis[C]//Proceedingsofthe2007IEEE11thInternationalConferenceonComputerVision.Piscataway,NJ:IEEE, 2007: 1-8.

[34]NAMW,DOLLRP,HANJH.Localdecorrelationforimprovedpedestriandetection[C]//Proceedingsofthe2014InternationalConferenceonNeuralInformationProcessingSystems.Cambridge,MA:MITPress, 2014: 424-432.

[35]BENENSONR,MATHIASM,TUYTELAARST,etal.Seekingthestrongestrigiddetector[C]//CVPR’13:Proceedingsofthe2013IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2013: 3666-3673.

[36]LUOP,TIANYL,WANGXG,etal.Switchabledeepnetworkforpedestriandetection[C]//Proceedingsofthe2014IEEEConferenceonComputerVisionandPatternRecognition.Washington,DC:IEEEComputerSociety, 2014: 899-906.

[37]PAISITKRIANGKRAIS,SHENCH,VANDENHENGELA.Strengtheningtheeffectivenessofpedestriandetectionwithspatiallypooledfeatures[C]//Proceedingsofthe2014EuropeanConferenceonComputerVision,LNCS8692.Berlin:Springer, 2014: 546-561.

ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61300163).

XU Chao, born in 1991, M. S. candidate. His research interests include pedestrian detection, convolutional neural network, object detection.

YAN Shengye, born in 1978, Ph. D., professor. His research interests include object detection and recognition, object tracking, feature point location.

Improved pedestrian detection method based on convolutional neural network

XU Chao1, YAN Shengye1,2*

(1.JiangsuKeyLaboratoryofBigDataAnalysisTechnology(NanjingUniversityofInformationScience&Technology),NanjingJiangsu210044,China; 2.CollaborativeInnovationCenterofAtmosphericEnvironmentandEquipmentTechnology,NanjingJiangsu210044,China)

In order to choose better model and acquire more accurate bounding-box when using the Convolutional Neural Network (CNN) in pedestrian detection, an improved pedestrian detection method based on CNN was proposed. The improvements include two aspects: how to determine the iterative learning number of training CNN samples and how to merge multiple responses of an object. Firstly, on the solution of the first improvement, multiple candidate CNN classifiers were learned from different training samples in different training iterations. And a new strategy was proposed to select the model with better generalization ability. Both the accuracy on the validation set and the stability of the accuracies during the iterative training procedure were considered by the proposed strategy. On the improvement of combining multiple responses, an enhanced refined bounding-box combination method was proposed which was different from the Non-Maximum Suppression (NMS) method. The coarse bounding-box of CNN detection procedure output was taken as the input for obtaining the one-to-one refined bounding-box. Then, the CNN accurate positioning process was used for each coarse bounding-box to get the corresponding refined bounding-box. Finally, the multiple refined bounding-boxes were merged by considering the correction probability of each bounding-box. Exactly, the final output bounding-box was obtained by the weighted average of multiple relevant refined bounding boxes with respect to their correction probabilities. To investigate the proposed two improvements, the comprehensive experiments were conducted on well-recognized pedestrian detection benchmark dataset — ETH. The experimental results show that, the two proposed improvements have effectively improved the detection performance of the system. Compared with the benchmark method of Fast Region proposals with CNN (R-CNN), the detection performance of the proposed method with the fusion of two improvements has greatly improved by 5.06 percentage points under the same test conditions.

deep learning; Convolutional Neural Network (CNN); image classification; pedestrian detection

2016- 10- 14;

2017- 01- 13。 基金項目:國家自然科學基金資助項目(61300163)。

徐超(1991—),男,江蘇鹽城人,碩士研究生,主要研究方向:行人檢測、卷積神經網絡、物體檢測; 閆勝業(1978—),男,河南新鄉人,教授,博士,主要研究方向:物體檢測與識別、物體跟蹤、特征點定位。

1001- 9081(2017)06- 1708- 08

10.11772/j.issn.1001- 9081.2017.06.1708

TP391.41

A

猜你喜歡
實驗檢測模型
一半模型
記一次有趣的實驗
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 国产精品30p| 国产精品免费p区| 99视频在线观看免费| 另类专区亚洲| 国产成人永久免费视频| 久草视频精品| 国产成人亚洲无码淙合青草| 欧美一区二区人人喊爽| 国产白浆在线| 日本人又色又爽的视频| 她的性爱视频| 波多野结衣第一页| 亚洲va视频| 国产乱人伦AV在线A| 色天堂无毒不卡| 国产精品黄色片| 欧美成人影院亚洲综合图| 二级特黄绝大片免费视频大片| 亚洲国产日韩在线成人蜜芽| 国产午夜福利亚洲第一| 一级香蕉视频在线观看| 亚洲精品自拍区在线观看| 亚洲欧洲综合| 91久草视频| 91麻豆精品视频| 色综合天天视频在线观看| 亚洲女同欧美在线| 亚洲有码在线播放| 高清无码一本到东京热| 亚洲成aⅴ人在线观看| 亚洲国语自产一区第二页| 国产精品一区不卡| 亚洲高清中文字幕在线看不卡| 91欧美在线| 91年精品国产福利线观看久久| 日韩少妇激情一区二区| 亚洲天天更新| 亚洲精品在线观看91| 日韩在线欧美在线| 中文字幕人妻无码系列第三区| 999精品视频在线| 国产精品太粉嫩高中在线观看| 99热国产这里只有精品9九| 激情视频综合网| 欧美精品成人一区二区视频一| 奇米影视狠狠精品7777| 亚洲精品动漫在线观看| 国产网友愉拍精品视频| 国产精品亚洲专区一区| 丝袜高跟美脚国产1区| 亚洲人视频在线观看| 在线观看亚洲天堂| 欧美一级99在线观看国产| 中文字幕无码中文字幕有码在线 | 亚洲va欧美va国产综合下载| www.国产福利| 香蕉久人久人青草青草| 色天天综合久久久久综合片| 国产真实乱子伦精品视手机观看| 亚洲AⅤ综合在线欧美一区| 日韩成人在线一区二区| 久久精品91麻豆| 99这里只有精品免费视频| 亚洲天堂免费在线视频| 少妇露出福利视频| 久久国产拍爱| 无码视频国产精品一区二区| 伊人久久福利中文字幕| 91无码视频在线观看| 国产精品流白浆在线观看| 久久这里只有精品66| 国产精品任我爽爆在线播放6080| 天堂av综合网| 日韩成人免费网站| 亚洲男女在线| 专干老肥熟女视频网站| 亚洲国产日韩在线成人蜜芽| 高h视频在线| 99无码中文字幕视频| 欧美日韩成人| 婷婷成人综合| 国产第三区|