999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

遺漏負樣本挖掘的行人檢測方法?

2019-02-27 08:32:10劉芷含李旻先趙春霞
計算機與數字工程 2019年2期
關鍵詞:檢測方法

劉芷含 李旻先 趙春霞

(南京理工大學計算機科學與工程學院 南京 210094)

行人檢測[1~3]作為自動駕駛、智能監控等實際應用的主要部分,吸引了不少學者的關注。近年來,卷積神經網絡(CNN)在計算機視覺和模式識別方面表現出了強大的能力。許多基于CNN的物體檢測方法已經被提出,這促進了行人檢測的學術研究和應用進展。

基于CNN的物體檢測方法可分為兩大類。第一類是兩個階段的R-CNN型。這些方法在第一階段提出合理的區域候選框,然后在第二階段進行細化。另一類方法旨在消除候選區域階段,直接訓練一個端到端的分類器[4]。第二種方法通常更容易訓練,計算效率更高,但第一類方法在性能上往往更有利。

Faster R-CNN[5]框架屬于第一類方法。它主要由兩個模塊組成:RPN和Fast R-CNN[6]。其中,RPN是用于提取候選框的模塊,它改善了過去提取候選框的方法,大幅度減少候選框的數量、提高了整體物體檢測的準確性。Fast R-CNN檢測并識別RPN提出的候選框。同時,該框架依靠4步交替訓練算法,將獨立存在的RPN網絡和Fast R-CNN網絡通過共享卷積層實現了端到端。端到端可訓練的Faster R-CNN網絡更快更強大。

視頻條件下的應用場景與自然圖像差異很大,照明條件、目標大小、尺度、拍攝角度等因素導致檢測結果差。可靠地檢測出視頻幀中的行人需要各種信息,包括行人的細粒度細節及其周圍的上下文[7]。每一張視頻幀中除了目標,大多數區域是背景,并且背景中極有可能存在卷積特征與正樣本相似的難分負樣本。Faster R-CNN僅使用真值候選框(Ground Truth,GT)周圍的信息。因此,視頻條件下分類器效果不好,這更有可能產生誤檢。我們將產生誤檢的原因分為兩類,第一類是將非行人的物體檢測為行人,第二類是由于檢測框不準確,不滿足正檢設定的條件。

行人檢測結果不僅受到行人特征[8]和分類器的影響,訓練樣本也會產生影響。第一種誤檢產生的原因主要是負樣本不充分,沒有考慮到背景中有代表性的負樣本,我們稱這種樣本為被遺漏的負樣本。利用候選框的置信度,在丟棄的候選框中找到被遺漏的負樣本,來改進Faster R-CNN的樣本生成算法。這種方法不僅充實了負樣本,而且利用被忽略的背景信息。進行檢測時,發現第一類誤檢明顯減少。

2 相關工作

挖掘難負示例的方法是為分類器挖掘更具代表性的樣品。我們的方法是它的一個分支,是利用置信度挖掘對分類器有影響的被遺漏的負樣本,從而增加其“判斷力”。

2.1 Bootstrapping

物體檢測和圖像分類是計算機視覺的兩個基本任務[9]。檢測器通常通過將物體檢測轉換為分類問題來簡化訓練[10]。這種轉換為圖像分類任務引入了新的挑戰:訓練集正樣本數量和負樣本數量不平衡[11]。訓練分類器時,負樣本中通常含有一些簡單的樣本,因此整體的復雜性難以保證,并且整體已知的信息也不能被有效地利用。這就迫切需要新方法來去除一些容易區分的樣品類,并添加一些現有模型不能判斷的樣品類,進行新的訓練使得訓練過程更高效。

Bootstrapping方法的關鍵思想是將誤檢的示例加入到背景示例中,來逐漸增加背景示例。該策略導致迭代訓練算法。該算法開始于一組初始訓練集,不斷更新檢測模型以找到新的誤檢樣本添加到訓練集中。該過程的初始訓練集包含所有被標記的正樣本和隨機生成的負樣本。

Bootstrapping方法已被廣泛應用于物體檢測。Dalal等[12]將這種方法用于訓練行人檢測的支持向量機(Support Vector Machine,SVM)。Felzenszwalb和Girshick[13]提出了一種間隔敏感方法來挖掘難負樣本,并證明該方法收斂于整個數據集的全局最優解。他們的算法通常被稱為挖掘難負示例方法。物體檢測[14~16]經常使用該算法來訓練SVM,從而解決了訓練樣本過多的問題。Bootstrapping在現代檢測方法中也很受歡迎,如R-CNN[14]和SPP-NET[15]。

一些現代方法將生成負樣本時較低的閾值作為挖掘難負示例方法的啟發式,其認為與GT有一些重疊的候選框更可能是難分樣本[6]。這種啟發式有助于收斂和檢測精度,且實現簡單。由于使用端到端的訓練策略而沒有使用挖掘難負示例方法,Fast R-CNN和Faster R-CNN需要這種啟發式來改進檢測效果。因此,這些方法引入了一些新的問題,即一些難分樣本被忽略,影響分類器的分類效果。

2.2 在線難樣本挖掘(Online Hard Example Mining,OHEM)

當采用挖掘難負示例方法訓練分類器時,選擇負樣本的閾值范圍太小或太大將產生不同的問題。另外,生成正負樣本時要控制正負樣本的比例,例如Fast RCNN正負樣本的比例設置為1∶3。Abhinav Shrivastava等[11]基于Fast R-CNN針對上述問題,提出了在線挖掘難負示例方法(Online Hard Example Mining,OHEM)方法。該方法對隨機梯度下降(Stochastic Gradient Descent,SGD)算法進行了簡單的修改,即在Fast RCNN使用SDG算法在線訓練時將交替的步驟與其結合。每個SGD迭代包含的樣本雖然比較少,但每個樣本圖包含數以千個感興趣區域(Regions of Interest,ROI),可以從中篩選難分負樣本來更新后向傳播中模型的權重。這個過程僅僅將模型固定在一個小批量中,訓練過程沒有延遲。

這是Bootstrapping算法在深度學習中的完美“嵌入”。使用全部ROI更新權重會帶來時間消耗,并且在使用全部ROI時,權重的更新仍然集中在難分樣本上。其關鍵思想是使用網絡訓練損失來找到那些代表性的負樣本,使分類器訓練效果更好。該方法還表明,將產生負樣本的閾值限制在某個閾值范圍內并不是最優的。

Minne Li和Zhaoning Zhang等[17]發現OHEM在所有類型任務的損失中使用相同權重來設置多任務損失,并忽略訓練期間不同損失分布的影響,因此他們提出了分層在線挖掘難負示例(Stratified Online Hard Example Mining,S-OHEM)算法,該方法根據損失分布對訓練數據進行采樣提供給反向傳播過程。

3 改進的樣本生成算法

Faster R-CNN不僅使用非極大值抑制方法,而且在執行檢測時使用分類得分來去掉冗余框。例如,Faster R-CNN定義了一個閾值為0.6,以去除得分小于0.6的冗余框。我們發現,當產生第一種誤檢時,不管目標周圍有多少個候選框,非極大值抑制方法最終會留下至少一個具有較高分數的候選框,該候選框的分數可能高于閾值。然后將作為最終結果輸出。如果增加閾值,則會導致許多正確的檢測框被抑制,特別是遠處或被遮擋嚴重的小目標。這將減少召回,因此更改閾值不是最佳的。

我們知道候選框的分類得分表示該候選框是行人的概率。當生成第一種誤檢時,分類器“認為”該候選框中的目標是行人。分類器基于現有的學習經驗來判斷,并沒有在學習過程中學習到這種情況。所以我們認為當為分類器生成樣本時,遺漏了一些具有代表性的負樣本。為了解決這個問題,我們重新審視了Fast R-CNN的樣本生成算法。Fast R-CNN優化圖像的所有錨點,并使用非極大值抑制方法來移除重疊區域。這樣可以去除類似的樣本并減少樣本數量,剩下的樣本更可能是難分樣本。選擇前2000個候選框以生成Fast R-CNN的正負樣本。具體過程如下:對每個GT,與其重疊比例最大的候選框記為前景樣本;剩下的候選框中,如果其與某個GT的重疊比例大于T1,記為前景樣本;如果其與任意一個GT的重疊比例大于T2并小于T1,記為背景樣本;其余的候選框,棄去不用。

Faster R-CNN在GT周圍產生樣本。對于圖像而言,局部區域包含有限的信息,這往往會導致分類錯誤。鑒于上述問題,我們提出了第一個假設,即在負樣本中隨機加入少量不重疊或重疊率小的背景信息。定義Faster R-CNN丟棄的候選框為B={b1,…,bN},N是候選框的數量,random(?)是隨機采樣函數,n是隨機選擇的樣本數。對于第i個候選框,我們使用以下規則來定義:

其中,Label(i)∈{-1,0},Label()i=-1表示標記的候選框將被丟棄,Label(i)=0表示標記的候選框將被添加到負樣本中。在Faster R-CNN的訓練過程中,對于每個圖像,總樣本數和比例是固定的。所以這可以充分利用目標周圍的背景信息,也不會增加計算量。但這違反了挖掘難負示例方法的本質,也找不到最好的n。

圖1 樣本生成算法的體系結構

樣本生成算法不僅要充分利用目標的背景信息,還要滿足挖掘難負示例方法的要求。我們定義的負樣本符合上述要求,不僅是背景信息,又是有代表性的負樣本。根據Faster R-CNN樣本生成算法,發現丟棄的候選框中存在大量的背景信息,需要從中找出遺漏的負樣本,因此提出了一種新的樣本生成算法。使用預訓練模型來判斷棄去不用的候選框以找到可能被分類器“識別”為目標的候選框,并讓分類器“知道”這些候選框不是目標。定義規則如下:

其中,bi是Faster R-CNN丟棄的第i個候選框,Score()·表示候選框的分類得分,T是閾值。設置閾值T來篩選遺漏的負樣本,這不僅確保了篩選出的負樣本數量,而且確保所選區域是難分樣本。圖1是我們方法的正式描述,箭頭的方向表示執行的順序,虛線框中的步驟是我們的方法。RPN網絡的輸出用于預分類器生成分類得分,并根據分類得分(如虛線框所示)為Faster R-CNN選擇遺漏的負樣本。其中,綠色框表示正樣本,紅色框表示負樣本,橙色框表示遺漏的負樣本,藍色框表示GT。從圖1可以看出,原始方法僅考慮每個候選框與GT的最大重疊率,即位置信息。我們的方法不僅考慮了位置信息,還考慮了分類器的分類效應,發現分類器的不足,改變它的不足。

我們的方法產生效果的條件有三個:首先,Faster R-CNN有一個具有一定分類能力的預訓練模型,我們使用預訓練模型來獲得候選框的分數。這并不需要多次迭代。文獻[18]中的做法是首先在原始訓練集上學習得到新的誤檢樣本,然后將誤檢樣本添加到訓練集中以重新訓練,不停迭代以滿足要求。其次,在對模型進行訓練的同時,加入了有代表性的難分負面樣本,前景樣本與背景樣本的比例依然保持1∶3。迭代訓練時可以確保背景樣本中的難分樣本被選中用于訓練。最后,由于Faster R-CNN網絡的4步交替算法,第二步中的優化結果將在第三步中產生優化,并作用于第四步。而第四步再次利用我們的方法來進一步提高分類器的能力。

4 實驗

4.1 數據集

我們對三個數據集進行了全面評估:INRIA[11],PKU-SVD-B和Caltech行人數據庫[19]。默認情況下,交并比閾值(Intersection-over-Union,IoU)為0.5,用于確定這些數據庫中的正檢。對于ImageNet預先訓練的網絡,我們在PKU-SVD-B,INRIA數據庫上使用具有五個卷積層和三個全連接層的ZF網絡[20],在Caltech數據庫上使用具有十三個卷積層和三個全連接層的VGG網絡[21]。

INRIA該數據庫的原始圖片來自GRAZ-01數據庫和網絡上的一些圖片。這些照片中的行人姿態和照明條件比較全面,適合做行人檢測。我們的方法使用INRIA訓練集的614個正樣本來對INRIA測試集進行訓練和測試,其中包括743個測試圖像。

PKU-SVD-B該數據庫由北京大學視頻編解碼技術國家工程實驗室聯合北京大學保衛部建立并整理,主要用于全國研究生智慧城市技術與創意設計大賽“視頻分析技術挑戰賽”。其來自北京大學校園內20個攝像頭的監控視頻,分辨率為1080p。選用PKU-SVD-B數據庫中的行人數據,包括3200個訓練圖像和5711個測試圖像。

Caltech-USA該數據庫是目前應用較廣泛的行人數據庫,其采用車載攝像頭拍攝,大約10h,視頻的分辨率為640×480,30幀/秒。訓練集有42782張圖像,測試集中的4024張圖像用于評估“合理”設置(行人至少高50像素,至少65%可見)下的原始標注。

4.2 實驗結果及分析

在本文中,使用召回率,精度率和F1測度作為評估指標。F1測度綜合考慮召回率和精確率,是兩者的調和均值,以對測試算法的分類性能進行更合理的評估[22]。為了進一步評估我們的方法,繪制MR-FPPI曲線(Miss Rate-False Positives per Image),以獲得獲取每幅圖像誤檢數在[10-2,100]范圍內的對數平均誤差率。

首先在公共靜態數據庫上使用我們的方法來展示其優越性。在實際應用中,行人檢測主要檢測視頻中的非靜態行人。在視頻條件下,行人很容易與背景混合;行人會有各種各樣的姿勢,如行走,站立或不可預測的改變運動方向;天氣等外部因素將對行人的背景也會產生不同的影響。為了進一步驗證我們的方法,在更復雜的視頻條件下進行了實驗。

分別對INRIA,PKU-SVD-B和Caltech數據庫進行訓練,分別對其測試集進行測試。設置閾值T為0.7以選擇難分樣本。召回率,精確率和F1測度3個評價指標上的對比結果如表1所示。

表1 不同測試集上的檢測結果

INRIA結果從表1可以看出,INRIA數據集中的誤檢率很高,這導致其精度不高,只有79.7%。我們的方法提高了分類器的效率,將精度提高到91.2%。雖然召回率略有下降,但召回率和準確率更為均衡。圖2是其對應的MR-FPPI曲線,我們的方法將性能下降了2.2%(從10.3%MR到8.1%MR)。

圖2 INRIA測試集的MR-FPPI曲線

PKU_SVD_B結果為了進一步驗證我們方法的優越性,在視頻條件下進行實驗。PKU_SVD_B數據中的目標相對較大,背景復雜度較Caltech數據集偏低。召回率,精確率和F1測度結果如表1所示。在PKU-SVD-B數據集上的召回率沒有變化,精度提高了9.7%,F1測度提高了4.9%。MR-FPPI曲線如圖3所示,MR值降低1.2%。

圖3 PKU_SVD_B測試集的MR-FPPI曲線

Caltech結果Caltech數據集的行人更小更復雜,導致誤檢的可能性很高。從表1可以看出,其精確率非常低(24.5%),但是召回率較高,這主要是因為有很多誤檢。我們的方法大大減少了誤檢,將精度提高到37.2%。圖4中,MR值下降了20.8%(從42.65%MR到21.85%MR),這表明我們的方法提高了分類器的性能。

圖4 Caltech測試集的MR-FPPI曲線

我們認為,如果圖像的目標區域相對較大,導致第一種誤檢的概率較低。但在視頻條件下,背景區域遠遠大于目標,并且背景更復雜,這就產生了大量的誤檢,降低了檢測效率。我們的方法可以選擇少量遺漏的負樣本來減少誤檢。因此,在視頻條件下的數據集上產生的影響比靜態數據集上更為明顯。

4.3 閾值T的分析

我們的方法涉及一個參數T,其用于在棄之不用的候選框中選擇遺漏的負樣本。閾值T的選擇決定了分類效果。閾值T太小,將增加無用的候選框并增加計算成本;閾值T太大,無法挖掘出足夠有代表性的負樣本。我們在0.4~0.8的范圍內改變閾值T,并檢測分類器的性能。為了使我們的結果更有說服力,我們訓練PKU-SVD-B數據庫的訓練集,并對測試集進行測試。如圖5所示,分別對召回率,精確率和F1測度進行分析。

從圖5可以看出,當閾值T增大時,精確率升高(忽略第一個精確率的值),到達0.7時達到一個較高的范圍,然后降低。隨著閾值T增加時,召回率幾乎是恒定的。綜合考慮到召回率和精確率,我們發現隨著T的增加,F1測量值增加然后減小。當T=0.7時,F1測量最大,同時精度也在較高的范圍內。因此,我們將T設置為0.7來為Faster R-CNN選擇難分負樣本。

圖5 不同閾值T的性能分析

5 結語

我們提出一種新的方法為行人檢測生成樣本,該方法利用候選框的周圍信息和置信度。我們不僅對靜態數據集進行了實驗,還在視頻條件下進行了實驗,以進一步驗證我們方法的有效性。實驗說明我們的方法更適合于復雜的背景視頻條件。未來的工作可以通過網絡模型的自學習產生有代表性的負樣本。通過使用候選框之間的重疊來判斷正負樣本并不是最理想的方案。

猜你喜歡
檢測方法
“不等式”檢測題
“一元一次不等式”檢測題
“一元一次不等式組”檢測題
“幾何圖形”檢測題
“角”檢測題
學習方法
小波變換在PCB缺陷檢測中的應用
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
主站蜘蛛池模板: 亚洲成网站| 午夜三级在线| AⅤ色综合久久天堂AV色综合| 亚洲人成人无码www| 91午夜福利在线观看| 亚洲无码四虎黄色网站| 91小视频在线播放| 热re99久久精品国99热| 青青极品在线| 亚洲天堂免费在线视频| 中文字幕佐山爱一区二区免费| 久精品色妇丰满人妻| 国国产a国产片免费麻豆| 8090午夜无码专区| 精品午夜国产福利观看| 免费观看无遮挡www的小视频| 中文字幕人成人乱码亚洲电影| 亚洲午夜综合网| 日韩性网站| 国产综合网站| 91免费国产在线观看尤物| 精品福利视频导航| 亚洲人视频在线观看| 欧美精品在线看| 五月婷婷综合网| 精品国产成人a在线观看| 亚洲伊人久久精品影院| 国产精女同一区二区三区久| 麻豆精品在线| 久久精品国产免费观看频道| 欧美天堂久久| 福利小视频在线播放| 毛片大全免费观看| 一级成人欧美一区在线观看| 视频一区视频二区日韩专区| 亚洲天堂首页| 国产成人综合亚洲网址| 国产小视频免费| 亚洲毛片网站| 黄色网站不卡无码| 亚洲欧美自拍中文| 午夜免费小视频| 国产一区二区三区在线观看免费| 日韩人妻少妇一区二区| 国产精品主播| 久久综合色88| 老色鬼欧美精品| 精品福利网| 久久综合色天堂av| 2024av在线无码中文最新| 国产精品成人一区二区不卡| 国产一区在线观看无码| 久久精品波多野结衣| av一区二区三区在线观看| 国产一区二区免费播放| 午夜国产在线观看| 亚洲日韩日本中文在线| 国产无码高清视频不卡| 91精品啪在线观看国产91| 国产精品男人的天堂| 国产精品手机视频| 亚洲日韩在线满18点击进入| 亚洲天堂自拍| 日本少妇又色又爽又高潮| 成人中文在线| 一区二区在线视频免费观看| 国产91线观看| 久久黄色一级视频| 国产无码精品在线播放| 91麻豆精品国产91久久久久| 亚洲熟女中文字幕男人总站| 亚洲国产亚综合在线区| 中文字幕在线不卡视频| 黄色网在线免费观看| 国产精品蜜臀| 国产成+人+综合+亚洲欧美| 亚洲AV无码久久天堂| 一级片一区| 91亚洲视频下载| 欧洲一区二区三区无码| 天天婬欲婬香婬色婬视频播放| 日本国产精品一区久久久|