999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度卷積網絡的目標檢測技術綜述

2018-08-18 08:23:26胡金辰王雨晨蔣江紅張鍥石
數字技術與應用 2018年4期
關鍵詞:深度學習

胡金辰 王雨晨 蔣江紅 張鍥石

摘要:目前,基于計算機視覺分析的目標檢測技術已被廣泛研究并應用在眾多學科領域中。本文從卷積神經網絡結構(CNN)演化的角度,對基于深度卷積網絡的目標檢測技術進行分析、比較和總結。首先簡要介紹了基于CNN的目標檢測技術流程;其次重點分析和比較了以CNN為基礎的基于深度卷積網絡模型的目標檢測技術的發展,針對不同選擇的預處理方法進行分類、縱向和橫向對比;最后總結了目前研究中存在的問題,并對目標檢測技術未來發展進行了展望。

關鍵詞:目標檢測;卷積神經網絡;深度學習

中圖分類號:TP391 文獻標識碼:A 文章編號:1007-9416(2018)04-0097-02

目標檢測技術是通過目標特征提取、分割等技術來確定圖像中目標物體具體位置的技術,隨著目標檢測技術的不斷發展,其內涵和范疇也在不斷豐富拓展。目前,針對目標檢測技術的研究引起了持續而普遍的關注,已成為計算機視覺領域中的研究熱點和難點。深度神經網絡模型通過模擬人腦的視覺感知系統,從輸入圖片中提取邊緣特征,并將邊緣特征逐層向上抽象傳遞,以此獲得更高級的特征。隨著深度神經網絡日趨火熱,深度學習模型也被廣泛應用于圖像識別領域,如目標分割、識別和檢測等問題。隨著模型的改進和算法的發展,基于卷積神經網絡(Convolutional Neural Network,CNN)的目標檢測技術突破了傳統算法的瓶頸,準確度和效率大幅提升,成為當前的主流算法。

1 基于卷積神經網絡的目標檢測系統技術流程

目標檢測主要分為兩個步驟:目標分類和目標定位,分類主要用于判斷出輸入圖像中具有所需特征的物體,定位則是對目標物體確定位置和范圍,這兩個步驟保證了系統目標識別的準確性和實時性。不同于傳統的手動特征提取,深度卷積網絡提供了一種端到端的學習模型,模型中的參數可以通過梯度下降方法進行訓練,使網絡模型能夠自主學習圖像特征,完成對圖像特征的提取和分類。在CNN的卷積層中,一個神經元只與部分鄰層神經元連接。基于深度神經網絡的目標檢測系統在設計過程中,主要涉及到三個流程:圖像選擇性預處理、基于CNN的圖像特征提取及候選框優化、特征分類。圖像選擇性預處理主要分為候選區域搜索和回歸兩種方法,經過CNN提取圖像目標特征后,又依據第一步預處理方法的不同,特征分類又分為分類器分類以及直接計算類別概率兩種方法。圖1為基于深度卷積網絡的目標檢測系統技術流程圖。

2 基于卷積神經網絡的目標檢測技術發展

現代第一個結構較為完整的CNN是由加拿大多倫多大學LeCun 教授提出的LeNet[1]網絡,該模型使用ReLU代替了傳統的激活函數,另外使用可疊加的池化層以及Dropout減小過擬合,LeNet-5在手寫字符識別領域的成功應用引起了學術界對于CNN的關注;隨后,Geoffrey和他學生Alex利用AlexNet[2]在ImageNet的競賽中一舉奪冠,在top-5錯誤率上達到歷史性突破;2014年,Andrew Zisserman等人提出的VGG-Net[3]在ILSVRC localization的問題上獲得第一名; GoogLeNET[4]為了解決網絡中巨量參數過擬合問題和減小計算量,將全連接以及一般的卷積層轉為稀疏連接,保證了網絡結構的稀疏性和密集矩陣的高計算性能。CNN通過卷積運算使得計算機能夠自動從圖像中提取目標特征,這使得網絡獲得的特征更自然,并且通用性好,對一定程度的扭曲形變有良好的魯棒性。隨著卷積神經網絡技術的發展及在目標檢測領域的應用廣泛,很多基于加深網絡模型的層數、增強卷積模的計算功能等算法思路的改進,許多優秀的網絡模型也不斷涌現。表1是基于Region Proposal和Bounding Boxes方法下的深度卷積網絡在目標檢測方面的性能對比。

2.1 基于Region Proposal的方法

2.1.1 RCNN

目標檢測的思路通常是采用滑動窗口檢測器,通過所有的滑動窗口提取特征,再傳送至分類器,但這種方法存在極大的計算復雜度挑戰。Region CNN(RCNN)[5]利用微調后的訓練分類模型,使用Region Proposals的理念,修正圖像中提取的候選框,使其達到適合CNN的輸入,再利用回歸器優化候選框,在VOC2007上取得了顯著的效果。RCNN借助CNN良好的特征提取和分類性能,通過Region Proposal方法對候選區域進行特征提取,降低了傳統滑動窗口方法的算法復雜度,大幅提高檢測率。

2.1.2 SPP-NET

SPP-Net[6]在RCNN的基礎上做了實質性的改進。通過采用空間金字塔池化替換了全連接層之前的最后一個池化層,有效解決了RCNN的重復提取特征的計算問題,突破了速度瓶頸。SPP-Net在設計上借助分塊兼容特征的思路,在固定輸入的全連接層前,接入網絡層,拼接特征解決CNN需要的固定輸入問題,然而SPP-Net仍然存在訓練多階段和花費大的問題。

2.1.3 Fast-RCNN

Fast-RCNN[7]借鑒SPP思路,提出基于感興趣區域分割的池化層映射的特征向量,使得圖像的各區域均可提取固定維數的特征,有效解決SPP-Net存在的整體網絡訓練問題。Fast-RCNN通過建立用多任務模型,使用神經網絡來進行分類操作,實現實時的端到端聯合訓練。同時,Fast-RCNN利用網絡末端同步訓練提高準確度,然而在分類步驟的性能提升方面并沒有顯著的表現。

2.1.4 Faster-RCNN

Faster-RCNN[8]在Fast-RCNN的基礎上,添加區域建議網絡(Region Proposal Network, RPN),將候選框提取合并到深度神經網絡中,通過交替訓練建立統一的深度神經網絡框架,減少重復計算,大大提高運行速度,幾乎達到了效果上的最優。Faster RCNN 的提出已有兩年多時間,但引入的RPN實現了端到端的訓練,生成了高質量的區域建議框,使得該框架仍舊是行人檢測領域的主流框架之一。

2.2 基于Bounding Boxes的方法

2.2.1 YOLO

YOLO[9]的思想是采用單個神經網絡直接對整張輸入圖像作為輸入進行訓練,更加快速地區分背景區域和目標,它不同于2.1中生成候選區域的中間步驟,能夠更加簡單、快速地對目標物體進行實時監測。該方法將輸入圖像分成 S×S大小的網格,每一個網格單元預測邊界框和這些邊界框的可信度。YOLO從本質上解決了目標檢測領的實時性問題,真正實現“端到端”的CNN結構。

2.2.2 SSD

SSD[10]改進了YOLO目標位置準確性比較差的問題,并基于Faster-RCNN中的Anchor機制,在識別階段,該方法通過整張圖像的輸入選定若干個邊界框的位置信息和類別信息,并在特征圖像中使用幾種不同尺度形狀的邊界框對目標物體進行預測。在測試階段,該網絡對每每邊界框中各個類別的物體存在可能性進行預測,并且通過對邊界框的調整以適應目標物體的形狀,最后經過非極大抑制(NMS, Non Maximum Suppression)的方法篩選得到最終的檢測結果。

3 目標檢測數據庫

近年來,有關目標檢測的研究不僅提出了大量算法模型,而且也收集了很多用于訓練、測試網絡模型的數據庫。圖像數據庫是一種通過有效標注及精準分類完成的寶貴資源,權威的數據集為模型的建立和完善打下了堅實的基礎。以下列出了目前研究中常用的目標檢測數據庫,并對每個數據庫進行簡要說明:

(1)PASCAL VOC[11]:2005年由Everingham等人建立,作為一個供機器識別和訓練的大型圖片數據庫,共包含20個大類別,每類圖片數量在一千至一萬張不等。(2)LableMe[12]:2008年由Russell等人收集而成的物體及場景識別數據集,原始數據集包含至少183個類別、3萬幅圖像、11萬個標記對象,對于監督學習和定量分析有巨大的幫助。(3)ImageNet[13]:由Li Fei-Fei及其團隊于2012年為了讓機器學習避免過擬合并盡量滿足更多實例,構建的一個視覺信息復雜、模型趨于高維、并配以大量參數的數據集。(4)Caltech[14]行人數據集:由總共約10小時的640×480 30Hz視頻組成,該系列視頻是在城市環境中通過常規交通工具拍攝的。其中包含大約25萬幀(約137分鐘長的片段)的35萬個邊框和2300個姿態各異的行人。(5)INRIA[15]行人數據集:在2005年由Navneet Dalal等人提出,用于檢測圖像和視頻中行人。數據集主要包含GRAZ 01數據集的圖像與相應的注釋文件、標準化64×128像素的正樣本圖像兩種格式,原始的正面高分辨率圖像可以突出人物。

4 結語

傳統的目標檢測任務主要通過不同尺度的滑動窗口提取特征模型,在建立特征模型后通過SVM或者Adaboost進行分類任務,最終得到目標結果。但是由于傳統特征模型的局限性,近年來,通過CNN與目標檢測技術的結合得到的特征信息,在精準度和測試速度上都獲得了極大突破。盡管基于卷積神經網絡方面的研究已經取得了一些成功,但是距離廣泛實際應用還有一段距離。基于CNN的目標檢測是當今形勢下一個具有挑戰性的課題,有十分重要的研究意義和應用價值。隨著大數據和人工智能時代的到來,有理由相信,在未來的目標檢測問題中,如果將現有的網絡模型多層特征表示融合優化,更好地解決在復雜場景下的魯棒性和網絡計算復雜性的問題,那么基于深度卷積網絡的目標檢測技術將會得到更廣泛的實際應用。

參考文獻

[1]Y. Lecun, L. Bottou, Y. Bengio, and P. Haffner, “Gradient-based learning applied to document recognition”, Proceedings of the IEEE vol. 86, no. 11, pp. 2278-2324, 1998.

[2]A. Krizhevsky, I. Sutskever, and G. Hinton, “ImageNet classification with deep convolutional neural networks”, International Conference on Neural Information Processing Systems (NIPS), vol. 60, no. 2, pp. 1097-1105, 2012.

[3]K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” arXiv preprint: 1409.1556, 2014.

[4]C. Szegedy, W. Liu, and Y. Jia, “Going Deeper with Convolutions”, Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1-9, 2014.

[5]R. Girshick, J. Donahue, and T. Darrel, “Rich feature hierarchies for accurate object detection and semantic segmentation”, Conference on Computer Vision and Pattern Recognition (CVPR), pp.119-135, 2014.

[6]K. He, X. Zhang, and S. Ren, “Spatial pyramid pooling in deep convolutional networks for visual recognition”, European Conference on Computer Vision (ECCV), pp.346-361, 2014.

[7]R. Girshick, “Fast R-CNN”, arXiv1504.08083, 2015.

[8]S. Ren, K. He, and R. Girshick,“Faster R-CNN: towards real-time object detection with region proposal networks”, Advances in Neural Information Processing Systems (NIPS), pp.1137-1149, 2015.

[9]J. Rendmon, S. Divvala, and R. Girshick,“You only look once: unified, real-tme object detection”, arXiv: 1506.02640,2015.

[10]W. Liu, D. Anguelov, and D. Erhan, “SSD: single shot multibox detector”, European Conference on Computer Vision. Springer, Cham, pp.21-37.2016.

[11]M. Everingham, L. V. Gool, C. Williams, J. Winn, and A. Zisserman, “The pascal visual object classes challenge,” International Journal of Computer Vision (IJCV), vol. 88, no. 2, pp.303-338, 2010.

[12]B. Russell, A. Torralba, K. Murphy, and W. Freeman, “Labelme: a database and web-based tool for image annotation,” International Journal of Computer Vision (IJCV), vol. 77, no.1-3, pp. 157-173, 2008.

[13]J. Deng, W. Dong, R. Socher, L. J. Li, K. Li, and F. F.Li, “Imagenet: a large-scale hierarchical image database,” Conference on Computer Vision and Pattern Recognition (CVPR), pp. 248-255, 2009.

[14]N. Dalal, and B. Triggs, “Histogram of oriented gradients for human detection”, Conference on Computer Vision and Pattern Recognition (CVPR), pp. 886-893, 2005.

[15]P. Dollar, C. Wojek, and B. Schiele, “Pedestrian detection: An evaluation of the state of the art”, IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), vol. 24, no. 4, pp. 743-761, 2012.

猜你喜歡
深度學習
從合坐走向合學:淺議新學習模式的構建
面向大數據遠程開放實驗平臺構建研究
基于自動智能分類器的圖書館亂架圖書檢測
搭建深度學習的三級階梯
有體驗的學習才是有意義的學習
電子商務中基于深度學習的虛假交易識別研究
現代情報(2016年10期)2016-12-15 11:50:53
利用網絡技術促進學生深度學習的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉課堂融合的深度學習場域建構
大數據技術在反恐怖主義中的應用展望
深度學習算法應用于巖石圖像處理的可行性研究
軟件導刊(2016年9期)2016-11-07 22:20:49
主站蜘蛛池模板: av在线手机播放| 91无码人妻精品一区二区蜜桃| 99热这里只有精品5| 亚洲中文无码h在线观看| 日本不卡在线播放| 尤物特级无码毛片免费| 四虎综合网| 国产激情无码一区二区免费| 国内视频精品| 丁香六月激情婷婷| 亚洲无码高清视频在线观看| 成色7777精品在线| 中文字幕在线观| 成人在线亚洲| 欧美性色综合网| 九九九久久国产精品| 国产精品免费露脸视频| 亚洲第一黄片大全| 国产免费黄| 亚洲一级毛片在线观| 国产精品久久国产精麻豆99网站| 亚洲浓毛av| 就去色综合| 亚洲激情99| 亚洲一级毛片在线播放| 一本久道热中字伊人| 日本伊人色综合网| 欧美另类一区| 亚洲AV无码一二区三区在线播放| 91精品啪在线观看国产| 97在线视频免费观看| 国产精品毛片一区视频播| 激情视频综合网| 国产欧美日韩另类| 91黄视频在线观看| 国产成人久久综合777777麻豆| 三上悠亚在线精品二区| 久久久亚洲国产美女国产盗摄| 欧美激情视频二区| 99在线小视频| 色男人的天堂久久综合| 亚洲综合欧美在线一区在线播放| 国产一级无码不卡视频| 日韩在线欧美在线| 欧美在线国产| 高清无码不卡视频| 波多野结衣久久精品| 永久在线播放| 91视频免费观看网站| 精品国产欧美精品v| 亚洲αv毛片| 2020精品极品国产色在线观看 | 巨熟乳波霸若妻中文观看免费| 国产久操视频| 亚洲91精品视频| 久久永久免费人妻精品| 99在线视频免费观看| 波多野结衣无码AV在线| 国产精品微拍| 亚洲国产天堂久久综合| 热思思久久免费视频| 欧美啪啪一区| 亚洲视频免| 成人免费一级片| 国产精品欧美激情| 91麻豆久久久| 久久久久人妻一区精品| 成年女人a毛片免费视频| 色久综合在线| 热久久综合这里只有精品电影| 亚洲VA中文字幕| 一级毛片免费观看不卡视频| 亚洲成人一区二区三区| 欧洲亚洲一区| 制服丝袜在线视频香蕉| 91欧美亚洲国产五月天| 精品乱码久久久久久久| 国产91小视频在线观看| 久热re国产手机在线观看| 国产精品亚洲片在线va| 在线精品视频成人网| 国产福利影院在线观看|