基于深度學習的監(jiān)控視頻中多類別車輛檢測

2019-07-31 12:14:01徐子豪黃偉泉王胤

計算機應用 2019年3期

關(guān)鍵詞：深度學習

徐子豪黃偉泉王胤

摘要：針對傳統(tǒng)機器學習算法在交通監(jiān)控視頻的車輛檢測中易受視頻質(zhì)量、拍攝角度、天氣環(huán)境等客觀因素影響，預處理過程繁瑣、難以進行泛化、魯棒性差等問題，結(jié)合空洞卷積、特征金字塔、焦點損失，提出改進的更快的區(qū)域卷積神經(jīng)網(wǎng)絡（Faster R-CNN）和單階段多邊框檢測檢測器（SSD）兩種深度學習模型進行多類別車輛檢測。首先從監(jiān)控視頻中截取的不同時間的851張標注圖構(gòu)建數(shù)據(jù)集;然后在保證訓練策略相同的情況下，對兩種改進后的模型與原模型進行訓練;最后對每個模型的平均準確率進行評估。實驗結(jié)果表明，與原Faster R-CNN和SSD模型相比，改進后的Faster R-CNN和SSD模型的平均準確率分別提高了0.8個百分點和1.7個百分點，兩種深度學習方法較傳統(tǒng)方法更適應復雜情況下的車輛檢測任務，前者準確度較高、速度較慢，更適用于視頻離線處理，后者準確度較低、速度較快，更適用于視頻實時檢測。

關(guān)鍵詞：深度學習;車輛檢測;空洞卷積;特征金字塔;焦點損失

中圖分類號： TP301.6

文獻標志碼：A

文章編號：1001-9081（2019）03-0700-06

Abstract： Since performance of traditional machine learning methods of detecting vehicles in traffic surveillance video is influenced by objective factors such as video quality， shooting angle and weather， which results in complex preprocessing， hard generalization and poor robustness， combined with dilated convolution， feature pyramid and focal loss， two deep learning models which are improved Faster R-CNN （Faster Regions with Convolutional Neural Network） and SSD （Single Shot multibox Detector） model were proposed for vehicle detection. Firstly， a dataset was composed of 851 labeled images captured from the surveillance video at different time. Secondly， improved and original models were trained under same training strategies. Finally， average accuracy of each model were calculated to evaluate. Experimental results show that compared with original Faster R-CNN and SSD， the average accuracies of the improved models improve 0.8 percentage points and 1.7 percentage points respectively. Both deep learning methods are more suitable for vehicle detection in complicated situation than traditional methods. The former has higher accuracy and slower speed， which is more suitable for video off-line processing， while the latter has lower accuracy and higher speed， which is more suitable for video real-time detection.

Key words： deep learning; vehicle detection; dilated convolution; feature pyramid; focal loss

0 引言

隨著經(jīng)濟和城鎮(zhèn)化建設的快速發(fā)展，我國各城市的道路和車輛總量不斷增長，交管部門的管理壓力與日俱增。雖然高清監(jiān)控攝像頭已經(jīng)在絕大多數(shù)路口部署，但每日產(chǎn)生的視頻量也越來越龐大，通過人工進行視頻實時監(jiān)控或離線處理既費時又費力，而且容易延誤和遺漏，所以亟須尋找一種自動化方法輔助人工進行監(jiān)控處理，這也是智能交通系統(tǒng)的核心[1-4] 。

交通監(jiān)控視頻中蘊含豐富的信息，是智能交通監(jiān)控系統(tǒng)的重要數(shù)據(jù)來源。監(jiān)控視頻可以應用在車輛違法行為判斷、跨攝像頭車輛追蹤、分時段分車道車流量統(tǒng)計等實際場景，而車輛檢測則是車輛行為分析和智能交通監(jiān)控的重要基礎。

我國的相關(guān)管理部門一直在積極改進交通視頻監(jiān)控系統(tǒng)，但由于視頻監(jiān)控系統(tǒng)建設時間以及監(jiān)控需求不同，監(jiān)控視頻的分辨率、攝像角度、攝像方向都有很大差異，加之不同的時間、天氣，如：夜間車輛燈光、惡劣天氣的能見度、大風帶來的攝像頭抖動等因素都會嚴重影響視頻質(zhì)量。這些因素使得獲取到的視頻質(zhì)量良莠不齊，而傳統(tǒng)車輛檢測方法[5-9] 應對復雜場景往往表現(xiàn)較差，好的表現(xiàn)更依賴于好的視頻質(zhì)量和簡單場景，這是車輛檢測在實際應用上表現(xiàn)不佳的重要原因。

近幾年，深度學習方法在計算機視覺領(lǐng)域不斷取得突破[10]，一些基本任務也都有了優(yōu)秀的解決方案，基于深度學習的目標檢測算法也在眾多檢測算法中異軍突起，其準確率遠遠超過傳統(tǒng)檢測算法，魯棒性也更強。深度學習方法使用卷積神經(jīng)網(wǎng)絡（Convolutional Neural Network， CNN）擺脫了傳統(tǒng)機器學習方法預處理及構(gòu)造特征的繁瑣過程，同時大幅降低了因角度、遮擋等因素造成的誤檢和漏檢，對復雜場景的適應性更強。目前，深度學習的目標檢測方法主要分為以文獻[11]和文獻[12]為代表的單階段模型和以文獻[13]為代表的兩階段模型兩大類。

本文將更快的區(qū)域卷積神經(jīng)網(wǎng)絡（Faster Regions with CNN， Faster R-CNN）、單階段多邊框檢測檢測器（Single Shot multibox Detector， SSD）等深度學習的目標檢測模型引入到交通監(jiān)控視頻中進行多類別車輛檢測，并在基本模型基礎上嘗試使用更佳的骨干網(wǎng)絡作特征提取，同時融合進空洞卷積[14]、特征金字塔[15]、焦點損失函數(shù)[16]等對基礎網(wǎng)絡進行優(yōu)化。本文基于獲取的監(jiān)控視頻構(gòu)建了多類別車輛檢測數(shù)據(jù)集，并以此為基礎對不同模型的檢測效果、應用場景進行比較分析。實驗結(jié)果顯示經(jīng)過上述方法改進的模型效果好于基礎模型，單階段模型準確度較低，但速度較快，而兩階段模型準確度較高，速度較慢，所以對于在線監(jiān)控可以選擇速度更快的單階段模型，而離線處理可以選擇準確度更高的兩階段模型。

1 相關(guān)研究

視頻流的本質(zhì)是一幀幀圖像，而需要檢測的目標往往是視頻中運動的物體，所以一種簡單又實用的思路是利用視頻圖像中背景基本不動而前景持續(xù)運動的特點，通過比較幀間像素點強度的變化和相關(guān)性判斷運動區(qū)域，這個區(qū)域即為檢測的運動物體。應用這種思路并普遍使用的檢測方法有：幀差法[17]、光流法[18]等。這類方法雖然計算速度快，但沒有完整利用單幀圖像的整體信息，難以擴展到多類別檢測，準確率較低，魯棒性也較差。另一種研究思路[19]是將視頻流分成一幀幀圖像處理，將視頻中的目標檢測轉(zhuǎn)變成圖像中的目標檢測任務，這種思路雖然計算速度較慢，但充分利用了圖像信息，準確性更高，魯棒性更強，應用更廣。

1.1 傳統(tǒng)方法

在深度學習熱潮興起前，計算機視覺領(lǐng)域的研究者們通常使用傳統(tǒng)目標檢測算法完成這一任務。傳統(tǒng)方法的步驟主要分為三步：候選區(qū)域提取、區(qū)域特征提取、特征分類。因為傳統(tǒng)方法計算速度快，所以候選區(qū)域提取常采用貪心的滑動窗口策略，使用不同尺寸的滑動窗口對圖片進行逐行掃描，每個窗口區(qū)域使用人為劃定或特征提取算法進行特征提取，文獻[20-24]詳述了多種常用的特征提取算法。最后將特征向量送入預先訓練好的分類器進行分類，統(tǒng)計每個窗口的分類結(jié)果整合成最終的檢測結(jié)果。比較經(jīng)典并且推廣到實際應用中的算法有：文獻[25]進行的人臉識別，文獻[26]進行的行人重識別等，同樣類似的方法也曾被應用在視頻中的車輛檢測[27]。

1.2 深度學習方法

自從2012年文獻[28]提出深度學習分類模型開始，基于深度卷積神經(jīng)網(wǎng)絡的模型成為了圖像識別與檢測領(lǐng)域的首選之一。首先使用深度學習方法進行目標檢測并取得很大進展的方法是2013 年文獻[29]提出的OverFeat，該方法開始嘗試使用CNN提取圖片特征，利用多尺度滑動窗口算法進行檢測，取得了很好的效果。

2014年文獻[30]提出的區(qū)域卷積神經(jīng)網(wǎng)絡（Regions with CNN， R-CNN）完整地將CNN融合進目標檢測任務中，成為深度學習進行目標檢測的奠基之作。R-CNN利用文獻[31]提取約2000個候選框，每個候選框通過CNN進行特征提取，結(jié)合多個二分類支持向量機（Support Vector Machine， SVM）實現(xiàn)候選區(qū)域目標的多分類，最后利用非極大值抑制（Non-Maximum Suppression， NMS）算法和框回歸對候選框進行篩選融合和微調(diào)。R-CNN在檢測準確度上大大超過了傳統(tǒng)方法，但由于流程復雜，模型需要多階段訓練，預測一張圖速度過慢，這些因素導致R-CNN無法真正進行實際應用。2015年文獻[32]在R-CNN的基礎上主要針對候選框特征重復提取的問題進行改進，提出了Fast R-CNN，它在速度和精度上較R-CNN有了很大提升。Fast R-CNN只對圖片通過CNN進行一次前向運算提取特征，利用特征圖坐標對應關(guān)系將提取的2000個候選框映射到底層特征圖中，并且利用提出的感興趣區(qū)域（Regions of Interest， ROI）池化結(jié)構(gòu)有效解決了特征圖上不同尺寸的候選框需要縮放到同一尺寸的問題。這一操作減少了大量重復的運算，大大提高了檢測速度。同時，F(xiàn)ast R-CNN不再使用多個SVM進行分類，而是在特征向量后直接連接Softmax層和全連接層作框分類和框回歸，將分類損失和邊框回歸損失結(jié)合進行統(tǒng)一訓練，這一操作簡化了模型訓練流程，提高了訓練速度。在此之后，為了解決候選框提取這一時間瓶頸，在Fast R-CNN的主網(wǎng)絡中附加了區(qū)域候選網(wǎng)絡（Region Proposal Network， RPN）在高層特征圖上進行候選框提取，RPN的引入真正實現(xiàn)了一個網(wǎng)絡的端到端目標檢測，它在檢測速度上獲得了更進一步的提升，同時結(jié)合各種訓練策略，F(xiàn)aster R-CNN的檢測準確率在各大數(shù)據(jù)集上也取得了當時最高的結(jié)果。

上述系列方法進行目標檢測時雖然整合在一個網(wǎng)絡中實現(xiàn)了端到端訓練和預測，但網(wǎng)絡結(jié)構(gòu)實際是將區(qū)域提取和目標檢測分成兩階段進行計算，檢測速度經(jīng)過不斷優(yōu)化雖然有了大幅度提高，但即時在GPU上進行運算，最快速度也很難達到10fps每秒10幀。為了使目標檢測算法可以應用到視頻中進行實時檢測，需要在保證準確率的前提下，繼續(xù)提高單張圖片的目標檢測速度，YOLO（You Only Look Once）[11]、SSD[12]等算法將區(qū)域提取和區(qū)域分類整合到單階段進行計算。YOLO預先將圖片分為若干柵格，以這些柵格區(qū)域為候選區(qū)域進行框回歸，網(wǎng)絡主干仍為CNN結(jié)構(gòu)，直接輸出框回歸以及對應框分類的結(jié)果，而SSD則是在多個CNN的底層特征圖上進行框回歸和分類，其檢測精度要高于YOLO。單階段網(wǎng)絡減少了RPN的計算，更接近于純粹的圖像分類網(wǎng)絡，在檢測精度沒有很大損失的前提下，其檢測速度提升到了40fps每秒40幀以上，已經(jīng)可以滿足視頻檢測的需求。

目前，單階段和兩階段模型仍是目標檢測領(lǐng)域的兩大分支。對于單階段模型，在YOLO和SSD的基礎上，研究者們提出了一系列模型[33-36]，旨在提高檢測精度。在Faster R-CNN的基礎上，原作者又對其進行細節(jié)優(yōu)化，并且將分割任務融合進模型中，提出了Mask R-CNN[37]。也有一些其他工作分別從特征圖的前后關(guān)聯(lián)和損失函數(shù)入手進行優(yōu)化，這些改進也可以與上述的主流模型進行融合提升檢測效果。

2 算法設計

本文算法將監(jiān)控視頻當成一幀幀圖像進行圖像中的車輛檢測，以Faster R-CNN和SSD這兩類模型框架作為基礎，結(jié)合空洞卷積、特征金字塔、焦點損失進行改進，下面對每部分進行介紹。

2.1 Faster R-CNN整體結(jié)構(gòu)

Faster R-CNN的整體結(jié)構(gòu)是在一個主干的特征提取CNN中引入RPN結(jié)構(gòu)進行候選區(qū)域提取，篩選得到固定數(shù)量的候選框進行目標分類和框回歸，最后經(jīng)過NMS進行框融合以及框位置精修得到最終的檢測結(jié)果。圖1展示了以文獻[38]提出的VGG為骨干網(wǎng)絡的Faster R-CNN的整體結(jié)構(gòu)。

對于一張輸入圖片，首先經(jīng)過特定骨干網(wǎng)絡VGG頭部的部分層計算得到某一層的高層特征圖，RPN在特征圖上進行滑窗計算，通過預先設置不同面積及尺寸目標框的方式實現(xiàn)候選框位置的預估，同時對每個預估框進行分類和框回歸，這里的分類是判斷框范圍內(nèi)的圖像是前景還是背景的二分類，框坐標

回歸是對包含前景的框的位置進行修正。不同大小的目標框經(jīng)過ROI池化層調(diào)整成相同長度的特征向量，最后經(jīng)過全連接層連接進行多分類和框回歸。多分類是指目標框前景物體的準確分類的各類別得分，框回歸是對框位置的再次修正。

在本文改進的Faster R-CNN結(jié)構(gòu)中，為了獲得更好的特征提取效果，本文算法使用不同層數(shù)的文獻[39]提出的Resnet代替原始Faster R-CNN中的VGG結(jié)構(gòu)。

2.2 SSD整體結(jié)構(gòu)

SSD的整體結(jié)構(gòu)是在一個主干的特征提取CNN中的多個高層特征圖上直接回歸候選區(qū)域的位置，并對每個位置框進行分類，其中預先設置的候選框區(qū)域依舊與Faster R-CNN的設置方法類似，以不同面積及尺寸的錨點在特征圖上的每個像素點上密布不同大小的多個目標框。圖2展示了以VGG為骨干特征提取網(wǎng)絡的SSD的整體結(jié)構(gòu)。

輸入圖片首先經(jīng)過VGG頭部的若干卷積層和池化層進行前向計算，之后分別連接全連接層、卷積層、池化層，取編號為Conv6、Conv7、Conv8_2、Conv9_2、Conv10_2、Conv11_2層的特征圖。在這些特征圖上直接進行框回歸和多分類，框回歸依舊是對預設框坐標的修正，多分類將背景單獨算為附加的一類與前景k個類別一同計算，得到（k+1）個類別的得分。最后利用NMS算法進行框融合。

在本文改進的SSD結(jié)構(gòu)中，為了獲得更好的特征提取效果，并保證運算速度，使用相對輕量的Inception[40]代替原始SSD中的VGG結(jié)構(gòu)。

2.3 改進方法

除了改進Faster R-CNN和SSD的骨干網(wǎng)絡以提高其特征提取的能力外，本文在基礎的Faster R-CNN中加入空洞卷積進行優(yōu)化，在基礎的SSD中加入特征金字塔和焦點損失進行優(yōu)化。下面對每一項方法進行介紹。

2.3.1 空洞卷積

具體而言，卷積核在進行一般卷積運算時，是與特征圖的相鄰像素點作乘法運算，而空洞卷積運算允許卷積核與固定間隔l的像素點作乘法運算，這樣在不增加額外運算量的同時，增大感受野。而對于分辨率較高的圖像，相鄰像素間的冗余信息相對較多，可以利用空洞卷積進行優(yōu)化。為此，本文主要將空洞卷積引入到Faster R-CNN中的RPN對特征圖的卷積運算中。

2.3.2 特征金字塔

最簡單的特征金字塔結(jié)構(gòu)可以依靠堆疊多個經(jīng)過縮放的不同大小的同一張圖片實現(xiàn)，而在各種CNN網(wǎng)絡結(jié)構(gòu)中，其前向傳播的計算過程將原始圖片逐步變成更小的特征圖，即自底向上的結(jié)構(gòu)，這是一種CNN都具備的原生金字塔。本文在基礎SSD結(jié)構(gòu)中加入自頂向下結(jié)構(gòu)和橫向連接，使其同時利用低層特征高分辨率和高層特征強語義信息，更兼顧位置信息和語義信息，提高SSD的檢測能力。自頂向下結(jié)構(gòu)通過上采樣對高層特征圖逐層進行放大，相當于自底向上結(jié)構(gòu)的逆過程運算，橫向連接將兩次計算中相同大小的特征圖逐像素相加進行融合。

圖3展示了在圖2基礎上添加的金字塔結(jié)構(gòu)，Conv6層到Conv11_2層是CNN的前向計算過程，即原始的自底向上結(jié)構(gòu)，從Conv11_2通過一次次上采樣計算生成對應大小相同的特征圖，直到Up_Conv6，這個結(jié)構(gòu)即自頂向下結(jié)構(gòu)。Conv10_2層會與Conv11_2上采樣得到的特征圖進行融合得到Up_Conv10_2，其他層也依次通過這一操作進行融合，這個計算過程即橫向連接。最后再對融合后的各層進行框坐標回歸和分類預測。本文將其應用在網(wǎng)絡的最后3個特征圖上。

2.3.3 焦點損失

多分類任務常用的目標損失函數(shù)是交叉熵損失。假設任務中有n個樣本，分類目標有C類，交叉熵CE定義如下：

針對類別不平衡現(xiàn)象，可以針對不同類別引入一個權(quán)重因子α削弱大數(shù)量類別對損失值的影響：

針對難分樣本問題，一個樣本的預測概率越高，模型對該樣本的識別力越強，該樣本成為易分樣本，反之則為難分樣本。可以以預測概率為基礎，引入一個權(quán)重因子β削弱易分樣本對損失值的影響， β定義如下：

本文將上述定義的多類別焦點損失應用到SSD模型中，并對不同的α和γ取值進行實驗。

3 實驗

3.1 數(shù)據(jù)集

實驗數(shù)據(jù)集由從監(jiān)控視頻中截取的不同時間的圖像組成，經(jīng)過人為篩選剔除掉前后變化較小的圖像，總計圖像851張，劃分訓練集681張，驗證集170張圖片。由于各段視頻的分辨率不同，獲取的圖像大小有1080×720和1920×1080兩種。根據(jù)實際應用場景，本文將車輛類型分為四類：汽車（car）、公交車（bus）、出租車（taxi）、卡車（truck），各種類目標標注數(shù)量如表1所示。

3.2 模型訓練

在訓練前，對所有圖片進行水平翻轉(zhuǎn)、對比度增強、飽和度增強、色彩變換等操作進行圖像增強。所有模型使用Tensorflow框架實現(xiàn)，在Nvidia1080顯卡上訓練300個周期。對于Faster R-CNN類模型，圖片統(tǒng)一縮放到1280×720輸入網(wǎng)絡，初始化學習率為0.001，每隔100個周期下降到之前的1/10，梯度更新方法采用帶有動量的小批量隨機梯度下降，動量因子為0.9。對于SSD類模型，圖片統(tǒng)一縮放到500×500輸入網(wǎng)絡，初始化學習率為0.001，每隔10個周期下降到之前的0.95倍，梯度更新采用RMSProp優(yōu)化器，動量因子為0.9。

3.3 實驗結(jié)果與分析

本文使用平均準確率（Mean Average Precision， MAP）作為檢測準確性的評估指標，框匹配閾值設為0.5，該指標綜合考慮了定位精度與分類準確率。同時為了比較模型進行實時處理的能力，本文在接入視頻流的條件下，對每個模型處理單張圖片的速度進行了測試，結(jié)果如表2所示。

實驗結(jié)果顯示本文改進的網(wǎng)絡在不影響檢測速度的情況下，提高了檢測精度。其中，使用空洞卷積的不同骨干網(wǎng)絡的Faster RCNN模型的MAP值提高了0.5個百分點～1.2個百分點，平均提高0.8個百分點，而使用特征金字塔和焦點損失改進的SSD模型的MAP值提高了1.9個百分點。本文也對焦點損失中不同的α和β取值對模型的影響作了測試，其中α=0.75， β=0.75時，MAP值最高，全部結(jié)果如表3所示。

對比每一類的檢測結(jié)果可以發(fā)現(xiàn)，由于總類別數(shù)不是很大，且前三類樣本數(shù)足夠多，所以Faster R-CNN類模型對前三類的識別已經(jīng)達到很高的水平，改進后的模型在前三類的準確率比改進前模型略有提高。MAP值的提高主要在于卡車這一類的準確率提高，這是因為該類的樣本在數(shù)據(jù)集中相對較少，相比其他三類，模型對于這一類的學習難度是較高的，所以其準確率相對較低。改進后的模型在卡車類的識別上平均提高2.9個百分點，因為卡車樣本數(shù)相對較大，空洞卷積減少了相鄰冗余像素對特征的干擾，從而提高了檢測準確性。

改進后的SSD模型MAP值提升了1.9個百分點，每一類的準確率都提升明顯，其中特征金字塔結(jié)構(gòu)融合了更多高層信息，提升了模型的特征提取能力，焦點損失增強了模型對難分的、準確率較低的樣本的識別度，結(jié)果顯示這些改進針對每一類都有明顯效果。

此外，本文使用開源的MSCOCO目標檢測數(shù)據(jù)集[41]對改進后的模型進行評估，全部結(jié)果如表4所示。結(jié)果顯示，不同的改進后的Faster R-CNN模型的MAP平均提高0.8個百分點，改進后的SSD模型的MAP值提高1.5個百分點。

對比各模型的處理速度可以發(fā)現(xiàn)本文的改進措施基本沒有引入過多的運算量，其中，空洞卷積和焦點損失屬于計算的變化，與原模型相比并未有多余計算，而特征金字塔結(jié)構(gòu)屬于附加結(jié)構(gòu)，雖引入了多余運算，但本質(zhì)上只是若干次上采樣和矩陣求和運算，也并不會引起運算速度的大幅降低。

實現(xiàn)結(jié)果也顯示，兩階段的Faster R-CNN模型運算準確率高于單階段的SSD模型，但速度明顯慢于SSD模型。在實驗運行環(huán)境中，最快的Faster R-CNN模型每秒最多檢測6幀圖像，而SSD模型每秒可以檢測40幀圖像。常見的視頻流一般是每秒25幀圖像，所以SSD類模型完全可以應用在交通視頻的實時檢測中，若想將Faster R-CNN接入實時視頻流檢測，則需要每隔幾幀圖像檢測一幀，所以由于Faster R-CNN精度更高，其更適用于離線處理。

4 結(jié)語

本文將深度學習模型引入交通監(jiān)控視頻的車輛檢測中，并對常用的Faster R-CNN和SSD兩種模型進行改進，實驗結(jié)果顯示改進后的模型在不影響檢測速度的情況下提高了檢測準確性，取得了很好的效果。

本文的改進模型可以在更大型的數(shù)據(jù)集上進行更深入的實驗，對于每項改進措施在模型中的應用，也可以進行更多的實驗。同時，本文的工作也為后續(xù)車輛跟蹤、車流統(tǒng)計等更具體的應用奠定了基礎。

參考文獻（References）

[1] WANG F-Y. Agent-based control for networked traffic management systems [J]. IEEE Intelligent Systems， 2005， 20（5）： 92-96.

[2] ROSSETTI R J F， FERREIRA P A F， BRAGA R A M， et al. Towards an artificial traffic control system [C]// Proceedings of the 2008 11th International IEEE Conference on Intelligent Transportation Systems. Piscataway， NJ： IEEE， 2008： 14-19.

[3] 趙娜，袁家斌，徐晗.智能交通系統(tǒng)綜述[J].計算機科學，2014，41（11）：7-11.（ZHAO N， YUAN J B， XU H. Survey on intelligent transport system [J]. Computer Science， 2014， 41（11）： 7-11.）

[4] 劉小明，何忠賀.城市智能交通系統(tǒng)技術(shù)發(fā)展現(xiàn)狀及趨勢[J].自動化博覽，2015（1）：58-60.（LIU X M， HE Z H. Development and tendency of intelligent transportation systems in China [J]. Automation Panorama， 2015（1）： 58-60.）

[5] MICHALOPOULOS P G. Vehicle detection video through image processing： the autoscope system [J]. IEEE Transactions on Vehicular Technology， 1991， 40（1）： 21-29.

[6] SUN Z， BEBIS G， MILLER R. On-road vehicle detection using Gabor filters and support vector machines [C]// Proceedings of the 2002 14th International Conference on Digital Signal Processing. Piscataway， NJ： IEEE， 2002： 1019-1022.

[7] Bochum R U， TZOMAKAS C， von SEELEN W. Vehicle detection in traffic scenes using shadows [J]. American Journal of Surgery， 1998， 130（5）： 585-589.

TZOMAKAS C， von SEELEN W. Vehicle detection in traffic scenes using shadows [EB/OL]. [2018-07-02].http：//citeseerx.ist.psu.edu/viewdoc/download;jsessionid=EB25161C6B0FFE3581F4DF3532E6DE28？doi=10.1.1.45.3234&rep=rep1&type=pdf.

[8] TSAI L-W， HSIEH J-W， FAN K-C. Vehicle detection using normalized color and edge map [J]. IEEE Transactions on Image Processing， 2007， 16（3）： 850-864.

[9] 宋曉琳，鄔紫陽，張偉偉.基于陰影和類Haar特征的動態(tài)車輛檢測[J].電子測量與儀器學報，2015，29（9）：1340-1347.（SONG X L， WU Z Y， ZHANG W W. Dynamic vehicle detection based on shadow and Haar-like feature[J]. Journal of Electronic Measurement and Instrumentation， 2015， 29（9）： 1340-1347.）

[10] LeCUN Y， BENGIO Y， HINTON G. Deep learning [J]. Nature， 2015， 521（7553）： 436-444.

[11] REDMON J， DIVVALA S， GIRSHICK R， et al. You only look once： unified， real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2016： 779-788.

[12] LIU W， ANGUELOV D， ERHAN D， et al. SSD： single shot multibox detector [C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin： Springer， 2016： 21-37.

[13] REN S， HE K， GIRSHICK R， et al. Faster R-CNN： towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence， 2017， 39（6）： 1137-1149.

[14] YU F， KOLTUN V. Multi-scale context aggregation by dilated convolutions [EB/OL]. （2016-04-30） [2018-07-29]. https：//arxiv.org/pdf/1511.07122v3.pdf.

[15] LIN T-Y， DOLLR P， GIRSHICK R， et al. Feature pyramid networks for object detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2017， 1（2）： 4.

LIN T-Y， DOLLR P， GIRSHICK R， et al. Feature pyramid networks for object detection [EB/OL]. [2018-07-11]. https：//arxiv.org/pdf/1612.03144.pdf.

[16] LIN T-Y， GOYALP， GIRSHICK R， et al. Focal loss for dense object detection [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 2017： 2999-3007.

[17] ZHAN C， DUAN X， XU S， et al. An improved moving object detection algorithm based on frame difference and edge detection [C]// Proceedings of the 4th International Conference on Image and Graphics. Washington， DC： IEEE Computer Society， 2007： 519-523.

[18] HORN B K P， SCHUNCK B G. Determining optical flow [J]. Artificial Intelligence， 1981， 17（1/2/3）： 185-203.

[19] HAN X， ZHANG D Q， YU H H. System and method for video detection and tracking： U.S. Patent Application 13/720，653 [P]. 2014-06-19.

[20] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision， 2004， 60（2）： 91-110.

[21] SCHAPIRE R E， SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning， 1999， 37（3）： 297-336.

PAPAGEORGIOU C P， OREN M， POGGIO T. A general framework for object detection [C]// Proceedings of the 6th International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 1998： 555-562.

[22] DALAL N， TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2005，1： 886-893

[23] OJALA T， PIETIKINEN M， HARWOOD D. A comparative study of texture measures with classification based on featured distribution [J]. Pattern Recognition， 1996， 29（1）： 51-59.

[24] NG P C， HENIKOFF S. SIFT： predicting amino acid changes that affect protein function [J]. Nucleic Acids Research， 2003， 31（13）： 3812-3814.

[25] SCHAPIRE R E， SINGER Y. Improved boosting algorithms using confidence-rated predictions [J]. Machine Learning， 1999， 37（3）： 297-336.【和21重復？？

[26] CHEN P-H， LIN C-J， SCHLKOPF B. A tutorial on v-support vector machines [J]. Applied Stochastic Models in Business and Industry， 2005， 21（2）： 111-136.

[27] 劉操，鄭宏，黎曦，等.基于多通道融合HOG特征的全天候運動車輛檢測方法[J].武漢大學學報（信息科學版），2015，40（8）：1048-1053.（LIU C， ZHENG H， LI X， et al. A method of moving vehicle detection in all-weather based on melted multi-channel HOG feature [J]. Geomatics and Information Science of Wuhan University， 2015， 40（8）： 1048-1053.）

[28] KRIZHEVSKY A， SUTSKEVER I， HINTON G E. ImageNet classification with deep convolutional neural networks [C]// Proceedings of the 2012 Advances in Neural Information Processing Systems. Piscataway， NJ： IEEE， 2012： 1097-1105.

[29] SERMANET P， EIGEN D， ZHANG X， et al. OverFeat： integrated recognition， localization and detection using convolutional networks [EB/OL]. （2014-02-24） [2018-07-28]. https：//arxiv.org/pdf/1312.6229v4.pdf.

[30] GIRSHICK R， DONAHUE J， DARRELL T， et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2014： 580-587.

[31] UIJLINGS J R R， van de SANDE K E A， GEVERS T， et al. Selective search for object recognition [J]. International Journal of Computer Vision， 2013， 104（2）： 154-171.

[32] GIRSHICK R. Fast R-CNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Piscataway， NJ： IEEE， 2015： 1440-1448.

[33] JEONG J， PARK H， KWAK N. Enhancement of SSD by concatenating feature maps for object detection [EB/OL]. （2017-05-26） [2018-07-29]. https：//arxiv.org/pdf/1705.09587v1.pdf.

[34] FU C-Y， LIU W， RANGA A， et al. DSSD： deconvolutional single shot detector [EB/OL]. （2017-01-23） [2018-07-28]. https：//arxiv.org/pdf/1701.06659v1.pdf.

[35] REDMON J， FARHADI A. YOLO9000： better， faster， stronger [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2017： 6517-6525.

[36] REDMON J， FARHADI A. YOLOv3： an incremental improvement [EB/OL]. （2018-04-08） [2018-07-30]. https：//arxiv.org/pdf/1804.02767v1.pdf.

[37] HE K， GKIOXARI G， DOLLAR P， et al. Mask R-CNN [C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Washington， DC： IEEE Computer Society， 2017： 2980-2988.

[38] SIMONYAN K， ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. （2015-04-10） [2018-07-25]. https：//arxiv.org/pdf/1409.1556v6.pdf.

[39] HE K， ZHANG X， REN S， et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ： IEEE， 2016： 770-778.

[40] SZEGEDY C， VANHOUCKE V， IOFFE S， et al. Rethinking the inception architecture for computer vision [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway， NJ：IEEE， 2016： 2818-2826.

[41] LIN T-Y， MAIRE M， BELONGIE S， et al. Microsoft COCO： common objects in context [C]// Proceedings of the 2014 European Conference on Computer Vision. Berlin： Springer， 2014： 740-755.