封靖川 胡小龍 李斌

摘要:近年來,深度學習在目標檢測領(lǐng)域得到了極大的發(fā)展,但在檢測精度和速度上仍有提升空間。本文針對one-stage目標檢測算法對特征圖的信息利用不充分的問題,提出了一種特征融合的檢測模型,將CNN低層的物體位置、輪廓信息與高層語義信息融合。實驗表明該模型在支持實時檢測的條件下提升了檢測精度,具有較大的理論和應(yīng)用價值。
關(guān)鍵詞:深度學習;目標檢測;特征融合
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2018)12-0114-02
目標檢測是計算機視覺領(lǐng)域的一個熱門,基礎(chǔ)的研究方向,具有重要的理論和應(yīng)用價值。其主要任務(wù)為找出圖像中感興趣的物體,包含物體定位和識別兩個子任務(wù),需要同時確定物體的位置和類別。
1 國內(nèi)外研究現(xiàn)狀
自從2012年Geoffrey Hinton教授率領(lǐng)團隊采用AlexNet在ImageNet視覺識別挑戰(zhàn)賽上取得第一名的優(yōu)異成績之后,深度學習模型開始廣泛應(yīng)用于計算機視覺的各個研究領(lǐng)域,包括目標檢測,人臉識別,圖像分割等等。目前基于深度學習的目標檢測算法可以大致分為以下兩類:
1.1 基于region-proposal的two-stage檢測算法
該類算法將目標檢測分為兩個步驟,首先通過區(qū)域建議模型得出目標候選框,然后再通過CNN從候選框中提取目標特征,進一步定位目標位置并進行目標分類。代表算法為R-CNN和Faster R-CNN,R-CNN采用選擇性搜索(Selective Search)的方式提取目標候選框,然后通過卷積神經(jīng)網(wǎng)絡(luò)提取特征,最后采用SVM對特征進行分類。而Faster R-CNN將區(qū)域建議過程統(tǒng)一融合到卷積神經(jīng)網(wǎng)絡(luò)中,加速了訓練和測試,實現(xiàn)了端到端的訓練模型。
1.2 基于regression的one-stage檢測算法
由于two-stage檢測算法步驟較多,在現(xiàn)有的計算條件下難以支持實時檢測。于是有學者提出基于回歸的算法,即給定輸入圖像,直接回歸得出目標定位邊框和目標類別。代表算法有YOLO和SSD。YOLO將圖像劃分為s×s個網(wǎng)格,對這些網(wǎng)格中的圖像計算目標邊框的置信度和框中目標所屬類別的概率。而SSD則將Faster R-CNN中的錨點機制和回歸思想結(jié)合,產(chǎn)生多層特征圖,對多尺度的物體特征進行回歸。
2 研究方法
目前的目標檢測算法是在檢測速度與精度之間做平衡,two-stage算法的檢測速度較慢,但檢測精度較高;而one-stage算法的檢測速度較快,代價則是目標定位精度、分類的準確率都較低。對CNN模型各層進行反卷積并可視化,可以發(fā)現(xiàn)在圖像識別過程中,CNN低層特征圖包含較多的目標位置和輪廓信息,而CNN高層特征圖則包含較多的語義信息。主流的目標檢測算法都是在頂層特征圖抽取信息以提高目標類別檢測精度,但對低層特征圖的信息沒有充分利用,導致定位精度不高。
本文提出了一種特征融合的目標檢測算法,主要是在SSD的基礎(chǔ)上進行改進,加入特征圖的信息融合步驟:將包含物體位置與輪廓信息的低層特征圖與包含語義信息的高層特征圖進行concat操作,使得輸出層的特征信息更為豐富,從而提升模型預測精度。
此外,針對one-stage目標檢測算法中正負樣本不均衡的問題,對原有的損失函數(shù)進行了改進。一般的深度學習目標檢測任務(wù)中的損失函數(shù)可以表示為定位損失(location loss)和分類損失(classification loss)的組合,而考慮到one-stage的檢測過程中,劃分后的網(wǎng)格中大部分都為簡單易分的背景(負樣本),導致神經(jīng)網(wǎng)絡(luò)的訓練過程中難以有針對性地學習到真正感興趣的物體特征。本文采用的損失函數(shù)為:
其中α為權(quán)重系數(shù),受網(wǎng)格中物體檢測框與真實框的比例影響,通過該系數(shù)來減少背景對訓練過程的干擾,將更多注意力放在含有感興趣物體特征的網(wǎng)格中,使得模型表現(xiàn)能力有所提升。
3 實驗與分析
3.1 實驗環(huán)境與數(shù)據(jù)集
本實驗硬件配置為2.3 GHz Intel Core i5處理器,NVIDIA Titan X顯卡,32GB RAM服務(wù)器;軟件環(huán)境配置為Ubuntu操作系統(tǒng),Pytorch,OpenCV。為衡量目標檢測算法的總體性能,通常采用PASCAL VOC2007、PASCAL VOC2012、MSCOCO三個數(shù)據(jù)集對模型進行訓練和測試。
3.2 訓練過程與比較評估
本文在預訓練好的SSD基礎(chǔ)上進行改進,對conv4_3、conv7_2、conv9_2特征圖進行卷積并上采樣,使得特征圖的維度相同,然后對其進行concat操作,最后進行NMS(非極大值抑制)處理,得出物體的位置和類別,命名為CFSSD(Concat Fusion Single Shot Detector)。
我們將實驗模型與主流目標檢測模型SSD300、YOLOv2等在不同的性能表現(xiàn)上進行對比,并測試了在采用不同的基礎(chǔ)網(wǎng)絡(luò)條件下模型的mAP,結(jié)果如表1所示。
可以看出加入特征融合后的模型在檢測速度上比SSD更快,雖然略微慢于YOLOv2,但是在mAP上有1%-3%左右的提升。并且不同的基礎(chǔ)網(wǎng)絡(luò)對檢測精度和速度均有影響,可以根據(jù)需要來調(diào)節(jié)兩者的均衡。
4 結(jié)語
本文針對現(xiàn)有的one-stage目標檢測模型信息利用不充分的情況,提出了一種信息融合的目標檢測算法,將CNN低層特征圖與高層特征圖進行特征融合。實驗結(jié)果表明,該模型在保證實時檢測的條件下,可以提升目標檢測的定位和分類精度,有較大的理論和應(yīng)用價值。
參考文獻
[1]任少卿.基于特征共享的高效物體檢測[D].中國科學技術(shù)大學,2016.
[2]范欽民.基于多層特征融合的SSD目標檢測[D].西南交通大學,2018.
[3]尹宏鵬,陳波,柴毅等.基于視覺的目標檢測與跟蹤綜述[J].自動化學報,2016,42(10):1466-1489.
[4]程欣. 基于深度學習的圖像目標定位識別研究[D].電子科技大學,2016.
Research on Object Detection Algorithm Based on Feature Fusion
FENG Jing-chuan, HU Xiao-long, LI Bin
(Central South University, Changsha Hunan 410000)
Abstract:In recent years, deep learning has been greatly developed in the field of object detection. In this paper, a one-stage object detection algorithm is used to solve the problem of insufficient use of feature map information. feature fusion detection model is proposed to fuse the object position and contour information of the lower layer of CNN with high-level semantic information. Experiments show that the model improves the detection accuracy under the condition of supporting real-time detection.
Key words:deep learning; object detection; feature fusion