孫皓澤, 常天慶, 王全東, 孔德鵬, 戴文君
(裝甲兵工程學(xué)院 控制工程系, 北京 100072)
一種基于分層多尺度卷積特征提取的坦克裝甲目標(biāo)圖像檢測(cè)方法
孫皓澤, 常天慶, 王全東, 孔德鵬, 戴文君
(裝甲兵工程學(xué)院 控制工程系, 北京 100072)
針對(duì)坦克裝甲目標(biāo)的圖像檢測(cè)任務(wù),提出一種基于分層多尺度卷積特征提取的目標(biāo)檢測(cè)方法。采用遷移學(xué)習(xí)的設(shè)計(jì)思路,在VGG-16網(wǎng)絡(luò)的基礎(chǔ)上針對(duì)目標(biāo)檢測(cè)任務(wù)對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)進(jìn)行修改和微調(diào),結(jié)合建議區(qū)域提取網(wǎng)絡(luò)和目標(biāo)檢測(cè)子網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)對(duì)目標(biāo)的精確檢測(cè)。對(duì)于建議區(qū)域提取網(wǎng)絡(luò),在多個(gè)不同分辨率的卷積特征圖上分層提取多種尺度的建議區(qū)域,增強(qiáng)對(duì)弱小目標(biāo)的檢測(cè)能力;對(duì)于目標(biāo)檢測(cè)子網(wǎng)絡(luò),選用分辨率更高的卷積特征圖來(lái)提取目標(biāo),并額外增加了一個(gè)上采樣層來(lái)提升特征圖的分辨率。通過(guò)結(jié)合多尺度訓(xùn)練、困難負(fù)樣本挖掘等多種設(shè)計(jì)和訓(xùn)練方法,所提出的方法在構(gòu)建的坦克裝甲目標(biāo)數(shù)據(jù)集上取得了優(yōu)異的檢測(cè)效果,目標(biāo)檢測(cè)的精度和速度均優(yōu)于目前主流的檢測(cè)方法。
兵器科學(xué)與技術(shù); 目標(biāo)探測(cè)與識(shí)別; 卷積神經(jīng)網(wǎng)絡(luò); 坦克裝甲目標(biāo); 目標(biāo)檢測(cè)
Abstract: A target detection method based on hierarchical multi-scale convolution feature extraction is proposed for the image detection of tank and armored targets. The idea of transfer learning is used to mo-dify and fine-tune the structure and parameters of VGG-16 network according to the target detection task, and the region proposal network and the detection sub-network are combined to realize the accurate detection of targets. For the region proposal network, the multi-scale proposals are extracted from the convolution feature maps of different resolutions to enhance the detection capability of small targets. For the object detection sub-network, the feature maps with high-resolution convolution are used to extract the targets, and an upsampling layer is added to enhance the resolution of the feature maps. With the help of multi-scale training and hard negative sample mining, the proposed method achieves the excellent results in the tank and armored target data set, and its detection accuracy and speed are better than the those of current mainstream detection methods.
Key words: ordnance science and technology; target detection and identification; convolutional neural network; tank and armored target; target detection
2.4 液化性壞死的處理與轉(zhuǎn)歸 2例患者術(shù)后消融區(qū)液化性壞死經(jīng)口服抗炎藥治療后自行消散,局部未作處理(圖3)。10例患者行手術(shù)切開(kāi)放置皮片引流,14~26 d 后切口愈合,其中 3例行患側(cè)甲狀腺壞死組織清除術(shù)和負(fù)壓引流,2例頸部皮膚留下明顯瘢痕。6例采取超聲引導(dǎo)下擴(kuò)開(kāi)穿刺竇道引流,任壞死物自然引流或輕壓輔助引流,皮膚破潰處使用安爾碘消毒液擦洗,用無(wú)菌紗布覆蓋并每天更換,10~20 d 愈合,頸部皮膚均無(wú)瘢痕形成。
基于圖像的目標(biāo)檢測(cè)技術(shù)是指利用計(jì)算機(jī)視覺(jué)等相關(guān)技術(shù),將既定類別的物體自動(dòng)從圖像中檢測(cè)出來(lái),并對(duì)物體的類別、位置、大小以及置信度進(jìn)行判斷[1]。目前,該技術(shù)已在海防監(jiān)視、精確制導(dǎo)、視頻監(jiān)控等方面得到廣泛應(yīng)用。然而,對(duì)于坦克裝甲車輛而言,由于地面戰(zhàn)場(chǎng)環(huán)境的復(fù)雜性以及相對(duì)較遠(yuǎn)的觀測(cè)打擊距離,在大視場(chǎng)內(nèi)實(shí)現(xiàn)對(duì)敵方坦克裝甲目標(biāo)的自動(dòng)檢測(cè)識(shí)別和精確定位仍具有很大的難度。當(dāng)前,坦克裝甲車輛仍然是地面戰(zhàn)場(chǎng)最主要的作戰(zhàn)力量,因此開(kāi)展針對(duì)坦克裝甲目標(biāo)自動(dòng)檢測(cè)識(shí)別方面的研究,通過(guò)結(jié)合我方無(wú)人機(jī)、地面?zhèn)刹燔囈约疤箍搜b甲車輛等多種觀測(cè)平臺(tái)的圖像采集設(shè)備,實(shí)現(xiàn)對(duì)敵方的坦克裝甲目標(biāo)的自動(dòng)檢測(cè)識(shí)別,對(duì)提升坦克裝甲車輛的智能化、信息化作戰(zhàn)水平具有重要的意義[2]。
1.2.2.3 經(jīng)濟(jì)狀況 采用主觀經(jīng)濟(jì)狀況自評(píng)問(wèn)卷,即單條目問(wèn)卷,“您在當(dāng)?shù)氐母辉3潭取保浴案辉!⒁话愫筒桓辉!弊鳛樵u(píng)判尺度,將“富裕”賦值為“3”,“一般”賦值為“2”,“不富裕”賦值為“1”,分?jǐn)?shù)越高提示居民的主觀自評(píng)經(jīng)濟(jì)水平越高。
近年來(lái),基于圖像的目標(biāo)檢測(cè)技術(shù)一直是計(jì)算機(jī)視覺(jué)領(lǐng)域研究的熱點(diǎn)。傳統(tǒng)的圖像目標(biāo)檢測(cè)任務(wù)基本上遵循“設(shè)計(jì)手工特征(方向梯度直方圖(HOG)特征、局部二值模式(LBP)特征、尺度不變特征變換(SIFT)等[3]+分類器(Boosting、支持向量機(jī)(SVM)等)[4-5]”的思路,采用人工設(shè)計(jì)的特征提取方法在原始輸入圖像中提取特征信息,并將其輸入分類器中學(xué)習(xí)分類規(guī)則,最后利用訓(xùn)練完成的分類器實(shí)現(xiàn)對(duì)目標(biāo)的檢測(cè)。這種人工特征建模方法在人臉識(shí)別、行人檢測(cè)等領(lǐng)域都取得了不錯(cuò)的效果,極大地推動(dòng)了圖像目標(biāo)檢測(cè)技術(shù)的發(fā)展。然而,由于人工特征建模方法只包含圖像原始的像素特征和紋理梯度等信息,并不具備高層語(yǔ)義上的抽象能力,使得這種方法針對(duì)復(fù)雜場(chǎng)景下的目標(biāo)檢測(cè)效果并不理想。2012年,隨著Hinton等[6]在ImageNet[7]圖像分類競(jìng)賽中取得重大突破, 深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)開(kāi)始引起學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,并相繼在圖像分類、目標(biāo)檢測(cè)、圖像分割等多種圖像處理任務(wù)中取得突破性進(jìn)展。相比于傳統(tǒng)手工設(shè)計(jì)的特征描述,深度卷積特征在語(yǔ)義抽象能力上有著顛覆性的提升。針對(duì)目標(biāo)檢測(cè)任務(wù),國(guó)內(nèi)外學(xué)者先后提出了多種基于深度CNN的檢測(cè)方法:Girshick等[8]率先提出了區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)檢測(cè)方法,其主要思想是先采用選擇性搜索方法[9],對(duì)輸入圖像中可能包含目標(biāo)的位置提取若干個(gè)建議區(qū)域,接著采用深度CNN對(duì)建議區(qū)域提取卷積特征,隨后采用線性SVM分類器對(duì)建議區(qū)域進(jìn)行判別,最后對(duì)建議區(qū)域的邊界框進(jìn)行回歸修正。該方法刷新了Pascal VOC[10]目標(biāo)檢測(cè)數(shù)據(jù)集的測(cè)試結(jié)果。然而,由于該方法需要對(duì)每一個(gè)建議區(qū)域計(jì)算一次卷積特征,計(jì)算效率較低;此外所有的建議區(qū)域均縮放到相同的尺度,在一定程度上造成了圖像的畸變,影響最終的檢測(cè)結(jié)果。針對(duì)R-CNN存在的問(wèn)題,Girshick[11]隨后又提出了加速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Fast R-CNN)檢測(cè)方法,該方法將建議區(qū)域的特征提取轉(zhuǎn)移到最后一層的卷積特征圖上進(jìn)行,解決了R-CNN需要對(duì)同一張圖片重復(fù)進(jìn)行多次卷積計(jì)算的問(wèn)題,同時(shí)將建議區(qū)域的判別和邊界框回歸整合到一個(gè)框架下進(jìn)行,有效提高了目標(biāo)檢測(cè)的精度和效率。在不計(jì)入建議區(qū)域提取時(shí)間的情況下,F(xiàn)ast R-CNN的單張圖片檢測(cè)時(shí)間達(dá)到0.32 s,使得實(shí)時(shí)的目標(biāo)檢測(cè)成為可能。針對(duì)建議區(qū)域提取低效的問(wèn)題,微軟亞洲研究院何凱明等在Fast R-CNN的基礎(chǔ)上,提出了Faster R-CNN[12]的檢測(cè)方法。該方法設(shè)計(jì)了一種建議區(qū)域提取網(wǎng)絡(luò)(RPN),并與目標(biāo)檢測(cè)子網(wǎng)絡(luò)共享卷積特征,從而實(shí)現(xiàn)了在GPU上對(duì)整個(gè)輸入圖像的端到端的訓(xùn)練和測(cè)試。該方法在Pascal VOC[10]和MS COCO[13]數(shù)據(jù)集上都取得了優(yōu)異的結(jié)果,在使用ZF-net[14]和VGG-16[15]預(yù)訓(xùn)練網(wǎng)絡(luò)時(shí)檢測(cè)速度分別達(dá)到了17幀/s和5幀/s. 除以上基于分類的目標(biāo)檢測(cè)方法,國(guó)內(nèi)外學(xué)者還從回歸的角度對(duì)目標(biāo)檢測(cè)方法進(jìn)行了探索:Redmon等[16]提出了一種被稱為YOLO的檢測(cè)方法,其基本思路是直接在卷積特征圖上對(duì)多個(gè)區(qū)域的類別和邊界框進(jìn)行回歸,實(shí)現(xiàn)對(duì)輸入圖像的端到端的訓(xùn)練和測(cè)試。該方法大幅度提高了圖像目標(biāo)檢測(cè)的速度,最快檢測(cè)速率能夠達(dá)到155 幀/s,真正實(shí)現(xiàn)了對(duì)目標(biāo)的實(shí)時(shí)檢測(cè)。然而由于舍棄了建議區(qū)域提取這一關(guān)鍵步驟,該方法的檢測(cè)精度相比于Faster R-CNN有一定差距。Liu等[17]也采用基于回歸的設(shè)計(jì)思路,提出了一種被稱為SSD的檢測(cè)方法。該方法通過(guò)在基礎(chǔ)網(wǎng)絡(luò)VGG-net上添加多個(gè)卷積層,并從多個(gè)卷積特征圖上對(duì)多個(gè)區(qū)域的類別和邊界框進(jìn)行回歸,較好地平衡了目標(biāo)檢測(cè)的精度和效率,當(dāng)輸入圖像的分辨率為500×500時(shí),檢測(cè)速度能夠達(dá)到23幀/s,同時(shí)平均檢測(cè)精度也與Faster R-CNN基本持平。
1.2.2 困難負(fù)樣本挖掘
現(xiàn)代戰(zhàn)爭(zhēng)的戰(zhàn)場(chǎng)態(tài)勢(shì)瞬息萬(wàn)變,需要在保持一定檢測(cè)精度的同時(shí),盡可能提高目標(biāo)檢測(cè)的速度。因此,本文針對(duì)坦克裝甲目標(biāo)圖像檢測(cè)任務(wù)的特點(diǎn)和要求,提出一種基于分層多尺度卷積特征提取的目標(biāo)檢測(cè)方法:首先,引入遷移學(xué)習(xí)[18-19]的設(shè)計(jì)思路,將在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練完成的VGG-16作為基礎(chǔ)網(wǎng)絡(luò),針對(duì)目標(biāo)檢測(cè)任務(wù)對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)進(jìn)行修改和微調(diào);其次,沿用Faster R-CNN中的檢測(cè)框架,結(jié)合建議區(qū)域提取網(wǎng)絡(luò)和目標(biāo)檢測(cè)子網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)對(duì)目標(biāo)的精確檢測(cè);對(duì)于建議區(qū)域提取網(wǎng)絡(luò),在多個(gè)不同分辨率的卷積特征圖上提取不同尺度的建議區(qū)域,增強(qiáng)網(wǎng)絡(luò)對(duì)弱小目標(biāo)的檢測(cè)能力;對(duì)于目標(biāo)檢測(cè)子網(wǎng)絡(luò),選用分辨率更高的卷積特征圖(conv4-3)提取目標(biāo),并額外增加一個(gè)上采樣層來(lái)提升特征圖的分辨率,使其對(duì)弱小目標(biāo)具有更強(qiáng)的表征能力。通過(guò)結(jié)合多尺度訓(xùn)練、困難負(fù)樣本挖掘等多種設(shè)計(jì)和訓(xùn)練方法,本文提出的方法在構(gòu)建的坦克裝甲目標(biāo)數(shù)據(jù)集取得了優(yōu)異的檢測(cè)效果,目標(biāo)檢測(cè)的精度和速度均優(yōu)于目前主流的檢測(cè)方法Faster R-CNN.
此外,對(duì)于回歸損失,[yi=1]指明了只有在樣本標(biāo)簽為正時(shí)才被激活,否則將不產(chǎn)生作用。
本文提出的目標(biāo)檢測(cè)方法的整體框架如圖1所示。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)主要由3部分組成,即:VGG-16預(yù)訓(xùn)練網(wǎng)絡(luò)、基于分層多尺度采樣的建議區(qū)域提取網(wǎng)絡(luò)以及目標(biāo)檢測(cè)子網(wǎng)絡(luò)。
多層級(jí)的深度CNN通常具有上百萬(wàn)甚至千萬(wàn)的模型參數(shù)需要進(jìn)行學(xué)習(xí)訓(xùn)練,對(duì)訓(xùn)練樣本的數(shù)量和硬件條件都有非常高的要求。目前,通用的做法是采用在大規(guī)模的圖像數(shù)據(jù)集ImageNet上預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型,通過(guò)遷移學(xué)習(xí)的方式在特定數(shù)據(jù)集上對(duì)該模型參數(shù)進(jìn)行修改和微調(diào)。常用的深度CNN模型包括Lenet-Net[20]、Alex[7]/ZF-Net[13]、VGG-Net[15]、Google-Net[21]等。通過(guò)對(duì)硬件條件和檢測(cè)任務(wù)的綜合考慮,本文選定預(yù)訓(xùn)練好的VGG-16網(wǎng)絡(luò)模型作為基礎(chǔ)網(wǎng)絡(luò),通過(guò)對(duì)VGG-16網(wǎng)絡(luò)的修改和微調(diào)來(lái)實(shí)現(xiàn)目標(biāo)檢測(cè)任務(wù)。

圖1 基于分層多尺度卷積特征提取的目標(biāo)檢測(cè)整體框架Fig.1 Framework of target detection based on hierarchical multi-scale convolution feature extraction
對(duì)于一副待檢測(cè)的輸入圖像,建議區(qū)域提取網(wǎng)絡(luò)主要用于對(duì)其提取若干個(gè)可能包含目標(biāo)的矩形建議框,并對(duì)每個(gè)建議框賦予一個(gè)是否包含物體的置信度。Faster R-CNN采用了一種全卷積網(wǎng)絡(luò)的實(shí)現(xiàn)方式,區(qū)域提取網(wǎng)絡(luò)和目標(biāo)檢測(cè)子網(wǎng)絡(luò)共享基礎(chǔ)網(wǎng)絡(luò)所有的卷積層,并在最后一層的卷積特征圖上滑動(dòng)小網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)建議區(qū)域的提取。相比于目標(biāo)檢測(cè)方法,F(xiàn)aster R-CNN首次提出采用CNN來(lái)提取建議區(qū)域,實(shí)現(xiàn)了在GPU上對(duì)輸入圖像進(jìn)行端到端的訓(xùn)練和測(cè)試,大幅度提升了目標(biāo)檢測(cè)的速度。然而,F(xiàn)aster R-CNN的建議區(qū)域由最后一個(gè)卷積層提取得到,由于該層上卷積特征圖的分辨率不足,導(dǎo)致該方法對(duì)弱小目標(biāo)的檢測(cè)能力有限(對(duì)于一個(gè)輸入圖像中大小為32×32的目標(biāo),經(jīng)過(guò)CNN的前向傳遞,在VGG-16最后一個(gè)卷積層上大小僅為2×2)。針對(duì)以上問(wèn)題,本文采用一種多尺度的提取策略[22-23],將建議區(qū)域的提取對(duì)象擴(kuò)展到VGG-16網(wǎng)絡(luò)的多個(gè)卷積層(如圖1),分別在卷積層conv3-3、conv4-3、conv5-3、pooling-5上滑動(dòng)不同大小的窗口,將每一個(gè)滑動(dòng)窗口覆蓋的區(qū)域作為初始建議區(qū)域,判斷其是否包含感興趣的目標(biāo)。隨后,將每個(gè)滑動(dòng)窗口區(qū)域映射到更低維的特征向量(512維),并將其輸出到兩個(gè)全連接層(分類層Scoring和邊界框回歸層Bbox reg),從而得到每個(gè)滑動(dòng)窗口區(qū)域的置信度以及邊界框回歸向量。對(duì)于conv3-3而言,由于該層上的卷積特征圖分辨率較高,相比于后兩層對(duì)小目標(biāo)的響應(yīng)更強(qiáng),主要用于對(duì)輸入圖像中小于30像素的弱小目標(biāo)提取建議區(qū)域。考慮到對(duì)檢測(cè)速度的要求,此處只采用一個(gè)大小為7×7的滑動(dòng)窗口,并將滑動(dòng)步長(zhǎng)設(shè)置為2;對(duì)于conv4-3和conv5-3,分別采用兩個(gè)大小為5×5和7×7的滑動(dòng)窗口;對(duì)于pooling-5,考慮到實(shí)際情況中大于250像素的目標(biāo)不能完全避免,除了兩個(gè)大小為5×5和7×7的滑動(dòng)窗口外,此處增設(shè)一個(gè)9×9的滑動(dòng)窗口,用于實(shí)現(xiàn)對(duì)超大目標(biāo)的檢測(cè)。除conv3-3外,其余層上的滑動(dòng)步長(zhǎng)均設(shè)置為1. 需要指出的是,雖然在高分辨率的特征圖上采取精細(xì)的建議區(qū)域提取方式能夠在一定程度上提升檢測(cè)精度,但是將導(dǎo)致檢測(cè)速度的驟降,因此需要根據(jù)具體需求對(duì)其進(jìn)行折中。實(shí)驗(yàn)結(jié)果表明,本文采用的建議區(qū)域提取方式對(duì)于坦克裝甲目標(biāo)保持著較高的召回率。
1.2.1 損失函數(shù)

l(Xi,Yi|W)=Lc(p(Xi),yi)+λ[yi=1]Ll(bi,i),
(1)
式中:Lc(p(Xi),yi)表示樣本集的分類損失函數(shù),Ll(bi,i)表示樣本集的回歸損失函數(shù),二者分別對(duì)應(yīng)圖1中的分類層和回歸層,通過(guò)補(bǔ)償因子λ進(jìn)行加權(quán)平衡;W表示整個(gè)建議區(qū)域提取網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)。
分類層采用1個(gè)二分類的交叉熵分類函數(shù),通過(guò)損失函數(shù)Lc(p(Xi),yi)=-lgpyi(Xi)輸出樣本在目標(biāo)和背景間的概率分布,pyi(Xi)表示樣本Xi屬于yi類的概率。
對(duì)于回歸層,主要用對(duì)樣本邊界框的坐標(biāo)進(jìn)行微調(diào)。由于預(yù)測(cè)的建議區(qū)域并不可能與真實(shí)目標(biāo)的標(biāo)注框完全重合,在其比較接近的情況下,可以通過(guò)線性的邊界框回歸對(duì)建議區(qū)域進(jìn)行微調(diào)。參考文獻(xiàn)[11]提出的邊界框回歸方法,定義回歸損失函數(shù)Ll(bi,i)如下:
(2)
式中:smooth函數(shù)定義為
(3)
bi,x=(x-xa)/ωa,bi,y=(y-ya)/ha,
bi,w=lg (ω/ωa),bi,h=lg (h/ha),
i,x=(-xa)/ωa,i,y=(-ya)/ha,
i,w=lg (/ωa),i,h=lg (/ha).
(4)
通過(guò)給正負(fù)樣本的損失函數(shù)添加相應(yīng)的權(quán)重系數(shù),確保在正樣本數(shù)量低于設(shè)定的比例時(shí),通過(guò)權(quán)重系數(shù)來(lái)增加正樣本在損失函數(shù)中的比重,使得損失函數(shù)中正負(fù)樣本的權(quán)重保持均衡。
回來(lái)后,我苦悶了好久,到底要不要繼續(xù)?如果要繼續(xù),就必須跟爸媽說(shuō),不說(shuō)不行。如果不繼續(xù),就不再去他家了。老秦后來(lái)跟我說(shuō):“我看出來(lái)了,知道你來(lái)了一次就不想再來(lái)了。”
于是,對(duì)于所有被標(biāo)注的M個(gè)樣本,根據(jù)被選用的卷積層不同,可以得到一個(gè)總的損失函數(shù):
3.2.1 建議區(qū)域提取網(wǎng)絡(luò)測(cè)試評(píng)估
(5)
式中:N為參與建議區(qū)域提取的卷積層數(shù)量(此處取值為4);ωn對(duì)應(yīng)每一個(gè)卷積層的樣本權(quán)重;Sn對(duì)應(yīng)從每一個(gè)卷積層提取的樣本集合。在訓(xùn)練時(shí),通過(guò)隨機(jī)梯度下降法實(shí)現(xiàn)對(duì)損失函數(shù)的逐步優(yōu)化。
以上所述方法曾先后在Pascal VOC[10]、MS COCO[13]等通用目標(biāo)檢測(cè)數(shù)據(jù)集上取得了不錯(cuò)的效果,有效推動(dòng)了目標(biāo)檢測(cè)技術(shù)的發(fā)展。然而,針對(duì)復(fù)雜環(huán)境下坦克裝甲目標(biāo)的檢測(cè)任務(wù),直接移植以上方法的思路并不可行,這是因?yàn)槟繕?biāo)在整幅圖像中所占的尺寸比例有所不同。由于坦克裝甲車輛的觀測(cè)打擊距離通常在幾百米甚至1 000 m以上,使得目標(biāo)在輸入圖像中所占尺寸的比例較小。以1 000 m的觀測(cè)距離為例,當(dāng)圖像采集設(shè)備的觀測(cè)視場(chǎng)角為20°時(shí),敵方坦克裝甲目標(biāo)在1 024×768的輸入圖像中僅有20~30像素大小,目標(biāo)尺寸比Pascal VOC等通用測(cè)試集中的大多數(shù)目標(biāo)要小得多。目前主流的Faster R-CNN、SSD等檢測(cè)方法主要是針對(duì)Pascal VOC等通用測(cè)試集設(shè)計(jì)完成的,以求在通用測(cè)試集上取得更高的平均檢測(cè)精度,并未重點(diǎn)強(qiáng)調(diào)對(duì)小目標(biāo)的檢測(cè)效果。此外,Pascal VOC等通用目標(biāo)檢測(cè)數(shù)據(jù)集主要強(qiáng)調(diào)目標(biāo)檢測(cè)的精度,對(duì)檢測(cè)的速度并沒(méi)有硬性要求。
對(duì)于一副待檢測(cè)圖像,在經(jīng)過(guò)樣本標(biāo)注后,由于目標(biāo)在圖像中所占的比例有限,負(fù)樣本的數(shù)量通常會(huì)遠(yuǎn)遠(yuǎn)超過(guò)正樣本,這種樣本分布的不平衡可能會(huì)導(dǎo)致訓(xùn)練的不穩(wěn)定。因此在訓(xùn)練時(shí),需要對(duì)正負(fù)樣本的數(shù)量和比例進(jìn)行調(diào)整。對(duì)于一個(gè)樣本集,本文將正負(fù)樣本間的數(shù)量比例確定為|S-|/|S+|=α. 由于負(fù)樣本數(shù)量眾多且分布不均勻,不同的負(fù)樣本存在難易程度的區(qū)別,對(duì)最終的檢測(cè)精度影響很大,需要制定特殊的采樣策略對(duì)負(fù)樣本訓(xùn)練集進(jìn)行挑選。文獻(xiàn)[24]分別對(duì)隨機(jī)采樣、Bootstrapping采樣和混合采樣(隨機(jī)采樣+Bootstrapping采樣)3種策略進(jìn)行了分析和驗(yàn)證,結(jié)果表明Bootstrapping采樣和混合采樣的效果相當(dāng)。因此,本文采用Bootstrapping采樣方法,其基本思路是根據(jù)置信度值對(duì)所有的負(fù)樣本進(jìn)行排序,并從中挑選出得分最高的若干樣本加入訓(xùn)練集。
在構(gòu)建的坦克裝甲目標(biāo)數(shù)據(jù)集上,對(duì)所提出的建議區(qū)域提取網(wǎng)絡(luò)網(wǎng)絡(luò)進(jìn)行測(cè)試評(píng)估。作為對(duì)比,同時(shí)對(duì)目前主流的目標(biāo)檢測(cè)方法Faster R-CNN進(jìn)行相同的測(cè)試。遵循文獻(xiàn)[27]提出的評(píng)估方法,將建議區(qū)域?qū)δ繕?biāo)的召回率作為其評(píng)估準(zhǔn)則,并將建議區(qū)域的召回閾值設(shè)置為0.7,與真實(shí)標(biāo)注框重合度超過(guò)70%的建議區(qū)域即認(rèn)為是有效召回。

(6)
式中:變量x、xa、分別表示預(yù)測(cè)的邊界框、建議區(qū)域邊界框以及真實(shí)目標(biāo)標(biāo)注框。由此,在網(wǎng)絡(luò)的訓(xùn)練階段,算法以預(yù)測(cè)樣本邊界框內(nèi)圖像的卷積特征作為輸入,通過(guò)梯度下降法對(duì)回歸參數(shù)進(jìn)行優(yōu)化;在測(cè)試階段,根據(jù)輸入圖像的卷積特征得到輸出,經(jīng)過(guò)反參數(shù)化后對(duì)邊界框進(jìn)行微調(diào)。
1.2.3 非極大值抑制
完善物流配送的法律投訴機(jī)制建設(shè),健全物流配送體制。在加強(qiáng)外部管理的同時(shí)完善內(nèi)部的監(jiān)管,建立健全物流配送體制,相互制約促進(jìn)其發(fā)展。針對(duì)網(wǎng)上購(gòu)物配送中出現(xiàn)貨物破損及退貨、賠償?shù)确N種問(wèn)題,政府有關(guān)部門應(yīng)該制定有針對(duì)性的法規(guī)和政策,以規(guī)范網(wǎng)上購(gòu)物市場(chǎng),增加廣大消費(fèi)者對(duì)網(wǎng)上購(gòu)物的信任感。因此企業(yè)應(yīng)盡快建立、健全電子商務(wù)法規(guī)與物流配送投訴機(jī)制,這樣才可以妥善解決爭(zhēng)端,使客戶在消費(fèi)后能維護(hù)自己的合法權(quán)益,也使商家能建立起較好的商業(yè)信譽(yù),從而立于不敗之地。
對(duì)于一副分辨率為1 024×768的輸入圖像,通過(guò)本文方法進(jìn)行建議區(qū)域提取后,將得到大約30 000個(gè)初始建議區(qū)域。這些建議區(qū)域間將存在大量的重疊和冗余,嚴(yán)重影響檢測(cè)的速度。因此,本文基于初始建議區(qū)域的分類得分,采用非極大值抑制的方法對(duì)其數(shù)量進(jìn)行精簡(jiǎn)。在進(jìn)行非極大值抑制時(shí),將IoU的閾值設(shè)置為0.7,從而每張圖像將只剩下大約2 000個(gè)建議區(qū)域。之后,從剩余的2 000個(gè)建議區(qū)域中挑選分類得分最高的100個(gè)作為最終的建議區(qū)域,并將其輸入目標(biāo)檢測(cè)子網(wǎng)絡(luò)。非極大值抑制不會(huì)對(duì)最終的檢測(cè)精度造成影響,還能夠大幅度提升檢測(cè)效率。在后文的實(shí)驗(yàn)部分,本文對(duì)選取不同數(shù)量的建議區(qū)域進(jìn)行了對(duì)比。
盡管單獨(dú)使用建議區(qū)域提取網(wǎng)絡(luò)能實(shí)現(xiàn)目標(biāo)檢測(cè)的功能,文獻(xiàn)[16-17]也采用這種檢測(cè)框架設(shè)計(jì)完成,但實(shí)驗(yàn)結(jié)果表明,這種設(shè)計(jì)思路相比于先提取建議區(qū)域再進(jìn)行目標(biāo)檢測(cè)的方法,檢測(cè)的速度有明顯提高,但同時(shí)也犧牲了一定的檢測(cè)精度,小目標(biāo)檢測(cè)更是效果欠佳。因此,本文在建議區(qū)域提取網(wǎng)絡(luò)之后單獨(dú)設(shè)計(jì)了目標(biāo)檢測(cè)子網(wǎng)絡(luò)。整個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)如圖1所示。首先,為了增強(qiáng)對(duì)小目標(biāo)的檢測(cè)能力,不同于R-CNN系列的檢測(cè)方法在最后一個(gè)卷積層上提取目標(biāo),本文在分辨率更高的第4個(gè)卷積層(conv4-3)上執(zhí)行該操作。此外,為了進(jìn)一步增大卷積特征圖的分辨率,本文引入了文獻(xiàn)[25]的設(shè)計(jì)思路,在conv4-3層上執(zhí)行反卷積操作,通過(guò)雙線性插值的上采樣方式來(lái)增大卷積特征圖的分辨率。反卷積層的加入有效提升了系統(tǒng)對(duì)小目標(biāo)的感知能力,本文將在實(shí)驗(yàn)部分對(duì)其效果進(jìn)行評(píng)價(jià)。隨后,在增大后的卷積特征圖上對(duì)建議區(qū)域所對(duì)應(yīng)的部分進(jìn)行固定尺度的池化采樣。本文沿用了文獻(xiàn)[11]中的ROI(感興趣區(qū)域)采樣方法,將建議區(qū)域?qū)?yīng)的卷積特征轉(zhuǎn)化為7×7×512維的特征向量。之后,依次連接全連接層和輸出層。對(duì)于全連接層,考慮到VGG-16網(wǎng)絡(luò)中兩個(gè)4 096維的全連接層計(jì)算起來(lái)比較耗時(shí),用一個(gè)2 048維的全連接層對(duì)其進(jìn)行替換。對(duì)于輸出層,與建議區(qū)域提取網(wǎng)絡(luò)一樣,由并行連接的分類層和回歸層組成,并采用多任務(wù)模式對(duì)其進(jìn)行聯(lián)合優(yōu)化。
這樣,對(duì)于整個(gè)網(wǎng)絡(luò)的損失函數(shù),可在(5)式的基礎(chǔ)上擴(kuò)展得到:
“法治”是當(dāng)今社會(huì)的主旋律,必須在“依法治國(guó)”的背景下建立和落實(shí)國(guó)家機(jī)關(guān)“誰(shuí)執(zhí)法誰(shuí)普法”責(zé)任制,以確保其擁有穩(wěn)固的制度根基[1]。一般來(lái)講,該責(zé)任制的建立和實(shí)施必須有以下依據(jù):

(7)
式中:ln+1表示檢測(cè)子網(wǎng)絡(luò)的損失函數(shù);Sn+1表示檢測(cè)子網(wǎng)絡(luò)的訓(xùn)練樣本。由于目標(biāo)檢測(cè)子網(wǎng)絡(luò)與建議區(qū)域提取網(wǎng)絡(luò)共享基礎(chǔ)網(wǎng)絡(luò)VGG-16的部分卷積層,此處考慮將兩個(gè)子網(wǎng)絡(luò)的參數(shù)W和Wd進(jìn)行聯(lián)合優(yōu)化,即:
(1)振搗混凝土采用機(jī)械振搗,柱混凝土采用振搗棒振搗。分層澆筑的混凝土,振搗棒插入下層5 cm左右,以消除兩層之間的接縫。

(8)
與建議區(qū)域提取網(wǎng)絡(luò)一樣,在訓(xùn)練時(shí)通過(guò)隨機(jī)梯度下降法對(duì)其進(jìn)行優(yōu)化。對(duì)于目標(biāo)檢測(cè)子網(wǎng)絡(luò)的輸出結(jié)果,同樣采用非極大值抑制方法對(duì)其進(jìn)行優(yōu)化。此處的IoU閾值設(shè)置為0.3. 最后,從簡(jiǎn)化結(jié)果中挑選出置信度得分大于閾值的區(qū)域作為最終的目標(biāo)區(qū)域。對(duì)于坦克裝甲目標(biāo)的檢測(cè)而言,可以容忍一定程度的誤檢率,但對(duì)于漏檢卻需要極力避免,因此為了盡可能檢測(cè)出所有目標(biāo),此處設(shè)置了相對(duì)較小的置信度閾值(閾值為0.5),旨在發(fā)現(xiàn)更多的可疑目標(biāo),但也會(huì)造成誤檢率的提升。本文將在實(shí)驗(yàn)部分對(duì)此進(jìn)行討論。
整個(gè)目標(biāo)檢測(cè)網(wǎng)絡(luò)通過(guò)反向傳播和隨機(jī)梯度下降法對(duì)網(wǎng)絡(luò)進(jìn)行端到端的訓(xùn)練。文獻(xiàn)[11-12]在訓(xùn)練和測(cè)試過(guò)程中對(duì)輸入圖像進(jìn)行了多尺度變換,這種方式在一定程度上能夠提高檢測(cè)的準(zhǔn)確性,但檢測(cè)速度有所損失。本文采取一種折中方式:在訓(xùn)練時(shí),對(duì)輸入圖像進(jìn)行隨機(jī)縮放,在保持原有長(zhǎng)寬比例的條件下使其短邊為400、600、1 000等多個(gè)像素尺寸;在測(cè)試時(shí),直接使用輸入圖像的原始尺寸(1 024×768)。
整個(gè)目標(biāo)檢測(cè)網(wǎng)絡(luò)的訓(xùn)練在VGG-16網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行,該網(wǎng)絡(luò)在Imagenet數(shù)據(jù)集上初始化訓(xùn)練完成。對(duì)于所有的新增層,遵循文獻(xiàn)[12]的方法,采用零均值、標(biāo)準(zhǔn)差為0.01的高斯分布進(jìn)行隨機(jī)初始化完成。遵循文獻(xiàn)[11]的訓(xùn)練規(guī)則,只對(duì)VGG-16網(wǎng)絡(luò)conv3及其之后的層進(jìn)行調(diào)節(jié)。由于采用多任務(wù)損失函數(shù)和bootstrapping采樣可能導(dǎo)致訓(xùn)練早期的不穩(wěn)定,故采用一種兩步訓(xùn)練策略:1)對(duì)建議區(qū)域提取網(wǎng)絡(luò)進(jìn)行初始化,采用較小的平衡因子(λ=0.05),以0.000 1的學(xué)習(xí)率對(duì)建議區(qū)域提取網(wǎng)絡(luò)進(jìn)行10 000次迭代訓(xùn)練;2)將平衡因子和學(xué)習(xí)率分別增大為1和0.001,對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行20 000次迭代訓(xùn)練;隨后將學(xué)習(xí)率縮小至0.000 1,繼續(xù)進(jìn)行10 000次迭代訓(xùn)練。整個(gè)訓(xùn)練過(guò)程均采用bootstrapping采樣方式,每個(gè)批量包含256個(gè)訓(xùn)練樣本,正負(fù)樣本數(shù)量比例設(shè)置為1∶3(α=3),分別從兩副輸入圖像中采樣得到。當(dāng)正樣本數(shù)量不滿足比例時(shí),選用負(fù)樣本對(duì)該批量進(jìn)行補(bǔ)充。此外,動(dòng)量因子設(shè)置為0.9,權(quán)重衰減因子設(shè)置為0.000 5. 對(duì)于各卷積層的權(quán)重因子,本文將第3和第4個(gè)卷積層的權(quán)重因子分別設(shè)置為0.8和0.9(ωconv3=0.8,ωconv4=0.9),將第5個(gè)卷積層以及池化層的權(quán)重因子均設(shè)置為1(ωconv5=1,ωpooling5=1)。實(shí)驗(yàn)結(jié)果表明,采用這種兩步訓(xùn)練方式能夠使整個(gè)網(wǎng)絡(luò)快速趨于穩(wěn)定。
為了驗(yàn)證本文所提方法的性能,針對(duì)坦克裝甲目標(biāo)構(gòu)建專用的測(cè)試數(shù)據(jù)集,在該數(shù)據(jù)集上對(duì)提出的方法以及目前主流的目標(biāo)檢測(cè)方法Faster R-CNN進(jìn)行訓(xùn)練和測(cè)試。此外,還在通用目標(biāo)檢測(cè)數(shù)據(jù)集Pascal VOC2007上對(duì)所提方法進(jìn)行了測(cè)試分析。所有的測(cè)試評(píng)估均在核心配置為CPU:E5-2650Lv3/GPU:GTX-TITIAN-X的圖形工作站上進(jìn)行。整個(gè)目標(biāo)檢測(cè)網(wǎng)絡(luò)在Ubuntu 14.04/Matlab 2014a上構(gòu)建完成,在構(gòu)建過(guò)程中使用了Caffe[26]框架。
從多個(gè)場(chǎng)景拍攝圖像中挑選出2 000張圖像,構(gòu)建一個(gè)小型坦克裝甲目標(biāo)樣本庫(kù)。如圖2所示,該樣本庫(kù)拍攝于多種野外環(huán)境,包含多種車型的多個(gè)視角,并考慮遮擋、煙霧等多種復(fù)雜情況。隨后,將樣本圖像的像素尺寸統(tǒng)一縮放為1 024×768,并采用LabelImg工具包對(duì)樣本圖像進(jìn)行標(biāo)注,對(duì)圖像中目標(biāo)的位置、大小和種類分別進(jìn)行標(biāo)定,使其滿足Pascal VOC數(shù)據(jù)集的格式,以便后期對(duì)樣本庫(kù)進(jìn)行學(xué)習(xí)訓(xùn)練。按照慣例,將樣本庫(kù)中的圖像隨機(jī)分為兩組,其中1 400張用于訓(xùn)練,剩下600張用于測(cè)試,分別共包含3 159和1 344個(gè)坦克裝甲目標(biāo)。目前該數(shù)據(jù)集中的樣本數(shù)量和類型還不夠豐富,后續(xù)工作中還將對(duì)其進(jìn)行完善。

圖2 坦克裝甲目標(biāo)測(cè)試集中的部分樣本圖像Fig.2 Examples of tank and armored target test set
根據(jù)館藏《麥華三小楷書黎暢九李鐵夫生軼事并跋》內(nèi)容,文中提到的李鐵夫的9幅水彩畫作品現(xiàn)均藏我館。②這組水彩作品材質(zhì)均為宣紙,但構(gòu)圖和用色方式與其它水彩畫一致。此外,歸入水彩的藏品中還有2幅也確認(rèn)是在宣紙上用水彩完成。
1.4 統(tǒng)計(jì)學(xué)分析 運(yùn)用SPSS 18.0軟件對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)分析,數(shù)據(jù)均符合正態(tài)分布,計(jì)量資料以表示,數(shù)據(jù)比較采用獨(dú)立樣本t檢驗(yàn),計(jì)數(shù)資料以例(%)表示,數(shù)據(jù)比較采用χ2檢驗(yàn),P<0.05為差異有統(tǒng)計(jì)學(xué)意義。
由于CNN每一層的特征圖對(duì)應(yīng)不同大小的感知區(qū)域,每一個(gè)參與提取建議區(qū)域的卷積層負(fù)責(zé)提取不同尺度的建議區(qū)域。例如,第3個(gè)卷積層(conv3-3)負(fù)責(zé)提取最小尺度的目標(biāo),第5個(gè)池化層用來(lái)提取最大尺度的目標(biāo)。這種提取方式可能導(dǎo)致在某一個(gè)卷積層上正樣本數(shù)量的不足,即|S-|?α|S+|,將導(dǎo)致訓(xùn)練的不穩(wěn)定。因此,本文對(duì)分類損失函數(shù)的權(quán)重進(jìn)行了修改:
表1展示了各卷積層提取的初始建議區(qū)域?qū)δ繕?biāo)的有效召回率。從表1可以看出,盡管各層所提取的初始建議區(qū)域只對(duì)相應(yīng)尺寸的目標(biāo)具有較高的召回率,但通過(guò)對(duì)各卷積層的結(jié)合使用,對(duì)所有尺寸的目標(biāo)總的召回率達(dá)到了92.9%,從而證明了這種建議區(qū)域提取方法的有效性。
圖3比較了本文的建議區(qū)域提取方法與Faster R-CNN所采用的RPN提取方法使用不同數(shù)量建議區(qū)域時(shí)的召回率。由圖3可知,在使用相同數(shù)量的建議區(qū)域時(shí),本文提取方法相比于RPN擁有更高的召回率(數(shù)量超過(guò)500個(gè)時(shí)兩種方法的召回率持平)。本文的提取方法只需使用得分前100的建議區(qū)域,即可達(dá)到較高的召回率(92.9%),RPN則需要使用超過(guò)500個(gè)建議區(qū)域才能達(dá)到同等水平。使用較少的建議區(qū)域?qū)⒂欣跈z測(cè)速度的提升,因此本文的提取方法更高效。圖4比較了使用100個(gè)建議區(qū)域時(shí),兩種方法在不同IoU閾值時(shí)對(duì)應(yīng)的召回率。由圖4可以看出:當(dāng)閾值被設(shè)定為0.5時(shí),RPN和本文的方法均取得了較高的召回率;當(dāng)設(shè)定的閾值超過(guò)0.7時(shí),RPN對(duì)應(yīng)的召回率下降幅度明顯超過(guò)本文方法。從而表明了本文方法生成的建議區(qū)域相比于RPN更加精確,其主要原因在于RPN在最后一個(gè)卷積層上提取建議區(qū)域,由于分辨率不足,導(dǎo)致其對(duì)小目標(biāo)的感知能力有限。本文在多個(gè)卷積特征圖上提取不同尺度的建議區(qū)域,針對(duì)各種尺度的目標(biāo)設(shè)計(jì)了相應(yīng)大小的提取窗口,因此提取的建議區(qū)域更為精確。

表1 初始建議區(qū)域?qū)δ繕?biāo)的召回率

圖3 不同數(shù)量建議區(qū)域?qū)?yīng)的召回率(IoU=0.7)Fig.3 Recall rates corresponding to different number of region proposals (IoU=0.7)

圖4 不同交除并重疊比對(duì)應(yīng)的召回率Fig.4 Recall rates corresponding to different IoUs
3.2.2 檢測(cè)精度和速度分析
表2比較了本文方法以及Faster R-CNN在坦克裝甲目標(biāo)數(shù)據(jù)集上的檢測(cè)精度與速度等性能指標(biāo)。從總的檢測(cè)精度來(lái)看,本文方法相比于 Faster R-CNN有7.4%的提升。從目標(biāo)的大小尺度進(jìn)行分析,盡管本文方法在大目標(biāo)(≥100像素)上相對(duì)于Faster R-CNN檢測(cè)率并無(wú)優(yōu)勢(shì),但對(duì)于小于50像素的小目標(biāo),相比Faster R-CNN有10%~20%的提升,印證了本文方法在小目標(biāo)檢測(cè)上的優(yōu)勢(shì)。從檢測(cè)速度來(lái)看,由于簡(jiǎn)化了全連接層,同時(shí)使用了更少的建議區(qū)域,對(duì)于1 024×768的輸入圖像,本文方法的檢測(cè)速度達(dá)到10幀/s,略快于Faster R-CNN. 此外,由于本文方法旨在檢測(cè)出更多的可疑目標(biāo),在提取最終目標(biāo)時(shí)設(shè)置了相對(duì)寬松的置信度閾值,導(dǎo)致本文方法的誤檢率達(dá)到4.2%,比Faster R-CNN高出1.3%. 圖5展示了本文方法在坦克裝甲目標(biāo)(tank)測(cè)試集上對(duì)部分樣本的檢測(cè)結(jié)果,其中紅形矩形區(qū)域?yàn)檎_檢測(cè)到的目標(biāo),圓形實(shí)線區(qū)域?yàn)槁z的目標(biāo),圓形虛線區(qū)域表示誤檢。
3.2.3 模型分解實(shí)驗(yàn)
第三,中美意識(shí)形態(tài)的根本分歧。中國(guó)并未按照美國(guó)在過(guò)去數(shù)十年一直抱有的期望發(fā)展,即隨著逐步融入美國(guó)和西方主導(dǎo)的國(guó)際體系,朝著西方期待的方向發(fā)展。20世紀(jì)初,美國(guó)為更多的占據(jù)中國(guó)的市場(chǎng)份額,打入中國(guó)市場(chǎng),給予中國(guó)最惠國(guó)待遇,幫助中國(guó)加入世界貿(mào)易組織。美國(guó)希望隨著中國(guó)經(jīng)濟(jì)市場(chǎng)化改革的深入,如東歐國(guó)家一樣,改旗易幟,走上資本主義道路。但由于中國(guó)開(kāi)辟了中國(guó)特色社會(huì)主義道路,經(jīng)濟(jì)社會(huì)發(fā)展穩(wěn)步前進(jìn),不斷突破,嚴(yán)重威脅了美國(guó)資本主義社會(huì)的經(jīng)濟(jì)霸主地位,導(dǎo)致其不得不轉(zhuǎn)變對(duì)華貿(mào)易政策,通過(guò)打壓社會(huì)主義中國(guó)的經(jīng)濟(jì),維護(hù)其資本主義自身的利益。
五、學(xué)習(xí)貫徹十七大,圍繞貼近基層服務(wù),在深入調(diào)研上下功夫。隨著改革的深化,大量勞動(dòng)關(guān)系中的矛盾發(fā)生的基層,因此,工會(huì)的組織工作重心也必須“下移”。師團(tuán)工會(huì)工作要圍繞“三貼近”——貼近實(shí)際、貼近群眾、貼近生活,有針對(duì)性地指導(dǎo)工作,夯實(shí)基礎(chǔ)。今后,師團(tuán)工會(huì)要進(jìn)一步轉(zhuǎn)變工作作風(fēng),深入基層、深入職工群眾,大興調(diào)查研究之風(fēng),做好職工熱點(diǎn)、疑點(diǎn)、焦點(diǎn)問(wèn)題化解,尤其要對(duì)帶傾向性、典型性的問(wèn)題進(jìn)行調(diào)研,為工會(huì)組織積極投入新型團(tuán)場(chǎng)建設(shè),提供理論指導(dǎo)及對(duì)策。□
為了進(jìn)一步驗(yàn)證本文方法的性能,在坦克裝甲目標(biāo)數(shù)據(jù)集上進(jìn)行模型分解實(shí)驗(yàn),分析文中使用的多種設(shè)計(jì)和訓(xùn)練方法對(duì)檢測(cè)結(jié)果的影響。測(cè)試使用的輸入圖像采用與上文相同的尺度(1 024×768),表3展示了模型分解實(shí)驗(yàn)的結(jié)果。由表3可以看出,本文使用的多種設(shè)計(jì)和訓(xùn)練方法均對(duì)檢測(cè)精度有一定的提升:使用分辨率更大的conv3-3卷積層來(lái)提取建議區(qū)域,增強(qiáng)對(duì)弱小目標(biāo)的感知能力;不使用conv3-3卷積層時(shí)檢測(cè)精度將下降2.5%;使用反卷積層增加了檢測(cè)子網(wǎng)絡(luò)特征圖的分辨率,使最終的檢測(cè)精度提升了2.8%;使用bootstrapping采樣方式增強(qiáng)了對(duì)困難負(fù)樣本的挖掘能力,能夠?qū)z測(cè)精度提升1.9%;在訓(xùn)練時(shí)對(duì)輸入圖像進(jìn)行多尺度的縮放,使檢測(cè)精度提升了2.3%。需要指出的是,這些方法并未對(duì)檢測(cè)速度造成較大的影響。本文嘗試了在測(cè)試時(shí)對(duì)輸入圖像進(jìn)行多尺度縮放,這種處理方式能夠?qū)z測(cè)精度提升1.7%,但檢測(cè)的速度也將大幅下降,因此并未被使用。
這時(shí),牛皮糖就撥開(kāi)眾人,沖到前面,手舞足蹈的和肉仔吵起來(lái)。大家都不再買肉,停在那里看。受不了吵鬧的老人就走開(kāi)到遠(yuǎn)點(diǎn)的肉攤上去了。

表2 在坦克裝甲目標(biāo)數(shù)據(jù)集上的測(cè)試結(jié)果
除了在坦克裝甲目標(biāo)數(shù)據(jù)集上進(jìn)行測(cè)試外,本文還在更通用的VOC2007數(shù)據(jù)集上對(duì)提出的方法進(jìn)行了測(cè)試,并將測(cè)試結(jié)果與Faster R-CNN進(jìn)行比較。為了公平比較,訓(xùn)練樣本集均由VOC2007-trainval和VOC2012-trainval構(gòu)成,測(cè)試樣本集為VOC2007-test。由于VOC2007和VOC2012中樣本圖像的像素大小約為500×375,本文沿用Faster R-CNN對(duì)輸入圖像的處理方式,在保持原有長(zhǎng)寬比例的條件下將其短邊縮放為600像素,在單一尺度下對(duì)樣本進(jìn)行訓(xùn)練和測(cè)試。此處采用的數(shù)據(jù)集相比于坦克裝甲目標(biāo)數(shù)據(jù)集有更多的樣本,因此訓(xùn)練時(shí)需要迭代更多的次數(shù):第一步訓(xùn)練,以0.000 1的學(xué)習(xí)率對(duì)建議區(qū)域提取網(wǎng)絡(luò)進(jìn)行40 000次迭代訓(xùn)練;第二步訓(xùn)練,將學(xué)習(xí)率增大至0.001,對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行80 000次迭代訓(xùn)練;隨后將學(xué)習(xí)率縮小至0.000 1,繼續(xù)進(jìn)行40 000次迭代訓(xùn)練。表4展示了兩種方法在VOC2007數(shù)據(jù)集上的測(cè)試結(jié)果。從總的檢測(cè)精度看,由于VOC2007數(shù)據(jù)集中包含了大量尺寸超過(guò)300像素的超大目標(biāo),本文方法相比于Faster R-CNN基本持平。從不同種類的檢測(cè)結(jié)果進(jìn)行分析:對(duì)于公交車、飛機(jī)、火車、馬等大物體種類,F(xiàn)aster R-CNN比本文方法的檢測(cè)精度更高;對(duì)于貓、小轎車、桌子、電視機(jī)等中等尺度的物體種類,本文方法和Faster R-CNN在檢測(cè)精度上基本持平;對(duì)于鳥、瓶子、植物等小物體種類,本文方法相比于Faster R-CNN有5%~10%的優(yōu)勢(shì)。這一結(jié)果與預(yù)期相符,由于本文方法的設(shè)計(jì)初衷是主要針對(duì)小于200像素的中小物體檢測(cè),提取建議區(qū)域的最大滑動(dòng)窗口大小僅為288×288,相比于Faster R-CNN中最大為768×437的錨點(diǎn)生成區(qū)域,對(duì)公交車和飛機(jī)等超大物體的檢測(cè)能力有一定的差距。然而,由于坦克裝甲車輛的觀測(cè)打擊距離較遠(yuǎn),這種超大目標(biāo)在實(shí)際情況中很難出現(xiàn)。

圖5 坦克裝甲目標(biāo)測(cè)試集上部分樣本檢測(cè)結(jié)果Fig.5 Example detection results of tank and armored target test set

項(xiàng)目結(jié)果conv3-3?√√√√√反卷積層√?√√√√bootstrapping√√?√√√輸入多尺度縮放(訓(xùn)練)√√√?√√輸入多尺度縮放(測(cè)試)?????√檢測(cè)精度/%66.766.467.366.969.270.9
注:“√”代表使用,“×”代表不使用。

表4 在VOC2007數(shù)據(jù)集上的測(cè)試結(jié)果
本文針對(duì)坦克裝甲目標(biāo)圖像檢測(cè)任務(wù),提出了一種基于深度CNN的多尺度目標(biāo)檢測(cè)方法。采用遷移學(xué)習(xí)的設(shè)計(jì)思路,在VGG-16網(wǎng)絡(luò)的基礎(chǔ)上針對(duì)目標(biāo)檢測(cè)任務(wù)對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)和參數(shù)進(jìn)行修改和微調(diào),結(jié)合建議區(qū)域提取網(wǎng)絡(luò)和目標(biāo)檢測(cè)子網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)目標(biāo)的精確檢測(cè)。針對(duì)小目標(biāo)在深層卷積特征圖上分辨率不足的問(wèn)題,在多個(gè)不同分辨率的卷積特征圖上提取不同尺度的建議區(qū)域,并在分辨率更高的卷積特征圖中提取目標(biāo),同時(shí)通過(guò)上采樣方式進(jìn)一步提升特征圖的分辨率。通過(guò)結(jié)合多尺度訓(xùn)練、困難負(fù)樣本挖掘等多種設(shè)計(jì)和訓(xùn)練方法,本文方法在構(gòu)建的坦克裝甲目標(biāo)數(shù)據(jù)集取得了優(yōu)異的檢測(cè)效果,目標(biāo)檢測(cè)的精度和速度均優(yōu)于目前主流的檢測(cè)方法Faster R-CNN.
筆者所設(shè)計(jì)的民族綜合信息大數(shù)據(jù)平臺(tái)資源庫(kù)管理系統(tǒng),可實(shí)現(xiàn)內(nèi)蒙古民族信息的統(tǒng)一管理和資源整合。隨著信息技術(shù)的發(fā)展,資源庫(kù)管理系統(tǒng)將進(jìn)一步推進(jìn)大數(shù)據(jù)平臺(tái)的發(fā)展,民族信息的管理體系也將隨之完善。
下一步工作將對(duì)所構(gòu)建的坦克裝甲目標(biāo)數(shù)據(jù)集進(jìn)行進(jìn)一步完善,同時(shí)將嘗試在深度CNN的基礎(chǔ)上采用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)視頻圖像的時(shí)序信息進(jìn)行處理,將單幀圖像的信息與幀和幀之間的變化信息進(jìn)行融合,從而對(duì)視頻圖像進(jìn)行更高效的目標(biāo)檢測(cè)。
References)
[1] 尹宏鵬, 陳波, 柴毅, 等. 基于視覺(jué)的目標(biāo)檢測(cè)與跟蹤綜述[J]. 自動(dòng)化學(xué)報(bào), 2016,42(10): 1466-1489. YIN Hong-peng, CHEN Bo, CHAI Yi, et al. Vision-based object detection and tracking[J]. Acta Automatica Sinica, 2016,42(10): 1466-1489. (in Chinese)
[2] 王鐵虎, 焦愛(ài)泉, 馮連仲, 等. 精確打擊作戰(zhàn)與裝甲裝備未來(lái)發(fā)展[J]. 兵工學(xué)報(bào), 2010,31(增刊2): 59-65. WANG Tie-hu, JIAO Ai-quan, FENG Lian-zhong, et al. Future development of armored equipment and precise attack operation [J]. Acta Armamentarii, 2010,31(S2): 59-65. (in Chinese)
[3] 郭明瑋, 趙宇宙, 項(xiàng)俊平, 等. 基于支持向量機(jī)的目標(biāo)檢測(cè)算法綜述[J]. 控制與決策, 2014, 29(2): 193-200. GUO Ming-wei, ZHAO Yu-zhou, XIANG Jun-ping, et al. Review of object detection methods based on SVM[J]. Control and Decision, 2014, 29(2): 193-200. (in Chinese)
[4] Felzenszwalb P, Girshick R, Allester D M, et al. Object detection with discriminatively trained part based models [J]. IEEE Tran-sactions on Pattern Analysis and Machine Intelligence, 2010, 32(9): 1627-1645.
[5] 吳青青,許廷發(fā),閆輝, 等. 復(fù)雜背景下的顏色分離背景差分目標(biāo)檢測(cè)方法[J]. 兵工學(xué)報(bào), 2013, 34(4): 501-506. WU Qing-qing, XU Ting-fa, YAN Hui, et al. An improved color separation method for object detection in complex background [J]. Acta Armamentarii, 2013, 34(4): 501-506. (in Chinese)
[6] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]∥Proceedings of the 2012 Advances in Neural Information Processing Systems. Cambridge, MA, US: The MIT Press, 2012: 1097-1105.
[7] Deng J, Dong W, Socher R, et al. ImageNet: a large-scale hierarchical image database[C]∥Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL ,US: IEEE, 2009: 248-255.
[8] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH,US: IEEE, 2014: 580-587.
[9] Uijlings J R, Sande V D, Gevers K E, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171.
[10] Everingham M, Van G L, Williams C K, et al. The Pascal visual object classes (VOC) challenge [J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[11] Girshick R. Fast R-CNN[C]∥Proceedings of the IEEE 14th International Conference on Computer Vision. Chile: IEEE, 2015: 1440-1448.
[12] Ren S Q, He K M, Girshick R B, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]∥Proceedings of the 2015 Advances in Neural Information Processing Systems. Cambridge, MA, US: MIT Press, 2015: 91-99.
[13] Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context [C]∥Proceedings of the 13th European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 740-755.
[14] Zeiler M D, Fergus R. Visualizing and understanding convolutional neural networks [C]∥Proceedings of the 13rd European Conference on Computer Vision. Zurich, Switzerland: Springer, 2014: 818-833.
[15] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [EB/OL]. (2015-04-10) [2016-11-15]. http:∥arxiv.orb/abs/1409.1556.
[16] Redmon J, Divvala S K, Girshick R B, et al. You only look once: unified, real-time object detection [EB/OL]. (2016-05-09) [2016-11-14]. http:∥arxiv.orb/abs/1506.02640.
[17] Liu W, Anguelov D, Erhan D, et al. SSD: single shot multi box detector [EB/OL]. (2016-03-30) [2016-11-15]. http:∥arxiv.orb/abs/1512.02325.
[18] Oquab M, Bottou L, Laptev I, et al. Learning and transferring mid-level image representations using convolutional neural networks[C]∥Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH,US: IEEE, 2014: 1717-1724.
[19] 石祥濱, 房雪鍵, 張德園, 等. 基于深度學(xué)習(xí)混合模型遷移學(xué)習(xí)的圖像分類[J]. 系統(tǒng)仿真學(xué)報(bào), 2016,28(1): 167-174. SHI Xiang-bin, FANG Xue-jian, ZHANG De-yuan, et al. Image classification based on mixed deep learning model transfer learning[J]. Journal of System Simulation, 2016, 28(1): 167-174. (in Chinese)
[20] LeCun Y, Boser B, Denker J, et al. Back propagation applied to hand written zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551.
[21] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]∥Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA, US: IEEE, 2015:1-9.
[22] Kong T, Yao A B, Chen Y, et al. HyperNet: towards accurate region proposal generation and joint object detection [EB/OL]. (2016-04-03) [2016-11-14]. http:∥arxiv.orb/abs/1604.00600.
[23] Bell S, Zitnick C L, Bala K, et al. Inside-outside net: detecting objects in context with skip pooling and recurrent neural networks [EB/OL]. (2015-12-14) [2016-11-14]. http:∥arxiv.orb/abs/1512.04143.
[24] Cai Z, Fan Q, Feris R, et al. A unified multi-scale deep convolutional neural network for fast object detection [EB/OL]. (2016-07-25) [2016-11-14]. http:∥arxiv.orb/abs/1607.07155.
[25] Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]∥Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA,US: IEEE, 2015: 3431-3440.
[26] Jia Y. Caffe: an open source convolutional architecture for fast feature embedding [EB/OL]. [2016-10-15]. http:∥caffe.berkeleyvision.org/2013.
[27] Hosang J, Benenson R, Dollar P, et al. What makes for effective detection proposals? [EB/OL]. (2015-08-01) [2016-11-14]. http:∥arxiv.orb/abs/1502. 05082.
ImageDetectionMethodforTankandArmoredTargetsBasedonHierarchicalMulti-scaleConvolutionFeatureExtraction
SUN Hao-ze, CHANG Tian-qing, WANG Quan-dong, KONG De-peng, DAI Wen-jun
(Department of Control Engineering, Academy of Armored Force Engineering, Beijing 100072, China)
TP391.413
A
1000-1093(2017)09-1681-11
10.3969/j.issn.1000-1093.2017.09.003
2016-11-14
總裝備部院校科技創(chuàng)新工程項(xiàng)目(ZXY14060014)
孫皓澤(1989—), 男, 博士研究生。E-mail: sunhz1989@163.com
常天慶(1963—), 教授, 博士生導(dǎo)師。 E-mail: changtianqing@263.net