俞汝劼,楊 貞,熊惠霖,2
(1.上海交通大學 電子信息與電氣工程學院,上海200240; 2.上海交通大學 計算機模式識別實驗室,上海 200240)
基于深度卷積神經網絡的航空器檢測與識別
俞汝劼1*,楊 貞1,熊惠霖1,2
(1.上海交通大學 電子信息與電氣工程學院,上海200240; 2.上海交通大學 計算機模式識別實驗室,上海 200240)
(*通信作者電子郵箱5100309349@sjtu.edu.cn)
針對軍用機場大尺寸衛星圖像中航空器檢測識別的具體應用場景,建立了一套實時目標檢測識別框架,將深度卷積神經網絡應用到大尺寸圖像中的航空器目標檢測與識別任務中。首先,將目標檢測的任務看成空間上獨立的bounding-box的回歸問題,用一個24層卷積神經網絡模型來完成bounding-box的預測;然后,利用圖像分類網絡來完成目標切片的分類任務。大尺寸圖像上的傳統目標檢測識別算法通常在時間效率上很難突破,而基于卷積神經網絡的航空器目標檢測識別算法充分利用了計算硬件的優勢,大大縮短了任務耗時。在符合應用場景的自采數據集上進行測試,所提算法目標檢測實時性達到平均每張5.765 s,在召回率65.1%的工作點上達到了79.2%的精確率,分類網絡的實時性達到平均每張0.972 s,Top-1錯誤率為13%。所提框架在軍用機場大尺寸衛星圖像中航空器檢測識別的具體應用問題上提出了新的解決思路,同時保證了實時性和算法精度。
深度學習;卷積神經網絡;航空器檢測;目標檢測識別
目標檢測識別是利用計算機技術對圖像進行解譯,并檢測識別出不同種類的目標和對象,是計算機視覺領域的一個主要研究方向,在以圖像為主體的智能化數據采集與處理中具有十分重要的作用和影響。它能夠有效地處理特定目標物體的檢測和識別、圖像的分類標注以及主觀圖像質量評估等問題。目前圖像檢測識別技術在圖像搜索、商品推薦、用戶行為分析以及人臉識別等互聯網應用產品中具有巨大的商業市場和良好的應用前景,同時在智能機器人、自動駕駛和無人機等高新科技產業以及生物學、醫學和地質學等眾多學科領域具有廣闊的應用前景[1]。而特定目標的檢測這種對于人來說是再簡單不過的任務,計算機卻很難直接得到圖像中的高層語義概念,也不清楚目標出現在圖像中哪個區域。圖像中的目標可能出現在任何位置,目標的形態可能存在各種各樣的變化,背景千差萬別,再加上遮擋問題、光照變化等眾多難點的存在,導致特定目標檢測并不是一個容易解決的任務,一直以來都是模式識別與計算機視覺研究領域中極為活躍的問題。
在傳統模式識別方法的系統框架中,通常需要相當專業的知識來設計一個特征提取模塊,把原始數據轉換成一個適當的特征表示或特征向量,之后則是利用合適的分類器,對輸入的樣本進行檢測或分類。因此傳統的模式識別方法會在特征選擇和分類器選擇上耗費研究人員絕大部分的精力。縱觀近十年關于目標檢測問題的研究,經典算法DPM(Deformable Parts Model)在方向梯度直方圖(Histogram of Oriented Gradient, HOG)特征[2]的設計思路上進行改進,連續獲得了三年PASCAL-VOC(Pattern Analysis, Statistical modelling and ComputAtional Learning Visual Object Classes)比賽的目標檢測冠軍[3];2009年Gall等[4]提出了一種霍夫森林(Hough Forest)算法,在隱式形狀模型(Implicit Shape Model, ISM)[5]的基礎上作了改進,訓練特定類目標的Hough Forest投票模型并根據各個部分對目標中心的投票結果,完成目標檢測任務。傳統的模式識別方法實現的目標檢測算法通常需要的訓練數據規模不大,時間成本較低,然而普遍具有對噪聲敏感、實時性低、模型泛化能力差等缺點。
深度學習作為機器學習的一個分支,屬于特征學習方法,計算機能夠自發地把原始數據通過一些簡單的非線性映射關系組合轉變成為更高層次、更加抽象的表達。并且通過足夠多的轉換組合,能學習到極為復雜的模型。與此同時,更深層的表達能夠強化輸入數據的判別性,并削弱不相關因素的影響[6]。2006年, Hinton等[7]第一次提出了深度學習的思想,主要提出了兩個觀點:1)多隱層的神經網絡具有強大的特征學習能力,通過訓練模型所提取的特征對原始輸入數據生成更抽象、更體現本質的表述,從而有利于解決特征可視化或分類問題;2)通過無監督學習算法實現一種稱作“逐層初始化”的方法,針對梯度在傳播過程中消失的問題,有效地降低深度神經網絡的訓練難度。隨后,深度學習的研究在學術界和工業界持續升溫,并且在語音識別、圖像識別和自然語言處理等領域獲得了突破性的進展。僅僅一年之后,基于卷積神經網絡(Convolutional Neural Network, CNN)的深度學習模型在大規模圖像分類任務上大幅提高了分類精度,掀起了深度學習研究的熱潮[1]。同時,基于卷積神經網絡解決目標檢測識別問題的研究熱度也呈現出爆發態勢的增長。在目標檢測領域,Ross Girshick于2014年發表的R-CNN算法[8],開創性地結合了Region-Proposal和CNN,將目標檢測任務轉化為圖像分類任務,在PASCAL VOC 2007數據集上的mAP(mean Average Precision)達到了58%。之后在此基礎上,改進版R-CNN——Fast R-CNN[9]和Faster-RCNN[10]被陸續提出,為該領域的發展作出了巨大貢獻。深度卷積神經網絡實現的目標檢測算法充分利用了圖形處理器(Graphics Processing Unit, GPU)等現代硬件優勢,實時性相對更高,同時得益于百萬甚至千萬級別的訓練樣本規模,模型的泛化能力和魯棒性也得到了顯著增強。
1.1 Hough Forest目標檢測
通過訓練特定目標類別的Hough Forest,由各個尺度不變特征轉換(Scale-Invariant Feature Transform, SIFT)特征patch對物體的中心位置投票,選取局部極值作為物體的中心。Hough Forest具有如下特點:1)葉子節點保存具有判別性的碼本,包含一個patch是來自物體還是來自背景,物體中心距離當前patch中心的位置的信息;2)建立Hough Forest可以優化投票性能,葉子節點投票時的不確定度將降低。
Hough Forest實現目標檢測算法流程如下:
1) 訓練部分。利用有監督的方式訓練Hough Forest:訓練數據特征提取;葉子節點存儲總的類別構成和偏移量以形成碼本;每個節點得到很多patch,如果達到成為葉子節點的標準,該節點作為葉子節點;否則進行二值測試,將節點上的patch拆分給子節點。
二值測試的過程:給定一些patch,其集合設為A,且A={pi=(Ii,ci,di)},其中,Ii表示第i個patch,ci為其類標,di為離中心的偏移量;均勻采樣得到一系列測試像素,然后隨機選擇最小化類別不確定性或者偏移量不確定性。類別不確定性表達式為:
U1(A)=|A|·Entropy({ci})
(1)
式中:Entropy({ci})定義為E({ci})=-c·logc-(1-c)·log(1-c),式(1)用來衡量類別不純度。
偏移量不純度表達式為:
(2)
均勻抽樣后產生一系列測試像素{tk},對其不確定性求和:
(3)
其中隨機選取可以保證葉子節點的類別不確定性和偏移量不確定性都比較低[11]。
2) 檢測部分。將測試圖像按尺度縮放,建立圖像金字塔,目的是提取不同尺度下的特征。
3) 將每一個特征patch輸入HoughForest各個尺度內進行投票。在Hough空間內搜索局部極值作為目標中心候選點。最后用非極大值抑制去除冗余目標中心,輸出目標。
本文選擇尺度不變性特征(SIFT)[12]實現針對航空器目標的HoughForest算法來作對比實驗。該算法相對其他的傳統目標檢測算法有一定速度上的優勢,但仍然有很多明顯的缺陷,比如對于大尺寸檢測圖像來說,建立多層圖像金字塔的空間和時間成本并不低;投票僅能實現對目標中心的預測,預設了同尺度下bounding-box的大小不變的前提。
1.2YOLO實時目標檢測
YOLO算法將目標檢測和識別作為回歸問題來解決,提出了一種端到端的算法同時完成這兩個任務[13]。
YOLO目標檢測算法流程如下:
1) 給定輸入圖像,將圖像劃分成7×7網格。
2) 對于每個網格,通過卷積神經網絡預測2個bounding-box。
3) 調整閾值去除置信度過低的目標,用非極大值抑制去除冗余bounding-box。
YOLO算法將目標檢測任務轉換成一個回歸問題,大幅提高了檢測的速度,達到了45frame/s。在網絡結構上,YOLO采用了24層卷積層加2層全連接層的結構,因此最終的分類器能夠很好地整合圖像的全局信息,在充分的上下文關系幫助下,使得虛警出現的比例大幅降低。然而YOLO也存在一個關鍵問題:使用了7×7的網格回歸,導致目標定位誤差大,檢測精度受到限制,同時也無法檢測到過小的目標。
1.3AlexNet圖像分類網絡
AlexNet獲得了ILSVRC2012圖像分類第一名,是近幾年卷積神經網絡在圖像方面應用的里程碑式模型[14]。AlexNet采用了5層卷積層加3層全連接層的結構,相對卷積神經網絡的經典模型LeNet來說復雜了許多。AlexNet的網絡架構如圖1所示。AlexNet在細節處理方面結合了文獻[14]的改進方法,使用了ReLU作為激活函數,并使用了Dropout的方式防止過擬合現象。AlexNet中一層完整的卷積層包括了卷積、ReLU、Max-pooling以及Normalization四個部分。最后對訓練數據作了增量處理,再次降低了過擬合的風險。

圖1 AlexNet網絡結構
2.1 卷積神經網絡
卷積神經網絡是可以用作處理多維數組類型的數據的算法,三通道的RGB圖像就是一個典型的例子,它的四個關鍵部分分別是:局部連接、權值共享、池化以及多層卷積。
一個典型的卷積神經網絡結構由這樣一系列步驟組成:第一個階段包含卷積層和池化層,卷積層單元(卷積核)位于特征圖(FeatureMap)中,每一個卷積核通過一組權值和上一層的特征圖的某個局部塊作卷積,即局部連接;然后將這個加權和傳遞給一個非線性激活函數,例如Sigmoid函數或者ReLU。同一個特征圖中所有單元共享權值,不同層的特征圖則使用不同的權值,即權值共享。顯而易見,權值共享大大減少權重參數的數量。使用局部連接和權值共享能夠起作用主要是因為:通常一個特征點附近的值是高度相關的,可以形成比較容易被探測到的有區分性的局部特征;其次,不同位置局部統計特征不太相關,也就是說在一個地方出現的某個特征可能會出現在別的地方,所以不同位置的單元可以共享權值。卷積層的作用是感知上一層特征的局部連接,然而池化層的作用則是在語義上把相似的特征合并起來,因為形成同一個主題的特征的相對位置通常會不太一樣。池化單元一般會計算特征圖中某一個局部塊的最大值,相鄰的池化單元通過移動一行或者一列來從塊上讀取數據。多個卷積層、非線性變換以及池化層串聯起來,最后再加上全連接層,就構成了一組卷積神經網絡的主體。在實際應用中,往往使用多層卷積的方式,因為層數越多,越能學習到更高語義的特征。
神經網絡所利用的很多自然信號是具有明顯層級特征的屬性,其中高級的特征是通過對低級特征的組合來實現的。在圖像中,邊緣的組合形成基本圖案,這些圖案形成物體的局部,然后再構成物體。這種層級結構也存在于語音數據以及文本數據中,如:電話中的聲音和音節、文檔中的單詞和句子。當輸入數據在前一層中的位置有變化的時候,池化操作使得這些特征表示對這些變化具有魯棒性。卷積神經網絡中的卷積和池化層靈感直接來源于視覺神經科學中的簡單細胞和復雜細胞[15],它們以LNG-V1-V2-V4-IT層級結構形成視覺回路[16]。卷積神經網絡與神經認知的架構有點相似[17],不過在神經認知中并沒有類似反向傳播算法這種端到端的監督學習算法。
2.2 航空器檢測識別
本文所設計框架的應用場景是:針對對地衛星拍攝的包含軍用機場的大尺寸光學圖像,需要分別輸出航空器目標的定位框和航空器類型識別結果。受限于應用場景的規定,本框架需要分別完成bounding-box檢測和類型識別兩個模塊,并各自配有可視化輸出。由于項目對目標檢測的要求較高,提高檢測率的同時還要保證實時性。與此同時,通過觀察數據集,發現各類的訓練數據不均衡,因此直接采用檢測-識別同時完成的框架,會導致檢測率和識別率大幅降低。綜合考慮各個因素,本文提出了融合兩個網絡來完成航空器目標檢測識別任務。
如圖2所示,本文算法流程大致可分為預處理輸入圖像、目標檢測、類型識別、以及輸出綜合結果四個階段。

圖2 本文算法流程
2.2.1 檢測網絡
檢測部分,本文在YOLO算法的基礎上作了改進,YOLO關鍵問題是采用網格分割圖像導致的檢測精度下降以及檢測過小目標的問題。
圖3給出了目標檢測部分的網絡架構,由24個級聯的卷積層以及2個全連接層構成。
針對實際應用場景,本文主要有兩點改進:1)簡化Prediction-Tensor,同時增加網格數量,在保證參數基本不增加的情況下完成更為精確的bounding-box預測。2)在預處理部分對圖像作參數自適應的帶重疊區域分割,使分割后的圖像保持與網絡輸入層的目標尺寸接近,這樣做能有效防止在縮放過程中出現過小目標因而無法檢測。同時,帶重疊區域的分割策略能避免目標被錯分割,從而影響檢測結果。圖4給出了預處理過程中分割步驟的例圖,本例中對原圖進行了2×5的分割策略。

圖3 目標檢測網絡結構

圖4 分割預處理示意圖

Prediction-Tensor維度的計算公式為:
P=S×S×(B×5+C)
(4)
其中:S×S為網格數;B為每個網格所預測的bounding-box數;C則是網絡監測目標的類別數。由于簡化了檢測網絡中的類別數C=1,降低了該向量Prediction-Tensor的維數,最終其維數為1 100。
在激活函數的選擇上,本文參考了PReLU(Parametric ReLU)[18],使用了如下形式的函數:
(5)
其中:yi是非線性函數f(yi)的輸入;ai協同作用在函數非正區域的效率上,是各個通道下網絡在訓練過程中學習到的參數。雖然使用ReLU一定程度上增加了參數的個數,這與整個網絡所需要學習的參數個數相比是可以忽略的,因此由ai增加的過擬合風險可以忽略。
訓練過程中對ai的更新加入了動量μ,如式(6):
Δai:=μΔai+δε/(δai)
(6)
損失函數(lossfunction)的作用是估計模型的預測值與真值的差別,它是經驗風險函數的核心部分,也是結構風險函數重要組成部分,通常被設計為一個非負實值函數,損失函數越小,模型的性能就越好。模型的學習過程可以認為是一個最優化目標損失函數的過程。在損失函數的設計上,本文采用的是較易優化的誤差平方和,來對模型進行訓練。簡單的誤差平方和應用在本文的Prediction-Tensor上有較大的缺陷——會對存在與不存在目標的兩種網格的得分同等對待,由于實際應用中大部分網格不存在目標,這就導致了存在目標的網格作用被放大,大部分網格的得分趨向于0,訓練過程過早發散,無法收斂。因此在loss函數中加入了權重因數λc和λn來調整兩類網絡的誤差平方和,其中λc∶λn=10∶1。
損失函數表達式floss如下:
2.2.2 分類網絡
在目標分類任務中可以使用多種典型圖像分類網絡,包括:AlexNet、CaffeNet、GoogleNet[19]、VGGNet、ResNet等。針對應用場景本文參考了AlexNet和ResNet-50兩種網絡結構來實現分類任務。
為了盡量防止過擬合問題發生,本文同樣采用了數據擴充的策略。每一張來自上一級目標檢測網絡輸出的圖像都經過了固定倍數的數據擴充,同時這也能改善自采數據集數據規模過小帶來的問題。圖5簡要表述了數據擴充部分中的3個處理階段。

圖5 數據擴充流程圖
訓練過程中同樣加入了Dropout,目的是在模型訓練時隨機讓網絡某些隱含層節點的權重不工作。不工作的那些節點可以暫時認為不是網絡結構的一部分,但是下次樣本輸入時它可能會重新工作,所以它的權重依然會被保留下來。這種策略一定程度上減少了每次迭代訓練中參數的個數,可以有效防止過擬合現象的發生。
本文的激活函數使用PReLU函數,和上一級網絡保持一致。在卷積神經網絡中,Pooling層總結了同一核映射中鄰近神經元組的輸出。通過鄰接Pooling單元總結的鄰近關系不重疊,也就是說一個Pooling層可以被認為是由間隔S像素的Pooling單元網格組成,每個網格輸出一個Z×Z大小的鄰近關系,均位于Pooling單元的中心位置。本文參考AlexNet的設計,在Pooling層中設定了S 圖6給出了分類網絡中的第一個卷積層所提取的圖像特征的可視化結果,可以看到較淺的卷積層提取的特征信息基本上是邊緣等底特征,具象且容易理解。 圖6 第一卷積層可視化 針對本文的應用場景,測試該框架所使用的數據集為自采數據集,經過增量處理后,包含19 600張帶標注數據的統一尺寸機場圖像,共計35 110個標注目標。10 846張獨立航空器切片,分類目標為運輸機、轟炸機、戰斗機、預警機、直升機以及民用客機。數據集中訓練和測試數據比例為8.5∶1.5。圖7(a)、(b)顯示了該框架中兩個模塊的輸出結果,圖7(c)顯示了檢測實驗中所采用對比方法Hough Forest的檢測效圖。 圖7 目標檢測和類型識別輸出結果 實驗平臺硬件及操作系統信息如表1所示。 表1 實驗平臺信息 目標檢測階段在該數據集上的對比測試結果如圖8和表2所示。 考慮到應用場景限制,航空器目標檢測部分實驗忽略了Bounding-box的IOU,僅考察了目標的召回率(recall)和精確率(precision)。檢測時間計算為檢測整幅圖像所耗的時間,對比算法均使用C++實現,其中R-CNN和本文檢測算法基于caffe架構實現。 從圖8以及表2可以看出,由于充分利用了GPU并行計算的性能優勢,本文算法的實時性能相對僅僅基于CPU計算的傳統目標檢測算法DPM和Hough Forest有很大的提升。同時,區別于同為卷積神經網絡實現的R-CNN算法,本文算法直接將網格化后的原圖像進行bounding-box的回歸預測,端到端的算法流程在實時性能上也有了顯著提升。 圖8 目標檢測精確率-召回率曲線 算法召回率/%精確率/%平均時間/sDPM64.655.316.649HoughForest68.332.836.373R?CNN66.791.920.491本文算法65.179.25.765 類型識別部分實驗中,由于總類數僅有6類,所以僅考察了兩種網絡下的Top-1分類錯誤率(Top-1分類錯誤率指的是模型預測出最高置信度的類別不正確的比例),反映了該分類模型的精確率;并且比較了平均每張切片的分類時間,兩種網絡均基于caffe架構實現。表3給出了類型識別階段在該數據集上的實驗結果,可以看出,對于此類規模的數據集,卷積神經網絡在圖像分類問題上達到了較高的正確率,其性能相對于傳統的模式識別方法有顯著優勢;網絡的深度增加也在一定程度上提升了模型的泛化能力,同時帶來的還有計算資源開銷的大幅上升,因此在具體應用問題中需要權衡這兩點來設計合適的網絡模型。 表3 類型識別實驗結果 本文提出了一套針對具體應用場景的目標檢測識別系統框架,滿足了應用場景中同時需要目標位置和目標內容兩組輸出的要求,并應用到自采數據集上開展了實驗。系統主要由一個檢測網絡和一個識別網絡級聯而成,需要根據要求的精確率和實時性來權衡選擇具體的網絡模型,比如在識別網絡中AlexNet的精度較ResNet低了接近15%,但是在實時性上則提高了超過50%。本文的檢測網絡與部分檢測算法進行了對比,精度處在一個可接受范圍內,而實時性則有大幅度提升。實驗驗證,對于實時性要求較高并且樣本是大尺寸圖片的應用問題來說,本文提出了一種可行的解決思路。 由于目前還無法從公開途徑獲取到聚焦于軍用機場上多類型航空器檢測任務的公開數據集,本文僅在自采數據集上進行了實驗,因此其結果還存在一定的局限性,無法反映算法在更大規模數據集上的泛化性能。其次,本文基于深度神經網絡實現的算法其效率很大程度上依賴于計算硬件的水平,因此在不同等級的計算硬件上表現差異巨大,如何優化算法,降低對硬件計算能力的要求是下一步的研究方向。 References) [1] 盧宏濤,張秦川.深度卷積神經網絡在計算機視覺中的應用研究綜述[J].數據采集與處理,2016,31(1):1-17.(LU H T, ZHANG Q C. Applications of deep convolutional neural network in computer vision [J]. Journal of Data Acquisition and Processing, 2016, 31(1): 1-17.) [2] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// CVPR’05: Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2005: 886-893. [3] FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D. Cascade object detection with deformable part models [C]// Proceedings of the 2010 IEEE conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2010: 2241-2248. [4] GALL J, LEMPITSKY V. Class-specific hough forests for object detection [M]// Decision Forests for Computer Vision and Medical Image Analysis. London :Springer, 2013: 143-157. [5] LEIBE B, LEONARDIS A, SCHIELE B. Combined object categorization and segmentation with an implicit shape model [EB/OL]. [2016- 09- 10]. http://vision.stanford.edu/cs598_spring07/papers/LeibeSchiele2004.pdf. [6] LECUN Y, BENGIO Y, HINTON G. Deep learning [J]. Nature, 2015, 521(7553): 436-444. [7] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [J]. Science, 2006, 313(5786): 504-507. [8] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 580-587. [9] GIRSHICK R. Fast R-CNN [C]// ICCV’15: Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1440-1448. [10] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [C]// Proceedings of the 2015 International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 91-99. [11] 尤瑋,戴聲奎.基于多特征與改進霍夫森林的行人檢測方法[J].計算機工程與設計,2014,35(10):3538-3544.(YOU W, DAI S K. Pedestrian detection algorithm using multiple features and improved Houghforest [J]. Computer Engineering and Design, 2014,35(10): 3538-3544.)[12] LOWE D G. Distinctive image features from scale-invariant keypoints [J]. International Journal of Computer Vision, 2004, 60(2): 91-110. [13] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 779-788. [14] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// NIPS’12: Proceedings of the 2012 25th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2012:1097-1105. [15] HUBEL D H, WIESEL T N. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex [J]. Journal of Physiology, 1962, 160(1): 106-154. [16] FELLEMAN D J, VAN ESSEN D C. Distributed hierarchical processing in the primate cerebral cortex [J]. Cerebral Cortex, 1991, 1(1): 1-47. [17] FUKUSHIMA K, MIYAKE S. Neocognitron: a new algorithm for pattern recognition tolerant of deformations and shifts in position [J]. Pattern Recognition, 1982, 15(6): 455-469. [18] HE K M, ZHANG X Y, REN S Q, et al. Delving deep into rectifiers: surpassing human-level performance on imagenet classification [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1026-1034. [19] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-9. This work is partially supported by the National Natural Science Foundation of China (61375008). YU Rujie, born in 1992, M. S. candidate. His research interests include image interpretation and evaluation. YANG Zhen, born in 1985, Ph. D. candidate. His research interests include pattern recognition, computer vision. XIONG Huilin, born in 1964, Ph. D., professor. His research interests include non-linear pattern recognition and machine learning based on kernel method, image processing, computer vision, bioinformatics. Aircraft detection and recognition based on deep convolutional neural network YU Rujie1*, YANG Zhen1, XIONG Huilin1,2 (1.SchoolofElectronicInformationandElectricalEngineering,ShanghaiJiaoTongUniversity,Shanghai200240,China; 2.ComputerPatternRecognitionLaboratory,ShanghaiJiaoTongUniversity,Shanghai200240,China) Aiming at the specific application scenario of aircraft detection in large-scale satellite images of military airports, a real-time target detection and recognition framework was proposed. The deep Convolutional Neural Network (CNN) was applied to the target detection task and recognition task of aircraft in large-scale satellite images. Firstly, the task of aircraft detection was regarded as a regression problem of the spatially independent bounding-box, and a 24-layer convolutional neural network model was used to complete the bounding-box prediction. Then, an image classification network was used to complete the classification task of the target slices. The traditional target detection and recognition algorithm on large-scale images is usually difficult to make a breakthrough in time efficiency. The proposed target detection and recognition framework of aircraft based on CNN makes full use of the advantages of computing hardware greatly and shortens the executing time. The proposed framework was tested on a self-collected data set consistent with application scenarios. The average time of the proposed framework is 5.765 s for processing each input image, meanwhile, the precision is 79.2% at the operating point with the recall of 65.1%. The average time of the classification network is 0.972 s for each image and the Top-1 error rate is 13%. The proposed framework provides a new solution for application problem of aircraft detection in large-scale satellite images of military airports with relatively high efficiency and precision. deep learning; Convolutional Neural Network (CNN); aircraft detection; target detection and recognition 2016- 10- 12; 2017- 02- 10。 基金項目:國家自然科學基金資助項目(61375008)。 俞汝劼(1992—),男,上海人,碩士研究生,主要研究方向:圖像解譯與評估; 楊貞(1985—),男,山東菏澤人,博士研究生,主要研究方向:模式識別、計算機視覺; 熊惠霖(1964—),男,湖北黃岡人,教授,博士,主要研究方向:基于核方法的非線性模式識別和機器學習、圖像處理、機器視覺、生物信息學。 1001- 9081(2017)06- 1702- 06 10.11772/j.issn.1001- 9081.2017.06.1702 TP391.41 A
3 實驗結果與分析





4 結語