自然環境下多類水果采摘目標識別的通用改進SSD模型

2018-08-22 03:18:28彭紅星邵園園李澤森張朝武熊俊濤

農業工程學報 2018年16期

彭紅星，黃博，邵園園，李澤森，張朝武，陳燕，熊俊濤※

（1. 華南農業大學數學與信息學院/南方農業機械與裝備關鍵技術教育部重點實驗室，廣州 510642；2. 山東農業大學機械與電子工程學院，泰安 271018；3. 華南農業大學工程學院，廣州 510642）

0 引言

自然環境下的水果識別檢測是利用計算機視覺技術獲取水果目標位置信息，并將獲得的位置信息傳遞給水果采摘機器人的機械手臂，從而能夠精確地進行后續的水果采摘工作[1]。因此，水果的目標檢測是水果采摘自動化領域的重要組成部分，近些年來，很多傳統水果檢測識別算法相繼提出。

Ji等[2]研究了基于區域生長和顏色特征分割的方法，通過支持向量機識別提取的蘋果顏色和形狀特征，但是對于葉面遮擋引起的平均誤差率較大；Si等[3]設計一種雙目立體視覺的采摘機器人，通過RGB顏色通道色差R-G閾值和色差比例(R-G)/(G-B)定位蘋果的像素位置，并通過隨機環方法確定水果的二維信息，然而需要水果進行復雜的預處理且很難確定水果圖像面積閾值；Lu等[4]提出了一種基于顏色信息和輪廓片段的柑橘識別方法，采用融合色差信息和歸一化RGB模型的分割技術，通過對分割果實片段的橢圓擬合分析達到室外自然光照下的識別目的，但是在初步分割階段未排除光照影響；Wang等[5]利用小波變換歸一化荔枝圖像減小光照影響，并采用基于顏色K-means聚類算法從樹葉和枝干中分割出荔枝圖像，雖然在沒有遮擋的情況能夠達到較高的識別率，但是沒有考慮到荔枝簇類生長的特性；Lü等[6]采用基于徑向基核函數的多分類支持向量機從樹葉和枝干中分割出柑橘果實，然而水果區域的訓練像素選取非自適應且對小目標水果識別不佳；Zhao等[7]應用殘差變換絕對值和的塊匹配方法檢測潛在的柑橘果實像素，構建一個支持向量機實現較高的識別精確率，但是對于遮擋以及光照不均勻水果的識別表現不佳。

通常自然環境下獲取的果蔬圖像都具有較大的差異性和復雜的背景噪聲，上述傳統的圖像識別模型受限于自身算法的局限性，無法找到通用的特征提取模型，只能設計識別檢測一種特定水果，泛化性不強，算法沒有得到很好的推廣。Krizhevsky等[8]提出AlexNet卷積神經網絡（convolutional neural network，CNN）架構在分類識別中嶄露頭角，對圖像的識別精度具有里程碑式的貢獻。CNN具有非線性特征表達能力強，泛化性能好等優勢，能夠很好地完成物體的識別檢測任務，已用于水果識別[9]和病蟲害的檢測[10-12]。近年來，相關研究人員利用不同深度架構[13-14]的CNN不斷刷新圖像分類、識別的精確率，水果圖像檢測技術也得到了進一步的發展。Suchet等[15]提出多尺度多層感知器和卷積神經網絡 2種特征提取算法對蘋果進行分割，但是只針對單類水果進行識別；傅隆生等[16]利用參數優化和結構約簡的 LeNet模型對田間環境下的獼猴桃進行自主特征學習，但對于遮擋和重疊果實沒有達到很好的效果；Sa等[17]和熊俊濤等[18]采用Faster R-CNN深度卷積神經網絡分別構建甜椒和柑橘檢測系統，但其目標檢測框過大，易導致目標檢測不夠精準；Liu等[19]提出基于CNN的SSD（single shot detector）深度學習物體檢測方法，實現兼顧速度的同時提高了檢測的精度，有學者對其做了進一步的改進[20-23]。

本文以蘋果、荔枝、臍橙、皇帝柑 4種水果為研究對象，對自然環境下采集的多類水果圖像進行識別檢測技術研究，提出一種結合ResNet的SSD深度檢測改進框架，并訓練端到端的識別檢測推理模型，通過對水果識別的多組試驗對比，以期實現簡化特征提取過程的同時提高了水果識別的精度及其魯棒性，為自然環境下的水果采摘技術提供參考。

1 試驗材料

本文試驗的荔枝、皇帝柑圖像于2017年6月和12月使用Canon EOS 60D相機采集自廣東省廣州市，圖像分辨率為5 184×3 456像素，蘋果、臍橙圖像于2017年6月和 12月使用手機采集自甘肅省天水市和江西省贛州市，圖像分辨率為3 024×4 032像素。在原始數據集基礎上經過預處理縮放到表 1中的大小，以減小后期特征提取時對硬件處理的壓力，并將處理后的數據集按照廣泛使用的PASCAL VOC[24]競賽的數據集格式分為如表1所示的訓練集、驗證集和測試集，訓練集是隨機從整體數據集中獨立同分布采樣得到，且測試集和驗證集互斥，保證了后期評價標準的可靠性。驗證集用于訓練過程中確定模型中的超參數，而測試集用于評估模型的泛化能力。

表1 水果數據集種類及數量Table 1 Category and quantity of fruit data sets

數據集的標注包含感興趣區域的 4元組參數（Xmin,Ymin,Xmax,Ymax），分別表示標注框的左上角和右下角的坐標，用于評測模型精確度時根據輸出框與標注框重合率大小判定匹配分數，為網絡模型提供了預定義輸出。訓練集標注的優劣在一定程度上決定了模型檢測的精度，因此訓練集中標注的水果圖像應該盡可能的覆蓋各種光照、角度、大小的變化。

在用于自然環境下的水果識別檢測過程中，該文采用端到端的檢測模型，首先利用ImageNet數據集上的預訓練模型對水果的訓練圖集進行訓練，得到目標檢測推理模型，然后利用訓練性能好的模型進行水果的檢測測試，得到檢測結果。

2 水果檢測模型結構

2.1 經典SSD深度學習模型

SSD物體檢測框架基于前饋卷積網絡，在多層特征圖中產生固定大小的邊界框集合和框中對象類別的置信度，假設以表示第i個默認框與類別p的第j個真實標簽框相匹配，相反的不匹配則 0pijx= 。根據上述匹配策略，當時意味著有多于一個與第j個真實標簽相匹配的默認框。檢測框架的總體目標損失函數用式（1）中位置損失（Lloc）和置信損失（Lconf）的加權和表示。

式中c是Softmax函數對每類別的置信度，N是匹配默認框的數量，權重項α通過交叉驗證設置為1。位置損失是預測框（l）和真實標簽框（g）之間的平滑L1損失，可表示為

SSD的預測框和真實標簽框之間的偏移回歸類似于Faster R-CNN[25]方法，其中 box={cx、cy、w、h}表示預測框中心坐標及其寬高，可用平移量dicx、dicy和尺度縮放因子獲取真實標簽的近似回歸預測框(上標m表示cx、cy、w、h)，表示為

置信損失可用如式（4）表示，其中表示類別p的第i個默認框置信度，

SSD框架如圖1所示，使用全卷積層的VGG16作為基礎網絡[26]直接作用特征圖預測多目標類別和外圍框。由于采用了單點多框檢測方法，避免如Faster R-CNN中使用的候選區域方法，權衡了檢測的精度和實時性，即使對輸入相對較低分辨率的圖像也有很好地檢測效果。

圖 1所示 SSD 針對 Conv4_3、FC7、Conv8_2、Conv9_2、Conv10_2和Conv11_2特征層的每一個單元按照不同長寬比分別提取4到6個默認框，最終獲取8 732個默認框，訓練階段利用式（1）為預測框做坐標偏移的回歸分析，使其盡可能接近標注框。測試階段每一個默認框都和標注框進行重疊率匹配，并按照匹配分數從高到低排序，利用極大值抑制[26]的方法，將檢測結果進行約簡。

2.2 改進的SSD深度學習水果檢測模型

深度卷積神經網絡使得圖像的識別率相比傳統的識別方法有了長足的進步，從 AlexNet的 8層網絡到VGG的16層網絡，更深的卷積網絡整合了不同層次的特征。相關研究也表明可以通過增加網絡層數豐富特征，Simonyan等[27]證明識別的精度隨著網絡深度的加深而提高，然而反向傳播時梯度爆炸導致簡單的堆疊卷積層并不能順利地訓練網絡。有研究通過批量歸一化[28]和dropout[8]技術使得有限的深層能夠繼續訓練，但在一定的訓練迭代之后出現精度的飽和導致精度下降問題依然存在。

圖1 SSD檢測框架Fig.1 single shot multi-boxdetector (SSD) detection model

為突破網絡在深層網絡精度退化和網絡深度上的限制，He等[29]借助恒等映射的概念，提出深度殘差（ResNet）模型，利用多層網絡擬合一個殘差映射解決了退化問題。假設H(X)表示目標最優解映射，用堆疊的非線性層擬合另一個映射F(X)（如圖2所示），可用式（5）表示。

此時原最優解映射H(X)就可以等價為F(X)+X，即圖2中所示前饋網絡中的快捷連接實現，快捷連接的方式可以用式（6）表示，其中X表示模塊的輸入向量，Y表示模塊的輸出向量，Wi表示權重層參數，當輸入和輸出維度一致時需要增加一個線性投影Ws來匹配維度。

圖2 殘差學習模塊Fig.2 Residual learning block

ResNet-101由如圖2所示的結構相同的101個模塊重復堆疊構成，該文將VGG16輸入模型替換為101層殘差網絡ResNet-101，對經典SSD深度學習模型進行改進，改進后的檢測框架如圖3所示。

圖3 基于ResNet-101的改進SSD檢測框架Fig.3 Improved SSD detection framework based on ResNet-101

2.3 遷移學習

隨機初始化權值需要花費大量的時間將模型損失值收斂于穩定值。采用Xavier初始化方法[30]，則可以降低隨機設置初始權值帶來的網絡不穩定性。Jason等[31]通過網絡模型遷移試驗并可視化證明底層的卷積神經網絡能夠學習到物體的通用特征，例如邊緣、幾何變化、光照變化等，高層網絡能夠提取出特定任務的特征細節。相比Xavier初始化方法，遷移學習能夠在數據集較小的情況下快速適應新的任務。因此采用大數據集（ImageNet數據）下訓練好的預訓練模型，共享底層結構權值參數，然后修改模型的頂層網絡結構進行微調，可以克服不同數據集之間的差異性，在新的任務中將會快速的收斂于鄰域很小的損失值。本文采用在ImageNet數據集上預訓練的權重模型作為SSD檢測框架的初始權重模型，通過遷移學習的特征，進一步降低訓練的時間和資源。

2.4 數據增強

數據增強是一種可以在不降低檢測精度的情況下提高算法魯棒性的通用做法，特定場景和實際應用中，往往很難收集滿足各種條件的數據用于訓練和測試，因此許多目標檢測算法都采用數據增強的方式來評估所設計的算法泛化能力，常用的數據增強方法包括水平翻轉、平移、裁剪和顏色抖動等[8]。本文對采集的自然環境下的圖像數據進行數據增強操作以驗證模型的泛化能力。

3 模型訓練及結果分析

3.1 試驗平臺

Caffe是一款優秀的深度學習框架[32]，本文試驗基于該框架的模型接口部署，首先配置運行環境，根據現有的硬件設備能夠支撐的能力設置檢測模型的超參數，包括圖像批處理大小，輸入圖像的維數，基礎網絡的深度。該文運行的試驗環境和需要的軟硬件設備：Linux使用Ubuntu 16.04長期支持版、GPU采用 NVIDIA TITAN X、Caffe、CPU為Intel Core i7-6700，處理頻率為 3.4 GHz、CUDA 8.0版本并行計算框架配合CUDNN 5.1版本的深度神經網絡加速庫、Python版本為 2.7.12、內存選擇為16 GB并且使用500GB的機械硬盤。

3.2 模型訓練與結果分析

為了更好地顯示卷積神經網絡的運作流程，該文將特征提取的中間過程進行可視化操作，由于高層特征圖的維度較低，顯示特征較小，圖 4所示給出了卷積過程中根據最終的權重模型得到的卷積 Conv1_1層和池化Pool1層。Conv1_1層是推理模型特征提取之后第一層，從圖中可看出水果輪廓特征，證明了底層的包含大量的紋理信息，并且經過池化層之后特征輪廓未改變，進一步地降低了特征表達的維度，經過CNN的多層語義表達之后得到水果的目標區域。

圖4 SSD檢測過程可視化Fig.4 Visualizing of SSD detection process

3.2.1 試驗設計

試驗中，分析檢測效果比預期低的原因主要是因為輸入模型深度淺導致識別精度不高，數據集的規模小導致檢測泛化性不強，在測試集中存在大量的遮擋水果圖像，導致召回率低。針對以上問題，本文通過以下幾組試驗提升檢測精度：1）將 VGG輸入模型替換為ResNet-101分別進行模型識別對比；2）對原始訓練集進行水平翻轉進行數據增強以驗證模型的泛化能力；3）對不同遮擋比例圖像進行目標識別，分析模型的檢測精度。

3.2.2 試驗參數設置

本文試驗采用隨機梯度下降SGD（stochastic gradient descent）算法[33]將經典SSD深度學習框架部署在GeForce GTXTITAN X加速顯卡上訓練，訓練集進一步預處理縮放到300×300像素以減小整個網絡的參數量。

由于原始權重經過大數據集預訓練，因此試驗中將學習動量設為0.9，權重衰減為5×10-4，圖像批處理大小為16，學習率前3×104次迭代階段設置為10-4，后3×104次迭代設置為 3×10-5進行微調防止過擬合。24 h的訓練周期包含了預處理和后處理，生成的推理模型檢測每張大小為500×333像素左右的圖像速度維持在0.05 s左右，訓練過程的損失圖和查準率-召回率曲線圖如圖5所示，訓練損失圖在較短的迭代次數內能夠迅速收斂損失值，這得益于遷移學習在底層卷積層中的權重共享。此外如果使用浮點運算更高和顯存更大的加速顯卡，模型的收斂及檢測速度將進一步提高。

圖5 經典SSD模型訓練損失圖和檢測查準率-召回率（PR）圖Fig.5 Training loss map and precision-recall rate (PR)diagram of detection of classical SSD model

3.2.3 評價指標

查準率P（%）表示預測的檢測框中檢測正確的比例，召回率R（%）表示預測框正確框在所有標注框中的比例，可以表示為

式中TP為檢測到的相關數量，FP表示檢測到不相關數量，FN表示未檢測到不相關數量。

AP（average precision）是PR曲線在查準率基礎上對召回率的積分，mAP（mean average precision）表示多類物體的平均AP值，是測量網絡對目標物體敏感度的一種標準。mAP值越高就說明卷積神經網絡的識別精確度越高，但代價是檢測的速度將變慢，在圖5b中顯示了識別模型的PR曲線圖走勢為偏右上角的凸曲線，曲線在坐標軸上的積分越大表明mAP值越大，最終的mAP（平均AP值）達到86.38%，圖6所示為SSD檢測部分水果示例圖。

3.2.4 結果分析

表2和圖7為該文提出將101層堆疊的殘差模塊進行組合成的ResNet-101網絡替換SSD中原始的VGG16網絡后得到的對比結果。

圖6 SSD檢測示例圖像Fig.6 Sample pictures of SSD detection

表2 不同網絡SSD模型的檢測平均精確度Table 2 Detection average precision of with different networks SSD model

通過試驗對比分析可以看出，ResNet-101+SSD模型對各類水果的平均精度均有提升貢獻，需要注意的是網絡在創建凍結推理模型時丟棄了低于重疊聯合比閾值0.5的檢測結果，這相當于在檢測器的精確召回曲線上選擇一個點并且丟棄該點的一部分，這對mAP度量將會產生負面影響。

圖7 基于VGG16和ResNet-101網絡的SSD模型查準率-召回率對比Fig.7 Precision-recall rate of SSD models based on VGG16 and ResNet-101 networks

特征提取器的選擇至關重要，因為卷積層的參數和類型的數量直接影響檢測器的內存、速度和性能。圖 7和圖8所示分別為2種SSD模型的PR曲線和檢測對比試驗結果，從試驗結果中可以看到，通過改變網絡的深度和提取模型，該文提出的ResNet-101網絡模型最終的檢測結果比原始的VGG16模型檢測精度更高、效果也更好，在TITAN X顯卡加速下，相同的分辨率圖像檢測速度僅比VGG16的檢測速度低0.09 s左右，足以滿足水果識別檢測任務。

圖8 基于VGG16和ResNet-101網絡的SSD模型識別對比Fig.8 Comparison of SSD model recognition based on VGG16 and ResNet-101 network

卷積神經網絡自身擁有強大的表征能力，為了獲得良好的檢測效果，除了使用更好的模型，同時也需要海量的數據驅動模型的訓練，否則可能使模型陷入過擬合的窘境。本文對圖像數據進行水平翻轉數據增強操作，相當于數據量增加一倍，檢測結果如表2中所示。

試驗發現，經過翻轉數據擴充之后，2種網絡的檢測精度都有所增加，采用ResNet-101+SSD運用數據增強技巧將檢測精度提升了1.13個百分點后平均檢測精度可至89.53%，雖然精度的提升程度并不明顯，但是增加了檢測模型對水果圖像復雜環境下的魯棒性。

傳統的水果識別算法以顏色空間為基礎，首先進行復雜的特征提取預處理，再利用 SVM（support vector machine）等分類器進行分類判別將水果從背景中分割出來，然而由于樹葉、枝干和果實相互遮擋，傳統方法容易被環境因素干擾很難定位遮擋水果，給水果的識別檢測帶來了極大的困難。為了綜合判別不同遮擋情況下的檢測識別精確率，本試驗對每類水果隨機選取 100張圖像進行測試，按水果圖像不同的遮擋率（式（9））并給出了式（10）所示的F1值評價標準。

式中R′為遮擋率（%），Stotal為被遮擋的水果圖像還原擬合為無遮擋情況下的水果圖像總面積，Socclusion為被遮擋的面積，等于Stotal減去沒有被遮擋的水果面積Sfruit。

式中F1是查準率和召回率的加權平均，其值越大說明效果越好，反之越差，表3為F1值衡量檢測的結果，圖9為不同遮擋率下檢測示例。

表3 基于ResNet-101網絡不同遮擋比例的檢測精度Table 3 Detection precision with different occlusion ratio based on ResNet-101 network

圖9 部分遮擋檢測示例圖像Fig.9 Example picture of partial occlusion detection

通過圖 9所示部分遮擋示例以及得到的試驗數據發現，對于遮擋低于50%的情況下，4種水果的平均F1值能夠達到96.12%，其中皇帝柑和臍橙由于其果實較大，遮擋因素主要是樹葉和枝干，因此能夠在不同遮擋比例情況下保持較高的檢測識別率；但是對于荔枝這類串類水果受聚集生長的緣故，遮擋物主要是同類物體，檢測框容易包含2個果實，從而導致遮擋率超過75%時單個果實的檢測識別率不高，然而由于串類水果采摘時是以串為單位進行采摘的，檢測框中包含 2個果實并不影響對水果的采摘，故足以滿足水果自動化采摘的需要。

4 結論

該文以蘋果、荔枝、臍橙、皇帝柑 4類水果為研究對象，運用基于改進的SSD深度學習模型檢測技術對這4類水果進行檢測識別研究。

1）運用遷移學習的方法，將大數據集（ImageNet數據集）下的權重模型移植到多類水果檢測任務，大大降低了訓練的時間和資源，利用經典的SSD框架作為基本的深度學習網絡檢測的平均精度為86.38%。

2）采用ResNet-101替換SSD框架中的VGG16基本網絡，將水果的檢測精度從86.38%提高到了88.4%，運用數據增強技巧將檢測精度提升了1.13個百分點后平均檢測精度可至89.53%，針對遮擋率低于50%的水果檢測問題，改進后的SSD深度學習模型對這4類水果的檢測識別率F1值平均能夠達到96.12%。

3）訓練了端到端的檢測模型，相比傳統的識別算法，該文提出的基于改進的SSD深度學習框架的檢測技術不用針對不同水果圖像進行人工特征選擇，就可以同時對多類水果進行檢測識別，從而大大減少了工作量，提高了水果檢測識別的效率。

此外基于標注框的檢測技術，也可以很好地解決重疊水果的目標分割問題，從而為水果自動化采摘帶來新的思路。

[1]Edan Y, Han S, Kondo N. Automation in Agriculture[M].New York: Springer Publishing Company, 2009.

[2]Ji Wei, Zhao Dean, Cheng Fengyi, et al. Automatic recognition vision system guided for apple harvesting robot[J]. Computers& Electrical Engineering, 2012, 38(5): 1186－1195.

[3]Si Yongsheng, Liu Gang, Feng Juan. Location of apples in trees using stereoscopic vision[J]. Computers and Electronics in Agriculture, 2015, 112: 68－74.

[4]Lu Jun, Nong Sang. Detecting citrus fruits and occlusion recovery under natural illumination conditions[J]. Computers and Electronics in Agriculture, 2015, 110: 121－130.

[5]Wang Chenglin, Zou Xiangjun, Tang Yunchao, et al.Localisation of litchi in an unstructured environment using binocular stereo vision[J]. Biosystems Engineering, 2016,145: 39－51.

[6]Lü Q, Cai J R, Liu B, et al. Identification of fruit and branch in natural scenes for citrus harvesting robot using machine vision and support vector machine[J]. Int J Agric&BiolEng,2014, 7(2): 115－121.

[7]Zhao Chuanyuan, Won Suk Lee, He Dongjian. Immature green citrus detection based on colour feature and sum of absolute transformed difference (SATD) using colour images in the citrus grove[J]. Computers and Electronics in Agriculture, 2016, 124: 243－253.

[8]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012: 1097－1105.

[9]周云成，許童羽，鄭偉，等. 基于深度卷積神經網絡的番茄主要器官分類識別方法[J]. 農業工程學報，2017，33(15)：219－226.Zhou Yuncheng, Xu Tongyu, Zheng Wei, et al. Classification and recognition approaches of tomato main organs based on DCNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017,33(15): 219－226. (in Chinese with English abstract)

[10]楊國國，鮑一丹，劉子毅. 基于圖像顯著性分析與卷積神經網絡的茶園害蟲定位與識別[J].農業工程學報，2017，33(6)：156－162.Yang Guoguo, Bao Yidan, Liu Ziyi. Localization and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2017, 33(6): 156－162. (in Chinese with English abstract)

[11]孫俊，譚文軍，毛罕平，等. 基于改進卷積神經網絡的多種植物葉片病害識別[J]. 農業工程學報，2017，33(19)：209－215.Sun Jun, Tan Wenjun, Mao Hanping, et al. Recognition of multiple plant leaf diseases based on improved convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017,33(19): 209－215. (in Chinese with English abstract)

[12]譚文學，趙春江，吳華瑞，等. 基于彈性動量深度學習神經網絡的果體病理圖像識別[J]. 農業機械學報，2015，46(1)：20－25.Tan Wenxue, Zhao Chunjiang, Wu Huarui, et al. A deep learning network for recognizing fruit pathologic images based on flexible momentum[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(1): 20－25. (in Chinese with English abstract)

[13]Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1－9.

[14]Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[J]. In: Fleet D., Pajdla T., Schiele B.,Tuytelaars T. (eds) Computer Vision – ECCV 2014. ECCV 2014. Lecture Notes in Computer Science, vol 8689. Springer,Cham, 2014.

[15]Bargoti S, Underwood J P. Image segmentation for fruit detection and yield estimation in apple orchards[J].Journal of Field Robotics, 2017, 34(6): 1039－1060.

[16]傅隆生，馮亞利，ElkamilTola，等. 基于卷積神經網絡的田間多簇獼猴桃圖像識別方法[J]. 農業工程學報，2018，34(2)：205－211.Fu Longsheng, Feng Yali, ElkamilTola, et al. Image recognition method of multi-cluster kiwifruit in field based on convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(2): 205－211. (in Chinese with English abstract)

[17]Sa I, Ge Z, Dayoub F, et al. DeepFruits: A fruit detection system using deep neural networks[J]. Sensors, 2016, 16(8):1222.

[18]熊俊濤，劉振，湯林越，等. 自然環境下綠色柑橘視覺檢測技術研究[J]. 農業機械學報，2018，49(4)：45－52.Xiong Juntao, Liu Zhen, Tang Linyue, et al. Visual detection technology of green citrus under natural environment[J].Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(4): 45－52. (in Chinese with English abstract)

[19]Liu Wei, Anguelov D, Erhan D, et al. SSD: Single shot multiBoxdetector[J]. European Conference on Computer Vision, 2016: 21－37.

[20]Fu Chengyang, Liu Wei, Ranga Ananth, et al. Dssd:Deconvolutional single shot detector[EB/OL]. [2017-01-23].https://arxiv.org/abs/1701.06659.

[21]Cao Guimei, Xie Xuemei, Yang Wenzhe, et al.Feature-Fused SSD: Fast detection for small objects[EB/OL].[2017-09-15]. https://arxiv.org/abs/1709.05054.

[22]Li Zuoxin, Zhou Fuqiang. FSSD: Feature Fusion Single Shot Multibox Detector[EB/OL]. [2017-12-04]. https://arxiv.org/abs/1712.00960.

[23]Chen Yunpeng, Li Jianshu, Zhou Bin, et al. Weaving multi-scale context for single shot detector[EB/OL].[2017-12-08]. https://arxiv.org/abs/1712.031497.

[24]Everingham M, Gool L, Williams C K, et al. The pascal visual object classes (voc) challenge[J]. Int. J. Comput.Vision, 2010, 88(2): 303－338.

[25]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//International Conference on Neural Information Processing Systems. MIT Press, 2015: 91－99.

[26]Neubeck A, Gool L V. Efficient non-maximum suppression[C]// International Conference on Pattern Recognition, 2006, 3: 850－855.

[27]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL].[2014-09-04]. https://arxiv.org/abs/1712.031497.

[28]Sergey I, Christian S. Batch normalization: Accelerating deep network training by reducing internal covariate shift[EB/OL].[2018-03-02]. https://arxiv.org/abs/1502.03167.

[29]He K, Zhang X, Ren S, et al. Identity mappings in deep residual networks[J]. In: European Conference on Computer Vision. Springer International Publishing, 2016: 630－645.

[30]Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[J]. Journal of Machine Learning Research, 2010, 9: 249－256.

[31]Yosinski J, Clune J, Bengio, et al. How transferable are features in deep neural networks [J]. Proceeding NIPS'14,2014, 2: 3320－3328.

[32]Jia Yangqing, Evan Shelhamer, Jeff Donahue, et al. Caffe:Convolutional architecture for fast feature embedding[J].ACM International Conference on Multimedia, 2014: 675－678.

[33]Léon Bottou, Olivier Bousquet. Learning Using Large Datasets, Mining Massive DataSets for Security[M]. NATO ASI Workshop Series, IOS Press, Amsterdam, 2008:15?26.