基于圖像顯著性分析與卷積神經網絡的茶園害蟲定位與識別

2017-04-24 03:48:22楊國國鮑一丹劉子毅

農業工程學報 2017年6期

楊國國，鮑一丹，劉子毅

楊國國，鮑一丹※，劉子毅

（浙江大學生物系統工程與食品科學學院，杭州 310058）

為實現在茶園環境中快速、準確地識別害蟲目標，該文提出了一種基于卷積神經網絡的深度學習模型來進行害蟲定位和識別的方法。該文通過對整個圖像進行顏色衰減加速運算，結合超像素區域之間的空間影響，計算各個超區域的顯著性值，進而提供害蟲目標的潛在區域，最終結合GrabCut算法進行害蟲目標的定位和分割。對于分割后的害蟲目標，通過優化后的卷積神經網絡進行表達和分類，并進一步對卷積神經網絡的結構進行了約減。通過對23種茶園主要害蟲的識別，試驗結果表明，識別準確率在優化前后分別為0.915和0.881，優化后的模型內存需求和運行耗時分別降低至6 MB和0.7 ms，取得了較好的識別效果。

像素；算法；識別；害蟲檢測；圖像顯著性分析；深度學習；卷積神經網絡

0 引言

茶樹是中國重要的經濟作物，如今國內的茶園面積達到了3 529.0萬hm2，約占世界茶園面積的50%以上，遍及18個省。茶樹在生長過程中，極易遭受多種害蟲危害[1]。在現代生態化茶園建設中，害蟲種群監測是農業蟲害防控的重要環節之一。害蟲的防治手段取決于害蟲種群數量的多少[2]，更加精準、實時監測害蟲種群將為蟲害防治決策提供重要依據。目前，農業害蟲的種類區分及相應的統計計數主要由人工完成，勞動強度大，工作效率低。基于計算機視覺、機器學習技術對害蟲圖像的自動化識別在近年來已成為研究學者研究的熱點[3]。然而，害蟲本身是一類紋理豐富、結構復雜的視覺目標，加之姿態變化豐富、種內變化、種間相似以及所處環境背景復雜，令圖像識別成為一類細粒度識別問題[4]，技術難度較大。

目前國內外的害蟲識別研究主要集中于以下2個方面：1）基于計算機視覺的圖像表達，即圖像底層特征的設計、提取及相應的高層表達（從特征中獲取和組織有效信息）；2）基于機器學習的模型構建，即選擇和優化分類模型，如支持向量機[5-6]（support vector machine，SVM）來區分表達信息。早期的識別方法多采用害蟲圖像的全局特征，如灰度直方圖[7-8]、幾何不變量[9-10]、子空間方法[11-12]等。此類特征雖易于提取和計算，但在害蟲姿態變化或圖像背景復雜時，基于全局屬性的描述則難有作為。伴隨計算機視覺技術的進一步發展，近年的研究轉向以局部圖像特征為核心而設計的表達框架，并在準確性和穩定性上獲得顯著提升。以應用最為廣泛的“視覺詞袋框架”[13]（bag-of-words，BOW）為例，此類方法首先提取尺度不變特征[14]（scale invariant feature transform，SIFT）和方向梯度直方圖[15]（histograms of oriented gradients，HOG）等局部興趣點。將單一特征重構為數量分布直方圖、或對多種特征作相應融合后，選擇最優分類器作為輸入。

上述特征本質上仍是人工預先設計特征進行識別，針對害蟲目標的識別問題，其適用性往往受到抑制，難以確定最優方案[16]。而簡單的直方圖表示或特征融合，往往忽略了害蟲本身的相對空間信息，因而存在諸多局限。相比傳統方法，近年來興起的深度學習模型則直接由數據本身來驅動特征及其表達關系的自我學習。其中，卷積神經網絡[17]（convolutional neural network，CNN）在圖像識別領域的應用尤為廣泛，在一系列大規模、細粒度的識別任務中取得巨大成功。CNN的主要思想是通過深度神經網絡的層層映射，來自主學習圖像像素特征、底層特征、高層抽象特征直至最終類別間的隱式表達關系，更加有利于捕獲數據本身的豐富內涵信息[18]，同時也避免了復雜的人工設計過程。當前比較成功的CNN模型包括AlexNet[17]、GoogLeNet[19]和ResNet[20]，這些網絡架構均是針對廣義的物體識別而設計。以AlexNet為例，該模型由Krizhevsky等[17]于2012年提出，被認為是當前對卷積神經網絡進行研究和改進的標準架構。

針對害蟲識別的特殊性和困難性，以及目前害蟲圖像識別依賴于研究人員的主觀特征設計的局限性，本文采用基于圖像顯著性分析和Grubcut[21]算法對復雜背景下的害蟲目標進行定位，通過AlexNet卷積神經網絡架構對茶園主要害蟲進行表達和分類，避免了人的主觀因素影響分類的結果。由于AlexNet的最初提出是針對ImageNet[22]數據集（包含1 000個類別，超過1 000 000幅圖像）而設計，模型規模較大。對于數據集包含數量相對較少的茶園害蟲圖像，為避免過擬合，加快模型的運行速度，本文進一步針對其重要的結構參數和訓練策略進行優化和改進，建立一種基于深度學習模型（卷積神經網絡）的茶園害蟲分類模型。

1 材料與方法

1.1 害蟲圖像數據集

本文以生態茶園害蟲作為測試對象，選取23類常見的茶園害蟲。原始圖像數據集由Google、Naver和FreshEye等搜索引擎檢索和茶園實地拍攝2種方式獲取。原始數據集涵蓋害蟲目標的不同拍攝視角，并由人工標注和篩選以避免數據的重復和錯誤。篩選處理后，互聯網檢索數據集包含6 556幅圖像，各類別樣本量呈不均勻分布（詳見表1）。茶園實地拍攝圖像1 150幅，為均勻分布數據集（各類均為50幅）。本文將互聯網檢索的圖像用于卷積神經網絡的訓練和參數優化驗證，分別從各類別隨機選擇70%樣本構建訓練集，30%作為驗證集。考慮訓練集中數據不均衡現象易對模型訓練造成偏差（例如模型傾向于表達擁有較多樣本量的類別），而訓練集中最大類別包含圖像樣本約為390幅（556幅×70%），故將所有訓練樣本小于260幅的類別進行隨機采樣，控制類別間樣本量比例為1:1.5（390幅/260幅）。模型優化完成后，將茶園實地拍攝圖像作為測試集，將本文方法與現有害蟲識別方法進行對比分析。由于測試數據集中各類別樣本數量呈均衡分布，因此可將測試結果視作平均準確率（average accuracy，AA），并將平均準確率作為本文模型的識別效果評價指標。

表1 試驗數據集詳情

1.2 圖像的顯著性分析

圖像的目標和定位一直是圖像處理領域的研究熱門和難點。近年來的研究發現，自然圖像中的害蟲目標通常會占據與背景形成高度對比的顏色區域（圖1）。目前，大量的生物學試驗和機器視覺模型已經證明，這種相對其他區域所形成的顏色對比可以被量化為目標區域的圖像顯著值，從而使圖像顯著性分析成為目標定位的重要手段[23]。

本文應用一種基于全局對比度的顯著性區域檢測方法[24]進行害蟲目標的定位。該方法的主要思想是根據害蟲目標與背景區域的顏色對比和空間關系進行顯著值計算，具體流程如圖1所示。為加速計算，首先對原始圖像進行顏色衰減，將原始圖像分別在R、G、B三通道的256級灰度值量化為10級。利用圖割法[25]將衰減后圖像分割為多個超像素區域，依據式（1）計算各個區域的顯著值

式（1）中，(r)為區域r的顯著值，r代表圖像中的其他區域，D為當前區域r的重心與其他區域r的中心之間的歐氏空間距離，2是距離加權項，以此來增強較近區域對目標區域的影響，通過前期試驗將該值設為0.4。(r)為區域r所覆蓋像素數目，用以弱化背景之間的相互作用。D為區域之間的顏色對比，具體計算過程為

（2）

其中，1，2代表各個區域的顏色總數。(1,i)、(2,j)為加權項，代表相應顏色1,i和2,j在1和2中的出現頻率，以此強調區域內主導顏色的作用。為區域1和2的顏色空間距離。

原始圖像的顯著圖提供了害蟲目標的潛在區域。將潛在區域作為GrabCut算法的初始區域，對害蟲目標的進一步分割。GrabCut算法是一種交互式圖像分割算法，通過用戶選定待分割圖像的目標區域后，經過計算圖像中的紋理、顏色信息和邊界反差信息，可以達到自動、準確的分割目標。

1.3 卷積神經網絡

本文選取應用廣泛的卷積神經網絡AlexNet作為基礎網絡架構，并對其重要的結構參數和訓練策略進行優化，以獲取適合害蟲圖像識別的模型架構。AlexNet網絡的詳細結構及各層的具體配置如圖2所示。

AlexNet網絡的核心部分由5個卷積層（Conv1~Conv 5）和3個池化層（pooling1~pooling 3）交替構成。卷積層主要作用是提取特征，即包含一組經數據驅動進行自主學習的卷積核，又稱特征提取器。針對不同的特征提取密集度，卷積核用固定大小的卷積步幅與輸入（來自上一層的輸出或原始圖像）作卷積運算，經由激活函數變換后構成卷積特征圖，代表對輸入圖像特征的響應。卷積特征圖的計算過程可以表示為

式（3）中，和分別為第層（當前層）第-1層（上一層）的第個和第個特征圖，表示作用于2個特征圖之間的卷積核。()為激活函數，代表偏置項。在所有卷積層中，Conv1層中的卷積核又稱作局部感受野，負責直接從原始輸入圖像提取最低層特征。

池化層通常與卷積層級聯出現，作用為特征映射。通過對卷積特征圖進行下采樣后構成池化特征圖，克服圖像目標發生位移、畸變、旋轉所造成的影響。池化層的特征圖的計算過程可表示為

式中是選取的下采樣模板，為模板的權值。依據模板的權值的不同，池化計算的方式包括最大值池化、平均值池化和隨機池化等。AlexNet網絡中采用最大值池化進行計算，經多層級聯后，全連接層（FC6,FC7）對Pooling3池化特征圖作矢量變換，構成特征向量輸送給分類層，AlexNet在分類層采用Softmax分類器[26]。AlexNet各連接層的詳細功能與計算操作，詳見參考文獻[17]。

2 基于卷積神經網絡的害蟲目標識別

本文中卷積神經網絡的訓練方式與文獻[17]類似。網絡初始權重提取自標準差為0.01，均值為0的高斯分布。訓練階段采用動量項為0.9的異步隨機梯度下降，并設置權重參數的初始學習速率為0.01。本文代碼實現主要基于CAFFE（convolutional architecture for fast feature embedding）[26]深度學習框架，計算平臺采用單塊型號為NVDIA GTX Titan X的圖形處理器（GPU），搭載于Intenl Core i7 4790 CPU，內存為16 GB的臺式計算機。

AlexNet的結構參數及訓練策略在初始提出時均基于ImageNet數據集設計，主要應用于廣義的物體識別。若將原始AlexNet網絡直接引入特定的害蟲圖像識別，易因數據集規模、數據類別間的粒度差異而造成模型收斂效果差、過擬合等風險。本文對害蟲圖像經過顯著性分析和定位后的分割結果進行裁剪，用圖像平均像素填充較短邊并縮放為256×256 dpi。定位的圖像在輸入卷積網絡前被隨機裁剪為227×227 dpi，并作鏡像翻轉以擴增數據集。同時，從以下4方面依次對AlexNet網絡進行優化：

1）局部感受野的尺寸、數目和卷積步幅：分別取卷積核尺寸大小為7×7、9×9、11×11、13×13、15×15 dpi大小的像素塊，逐步減少卷積核數目至32個，對網絡進行訓練和測試。同時，卷積步幅由數值2開始逐步增加，直至與優化后的卷積核尺寸相當，進而考察特征采樣密度對模型性能的影響。

2）全連接層的神經元隨機抑制（Dropout）[27]：由于全連接層FC6，FC7為致密連接，參數量約占AlexNet網絡規模的90%，因此對FC6，FC7層采用神經元隨機抑制（Dropout）以控制過擬合。Dropout的主要思想是在模型訓練的每一次迭代中，按一定概率隨機對目標層部分神經元進行抑制，僅針對剩余神經元作參數更新，本質上是訓練了多個規模較小的子網絡。在模型測試階段對子網絡進行融合，即采用全網絡架構。本文在0.5～0.9范圍內搜索最優Dropout概率。如果所采用Dropout概率過小，則反映出當前模型存在相當數量的冗余參數，可考慮對網絡架構作進一步約簡。

3）分類層的損失函數：在分類層采取不同的損失函數來構建相應的分類器。本文針對2類常見損失函數Hinge loss[26]（對應SVM分類器）和Softmax loss（對應softmax分類器）進行網絡性能的對比分析。

4）中間層參數約簡：卷積神經網絡的實際應用往往對計算運行的資源需求較高，尤其在植入農業機器人、手機移動端等低性能計算平臺時，內存消耗和運算速率都會受到限制。依照Dropout概率對模型識別準確率的影響，本文對AlexNet局部感受野與分類層之間的中間層作深度（網絡層數）和寬度（層內卷積核數目）的約簡，進而考察不同架構的計算資源需求和對識別準確率的影響。

3 結果與分析

3.1 局部感受野不同參數下的識別準確率

局部感受野通常被認為是卷積網絡架構中最為敏感的參數，負責直接由原始輸入圖像提取最低層特征。局部感受野的尺寸和數目對卷積神經網絡識別準確率的影響如圖3所示。

由圖3可以看出，模型識別性能隨卷積核尺寸的減小呈上升趨勢。卷積核尺寸為7×7 dpi時，驗證準確率最高。由于相似的害蟲種間的區分往往依賴于對圖像局部紋理的描述，當使用大尺寸卷積核時，會導致所提取特征易于響應粗粒度的特征（如邊緣特征），從而使傳遞給高層卷積核的細節信息丟失過多。固定卷積核尺寸為7×7 dpi，模型驗證準確率隨局部感受野數目的增加先升高后降低，當局部感受野數目為64時，驗證準確率最高。該結果表明，由于本文數據集涵蓋種類和樣本數量相對較少，AlexNet網絡需足夠數量的低層特征來確保對數據的擬合能力，以克服由害蟲的種類多樣性或姿態變化等因素所帶來的數據復雜度。

為了進一步驗證所確定底層特征不存在冗余性，圖4對全部卷積核進行可視化，發現并無重復或隨機性卷積核（未得到有效訓練）出現。

在固定最優卷積核尺寸及數目情況下，圖5給出了采取不同卷積步幅后的識別效果及對應的模型訓練耗時。顯然，密集的特征提取更有利于對害蟲圖像目標細節信息的保留，從而獲得更大的性能收益。但當卷積步幅小于4時，識別準確率的變化并不明顯，模型的訓練耗時明顯增加。為獲取模型識別性能與所需計算資源之間的均衡，將該參數確定為4較為合適。

3.2 不同Dropout概率下的識別準確率

Dropout概率對模型性能的影響如圖6所示，模型識別準確率在Dropout概率為0.70時達到峰值。該結果也表明處于局部感受野和分類層間的網絡中間層存在冗余的參數。因此，有必要對中間層作參數約簡，以確定適合害蟲圖像及相應數據集規模的網絡架構。進一步增加該值，模型識別性能出現明顯下降。其主要原因在于所訓練的子網絡規模不足，導致其對數據的擬合能力下降，難以有效建立害蟲圖像數據與最終類別之間的映射關系。

3.3 不同損失函數下的識別準確率

為了直觀地呈現Hinge loss和Softmax loss函數對網絡性能的影響，圖7給出了這2類損失函數在整個模型訓練過程中的誤差變化曲線。當訓練誤差近似時，Softmax loss函數的驗證誤差更小，同時收斂更加迅速。但值得注意的是，2類損失函數在本文數據集上的差異，并不意味著Softmax loss將一定作為網絡在分類層的標準選擇。有研究指出，當圖像種類及圖像差別的粒度顯著增加時，Hinge loss函數可能表現出更優的效果[22]。

3.4 壓縮網絡架構的效果分析

為進一步去除模型冗余參數、降低計算資源需求及提升運算速率，本文分別對網絡中間層作深度和寬度的約簡。約簡后不同網絡架構的內存需求（包括模型本身和數據流的消耗）、運行耗時及識別準確率如表2所示。可以看出，模型對計算資源的占用主要來自于網絡全連接層FC6，FC7，去除后內存消耗下降至29.8 MB，但對運行耗時及識別效果影響較小。相比而言，卷積層Conv2～Conv5承擔了主要的圖像表達功能，且需要進行密集的卷積運算。因而在逐層去除后，識別準確率及運算耗時均出現顯著下降。該結果也表明，約簡卷積層深度并非適宜策略。表2同時給出了去除FC6，FC7，逐步減少Conv2～Conv5層卷積核數目的效果變化。對比發現，對模型作寬度壓縮不僅在識別準確率上獲得了一定程度的增益，而且模型運行時的內存需求及運行耗時亦可得到有效控制。以架構10（64-192-192-64）為例，識別準確率損失相較壓縮前僅減少0.027，但模型內存需求降低至6 MB（參數和中間數據流內存消耗分別降至2.8和3.2 MB），運行耗時為0.7 ms，降低3.3倍。從而使得該架構對于低端的運算平臺更具有適用性。

表2 不同網絡架構的運行效果

注：編號8～10分別列出壓縮后卷積層Conv2～Conv5的卷積核數目。

Note: Convolution kernel numbers of Conv2-Conv5 after shrinking are respectively listed at 8-10.

3.5 模型的效果驗證

在茶園實地拍攝數據集上，選擇表2中網絡架構1和架構10與表3所列的方法進行識別準確率比較。針對原始AlexNet，在未對測試圖像采取定位操作情況下AA僅為0.849。

表3 不同害蟲識別方法的性能對比分析

顯然，缺乏定位處理會引入更多圖像背景區域的干擾，增加網絡對害蟲目標的識別難度。文獻[28-30]所提的3種方法為傳統害蟲圖像識別方法，均需對害蟲圖像提取人工選取的底層特征，并進行特征融合后交由分類器進行判別。對采取定位后圖像進行測試，3種方法的AA分別為0.591，0.772和0.803。此類方法受限于底層人工選取的底層特征通用性低的特點，因此3種方法的特征選擇差別較大，難以確定最優方案。更為重要的是，由于缺乏高層次表達，也難以體現所選底層特征間的空間關系，因此識別相對困難。

而原始的AlexNet網絡以及本文采用的架構1和架構 10的AA分別為：0.849、0.915、0.881。本文采用的模型獲得的AA比原始的AlexNet網絡提高了至少3.2個百分點，比傳統方法至少提高了7.8個百分點。

4 結論

本文通過對茶園23種常見害蟲進行試驗，采用圖像的顯著性分析對害蟲定位，利用優化約減的AlexNet卷積神經網絡模型對害蟲目標進行識別，約簡前后的平均準確率（average accuracy，AA）為0.915和0.881。同時，簡約后的模型的內存需求和運行耗時分別降低至6 MB和0.7 ms。

本文采用的模型對于在自然環境下獲取的害蟲圖像樣本有較好的識別效果，突破了大多數研究集中于實驗室獲取簡單背景的害蟲圖像進行試驗的前提，并且避免了在害蟲識別中由研究者主觀選取特征的不足。此外，通過對模型的參數優化和結構約簡，加強了該模型在低端計算平臺上的適應性。

[1] 史慶才，李向陽，陳志偉，等. 茶園假眼小綠葉蟬的防控技術研究進展[J]. 農學學報，2015，5(1)：20－24.

Shi Qingcai, Li Xiangyang, Chen Zhiwei, et al. Advances on prevention and control technology of empoasca vitis g?the in tea garden[J]. Journal of Agriculture,2015, 5(1): 20－24. (in Chinese with English abstract)

[2] 馬世駿. 談農業害蟲的綜合防治[J]. 昆蟲學報，1976，19(2)：14－26.

Ma Shijun. On the integrated control of agricultural insect pests[J]. Acta Entomologica Sinica, 1976, 19(2): 14－26. (in Chinese with English abstract)

[3] 陳梅香，楊信延，石寶才，等. 害蟲自動識別與計數技術研究進展與展望[J]. 環境昆蟲學報，2015，37(1)：176－183.

Chen Meixiang, Yang Xinyan, Shi Baocai, et al. Research progress and prospect of technologies for automatic identifying and counting of pests[J]. Journal of Environmental Entomology, 2015, 37(1): 176－183. (in Chinese with English abstract)

[4] 李文勇，李明，陳梅香，等. 基于機器視覺的作物多姿態害蟲特征提取與分類方法[J]. 農業工程學報，2014，30(14)：154－162.

Li Wenyong, Li Ming, Chen Meixiang, et al. Feature extraction and classification method of multi-pose pests using machine vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(14): 154－162. (in Chinese with English abstract)

[5] Cortes C, Vapnik V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273－297.

[6] 胡玉霞，張紅濤. 基于模擬退火算法-支持向量機的儲糧害蟲識別分類[J]. 農業機械學報，2008，39(9)：108－111.

Hu Yuxia, Zhang Hongtao. Recognition of the stored-grain pests based on simulated annealing algorithm and support vector machine[J]. Transactions of the Chinese Society for Agricultural Machinery, 2008, 39(9): 108－111. (in Chinese with English abstract)

[7] Zhu L Q, Zhen Z. Auto-classification of insect images based on color histogram and GLCM[C]// Seventh International Conference on Fuzzy Systems and Knowledge Discovery. IEEE, 2010: 2589－2593.

[8] 范艷峰，甄彤. 谷物害蟲檢測與分類識別技術的研究及應用[J]. 計算機工程，2005，31(12)：187－189. Fan Yanfeng, Zhen Tong. Research and application of grain pest detection and classification technology[J]. Computer Engineering, 2005, 31(12): 187－189. (in Chinese with English abstract)

[9] Solissánchez L O, Garcíaescalante J J, Casta?edamiranda R, et al. Machine vision algorithm for whiteflies () scouting under greenhouse environment[J]. Journal of Applied Entomology, 2009, 133(7): 546－552.

[10] 鄒修國，丁為民，劉德營，等. 基于4種不變矩和BP神經網絡的稻飛虱分類[J]. 農業工程學報，2013，29(18)：171－178.

Zou Xiuguo, Ding Weimin, Liu Deying, et al. Classification of rice planthopper based on invariant moments and BP neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(18): 171－178. (in Chinese with English abstract)

[11] 謝成軍，李瑞，董偉，等. 基于稀疏編碼金字塔模型的農田害蟲圖像識別[J]. 農業工程學報，2016，32(17)：144－151.

Xie Chengjun, Li Rui, Dong Wei, et al. Recognition for insects via spatial pyramid model using sparse coding[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(17): 144－151. (in Chinese with English abstract)

[12] 張紅濤，毛罕平，邱道尹. 儲糧害蟲圖像識別中的特征提取[J]. 農業工程學報，2009，25(2)：126－130.

Zhang Hongtao, Mao Hanping, Qiu Daoyin. Feature extraction for the stored-grain insect detection system based on image recognition technology[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions ofthe CSAE), 2009, 25(2): 126－130. (in Chinese with English abstract).

[13] Sivic J, Zisserman A. Video google: A text retrieval approach to object matching in videos[C]// IEEE Computer Society. IEEE International Conference on Computer Vision. 2003: 1470.

[14] 王利強. 點特征配準算法及其在儲糧害蟲種類識別中的應用研究[D].鄭州：河南工業大學，2011.

Wang Liqiang. Study Point Feature Matching Algorithm and its Application in Stored Grain Pest Species Identification[D]. Zhengzhou: Henan University of Technology, 2011. (in Chinese with English abstract)

[15] Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]// IEEE Computer Society. IEEE Computer Society Conference on Computer Vision & Pattern Recognition. 2005:886-893.

[16] Larios N, Deng H, Zhang W, et al. Automated insect identification through concatenated histograms of local appearance features: Feature vector generation and region detection for deformable objects[J]. Machine Vision and Applications, 2008, 19(2): 105－123.

[17] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// Curran Associates Inc. International Conference on Neural Information Processing Systems. 2012: 1097－1105.

[18] Sermanet P, Eigen D, Zhang X, et al. OverFeat: Integrated recognition, localization and detection using convolutional networks[J]. Eprint Arxiv, 2013.

[19] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]// IEEE Computer Society. IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1－9.

[20] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 770-778.

[21] Rother C, Kolmogorov V, Blake A. GrabCut: Interactive foreground extraction using iterated graph cuts[J]. ACM Transactions on Graphics (TOG), 2004, 23(3): 309－314.

[22] Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]// Computer Vision and Pattern Recognition. IEEE, 2009: 248－255.

[23] Ko B C, Nam J Y. Object-of-interest image segmentation based on human attention and semantic region clustering[J]. Journal of the Optical Society of America A, 2006, 23(10): 2462－2470.

[24] Cheng M M, Mitra N J, Huang X, et al. Global contrast based salient region detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569-582.

[25] Felzenszwalb P F, Huttenlocher D P. Efficient Graph-Based Image Segmentation[J]. International Journal of Computer Vision, 2004, 59(2): 167－181.

[26] Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional Architecture for Fast Feature Embedding[J]. Eprint Arxiv, 2014:675-678.

[27] Srivastava N, Hinton G, Krizhevsky A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929－1958.

[28] Wen C, Guyer D. Image-based orchard insect automated identification and classification method[J]. Computers & Electronics in Agriculture, 2012, 89(3): 110－115.

[29] Venugoban K, Ramanan A. Image classification of paddy field insect pests using gradient-based features[J]. International Journal of Machine Learning & Computing, 2014, 4(1): 1－5.

[30] Zhang J, Wang R, Xie C, et al. Crop pests image recognition based on multi-features fusion[J]. Journal of Computational Information Systems, 2014, 10(12): 5121－5129.

Localization and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network

Yang Guoguo, Bao Yidan※, Liu Ziyi

(,310058,)

Tea is one of important cash crops in China. Computer vision plays an important role in pest detection. Automatic classification of insect species in field is more difficult than the generic object classification because of complex background in filed and high appearance similarity among insect species. In this paper, we proposed an insect recognition system on the basis of image saliency analysis and a deep learning model, i.e. convolutional neural network (CNN), which has a good robustness with avoiding the features selected by artificial means. In image saliency analysis, we segmented the original images into super-pixel regions firstly. Then we quantized each RGB (red, green, blue) color channel and made them have 10 different values, which reduced the number of colors to 1 000, and sped up the process of the color contrast of the pest objects and the background at region level. Finally, we obtained the saliency value of each region by combining their color contrast and spatial distances. The saliency values of all regions in each image were used to construct a saliency map, which was offered as the initial area for GrabCut algorithm to define the segmentation result and localize the pest object. The images after localization were quantized to 256×256 dpi for CNN training and classifying. CNN was trained end to end, from raw pixels to ultimate categories, thereby alleviating the requirement to manually design a suitable feature extractor. Based on theoretical analysis and experimental evaluation, we optimized the critical structure parameters and training strategy of CNN to seek the best configuration. The overall architecture included a number of sensitive parameters and optimization strategies that could be changed. We determined the local receptive field size, number, and convolutional stride as 7×7 dpi, 64 and 4, respectively. Dropout ratio for the fully-connected layers was 0.7. The loss function Softmax was fit for the pest classification system. To further improve the practical utility of CNN, we focused on structural changes of the overall architecture that enabled a faster running with small effects on the performance. We analyzed the performance and the corresponding runtime of our model by reducing its depth (number of layers) and width (number of convolution kernel in each layer). Removing the fully-connected layers (FC6, FC7) made only a slight difference to the overall architecture. These layers contained almost 90% of the parameters and when they were removed, the memory consumption decreased to 29.8 MB. But, removing the intermediate convolutional layers (Conv2, Conv3, Conv4, Conv5) resulted in a dramatic decrease in both accuracy and runtime. This suggested that the intermediate convolutional layers (Conv2, Conv3, Conv4, Conv5) constituted the main part of the computational resource, and their depth was important for achieving good results. We then investigated the effects of adjusting the sizes of all convolutional layers, and the filters in each convolutional layer were reduced to 64 each time. Surprisingly, all architectures showed significant decreases in running time with relatively small effects on performance. Finally, we determined the convolution kernel numbers of Conv2-Conv5: 64-192-192-64. On the test set of tea field images, the architecture before and after shrinking respectively achieved the average accuracy (AA) of 0.915 and 0.881, respectively, superior to previous methods for pest image recognition. Further, after optimization the running time reduced to 0.7 ms and the memory required was 6 MB.

pixels; algorithms; identification; pest detection; image saliency analysis; deep learning; convolutional neural network

10.11975/j.issn.1002-6819.2017.06.020

S126

1002-6819(2017)-06-0156-07

2016-09-19

2016-02-20

國家自然科學基金（31471417）；博士點基金項目（20130101110104）

楊國國，男，河南洛陽人，研究方向為大田害蟲的識別技術。杭州浙江大學生物系統工程與食品科學學院，310058。Email：ggy@zju.edu.cn

鮑一丹，女，浙江杭州人，博士，副教授，主要研究方向為精細農業領域，現代檢測技術和自動控制、虛擬儀器技術等。杭州浙江大學生物系統工程與食品科學學院，310058。Email：ydbao@zju.edu.cn

基于圖像顯著性分析與卷積神經網絡的茶園害蟲定位與識別

0 引 言

1 材料與方法

2 基于卷積神經網絡的害蟲目標識別

3 結果與分析

4 結 論

0 引言

4 結論