基于DRGB的運動中肉牛形體部位識別

2018-03-10 08:05:27鄧寒冰許童羽周云成張聿博陳春玲

農業工程學報 2018年5期

鄧寒冰，許童羽※，周云成，苗騰,3，張聿博，徐靜，金莉，陳春玲

（1. 沈陽農業大學信息與電氣工程學院，沈陽 110866；2. 遼寧省農業信息化工程技術研究中心，沈陽 110866；3. 北京農業信息技術研究中心，北京 100097）

0 引言

現代肉牛養殖業是中國大力扶植和發展的產業，從目前的牛肉需求來看，中國牛肉需求有望從2008年的608萬t上漲到2020年的828萬t[1]，而與此對應的是國內牛肉供應增長乏力，這就要求養殖戶要通過更科學的手段進行肉牛養殖以提高牛肉產量。

在集約飼養的條件下，肉牛異常行為的出現經常是隨機的、短暫的，因此如果不能長時間連續觀察，很難引起飼養人員的重視，這往往會延長對肉牛疾病的發現時間，給飼養人員造成巨大的經濟損失[2]。現代研究發現，肉牛異常行為是由于多種因素綜合引起的，包括環境因素、飼料營養、激素、心理和遺傳等[3]。所以，引起牛的行為異常原因很復雜，不同性別、不同生長階段表現也有所不同，因此需要對肉牛進行長時間連續細致觀察才能及時發現和預防。

隨著大規模圖像數據的產生及計算硬件（GPU等）的飛速發展，基于卷積神經網絡的相關方法在各應用領域取得了突破性的成果[4-7]。在深度卷積神經網絡（deep convolutional neural network, DCNN）方面，將自動化圖像特征提取與分類過程融合，并實現自主學習。國內外研究人員在DCNN的基礎理論[8]、網絡結構設計[9-14]、圖像流處理[15]上開展了很多研究。特別是在目標識別等領域已經得到越來越多的認可，例如微軟公司設計的ResNet（大于1 000層）在圖像分類、目標檢測和語義分割等各個方面都取得了很好的成績[16]。自 2014年 Ross Girshick等提出利用RCNN[17]（regions with CNN feature）方法實現目標識別以后，深度卷積神經網絡的已經成為實時目標識別的主要方法，其性能和精度都遙遙領先于當時最優的DPM（deformable parts model）方法。此后，在實時檢測方面，分別出現了基于區域推薦和基于預測邊界框的 2類核心方法：其中區域推薦方法普遍采用滑動窗口來實現，對像素尺寸較小的目標比較敏感，但對圖像整體內容沒有進行關聯分析，如 Fast R-CNN[18]、Faster R-CNN[19]、HyperNet[20]等；而預測邊界框方法通常使用預設區域，識別速度快，但會影響圖像背景中的小尺寸物體識別精度，如YOLO[21]、SSD[22]等。

隨著各類方法的不斷更新和優化，深度神經網絡在各研究領域發揮的作用也越來越明顯。其中，在農業科研領域深度卷積神經網絡已經從理論研究向實際應用轉移。在溫室環境下已經出現了基于CNN的植物花、葉、果實等自動識別原型系統[23-26]；在病蟲害識別方面，已經出現對害蟲分類，病害分類分級的方法[27-31]。目前，針對家禽、水產等大型動物的實時圖像處理分析逐漸成為研究熱點，文獻[32]提出用視頻分析方法提取奶牛軀干圖像，用卷積神經網絡準確識別奶牛個體方法；文獻[33]從水產動物視覺檢測的圖像采集、輪廓提取、特征標定與計算等方面提出了改進措施，對基于計算機視覺測量的動物疾病診斷和分類進行探討和總結；文獻[34]采用改進分水嶺分割算法實現運動對群養豬運動軌跡進追蹤。隨著多類型信息化設備在現代養殖業的使用，數據的多模態特性逐漸成為研究的關注點，利用多模態數據間的內容關聯實現算法性能提升和過程優化，已經成為深度學習的一條重要研究方向[35]。特別是在如何利用多模態數據來提高目標識別的精度與速度方面，仍有很多亟待解決的問題。

為此，本文以肉牛為研究對象，擬通過深度卷積神經網絡來實現面向多模態數據（深度與 RGB）的肉牛形體部位快速識別。在分類網絡的基礎上，利用多模態數據對網絡部分層中的參數進行精調（fine-tuning），同時利用多模態數據間的映射原理（可用于去除圖像背景），降低候選區域的個數，進而加快網絡對形體部位的識別速度，以期實現對運動時肉牛的形體部位的定位與識別。

1 樣本采集與預處理

由于本文中需要識別的類型較少（頭、軀干、腿、尾），因此為了避免過擬合問題，提高樣本的多樣性，本試驗分別于2016年5月–2017年3月期間在遼寧省法庫縣牛場進行數據采集。其中訓練集和驗證集是通過 4種不同像素的數碼相機進行采集約 10 000幅肉牛完整圖像，然后通過人工處理形成約40 000幅包括肉牛頭部、軀干、尾部、腿部及背景 5種類型的彩色圖像用于網絡的訓練（80%）和驗證（20%）；而對于測試集，本試驗利用可采集景深數據的視頻設備，采集約10組完整視頻文件（連續圖像序列）。

1.1 測試樣本采集的設備選擇與場景布置

1）設備選取：本文以微軟公司的Kinect作為測試集圖像采集的設備，該設備能夠相同時間維度上采集拍攝范圍內的彩色數據（RGB）和深度數據（Depth，即拍攝對象與攝像頭的距離值）。其中 RGB數據是通過高清攝像頭獲取的，而深度數據是通過紅外線收發裝置測距來獲取的。因此通過 Kinect可以在同一時間維度上獲取 2種模態的圖像數據。

2）場景布置：為了提高采樣過程中圖像樣本的質量，避免由于肉牛之間的相互重疊而造成的局部特征信息丟失，本試驗在測試集采樣過程中，每次取樣限定對 1頭牛進行拍攝。根據官方給出的Kinect參數[36]，攝像頭的水平拍攝視角為57°，垂直拍攝視角為43°，垂直方向的傾斜范圍±27°，有效拍攝范圍約為0.5～4.5 m。由于肉牛的平均高度大約為1.5～1.7 m，為了減少樣本圖像中的物體形變，將攝像頭的垂直高度設置為1.6 m。

1.2 測試集無效樣本過濾方法

利用Kinect（20～30幀/s）采集測試樣本，平均每小時將會產生72 000～108 000幅圖像，其中大部分屬于“低價值”數據（即未出現肉牛以及肉牛長時間靜止）。為了在測試集中減少這類數據，同時保證肉牛動作序列的連續性和完整性，本文提出一種隨機最近鄰像素比較法（random nearest neighbor pixel comparison, RNNPC），按照時間順序，在原始樣本序列中按序取出相鄰2幅RGB圖像，分別在 2幅圖像中抽取具有相同坐標和面積的圖像區域，并計算該區域RGB三通道的像素差值和，通過比較每組像素差值和與預先設定閾值間的大小關系，來預測圖像中的該區域關聯的物體是否出現位移，進而篩選保留較為完整連續的動作序列。

為了實現RNNPC方法，本文將測試集中原圖像序列樣本分為3種類型（如圖1所示）：1）靜態序列（static sequence, SS）：在連續圖像序列中，肉牛處于靜止狀態或肉牛移出拍攝范圍；2）細微動作序列（micro-action sequence, MAS）：在連續圖像序列中，肉牛有細微的動作變化，但沒有明顯的水平或垂直移動，例如出現咀嚼、搖晃尾巴、轉頭等；3）明顯動作序列（obvious-action sequence, OAS）：在連續圖像序列中，肉牛有明顯的水平或垂直移動，例如行走、臥躺、進食等。

圖1 三類測試樣本Fig.1 Test samples of three types

考慮攝像頭在采集樣本過程中是靜止的，因此光照變化和肉牛動作是導致圖像像素變化的主要原因。根據這一特點，RNNPC方法的具體實現如下：

由于Mt1與Mt2是在不同時間點獲得的圖像像素矩陣，理論上 Mt1≠Mt2，因此本文為像素距離）設計了階躍函數Hθ

式中θ表示像素距離閾值，利用函數Hθ可以統計相鄰像素矩陣間d值超過閾值θ的像素點總數N

式中MH表示像素矩陣的行數（對應圖像高度），MW表示像素矩陣的列數（對應圖像寬度）；為了使隨機位置獲取的圖像區域能夠盡量捕捉到目標移動，這里設隨機參數rand∈(0.5,1)，即該方法可以從相鄰圖像中選取至少rand×MH×MW個起始位置隨機但空間連續的像素點進行差值計算。此外，本文將像素矩陣中的每個位置都賦予一個隨機數?，且?∈[0,1]，對于不同位置的?不相等，即? (x1, y1)≠?(x2, y2)。基于rand值設置命中函數Tr

利用式（1）～（4）就可以計算相鄰圖像之間的相似度

可以看出s(Mt1, Mt2)∈(0,1)，當s(Mt1, Mt2)趨近于1，表示相鄰圖像相似度高，反之表示相似度低。

本文從Kinect獲取的RGB圖像樣本中選取3組序列（分別為靜態序列、細微動作序列、明顯動作序列）。在給定Δt = 50 ms的條件下，通過設置θ值來獲取每組圖像序列的相似度曲線。分別將圖 1中 3組圖像序列作為RNNPC方法的輸入，通過計算得到的相似度曲線如圖2所示。可見對于不同的樣本類型，相似度曲線呈現出不同的特點。從3組序列的曲線分布來看，隨著θ值的增加，SS的相似度從30%左右（圖2a）提高到97%左右（圖2c），隨著θ值的增加，由光照造成的像素差異明顯減少；在θ=0時，3類曲線的差異不明顯（圖2a），而隨著θ值增加，曲線分布差異逐漸增大，然而當 θ≥10時，這種差異又出現減小的趨勢（對比圖2b與圖2c）?？梢宰C明隨著θ的增大，可以將3種不同類型曲線分布差異擴大，但當 θ超過一定限度時，這差異又出現減弱的趨勢，這表明當 θ增加到一定程度，由目標移動所產生的像素變化將不再明顯。因此，考慮減少光照影響，同時擴大相似度曲線分布差異，本文選擇θ=5作為像素距離閾值。

圖2d是由RNNPC方法獲取的一段完整的圖像序列樣本的相似度曲線。設smax為曲線最大值，s為曲線值的均值，Smax為曲線局部極大值集合，為局部極大值均值，Smin為曲線局部極小值集合，為局部極小值均值

圖2 不同像素距離閾值θ下的圖像序列相似度曲線Fig.2 Similarity curve of image sequence of different pixel distance thresholds θ

為了檢驗 RNNPC方法對于完整視頻數據處理的有效性，試驗選用10段視頻進行處理（每段視頻30 min左右）。根據視頻信息的幀率，可以計算出每段視頻將產生約3.6萬幀圖像。將自動保留下來的圖像序列與人工篩選保留的序列進行比較，結果如表1所示。

表1 隨機最近鄰像素比較法產生明顯動作序列的結果Table 1 Results of obvious-action sequence by random nearest neighbor pixel comparison(RNPPC)

從試驗結果可以看到，利用RNNPC方法采集連續圖像樣本可以節省72%左右的存儲空間，而剩余38%樣本的有效率在94%左右，樣本質量和數量可以滿足樣本要求。

2 深度信息與RGB信息融合

由于本文采用區域推薦原理來生成目標候選框，因此如何利用深度圖像來減少連續RGB圖像序列在測試過程中的產生的候選框數量是本節主要解決的問題。

2.1 深度信息可視化

為了將深度信息進行可視化處理，本文用灰度值來表示深度信息

式中i(x, y)表示位于深度值矩陣Id中(x, y)位置的深度值；g(x, y)表示與i(x, y)對應的灰度值；dmax表示最遠拍攝距離；dmin表示最近拍攝距離。深度值小于dmin的像素點灰度值設為0，而深度值大于dmax的像素點灰度值設為255。圖3是利用Kinect在同一時刻采集的肉牛RGB圖像以及利式(7)計算得到的深度圖像。

圖3 相同時間維度的RGB圖像和深度圖像Fig.3 RGB and depth images with same temporal dimension

2.2 RGB圖像與深度圖像的映射

由于Kinect的彩色相機和紅外相機存在平移距離差，因此在同一時刻采集的原始RGB圖像與深度圖像在內容上無法實現關聯。如果能夠在目標識別之前盡量去除原圖像中的背景信息，就能縮短區域推薦算法的運行時間。所以，需要實現深度圖像與RGB圖像間主要區域的像素點映射。

本文首先利用微軟公司提供的開源方法對空間上存在關聯的像素點進行標注，然后將深度像素點投影到RGB圖像上，由于深度圖像的大小與分辨率都小于RGB圖像，因此在處理像素點關聯的過程中會損失RGB圖像部分邊緣信息。圖4c給出了映射效果（只保留映射部分），其中深度圖像中的肉牛與RGB圖像中的肉牛的外沿輪廓幾乎完全重合。實現像素點映射就可以建立RGB圖像與深度圖像在內容上的關聯，這為下一步去除圖像背景信息提供了有效的支持。

2.3 基于深度信息的RGB圖像背景過濾

利用目標檢測算法（Selective Search[37]）來處理原始RGB圖像，會生成大量的候選區域（2×103以上），其中90%以上都是無效或重疊候選區域。為了減少無效的候選區域數目，本文利用深度信息將原始RGB圖像中的背景慮除，并且保證肉牛形體圖像的完整。

對于深度圖像序列，過濾背景需要在圖像序列中找到肉牛移動過程中的灰度區間，同時將區間外的像素信息都過濾掉。然而由于肉牛是移動的，因此其灰度區間也是動態變化的。本文首先要獲得被拍攝對象運動時的動態平均灰度值。在1.2節中，利用RNNPC方法可以用于計算相鄰圖像的相似度，而相似度是通過像素差值來得到的，因此可以利用RNNPC方法間接獲得最鄰近圖像間的像素變化區域，這里設置為RC，對區域內全部像素點做均值計算，可以得到均值灰度ρ

圖4 深度圖像和彩色圖像映射結果及在結果對應的候選框Fig.4 Results of depth and color images mapping and corresponding bounding boxes

式中|RC|為RC集合中像素點個數，gi為RC集合中第i個像素點的灰度值?；讦阎悼梢栽O定一個區間系數δ。對于深度圖像M，g(x,y)為圖像中(x, y)處像素點的灰度值，利用式（9）對全部像素進行處理，則[ρ?δ, ρ+δ]區間內的像素將被保留下來。

然而經過式（9）處理后，仍會殘留很多無效像素點，為了去掉更多的無效信息，本文利用改進后的正態分布函數，對式（9）的結果圖像進行二次灰度處理。將ρ值作為正態分布函數的期望，通過調整方差 σ和自定義系數φ來改變函數形態

其中期望值μ = ρ，方差σ和自定義系數φ為人工設定參數。本文這里將對灰度進行兩種類型的處理：對于RC集合中的像素點盡量保留原始灰度信息，令式(10)中的σ=4，φ=15，這樣可以保證灰度值在[ρ-δ, ρ+δ]內的像素點不被降低像素值；對于不在RC集合內的像素點，要將這些區域的灰度調低至0值附近，因此令式(10)中的σ=1，φ=0.5，這樣可以令灰度值在[ρ-δ, ρ+δ]區間之外的像素點的像素值趨近于0。從圖4d中可以看到，式(10)可以將深度圖像中的背景信息過濾掉，同時最大程度保留了肉牛整體形體信息。

基于上述方法，可以將過濾后的深度圖像中的黑色像素位置標識出來，并將RGB圖像中相同坐標位置的像素值設為0，本文將這種過濾背景信息的圖像稱為DRGB圖像。圖4e是利用Selective Search算法處理DRGB圖像而產生的結果。經過統計，候選區域的數量約為 200個左右，與原始圖像的處理結果相比，候選區域數量降低了一個數量級，這會使網絡測試過程中減少候選框的生成數量，從輸入源頭減少了區域推薦和候選邊框回歸等過程的運行時間。

3 基于AlexNet的分類網絡訓練

3.1 訓練樣本和驗證樣本處理

訓練集和驗證集主要用于訓練分類網絡模型，是實現目標識別的前提。為了提高樣本多樣性，在采集圖像過程中分別在牛棚內、牛棚外進行拍攝，同時針對肉牛形體大小、形狀特點、毛皮顏色以及不同姿態等分別進行拍攝。最后將整體圖像進行人工裁剪和標注，形成測試集和驗證集，過程如圖5所示。

圖5 訓練集和驗證集樣本生成過程Fig.5 Generation process of training and validation samples set

3.2 AlexNet網絡架構

AlexNet[38]是Image LSVRC-2102大賽中的冠軍模型，是一種典型的卷積神經網絡，如圖 6所示。其中的卷積層主要作用是提取特征，包含一組可以自動更新的卷積核，針對不同的特征提取密集度，卷積核用固定大小的卷積步長（Stride）與來自上一層的圖像或特征圖作卷積運算，經由激活函數（ReLU）變換后構成卷積特征圖，代表對輸入圖像特征的響應。

AlexNet設計的結構及訓練策略是基于 ImageNet[39]數據集，主要適用于廣義的物體識別。若將AlexNet直接用于肉牛關鍵部位的定位和識別，會因數據規模小、數據類別間的紋理差異小而出現損失函數收斂效果差和過擬合等風險[40]。同時，隨著網絡寬度和深度的增加，其學習能力也會相應的提高，但是訓練成本也會呈指數增長。特別是對于固定分類問題，當網絡層數過多后，會出現性能下降的問題，因此需要針對具體問題調整網絡結構和樣本。

首先，肉牛的關鍵部位的表象通常大小、形狀各異，比如軀干的成像面積遠大于頭、腿和尾部，腿和尾部的成像寬度比頭和軀干要窄。為此，本文采用均值像素填充的方式來將不同大小的圖像轉換為 227×227 大小的RGB圖像作為網絡輸入（圖7），避免由于拉抻造成的圖像形變。

圖6 AlexNet網絡架構Fig.6 AlexNet framework

圖7 利用均值像素填充原始圖片Fig.7 Fill original image with mean pixels

針對頭、軀干、腿、尾和背景的5分類問題，將AlexNet的FC3層的神經元數量調整為5個。未改進的AlexNet的參數個數達到6 000萬個，是為了解決大規模圖像分類而設計的，而本試驗在類型數量和樣本數量上都相對很少。為了提高網絡訓練效果，在保持AlexNet基本結構不改變的前提下，本文配置了8種類型分類網絡（表2），每種網絡需要訓練的參數總數量隨著網絡層數的遞減而遞減。其中在全連接層參數不變的前提下，減少卷積層參數對參數總量影響較?。ū?中網絡I、II、III比較）；而全連接層對參數總量的影響較大（表2中網絡IV和V）。

3.3 網絡訓練方法

本文使用的深度學習框架主要基于Tensorflow平臺實現（convolutional architecture for fast feature embedding）[41]，計算平臺采用單塊型號為NVDIA Tesla K40 的圖形處理器（支持PCI-E 3.0，核心頻率為745 MHz，顯存12 GB，顯存頻率6 GHz，帶寬288 GB/s）[42]。由于支持PCI-E 3.0，這使得K40與CPU之間的帶寬從8 GB/s提高到15.75 GB/s。

采用小批量隨機梯度下降法對網絡進行訓練，在首次訓練時只將batch數目設置為32，在每輪訓練結束后再將batch值提高到原來的2倍進行下一次訓練，一直增加到256。采用均值為0、標準偏差為0.01的高斯分布為網絡所有層的權重進行隨機初始化，偏置（bias）均初始化為0，學習速率（lr）設置為0.01，在訓練過程中學習率的變化率為0.1。

表2 基于AlexNet的8種分類網絡配置Table 2 Eight kinds of network configuration based on AlexNet

在batch偏小時（如圖8a所示），在訓練的過程中會遇到非常多的局部極小點，在步長和卷積方向的共同作用下，雖然 loss值呈現不斷減小的趨勢，但在整個過程仍然會出現loss值跳變的情況。迭代在60 000次到70 000次之間出現了較大的loss值震蕩，在80 000次迭代之后，loss值趨于平穩。

圖8 訓練AlexNet訓練時損失值loss收斂情況Fig.8 Convergence of loss from training AlexNet

為降低 loss值出現跳變的幾率，本文將從以下幾個方面對網絡進行優化：首先將lr調節到0.02，相當于間接增加了卷積的步長，在一定程度上可以避免訓練產生的震蕩，越過局部極小點繼續向更大的極值點方向進行訓練；對于每一層的偏置項從0設置為0.1，限制激活閾值的大小，這樣就降低了出現過大誤差的概率，避免迭代方向出現較大的變化；繼續增大batch的值，提高每次訓練樣本的覆蓋率。

通過調整學習率和偏置項，網絡訓練的收斂性得到了很好的改善，但會帶來整體收斂速度過慢的問題，因此需要增加最大迭代的次數。圖8b是batch=256時的loss值分布情況，loss值在40 000次迭代是就出現明顯的收斂趨勢且沒有出現loss值跳變。因此，本文選擇batch=256訓練分類網絡。

根據預先準備的5分類40 000幅肉牛關鍵部位圖像數據做樣本，其中訓練集32 000幅，測試集8 000幅，針對表2中8種網絡結構進行試驗。參考ILSVRC的評判標準，使用top-1錯誤率（沒有被網絡正確分類的圖像數與樣本集圖像總數的比例）評價個網絡的性能。其中8中網絡的top-1錯誤率（%）分別為0.312（網絡I）、0.608（網絡 II）、0.763（網絡 III）、0.453（網絡 IV）、0.598（網絡 V）、0.795（網絡 VI）、1.276（網絡 VII）、6.641（網絡VIII）。

網絡I和網絡IV具有較高的分類精度，而網絡VIII的性能最差。在網絡寬度相同的前提下，層數越多分類精度越高（如網絡I的精度要高于網絡II，網絡II的精度高于網絡 III）；在網絡深度相同時，通過增加網絡寬度，會使分類精度有所提高（網絡I、IV、V、VI、VII、VIII的精度遞減），這是由于寬度增加使每個卷積層的卷積核數量也會增加，這樣可以從輸入圖像中提取更多的特征，以此來提高網絡分類性能。但層數越多（特別是全連接層），網絡越寬，參數總量就越大，訓練時間就越長，因此根據分類數量和樣本數量來調整網絡結構，本文為了綜合精度和訓練時間，選擇網絡VI作為本試驗的分類網絡。

4 基于DRGB的目標識別網絡實現

4.1 識別網絡設計與精調

目標識別過程，除了要對目標對象進行分類，更重要的是找到目標對象的正確位置。因此在獲得高精度分類網絡后，需要根據識別對象的特征對分類網絡進行參數微調（fine-tuning），同時根據真值區域（ground truth）的位置，對所有候選區域（region proposals）進行合并或刪除操作，最終保留概率最大的邊框（bounding-box）作為該對象的識別位置。

本文參考了 Fast R-CNN的實現方法，利用 RoI（Region of Interesting）池化取代分類網絡的最后一個池化層，設計出針對肉牛形體部位（頭、軀干、腿、尾）的識別網絡，如圖9所示。通過卷積-池化層對輸入的整幅圖像進行特征提取，并生成特征圖；利用 Selective Search在DRGB圖像上生成候選區域（如圖9中的矩形候選區域對應的肉牛頭部信息）；RoI池化層根據候選區域到特征圖的坐標投影，從特征圖上獲取候選區域特征，歸一化為大小固定的輸出特征，最終由全連接層和softmax分類器進行分類和識別，由bounding box回歸器來進行邊框位置定位。由于該識別網絡對整幅圖像只進行一次連續卷積操作，因此可以做到端到端處理，提高了該模型處理實時目標識別問題的能力。

本文選擇網絡 VI作為圖 9的基本網絡結構，利用RoI池化層替換網絡VI的最后一個池化層。在fine-tuning前，選擇1 000幅DRGB作為參與精調的訓練集，通過人工標注肉牛頭部、軀干、腿部和尾部等部位的真實區域（ground truth regions，GTRs），利用 Selective search 在每幅 DRGB上獲取 200個左右的目標候選區域（object region proposals，ORPs），利用 IoU（intersection over union）來計算ORP與GTR的重疊程度，其中IoU=ORP∩GTR ORP ∪ GTR，如果 IoU≥0.5，則該候選區域被標記為對應真實區域的類型（正例），否則被標記為背景（負例）。由于識別網絡中負責特征提取部分與網絡IV的結構一致，可以復用網絡VI的卷積層進行圖像特征提取，因此識別網絡可以共享網絡VI的所有權重參數，包括全部卷積層和 3個全連接層。將肉牛圖像的正、負例區域圖像截取出來混入網絡VI的訓練樣本，繼續對網絡進行訓練，利用再次訓練好的網絡VI初始化識別網絡。

圖9 基于FR-CNN的肉牛關鍵部位識別網絡Fig.9 Recognition network for cattle key parks based on Fast R-CNN(FR-CNN)

4.2 測試與分析

為驗證DRGB圖像序列對網絡識別性能的提升，本文同樣利用Fast RCNN模型對RGB 圖像序列進行識別處理，并比較2次測試的平均精度[43]（average precision,AP）、全局平均精度mAP（mean AP）[43]以及識別速度，結果如表3所示。測試結果證明，FR-CNN+DRGB 在檢測速度（4.32幀/s）上遠遠高于FR-CNN+RGB的檢測速度（0.5幀/s），而且前者的mAP（75.88%）也高于后者的mAP（68.07%）。其中，FR-CNN+DRGB網絡對肉牛頭部的檢測效果最好（86.32%），對尾部的檢測效果最差（61.25%）。這是由于頭部的形狀比較單一，而且特征相比于其他部位更加明顯；而尾部與腿部存在形狀、紋理、顏色的相似性，因此特征相似。利用 FR-CNN+DRGB 網絡對一段連續圖像序列進行目標識別處理，截取其中一段的識別效果如圖10 所示，從對連續幀處理的結果上看，在肉牛行走過程中牛腿、牛頭、牛身都可以很清晰的識別出來，而牛尾本身在行走過程中可能會隱藏在牛腿間，而且形態特征類似于牛腿，因此會在個別圖像中沒有成功識別，但這并不影響肉牛整體形態的識別。而通過觀察可以看出，每個識別的目標基本可以與肉牛形體關鍵部位對應，實現了對運動中肉牛關鍵位置的識別。

表3 肉牛關鍵部位檢測速度和平均精度Table 3 Detection speed and average precision of cattle key parts

圖10 部分運動中的肉牛形態部位識別結果Fig.10 Partly body shape parts recognition results of moving cattle

5 結論

本文利用Kinect在相同時間維度下采集肉牛運動過程的2種模態信息（Depth and RGB，DRGB），并針對2種模態信息進行相應的處理，試驗結果表明：利用隨機最近鄰像素比較法（random nearest neighbor pixel comparison, RNNPC）來自動獲取運動中肉牛連續幀圖像，可以減少 72%的無效幀數據，且平均有效幀比率約為94%；將RGB圖像與Depth圖像進行像素點映射，并利用Depth圖像中動態變化區域的均值深度來過濾RGB圖像背景，生成DRGB圖像，經Selective Search算法測試，目標候選區域可以減少一個約數量級；基于AlexNet設計出 8種分類網絡，通過調整深度卷積神經網絡結構和參數變化策略，可以提高這 8類分類網絡練時的收斂速度，同時參照Fast-RCNN構造了最終目標識別網絡。利用DRGB樣本訓練后的識別網絡在識別平均分類精度可以達到75.88%，識別速度可以達到4.32幀/s，而利用RGB樣本訓練后的原Fast RCNN網絡在分類精度上可以達到68.07%，識別速度可以達到0.5幀/s，因此基于DRGB的識別網絡要優于原生 Fast RCNN。綜合上述方法，最終可以實現對運動時肉牛關鍵部位的識別。

[1] 國家統計局. 2016年國民經濟和社會發展統計公報[EB/OL].http://www.stats.gov.cn/tjsj/zxfb/201702/t20170228_1467424.html.

[2] 羅錫文，廖娟，胡煉，等. 提高農業機械化水平促進農業可持續發展[J]. 農業工程學報，2016，32(1)：1－11.Luo Xiwen, Liao Juan, Hu Lian, et al. Improving agricultural mechanization level to promote agricultural sustainable development[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016,32(1): 1－11. (in Chinese with English abstract)

[3] 何東健，孟凡昌，趙凱旋，等. 基于視頻分析的犢?；拘袨樽R別[J]. 農業機械學報，2016，47(9)：294－300.He Dongjian, Meng Fanchang, Zhao Kaixuan, et al.Recognition of calf basic behaviors based on video analysis[J]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(9): 294－300. (in Chinese with English abstract)

[4] Yann Lecun, Yoshua Bengio, Geoffrey Hinton. Deep Learning[J]. Nature, 2015, 521: 436－444.

[5] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 504－507.

[6] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786):504－507.

[7] Gawehn E, Hiss J A, Schneider G. Deep learning in drug discovery[J]. Molecular Informatics, 2016, 35(1): 3－14.

[8] Lecun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541－551.

[9] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems. Curran Associates Inc, 2012: 1097－1105.

[10] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]// Computer Vision and Pattern Recognition.IEEE, 2015: 1－9.

[11] Srivastava R K, Greff K, Schmidhuber J. Highway networks[EB/OL]. https: //arxiv.org/abs/1505.00387.

[12] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]// International Conference on Learning Representations (ICLR), 2015.

[13] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE Computer Society, Las Vegas, NV, United States, 2016.

[14] Redmon J, Farhadi A. YOLO9000: Better, Faster,Stronger[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE Computer Society, Honolulu, Hawaii, United States, 2017.

[15] Deng J, Berg A, Satheesh S, et al. ImageNet large scale visual recognition competition 2012(ILSVRC2012) [EB/OL].http: //www.image-net.org/challeges/ISVRC/2012/.

[16] Farabet C, Couprie C, Najman L, et al. Learning hierarchical features for scene labeling[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(8): 1915－1929.

[17] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2014.

[18] Girshick R. Fast R-CNN[C]// IEEE International Conference on Computer Vision (ICCV), 2015.

[19] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Annual Conference on Neural Information Processing Systems (NIPS), 2015.

[20] Tao Kong, Anbang Yao, Yurong Chen, et al. HyperNet:Towards Accurate Region Proposal Generation and Joint Object DetectionTao Kong[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016.

[21] Redmon, J, Divvala, S, Girshick, R, et al. A: You only look once unified, real-time object detection[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016.

[22] Wei Liu, Dragomir Anguelov, Dumitru Erhan, et al. SSD:Single Shot MultiBox Detector[C]// European Conference on Computer Vision (ECCV), 2016.

[23] 田有文，程怡，王小奇，等. 基于高光譜成像的蘋果蟲傷缺陷與果梗/花萼識別方法[J]. 農業工程學報，2015，31(4)：325－331.Tian Youwen, Cheng Yi, Wang Xiaoqi, et al. Recognition method of insect damage and stem/calyx on apple based on hyperspectral imaging[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(4): 325－331. (in Chinese with English abstract)

[24] 周云成，許童羽，鄭偉，等. 基于深度卷積神經網絡的番茄主要器官分類識別方法[J]. 農業工程學報，2017，33(15)：219－226.Zhou Yuncheng, Xu Tongyu, Zheng Wei, et al. Classification and recognition approaches of tomato main organs based on DCNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017,33(15): 219－226. (in Chinese with English abstract)

[25] 賈偉寬，趙德安，劉曉樣，等. 機器人采摘蘋果果實的K-means和 GA-RBF-LMS神經網絡識別[J]. 農業工程學報，2015，31(18)：175－183.Jia WeiKuan, Zhao Dean, Liu Xiaoyang, et al. Apple recognition based on K-means and GA-RBF-LMS neural network applicated in harvesting robot[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(18): 175－183. (in Chinese with English abstract)

[26] 趙源深，貢亮，周斌，等. 番茄采摘機器人非顏色編碼化目標識別算法研究[J]. 農業機械學報，2016, 47(7): 1－7.Zhao Yuanshen, Gong Liang, Zhou Bin, et al. Object recognition algorithm of tomato harvesting robot using non-color coding approach[J]. Transactions of the Chinese Society for Agricultural Engineering, 2016, 47(7): 1－7. (in Chinese with English abstract)

[27] 楊國國，鮑一丹，劉子毅. 基于圖像顯著性分析與卷積神經網絡的茶園害蟲定位與識別[J]. 農業工程學報，2017，33(6)：156－162.Yang Guoguo, Bao Yidan, Liu Ziyi. Localization and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE)，2017, 33(6): 156－162. (in Chinese with English abstract)

[28] 譚文學，趙春江，吳華瑞，等. 基于彈性動量深度學習的果體病例圖像識別[J]. 農業機械學報，2015，46(1)：20－25.Tan Wenxue, Zhao Chunjiang, Wu Huarui, et al. A deep learning network for recognizing fruit pathologic images based on flexible momentum[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(1): 20－25. (in Chinese with English abstract)

[29] 王獻鋒，張善文，王震，等. 基于葉片圖像和環境信息的黃瓜病害識別方法[J]. 農業工程學報，2014，30(14)：148－153.Wang Xianfeng, Zhang Shanwen, Wang Zhen, et al.Recognition of cucumber diseases based on leaf image and environmental information[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(14): 148－153. (in Chinese with English abstract)

[30] 王新忠，韓旭，毛罕平. 基于吊蔓繩的溫室番茄主莖稈視覺識別[J]. 農業工程學報，2012，28(21)：135－141.Wang Xinzhong, Han Xu, Mao Hanping. Vision-based detection of tomato main stem in greenhouse with red rope[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(21): 135－241. (in Chinese with English abstract)

[31] 郭艾俠，熊俊濤，肖德琴，等. 融合Harris與SIFT算法的荔枝采摘點計算與立體匹配[J]. 農業機械學報，2015,46(12): 11－17. (in Chinese with English abstract)Guo Aixia, Xiong Juntao, Xiao Deqin, et al. Computation of picking point of litchi and its binocular stereo matching based on combined algorithms of Harris and SIFT[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015,46(12): 11－17. (in Chinese with English abstract)

[32] 趙凱旋，何東鍵. 基于卷積神經網絡的奶牛個體身份識別方法[J]. 農業工程學報，2015，31(5)：181－187.Zhao Kaixuan, He Dongjian. Recognition of individual dairy cattle based on convolutional neural networks[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(5): 181－187. (in Chinese with English abstract)

[33] 段延娥，李道亮，李振波，等. 基于計算機視覺的水產動物視覺特征測量研究綜述[J]. 農業工程學報, 2015，31(15)：1－11.Duan Yan’e, Li Daoliang, Li Zhenbo, et al. Review on visual characteristic measurement research of aquatic animals based on computer vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015,31(15): 1－11. (in Chinese with English abstract)

[34] 高云，郁厚安，雷明剛，等. 基于頭尾定位的群豬運動軌跡追蹤[J]. 農業工程學報，2017，33(2): 220－226.Gao Yun, Yu Hou’an, Lei Minggang, et al. Trajectory tracking for group housed pigs based on locations of head/tail[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017,33(2): 220－226. (in Chinese with English abstract)

[35] Nitish Srivastava, Ruslan Salakhutdinov. Multimodal learning with deep Boltzmann machines[C]// International Conference on Neural Information Processing System (NIPS),2012: 2222-2230.

[36] Microsoft. Developing with Kinect for Windows[EB/OL].https://developer.microsoft.com/en-us/windows/kinect/develop.

[37] Uijlings J, Vandesande K, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision. 2013, 104(2): 154－171.

[38] Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton.ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25thInternational Conference on Neural Information Processing Systems.2012-12-03, 1097－1105.

[39] Russakovsky O, Deng J, Su H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2014, 115(3): 211－252.

[40] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[EB/OL]. https://arxiv.org/abs/1512.03385.

[41] Abadi M, Barham P, Chen J, et al. TensorFlow: A system for large-scale machine learning[C]//Usenix Conference on Operating Systems Design & Implementation, 2016.

[42] Nvidia. Nvidia Tesla K40[EB/OL]. www.nvidia.cn/object/t esla_product_literature_cn.html.

[43] Everingham M, Gool L V, Williams C K I, et al. The pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303－338.