采用改進CenterNet模型檢測群養(yǎng)生豬目標(biāo)

2021-11-26 06:25:38房俊龍胡宇航戴百生吳志東

農(nóng)業(yè)工程學(xué)報 2021年16期

關(guān)鍵詞：檢測模型

房俊龍，胡宇航，戴百生，吳志東

房俊龍，胡宇航，戴百生※，吳志東

（1. 東北農(nóng)業(yè)大學(xué)電氣與信息學(xué)院，哈爾濱 150030；2. 農(nóng)業(yè)農(nóng)村部生豬養(yǎng)殖設(shè)施工程重點實驗室，哈爾濱 150030）

為實現(xiàn)對群養(yǎng)環(huán)境下生豬個體目標(biāo)快速精準(zhǔn)的檢測，該研究提出了一種針對群養(yǎng)生豬的改進型目標(biāo)檢測網(wǎng)絡(luò)MF-CenterNet（MobileNet-FPN-CenterNet）模型，為確保目標(biāo)檢測的精確度，該模型首先以無錨式的CenterNet為基礎(chǔ)結(jié)構(gòu)，通過引入輕量級的MobileNet網(wǎng)絡(luò)作為模型特征提取網(wǎng)絡(luò)，以降低模型大小和提高檢測速度，同時加入特征金字塔結(jié)構(gòu)FPN（Feature Pyramid Networks）以提高模型特征提取能力，在保證模型輕量化、實時性的同時，提高遮擋目標(biāo)和小目標(biāo)的檢測精度。以某商業(yè)豬場群養(yǎng)生豬錄制視頻作為數(shù)據(jù)源，采集視頻幀1 683張，經(jīng)圖像增強后共得到6 732張圖像。試驗結(jié)果表明，MF-CenterNet模型大小僅為21 MB，滿足邊緣計算端的部署，同時對生豬目標(biāo)檢測平均精確度達到94.30%，檢測速度達到69 幀/s，相較于Faster-RCNN、SSD、YOLOv3、YOLOv4目標(biāo)檢測網(wǎng)絡(luò)模型，檢測精度分別提高了6.39、4.46、6.01、2.74個百分點，檢測速度分別提高了54、47、45、43 幀/s，相關(guān)結(jié)果表明了該研究所提出的改進型的輕量級MF-CenterNet模型，能夠在滿足目標(biāo)檢測實時性的同時提高對群養(yǎng)生豬的檢測精度，為生產(chǎn)現(xiàn)場端的群養(yǎng)生豬行為實時檢測與分析提供了有效方法。

計算機視覺；圖像處理；群養(yǎng)生豬；目標(biāo)檢測；MobileNet；FPN；CenterNet

0 引言

目前在中國生豬養(yǎng)殖過程中，對生豬的質(zhì)量體態(tài)、冷熱應(yīng)激、飲食排泄、攻擊咬尾等狀態(tài)和行為的監(jiān)測主要以人工監(jiān)測為主，這使得生豬養(yǎng)殖管理成本增高，同時還會帶來生豬的應(yīng)激反應(yīng)，更嚴(yán)重的會出現(xiàn)人畜交叉感染的風(fēng)險[1]。隨著計算機視覺技術(shù)的發(fā)展，使得利用該技術(shù)對群養(yǎng)生豬進行非接觸式、低應(yīng)激的健康監(jiān)測成為可能，對生豬個體目標(biāo)進行檢測是實現(xiàn)對生豬自動化監(jiān)測與智能化分析的前提[1-3]?？焖俣譁?zhǔn)確的生豬目標(biāo)檢測，對實現(xiàn)精準(zhǔn)、個性化的生豬健康智能監(jiān)測具有重要意義。

近年來，已有研究人員開始利用計算機視覺技術(shù)對生豬個體目標(biāo)進行檢測，所采用的方法主要包括傳統(tǒng)目標(biāo)檢測方法和基于卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，CNN）的目標(biāo)檢測方法。楊心等[4]通過粘連豬體分割和基于廣義Hough聚類的方法對生豬頭、尾進行檢測，檢測平均正確率達到87.28%。馬麗等[5]經(jīng)過圖像處理獲取豬只輪廓圖，提出聯(lián)立豬只外接矩形高寬比和低頻傅里葉系數(shù)構(gòu)建豬只側(cè)視圖的特征向量，利用馬氏距離判別法進行檢測，檢測準(zhǔn)確率達到91.7%。謝雙云等[6]采用GMM和圖像?；椒?，依據(jù)圖像序列的前景圖分析粒子運動屬性，融合前景圖和?；瘓D，最終得到精確的豬只目標(biāo)檢測。然而，傳統(tǒng)檢測方法在復(fù)雜條件下檢測精度不高、檢測速度慢，隨著深度學(xué)習(xí)特別是CNN模型在圖像識別和目標(biāo)檢測領(lǐng)域的成功應(yīng)用，基于CNN的目標(biāo)檢測方法也逐漸被應(yīng)用到群養(yǎng)生豬的檢測中?；贑NN的目標(biāo)檢測可分為兩階段（Two-Stage）和單階段（One-Stage）兩大類。基于Two-Stage的模型主要包括R-CNN系列[7-8]（R-CNN，F(xiàn)ast R-CNN，F(xiàn)aster R-CNN等），基于單階段的模型主要包含YOLO（You Only Look Once）系列[9-12]和SSD（Single Shot MultiBox Detector）系列[13]。在生豬個體檢測領(lǐng)域，Riekert等[14]利用2D攝像機和Faster R-CNN檢測模型對生豬的位置和姿態(tài)進行檢測，平均檢測精度達到80.2%。Yang等[15]通過Faster R-CNN模型對生豬個體以及頭部位置進行檢測，再通過關(guān)聯(lián)算法檢測生豬進食行為，檢測準(zhǔn)確度達到95%以上，召回率達到80%以上。Cowton等[16]利用Faster R-CNN模型對生豬位置進行檢測，精度達到90.1%，滿足試驗預(yù)期效果。王婷婷等[17]通過采用Faster R-CNN模型對有無遮擋的生豬分別進行檢測，進而通過改進Faster R-CNN模型完成對生豬質(zhì)量的評估?；赥wo-Stage的生豬目標(biāo)檢測方法檢測精度高但檢測速度相對較慢，難以滿足實時檢測要求，且模型體量較大，使得向嵌入式平臺移植帶來挑戰(zhàn)。謝濤[18]提出了一種基于稀疏化深度可分離網(wǎng)絡(luò)結(jié)構(gòu)的快速SSD生豬目標(biāo)檢測模型，可以快速而精準(zhǔn)的檢測生豬姿態(tài)，滿足實時檢測要求。蘇恒強等[19]針對圖像光照強度、生豬種類顏色、障礙物遮擋等干擾，提出了基于YOLOv3的生豬目標(biāo)檢測方法。燕紅文等[20]提出了將特征金字塔注意力信息融入Tiny-YOLO特征提取過程中，對群養(yǎng)生豬進行了高精度的目標(biāo)檢測。Hanse等[21]使用YOLO對生豬姿態(tài)進行檢測并對身體部位（頭、身、臀）進行訓(xùn)練，進而檢測出生豬頭部位置。李泊等[22]通過YOLOv3檢測生豬頭尾目標(biāo)，并采取閾值分割與前景橢圓擬合推理缺失部位，生豬頭尾檢測精度達到96.22%。上述基于One-Stage的模型能夠在檢測精度和檢測速度達到一定的平衡，但其檢測精度和檢測速度仍然有待提高。

特別地，上述目標(biāo)檢測模型主要采用先驗框的設(shè)定，未能較好解決模型檢測時圖像中目標(biāo)尺寸大小以及目標(biāo)相互遮擋等因素對檢測結(jié)果的影響，同時模型檢測實時性不高、體積較大、需要算力較高，難以滿足向移動式終端或嵌入式設(shè)備進行移植的需求，給實際場景的應(yīng)用帶來挑戰(zhàn)。

為使得生豬目標(biāo)檢測模型更加易于向計算資源有限且性能較低的邊緣計算硬件平臺上進行部署，在保證實時性檢測的同時盡量提高檢測精度，本文有針對性的提出了一種基于MF-CenterNet（MobileNet-FPN-CenterNet）模型的群養(yǎng)生豬目標(biāo)檢測方法，該方法在保證檢測實時性、可移植于邊緣計算端的同時，對存在不同目標(biāo)尺寸、相互遮擋等因素下的生豬個體都有較好的檢測能力。

1 材料與方法

1.1 數(shù)據(jù)收集

本文所研究的生豬視頻采集于黑龍江省齊齊哈爾市建華區(qū)雙合村金城養(yǎng)殖場，為了試驗結(jié)果的普遍性，分別于2020年7月20號（天氣晴，光照強）和2020年9月27號（多云，光照弱）進行2次采集，選取了大白、長白2個品種的豬作為采集對象，豬場單個豬舍面積（長 ×寬）為7 m×5 m，每個豬舍生豬數(shù)量10～25頭，選取其中4舍日齡80 d、質(zhì)量平均約41 kg的育肥期的群養(yǎng)生豬共計85頭作為試驗對象。本文采用手持設(shè)備對不同光照和不同數(shù)量的生豬進行視頻采集，共拍攝得到時長為20 ～40 min的10段視頻，每個豬舍選取2段時長超過30 min的視頻作為原始視頻。原始視頻格式為MP4，分辨率為（幀寬度×幀高度）1 280像素×720像素，幀速率29.9 幀/s，本文所采集數(shù)據(jù)中，包含不同頭數(shù)生豬的監(jiān)控畫面統(tǒng)計結(jié)果，如表1所示。

1.2 數(shù)據(jù)預(yù)處理

1.2.1 視頻幀抽取

通過對所采集視頻數(shù)據(jù)進行預(yù)處理，以得到群養(yǎng)生豬目標(biāo)檢測圖像數(shù)據(jù)集。具體對采集到的視頻進行視頻幀抽取，為防止數(shù)據(jù)重復(fù)冗余，本文每隔20 s抽取一張視頻幀圖片，在抽取過程中由于生豬運動會在圖片中出現(xiàn)運動模糊和目標(biāo)重影現(xiàn)象，刪去這些目標(biāo)不清晰的圖片，再對其進行隨機排序，共獲得包含25 563只生豬個體目標(biāo)的1 683張群養(yǎng)生豬目標(biāo)檢測原始圖像數(shù)據(jù)集。

表1 不同生豬頭數(shù)所對應(yīng)的圖像張數(shù)

1.2.2 數(shù)據(jù)增強

為了增加可供模型訓(xùn)練的數(shù)據(jù)量，提高模型的泛化能力和魯棒性，本文對生豬原始圖像數(shù)據(jù)進行旋轉(zhuǎn)（90°，180°，270°）、翻轉(zhuǎn)、增加噪音等數(shù)據(jù)增強操作，共獲得6 732張圖像，增強后的圖像如圖1所示。

1.2.3 圖像標(biāo)注

目標(biāo)檢測模型在訓(xùn)練和測試過程中，需要提供群養(yǎng)生豬目標(biāo)的真實位置信息，本文使用labelImg圖像標(biāo)注工具（https://github.com/tzutalin/labelImg）對增強后的共計6 732張圖像中的生豬目標(biāo)進行標(biāo)注，并將標(biāo)注好的信息按照通用的PASCAL VOC 格式保存為與圖像相對應(yīng)且同名的xml格式文件，該文件中記錄了圖片中每個目標(biāo)的類別名稱、矩形框位置等信息。

1.2.4 數(shù)據(jù)集劃分

經(jīng)上述整理后，共獲得6 732張標(biāo)注過的圖像及其對應(yīng)的標(biāo)注文件，本文按照6∶2∶2比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集、測試集，訓(xùn)練集包含4 038張圖像，驗證集包含1 347張圖像，測試集包含1 347張圖像。訓(xùn)練集和驗證集用于模型訓(xùn)練，測試集用于模型檢測結(jié)果驗證。

2 群養(yǎng)生豬目標(biāo)檢測模型

2.1 CenterNet網(wǎng)絡(luò)模型

CenterNet是由Zhou等[23]近些年提出的無錨點（Anchor-Free）目標(biāo)檢測方法[23]，其在遮擋目標(biāo)檢測方面相比于采用先驗框設(shè)定的目標(biāo)檢測網(wǎng)絡(luò)具有更好的檢測效果，且在目標(biāo)檢測過程中僅需提取每個目標(biāo)的中心點，無需進行后處理，相比于傳統(tǒng)目標(biāo)檢測網(wǎng)絡(luò)提高了檢測速度。CenterNet使用殘差網(wǎng)絡(luò)（ResNet50）[24]作為主干特征提取網(wǎng)絡(luò)，殘差網(wǎng)絡(luò)結(jié)構(gòu)由Conv Block和Identity Block組成，并通過轉(zhuǎn)置卷積（Transpose Convolution）進行上采樣，其具體網(wǎng)絡(luò)框架如圖2所示。

CenterNet網(wǎng)絡(luò)在數(shù)據(jù)輸入后，首先進行一次卷積、批標(biāo)準(zhǔn)化（Batch Normalization，BN）、激活函數(shù)（ReLU）和最大池化；其后，經(jīng)歷4組殘差結(jié)構(gòu)，每組殘差結(jié)構(gòu)分別由改變網(wǎng)絡(luò)的維度的Conv Block和加深網(wǎng)絡(luò)的Identity Block組成，每組的Block個數(shù)分別為3、4、6、3。在經(jīng)過第4次Conv Block和Identity Block的堆疊之后，完成了網(wǎng)絡(luò)的特征初步提取，獲得維度為（16，16，2 048）的有效特征層；隨后，對獲取到的有效特征層利用轉(zhuǎn)置卷積進行3次上采樣，獲得了高分辨率特征圖，最后使用CenterNet檢測層進行結(jié)果預(yù)測。

2.2 MF-CenterNet網(wǎng)絡(luò)模型

盡管CenterNet在檢測精度和檢測速度上較現(xiàn)有目標(biāo)檢測算法均有不同的提升，且對存在遮擋情況下的目標(biāo)檢測具有一定的魯棒性，但其仍不能滿足低計算資源平臺上的實時檢測要求，且由于模型體積過大難以部署在邊緣計算端，另外，其對小目標(biāo)檢測的效果也不理想[23]。

為進一步提高該目標(biāo)檢測模型的檢測速度和對具有低計算資源的邊緣計算端的可移植性，以及對真實養(yǎng)殖環(huán)境中易出現(xiàn)的小目標(biāo)的檢測能力，基于文獻[25]，本文提出一種輕量級的群養(yǎng)生豬目標(biāo)檢測網(wǎng)絡(luò)，其在CenterNet目標(biāo)檢測網(wǎng)絡(luò)的基礎(chǔ)上，首先改進其主干特征提取網(wǎng)絡(luò)，在保證檢測精度的同時降低了模型總參數(shù)量，提高了模型檢測速度。考慮到MobileNet的基本單元是深度可分離卷積，相較于傳統(tǒng)卷積極大的減少了計算量及模型參數(shù)量，為此，本文使用輕量型的MobileNet系列網(wǎng)絡(luò)[26-28]對CenterNet的主干特征提取網(wǎng)絡(luò)進行改進。由于MobileNet網(wǎng)絡(luò)具有不同的實現(xiàn)版本，其具體網(wǎng)絡(luò)實現(xiàn)結(jié)構(gòu)的選擇將在3.1節(jié)進行具體討論。

此外，為進一步加強模型特征提取能力，本文進一步使用特征金字塔結(jié)構(gòu)（Feature Pyramid Networks，F(xiàn)PN）來融合低分辨率的高層語義信息和高分辨率的低層特征信息，以提高該模型對群養(yǎng)生豬目標(biāo)檢測的精度，尤其是具有較小尺寸的生豬目標(biāo)的檢測精度。FPN的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

本文所使用的FPN是在一個自頂向下連接的跳躍式傳遞（Skip Connection）的網(wǎng)絡(luò)結(jié)構(gòu)上僅使用最后一層進行檢測，圖像經(jīng)過多次上采樣并進行特征融合，僅使用最后一步生成的特征進行檢測。

為便于后文討論，本文將融合了輕量型MobileNet網(wǎng)絡(luò)和FPN結(jié)構(gòu)的CenterNet，記作MF-CenterNet（MobileNet-FPN-CenterNet），其整體網(wǎng)絡(luò)框架如圖4所示。

考慮到CenterNet屬于Anchor-Free型的目標(biāo)檢測方法，其檢測層與傳統(tǒng)Anchor-based型目標(biāo)檢測方法有所不同，其主要包括3個預(yù)測分支，即熱力圖預(yù)測、中心點預(yù)測和尺寸（寬高）預(yù)測，各預(yù)測示意如圖5所示。

基于CenterNet的群養(yǎng)生豬目標(biāo)檢測模型就是將圖像視為由無數(shù)關(guān)鍵點組成，通過關(guān)鍵點估計即熱力圖峰值確定生豬個體的中心點，再根據(jù)中心點位置回歸得出目標(biāo)寬高，最后確定生豬目標(biāo)，其檢測過程主要包含以下3個部分（三者為并行結(jié)構(gòu)）：

1）熱力圖（Heatmap）預(yù)測

CenterNet檢測層先對輸入的特征圖進行3×3的卷積，進行特征整合，再通過BN及ReLU，最后利用1×1的卷積，將特征層的通道數(shù)調(diào)整為num_classes。熱力圖預(yù)測的結(jié)果會判斷每一個特征點是否存在對應(yīng)的物體，以及物體種類和概率。

熱力圖的Loss整體思想和損失函數(shù)（Focal Loss）類似，對于容易分類的樣本，可以適當(dāng)減少其訓(xùn)練比例。熱力圖損失值（L）的計算公式如下：

式中Y為高斯核，、是Focal Loss的超參數(shù)，是圖像中關(guān)鍵點個數(shù)。

2）中心點（Reg）預(yù)測

CenterNet檢測層先對輸入的特征圖進行3×3的卷積，進行特征整合，再通過BN及ReLU，最后利用1×1的卷積，將特征層的通道數(shù)調(diào)整為2。中心點預(yù)測結(jié)果可以對特征點的軸、軸坐標(biāo)進行調(diào)整，獲得物體中心的軸、軸坐標(biāo)，即每一個特征點上對應(yīng)的物體軸、軸坐標(biāo)相對于同一個特征點軸、軸坐標(biāo)的偏移情況。中心點偏移損失值（off）公式如下：

3）寬高（WH）預(yù)測

CenterNet檢測層先對輸入的特征圖進行3×3的卷積，進行特征整合，再通過BN及ReLU，最后利用1×1的卷積，將特征層的通道數(shù)調(diào)整為2。寬高預(yù)測結(jié)果直接回歸獲得對應(yīng)物體框的寬高。目標(biāo)寬高損失值（size）公式如下：

式中k為目標(biāo)的包圍框（bounding box）的中心位置，S為目標(biāo)尺寸。故總的損失值（）為

式中off、size分別為Reg預(yù)測和WH預(yù)測的系數(shù)，根據(jù)文獻[23]，off、size分別取0.1、0.2。

2.3 模型評價與訓(xùn)練

2.3.1 試驗平臺

本文試驗所用的模型訓(xùn)練環(huán)境為64 位 Windows10 操作系統(tǒng)，硬件配置CPU為Intel(R) 12-Core(TM) i7-10750H，主頻2.60 GHz，顯卡為NVIDIA GeForce GTX 1660Ti GPU，內(nèi)存為16GB。試驗采用的Python編程語言，并在 Torch 1.2.0 進行網(wǎng)絡(luò)搭建、訓(xùn)練和測試，并采用遷移學(xué)習(xí)思想，使用mobilenet_weights.pth對輕量型骨干網(wǎng)絡(luò)參數(shù)進行初始化。

2.3.2 評價指標(biāo)

為驗證所提目標(biāo)檢測算法的有效性，本文試驗主要采用以下6個評價指標(biāo)：準(zhǔn)確率（Precision）、召回率（Recall）、平均精確率mAP（Mean Average Precision）、平衡分?jǐn)?shù)1（F1-Score）、檢測速度FPS（Frame Per Second）、模型大小Model Size。

準(zhǔn)確率是度量目標(biāo)檢測模型對某一類別目標(biāo)檢測結(jié)果的準(zhǔn)確性，即模型檢測出的真實生豬目標(biāo)數(shù)量占所有檢測出目標(biāo)數(shù)量的比例，其計算公式為

式中TP為圖像中生豬目標(biāo)被正確檢測為生豬的個數(shù)，F(xiàn)P為圖像中非生豬目標(biāo)被檢測為生豬的個數(shù)。

召回率是衡量一個目標(biāo)檢測模型把所有的檢測目標(biāo)都找到的能力，即模型正確檢測出的生豬目標(biāo)數(shù)量占所有真實生豬目標(biāo)數(shù)量的比例，其計算公式為

式中FN為圖像中生豬目標(biāo)被檢測成其他種類物體的個數(shù)。

精確率是PR曲線與坐標(biāo)軸所圍成的面積，平均精確率是多類別AP的平均值即對的積分。

平衡分?jǐn)?shù)又稱為1分?jǐn)?shù)（1-Score），它同時兼顧了分類模型的準(zhǔn)確率和召回率，被定義為精確率和召回率的調(diào)和平均數(shù)。

檢測速度FPS又稱每秒幀率是每秒內(nèi)目標(biāo)檢測模型可以處理的圖片數(shù)量，即檢測速度越快越能實現(xiàn)實時檢測，其計算公式如下：

式中為圖像的總張數(shù)，為目標(biāo)檢測過程中處理所有圖片所用的時間，s。

模型大?。∕odel Size）是目標(biāo)檢測網(wǎng)絡(luò)訓(xùn)練所生成模型的空間利用率，即模型大小由網(wǎng)絡(luò)的基本結(jié)構(gòu)決定。

2.3.3 模型訓(xùn)練參數(shù)設(shè)置

為了在訓(xùn)練模型時進行遷移學(xué)習(xí)，本試驗將網(wǎng)絡(luò)的輸入圖像全部轉(zhuǎn)化為512×512（像素）尺寸大小，同時為加快訓(xùn)練速度、防止訓(xùn)練初期權(quán)值被破壞，采用凍結(jié)訓(xùn)練的方式，前50次迭代（Epoch）進行凍結(jié)訓(xùn)練，每32張圖像作為一個Bach Size，50次Epoch訓(xùn)練完成后解凍，解凍后每8張圖像作為一個Bach Size，每完成一個Epoch更新一次權(quán)值并保存，權(quán)值衰減速率設(shè)為0.5，凍結(jié)時初始學(xué)習(xí)率設(shè)置為0.001，解凍后初始學(xué)習(xí)率設(shè)置為0.000 1。

3 結(jié)果與分析

3.1 MobileNet模型選擇

MobileNet系列網(wǎng)絡(luò)當(dāng)前主要有3個版本（v1、v2、v3），為驗證不同版本模型作為特征提取主干網(wǎng)絡(luò)對生豬目標(biāo)檢測的影響，本文將分別采用MobileNetv1、v2、v3對CenterNet主干網(wǎng)絡(luò)進行替換，并對比集成不同版本MobileNet后模型性能與原始CenterNet性能的差異。

值得注意的是，MobileNet系列網(wǎng)絡(luò)的核心是通過引入深度可分離卷積來降低網(wǎng)絡(luò)的參數(shù)以達到模型輕量化的目的，但在進行深度卷積的過程中，高、低維度信息轉(zhuǎn)換會造成一定的特征信息損失，特別是在MobileNetv1中，再經(jīng)過ReLU函數(shù)激活后，特征信息的損失會進一步加大[26]。為此，MobileNetv2引入倒置殘差（Inverted Residuals）和線性激活函數(shù)來改善網(wǎng)絡(luò)中特征信息的損失問題[27]，在性能上有所提升。MobileNetv3則進一步引入神經(jīng)結(jié)構(gòu)搜索NAS（Neural Architecture Search）技術(shù)來進行網(wǎng)絡(luò)參數(shù)的優(yōu)化，以提高模型的特征提取能力[28]，并提出了面向高資源應(yīng)用場景的MobileNetV3-Large和面向低資源應(yīng)用場景的MobileNetv3-small兩個版本。為了對比不同版本的MobileNet應(yīng)用于生豬目標(biāo)檢測任務(wù)中的效果，以及考慮本文重點關(guān)注面向邊緣計算端的生豬目標(biāo)檢測模型，本文通過試驗重點對比分析集成MobileNetv1、MobileNetv2以及MobileNetv3-small的目標(biāo)檢測性能。圖6給出了集成不同版本MobileNet（v1、v2、v3）的MobileNet-CenterNet在訓(xùn)練集上的損失值變化曲線，橫坐標(biāo)為迭代次數(shù)，縱坐標(biāo)為模型訓(xùn)練損失值。

從圖6不同版本MobileNet進行模型訓(xùn)練時的Loss值（損失）曲線可以看出，MobileNetv2-CenterNet在訓(xùn)練時模型收斂更快，且在模型損失曲線達到收斂時，模型預(yù)測結(jié)果與真實目標(biāo)位置所產(chǎn)生的誤差也更小，因此，相較于其他版本，MobileNetv2-Center更容易在生豬目標(biāo)檢測數(shù)據(jù)集上進行訓(xùn)練。為了進一步驗證，集成不同版本MobileNet的CenterNet模型對生豬目標(biāo)的檢測性能，本文接下來對相關(guān)模型在測試集上的性能表現(xiàn)進行對比分析，其試驗結(jié)果如表2所示。

從對比試驗結(jié)果表2可以看出，CenterNet檢測精度最高，達到93.67%，檢測速度為27 幀/s低于本文所采集視頻的真實幀速率29.9 幀/s，模型總體參數(shù)量過大，算法實時性和移植能力有待提高。在使用MobileNet對CenterNet主干網(wǎng)絡(luò)進行改進后，MobileNetv1-CenterNet的檢測速度最快，達到了78 幀/s，相比于原CenterNet提高51 幀/s，MobileNetv3-CenterNet模型的總體參數(shù)量約為6 000 000 個，相比于原CenterNet降低了27 000 000 個。在檢測精度方面，主干網(wǎng)絡(luò)改進后相比原CenterNet均有不同下降，其中MobileNetv2-CenterNet檢測精度為93.37%，在所有改進后的模型中為最高，且與原CenterNet精度較為接近，但MobileNetv2-CenterNet檢測速度達到62 幀/s比原CenterNet提高了35 幀/s，總體參數(shù)量為8 000 000 個降低了25 000 000 個。

3.2 MF-CenterNet與不同CNN網(wǎng)絡(luò)檢測性能對比

在利用MobileNetv2對CenterNet主干網(wǎng)絡(luò)進行改進的基礎(chǔ)上，進一步使用FPN替換原有的轉(zhuǎn)置卷積，以加強網(wǎng)絡(luò)特征提取能力，達到提高模型檢測精度的目的，也即本文所提出的MF-CenterNet模型。為驗證使用FPN的效果，本文對使用FPN改進MobileNetv2-CenterNet前后的網(wǎng)絡(luò)結(jié)果進行對比，并與其他常見用于目標(biāo)檢測的CNN模型進行比較，其結(jié)果如表3所示。

由表3可見，本文所提出的MF-CenterNet目標(biāo)檢測模型對真實場景下群養(yǎng)生豬目標(biāo)檢測精度最高，其檢測精度達到94.30%，較沒有集成FPN的MobileNetv2-CenterNet檢測精度提高了0.93個百分點，比Faster-RCNN、SSD、YOLOv3、YOLOv4、CenterNet目標(biāo)檢測模型分別提高了6.39、4.46、6.01、2.74、0.63個百分點。與此同時，檢測速度達到69 幀/s，比改進FPN之前MobileNetv2-CenterNet快了7 幀/s，與Faster-RCNN、SSD、YOLOv3、YOLOv4相比，檢測測速度分別提高了54、47、45、43 幀/s。

表2 原CenterNet與集成不同版本MobileNet后的試驗結(jié)果對比

表3 不同生豬目標(biāo)檢測模型性能對比

模型大小上，MF-CenterNet僅為21MB，相比于Faster-RCNN、SSD、YOLOv3、YOLOv4分別降低了249、70、214、223 MB，較MobileNetv2-CenterNet減小了104 MB。因此集成FPN后的目標(biāo)檢測模型MF-CenterNet有效的提高了生豬檢測效果。本節(jié)所做試驗證明了使用FPN結(jié)構(gòu)替換原轉(zhuǎn)置卷積，不僅可以提高一定的檢測精度，而且進一步提高了檢測精速度、降低了模型大小。為了更直觀展示本文所提出模型在不同召回率下所對應(yīng)的準(zhǔn)確率，將MF-CenterNet目標(biāo)檢測網(wǎng)絡(luò)的精確度結(jié)果可視化為PR曲線，曲線與橫縱坐標(biāo)所圍成的面積即為精確度值，MF-CenterNet目標(biāo)檢測網(wǎng)絡(luò)PR曲線如圖7所示。

為更直觀體現(xiàn)MF-CenterNet目標(biāo)檢測模型的檢測結(jié)果，本節(jié)將MF-CenterNet模型和原始CenterNet模型以及只改進主干網(wǎng)絡(luò)的MobileNetv2-CenterNet模型的生豬目標(biāo)檢測結(jié)果進行對比，如圖8所示，圖中CenterNet及MobileNetv2-CenterNet均有未被檢測出的生豬目標(biāo)，由此可見，MF-CenterNet模型有效提高了群養(yǎng)生豬的目標(biāo)檢測效果，尤其是對遮擋目標(biāo)和小目標(biāo)均有很好的檢測，滿足對真實場景下群養(yǎng)生豬目標(biāo)檢測的需求。

3.3 MF-CenterNet與現(xiàn)有生豬目標(biāo)檢測方法對比

表4給出了本文所提MF-CenterNet模型在本文測試集中的生豬目標(biāo)檢測結(jié)果以及現(xiàn)有生豬目標(biāo)檢測方法在其文獻中報告的檢測結(jié)果。其中，文獻[17]是通過采用BING算法提取圖像候選區(qū)域，通過改進CNN模型對候選框分類，最后利用非極大值抑制算法剔除冗余候選框，實現(xiàn)對生豬目標(biāo)的檢測。文獻[20]是將深度為3的特征金字塔注意力模塊FPA（即FPA-3）與Tiny-YOLOv3相結(jié)合，對不同場景下的多目標(biāo)生豬個體進行檢測。文獻[21]則通過使用稀疏化可分離卷積（S-DSC）對SSD進行改進，訓(xùn)練時自主采樣困難樣本并精簡模型預(yù)測網(wǎng)絡(luò)實現(xiàn)生豬目標(biāo)的快速檢測。

由表3可以看出，本文所提出的MF-CenterNet模型盡管在檢測精度上并未達到最高，相比于其他文獻中所提方法在平均精度上低1～2個百分點，考慮可能存在的原因是，一方面，本文所用圖像均為斜側(cè)方位進行拍攝，生豬相互遮擋情況較其他文獻中使用的數(shù)據(jù)較為明顯，提高了對生豬目標(biāo)檢測的難度；另一方面，本文試驗所用的圖像中，生豬個數(shù)平均在13頭以上，而文獻[17，20—21]所使用的圖像中生豬個數(shù)平均在6～7頭，這也提高了目標(biāo)檢測的難度。與文獻[17]及文獻[21]的網(wǎng)絡(luò)相比本文所改進的網(wǎng)絡(luò)更加輕量化，滿足實時檢測的需求。與文獻[20]相比，本文所選用的基礎(chǔ)網(wǎng)絡(luò)CenterNet相比于YOLOv3具有更好的檢測精度，再通過特征金字塔結(jié)構(gòu)進行優(yōu)化，進一步提高檢測效果。雖然本文所提出的改進方案有效地提高了原始模型的檢測效果，但在目前生豬檢測領(lǐng)域并未處于最前端行列，尤其是檢測精度相對較低。雖然本文所改進的MF-CenterNet檢測精度相對較低，但在檢測速度上，本文所改進的MF-CenterNet模型提升較為顯著，分別較現(xiàn)有工作提高了67、57、21.5 幀/s。同時在模型大小上，與現(xiàn)有文獻中的參數(shù)相比，本文所提的MF-CenterNet模型也具有較為突出的優(yōu)勢。

表4 MF-CenterNet與現(xiàn)有檢測方法結(jié)果對比

綜上，本文提出的輕量型MF-CenterNet群養(yǎng)生豬目標(biāo)檢測模型在保證模型輕量化、檢測實時性的同時，在檢測精度上也達到很好的效果，滿足對真實養(yǎng)殖環(huán)境下群養(yǎng)生豬的實時、精準(zhǔn)檢測。

4 結(jié) 論

本文提出了一種輕量型的MF-CenterNet群養(yǎng)生豬目標(biāo)檢測模型，在滿足實時檢測和模型輕量化的同時，有效提高了群養(yǎng)條件下相互遮擋和較小尺寸生豬目標(biāo)的檢測能力，在群養(yǎng)生豬出現(xiàn)擁擠或遮擋的場景下，平均精度達到94.30%，目標(biāo)檢測速度達到69 幀/s，模型大小僅為21 MB。與經(jīng)典網(wǎng)絡(luò)模型Faster-RCNN、SSD、YOLOv3、YOLOv4相比，平均精度分別提高了6.39、4.46、6.01、2.74個百分點，檢測速度增加了54、47、45、43 幀/s，模型大小減少了249、70、214、223 MB。通過采用MobileNetv2改進CenterNet的主干網(wǎng)絡(luò)，并結(jié)合FPN加強模型特征提取能力，在保證模型檢測實時性和輕量化的同時增加了平均精度，與原網(wǎng)絡(luò)CenterNet相比平均精度提高了0.63個百分點。本文工作為實現(xiàn)生豬養(yǎng)殖過程中實時精準(zhǔn)的數(shù)量盤點提供了方法，此外，通過與生豬個體質(zhì)量估測、飲食排泄頻次統(tǒng)計、攻擊咬尾行為識別等健康監(jiān)測模型相結(jié)合，為規(guī)模化養(yǎng)殖場實現(xiàn)精準(zhǔn)、個性化的生豬健康監(jiān)測提供了思路。接下來，本文將進一步研究改進加強特征提取網(wǎng)絡(luò)、減少網(wǎng)絡(luò)結(jié)構(gòu)層、增加注意力機制等方法，在保證實時檢測及網(wǎng)絡(luò)輕量化的同時提高檢測精度，根據(jù)應(yīng)用需求與資源限制，構(gòu)建精確度與速度相平衡的輕量級網(wǎng)絡(luò)。

[1] 華利忠，馮志新，張永強，等. 以史為鑒，淺談中國非洲豬瘟的防控與凈化[J]. 中國動物傳染病學(xué)報，2019，27(2)：96-104.

Hua Lizhong, Feng Zhixin, Zhang Yongqiang, et al. Prevention and control of African swine fever in China[J]. Chinese Journal of animal infectious diseases, 2019, 27(2): 96-104. (in Chinese with English abstract)

[2] 劉杏，王鳳雪，溫永俊，等. 豬繁殖與呼吸綜合征病毒和豬圓環(huán)病毒2型混合感染的流行病學(xué)調(diào)查[J]. 吉林農(nóng)業(yè)大學(xué)學(xué)報，2016，38(4)：456-459.

Liu Xing, Wang Fengxue, Wen Yongjun, et al. Epidemiological investigation on mixed infection of porcine reproductive and respiratory syndrome virus and porcine circovirus type 2[J]. Journal of Jilin Agricultural University, 2016, 38(4): 456-459. (in Chinese with English abstract)

[3] 任鵬舉，李鵬，張秋雨，等. 新型豬瘟疫苗的研究進展[J]. 中國畜牧獸醫(yī)，2018，45(7)：1958-1964.

Ren Pengju, Li Peng, Zhang Qiuyu, et al. Research progress of new classical swine fever vaccine[J]. Chinese animal husbandry and veterinary, 2018, 45(7): 1958-1964. (in Chinese with English abstract)

[4] 楊心，朱偉興. 基于廣義Hough聚類的粘連豬頭尾識別[J]. 江蘇農(nóng)業(yè)科學(xué)，2018，46(9)：230-235.

Yang Xin, Zhu Weixing. Recognition of conglutinated pig head and tail based on Generalized Hough clustering[J]. Jiangsu Agricultural Sciences, 2018, 46(9): 230-235. (in Chinese with English abstract)

[5] 馬麗，紀(jì)濱，劉宏申，等. 單只豬輪廓圖的側(cè)視圖識別[J]. 農(nóng)業(yè)工程學(xué)報，2013，29(10)：168-174.

Ma Li, Ji Bin, Liu Hongshen, et al. Side view recognition of single pig contour map[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2013, 29(10): 168-174. (in Chinese with English abstract)

[6] 謝雙云，王芳，田建艷，等. 融合高斯混合建模和圖像?；呢i只目標(biāo)檢測[J]. 黑龍江畜牧獸醫(yī)，2016(1)：29-32.

Xie Shuangyun, Wang Fang, Tian Jianyan, et al. Pig target detection based on Gaussian mixture modeling and image granulation[J]. Heilongjiang Animal Husbandry and veterinary, 2016(1): 29-32. (in Chinese with English abstract)

[7] Shaoqing R, Kaiming H, Ross G, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE transactions on pattern analysis and machine intelligence, 2017, 39(6): 1137-1149.

[8] Girshick R. Fast R-CNN[C]//Proceedings of the IEEE international conference on computer vision. 2015: 1440-1448.

[9] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE Computer Society: Piscataway, NJ. 2016: 779-788.

[10] Redmon J, Farhadi A. YOLO9000: Better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017: 6517-6525.

[11] Redmon J, Farhadi A. Yolov3: An incremental improvement[J/OL]. [2019-07-10]. USA: 2018. https: //arxiv. org/abs/1804. 02767

[12] Bochkovskiy A, Wang C Y, Liao H. YOLOv4: Optimal speed and accuracy of object detection[J]. arXiv preprint arXiv: 2004. 10934, 2020.

[13] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision(CVPR). IEEE Computer Society: Piscataway, NJ. 2016: 21-37.

[14] Riekert M, Klein A, Adrion F, et al. Automatically detecting pig position and posture by 2D camera imaging and deep learning[J]. Computers and Electronics in Agriculture, 2020, 174: 105391.

[15] Yang Q, Xiao D, Lin S. Feeding behavior recognition for group-housed pigs with the Faster R-CNN[J]. Computers and Electronics in Agriculture, 2018, 155: 453-460.

[16] Cowton J, Kyriazakis I, Bacardit J. Automated individual pig localisation, tracking and behaviour metric extraction using deep learning[J]. IEEE Access, 2019, 7: 108049-108060.

[17] 王婷婷. 改進的Faster R-CNN在目標(biāo)參數(shù)測量方面的研究與應(yīng)用[D]. 哈爾濱：哈爾濱工程大學(xué)，2018.

Wang Tingting. Research and Application of Improved Fast r-cnn in Target Parameter Measurement[D]. Harbin: Harbin Engineering University, 2018. (in Chinese with English abstract)

[18] 謝濤. 基于深度學(xué)習(xí)的生豬行走行為視頻檢測與分析[D]. 太原：太原理工大學(xué)，2019.

Xie Tao. Video Detection and Analysis of Pig Walking Behavior Based on Deep Learning[D]. Taiyuan: Taiyuan University of technology, 2019. (in Chinese with English abstract)

[19] 蘇恒強，鄭篤強. 基于深度學(xué)習(xí)技術(shù)生豬圖像目標(biāo)檢測算法的應(yīng)用研究[J]. 吉林農(nóng)業(yè)大學(xué)學(xué)報，2020，5：1-8.

Su Hengqiang, Zheng Duqiang. Application research on pig image target detection algorithm based on deep learning technology[J]. Journal of Jilin Agricultural University, 2020, 5: 1-8. (in Chinese with English abstract)

[20] 燕紅文，劉振宇，崔清亮，等. 基于特征金字塔注意力與深度卷積網(wǎng)絡(luò)的多目標(biāo)生豬檢測[J]. 農(nóng)業(yè)工程學(xué)報，2020，36(11)：193-202.

Yan Hongwen, Liu Zhenyu, Cui Qingliang, et al. Multi target pig detection based on feature pyramid attention and deep convolution network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 193-202. (in Chinese with English abstract)

[21] Hanse A, Wonseok C, Sunhwa P, et al. Image processing and deep learning techniques for fast pig's posture determining and head removal[J]. KIPS Transactions on Software and Data Engineering, 2019, 8(11): 457-464.

[22] 李泊，沈明霞，劉龍申，等. 基于YOLO v3與圖結(jié)構(gòu)模型的群養(yǎng)豬只頭尾辨別方法[J]. 農(nóng)業(yè)機械學(xué)報，2020，51(7)：44-51.

Li Bo, Shen Mingxia, Liu Longshen, et al. Head and tail discrimination method of group pig based on YOLO v3 and graph structure model[J]. Acta mechanization agrica Sinica, 2020, 51(7): 44-51. (in Chinese with English abstract)

[23] Zhou X, Wang D, Krhenbühl P. Objects as points[J]. arXiv preprint arXiv, 2019, 1904: 07850

[24] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C].// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEE, 2016: 770-778.

[25] Xu Y, Yan W, Sun H, et al. CenterFace: Joint face detection and alignment using face as point[J]. Scientific Programming, 2020, 1314-1324 .

[26] Howard A, Zhu M, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Hawaii: IEEE, 2017, 1704–1712.

[27] Sandler, Howard A, Zhu M, et al. MobileNetV2: Inverted residuals and linear bottlenecks [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018, 4510–4520.

[28] Howard A, Sandler M, Chu G, et al. Searching for MobileNetV3[C]. // Proceedings of the IEEE International Conference on Computer Vision, 2019, 140.

Detection of group-housed pigs based on improved CenterNet model

Fang Junlong, Hu Yuhang, Dai Baisheng※, Wu Zhidong

(1.,,150030,; 2.,,150030,)

Rapid and accurate detection of pigs has been critical to intelligent monitoring of health status within a group-housed breeding environment on large-scale farms. However, a large number of parameters make it difficult to achieve real-time performance in edge computing platforms for practical production. In this study, an improved CenterNet model (named MF-CenterNet) was proposed to detect pigs in group-housed breeding conditions, in order to improve the real-time performance of detection and the accuracy of localizing pigs with body occluded and small body size. An anchor-free CenterNet was also used to ensure the accuracy of detection, especially for the pig with body occluded. A lightweight MobileNet network was first introduced into the CenterNet (instead of ResNet50), as the backbone network of feature extraction for the smaller model size and higher detection speed. In addition, the feature pyramid structure (FPN) was then added to improve the ability of feature extraction for small pig objects. As such, the CenterNet was integrated with the MobileNet and FPN, named MF-CenterNet (i.e., MobileNet-FPN-CenterNet, MF-CenterNet). An image dataset of a private pig was collected to evaluate the performance of MF-CenterNet. All images were then captured from Jincheng Farm, Qiqihar City, Heilongjiang Province, China. Specifically, 1683 video frames were extracted from the video recording of pigs collected in the commercial pig farm, and 6732 images were obtained with the operation of the data argument. All pig objects within the images were then labeled with the labeling tool. The experimental results show that the size of the MF-CenterNet model was only 21MB, which satisfied the deployment of the model to an edge computing platform. The mean average precision (mAP) of pig detection was 94.30%, and the detection speed was up to 69 frames/s. The model of CenterNet integrated with MobileNetv2 achieved the best performance, in terms of accuracy, speed, and model size, where different versions of Mobile Net were combined. The CenterNet model integrated with the MobileNetv2 and FPN (MF-CenterNet) further improved the detection performance, indicating more robust in detecting the pig objects with small body size and body occluded. The improved MF-CenterNet greatly increased the mAP by 0.63percentage points, and the speed by 42 frames/s, while the size of the model was reduced by 104 MB, compared with the original CenterNet. Furthermore, the mAP detection was improved by 6.39, 4.46, 6.01, and 2.74percentage points, while, the detection speed was improved by 54, 47, 45, and 43 frames/s, respectively, compared with the common CNN-based object detection models, including Farster RCNN, SSD, YOLOV3, and YOLOV4 model. Consequently, the MF-CenterNet achieved the state-of-the-art mAP performance, higher detection speed, and the deployability of the model in a substantial manner. Therefore, this lightweight object detection model, MF-CenterNet, can meet the requirements of real-time, rapid, and high accuracy of detection on the group-housed pigs. The finding can also be expected to serve as a new way for real-time detection and prerequisite model in the behavior analysis of pigs during modern intensive production.

computer vision; image processing; group-housed pig; object detection; mobileNet; FPN; centerNet

房俊龍，胡宇航，戴百生，等. 采用改進CenterNet模型檢測群養(yǎng)生豬目標(biāo)[J]. 農(nóng)業(yè)工程學(xué)報，2021，37(16)：136-144.doi：10.11975/j.issn.1002-6819.2021.16.017 http://www.tcsae.org

Fang Junlong, Hu Yuhang, Dai Baisheng, et al. Detection of group-housed pigs based on improved CenterNet model[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(16): 136-144. (in Chinese with English abstract) doi：10.11975/j.issn.1002-6819.2021.16.017 http://www.tcsae.org

2021-03-10

2021-07-21

國家重點研發(fā)計劃項目（2018YFD0500704）；國家自然科學(xué)基金青年科學(xué)基金項目（31902210）；黑龍江省高校青年創(chuàng)新人才培養(yǎng)計劃項目（UNPYSCT-2018142）；黑龍江省科學(xué)基金青年科學(xué)基金項目（QC2018074）；東農(nóng)學(xué)者計劃“青年才俊”項目（18QC23）；農(nóng)業(yè)部生豬養(yǎng)殖設(shè)施工程重點實驗室開放課題（SK201707）；財政部和農(nóng)業(yè)農(nóng)村部：國家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系資助

房俊龍，博士，教授，博士生導(dǎo)師。研究方向為智能檢測與控制。Email：junlongfang@126.com

戴百生，副教授。研究方向為視覺智能計算、智慧畜牧。Email：bsdai@neau.edu.cn

10.11975/j.issn.1002-6819.2021.16.017

TP391

1002-6819(2021)-16-0136-09

采用改進CenterNet模型檢測群養(yǎng)生豬目標(biāo)

0 引 言

1 材料與方法

1.1 數(shù)據(jù)收集

1.2 數(shù)據(jù)預(yù)處理

2 群養(yǎng)生豬目標(biāo)檢測模型

2.1 CenterNet網(wǎng)絡(luò)模型

2.2 MF-CenterNet網(wǎng)絡(luò)模型

2.3 模型評價與訓(xùn)練

3 結(jié)果與分析

3.1 MobileNet模型選擇

3.2 MF-CenterNet與不同CNN網(wǎng)絡(luò)檢測性能對比

3.3 MF-CenterNet與現(xiàn)有生豬目標(biāo)檢測方法對比

4 結(jié) 論

0 引言