楊阿慶,薛月菊,3,4,黃華盛,黃 寧,童欣欣,朱勛沐,楊曉帆,毛 亮,4,鄭 嬋
?
基于全卷積網(wǎng)絡的哺乳母豬圖像分割
楊阿慶1,2,薛月菊1,2,3,4※,黃華盛5,黃 寧1,3,童欣欣1,2,朱勛沐1,2,楊曉帆1,毛 亮1,4,鄭 嬋1,2
(1. 華南農業(yè)大學電子工程學院,廣州 510642;2. 廣東省現(xiàn)代養(yǎng)豬數(shù)據(jù)化工程技術研究中心,廣州 510642; 3. 廣東省智慧果園科技創(chuàng)新中心,廣州 510642;4. 廣東省農情信息監(jiān)測工程技術研究中心,廣州 510642; 5. 華南農業(yè)大學工程學院,廣州 510642)
豬舍場景下,光照變化、母豬體表顏色不均及與環(huán)境顏色對比度不大、母豬與仔豬的粘連等,均給目標分割帶來很大的困難。該文提出了基于全卷積網(wǎng)絡(FCN,fully convolutional networks)的哺乳母豬圖像分割算法。以VGG16為基礎網(wǎng)絡,采用融合深層抽象特征與淺層細節(jié)特征并將融合的特征圖上采樣8倍的跳躍式結構,設計哺乳母豬分割的FCN。利用Caffe深度學習框架,以7欄伴有不同日齡仔豬的3811幅哺乳母豬訓練樣本進行母豬分割FCN訓練,在另外21欄的523幅哺乳母豬測試集上的分割結果表明:該算法可有效避免光線變化、母豬顏色不均、小豬遮擋與粘連等影響,實現(xiàn)完整的哺乳母豬區(qū)域分割;分割的平均準確率達到99.28%,平均區(qū)域重合度達到95.16%,平均速度達到0.22 s/幅。與深度卷積網(wǎng)絡的SDS(simultaneous detection and segmentation)及傳統(tǒng)的基于圖論的圖像分割、基于水平集的圖像分割方法做了對比試驗,該文分割方法平均區(qū)域重合度分別比這3種方法高出9.99、31.96和26.44個百分點,有較好的泛化性和魯棒性,實現(xiàn)了豬舍場景下哺乳母豬準確、快速分割,可為豬只圖像分割提供了技術參考。
圖像分割;算法;試驗;全卷積網(wǎng)絡;哺乳母豬
計算機視覺為豬的行為監(jiān)測、體重監(jiān)測和健康監(jiān) 測[1-3],及母豬發(fā)情監(jiān)測和分娩監(jiān)測等[4-5]提供了強有力的技術手段。哺乳母豬行為反映了母豬健康和福利狀態(tài),其母性行為如哺乳行為[6]、高危動作[7]是仔豬成活率和生長發(fā)育的重要因素,關系到整個豬場的經(jīng)濟效益。因此,用計算機視覺自動分析哺乳母豬行為引起了研究者的廣泛關注[8-10]。其中一個關鍵步驟和經(jīng)典難題是將哺乳母豬完整地從背景中分離出來,即哺乳母豬分割。
豬只分割算法主要可分為靜態(tài)圖像分割和動態(tài)圖像分割。常用的靜態(tài)圖像分割方法有閾值分割、邊緣檢測分割、分水嶺分割、基于圖論的分割和形態(tài)學分割等,如Guo等[11]采用自適應分區(qū)和多閾值分割對飲食區(qū)域豬只進行了分割;高云等[12]采用閾值分割與基于距離變換的分水嶺分割算法,分割了粘連豬只。動態(tài)圖像分割方法有光流法、幀差法和背景差分法等。Wang等[13]采用背景差分獲取豬只目標區(qū)域。劉波等[14]通過采集豬只側視深度圖,采用背景差法,提取豬只前景。Guo等[15]利用混合高斯更新背景模型,并結合最大信息熵閾值,分割出小豬個體目標。為適應背景光線變化及前景運動緩慢或短暫滯留等情況的豬只檢測,朱偉興等[16]采用偽球邊緣檢測算子提取圖像邊緣,提出基于邊緣像素模型的前景幀檢測法。但由于前景幀檢測依據(jù)的是邊緣點的概率,故無法檢測到前景的完整邊緣,不適合作后繼目標形狀分析。劉龍申等[5]為檢測限位欄中的母豬分娩,利用母豬臀部呈現(xiàn)半圓狀的特征,構建半圓匹配的母豬分割模型;然后采用單高斯模型對背景建模,檢測仔豬目標。上述動態(tài)圖像分割方法仍難以完整地分割出緩慢移動或靜止的目標。本文以梅花哺乳母豬為研究對象,母豬的身體毛色黑白相間,即使同一顏色區(qū)域顏色也不均,并且由于光線變化、小豬遮擋及粘連等因素,給母豬完整的分割帶來極大的挑戰(zhàn)。為此,需要研究更具普適性的哺乳母豬目標分割算法。
自2012年卷積神經(jīng)網(wǎng)絡(CNN,convolutional neural networks)再次興起[17-19],研究者開始將CNN引入圖像分割領域。Hariharan等[20]通過CNN進行目標定位,再利用掩膜在物體包圍框中進一步精細分割,提出了協(xié)同檢測和分割(SDS,simultaneous detection and segmentation),顯著提高了圖像分割性能。但該類方法需產生大量的建議區(qū)域,內存空間消耗大、時間長,且由于掩膜限制了感受區(qū)域大小,影響了分割精度。Long等[21]對CNN進行改進,提出了全卷積網(wǎng)絡(FCN,fully convolutional networks)的圖像語義分割算法,解決了上述問題,并很好地避免了光照不均勻、隨機噪聲等問題,在圖像分割領域獲得了新突破[22-24]。針對豬舍場景下花色不均勻的哺乳期梅花母豬圖像分割問題,提出基于FCN的哺乳母豬圖像分割算法。為豬只圖像分割提供技術參考。
試驗數(shù)據(jù)采集自廣東省佛山市三水區(qū)樂家莊養(yǎng)殖場,為獲取不同哺乳母豬圖像,分別于2016年5月30日(夏季,晴,光照強烈)、2016年11月29日和30日(冬季,晴轉多云,光照溫和)和2017年4月25日(春季,陰轉小雨)進行3次采集,采集時間為8:00?18:00。每間豬舍由40間豬欄組成,豬欄大小約為3.8 m×2.0×1.1 m,不同欄之間尺寸稍有差異。每間豬欄中均有一頭哺乳母豬和10~15頭仔豬,母豬體表均呈花色,大部分仔豬為純黑色,個別仔豬呈花色。采用安裝在豬欄頂部的Kinect2.0傳感器垂直向下進行RGB-D視頻圖像采集,為適應不同尺寸豬欄整個區(qū)域的拍攝,每欄攝像機安裝高度為190~270 cm不等。該文主要利用960×540像素的彩色圖像,研究哺乳母豬分割。
用于圖像分類任務的CNN主要由卷積層、池化層、全連接層和softmax分類器層組成[21]。圖像經(jīng)過一系列卷積、池化和全連接后,輸出的特征向量能準確識別圖像類別,但由于丟失大量像素點,無法達到像素級分類的目的。FCN以CNN分類網(wǎng)絡為基礎,將全連接層轉換為卷積層,以保留空間二維信息,再對卷積二維特征圖進行反卷積恢復出原始圖像大小,最后通過逐像素分類,獲取每個像素類別,從而實現(xiàn)圖像分割目的。VGG16[25]是一種經(jīng)典的CNN結構,采用小尺度感受野以提取圖像邊緣細節(jié)特征,并增加深層卷積,提高了分類準確度。該文以VGG16為基礎網(wǎng)絡構建哺乳母豬圖像分割的FCN,如圖1所示。

注:C1、C2、…、C8表示卷積層;C1和C2分別表示連續(xù)的兩個卷積層;C3、C4和C5分別表示連續(xù)的三個卷積層;P1、P2、…、P5表示池化層;2×C8表示對C8的輸出結果進行2倍上采樣;Fuse-P4表示P4和2×C8的融合結果;2×Fuse-P4表示對Fuse-P4進行2倍上采樣;Fuse-P3表示P3和2×Fuse-P4的融合結果;H和W分別表示長和寬;每一層右下角的數(shù)值表示輸出維度。
1)將全連接層轉換成卷積層。利用與對應全連接層輸入數(shù)據(jù)尺寸相同的卷積核,將VGG16的全連接層轉化為C6、C7和C8卷積層[21]。其中最后一層卷積層C8輸出結果稱為熱圖,熱圖個數(shù)對應類別個數(shù)。本文圖像分割實質上是母豬與背景的二分類問題,因此熱圖個數(shù)為2。熱圖中每個坐標點的值表示該位置像素點對應相應類別的概率。
2)增加反卷積層。當輸入數(shù)據(jù)經(jīng)過步長為2、池化窗口為2×2的池化層后,輸出特征圖長和寬的維數(shù)會降低到輸入數(shù)據(jù)的1/2。圖像經(jīng)過VGG16網(wǎng)絡中5次下采樣,輸出熱圖的長和寬分別是原圖的1/32。FCN在熱圖之后增加反卷積層,對熱圖進行上采樣以恢復出原始圖像尺寸。
3)增加跳躍結構。CNN通過淺層卷積提取圖像的細節(jié)特征,如邊緣、角點等,深層卷積提取語義特征,如類別[26-27]。直接對最后一層卷積特征C8(熱圖)進行32倍上采樣的方式稱為FCN-32s,由于該方式只用深層卷積特征,導致淺層輪廓、角點等細節(jié)信息丟失,使得分割結果邊緣輪廓粗糙、模糊。為融合淺層細節(jié)信息,該文設計了兩種跳躍結構的FCN:1)FCN-16s-VGG16。在對C8進行2倍上采樣(2×C8)的基礎上,融合P4層特征,最后對融合后的結果(Fuse-P4)進行16倍上采樣。2)FCN-8s-VGG16。在對Fuse-P4進行2倍上采樣的基礎上,融合P3層特征,最后對融合后的結果(Fuse-P3)進行8倍上采樣。
該論文主要利用業(yè)界公認的4種語義分割評價指標:統(tǒng)計像素準確率(pixel acc)、類別平均準確率(mean acc)、平均區(qū)域重合度(mean IU,intersection over union)和頻率加權區(qū)域重合度(fw IU),進行分割結果的評價。各指標定義如下[21]:
(1)




視頻圖像采集盡可能涵蓋不同哺乳母豬花色、尺寸及不同仔豬日齡,3次共采集28欄,每欄拍攝時間長度為1~12 h不等。其前兩次共拍攝7欄,最后一次拍攝21欄,仔豬日齡為1~30日。為加強和驗證本文算法的泛化性能,從前兩次拍攝的7欄視頻圖像中選取母豬不同姿態(tài)的視頻幀作為訓練樣本,主要包括站立、側臥、俯臥、腹臥和坐立等。從最后一次21欄中選取不同姿態(tài)的視頻幀作為測試樣本。在選擇訓練樣本和測試樣本時,母豬姿態(tài)未發(fā)生變化的視頻段中僅隨機選取其中一張,避免樣本圖像的時序相關性,確保樣本的多樣性。最后,共收集了3 811幅訓練樣本和523幅測試樣本。
對訓練樣本和測試樣本在動物行為專家指導下對母豬區(qū)域進行手工標注。母豬目標區(qū)域像素值設置為1,背景像素值置0,目標輪廓寬度為3個像素且像素值為255(表示不參與損失計算)。
對不同網(wǎng)絡結構的FCN分割模型(包括以AlexNet[17]、CaffeNet[28]為基礎網(wǎng)絡的模型和不同跳躍結構的模型)進行對比分析;并與SDS[20]、基于圖論的圖像分割[29]和基于水平集的圖像分割算法[30]進行對比。
本試驗在Ubuntu14.04操作系統(tǒng)下,基于NVIDIA GTX 980 GPU的硬件平臺上搭建Caffe深度學習框架,進行母豬圖像分割的FCN模型訓練和測試。具體流程如圖2所示。

圖2 基于全卷積網(wǎng)絡的哺乳母豬圖像分割試驗流程圖
主要過程描述如下:
1)拍攝哺乳期梅花母豬視頻,準備訓練樣本和測試樣本;
2)標記母豬分割樣本,形成訓練集和測試集;
3)對試驗數(shù)據(jù)進行直方圖均衡化預處理,減小亮度不均的影響;
4)在VGG16基礎上構建FCN-8s跳躍式結構,并進行結構調整和參數(shù)設置,形成哺乳母豬分割的FCN結構;
5)利用訓練樣本訓練哺乳母豬分割模型,以獲取最優(yōu)哺乳母豬圖像分割模型;
6)訓練好的分割模型對測試集進行分割;
7)對FCN的分割結果進行后處理,首先采用數(shù)學形態(tài)學閉運算填充空洞,再通過計算連通區(qū)域面積,剔除小面積區(qū)域,獲取最終哺乳母豬區(qū)域;
8)選擇圖像分割的評價指標,進行分割結果統(tǒng)計評價;
9)對不同分割模型算法進行對比試驗。
在訓練過程中,對訓練樣本進行直方圖均衡化,然后輸入FCN-8s-VGG16網(wǎng)絡進行前向傳播,預測像素點類別,并通過與標記文件進行對比計算代價函數(shù)損失;采用帶有沖量的隨機梯度下降法進行反向學習,以獲取最佳網(wǎng)絡參數(shù),沖量設置為0.95,固定學習率為10-12,權值的衰減系數(shù)為10-4,權值的正則化系數(shù)設置為5-4。當代價函數(shù)損失收斂且趨于平穩(wěn)時,停止訓練,整個訓練過程歷時20 273 s,共迭代30 000次,代價函數(shù)收斂至0.02。訓練結束后,保存訓練模型,并將測試集直方圖均衡化后輸入訓練好的FCN模型進行母豬分割,最后采用5×5的磁盤結構體進行形態(tài)學閉運算填充空洞,并剔除小于面積閾值T(T=29 000)的連通區(qū)域。
圖3是本文算法對哺乳母豬圖像分割過程示意圖。在準備樣本后,首先對原始圖像進行直方圖均衡化處理,以減少光照影響;將均衡化后的圖像(圖3c)輸入FCN-8s-VGG16模型進行一次前向傳播,輸出結果如圖3d,母豬輪廓清晰、區(qū)域完整,但有部分零星點及空洞;采用形態(tài)學進一步處理后結果如圖3e,最后獲取母豬區(qū)域如圖3f。

圖3 本文算法過程的示意圖
圖4為FCN-8s-VGG16模型部分卷積層的輸出結果,從圖中可以看出,隨著卷積深度的增加,產生的特征圖越抽象,并且通過將前一層特征圖像映射到不同灰度值區(qū)間內,如C1和C2層的特征圖,以適應不同光照下的圖像分割。
為測試本文算法的泛化能力,選取與訓練樣本不同欄的母豬視頻圖像作為測試樣本,共計21欄523幅。表1給出了不同網(wǎng)絡結構的FCN分割模型,及SDS、基于圖論的圖像分割(Graph-based)和基于水平集圖像分割算法(Level-set)在測試集上的分割結果。圖5展示了10組測試數(shù)據(jù),代表10欄不同母豬、不同姿態(tài)下的分割結果。

圖4 FCN-8s-VGG16模型的卷積特征圖可視化

表1 不同網(wǎng)絡結構及不同分割方法的性能比較
對分割結果分析如下:
1)從表1可以看出,本文算法FCN-8s-VGG16像素準確率和平均區(qū)域重合度分別為99.28%和95.16%,比不同網(wǎng)絡結構模型FCN-16s-VGG16、FCN-8s-CaffeNet和FCN-8s-AlexNet的平均區(qū)域重合度分別高出10.75、5.89和2.60個百分點。可以看出本文的網(wǎng)絡模型明顯優(yōu)于其他網(wǎng)絡模型,主要是由于FCN-8s-VGG16相比FCN- 16s-VGG16融合了低層P3層卷積特征,保留了更多細節(jié)特征;另外,VGG16網(wǎng)絡結構相比AlexNet和CaffeNet增加了卷積層個數(shù),并采用小尺度卷積核提高了像素分類精度。
2)與近年提出的基于CNN語義圖像分割的代表性方法SDS相比,平均區(qū)域重合度分別高出9.99個百分點,主要原因是SDS利用掩膜在物體包圍框中進一步精細分割過程中,掩膜限制了感受區(qū)域大小,降低了提取的特征質量。與經(jīng)典分割方法Graph-based和Level-set分割算法相比,平均區(qū)域重合度高出31.96和26.44個百分點,主要是因為CNN相比傳統(tǒng)方法能夠提取更豐富全面的高質量圖像特征。需要說明的一點是,在采用傳統(tǒng)方法試驗時,只能根據(jù)圖像背景、光照、母豬形態(tài)等不同狀態(tài),分別采用了不同參數(shù)以達到最優(yōu)效果,無法用統(tǒng)一參數(shù)進行分割;而SDS和本文算法利用統(tǒng)一的模型進行測試集的圖像分割。
3)在測試集上的平均區(qū)域重合度達到95.16%。說明本文算法對豬舍場景下,該類哺乳母豬有較好的泛化能力。由于拍攝高度、母豬大小均不相同,而分割結果并未受到尺度的影響,具有尺度不變性,且很好地解決了母豬體表顏色不均,與背景顏色相近的問題。

圖5 本文算法對部分測試樣本的分割結果
4)從圖5的10組分割結果可以看出,當不同日齡仔豬或緊靠母豬或在吸乳,如第3行第1組和第2組,仔豬日齡分別為30日和3日,母豬腹部部分區(qū)域被仔豬遮擋,該方法仍可正確分割遮擋區(qū)域,幾乎不影響母豬分割結果。這是因為FCN通過多層卷積操作能提取高質量的母豬特征,可有效將仔豬與母豬分開;后處理,通過剔除小面積區(qū)域可以有效剔除仔豬區(qū)域。該方法很好地解決了遮擋給母豬分割帶來的困難,說明了該方法對小區(qū)域前景遮擋有較高的魯棒性。
5)圖5所展示的圖像拍攝于不同時間段,豬舍中光線強度不同。比如第3行第1組數(shù)據(jù)拍攝于13:17分,光線從豬舍側面照進來,導致母豬身體及地面部分區(qū)域曝光過度,而第4行第1組數(shù)據(jù),母豬所處位置光線較暗。但是從分割結果來看,母豬區(qū)域均分割完整,輪廓清晰,未出現(xiàn)缺失,說明本文算法對光照變化有較好的魯棒性,解決了光線不均給分割帶來的困難。
6)分割結果中也出現(xiàn)局部區(qū)域缺失,主要體現(xiàn)在母豬身體靠墻部位、耳朵及嘴部局部區(qū)域。如圖5第5行2組數(shù)據(jù),由于母豬背部呈現(xiàn)黑色且靠近墻體,導致母豬背部與墻體間的陰影難以區(qū)分。同樣,由于母豬頭部呈現(xiàn)灰色或黑色,并且大部分時間母豬頭部下垂,常伴有陰影,加之仔豬粘連等影響,造成頭部分割困難。
由表2可知,基于FCN算法的運行速度遠遠快于其他3種分割算法。原因在于:1)本文端對端(end-to- end)的FCN分割算法采用GPU并行計算,大大減少了計算時間;2)SDS在生成目標候選框的過程中,尚未實現(xiàn)GPU并行計算[20],極大地影響了SDS的速度。3)相比FCN-8s-CaffeNet和FCN-8s-AlexNet網(wǎng)絡,F(xiàn)CN-8s-VGG16速度略低。這是由于VGG16網(wǎng)絡結構較CaffeNet和AlexNet更為復雜。由于哺乳期母豬運動速度較慢,本文算法的分割速度可滿足基本需求,而若對實時性要求較高,可以采用FCN-8s-AlexNet或FCN-8s-CaffeNet。

表2 不同方法在測試集上的分割速度比較
1)本文提出了一種基于FCN的母豬圖像分割算法。以VGG16為基礎網(wǎng)絡,并采用FCN-8s跳躍網(wǎng)絡結構,構建了母豬分割網(wǎng)絡結構FCN-8s-VGG16,最后通過形態(tài)學處理提取母豬個體區(qū)域,有效完成了母豬分割的目的。該方法提取的母豬個體區(qū)域細節(jié)完整,輪廓清晰。結果表明,該方法分割的像素準確率達到99.28%,平均區(qū)域重合度達到95.16%,有很好的泛化性能和魯棒性。
2)與SDS、基于圖論的圖像分割和基于水平集的圖像分割方法相比,本文分割方法平均區(qū)域重合度分別比該三種方法高出9.99、31.96和26.44個百分點。
3)在GPU運行框架下,由于運用了并行計算,F(xiàn)CN-8s-VGG16、FCN-16s-VGG16、FCN-8s-CaffeNet和FCN-8s-AlexNet每幅圖像分割的平均時間分別為0.22、0.21、0.09和0.09 s,具有良好的實時性。
本文所研究的對象只針對哺乳母豬,每幅圖像中只有一個母豬對象及多只小豬,由于小豬身體比例較小,對母豬的影響相對較少。而在群養(yǎng)母豬大密度養(yǎng)殖場景中,母豬間的擁擠、粘連和遮擋,給分割帶來很大難題。今后還需對群養(yǎng)母豬多目標分割進行進一步深入研究。
[1] Kashiha M, Bahr C, Haredasht S A, et al. The automatic monitoring of pigs water use by cameras[J]. Computers & Electronics in Agriculture, 2013, 90(90): 164-169.
[2] Kashiha M, Bahr C, Ott S, et al. Automatic weight estimation of individual pigs using image analysis[J]. Computers & Electronics in Agriculture, 2014, 107(3): 38-44.
[3] 紀濱,朱偉興,劉波,等. 基于脊腹線波動的豬呼吸急促癥狀視頻分析[J]. 農業(yè)工程學報,2011,27(1):191-195. Ji Bin, Zhu Weixing, Liu Bo, et al. Video analysis for tachypnea of pigs based on fluctuation ridge-abdomen[J]. Transactions of The Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2011, 27(1): 191-195. (in Chinese with English abstract)
[4] Ostersen T, Cornou C, Kristensen A R. Detecting oestrus by monitoring sows’ visits to a boar[J]. Computers & Electronics in Agriculture, 2010, 74(1): 51-58.
[5] 劉龍申,沈明霞,柏廣宇,等. 基于機器視覺的母豬分娩檢測方法研究[J]. 農業(yè)機械學報,2014,45(3):237-242. Liu Longshen, Shen Mingxia, Bo Guangyu, et al. Sows parturition detection method based on machine vision[J]. Transactions of the Chinese Society for Agricultural Machinery, 2014, 45(3): 237-242. (in Chinese with English abstract)
[6] 閆麗,沈明霞,姚文,等. 基于MPU6050傳感器的哺乳期母豬姿態(tài)識別方法[J]. 農業(yè)機械學報,2015,46(5): 279-285. Yan Li, Shen Mingxia, Yao Wen, et al. Recognition method of lactating sows’posture based on sensor MPU6050[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(5): 279-285. (in Chinese with English abstract)
[7] 閆麗,沈明霞,謝秋菊,等. 哺乳母豬高危動作識別方法研究[J]. 農業(yè)機械學報,2016,47(1):266-272. Yan Li, Shen Mingxia, Xie Qiuju, et al. Research on recognition method of lactating sows’dangerous body movement[J]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(1): 266-272. (in Chinese with English abstract )
[8] Lao F, Brown-Brandl T, Stinn J P, et al. Automatic recognition of lactating sow behaviors through depth image processing[J]. Computers & Electronics in Agriculture, 2016, 125: 56-62.
[9] Tu G J, Karstoft H, Pedersen L J, et al. Illumination and reflectance estimation with its application in foreground detection[J]. Sensors, 2015, 15(9): 21407-21426.
[10] Tu G J, Karstoft H, Pedersen L J, et al. Segmentation of sows in farrowing pens[J]. Iet Image Processing, 2014, 8(1): 56-68.
[11] Guo Y Z, Zhu W X, Jiao P P, et al. Multi-object extraction from topview group-housed pig images based on adaptive partitioning and multilevel thresholding segmentation[J]. Biosystems Engineering, 2015, 135: 54-60.
[12] 高云,郁厚安,雷明剛,等. 基于頭尾定位的群養(yǎng)豬運動軌跡追蹤[J]. 農業(yè)工程學報,2017,33(2):220-226. Gao Yun, Yu Houan, Lei Minggang, et al. Trajectory tracking for group housed pigs based on locations of head/tail[J]. Transactions of The Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(2): 220-226. (in Chinese with English abstract)
[13] Wang Y, Yang W, Winter P, et al. Walk-through weighing of pigs using machine vision and an artificial neural network[J]. Biosystems Engineering, 2008, 100(1): 117-125.
[14] 劉波,朱偉興,楊建軍,等. 基于深度圖像和生豬骨架端點分析的生豬步頻特征提取[J]. 農業(yè)工程學報,2014,30(10):131-137. Liu Bo, Zhu Weixing, Yang Jianjun, et al. Extracting of pig gait frequency feature based on depth image and pig skeleton endpoints analysis[J]. Transactions of The Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(10): 131-137. (in Chinese with English abstract)
[15] Guo Y, Zhu W, Jiao P, et al. Foreground detection of group-housed pigs based on the combination of mixture of Gaussians using prediction mechanism and threshold segmentation[J]. Biosystems Engineering, 2014, 125(3): 98-104.
[16] 朱偉興,紀濱,秦鋒. 基于偽球算子邊緣模型的豬前景幀檢測[J]. 農業(yè)工程學報,2012,28(12):189-194. Zhu Weixing, Ji Bin, Qin Feng. Detection of foreground-frame of pig using edge model based on pseudosphere-operator[J]. Transactions of The Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(12): 189-194. (in Chinese with English abstract)
[17] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012: 1097-1105.
[18] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[19] Ross Girshick, Jeff Donahue, Trevor Darrell, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 1-8.
[20] Hariharan B, Arbeláez P, Girshick R, et al. Simultaneous detection and segmentation[J]. Lecture Notes in Computer Science, 2014, 8695: 297-312.
[21] Long J, Shelhamer E, Trevor Darrell. Fully convolutional networks for semantic segmentation[C]// IEEE Conference on Computer Vision and Pattern Recognition. 2015: 3431-3440.
[22] Dai J, He K, Sun J. Instance-aware semantic segmenta- tion via multi-task network cascades[C]// IEEE Conference on Computer Vision and Pattern Recognition. 2015: 3150-3158.
[23] Noh H, Hong S, Han B. Learning deconvolution network for semantic segmentation[C]// IEEE International Conference on Computer Vision. IEEE Computer Society, 2015: 1520-1528.
[24] Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. Computer Science, 2014(4): 357-361.
[25] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]// International Conference on Learning Representations. 2014: 1-14.
[26] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//Europeon Conference on Computer Vision. 2013: 818-833.
[27] Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep Learning[M]. Cambridge city: MIT press, 2017: 240-241.
[28] Jia Y, Shelhamer E, Donahue J, et al. Caffe: Convolutional architecture for fast feature embedding[C]//ACM International Conference on Multimedia. ACM, 2014: 675-678.
[29] Hickson S, Birchfield S, Essa I, et al. Efficient hierarchical graph-Based segmentation of R-GBD Videos[C]// Computer Vision and Pattern Recognition. IEEE, 2014: 344-351.
[30] 毛亮,薛月菊,孔德運,等. 基于稀疏場水平集的荔枝圖像分割算法[J]. 農業(yè)工程學報,2011,27(4):345-349. Mao Liang, Xue Yueju, Kong Deyun, et al. Litchi image segmentation algorithm based on sparse field level set[J]. Transactions of The Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2011, 27(4): 345-349. (in Chinese with English abstract)
楊阿慶,薛月菊,黃華盛,黃 寧,童欣欣,朱勛沐,楊曉帆,毛 亮,鄭 嬋. 基于全卷積網(wǎng)絡的哺乳母豬圖像分割[J].農業(yè)工程學報,2017,33(23): 219-225. doi:10.11975/j.issn.1002-6819.2017.23.028 http://www.tcsae.org
Yang Aqing, Xue Yueju, Huang Huasheng, Huang Ning, Tong Xinxin, Zhu Xunmu, Yang Xiaofan, Mao Liang, Zheng Chan.Lactating sow image segmentation based on fully convolutional networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(23): 219-225. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2017.23.028 http://www.tcsae.org
Lactating sow image segmentation based on fully convolutional networks
Yang Aqing1,2, Xue Yueju1,2,3,4※, Huang Huasheng5, Huang Ning1,3, Tong Xinxin1,2, Zhu Xunmu1,2, Yang Xiaofan1, Mao Liang1,4, Zheng Chan1,2
(1.5106422.510642,351064245106425510642)
The behaviors of a lactating sow reflect welfare and health that affect piglet survival and growth during lactation. Computer vision has been widely used to perceive the behavior of animals for precision husbandry, which is useful to increase the productivity and reduce the disease rate. Effective and accurate segmentation of individual lactating sow is a vital step to record and analyze the lactating sow behavior automatically. However, under real pigsty conditions, it is a challenge to segment lactating sow from the background due to occlusion, uneven color on sow body surface, variations of sow size and pose, varying illumination and complex floor status. In this paper, we proposed an algorithm for lactating sow image segmentation based on fully convolutional networks (FCN). To design FCN for accurate segmentation, VGG16 was chosen as a basic network where the fully connected lays were converted to convolutional layers, and the FCN-8s skip structure was designed by combining semantic information from a deep, coarse layer with appearance information from a shallow, fine layer. We called this network FCN-8s-VGG16. The steps of our work were as follows: First, top view images were taken from 28 pens of pigs under a real pigsty circumstance and a total of 4 334 images were obtained, of which 3811 training images were selected from images of 7 pens and 523 test images were selected from images of the other 21 pens. And, all the images in training set and test set were manually labeled. Second, adaptive histogram equalization was used to improve contrast in training images. Then, the pre-processed training set was fed into FCN-8s-VGG16 to develop an optimum FCN model by the fine-tuning of the network parameters using Caffe deep learning framework on an NVIDIA GTX 980 GPU (graphics processing unit). After that, test set was put into the trained model to obtain the segmentation results. Then, to fill holes within objects and remove small objects, a post-processing was performed by using a disk structure of mathematical morphology and calculating the areas of connected regions. Finally, we compared our FCN-8s-VGG16 network architecture with different network architectures including a different skip architecture (FCN-16s based) and 2 different basic networks (CaffeNet based and AlexNet based). Besides, comparisons with other methods were also conducted, including the previous state-of-the-art simultaneous detection and segmentation (SDS), Graph-based and Level-set algorithm. The results on the test set showed that the algorithm achieved a complete segmentation of lactating sow by minimizing the effects of uneven color, light variations, occlusions, adhesion between sow and piglets and complex floor status, with an average accuracy of segmentation of 99.3% and a mean regional coincidence degree of 95.2% at an average speed of 0.22 second per image. However, it is hard to completely segment the sow’s head when sow’s head is downwards to floor, or close to the wall or adheres to piglets. The comparison with different network architectures showed that the mean regional coincidence degree of our proposed network architecture was higher than that of the others, and on GPU, the segmentation speeds of our FCN-8s-VGG16, FCN-16s based, CaffeNet based and AlexNet based were 0.22, 0.21, 0.09, and 0.09 second per image, respectively, which had good real-time performance. The comparison with other methods showed that our FCN-8s-VGG16 model outperformed others, which improved the mean regional coincidence degree of SDS, Graph-based and Level-set by 9.99, 31.96 and 26.44 percentage point, respectively. All of the experimental results suggest that the proposed method demonstrates a higher generalization and robustness, and provides an effective access to accurate and fast segmentation of lactating sow image under a pigsty circumstance.
image segmentation; algorithms; experiments; fully convolutional networks; lactating sow
10.11975/j.issn.1002-6819.2017.23.028
TP391
A
1002-6819(2017)-23-0219-07
2017-05-15
2017-10-08
國家科技支撐計劃(2015BAD06B03-3);廣東省科技計劃項目(2015A020209148);廣東省科技計劃(2015A020224038);廣州市科技計劃項目(201605030013);廣州市科技計劃項目(201604016122)
楊阿慶,陜西咸陽人,博士研究生。研究方向為機器視覺與圖像處理。Email:yangaqing1204@163.com
薛月菊,新疆烏蘇人,教授。研究領域為機器視覺與圖像處理。Email:xueyueju @163.com