999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于自監督學習的番茄植株圖像深度估計方法

2019-03-05 04:05:02周云成許童羽鄧寒冰
農業工程學報 2019年24期
關鍵詞:深度特征

周云成,許童羽,鄧寒冰,苗 騰,吳 瓊

基于自監督學習的番茄植株圖像深度估計方法

周云成,許童羽,鄧寒冰,苗 騰,吳 瓊

(沈陽農業大學信息與電氣工程學院,沈陽 110866)

深度估計是智能農機視覺系統實現三維場景重建和目標定位的關鍵。該文提出一種基于自監督學習的番茄植株圖像深度估計網絡模型,該模型直接應用雙目圖像作為輸入來估計每個像素的深度。設計了3種面向通道分組卷積模塊,并利用其構建卷積自編碼器作為深度估計網絡的主體結構。針對手工特征衡量2幅圖像相似度不足的問題,引入卷積特征近似性損失作為損失函數的組成部分。結果表明:基于分組卷積模塊的卷積自編碼器能夠有效提高深度估計網絡的視差圖精度;卷積特征近似性損失函數對提高番茄植株圖像深度估計的精度具有顯著作用,精度隨著參與損失函數計算的卷積模塊層數的增加而升高,但超過4層后,其對精度的進一步提升作用不再明顯;當雙目圖像采樣距離在9.0 m以內時,該文方法所估計的棋盤格角點距離均方根誤差和平均絕對誤差分別小于2.5和1.8 cm,在3.0 m以內時,則分別小于0.7和0.5 cm,模型計算速度為28.0幀/s,與已有研究相比,2種誤差分別降低了33.1%和35.6%,計算速度提高了52.2%。該研究可為智能農機視覺系統設計提供參考。

圖像處理;卷積神經網絡;算法;自監督學習;深度估計;視差;深度學習;番茄

0 引 言

視覺系統是智能農機進行環境感知的重要部件[1]。在日光溫室或田間環境下,采用自主工作模式的智能農機需要規劃行進路線[2],規避障礙物[3],同時在果實采摘[4]、對靶施藥[5]等自動化生產過程中則需要識別并定位作業目標,這些都要求視覺系統具有目標定位、三維場景重建等功能,而深度信息的獲取是實現這些功能的關鍵。

基于圖像特征的立體視覺匹配法和以激光雷達(light detection and ranging,LiDAR)、Kinect為代表的深度傳感器等常被用于植株的深度信息獲取。立體視覺匹配算法用各像素點局部區域特征,在能量函數的約束下進行雙目圖像特征點匹配,實現深度信息恢復。翟志強等[6]以灰度圖像的Rank變換結果作為立體匹配基元來實現農田場景的三維重建,其算法的平均誤匹配率為15.45%。朱镕杰等[7]對棉株雙目圖像進行背景分割,通過尺度不變特征轉換算子提取棉花特征點,并通過最優節點優先算法進行匹配,獲取棉花點云三維坐標。由于田間植株圖像顏色、紋理均一,傳統算子提取的特征可區分性差,特征點誤匹配現象嚴重。H?mmerle等[8]使用LiDAR獲取作物表面深度信息進行作物表面建模。程曼等[9]用LiDAR掃描花生冠層,獲取三維點云數據,通過多項式曲線擬合算法獲取冠層高度特性。LiDAR可快速獲取高精度深度信息,但設備價格昂貴[3],且無法直接獲取RGB(紅綠藍)圖像進行目標識別。肖珂等[2]利用Kinect提供的RGB圖像識別葉墻區域,并與設備的深度圖進行匹配,測算葉墻區域平均距離,用于規劃行進路線。Kinect可同時獲取RGB圖像和像素對齊的深度圖,但該傳感器基于光飛行技術,易受日光干擾、噪聲大、視野小,難以在田間復雜工況下穩定工作。數碼相機技術成熟、穩定性高、價格低廉,如果能夠在基于圖像的深度估計方法上取得進展,其將是理想的智能農機視覺感知部件。近幾年,卷積神經網絡(convolutional neural network,CNN)在目標識別[10]、語義分割[11]等多個計算機視覺領域取得了突破,在深度估計方面也逐漸得到應用[12]。Mayer等[13]通過監督學習的CNN模型實現圖像每個像素的深度預測。但監督學習方法存在的主要問題是對圖像樣本進行逐像素的深度標注十分困難[14],雖然Kinect等深度傳感器能夠同時獲得RGB圖像和深度,但深度數據中存在噪聲干擾,影響模型訓練效果[15]。Godard等[16]提出一種基于左右目一致性約束的自監督深度估計模型,在KITTI(Karlsruhe institute of technology and Toyota technological institute at Chicago,卡爾斯魯厄理工學院和芝加哥豐田技術研究院)數據集[17]上取得了良好的效果,該方法是目前精度最高的自監督深度估計方法[18]。與KITTI等數據集相比,田間植株圖像變異性小,CNN用于該類圖像深度估計的方法及適用性有待進一步探討。

鑒于此,本文針對智能農機視覺系統對深度信息獲取的實際需求及問題,以番茄植株圖像深度估計為例,借鑒已有研究成果,提出一種基于自監督學習的番茄植株圖像深度估計網絡模型,該模型直接應用雙目圖像作為輸入來估計每個像素的深度。利用卷積自編碼器為模型設計網絡主體結構。針對現有損失函數存在的不足,提出引入卷積特征近似性損失作為網絡損失函數的一部分。以重構圖像相似度和棋盤格角點估計距離誤差等為判據,驗證本文方法在番茄植株圖像深度估計上的有效性,以期為智能農機視覺系統設計提供參考。

1 番茄植株雙目圖像數據集構建

1.1 圖像采集設備及雙目相機標定

1.2 試驗條件及數據集構建

番茄植株雙目圖像數據于2018年5月采集自沈陽農業大學試驗基地某遼沈IV型節能日光溫室(長60 m,寬10 m),番茄品種為“瑞特粉娜”,基質栽培、吊蔓生長,株距0.3 m,行距1.0 m,此時番茄處于結果期,株高約2.7 m。分別在晴朗、多云、陰天天氣的上午9:00-12:00進行圖像采集。首先在番茄行間采集兩側植株圖像,受行距約束,相機離株行的水平距離在0.5~1.0 m之間。同時在行間沿株行方向對相機目視前方場景進行采樣。共采集番茄植株雙目圖像12 000對。基于相機內、外參數,采用Bouguet法[20],通過OpenCV編程對采集的番茄植株圖像進行極線校正,使雙目圖像的光軸平行、同一空間點在雙目圖像上的像素點行對齊。校正后的雙目圖像構成番茄植株雙目圖像數據集,其中隨機選擇80%的圖像作為下文深度估計網絡的訓練集樣本,其余20%作為測試集樣本,每個深度估計網絡重復試驗5次。采用相同的圖像采集與校正方法構建含棋盤格標定板的植株雙目圖像數據集,圖像采集時在場景中放置單元格大小已知的棋盤格標定板,分別在相機鏡頭距離標定板支架0.5~3.0、3.0~6.0、6.0~9.0 m范圍內對場景成像,并保證標定板均完整出現在雙目圖像中,共采集含標定板的雙目圖像1 500對,其中不同天氣條件和采樣距離下采集的圖像數量均等。

2 自監督植株圖像深度估計方法

2.1 雙目圖像視差估計網絡模型

注:Il、Ir分別表示左、右目圖像;Dl、Dr分別表示左、右目視差圖;分別表示左、右目重構圖像;S表示圖像采樣器。下同。

2.2 網絡主體結構設計

本文采用卷積自編碼器(convolutional auto-encoder,CAE)作為DNN的結構。CAE常被用于語義分割[11]、深度恢復[12-15]等任務,在這些研究中,CAE由常規卷積層、池化層等堆疊而成,網絡參數多、計算量大。近期研究[21-22]多采用模塊化設計的卷積塊來構建CNN網絡。周云成等[23]設計了一種稱為面向通道分組卷積(channel wise group convolutional,CWGC)模塊的結構,基于該結構的CNN網絡在番茄器官分類和識別任務上都取得了較高的精度,與常規卷積相比,在寬度和深度相同的前提下,該結構可有效降低網絡參數的數量。本文針對深度恢復任務,在現有CWGC模塊基礎上引入上采樣和下采樣功能(圖2)。

圖2a中的CWGC模塊主要由4組相同的卷積組(convolution group)構成,各卷積組分別對輸入進行特征提取,生成特征圖,然后在通道方向上合并特征圖,經批標準化(batch normalization,BN)層和ELU(exponential linear unit,指數線性單元)[24]處理后作為CWGC模塊的輸出。卷積組的卷積層只和組內的前后層連接,并使用1×1卷積(conv1×1)作為瓶頸層,以降低參數數量、加深網絡深度、提高語義特征提取能力。為CWGC模塊設計了3種類型的卷積組,圖2b為空間尺度不變卷積組,該卷積組在卷積操作時通過邊緣填充保持輸出與輸入的空間尺度(寬×高)相同;圖2c為下采樣卷積組,其中conv3×1和conv1×3在卷積過程中使用非等距滑動步長,使輸出特征圖的寬、高分別降為輸入的一半;圖2d為上采樣卷積組,在conv1×1后設置一個步長為2的轉置卷積層(deconv3×3),使輸出特征圖的空間尺度與輸入相比擴大1倍。分別使用3種類型的卷積組,可使CWGC的輸入、輸出在空間尺度不變、縮小和放大之間轉換。

注:conv1×1,等表示卷積核大小為1×1、通道數為的卷積層;s2,1等表示水平和垂直滑動步長分別為2和1;deconv表示轉置卷積。下同。

Note: conv1×1,and so on denote convolution with kernel size of 1×1 and channel number of; s2,1 indicates that the horizontal and vertical strides are 2 and 1 respectively; deconv means transpose convolution. Same as below.

圖2 卷積模塊

Fig.2 Convolutional block

注:CWGC-8D等表示CWGC模塊采用h=8的下采樣卷積組;CWGC-128U等表示CWGC模塊采用h=128的上采樣卷積組;Skip 1等表示跨越連接。下同。 Note: CWGC-8D, etc. denotes that CWGC block usesdown-sampling convolution group with h=8; CWGC-128U, etc. denotes that CWGC block adopts up-sampling convolution group with h=128; Skip 1, etc. denotes skip connection. Same as below.

2.3 深度估計網絡損失函數定義

損失函數的定義是實現自監督圖像深度估計網絡優化訓練的關鍵,本文的損失函數定義如下

2.3.1 圖像重構損失

2.3.2 圖像卷積特征近似性損失

1形式的圖像重構損失,誤差梯度僅由對應像素的光度差決定。SSIM指數由光度、對比度和結構相似程度構成。植株器官并非理想的朗伯體,其蠟質化層會在一定程度上產生鏡面效應。且由于左、右目相機的位置、姿態及自身物理特性的差異,同一空間點在雙目相機成像的光度值可能不同。即使DNN預測的視差圖是準確的,從一目圖像采樣重建的另一目圖像與原圖像也會有差異。因此僅采用式(3)的人工特征來衡量兩幅圖像的近似性是不足的。Zeiler等[25]研究表明,經過訓練的分類CNN網絡的低層卷積學習到的是顏色、邊緣、紋理等低級圖像特征。相比人工特征,CNN的卷積特征是通過大量樣本訓練得到的,由于卷積核數量多,所提取的特征更為復雜多樣,且具有語義性,受環境差異影響小。因此,本文進一步采用經良好訓練的分類CNN網絡的低層卷積輸出特征的近似性來度量圖像的近似性。

為計算圖像的卷積特征張量,同樣采用CWGC模塊構建一個分類CNN網絡,命名為CWGCNet,結構如圖 4,該網絡由常規卷積層、CWGC模塊、最大池化(max-pool)、丟棄(dropout)層、全局平均池化(global average pooling)和Softmax函數構成,整個網絡具有35層卷積操作。

2.3.3 視差平滑損失

注:CWGC-16等表示CWGC模塊采用h=16的空間尺度不變卷積組;max-pool2×2表示池化窗口為2×2的最大池化層。

2.3.4 左右目視差一致性損失

2.4 可微分圖像采樣器

以最小化損失函數L為目標,通過梯度下降來調整深度估計網絡的權重參數,實現模型的優化。這要求構成神經網絡的每個模塊必須是可微分的,其中包括圖像采樣器。由于經極線校正后同一空間點在雙目圖像上對應像素行對齊,因此線性插值采樣可滿足圖像和視差圖的采樣重建,過程如圖5。

圖5 可微分圖像采樣過程示意

2.5 視差估計精度判據

DNN估計的視差圖越精確,由圖像采樣器基于視差圖采樣重建的圖像與目標圖像的相似度越高。因此本文首先采用與主觀評價法具有高度一致性的3種圖像相似度評價指標FSIM(feature similarity index,特征相似性指數)[27]、IW-SSIM(information content weighted SSIM,信息內容加權結構相似性指數)[28]和GSIM(gradient similarity index,梯度相似性指數)[29]作為視差圖精度的間接評判指標,3種指標值均越大說明圖像相似度越高,視差圖越精確。

3 深度估計網絡模型訓練與測試

3.1 深度估計網絡總體結構及實現

3.2 CWGCNet的訓練

采用ImageNet1000[31]的訓練集訓練CWGCNet分類網絡,訓練方法同文獻[32],采用小批量梯度下降法進行訓練,通過圖像隨機裁剪法進行樣本增廣。在ImageNet1000的測試集上進行分類測試,并與AlexNet[33]和VGG-16[32]2種典型分類CNN網絡進行top-1、top-5錯誤率(指網絡輸出的1個或5個最高概率類型不包括實際類型的樣本數占測試樣本總數的比例)及權重參數數量(由網絡中所有卷積核和全連接層的權重參數的數量累加得到,與具體網絡結構有關,下同)比較,結果如表1。

表1 CWGCNet與2種典型CNN網絡分類性能比較

由表1可知,CWGCNet在ImageNet1000上的top-1錯誤率比AlexNet和VGG-16分別降低30.4%和3.3%,且權重參數數量只有后兩者的4.5%和6.5%,說明其具有更強的圖像特征提取能力,卷積核參數更加高效,參數冗余更少。將1幅番茄植株圖像輸入CWGCNet,并對其前2層卷積模塊輸出的部分特征圖進行可視化(圖6)。

從圖6可以看出,CWGCNet的前2層卷積模塊輸出了表觀各異的特征圖,說明其學習出了能夠提取圖像多種類型特征的卷積核,其中第1層特征圖主要體現了圖像的顏色特征,第2層特征圖主要突出了圖像的邊緣和紋理特征。因此,在式(3)中包含的2幅圖像的光度、對比度、結構和光度差的比較基礎上,采用卷積特征圖構建的式(4)能夠進一步為深度估計網絡的訓練引入多樣化的圖像特征比較。

圖6 輸入圖像及對應的部分卷積特征圖

3.3 深度估計網絡的訓練

網絡的訓練方法同文獻[16],用Adam(adaptive moment,自適應矩)優化器對深度估計網絡進行訓練,其中Adam的1階矩指數衰減率1=0.9、2階矩指數衰減率2=0.999,每一小批樣本量為8,初始學習率為10-3,經過10代迭代訓練后調整為10-4,此后每經過20代迭代,學習率下降10倍。經過60代迭代訓練,網絡損失收斂到穩定值。

3.4 深度估計網絡的測試與分析

表2 卷積模塊層數對視差估計精度的影響

注:數據為平均值±標準誤。同列不同小寫字母表示各處理在5%水平上差異顯著。下同。

Note: Data is mean±SE. Values followed by a different letter within a column for treatments are significantly different at 0.05level. Same as below.

表3 深度估計方法性能比較

注:組合A表示模型由本文網絡結構和文獻[16]的損失函數構成;組合B表示模型由文獻[16]的網絡結構和本文損失函數構成。

Note: Combination A indicates that the model consists of our network structure and the loss function in [16]; Combination B indicates that the model is composed of the network structure of [16] and the loss function of this paper.

由表3可知,與Godard等人的方法相比,本文方法在FSIM等3種圖像相似度指標上都顯著高于前者,棋盤格角點估計距離誤差也顯著低于前者,RMSE降低了33.1%,MAE降低了35.6%,2顯著提高,說明本文方法估計的視差圖具有更高的精度。以CWGC-CAE為主體結構的深度估計網絡的計算速度達28.0幀/s,與Godard等人的網絡相比提高了52.2%。對比Godard等人的方法和組合A表明,CWGC-CAE無論在圖像相似度指標,還是在棋盤格角點估計距離的精度上,其性能都顯著高于前者的網絡結構,且權重參數數量只有前者的16.9%,表明CWGC-CAE在番茄植株圖像深度估計上更具有優勢。對比Godard等人的方法和組合B表明,組合B在FSIM、IW-SSIM指標上有顯著提高,棋盤格角點估計距離RMSE和MAE分別降低32.1%和33.3%,說明本文引入的圖像卷積特征近似性損失函數對提高植株圖像深度估計的精度是有顯著作用的。

同樣用最終深度估計模型,來估計番茄植株雙目圖像測試集中的部分圖像的視差圖,效果如圖7。同時用該模型在含棋盤格標定板的植株雙目圖像數據集上測試光照條件和采樣距離對棋盤格角點距離估計精度的影響,結果如表4。

由表4可知,光照對棋盤格角點估計距離誤差無明顯影響,說明本文的植株圖像深度估計模型對光照變化具有一定的魯棒性。棋盤格標定板的采樣距離對角點間相互距離的估計精度具有顯著影響,誤差隨著采樣距離的增加而增大,當采樣距離為0.5~3.0 m時,RMSE為6.49 mm,MAE為4.36 mm,分別小于0.7和0.5 cm;當距離為6.0~9.0 m時,RMSE為24.63 mm,MAE為17.90 mm,分別小于2.5和1.8 cm。

圖7 深度估計效果

表4 光照條件與采樣距離對棋盤格角點估計距離精度的影響

注:同行不同小寫字母表示各處理在5%水平上差異顯著。

Note: Values followed by a different letter within a row for treatments are significantly different at 0.05 level.

4 結 論

本文提出一種基于自監督學習的番茄植株圖像深度估計網絡模型,構建了卷積自編碼器作為模型的主體結構,提出引入圖像卷積特征近似性損失作為損失函數的一部分,以圖像相似度、棋盤格角點估計距離誤差等為判據,用番茄植株雙目圖像對模型進行訓練和測試,結果表明:1)基于面向通道分組卷積模塊設計的分類網絡的淺層卷積能夠提取番茄植株的低層圖像特征,與未采用圖像卷積特征近似性損失函數的模型相比,采用該函數的模型的棋盤格角點估計距離均方根誤差RMSE和平均絕對誤差MAE分別降低了32.1%和33.3%,該函數對提高番茄植株圖像深度估計的精度具有顯著作用,且精度隨著參與近似性損失計算的卷積模塊層數的增加而升高,但超過4層后,進一步增加層數對精度的提升作用不再明顯。2)圖像采樣距離影響深度估計的精度,當采樣距離在9.0 m以內時,所估計的棋盤格角點距離RMSE和MAE分別小于2.5 和1.8 cm,當采樣距離在3.0 m以內時,則分別小于0.7 和0.5 cm,模型計算速度為28.0幀/s。3)與已有研究結果相比,本文模型的RMSE和MAE分別降低33.1%和35.6%,計算速度提高52.2%,深度估計精度和計算速度均顯著提高。

[1]項榮,應義斌,蔣煥煜. 田間環境下果蔬采摘快速識別與定位方法研究進展[J]. 農業機械學報,2013,44(11):208-223. Xiang Rong, Ying Yibin, Jiang Huanyu. Development of real-time recognition and localization methods for fruits and vegetables in field[J]. Transactions of the Chinese Society for Agricultural Machinery, 2013, 44(11): 208-223. (in Chinese with English abstract)

[2]肖珂,高冠東,馬躍進. 基于Kinect視頻技術的葡萄園農藥噴施路徑規劃算法[J]. 農業工程學報,2017,33(24):192-199. Xiao Ke, Gao Guandong, Ma Yuejin. Pesticide spraying route planning algorithm for grapery based on Kinect video technique[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(24): 192-199. (in Chinese with English abstract)

[3]何勇,蔣浩,方慧,等. 車輛智能障礙物檢測方法及其農業應用研究進展[J]. 農業工程學報,2018,34(9):21-32. He Yong, Jiang Hao, Fang Hui, et al. Research progress of intelligent obstacle detection methods of vehicles and their application on agriculture[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(9): 21-32. (in Chinese with English abstract)

[4]莫宇達,鄒湘軍,葉敏,等. 基于Sylvester方程變形的荔枝采摘機器人手眼標定方法[J]. 農業工程學報,2017,33(4):47-54. Mo Yuda, Zou Xiangjun, Ye Min, et al. Hand-eye calibration method based on Sylvester equation deformation for lychee harvesting robot[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(4): 47-54. (in Chinese with English abstract)

[5]翟長遠,趙春江,Ning Wang,等. 果園風送噴霧精準控制方法研究進展[J]. 農業工程學報,2018,34(10):1-15. Zhai Changyuan, Zhao Chunjiang, Ning Wang, et al. Research progress on precision control methods of air-assisted spraying in orchards[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(10): 1-15. (in Chinese with English abstract)

[6]翟志強,杜岳峰,朱忠祥,等. 基于Rank變換的農田場景三維重建方法[J]. 農業工程學報,2015,31(20):157-164. Zhai Zhiqiang, Du Yuefeng, Zhu Zhongxiang, et al. Three-dimensional reconstruction method of farmland scene based on Rank transformation[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(20): 157-164. (in Chinese with English abstract)

[7]朱镕杰,朱穎匯,王玲,等. 基于尺度不變特征轉換算法的棉花雙目視覺定位技術[J]. 農業工程學報,2016,32(6):182-188. Zhu Rongjie, Zhu Yinghui, Wang Ling, et al. Cotton positioning technique based on binocular vision with implementation of scale-invariant feature transform algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016, 32(6): 182-188. (in Chinese with English abstract)

[8]H?mmerle M, H?fle B. Effects of reduced terrestrial LiDAR point density on high-resolution grain crop surface models in precision agriculture[J]. Sensors, 2014, 14(12): 24212-24230.

[9]程曼,蔡振江,Ning Wang,等. 基于地面激光雷達的田間花生冠層高度測量系統研制[J]. 農業工程學報,2019,35(1):180-187. Cheng Man, Cai Zhenjiang, Ning Wang, et al. System design for peanut canopy height information acquisition based on LiDAR[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(1): 180-187. (in Chinese with English abstract)

[10]Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.

[11]Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//European Conference on Computer Vision. Springer, Cham, 2018: 833-851.

[12]Liu F, Shen C, Lin G, et al. Learning depth from single monocular images using deep convolutional neural fields[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2016, 38(10): 2024-2039.

[13]Mayer N, Ilg E, H?usser P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation[C]//Computer Vision and Pattern Recognition. IEEE, 2016: 4040-4048.

[14]Garg R, Vijay K B G, Carneiro G, et al. Unsupervised CNN for single view depth estimation: geometry to the rescue[C]// European Conference on Computer Vision. Springer, Cham, 2016: 740-756.

[15]Kundu J N, Uppala P K, Pahuja A, et al. AdaDepth: Unsupervised content congruent adaptation for depth estimation[EB/OL]. [2018-06-07] https: //arxiv. org/pdf/1803. 01599. pdf.

[16]Godard C, Aodha O M, Brostow G J. Unsupervised monocular depth estimation with left-right consistency[C]// Computer Vision and Pattern Recognition. IEEE, 2017: 6602-6611.

[17]Geiger A, Lenz P, Stiller C, et al. Vision meets robotics: The KITTI dataset[J]. International Journal of Robotics Research, 2013, 32(11): 1231-1237.

[18]Poggi M, Tosi F, Mattoccia S. Learning monocular depth estimation with unsupervised trinocular assumptions[C]// International Conference on 3D Vision (3DV). IEEE, 2018: 324-333.

[19]Zhang Z. A flexible new technique for camera calibration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11): 1330-1334.

[20]Bouguet J Y, Perona P. Closed-form camera calibration in dual-space geometry[C]//European Conference on Computer Vision, 1998.

[21]Zhang T, Qi G J, Xiao B, et al. Interleaved group convolutions for deep neural networks[C]//International Conference on Computer Vision (ICCV), 2017.

[22]Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, Inception-ResNet and the impact of residual connections on learning[C]//Proceedings of Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17), 2017.

[23]周云成,許童羽,鄧寒冰,等. 基于面向通道分組卷積網絡的番茄主要器官實時識別方法[J]. 農業工程學報,2018,34(10):153-162. Zhou Yuncheng, Xu Tongyu, Deng Hanbing, et al. Real-time recognition of main organs in tomato based on channel wise group convolutional network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(10): 153-162. (in Chinese with English abstract)

[24]Shah A, Kadam E, Shah H, et al. Deep residual networks with exponential linear unit[C]//International Symposium on Computer Vision and the Internet. ACM, 2016: 59-65.

[25]Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//Computer Vision and Pattern Recognition. IEEE, 2014.

[26]Heise P, Klose S, Jensen B, et al. PM-Huber: PatchMatch with huber regularization for stereo matching[C]//IEEE International Conference on Computer Vision. IEEE, 2014: 2360-2367.

[27]Zhang L, Zhang L, Mou X, et al. FSIM: A feature similarity index for image quality assessment[J]. IEEE Transactions on Image Processing, 2011, 20(8): 2378-2386.

[28]Wang Z, Li Q. Information content weighting for perceptual image quality assessment[J]. IEEE Transactions on Image Processing, 2011, 20(5): 1185-1198.

[29]Liu A, Lin W, Narwaria M. Image quality assessment based on gradient similarity[J]. IEEE Transactions on Image Processing, 2012, 21(4): 1500-1512.

[30]Agarwal A, Akchurin E, Basoglu C, et al. The Microsoft cognitive toolkit[EB/OL]. [2018-06-01] https: //docs. microsoft. com/en-us/cognitive-toolkit/.

[31]Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]//Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009: 248-255.

[32]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]//In ICLR, 2015.

[33]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]// International Conference on Neural Information Processing Systems. Curran Associates Inc. 2012: 1097-1105.

[34]Yang Y, Zhong Z, Shen T, et al. Convolutional neural networks with alternately updated clique[C]//Computer Vision and Pattern Recognition. IEEE, 2018.

Method for estimating the image depth of tomato plant based on self-supervised learning

Zhou Yuncheng, Xu Tongyu, Deng Hanbing, Miao Teng, Wu Qiong

(,,110866,)

Depth estimation is critical to 3D reconstruction and object location in intelligent agricultural machinery vision system, and a common method in it is stereo matching. Traditional stereo matching method used low-quality image extracted manually. Because the color and texture in the image of field plant is nonuniform, the artificial features in the image are poorly distinguishable and mismatching could occur as a result. This would compromise the accuracy of the depth of the map. While the supervised learning-based convolution neural network (CNN) is able to estimate the depth of each pixel in plant image directly, it is expensive to annotate the depth data. In this paper, we present a depth estimation model based on the self-supervised learning to phenotype tomato canopy. The tasks of the depth estimation method were to reconstruct the image. The dense disparity maps were estimated indirectly using the rectified stereo pair of images as the network input, from which a bilinear interpolation was used to sample the input images to reconstruct the warping images. We developed three channel wise group convolutional (CWGC) modules, including the dimension invariable convolution module, the down-sampling convolution module and the up-sampling convolution module, and used them to construct the convolutional auto-encoder - a key infrastructure in the depth estimation method. Considering the shortage of manual features for comparing image similarity, we used the loss in image convolutional feature similarity as one objective of the network training. A CWGC-based CNN classification network (CWGCNet) was developed to extract the low-level features automatically. In addition to the loss in image convolutional feature similarity, we also considered the whole training loss, which include the image appearance matching loss, disparity smoothness loss and left-right disparity consistency loss. A stereo pair of images of tomato was sampled using a binocular camera in a greenhouse. After epipolar rectification, the pair of images was constructed for training and testing of the depth estimation model. Using the Microsoft Cognitive Toolkit (CNTK), the CWGCNet and the depth estimation network of the tomato images were calculated using Python. Both training and testing experiments were conducted in a computer with a Tesla K40c GPU (graphics processing unit). The results showed that the shallow convolutional layer of the CWGCNet successfully extracted the low-level multiformity image features to calculate the loss in image convolutional feature similarity. The convolutional auto-encoder developed in this paper was able to significantly improve the disparity map estimated by the depth estimation model. The loss function in image convolutional feature similarity had a remarkable effect on accuracy of the image depth. The accuracy of the disparity map estimated by the model increased with the number of convolution modules for calculating the loss in convolutional feature similarity. When sampled within 9.0 m, the root means square error (RMSE) and the mean absolute error (MAE) of the corner distance estimated by the model were less than 2.5 cm and 1.8 cm, respectively, while when sampled within 3.0m, the associated errors were less than 0.7cm and 0.5cm, respectively. The coefficient of determination (2) of the proposed model was 0.8081, and the test speed was 28 fps (frames per second). Compared with the existing models, the proposed model reduced the RMSE and MAE by 33.1% and 35.6% respectively, while increased calculation speed by 52.2%.

image processing; convolution neural network; algorithms; self-supervised learning; depth estimation; disparity; deep learning; tomato

周云成,許童羽,鄧寒冰,苗 騰,吳 瓊. 基于自監督學習的番茄植株圖像深度估計方法[J]. 農業工程學報,2019,35(24):173-182. doi:10.11975/j.issn.1002-6819.2019.24.021 http://www.tcsae.org

Zhou Yuncheng, Xu Tongyu, Deng Hanbing, Miao Teng, Wu Qiong. Method for estimating the image depth of tomato plant based on self-supervised learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(24): 173-182. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2019.24.021 http://www.tcsae.org

2018-11-01

2019-12-01

遼寧省自然科學基金(20180551102);國家自然科學基金(31601218)

周云成,副教授,博士,主要從事機器學習在農業信息處理中的應用研究。Email:zhouyc2002@163.com

10.11975/j.issn.1002-6819.2019.24.021

TP183

A

1002-6819(2019)-24-0173-10

猜你喜歡
深度特征
抓住特征巧觀察
深度理解一元一次方程
新型冠狀病毒及其流行病學特征認識
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
深度觀察
深度觀察
深度觀察
深度觀察
抓住特征巧觀察
主站蜘蛛池模板: 国产成人精品亚洲日本对白优播| 国产欧美日韩在线在线不卡视频| 亚洲AV无码不卡无码| 国产成+人+综合+亚洲欧美| 亚洲成人动漫在线观看| 91视频精品| 国产毛片不卡| 四虎永久在线精品国产免费| 成人亚洲国产| 漂亮人妻被中出中文字幕久久 | 又爽又大又黄a级毛片在线视频| 亚洲无码四虎黄色网站| 亚洲av无码片一区二区三区| 国产黄视频网站| 欧美一级在线| 亚洲无线视频| 国产自在线拍| av在线5g无码天天| 免费av一区二区三区在线| 成人一区在线| 欧美亚洲激情| 久久久久久高潮白浆| 日韩无码精品人妻| 亚洲一区二区约美女探花| 亚洲AV免费一区二区三区| 91成人免费观看在线观看| 2022国产无码在线| 久久无码av三级| 国产成人1024精品下载| 精品视频免费在线| 白浆视频在线观看| 日本亚洲欧美在线| 456亚洲人成高清在线| 欧美一级黄色影院| 亚洲一区二区三区中文字幕5566| 欧美日韩午夜| 九九免费观看全部免费视频| 国产美女无遮挡免费视频| WWW丫丫国产成人精品| 亚洲无码在线午夜电影| 熟女日韩精品2区| 久久国产精品影院| 国产高清在线观看91精品| 毛片a级毛片免费观看免下载| 精品无码人妻一区二区| 欧美激情网址| 免费在线看黄网址| 日韩精品亚洲一区中文字幕| 国产sm重味一区二区三区| 婷婷亚洲视频| 波多野结衣无码视频在线观看| 狠狠色婷婷丁香综合久久韩国| 五月婷婷中文字幕| 国产不卡国语在线| 白丝美女办公室高潮喷水视频| 日韩精品资源| 操美女免费网站| 国产一区二区视频在线| 亚洲中文精品人人永久免费| 成人免费视频一区| 国产在线无码一区二区三区| 美女潮喷出白浆在线观看视频| 久久天天躁狠狠躁夜夜躁| 天堂成人在线| 亚洲欧美一区二区三区麻豆| 国产拍揄自揄精品视频网站| 亚洲中文无码h在线观看| 中文天堂在线视频| 久久中文字幕不卡一二区| 99ri精品视频在线观看播放| 午夜老司机永久免费看片| 国内精品免费| 欧美日韩在线亚洲国产人| 欧美久久网| 亚洲综合网在线观看| 免费大黄网站在线观看| 中国毛片网| 国产成人无码久久久久毛片| 亚洲无码在线午夜电影| 日本手机在线视频| 免费在线看黄网址| 永久天堂网Av|