周鵬,曹冰玉,周文靜,張洚宇,馬曉曉,劉生智
(新疆科技學(xué)院,新疆巴州 841000)
中國(guó)雖然地理資源廣闊,但由于農(nóng)業(yè)生產(chǎn)基礎(chǔ)設(shè)施薄弱、農(nóng)業(yè)產(chǎn)業(yè)結(jié)構(gòu)單一等原因,越來(lái)越多的農(nóng)民工選擇了其他行業(yè)就業(yè)。面對(duì)這種發(fā)展形勢(shì),我國(guó)學(xué)者在研究中提出了人工智能技術(shù)的全面融入應(yīng)用,打造符合新時(shí)代發(fā)展的智慧農(nóng)業(yè),不僅可以為農(nóng)業(yè)帶來(lái)更多的發(fā)展機(jī)遇,還可以吸引更多的企業(yè)、社會(huì)機(jī)構(gòu)和優(yōu)秀人才參與農(nóng)業(yè)經(jīng)濟(jì)建設(shè)[1-3]。如今,農(nóng)業(yè)建設(shè)與發(fā)展可分為以下幾種類(lèi)型:1)綠色農(nóng)業(yè),是指農(nóng)業(yè)與生態(tài)環(huán)境的融合,在實(shí)現(xiàn)協(xié)調(diào)發(fā)展的同時(shí)實(shí)現(xiàn)可持續(xù)發(fā)展目標(biāo)。2)設(shè)施農(nóng)業(yè),是指技術(shù)、設(shè)備、動(dòng)植物高度相關(guān)的農(nóng)業(yè)。生物物理因素被視為要操作的對(duì)象。在提高產(chǎn)量的同時(shí),嚴(yán)格禁止使用對(duì)人類(lèi)有害的農(nóng)藥等化學(xué)物質(zhì)。3)工廠工業(yè),是指綜合運(yùn)用現(xiàn)代高新技術(shù)、新型設(shè)備、管理方法而發(fā)展的一種綜合機(jī)械化、自動(dòng)化技術(shù)的高度集約化生產(chǎn),能夠在人工農(nóng)業(yè)環(huán)境中創(chuàng)造,真正實(shí)現(xiàn)全過(guò)程連續(xù)作業(yè),以擺脫自然環(huán)境的限制。
目前,最常見(jiàn)的以深度學(xué)習(xí)為核心的目標(biāo)檢測(cè)算法分為兩種理論技術(shù)。一種是以候選區(qū)域?yàn)楹诵牡哪繕?biāo)檢測(cè)算法,另一種是端到端的目標(biāo)檢測(cè)算法[4]。本文在深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)算法的基礎(chǔ)上,主要探討以卷積神經(jīng)網(wǎng)絡(luò)為核心的物體識(shí)別,進(jìn)而對(duì)香梨物體識(shí)別與定位實(shí)驗(yàn)進(jìn)行驗(yàn)證與分析,以期為新時(shí)代農(nóng)業(yè)科技的發(fā)展提供有效依據(jù)[5-7]。
在深度學(xué)習(xí)中,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種深度神經(jīng)網(wǎng)絡(luò),最常用于分析視覺(jué)圖像。它采用多層感知機(jī)的變型設(shè)計(jì),需要的預(yù)處理最少,因此也被稱(chēng)為移位不變或空間不變的人工神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)是基于它們的共享權(quán)重架構(gòu)和移位不變特性而提出的。結(jié)合圖1 所示的CNN 結(jié)構(gòu)圖可以看出,整體模塊主要包括輸入層、輸出層和多個(gè)隱層,其中隱層又分為卷積層、池化層、RELU 層和全連接層。與其他圖像分類(lèi)算法相比,CNN很少被應(yīng)用于處理領(lǐng)域,這證明了傳統(tǒng)算法中手工設(shè)計(jì)濾波器的網(wǎng)絡(luò)學(xué)習(xí),獨(dú)立于之前的知識(shí)和人類(lèi)在特征設(shè)計(jì)上的努力,是最獨(dú)特的技術(shù)優(yōu)勢(shì),可以應(yīng)用于目標(biāo)識(shí)別、圖像分類(lèi)、自然語(yǔ)言處理等[8]。

圖1 CNN網(wǎng)絡(luò)結(jié)構(gòu)
區(qū)域中心卷積神經(jīng)網(wǎng)絡(luò)(Region-Centered Convolutional Neural Network,RCNN)是將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于目標(biāo)檢測(cè)的最初結(jié)果。由于CNN 具有良好的特征提取和分類(lèi)性能,因此應(yīng)該采用候選區(qū)域方法來(lái)解決目標(biāo)檢測(cè)問(wèn)題,從候選區(qū)域選擇、特征提取、分類(lèi)和邊界回歸三個(gè)步驟入手。從整體上看,RCNN 的操作更加直觀。它的目的是準(zhǔn)確定位并合并完成分類(lèi),避免多次檢測(cè),其中分類(lèi)器和邊界回歸的選擇很多。
通過(guò)對(duì)RCNN 和Fast RCNN 的積累,國(guó)外學(xué)者在研究中再次提出Faster RCNN。從結(jié)構(gòu)上看,F(xiàn)aster RCNN將特征提取、建議區(qū)域提取、邊界盒回歸和分類(lèi)處理集成到一個(gè)網(wǎng)絡(luò)中,有利于提高實(shí)際應(yīng)用的綜合性能,加快整體檢測(cè)速度。為了有效解決RCNN 和Fast RCNN 的問(wèn)題,較快的RCNN 引入了候選區(qū)域網(wǎng)絡(luò)(Region Proposal Network,RPN),與檢測(cè)網(wǎng)絡(luò)共享圖像的全卷積特征,從而獲得近似無(wú)代價(jià)的候選區(qū)域。結(jié)合圖2所示的RCN算法的流程分析可以看出,RPN可以同時(shí)預(yù)測(cè)每個(gè)位置的目標(biāo)邊界和目標(biāo)得分,并且對(duì)RPN進(jìn)行端到端的訓(xùn)練,形成一個(gè)質(zhì)量較高的候選區(qū)域,便于技術(shù)檢測(cè)和分析。經(jīng)過(guò)簡(jiǎn)單的交替優(yōu)化后,可以有效訓(xùn)練RPN 和Fast RCNN 共享卷積特征[9-11]。

圖2 Faster RCNN算法操作流程
為了設(shè)計(jì)具有不同共享卷積層的Fast RCNN 并提取感興趣的特征,需要將Fast RCNN模型、ZF網(wǎng)絡(luò)、VGG16網(wǎng)絡(luò)和RESNET網(wǎng)絡(luò)的不同層次融合在一起,真實(shí)現(xiàn)迭代訓(xùn)練研究。其中,ZF 網(wǎng)絡(luò)框架如圖3 所示。在Fast RCNN 的共享卷積層中,只需要其中的卷積部分。

圖3 ZF網(wǎng)絡(luò)框架
VGG16網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。在綜合分析時(shí),要嚴(yán)格遵守公平正義的基本原則,搜索網(wǎng)絡(luò)深度對(duì)模型精度的影響,所有卷積層的配置都是相同的。其中,卷積核的大小為3×3,步長(zhǎng)為1,填充值為1,共5 個(gè)最大池化層。核大小為2×2,步長(zhǎng)為2,總共有3 個(gè)全連接層。前兩層有4 096個(gè)通道,第三層總共有1 000個(gè)輸出神經(jīng)元,代表1 000 個(gè)標(biāo)簽類(lèi)別。為防止梯度彌散增加了RELU非線性激活函數(shù)[12-13]。

圖4 VGG16網(wǎng)絡(luò)結(jié)構(gòu)圖
本文在理解深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)算法的基礎(chǔ)上,采用以DenseNET 為核心的Mask R-CNN 香梨檢測(cè)模型。DenseNET 網(wǎng)絡(luò)結(jié)構(gòu)是一種全新的深度網(wǎng)絡(luò)結(jié)構(gòu)。計(jì)算公式如下:
上式中,x1表示第1 層的輸出,H1表示非線性變換。在這個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中,每一層的輸入都是其前一層生成的特征圖,因此對(duì)于整個(gè)網(wǎng)絡(luò)來(lái)說(shuō),總共有L(L+1)/2個(gè)連接,其中L表示網(wǎng)絡(luò)層數(shù)。
采用DenseNET 121(k=32,增長(zhǎng)率)作為基礎(chǔ)網(wǎng)絡(luò)提取部分。該特征塊包括卷積層、正則化層、ReLU層和池化層。在卷積層中,使用7×7 卷積核,步長(zhǎng)為2。此外,選擇同樣的填充方法實(shí)現(xiàn)圖像卷積操作,然后將卷積結(jié)果輸入到BN 層和ReLU 激活函數(shù)層,以3×3的方式實(shí)現(xiàn)特征圖的池化操作。DEnseNet 的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示[14-15]:

圖5 DEnseNet網(wǎng)絡(luò)結(jié)構(gòu)
在Mark R-CNN模型中,Resnet152用于特征提取網(wǎng)絡(luò)區(qū)域。在模型運(yùn)行過(guò)程中,練習(xí)速度相對(duì)較慢。因此,在實(shí)驗(yàn)過(guò)程中應(yīng)使用Resnet網(wǎng)絡(luò)代替DEnseNet網(wǎng)絡(luò),以提高網(wǎng)絡(luò)模型的運(yùn)行速度。其中,DEnseNet網(wǎng)絡(luò)與FPN 的結(jié)合是整個(gè)網(wǎng)絡(luò)的特征提取部分。具體結(jié)構(gòu)如圖6所示:

圖6 多尺度結(jié)合的DEnseNet網(wǎng)絡(luò)結(jié)構(gòu)圖
在本次實(shí)驗(yàn)分析中,實(shí)驗(yàn)環(huán)境主要采用tensorflow的深度學(xué)習(xí)框架,硬件設(shè)施選擇Intel (R) Core (TM)i7-8750H CPU@2.2GHz 六 核CPU 和16GB 內(nèi) 存。為了進(jìn)一步提高模型檢測(cè)效果,結(jié)合400×300 大小的9 600 份香梨數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后利用自然環(huán)境下香梨的圖片進(jìn)行再訓(xùn)練。最后,經(jīng)過(guò)數(shù)據(jù)增強(qiáng),得到4 500 條數(shù)據(jù)集。其中3 500 為訓(xùn)練集,500 為驗(yàn)證集,500為測(cè)試集。其中初始學(xué)習(xí)率為0.001,量化設(shè)置為0.9,正則化衰減系數(shù)為0.000 1,壓縮率為0.5。共完成了105次迭代分析。結(jié)合改進(jìn)模型的分析可以看出,與Resnet 模型相比,每幅圖像的識(shí)別速度提高了5fps,證明了改進(jìn)后的目標(biāo)檢測(cè)模型能夠進(jìn)一步提高檢測(cè)效果,其實(shí)驗(yàn)結(jié)果如圖7、圖8 所示,模型運(yùn)行結(jié)果如圖9所示。

圖7 Resnet訓(xùn)練30批次后整體損失變化曲線圖

圖8 DEnseNet訓(xùn)練30批次后整體損失變化曲線圖

圖9 基于遷移學(xué)習(xí)的Faster-RCNN模型檢測(cè)效果圖
綜上所述,隨著現(xiàn)代人工智能技術(shù)的理論越來(lái)越完善,智能農(nóng)業(yè)社會(huì)的建設(shè)和發(fā)展成為關(guān)注的焦點(diǎn)。對(duì)于水果采摘,目前市場(chǎng)上已經(jīng)出現(xiàn)了各種各樣的智能采摘機(jī),主要用于識(shí)別和定位水果的顏色、形狀等基本特征。本文基于深度學(xué)習(xí)的香梨目標(biāo)識(shí)別與定位研究,主要采用卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行操作,既能提高香梨的識(shí)別與定位效率,又能保證香梨的果實(shí)品質(zhì)。