基于卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的蔬果種類識(shí)別方法＊

2018-04-14 02:05:55薄琪葦

計(jì)算機(jī)時(shí)代 2018年4期

薄琪葦，彭　俊，夏　凱,2

(1.浙江農(nóng)林大學(xué)信息工程學(xué)院，浙江杭州 311300；2.浙江農(nóng)林大學(xué)浙江省林業(yè)智能監(jiān)測(cè)與信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室)

0　引言

最早的蔬果智能識(shí)別系統(tǒng)是由IBM公司的BOLLE等[1]于1995年為超市設(shè)計(jì)的，系統(tǒng)只能提取簡(jiǎn)單的圖像顏色、形狀、紋理等特征參數(shù)，利用簡(jiǎn)單的最小緊鄰法對(duì)多種蔬果進(jìn)行分類。ZHANG等[2]運(yùn)用Unser、RGB顏色直方圖等作為識(shí)別特征，再采用多類支持向量機(jī)(SVM)對(duì)蔬果進(jìn)行識(shí)別，取得了較好的識(shí)別效果。國(guó)內(nèi)對(duì)圖像識(shí)別技術(shù)應(yīng)用于蔬果識(shí)別的研究起步較晚且較少。羅承成等[3]針對(duì)超市環(huán)境中的果蔬農(nóng)產(chǎn)品進(jìn)行分類識(shí)別，利用改進(jìn)的鄰域特征提取算法，但特征提取時(shí)間較長(zhǎng)，適用的范圍相對(duì)有限。黃曉琳等人[4]引入壓縮感知機(jī)方法，對(duì)提取的特征信息進(jìn)行融合后實(shí)現(xiàn)分類。但在研究對(duì)象選擇上，多數(shù)研究?jī)H是對(duì)單一蔬果圖像進(jìn)行識(shí)別。綜合國(guó)內(nèi)外研究現(xiàn)狀可以看出，當(dāng)前研究較多集中于理論上的算法優(yōu)化和論證，而實(shí)際應(yīng)用進(jìn)展不大。其他的分類識(shí)別技術(shù)，一般需要較多的人工預(yù)處理、圖像分割等操作，數(shù)據(jù)運(yùn)算量較大。鑒于此，本研究嘗試將深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于蔬果農(nóng)產(chǎn)品的自動(dòng)分類中，研究側(cè)重于實(shí)際的應(yīng)用場(chǎng)景，以期為基于圖像識(shí)別技術(shù)的蔬果智能化研究提供一定的參考。

1　材料與方法

1.1　圖像來(lái)源

所用的蔬菜水果均由農(nóng)貿(mào)市場(chǎng)隨機(jī)購(gòu)買，采集的種類主要有：桃子Amygdalus persica，紅棗Ziziphus jujuba，蘋果Malus pumila，番茄Lycopersicon esculentum，香蕉Musa nana，西蘭花Brassica oleracea var.italic，荷蘭豆Pisum sativum，土豆Solanum tuberosum，秋葵Abelmoschus esculentus等9種蔬菜水果。在日常生活中，環(huán)境復(fù)雜，不可控因素很多。為了盡量模擬蔬果在日常生活中的情形，分別將不同數(shù)量的蔬果靜置于不同的背景中，例如報(bào)紙、塑料袋、電子秤托盤等，然后通過(guò)數(shù)碼相機(jī)進(jìn)行拍攝，以此來(lái)獲取實(shí)驗(yàn)圖像。以番茄為例，在自然光照下，不同背景所拍攝到的示例如圖1所示。

圖1　自然光照下不同背景拍攝的番茄

從拍攝的9種不同種類的蔬果圖像中，隨機(jī)選取一部分作為訓(xùn)練集，剩余另一部分不重復(fù)的作為驗(yàn)證集，具體拍攝數(shù)量，統(tǒng)計(jì)結(jié)果見(jiàn)表1。

表1　9種蔬果訓(xùn)練集和驗(yàn)證集圖像數(shù)量

1.2　卷積神經(jīng)網(wǎng)絡(luò)概述

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neuron networks，CNN)是以多層感知機(jī)作為基礎(chǔ)，受生物視覺(jué)系統(tǒng)“局部感知”影響而設(shè)計(jì)完成的一種深層神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層和降采樣層構(gòu)成，而在最頂層則是由普通神經(jīng)網(wǎng)絡(luò)的全連接層，其結(jié)構(gòu)見(jiàn)圖2。

圖2　卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型

卷積層用來(lái)實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的卷積操作，其由多個(gè)卷積核構(gòu)成，用于構(gòu)建不同的特征圖像。通過(guò)不同的卷積核函數(shù)，將前一層數(shù)據(jù)的所有特征在后一層進(jìn)行表述。

降采樣層根據(jù)圖像局部相關(guān)性原理，通過(guò)對(duì)卷積層進(jìn)行子抽樣，在保證特征不變的情況下，減少圖像分辨率，從而減少計(jì)算量。一般的，其置于2個(gè)卷積層之間，每一卷積層對(duì)應(yīng)于1個(gè)降采樣層。當(dāng)前典型的降采樣方法主要有均值、最大值和隨機(jī)降采樣3種[5-6]。

2　分析與討論

2.1　蔬果識(shí)別模型

相比于LeNet-5模型，本實(shí)驗(yàn)改進(jìn)后的蔬果識(shí)別模型增加了1個(gè)S6降采樣層，進(jìn)一步降低圖像大小，使得擁有3對(duì)成對(duì)的卷積降采樣層。而在其后新增的Dropout層，則是為了避免過(guò)擬合的問(wèn)題，加強(qiáng)模型的特征表達(dá)能力，其結(jié)構(gòu)示意圖如圖3所示。

構(gòu)建好識(shí)別模型之后，就需要通過(guò)蔬果圖像來(lái)訓(xùn)練模型，以此來(lái)獲取特征值。

從拍攝的9種蔬果圖片中，每個(gè)種類隨機(jī)挑選一部分圖片作為訓(xùn)練集，用來(lái)訓(xùn)練模型。將壓縮后的訓(xùn)練集圖片轉(zhuǎn)換成二進(jìn)制文件，輸入到模型中，訓(xùn)練模型，獲得訓(xùn)練結(jié)果。

圖3　改進(jìn)后的蔬果識(shí)別模型示意圖

在自然光下，以白色為背景的單體蔬果圖片為例，設(shè)定訓(xùn)練迭代次數(shù)10000次，對(duì)模型訓(xùn)練后，可用TensorFlow自帶的可視化工具TensorBoard來(lái)顯示訓(xùn)練過(guò)程。如圖4所示：在迭代次數(shù)達(dá)6000次時(shí)，總的缺失值(交叉熵和權(quán)重衰減項(xiàng)的和)趨于穩(wěn)定，此時(shí)模型已經(jīng)獲取到單體白色背景的9種蔬果特征，基本訓(xùn)練完成。

其他不同背景(報(bào)紙、塑料袋、鋁制托盤)的蔬果圖片，訓(xùn)練過(guò)程與上述過(guò)程相同，并且將全部的復(fù)雜背景圖片一起訓(xùn)練，獲得針對(duì)復(fù)雜背景的蔬果識(shí)別模型。

圖4　訓(xùn)練過(guò)程中總?cè)笔е档淖兓闆r

2.2　識(shí)別分類驗(yàn)證

在對(duì)蔬果圖像模型完成訓(xùn)練后，為了驗(yàn)證其識(shí)別可行性，選擇不同的背景對(duì)圖像進(jìn)行識(shí)別，其識(shí)別率如表2所示。

從表2可以看出，不同種類的蔬果，由于顏色、外觀等不同，識(shí)別效果各有差異。如紅棗、香蕉等顏色較背景色更為突出，且形狀較為規(guī)律，自身特有的屬性較為明顯，因此識(shí)別率較高。而荷蘭豆等，形狀較為不規(guī)律，個(gè)體間的差異相對(duì)較大，識(shí)別率也相對(duì)較低。

2.3　結(jié)果討論

從實(shí)驗(yàn)結(jié)果來(lái)看，識(shí)別率普遍依然很高，識(shí)別效果較好，說(shuō)明模型在訓(xùn)練過(guò)程中擬合效果較好，具有良好的泛化能力和魯棒性能。

在對(duì)蔬果圖像分類識(shí)別上，傳統(tǒng)選用的方法多采用對(duì)圖像顏色、紋理、形狀等進(jìn)行提取，再進(jìn)行分類。在操作上對(duì)圖像進(jìn)行灰度化、歸一化等，預(yù)處理過(guò)程相較于利用卷積網(wǎng)絡(luò)進(jìn)行識(shí)別更為繁瑣。

而在識(shí)別效果上，本研究構(gòu)建的識(shí)別模型，在白色底背景下，其圖像識(shí)別率平均可達(dá)97.4%，與沒(méi)有考慮環(huán)境背景的研究方法相比，識(shí)別率更高。同時(shí)，在考慮環(huán)境背景下，采用報(bào)紙、塑料購(gòu)物袋、鋁制托盤等進(jìn)行蔬果圖像采集，相比于其他研究方法，圖片采集量多，識(shí)別率高，環(huán)境干擾因素更為豐富，更符合現(xiàn)實(shí)中的交易環(huán)境。

表2　不同背景下的蔬果識(shí)別率

3　結(jié)束語(yǔ)

傳統(tǒng)識(shí)別技術(shù)應(yīng)用于蔬果分類識(shí)別時(shí)，普遍缺少對(duì)復(fù)雜背景環(huán)境的考慮。本研究識(shí)別模型以LeNet-5模型為基礎(chǔ)，調(diào)整網(wǎng)絡(luò)層和相應(yīng)參數(shù)，并加入Dropout層，使網(wǎng)絡(luò)具有更好的泛化能力，從而進(jìn)一步優(yōu)化模型結(jié)構(gòu)，提升識(shí)別率。然后再通過(guò)大量的蔬果圖片來(lái)訓(xùn)練模型，獲取到蔬果特征值，得到針對(duì)蔬果圖像的卷積識(shí)別模型。整個(gè)訓(xùn)練過(guò)程不需要人為設(shè)定預(yù)設(shè)值，避免過(guò)多的人為干預(yù)。

本文拍攝具有相對(duì)復(fù)雜背景的蔬果圖像，將背景因素引入到研究中，圖像信息量更為豐富，更貼近現(xiàn)實(shí)生活，應(yīng)用的范圍也更廣。只是前期需要拍攝大量的圖片，以及較長(zhǎng)的時(shí)間來(lái)訓(xùn)練模型。但從識(shí)別結(jié)果來(lái)看，實(shí)驗(yàn)中的幾個(gè)常見(jiàn)背景識(shí)別率都較高，可用性很強(qiáng)。相比于其他的分類識(shí)別方法，自動(dòng)化程度高、識(shí)別效果更好，具有創(chuàng)新性和一定的社會(huì)價(jià)值和研究意義。

參考文獻(xiàn)(References):

[1]BOLLE R M,CONNELL J H,HASS N,et al.Distinctive image features from scale-invariant key points[J].Int J Comput Vision,2004.60(2):91-110

[2]ZHANG Yudong,WU Lenan.Classification of fruits using computer vision and multiclass support vector machine[J].Sensors,2012,12(9):12439-12505

[3]羅承成,李書(shū)琴,唐晶磊.基于多示例學(xué)習(xí)的超市農(nóng)產(chǎn)品圖像識(shí)別[J].計(jì)算機(jī)應(yīng)用,2012.32(6):1560-1562

[4]黃曉琳,薛月菊,涂淑琴等.基于壓縮感知理論的RGB-D圖像分類方法[J].計(jì)算機(jī)應(yīng)用與軟件,2014.31(3):195-198

[5]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[J].Comput Sci,2015.2(1):1-127

[6]李衛(wèi).深度學(xué)習(xí)在圖像識(shí)別中的研究及應(yīng)用[D].武漢理工大學(xué),2014.

基于卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的蔬果種類識(shí)別方法＊

0 引言

1 材料與方法

1.1 圖像來(lái)源

1.2 卷積神經(jīng)網(wǎng)絡(luò)概述

2 分析與討論

2.1 蔬果識(shí)別模型

2.2 識(shí)別分類驗(yàn)證

2.3 結(jié)果討論

3 結(jié)束語(yǔ)