薄琪葦,彭 俊,夏 凱,2
(1.浙江農(nóng)林大學(xué)信息工程學(xué)院,浙江 杭州 311300;2.浙江農(nóng)林大學(xué)浙江省林業(yè)智能監(jiān)測(cè)與信息技術(shù)研究重點(diǎn)實(shí)驗(yàn)室)
最早的蔬果智能識(shí)別系統(tǒng)是由IBM公司的BOLLE等[1]于1995年為超市設(shè)計(jì)的,系統(tǒng)只能提取簡(jiǎn)單的圖像顏色、形狀、紋理等特征參數(shù),利用簡(jiǎn)單的最小緊鄰法對(duì)多種蔬果進(jìn)行分類。ZHANG等[2]運(yùn)用Unser、RGB顏色直方圖等作為識(shí)別特征,再采用多類支持向量機(jī)(SVM)對(duì)蔬果進(jìn)行識(shí)別,取得了較好的識(shí)別效果。國(guó)內(nèi)對(duì)圖像識(shí)別技術(shù)應(yīng)用于蔬果識(shí)別的研究起步較晚且較少。羅承成等[3]針對(duì)超市環(huán)境中的果蔬農(nóng)產(chǎn)品進(jìn)行分類識(shí)別,利用改進(jìn)的鄰域特征提取算法,但特征提取時(shí)間較長(zhǎng),適用的范圍相對(duì)有限。黃曉琳等人[4]引入壓縮感知機(jī)方法,對(duì)提取的特征信息進(jìn)行融合后實(shí)現(xiàn)分類。但在研究對(duì)象選擇上,多數(shù)研究?jī)H是對(duì)單一蔬果圖像進(jìn)行識(shí)別。綜合國(guó)內(nèi)外研究現(xiàn)狀可以看出,當(dāng)前研究較多集中于理論上的算法優(yōu)化和論證,而實(shí)際應(yīng)用進(jìn)展不大。其他的分類識(shí)別技術(shù),一般需要較多的人工預(yù)處理、圖像分割等操作,數(shù)據(jù)運(yùn)算量較大。鑒于此,本研究嘗試將深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用于蔬果農(nóng)產(chǎn)品的自動(dòng)分類中,研究側(cè)重于實(shí)際的應(yīng)用場(chǎng)景,以期為基于圖像識(shí)別技術(shù)的蔬果智能化研究提供一定的參考。
所用的蔬菜水果均由農(nóng)貿(mào)市場(chǎng)隨機(jī)購(gòu)買,采集的種類主要有:桃子Amygdalus persica,紅棗Ziziphus jujuba,蘋果Malus pumila,番茄Lycopersicon esculentum,香蕉Musa nana,西蘭花Brassica oleracea var.italic,荷蘭豆Pisum sativum,土豆Solanum tuberosum,秋葵Abelmoschus esculentus等9種蔬菜水果。在日常生活中,環(huán)境復(fù)雜,不可控因素很多。為了盡量模擬蔬果在日常生活中的情形,分別將不同數(shù)量的蔬果靜置于不同的背景中,例如報(bào)紙、塑料袋、電子秤托盤等,然后通過(guò)數(shù)碼相機(jī)進(jìn)行拍攝,以此來(lái)獲取實(shí)驗(yàn)圖像。以番茄為例,在自然光照下,不同背景所拍攝到的示例如圖1所示。

圖1 自然光照下不同背景拍攝的番茄
從拍攝的9種不同種類的蔬果圖像中,隨機(jī)選取一部分作為訓(xùn)練集,剩余另一部分不重復(fù)的作為驗(yàn)證集,具體拍攝數(shù)量,統(tǒng)計(jì)結(jié)果見(jiàn)表1。

表1 9種蔬果訓(xùn)練集和驗(yàn)證集圖像數(shù)量
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neuron networks,CNN)是以多層感知機(jī)作為基礎(chǔ),受生物視覺(jué)系統(tǒng)“局部感知”影響而設(shè)計(jì)完成的一種深層神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層和降采樣層構(gòu)成,而在最頂層則是由普通神經(jīng)網(wǎng)絡(luò)的全連接層,其結(jié)構(gòu)見(jiàn)圖2。

圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型
卷積層用來(lái)實(shí)現(xiàn)對(duì)輸入數(shù)據(jù)的卷積操作,其由多個(gè)卷積核構(gòu)成,用于構(gòu)建不同的特征圖像。通過(guò)不同的卷積核函數(shù),將前一層數(shù)據(jù)的所有特征在后一層進(jìn)行表述。
降采樣層根據(jù)圖像局部相關(guān)性原理,通過(guò)對(duì)卷積層進(jìn)行子抽樣,在保證特征不變的情況下,減少圖像分辨率,從而減少計(jì)算量。一般的,其置于2個(gè)卷積層之間,每一卷積層對(duì)應(yīng)于1個(gè)降采樣層。當(dāng)前典型的降采樣方法主要有均值、最大值和隨機(jī)降采樣3種[5-6]。
相比于LeNet-5模型,本實(shí)驗(yàn)改進(jìn)后的蔬果識(shí)別模型增加了1個(gè)S6降采樣層,進(jìn)一步降低圖像大小,使得擁有3對(duì)成對(duì)的卷積降采樣層。而在其后新增的Dropout層,則是為了避免過(guò)擬合的問(wèn)題,加強(qiáng)模型的特征表達(dá)能力,其結(jié)構(gòu)示意圖如圖3所示。
構(gòu)建好識(shí)別模型之后,就需要通過(guò)蔬果圖像來(lái)訓(xùn)練模型,以此來(lái)獲取特征值。
從拍攝的9種蔬果圖片中,每個(gè)種類隨機(jī)挑選一部分圖片作為訓(xùn)練集,用來(lái)訓(xùn)練模型。將壓縮后的訓(xùn)練集圖片轉(zhuǎn)換成二進(jìn)制文件,輸入到模型中,訓(xùn)練模型,獲得訓(xùn)練結(jié)果。

圖3 改進(jìn)后的蔬果識(shí)別模型示意圖
在自然光下,以白色為背景的單體蔬果圖片為例,設(shè)定訓(xùn)練迭代次數(shù)10000次,對(duì)模型訓(xùn)練后,可用TensorFlow自帶的可視化工具TensorBoard來(lái)顯示訓(xùn)練過(guò)程。如圖4所示:在迭代次數(shù)達(dá)6000次時(shí),總的缺失值(交叉熵和權(quán)重衰減項(xiàng)的和)趨于穩(wěn)定,此時(shí)模型已經(jīng)獲取到單體白色背景的9種蔬果特征,基本訓(xùn)練完成。
其他不同背景(報(bào)紙、塑料袋、鋁制托盤)的蔬果圖片,訓(xùn)練過(guò)程與上述過(guò)程相同,并且將全部的復(fù)雜背景圖片一起訓(xùn)練,獲得針對(duì)復(fù)雜背景的蔬果識(shí)別模型。

圖4 訓(xùn)練過(guò)程中總?cè)笔е档淖兓闆r
在對(duì)蔬果圖像模型完成訓(xùn)練后,為了驗(yàn)證其識(shí)別可行性,選擇不同的背景對(duì)圖像進(jìn)行識(shí)別,其識(shí)別率如表2所示。
從表2可以看出,不同種類的蔬果,由于顏色、外觀等不同,識(shí)別效果各有差異。如紅棗、香蕉等顏色較背景色更為突出,且形狀較為規(guī)律,自身特有的屬性較為明顯,因此識(shí)別率較高。而荷蘭豆等,形狀較為不規(guī)律,個(gè)體間的差異相對(duì)較大,識(shí)別率也相對(duì)較低。
從實(shí)驗(yàn)結(jié)果來(lái)看,識(shí)別率普遍依然很高,識(shí)別效果較好,說(shuō)明模型在訓(xùn)練過(guò)程中擬合效果較好,具有良好的泛化能力和魯棒性能。
在對(duì)蔬果圖像分類識(shí)別上,傳統(tǒng)選用的方法多采用對(duì)圖像顏色、紋理、形狀等進(jìn)行提取,再進(jìn)行分類。在操作上對(duì)圖像進(jìn)行灰度化、歸一化等,預(yù)處理過(guò)程相較于利用卷積網(wǎng)絡(luò)進(jìn)行識(shí)別更為繁瑣。
而在識(shí)別效果上,本研究構(gòu)建的識(shí)別模型,在白色底背景下,其圖像識(shí)別率平均可達(dá)97.4%,與沒(méi)有考慮環(huán)境背景的研究方法相比,識(shí)別率更高。同時(shí),在考慮環(huán)境背景下,采用報(bào)紙、塑料購(gòu)物袋、鋁制托盤等進(jìn)行蔬果圖像采集,相比于其他研究方法,圖片采集量多,識(shí)別率高,環(huán)境干擾因素更為豐富,更符合現(xiàn)實(shí)中的交易環(huán)境。

表2 不同背景下的蔬果識(shí)別率
傳統(tǒng)識(shí)別技術(shù)應(yīng)用于蔬果分類識(shí)別時(shí),普遍缺少對(duì)復(fù)雜背景環(huán)境的考慮。本研究識(shí)別模型以LeNet-5模型為基礎(chǔ),調(diào)整網(wǎng)絡(luò)層和相應(yīng)參數(shù),并加入Dropout層,使網(wǎng)絡(luò)具有更好的泛化能力,從而進(jìn)一步優(yōu)化模型結(jié)構(gòu),提升識(shí)別率。然后再通過(guò)大量的蔬果圖片來(lái)訓(xùn)練模型,獲取到蔬果特征值,得到針對(duì)蔬果圖像的卷積識(shí)別模型。整個(gè)訓(xùn)練過(guò)程不需要人為設(shè)定預(yù)設(shè)值,避免過(guò)多的人為干預(yù)。
本文拍攝具有相對(duì)復(fù)雜背景的蔬果圖像,將背景因素引入到研究中,圖像信息量更為豐富,更貼近現(xiàn)實(shí)生活,應(yīng)用的范圍也更廣。只是前期需要拍攝大量的圖片,以及較長(zhǎng)的時(shí)間來(lái)訓(xùn)練模型。但從識(shí)別結(jié)果來(lái)看,實(shí)驗(yàn)中的幾個(gè)常見(jiàn)背景識(shí)別率都較高,可用性很強(qiáng)。相比于其他的分類識(shí)別方法,自動(dòng)化程度高、識(shí)別效果更好,具有創(chuàng)新性和一定的社會(huì)價(jià)值和研究意義。
參考文獻(xiàn)(References):
[1]BOLLE R M,CONNELL J H,HASS N,et al.Distinctive image features from scale-invariant key points[J].Int J Comput Vision,2004.60(2):91-110
[2]ZHANG Yudong,WU Lenan.Classification of fruits using computer vision and multiclass support vector machine[J].Sensors,2012,12(9):12439-12505
[3]羅承成,李書(shū)琴,唐晶磊.基于多示例學(xué)習(xí)的超市農(nóng)產(chǎn)品圖像識(shí)別[J].計(jì)算機(jī)應(yīng)用,2012.32(6):1560-1562
[4]黃曉琳,薛月菊,涂淑琴等.基于壓縮感知理論的RGB-D圖像分類方法[J].計(jì)算機(jī)應(yīng)用與軟件,2014.31(3):195-198
[5]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual learning for image recognition[J].Comput Sci,2015.2(1):1-127
[6]李衛(wèi).深度學(xué)習(xí)在圖像識(shí)別中的研究及應(yīng)用[D].武漢理工大學(xué),2014.