





摘要:本研究基于計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)技術(shù),提出了一種高效、準(zhǔn)確的花卉圖像識(shí)別與分類(lèi)方法,采用基于殘差網(wǎng)絡(luò)(ResNet)的ResNet50卷積神經(jīng)網(wǎng)絡(luò)模型。相較于傳統(tǒng)的人工識(shí)別方式,該方法顯著提高了識(shí)別速度與準(zhǔn)確性,同時(shí)降低了成本。實(shí)驗(yàn)驗(yàn)證表明,ResNet50模型在花卉識(shí)別和分類(lèi)任務(wù)中表現(xiàn)出卓越性能:驗(yàn)證集準(zhǔn)確率達(dá)82.771%,Kappa系數(shù)為0.825,表明該方法具有出色的一致性和相對(duì)于隨機(jī)性的顯著改進(jìn)。此外,本文對(duì)ResNet模型的結(jié)構(gòu)和性能進(jìn)行了深入分析和討論,為未來(lái)在花卉分類(lèi)領(lǐng)域的研究和應(yīng)用提供了有益的指導(dǎo)。本研究對(duì)推動(dòng)植物學(xué)領(lǐng)域的數(shù)字化、智能化發(fā)展具有重要意義,為相關(guān)研究提供了有益參考。
關(guān)鍵詞:深度學(xué)習(xí);ResNet;花卉識(shí)別;花卉分類(lèi)
中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2024)32-0023-03 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :
0 相關(guān)研究
隨著計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)技術(shù)的快速發(fā)展及其廣泛應(yīng)用[1-2],將這些技術(shù)引入植物學(xué)研究領(lǐng)域,尤其是花卉圖像分類(lèi)任務(wù)中,對(duì)推動(dòng)植物學(xué)研究的智能化和數(shù)字化發(fā)展具有重要意義。本文將重點(diǎn)關(guān)注和探討計(jì)算機(jī)視覺(jué)技術(shù),特別是基于深度學(xué)習(xí)的方法在花卉圖像分類(lèi)中的應(yīng)用研究。
植物多樣性是生態(tài)系統(tǒng)中的關(guān)鍵組成部分,對(duì)于生態(tài)平衡和生物多樣性的維護(hù)至關(guān)重要。而在這個(gè)多樣的植物世界中,準(zhǔn)確識(shí)別和分類(lèi)花卉是植物學(xué)研究的基礎(chǔ)。傳統(tǒng)的花卉分類(lèi)方法通常依賴于人工觀察和專業(yè)知識(shí),這不僅費(fèi)時(shí)費(fèi)力,而且容易受到主觀因素的影響[3-4]。因此,迫切需要一種高效、準(zhǔn)確且自動(dòng)化的方法來(lái)進(jìn)行花卉分類(lèi),以推動(dòng)植物學(xué)研究的發(fā)展[5]。
計(jì)算機(jī)技術(shù)在花卉分類(lèi)上的應(yīng)用為這一需求提供了新的解決方案。計(jì)算機(jī)視覺(jué)技術(shù)通過(guò)模擬人類(lèi)視覺(jué)系統(tǒng)的工作方式,使計(jì)算機(jī)能夠自動(dòng)從圖像或視頻中提取信息。在花卉分類(lèi)中,這意味著計(jì)算機(jī)可以學(xué)習(xí)和識(shí)別花卉的特征,實(shí)現(xiàn)對(duì)不同植物的自動(dòng)分類(lèi)。這種方法不僅能夠加速花卉分類(lèi)的過(guò)程,還能提高分類(lèi)的準(zhǔn)確性,減少人為誤差。
本文將深入分析和討論基于計(jì)算機(jī)視覺(jué)的方法在花卉圖像分類(lèi)任務(wù)中的應(yīng)用效果,探究其技術(shù)優(yōu)勢(shì)和局限,并對(duì)未來(lái)可能的改進(jìn)和發(fā)展方向進(jìn)行展望。通過(guò)本研究,有望為植物學(xué)領(lǐng)域提供一種更為高效和精確的花卉分類(lèi)方法,推動(dòng)植物學(xué)研究邁向數(shù)字化、智能化的新階段。
1 材料和方法
1.1 數(shù)據(jù)收集
本文使用了Oxford 開(kāi)源的花卉數(shù)據(jù)集,該數(shù)據(jù)集包含102個(gè)來(lái)自世界各地的常見(jiàn)花卉類(lèi)別,涵蓋植物學(xué)中的多樣性,包括小型花朵、中型花卉和大型花卉等不同類(lèi)型。每個(gè)類(lèi)別的圖像數(shù)量在40到258張不等,均為在不同視角和光線環(huán)境下拍攝。這種設(shè)計(jì)使得數(shù)據(jù)集更具挑戰(zhàn)性,更能模擬真實(shí)世界中花卉圖像的多樣性。圖1展示了一部分節(jié)選的數(shù)據(jù)。
1.2 數(shù)據(jù)預(yù)處理
為了提升神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練過(guò)程中的準(zhǔn)確性、魯棒性和泛化能力,以應(yīng)對(duì)各種復(fù)雜情況,對(duì)花卉數(shù)據(jù)集進(jìn)行了必要的數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理主要采用了數(shù)據(jù)增強(qiáng)技術(shù),包括以下步驟:
1) 隨機(jī)裁剪。將原始圖像按照其大小的90%進(jìn)行裁剪,以生成輸入。
2) 隨機(jī)旋轉(zhuǎn)。分別將原始圖像旋轉(zhuǎn)45°、90°和135°。
3) 高斯模糊。對(duì)部分圖像進(jìn)行高斯模糊處理,生成較模糊的圖像作為輸入。
通過(guò)這些數(shù)據(jù)增強(qiáng)操作,能夠有效提升模型在不同情境下的適應(yīng)性,并增強(qiáng)其在花卉分類(lèi)任務(wù)上的性能。
1.3 ResNet 神經(jīng)網(wǎng)絡(luò)
ResNet(Residual Network) 由Kaiming He 等人于2015年提出,是一種深度神經(jīng)網(wǎng)絡(luò)架構(gòu)[6]。其設(shè)計(jì)獨(dú)特之處在于引入了殘差學(xué)習(xí)的思想,通過(guò)使用殘差塊(Residual Blocks) 使信息在網(wǎng)絡(luò)中更直接地傳遞,有效解決了深度神經(jīng)網(wǎng)絡(luò)中的梯度消失和梯度爆炸問(wèn)題。這使得ResNet能夠輕松訓(xùn)練數(shù)百層的深度網(wǎng)絡(luò),為圖像分類(lèi)等任務(wù)提供了強(qiáng)大的表征能力[7]。
在本研究中,選擇ResNet50作為基礎(chǔ)模型,原因在于其卓越的性能和對(duì)深層網(wǎng)絡(luò)的有效訓(xùn)練。ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)包含多個(gè)關(guān)鍵組件:
1) 輸入層。接受大小為224×224像素的RGB圖像,并通過(guò)一系列卷積、池化和規(guī)范化操作逐漸提取特征。
2) 第一卷積層。由7×7的卷積核組成,步幅為2,用于降低圖像分辨率,隨后的3×3最大池化層進(jìn)一步提取特征。
3) 殘差塊。每個(gè)殘差塊包含兩個(gè)卷積層和一個(gè)跳躍連接(殘差連接),幫助緩解梯度消失問(wèn)題,使網(wǎng)絡(luò)更易于訓(xùn)練。整個(gè)網(wǎng)絡(luò)被劃分為四個(gè)階段,每個(gè)階段包含一系列殘差塊,這有助于從低級(jí)到高級(jí)學(xué)習(xí)不同層次的特征。
3) 全局平均池化層。通過(guò)計(jì)算每個(gè)特征圖的平均值來(lái)降低空間維度,減少參數(shù)數(shù)量,從而幫助防止過(guò)擬合。
4) 全連接層。用于輸出對(duì)不同花卉類(lèi)別的概率分布。
ResNet通過(guò)引入殘差連接,使網(wǎng)絡(luò)可以更深,同時(shí)減輕了梯度傳播的問(wèn)題,這對(duì)于花卉分類(lèi)任務(wù)中處理復(fù)雜特征是至關(guān)重要的。
1.4 遷移學(xué)習(xí)
遷移學(xué)習(xí)是一種機(jī)器學(xué)習(xí)方法,其核心思想是通過(guò)將已學(xué)到的知識(shí)遷移到新任務(wù)上,從而提高模型在新任務(wù)上的性能[8]。在計(jì)算機(jī)視覺(jué)領(lǐng)域,遷移學(xué)習(xí)通常使用在大規(guī)模圖像數(shù)據(jù)上預(yù)訓(xùn)練的模型。此方法的優(yōu)勢(shì)在于預(yù)訓(xùn)練模型已經(jīng)學(xué)會(huì)了通用的圖像特征,可以在新任務(wù)中提供更好的初始化參數(shù),進(jìn)而縮短模型的訓(xùn)練時(shí)間。
1.5 ResNet 神經(jīng)網(wǎng)絡(luò)在花卉分類(lèi)任務(wù)中的應(yīng)用
本文通過(guò)使用在大規(guī)模圖像數(shù)據(jù)集(如Ima?geNet) 上預(yù)訓(xùn)練的ResNet模型,充分利用其已學(xué)到的豐富圖像特征,包括邊緣、紋理和高級(jí)語(yǔ)義特征。這一選擇的合理性在于,預(yù)訓(xùn)練的ResNet已經(jīng)在各種圖像任務(wù)中表現(xiàn)出卓越性能,通過(guò)遷移這些學(xué)到的特征,可以更為有效地訓(xùn)練模型,從而在花卉分類(lèi)任務(wù)中取得更好的性能表現(xiàn)。
在花卉分類(lèi)任務(wù)中,本文采用了遷移學(xué)習(xí)的方法,包括模型微調(diào)、特征提取和遷移多層特征。通過(guò)模型微調(diào),本研究調(diào)整了預(yù)訓(xùn)練模型的權(quán)重,使之適應(yīng)花卉分類(lèi)任務(wù)的特定上下文,同時(shí)保留通用特征。通過(guò)使用預(yù)訓(xùn)練模型作為特征提取器,本研究?jī)鼋Y(jié)了大部分權(quán)重,提取模型中間層的高級(jí)特征以提高分類(lèi)效率。利用ResNet的深層結(jié)構(gòu),本研究選擇了不同層次的特征進(jìn)行遷移,以更好地滿足花卉分類(lèi)任務(wù)的需求。
2 實(shí)驗(yàn)
2.1 實(shí)驗(yàn)環(huán)境
硬件實(shí)驗(yàn)環(huán)境的配置信息如下:CPU為Intel Corei9-12900K;內(nèi)存為32 GB;顯卡為RTX 4090,顯存24GB。軟件實(shí)驗(yàn)環(huán)境的配置信息為:操作系統(tǒng)為Ubuntu 22.04;Python版本為3.9;使用Pycharm 2022.3 進(jìn)行開(kāi)發(fā);Pytorch版本為2.1.0,CUDA版本為11.8。
2.2 評(píng)價(jià)指標(biāo)
本研究使用驗(yàn)證集的準(zhǔn)確率和Kappa 系數(shù)作為模型評(píng)估的指標(biāo),以期達(dá)到更好的效果。
準(zhǔn)確率(Accuracy) 是分類(lèi)正確的樣本占總樣本個(gè)數(shù)的比例,其計(jì)算公式如方程(1) 所示。
Accuracy = TP + TN/TP + FP + FN + TN (1)
Kappa 系數(shù)是一種用于評(píng)估分類(lèi)器在分類(lèi)任務(wù)中性能的統(tǒng)計(jì)指標(biāo)。它通過(guò)考慮隨機(jī)一致性因素,提供了對(duì)準(zhǔn)確度的更全面評(píng)估,其計(jì)算公式如方程(2) 所示。
Kappa = Po - Pe /1 - Pe (2)
Kappa 系數(shù)基于混淆矩陣,通過(guò)比較觀察到的準(zhǔn)確率(3) 和由隨機(jī)猜測(cè)導(dǎo)致的準(zhǔn)確率(4) ,提供了一個(gè)在類(lèi)別分布不均勻時(shí)進(jìn)行修正的方法。Kappa 系數(shù)的取值范圍在?1到1之間,其中正值表示分類(lèi)器的性能優(yōu)于隨機(jī)猜測(cè),負(fù)值表示性能不如隨機(jī)猜測(cè),而0表示性能與隨機(jī)猜測(cè)相當(dāng)。
Po = TP + TN/TP + TN + FP + FN (3)
Pe = (TP + FP) ? (TP + FN ) + (TN + FP) ? (TN + FN )/(TP + TN + FP + FN )2 (4)
2.3 模型訓(xùn)練結(jié)果與分析
實(shí)驗(yàn)結(jié)果表明,將花卉數(shù)據(jù)集應(yīng)用于ResNet50網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練與驗(yàn)證時(shí),經(jīng)過(guò)250輪的訓(xùn)練,模型表現(xiàn)出令人矚目的性能。圖2和圖3分別展示了訓(xùn)練集和驗(yàn)證集的準(zhǔn)確率及損失(loss) 在訓(xùn)練過(guò)程中的變化趨勢(shì)。
通過(guò)分析準(zhǔn)確率曲線和損失曲線的變化,可以觀察到ResNet50網(wǎng)絡(luò)模型在訓(xùn)練初期實(shí)現(xiàn)了快速學(xué)習(xí)和優(yōu)化。盡管在訓(xùn)練后期略有波動(dòng),但整體趨于平穩(wěn),這表明模型對(duì)訓(xùn)練數(shù)據(jù)具有出色的學(xué)習(xí)能力。
在ResNet網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程中,本研究采用了多種評(píng)價(jià)指標(biāo),如表1所示。其中,Kappa系數(shù)作為關(guān)鍵的性能評(píng)估指標(biāo),全面評(píng)估了模型在準(zhǔn)確性方面相對(duì)于隨機(jī)分類(lèi)的表現(xiàn)。實(shí)驗(yàn)結(jié)果顯示,當(dāng)訓(xùn)練到第200個(gè)Epoch 時(shí),驗(yàn)證集的準(zhǔn)確率達(dá)到了最高,此時(shí)損失函數(shù)的值為1.025。ResNet50網(wǎng)絡(luò)模型取得了顯著的0.825的Kappa 系數(shù),突顯其在花卉分類(lèi)任務(wù)中的卓越表現(xiàn)。較高的Kappa系數(shù)反映了模型在對(duì)102種不同花卉類(lèi)別的準(zhǔn)確分類(lèi)上,已超越了隨機(jī)猜測(cè)的水平。
此外,高Kappa 系數(shù)進(jìn)一步表明相對(duì)于隨機(jī)性,模型有顯著的改進(jìn)。即便在高準(zhǔn)確率下,模型仍然遠(yuǎn)遠(yuǎn)超越了僅比隨機(jī)分類(lèi)稍好的水平。在穩(wěn)定性方面,Kappa 系數(shù)計(jì)算考慮了分類(lèi)錯(cuò)誤和正確的概率,表現(xiàn)出模型對(duì)不同花卉類(lèi)別的相對(duì)穩(wěn)定的分類(lèi)能力,不容易受到隨機(jī)性的干擾。
總體而言,實(shí)驗(yàn)所取得的高Kappa 系數(shù)為ResNet50網(wǎng)絡(luò)模型在花卉分類(lèi)任務(wù)中的可靠性和卓越性能提供了有力支持。驗(yàn)證集上82.771%的準(zhǔn)確率,以及模型相對(duì)較小的規(guī)模(參數(shù)數(shù)量為23.663 M,模型大小為9.296 M) ,進(jìn)一步強(qiáng)調(diào)了其在實(shí)際應(yīng)用中可能具備的廣泛適用性。這一系列實(shí)驗(yàn)結(jié)果為本研究對(duì)模型分類(lèi)結(jié)果的信心提供了堅(jiān)實(shí)的基礎(chǔ)。
3 討論與總結(jié)
當(dāng)前,花卉識(shí)別主要依賴于人工方法,但人工識(shí)別存在識(shí)別速度慢和需要專業(yè)知識(shí)等問(wèn)題。為了解決這些問(wèn)題,本研究應(yīng)用計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)技術(shù),提出了一種基于ResNet50神經(jīng)網(wǎng)絡(luò)的新方法,旨在識(shí)別和分類(lèi)102 種常見(jiàn)花卉。在實(shí)驗(yàn)過(guò)程中,重點(diǎn)分析了ResNet50模型在花卉識(shí)別與分類(lèi)中的表現(xiàn),包括其準(zhǔn)確率、模型大小、參數(shù)量以及Kappa 系數(shù)。實(shí)驗(yàn)結(jié)果表明,ResNet50模型在花卉識(shí)別方面具有較高的準(zhǔn)確率,驗(yàn)證集的準(zhǔn)確率達(dá)到82.771%,Kappa系數(shù)為0.825。
本研究提出的花卉識(shí)別方法通過(guò)實(shí)驗(yàn)驗(yàn)證了其可行性。未來(lái)的研究將致力于優(yōu)化ResNet 模型的結(jié)構(gòu),以適應(yīng)更多種類(lèi)的花卉識(shí)別任務(wù),并將輕量化的ResNet 模型移植到移動(dòng)設(shè)備上。這些努力將進(jìn)一步提升花卉識(shí)別技術(shù)的性能和實(shí)用性。
參考文獻(xiàn):
[1] 余杭. 基于激光雷達(dá)的3D目標(biāo)檢測(cè)研究綜述[J]. 汽車(chē)文摘,2024(2): 18-27.
[2] 李濤, 等. 基于深度學(xué)習(xí)的金屬表面缺陷檢測(cè)[J]. 高師理科學(xué)刊, 2024, 44(1): 36-42.
[3] 張永偉. 野生草本花卉在園林中的應(yīng)用:以塞罕壩機(jī)械林場(chǎng)為例[J]. 現(xiàn)代園藝, 2022, 45(10): 140-142.
[4] 牛素華. 露地花卉的分類(lèi)及生長(zhǎng)習(xí)性[J]. 現(xiàn)代農(nóng)村科技,2022(3): 39-40.
[5] 黎施欣, 范小平. 圖像處理與識(shí)別在果蔬成熟度監(jiān)測(cè)中的研究及應(yīng)用[J]. 包裝工程, 2024, 45(3): 153-164.
[6] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learningfor image recognition[C]//Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition. Las Vegas:IEEE, 2016: 770-778.
[7] 劉峻渟,周云成,吳瓊,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的番茄葉部病害識(shí)別方法[J].河南農(nóng)業(yè)大學(xué)學(xué)報(bào),58(2):287-297.
[8] 周曠, 姜名. 基于遷移學(xué)習(xí)的小樣本目標(biāo)識(shí)別研究進(jìn)展與展望[J]. 航空科學(xué)技術(shù), 2023, 34(2): 1-9.
【通聯(lián)編輯:唐一東】