










摘 要:傳統垃圾分類技術效率與準確率較低,為了實現智能化垃圾分類管理,本文將深度學習模型用于垃圾分類。首先,構建包含分類豐富的數字圖像垃圾數據集;然后,訓練得到基于VGG-19卷積神經網絡模型;最后,將遷移學習策略集成到卷積網絡模型中,實現垃圾數據集的自動識別分類。遷移學習策略可以加速模型訓練并提高分類精度。在相同實驗條件下,選取AlexNet和VGG-19模型進行分類實驗。實驗結果表明,在VGG-19模型中使用微調參數可達到最佳分類結果,分類準確率達到93.20%。相比AlexNet模型,VGG-19模型具有更廣的視野與更強的特征表達能力。基于深度學習的方法可以自動分類垃圾類別,在很大程度上替代人工分類,提高垃圾分類效率。
關鍵詞:深度學習;卷積神經網絡;遷移學習;垃圾分類
中圖分類號:TP183;X799.3" 文獻標識碼:A" 文章編號:1673-260X(2024)03-0015-06
隨著人口的不斷增加和社會經濟的發展,生活垃圾的產生量也呈指數級增長。如何在環境容量有限的條件下,對日益增長的生活垃圾實行科學有效的分類與回收,減少其對環境的負面影響,成為環境保護工作面臨的嚴峻挑戰。目前,我國城市生活垃圾處理方式以焚燒、填埋、堆肥三種方式為主。在垃圾處理過程中仍存在諸多問題,如:垃圾分類不合理、不準確;垃圾回收不合理、不徹底;垃圾處理管理體系不完善,缺乏完善的處罰機制;市民對垃圾處理重視度不高、自覺性和參與度較低等[1]。城市生活垃圾中含有大量可循環利用的成分,而垃圾分類恰好能給垃圾的有效利用創造條件。垃圾分類是垃圾進行科學處理的前提,它不僅是一個實際問題,更是一個科學問題。
生活垃圾具有種類繁多且形態各異的特點,這給其分類識別帶來較大難度。有學者們提出利用計算機視覺與機器學習技術,自動識別生活垃圾的種類。這類方法以圖像特征為基礎,借助機器學習算法識別生活垃圾,具有自動化和智能化的優點。它不僅能實現生活垃圾的高效自動分類,也可有效減輕人工分類的工作強度,為生活垃圾分類管理提供技術支撐。但受圖像特征提取與機器學習模型的限制,這類方法的分類精度還需要進一步提高[2]。
近年來,隨著計算機視覺和深度學習技術的發展,基于卷積神經網絡的垃圾圖像分類方法成為研究熱點。卷積神經網絡可自動學習圖像的高維特征,實現對生活垃圾種類的有效識別。與傳統方法相比,基于深度學習的方法在圖像分類精度上有較大提高,為生活垃圾自動分類管理提供了更為可靠的技術手段。例如,Zhang等[3]提出了一種基于深度學習的可回收垃圾圖像分類模型,該垃圾分類模型在殘差網絡模型中加入了自監測模塊,提高了特征圖的表示能力。Li等[4]根據垃圾圖像的不同特征,將待識別圖像分為不同的類別,提出了基于深度學習的垃圾圖像識別算法,該算法收斂性好,召回率和準確率較高。Kang等[5]提出了基于ResNet-34模型的垃圾分類算法,將模型的網絡結構在輸入圖像的多特征融合、殘差單元的特征重用、激活的設計等三個方面進一步優化,并利用構建的垃圾數據驗證了所提分類算法的優越性。由于生活垃圾圖像數據集較小且類別繁多,要訓練一個精度較高的分類模型難度較大。而通過采用在大規模自然圖像數據集上預訓練的網絡模型,利用遷移學習技術微調參數以適應生活垃圾圖像分類,可以在較短時間內取得較高的分類精度,大大減少實際應用中的時間成本與計算資源消耗。Zhang等人[6]提出了一種基于遷移學習的DenseNet169垃圾圖像分類模型,該模型的分類準確率可達82%以上。Liu等人[7]將遷移學習與三種模型融合構建垃圾分類神經網絡模型,該模型具有良好的收斂性、較高的召回率和準確率,且識別時間較短。陳筱[8]等人將基于遷移學習和卷積神經網絡的分類方法應用于醫學領域,用于輔助醫生診斷視網膜病變,取得了很好的診療效果。趙傳等人[9]利用遷移學習實現機載激光雷達點云的分類,提高了現有點云分類方法的精度和效率。
綜上所述,深度學習的優勢在于處理大量數據,通過算法訓練與驗證識別模式,使機器具備較強的學習與理解能力。本文基于iPhone圖像和使用深度卷積神經網絡,開發一種新穎、快速且可靠的垃圾分類識別方法。應用iPhone 11 Pro代替傳統設備獲取垃圾物品圖像,構建了一個包含近萬張圖片的生活垃圾圖像數據集,并將數據集分為可回收垃圾、廚余垃圾、有害垃圾和其他垃圾四大類。通過這個數據集,基于經典的預訓練CNN圖像分類模型AlexNet和VGG-19,結合監督遷移學習的思想,實現對生活垃圾的準確識別和分類。
1 深度學習模型概述
卷積神經網絡(Convolutional Neural Network,CNN)是目前計算機視覺研究中最廣泛使用的模型架構之一,也是深度學習網絡結構的典型代表。如圖1所示,卷積神經網絡由一個或多個卷積層組成,主要用于圖像的分類、目標檢測與語義分割等任務。一個典型的卷積神經網絡通常包含卷積層(Convolutional Layer)、池化層(Pooling Layer)、ReLU激活層和全連接層(Fully Connected Layer)[10]。卷積層可以自動學習圖像的空間特征,并將特征圖傳遞到下一層。輸入的彩色圖像由紅、綠、藍三個通道組成,每個通道的取值范圍為0到255,圖像通過三個通道5×5矩陣存儲在計算機中,從0到1范圍的特征值表示包含圖像特征的圖像位置的可能性。將三個通道5×5矩陣與卷積核進行交叉相關運算,將三個通道的對應值重疊就可以獲得表示原始圖像特征的特征圖,如圖1所示。在神經網絡中卷積核代表相應的權重,這些權重可以通過點積與圖像強度相結合來計算相應的濾波值。與傳統的特征提取方法相比,卷積神經網絡可以更有效地增強圖像特征的直接學習,并且由于其無需監督的自動特征檢測能力而備受青睞。
1.1 AlexNet
AlexNet是一種包含8層的深度卷積神經網絡,由3個全連接層和5個卷積層組成。AlexNet模型在三個方面展現出其獨特優勢。一是AlexNet采用了修正線性單元(Rectified Linear Units, ReLU)作為激活函數。與傳統的神經網絡使用Tanh激活函數相比,ReLU非線性特性使模型的訓練時間比Tanh的快六倍。二是AlexNet使用多GPU(Graphics Processing Unit,GPU)訓練。在模型進行訓練時可以將一半的神經元放在一個GPU中,其余的放在另一個GPU中,從而對所有神經元進行并行訓練,大大縮減了訓練時間。三是AlexNet的重疊池特性可以將錯誤減少0.5%,且幾乎不會過擬合[11]。AlexNet卷積神經網絡架構如圖2所示。
1.2 Visual Geometry Group 19(VGG-19)
VGG-19是指包含19層的卷積神經網絡。它是一種非常簡單的CNN架構,優于大多數現有的復雜架構。VGG-19模型的特殊之處是使用尺寸為3乘3的過濾器,兩個3乘3尺寸的過濾器覆蓋區域與5乘5的覆蓋區域相同。小尺寸的過濾器可以有效減少參數個數,使訓練和測試變得更加有效。與傳統卷積神經網絡相比,VGG-19有更優越的網格深度,可作為預處理模型使用。VGG-19應用非線性激活層和卷積層的交替結構,能夠修改線性單元(ReLU),通過最大池化進行下采樣并有效地提取圖像特征[12]。下采樣可防止圖像失真,減少參數個數,并能保留圖像的主要特征。圖3所示為VGG-19卷積神經網絡架構。
1.3 遷移學習
深度卷積神經網絡模型通常包含大量參數,并需要大規模訓練集與較長時間的訓練過程來調整這些參數,這會消耗大量計算資源。為了加快模型訓練速度和提高計算效率,遷移學習作為一種新的機器學習范式被廣泛使用。遷移學習的思想是利用在某個任務上預訓練的模型,將其用于另一個相關任務的訓練,如圖4所示。利用大數據集對源模型進行預訓練,在預訓練模型中引入遷移學習,遷移學習可以保留源模型的權重和偏差。然后利用訓練好的參數微調目標數據集(在本文中為垃圾圖像)中樣本的參數,最后使用目標數據集對源模型中的一層或多層進行重新訓練,以解決特定的分類問題。與從零開始訓練一個深度神經網絡相比,遷移學習可以顯著提高分類精度與加快模型收斂速度。
2 實驗
2.1 垃圾圖像數據集的建立
實驗所用的垃圾圖像由配備1200萬像素攝像頭的iOS智能手機iPhone 11 Pro拍攝獲取,總共采集圖像近79000張。將采集到的垃圾圖像分為可回收垃圾、廚余垃圾、有害垃圾和其他垃圾四類,其中,可回收垃圾圖像約有40000張,廚余垃圾圖像約20000張,有害垃圾圖像約4000張,其他垃圾圖像約5000張。圖5顯示了數據集中的一些示例圖像。
將數據集中每個圖像的大小調整為350×650像素,使所有圖像都具有相同的大小和分辨率。為了訓練和交叉驗證,將數據集分成三個不相交的集合,設置數據集分割比率為70/15/15,即70%的數據用于訓練,其余各15%的數據是用于測試和驗證。
2.2 建立垃圾圖像分類模型
使用基于CNN的參數傳遞,分別基于預訓練的AlexNet和VGG-19圖像分類模型的所有權重參數進行微調,從而加快實現網絡的收斂。圖6所示為構建的基于遷移學習和CNN的垃圾圖像分類模型。分類模型中顯示了整個垃圾圖像分類的過程,分類算法流程可歸納如下:
(1)采集垃圾圖像數據,修改圖像大小與預訓練模型的指定輸入比例一致,構建垃圾圖像數據集。
(2)劃分圖像數據集。將70%的圖像數據用于訓練,各15%的數據用于驗證和測試。
(3)建立垃圾圖像識別模型。
(4)參數傳遞。預訓練的CNN圖像分類模型用于使用參數傳遞來初始化模型參數。
(5)遷移學習。
(6)參數調整。通過設置模型訓練參數(如學習率、訓練時間等),利用損失函數迭代凍結部分卷積層和池化層的參數,對全連接層和softmax分類層的參數進行訓練和優化。
(7)交叉驗證。為了驗證分類模型的準確性,從垃圾圖像數據集中提取15%的數據作為測試樣本集進行交叉驗證。
2.3 評價方法
本文使用準確度、精度、召回率和F1值四個指標評價垃圾圖像分類結果。準確度(Accuracy)指正確樣本數量與總樣本數量的比值,用于評估分類模型的總體精準度。精度(Precision)指預測為某一類別(如“可回收物”)的樣本中實際屬于該類別的樣本數量與預測為該類別的全部樣本數量的比值。精度表示模型預測結果的準確程度。召回率(Recall)指預測為某一類別(如“可回收物”)的樣本中實際屬于該類別的樣本數量與全部實際屬于該類別的樣本數量的比值。召回率表示模型預測結果覆蓋的樣本廣度。F1值(F1-score)是精度和召回率的調和平均數,綜合考慮了模型預測結果的準確性與覆蓋面,其值范圍0-1,值越高表示模型性能越好。四個評價指標的計算公式如下所示。
上述四個評價指標來源于混淆矩陣[13-16]。混淆矩陣是監督學習算法評估常用的可視化工具,特別適用于分類問題性能評估。它以矩陣形式展示分類結果,其中的評價指標從不同角度反映了分類精度[17]。矩陣的行表示真實類別,列表示預測類別。矩陣每個單元表示屬于該行真實類別但被預測為該列預測類別的樣本數量[18]。如圖7為2×2的混淆矩陣。
3 實驗結果與分析
3.1 分類精度比較
模型訓練在Matlab R2019b平臺上完成,使用NVIDIA GeForce RTX 2080 Ti圖形處理器(GPU)計算。在每一次訓練完成之后,都要在驗證集上驗證模型,并計算模型精度。重復此過程,直到模型的準確性不再增加。最后,在測試集上還要對模型進行測試,以檢驗模型的魯棒性和可靠性。在訓練過程中,學習率設置為1.e-5,bath_size設置為32,通過觀察訓練損失率和準確率來判斷當前模型的訓練狀態,及時調整超參數使訓練損失最小化。如圖8(a)和(b)所示為分類模型在訓練集上的訓練過程。
模型在數據集上進行了10個時期的訓練和測試,每個模型的訓練結果如表1所示,表1總結了兩個模型的訓練和測試準確度以及精度、召回率和F1值。其中,對精度、召回率和F1的評估采用加權平均的方法,即按照各類別樣本數在總樣本數中的占比來進行加權求解。
AlexNet和VGG-19的混淆矩陣如圖9所示,混淆矩陣的行和列分別代表垃圾類別和模型預測。從混淆矩陣的結果可知,VGG-19測試準確度為93.20%,比AlexNet測試的準確度(91.50%)略高(1.7%),原因是使用了更深的網絡和更小的卷積核。從表1可知,在精度、召回率和F1方面,VGG-19模型的表現也優于AlexNet模型。
3.2 iPhone 11 Pro的圖像采集優勢
在文獻中,大多數研究工作中的圖像數據來源于Imagenet數據集,或者通過數字單鏡頭反光(DSLR)相機或掃描儀獲取圖像數據,而本文則使用智能手機對圖像數據進行采集。與使用數碼單反相機相比,智能手機通常更輕快、更便攜。智能手機具有用戶友好的界面和更好的連接性,可以將圖像傳輸到云數據庫中,從而使云計算成為可能。與數碼單反相機相比,智能手機拍攝的圖像在質量和分辨率方面存在一些局限性,但是較少的圖像存儲是智能手機圖像的優勢,可以在訓練中加快速度。在iPhone 11 Pro中,前置攝像頭已升級至1200萬像素,并支持下一代智能HDR,以獲得更好的對比度和色彩。iPhone 11 Pro圖像采集的優勢使得在任何場所或通過遠程連接快速檢查分類結果成為可能。在本文中,iPhone 11 Pro相機獲取的垃圾圖像獲得了良好的訓練效果。
4 結論
基于iPhone圖像和深度卷積神經網絡,本文提出一種快速可靠的垃圾圖像分類方法。該方法采用遷移學習技術,使用在Imagenet數據集上預訓練的VGG-19模型,然后在生活垃圾圖像訓練集上微調模型參數,以提高模型對垃圾類別的識別能力。最后,利用微調后的VGG-19模型提取生活垃圾圖像的特征,實現對不同垃圾類別的分類。實驗結果顯示,基于遷移學習的VGG-19模型的分類精度可達93.20%。與AlexNet相比,VGG-19模型的更深層結構可以更加有效地學習生活垃圾圖像中的高階特征,這也是其取得更高分類精度的主要原因。本文方法證明,借助智能手機獲取的生活垃圾圖像和深度CNN模型,可以準確自動對生活垃圾進行視覺分類。這不僅可以減輕人工分類的負擔,也為生活垃圾的分選與資源化利用等環境保護工作提供技術支持。
——————————
參考文獻:
〔1〕He T, Li W, Du X, et al. Garbage classification and recognition system based on neural network[C]//2021 International Conference on Advanced Electrical Equipment and Reliable Operation (AEERO). IEEE, 2021: 1-6.
〔2〕Rad M S, von Kaenel A, Droux A, et al. A computer vision system to localize and classify wastes on the streets[C]//Computer Vision Systems: 11th International Conference, ICVS 2017, Shenzhen, China, July 10-13, 2017, Revised Selected Papers 11. Springer International Publishing, 2017: 195-204.
〔3〕Zhang Q, Zhang X, Mu X, et al. Recyclable waste image recognition based on deep learning[J]. Resources, Conservation and Recycling, 2021, 171: 105636.
〔4〕Li Y, Liu W. Deep learning-based garbage image recognition algorithm[J]. Applied Nanoscience, 2023, 13(02): 1415-1424.
〔5〕Kang Z, Yang J, Li G, et al. An automatic garbage classification system based on deep learning[J]. IEEE Access, 2020, 8: 140019-140029.
〔6〕Zhang Q, Yang Q, Zhang X, et al. Waste image classification based on transfer learning and convolutional neural network[J]. Waste Management, 2021, 135: 150-157.
〔7〕Liu W, Ouyang H, Liu Q, et al. Image recognition for garbage classification based on transfer learning and model fusion[J]. Mathematical Problems in Engineering, 2022, 2022: 4793555.
〔8〕陳筱,朱向冰,吳昌凡,等.基于遷移學習與特征融合的眼底圖像分類[J].光學精密工程,2021,29(02):388-393.
〔9〕趙傳,張保明,余東行,等.利用遷移學習的機載激光雷達點云分類[J].光學精密工程,2019,27(07):1601-1612.
〔10〕Albawi S, Mohammed T A, Al-Zawi S. Understanding of a convolutional neural network[C]//2017 international conference on engineering and technology (ICET). IEEE, 2017: 1-6.
〔11〕Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(06): 84-90.
〔12〕Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv: 1409.1556, 2014.
〔13〕Fawcett T. An introduction to ROC analysis[J]. Pattern recognition letters, 2006, 27(08): 861-874.
〔14〕Piryonesi S M, El-Diraby T E. Data analytics in asset management: Cost-effective prediction of the pavement condition index[J]. Journal of Infrastructure Systems, 2020, 26(01): 04019036.
〔15〕Powers D M W. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation[J]. arXiv preprint arXiv:2010.16061, 2020.
〔16〕Sammut, Claude, and Geoffrey I. Webb, eds. Encyclopedia of machine learning[M]. Springer Science amp; Business Media, 2011.
〔17〕Stehman S V. Selecting and interpreting measures of thematic classification accuracy[J]. Remote sensing of Environment, 1997, 62(01): 77-89.
〔18〕Powers D M W. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation[J]. arXiv preprint arXiv: 2010.16061, 2020.