何彥弘,徐怡寧,傅嘉琪,陳書航,李俊峰
(1.浙江理工大學信息科學與工程學院,浙江 杭州 310018;2.浙江理工大學計算機科學與技術學院,浙江 杭州 310018)
2019330301193@mails.zstu.edu.cn;2019329621218@mails.zstu.edu.cn;2019330301190@mails.zstu.edu.cn;2019330361008@mails.zstu.edu.cn;ljf2003@zstu.edu.cn
隨著經濟的發展、城市化進程的推進及人們生活水平的提高,垃圾產生量迅速增加,從而增加了城市垃圾收集、運輸及垃圾處理系統的壓力[1]。2020 年我國城市固廢量達310.9百萬噸,同比增長1.5%。預計2022 年我國城市固廢處理量將達到349.3百萬噸,大量的垃圾嚴重阻礙了城市發展與人們的健康生活,因此研究如何更好地進行垃圾的分類回收對解決上述問題具有重要意義。垃圾分類是指按一定規定或標準將垃圾分類儲存、投放和運輸從而轉化成公共資源的一系列活動的總稱。垃圾分類可以分為三個步驟:前端分類、中端清運和后端回收利用。
近年來,機器學習迅速發展,在很多領域得到廣泛運用,很多學者提出了采用機器學習方法輔助垃圾分類[2-4],FENG等[5]提出了一種基于Inception-v3遷移學習模型的辦公室垃圾智能分類方法,WANG等[6]提出了一種基于機器視覺的垃圾分類和回收系統,通過機器人對垃圾進行智能識別,根據垃圾類別進行分類回收。但是,上述研究的應用場合分別為辦公室垃圾和散落的建筑垃圾,不適用于產生量更大的生活垃圾的分類和回收,在這個領域具有一定的局限性;趙珊等[7]提出了基于MobileNetV2網絡和隱式特征金字塔網絡(IFPN)改進的單步多框目標檢測器(SSD)垃圾實時分類檢測,提高了對小目標的檢測能力。
同時,劉南杉等[8]提出了利用人工智能虛擬現實等技術對垃圾分類進行整體規劃檢測;CHUNG等[9]提出了一種智能分類和環境監測系統實現垃圾自動分類和環境監測;YU等[10]提出了利用人工智能技術,提高方程式廢物處理的準確性和效率;CHEN等[11]提出了一種基于“互聯網+”的城市垃圾分類回收與輸運體系框架,給出了垃圾分類運輸系統智能化和信息化的解決方案,但并未提出如何對垃圾分類運輸過程形成有效監管以提升垃圾分類的效果。
上述研究為應用計算機技術實現垃圾分類提供了重要的參考,但上述研究的重點均在垃圾分類前端,而在將機器視覺技術運用于垃圾的清運過程的監管方面有所欠缺。通過走訪某市的環境衛生和生活固廢處置保障中心得知,垃圾收集和運輸過程中混裝率極高,存在“前端分類,后端混裝”的現象。清運混裝垃圾會挫傷市民實施垃圾分類的積極性,增大垃圾后續處理的難度,同時會影響垃圾分類效果,因此對該過程進行有效的監管是非常有必要的。清運過程會受到作業環境、時間等多種因素的影響,因此對其進行監管的難度大。若依賴于人工監控,工作量大且效率低。如果利用垃圾清運車上安裝的工業攝像頭對垃圾清運圖像進行實時采集,并應用圖像處理等技術進行分析,用計算機替代人工進行實時監控,就能有效提高對清運過程的監管效率,減少不規范清運和垃圾混裝現象的發生,從垃圾分類的中端提升垃圾分類效果。結合深度卷積網絡的相關研究[12-15],本文提出一種基于改進Resnet18的垃圾桶顏色分類與匹配算法,解決垃圾清運過程中的監管問題。首先,通過在Resnet18添加SE-Net通道注意力機制模塊對模型實現改進,并提出了一種多尺度感受野融合模塊,添加在Resnet18中構成晚期融合用于提升網絡性能;其次,提取垃圾車作業期間的監控視頻的關鍵幀構建垃圾桶分類數據集;最后,利用改進后的Resnet18對上述數據集進行訓練,從而實現對垃圾清運的有效監管。
經過調研和訪談發現,垃圾清運過程主要存在以下問題。
(1)裝車過程中掛載的垃圾桶數量超量。按照垃圾清運作業規定,垃圾車作業時,每次只能將兩個垃圾桶掛在車上,并將桶內垃圾倒入清運車內,這是為了保證垃圾桶的垃圾不掉落地面上,保證作業場地的清潔;保障收運工人的作業安全,以免產生安全隱患。但在實際作業現場,作業人員為了提升工作效率而掛載三個垃圾桶,存在違規操作行為。
(2)垃圾桶蓋未完全打開。在垃圾清運作業時,為了確保桶內的垃圾能夠被清運干凈,要求將垃圾桶蓋完全打開后再進行作業。但在實際作業現場,作業人員為了方便而沒有人工打開部分閉合的垃圾桶蓋,從而影響了垃圾清運的效果。
(3)垃圾桶顏色(對應垃圾類別)與垃圾清運車收運垃圾類別不匹配。為了實現垃圾的分類清運,通常會將分類后的不同類型垃圾裝在對應顏色的垃圾桶中并采用不同的垃圾清運車運送。這就要求垃圾桶的顏色(即垃圾的類別)要與垃圾清運車收運的垃圾類型相匹配。但是實際收運過程中,常有不匹配的垃圾桶被錯誤清運的問題,導致垃圾的混裝混運,降低了垃圾分類效果。
針對上述問題,本文提出了一種垃圾清運監管解決方案(圖1),可實現對垃圾分類清運過程中的有效監管,具體可以分成兩個部分實施:一是使用目標檢測網絡實現對垃圾桶及其狀態的識別;二是使用分類網絡對檢測到的垃圾桶的類型進行判斷。

圖1 垃圾清清運監管解決方案Fig.1 Solution to waste clearing and transportation supervision
本文就“垃圾桶顏色(對應垃圾類別)與垃圾清運車收運垃圾類別不匹配”的問題,提出了一種基于改進Resnet18的解決方案,該方法可以對目標檢測網絡檢測到的垃圾桶目標加以識別分類。按照不同的收運垃圾類型,本文對垃圾桶做出以下分類,分別為藍色垃圾桶(可回收垃圾)、綠色垃圾桶(廚余垃圾)、灰色垃圾桶(其他垃圾)、紅色垃圾桶(有害垃圾)、黃色垃圾桶(其他垃圾)和未知顏色垃圾桶(未知垃圾),由于在清晨或夜晚等作業條件下的光線不足和垃圾袋反光問題,以及部分垃圾過大對垃圾桶造成遮擋,造成難以識別的問題,因此添加了未知顏色這一類別)。
深度殘差網絡是由HE等[16]于2016 年提出的,殘差網絡結構如圖2所示。該研究證明了引入跳層連接能有效解決梯度彌散導致的模型難以收斂和深度神經網絡退化兩大問題,并使計算輕量化。

圖2 殘差網絡基本結構Fig.2 Basic structure of Resnet network
Resnet18是一種基于上述殘差結構構造的網絡,其模型如圖3所示。Resnet18的殘差模塊中首先進行一次3×3卷積,其次進行批標準化和ReLU激活,再次進行一次3×3卷積和標準化,最后與輸入特征圖相加后進入ReLU激活。殘差模塊Ⅱ在跳層連接中加入了1×1卷積進行下采樣。


圖3 Resnet18模型Fig.3 Resnet18 model
SE-Net(Squeeze-and-Excitation Networks)是由HU等[17]提出的一種通道注意力機制,其主要原理是根據全局信息學習通道特征權重,對通道信息重標定從而增大有效通道特征的權重,減小無效或效果較小的通道特征的權重,提升模型特征提取能力,其結構如圖4所示。

圖4 SE-Net結構Fig.4 SE-Net structure
該算法可以分為三個部分,即通道特征壓縮(Squeeze)、通道特征激發(Excitation)和通道權重重標定(Scale)。首先Squeeze操作通過全局平均池化操作將C通道H×W的特征圖壓縮成C通道1×1的特征圖;然后Excitation操作對上一步結果進行全連接,得到C/r維的向量后進行ReLU激活,再對該結果進行一次全連接,將C/r維變換成C維向量,并通過Sigmoid激活,使其值分布在0—1;最后將通道權重加權到原始特征圖上,完成對原始特征的重標定。
結合本文分類任務和圖像數據特征,從圖5中可以直觀地看到,對垃圾桶分類識別較為關鍵的信息是閉蓋垃圾桶的垃圾桶蓋和開蓋垃圾桶的垃圾桶邊緣部分。通過SE-Net學習通道權重,理論上能抑制通道權值較小的特征,提升模型對通道的敏感性和模型的特征提取能力。


圖5 垃圾桶顏色識別關鍵信息(黑色部分)Fig.5 Key information of trash can color
SE-Net常與Resnet殘差網絡按圖6中的方法結合,但要注意到在Resnet殘差結構的不同位置加入SE-Net,可能會產生不同的效果。本文擬提出三種方案,分別將其插入在Resnet殘差結構的始端(Pre-SE)、末端(Post-SE)和殘差連接(Res-SE)處,其結構如圖7所示。

圖6 Resnet與SE-Net結合方法Fig.6 Combination of Resnet and SE-Net


圖7 三種SE-Net與Resnet結合方法Fig.7 Three approaches to combining SE-Net and Resnet
Inception結構[18]通過輸入不同尺度的特征圖預測不同大小的目標,受此啟發,若對輸入特征圖進行多尺度融合,就能夠增加模型對特征信息的感受野。結合本文圖像數據特點(圖8),可以直觀地感受到多尺度融合的效果。本文數據集可以按照垃圾桶狀態分為兩大類,即開蓋垃圾桶(Open Garbage Can)和閉蓋垃圾桶(Close Garbage Can):對于開蓋垃圾桶的顏色分類任務,最重要的信息位于垃圾桶圖像的四周,而垃圾桶內的顏色對該任務影響甚微;而對于閉蓋垃圾桶,其圖像主體為垃圾桶顏色。進行多尺度融合后可以直觀地發現(圖8),開蓋垃圾桶的特征信息增加了,而對于閉蓋垃圾桶,多尺度融合導致其特征信息的減少是有限的。綜上所述,理論上多尺度融合有利于提升本文數據集特征提取能力。

圖8 多尺度變換后的圖像Fig.8 Image of multi-scaled transformation
結合上述分析與殘差網絡的思想,擬提出一種針對本文數據集的多尺度感受野融合殘差模塊(Multi-Scaled Receptive Field Fusion Residual Module,MSRM),其結構如圖9所示。

圖9 多尺度感受野融合殘差模塊結構圖Fig.9 Residual module structure of multi-scaled receptive field fusion
上述多尺度感受野融合模塊首先進行1×1卷積將特征圖變換為2C×H×W,然后采用空洞率不同的空洞卷積對特征圖進行下采樣和融合,最后利用3×3轉置卷積進行上采樣,將特征圖的尺度變換為C×H×W并與輸入進行殘差融合,最終得到輸出特征圖。需要注意的是,每次卷積后都進行了批標準化和ReLU激活。

圖10 不同空洞率的空洞卷積感受野比較Fig.10 Receptive field comparison of the dilation convolution with different dilation rates
空洞卷積[19]可以在保持卷積核大小不變的前提下擴大感受野,從圖11中可以直觀地感受到使用空洞率不同的空洞卷積能夠提取到更大范圍的信息,使得融合后的特征圖具有更豐富的語義信息。
考慮到在中期和晚期融合的過程中,特征圖自身的通道數較多,上述模塊可能對網絡性能有較大的影響,但普通的標準卷積可以由深度卷積和點卷積兩個部分替代,因此使用深度可分離卷積[20]重構上述模塊中計算量較大的卷積,從而提升網絡計算效率。
將上述模塊插入Resnet18的不同位置分別構成早期融合(Early-Fusion,EF)、中期融合(Mid-Fusion,MF)和晚期融合(Late-Fusion,LF),具體如圖11所示。

圖11 不同位置的MSRMFig.11 MSRM of different positions
本文研究使用的圖像來源于某市垃圾清運車搭載的工業攝像機拍攝的視頻,通過提取視頻關鍵幀和裁剪的方法構建數據集。原始圖像共7,753 張,具體分為6 類,即黃色、灰色、紅色、綠色、藍色和未知顏色的垃圾桶。
由于不同顏色的垃圾桶使用的頻率存在顯著差異,導致數據集中樣本分布失衡,原始數據集分布如圖12(a)所示。為了使數據集分布均衡,通過人工重新拍攝和數據增強擴增數據集。最終數據集共包含6,818 張圖像,數據分布如圖12(b)所示,統一縮放為224×224 像素,并按照7∶2∶1的比例劃分訓練集、驗證集和測試集,分別為4,773 張、1,362 張和683 張。

圖12 數據集數據分布Fig.12 Data distribution of the dataset
為了擴增數據集以提高模型的泛化能力,使其適應垃圾收運作業環境的復雜性,采用亮度調整、0°—20°隨機旋轉、水平垂直翻轉、高斯模糊和GridMask方法[21]對數據進行增強。同時,本文采用開放計算機視覺庫(OpenCV)模擬降雨、降雪和大霧等天氣,提高模型在不同天氣條件下分類的準確性。部分數據增強方法如圖13所示,天氣模擬如圖14所示。

圖13 數據集增強Fig.13 Dataset argumentation

圖14 模擬天氣Fig.14 Weather simulation
本實驗的硬件環境:處理器為Intel(R) Core(TM) i5-9300H CPU @ 2.40 GHz,內存為8 GB,顯卡為Nvidia GTX 1650,操作系統為64 位,磁盤大小1 TB。
軟件環境:操作系統為Windows 10,深度學習框架為Pytorch 1.10.1,開發環境為PyCharm,開發語言為Python,包管理器和環境管理器為Anaconda,GPU加速庫為CUDA 11.3和cuDNN 8.2.1。
4.3.1 學習率
本文實驗中,學習率采用具有重啟機制的余弦退火調整策略[22](Cosine Annealing with Warmup Restart),該方法使學習率在一個周期內按照余弦函數隨著迭代次數的增加而發生改變,同時通過熱重啟在設定的Epoch(一個Epoch相當于使用訓練集中的全部樣本訓練一次)增大學習率跳出局部最優解。通過預訓練調整初始學習率和余弦退火策略的相關參數值,實驗所用的學習率與迭代次數的關系如圖15所示。

圖15 余弦退火調整策略Fig.15 Cosine annealing adjustment strategy
4.3.2 其他超參數
本實驗輸入的圖像尺寸為224×224 像素,訓練100 Epoch;采用隨機梯度下降(SGD)策略進行訓練,初始學習率設為0.01,動量設置為0.9,衰減因子設置為0.000484,batch設置為16。
4.4.1 SE-Net實驗
根據SE-Net通道注意力機制插入在Resnet18殘差結構的不同位置,分別構成始端(Pre-SE)、末端(Post-SE)和殘差連接(Res-SE)處的通道注意力機制。對三種不同位置的網絡按照上述超參數設置進行實驗,得到實驗結果如表1所示。

表1 SE-Net實驗具體結果Tab.1 Specific results of SE-Net experiment
考慮到不同顏色的垃圾桶在本研究的對象城市中的使用頻率不同,因此對不同顏色的垃圾桶的查準率(查全率)進行加權作為該模型的加權平均查全(準)率。根據本文“4.1”中提到的數據集,將原始數據集中不同顏色的垃圾桶的出現頻率作為權值,得到以下加權算法:

通過表2中的數據發現,加入SE-Net通道注意力機制后對模型的大小和檢測速度影響較小,但能夠在一定程度上提升網絡的性能,從各個顏色分類的性能指標來看,對網絡性能的提升較為全面。與Resnet18相比,是對未知顏色的垃圾桶有了更高的檢測性能。Pre-SE、Post-SE和Res-SE分別較未改進的Resnet18在加權F1值上分別提升了9.26%、9.01%和8.81%。同時,加入SE-Net對模型的大小和每秒識別幀數(FPS)指標并沒有太大的影響,該指標僅小幅度降低,但是綜合上述指標對三種位置的SE-Net進行比較,顯然在殘差結構的始端(Pre-SE)加入SE-Net通道注意力機制對模型的性能有更大的提升。因此,本文選擇Pre-SE作為一種改進方案。

表2 SE-Net實驗結果Tab.2 Results of SE-Net experiment
4.4.2 MSRM實驗
在Resnet網絡結構的不同位置加入MSRM模塊,分別形成早期融合、中期融合和晚期融合。對三種不同位置的網絡按照上述超參數設置進行實驗,實驗結果表明,對于早期和中期融合,隨著訓練集Loss的降低,驗證集上的精確率難以提升,如圖16和圖17所示,早期融合和中期融合會導致模型泛化能力惡化。同時,上述實驗也發現MSRM加入在網絡中的位置越深,對模型的影響逐漸從惡化轉變為提升,晚期融合能在一定程度上提升網絡的性能,尤其體現在對黃色垃圾桶和未知顏色垃圾桶的識別上。


圖16 早期融合位置1和早期融合位置2訓練準確率和損失Fig.16 Training accuracy and loss of early-fusion at position 1 and 2

圖17 中期融合位置1和位置2訓練準確率和損失Fig.17 Training accuracy and loss of mid-fusion at position 1 and 2
對網絡性能有較明顯效果的晚期融合進行進一步的數據分析,實驗結果如表3和表4所示。

表3 MSRM 實驗具體結果Tab.3 Specific results of MSRM experiment

表4 MSRM 實驗結果Tab.4 Results of MSRM experiment
對表3和表4中的數據進行分析,在具體分類上,MSRM模塊對黃色垃圾桶和未知顏色垃圾桶識別的準確率有較明顯的提升,LF-1和LF-2對于未知顏色垃圾桶的查全率分別提升了12.41%和0.38%;對黃色垃圾桶的查全率分別提升了13.94%和5.67%,但是對綠色、灰色和紅色垃圾桶的識別的準確率均有不同程度的降低。從整體的實驗結果來看,LF-1的加權查全率、加權查準率和加權F1值較Resnet18分別提升了7.17%、7.58%和7.36%,LF-2較Resnet18分別提升了6.47%、5.98%和6.22%。
但是,隨著MSRM模塊加入的位置越深,Resnet18加入節點的特征圖通道數也隨之增加,從而導致模型變大和檢測速度降低。相比Resnet18,LF-1和LF-2的模型大小分別增加了18.92%和75.25%,檢測速度也有所下降。
綜上所述,實驗結果表明,MSRM模塊以晚期融合的方式加入網絡的末端對網絡性能有所提升,同時綜合各種因素,本研究選擇晚期融合在LF-1位置將MSRM模型加入網絡中。
4.4.3 消融實驗
結合實驗“4.4.1”和“4.4.2”,本文改進后的Resne18網絡如圖18所示。

圖18 改進的Resnet18Fig.18 Improved Resnet18
對其進行消融實驗以驗證其效果,實驗結果如表5和表6所示。

表5 消融實驗具體結果Tab.5 Specific results of ablation experiment

表6 消融實驗結果Tab.6 Results of ablation experiment
研究人員通過消融實驗結果,發現Pre-SE和LF1-MSRM都能提升網絡的性能,Pre-SE對網絡整體性能都有所提升,LF1-MSRM的部分性能較Resnet18有所下滑,例如對紅色垃圾桶查準率下滑7.05%,對灰色垃圾桶查準率下降1.3%,但對于未知顏色和黃色垃圾桶的查準率有較大幅度的提升。將上述兩種模塊疊加使用后,使網絡性能有了較大的提升,尤其是對于未知顏色的垃圾桶,較單獨的Pre-SE和LF1-MSRM查準率分別提升了9.66%和5.12%,但這是以犧牲一定的對其他顏色的檢測性能為代價的,例如針對紅色垃圾桶的查準率,改進后的Resnet18較單獨使用Pre-SE改進的網絡下降了3.75%。但從總體來看,改進后的Resnet18的性能是得到提升的,加權查全率、加權查準率和加權F1值較單獨使用Pre-SE改進的網絡分別提升了1.12%、0.88%和1%,較單獨使用LF1-MSRM改進的網絡分別提升了3.37%、2.4%和2.9%。
因此,改進后的網絡的檢測性能更加均衡,在犧牲少量速度的前提下,較未改進的Resnet18性能有了較大幅度的提升。
4.4.4 對比實驗
將改進后的Resnet18與其他網絡對比,得到結果如表7和表8所示。

表7 對比實驗具體結果Tab.7 Comparison of specific experiment results

表8 對比實驗結果Tab.8 Comparison of experiment results
從以上研究結果中可以看到,Resnet系列隨著網絡深度的加深,性能并沒有得到較好的提升,檢測速度降低明顯。改進后的Resnet18的檢測速度略低于Resnet34,但網絡性能遠超同類網絡。
本文主要對Resnet18在垃圾分類收運和監管方面的應用展開了研究,并針對本文建立的垃圾桶數據集的特點,對Resnet18進行改進。通過上述實驗,得了如下結論。
(1)在網絡中加入SE-Net通道注意力機制能在幾乎不影響檢測速度的前提下提升模型性能,通道注意力機制提升了模型對通道的敏感性,提高了模型的特征提取能力。其中,將SE-Net加入Resnet殘差結構的始端相比與加入末端和殘差連接處具有更好效果。
(2)本文提出了一種多尺度感受野融合的殘差模塊,在垃圾桶數據集上有較為突出的表現,尤其是能夠大幅度提升對未知顏色垃圾桶識別的準確率。同時,上述模塊若加入在Resnet18的不同位置,則對模型性能有不同的影響,早期融合會導致模型性能惡化,使得訓練過程難以收斂,晚期融合雖然在一定程度上降低了網絡的檢測速度,但是能夠有效提升網絡的性能。
(3)使用上述兩種模塊同時對Resnet18進行改進,通過消融實驗表明,同時加入兩種模塊能夠使網絡性能更加均衡,并能有效提升網絡對垃圾桶分類的正確率。
圖像識別方法與深度學習應用于垃圾收運管理有著很大的研究空間和應用前景。下一步的研究方向是如何將目標檢測網絡和分類網絡結合,或是集中嵌入智慧城市管理系統中或嵌入垃圾清運車車載設備上,從而實現對垃圾分類清運的實時監管和反饋,最終提高垃圾分類效果,實現更有效的資源再利用。