徐艷蕾,王 琦,翟鈺婷,高志遠,邢 路,叢 雪,周 陽
基于MICS-CoTNet的黑木耳品質分類方法
徐艷蕾,王 琦,翟鈺婷,高志遠,邢 路,叢 雪,周 陽※
(吉林農業大學信息技術學院,長春 130118)
針對傳統黑木耳品質分類效率低,識別準確率不佳等問題,提出一種基于卷積神經網絡和Transformer相結合的黑木耳圖像品質分類方法。該研究以CoTNet模型為基礎網絡,設計了MICS-CoTNet黑木耳品質分類網絡模型。首先,重新規劃CoTNet模型主干特征提取模塊的迭代次數,降低模型的計算冗余;其次,提出坐標歸一化注意力機制以增強黑木耳圖像局部關鍵特征權重,抑制主體特征干擾;最后,引入MobileNetV2模型中特征提取模塊Inverted Block,并優化CoTNet模型核心模塊CoT block,增強模型對黑木耳數據的特征提取能力。將MICS-CoTNet模型與EfficientNetV2、NfNet等12種模型進行對比,結果表明,綜合模型準確性和輕量性等方面,MICS-CoTNet模型表現最佳。其中,MICS-CoTNet模型在干黑木耳數據中識別準確率可達98.45%,相較標準CoTNet提升5.22個百分點;在鮮黑木耳數據中識別準確率可達98.89%,相較標準CoTNet提升2.60個百分點。MICS-CoTNet模型占用內存為30.98M,相對于原CoTNet模型減少96.57M。將MICS-CoTNet模型部署到Jetson TX2 NX中,實時推理速度為18幀/s。該研究提出的MICS-CoTNet黑木耳品質分類模型識別準確率高,運算速度快,為黑木耳實時品質分級的實際應用提供了理論基礎及技術支持。
計算機視覺;深度學習;品質分級;注意力機制;特征提取
黑木耳是一種富產于中國的食用菌,因其含有豐富多樣的生物活性成分和人體所需微量元素,被世界公認為極佳的營養補品[1-3]。由于不同品質的黑木耳產品營養成分含量不同,因此需要對其進行有效分類。而現階段人們對不同品質黑木耳的辨別方法還沒有普遍掌握,依靠傳統人工分類方法耗時費力,效益低。此外,不同品質黑木耳的劃分在大小、形態、顏色等方面均有制約條件,用不同大小網格的機器難以高效篩選出品質優良的黑木耳。針對上述問題,迫切需要一種高效的黑木耳品質鑒別方式。
近年來,有許多研究應用數字圖像處理和電子鼻傳感器技術方法,針對農產品品質鑒定做出嘗試[4-8]。LU等[9]以龍井茶的香氣為特征,使用電子鼻和數據分析算法對龍井茶品質進行識別,并建立起龍井茶品質識別系統,為龍井茶標準化市場提供有效參考方法。孫麗萍等[10]使用紅外光譜技術和支持向量機(support vector machines,SVM)對黑木耳進行品質分級,最佳識別精度達到85.7%。DING等[11]基于機器學習和光譜技術相結合的方法對茶葉進行質量評估,并采用粒子群優化和綜合學習粒子群優化(comprehensive learning particle swarm optimization,CLPSO)算法對SVM算法優化,最終提出的CLPSO-SVM算法達到99.17%的正確識別率。然而,上述研究采用的光譜儀器和傳感器技術對于黑木耳品質分級任務而言設備成本高,取樣條件苛刻,不利于實際應用。
與傳統的圖像處理和機器學習技術不同,深度學習憑借著卷積神經網絡(convolutional neural networks,CNN)模型強大的特征提取能力,使得計算機視覺在農產品品質識別研究方向上應用前景廣闊,并取得豐富的科研成果[12-16]。ERBAS等[17]基于深度學習方法對榛子品質劃分,以AlexNet網絡對5類不同品質的榛子進行特征提取,準確率高達98%。SUN等[18]針對蘋果的小樣本數據集的特點提出改進的ResNet50網絡,通過使用全局平均池化和Swish激活函數對標準ResNet50網絡進行優化,有效減少訓練時間的前提下,獲得較高的識別精度。NI等[19]針對經典Resent-18網絡做出改良,將具有通道維度權重信息的(squeeze-and-excitation networks,SE)注意力模塊載入網絡中,并對原網絡的分類器模塊做出改善。提出的方法高效完成胡蘿卜外觀質量檢測任務,識別準確率高達98.36%,為胡蘿卜高精度分類提出可行性方案。此外,LI等[20]提出一種ResNet101與線性判別分析相結合的方法,草莓識別準確率達到96.55%。目前應用深度學習方法對黑木耳品質分級開展的相關研究較少,上述研究采用的深度學習方法識別準確率表現良好,為黑木耳品質分級研究提供了技術支持。但黑木耳主體顏色特征為黑色,各品質等級的黑木耳特征變化細微,增加了CNN特征提取和識別的難度。
Transformer最早應用于自然語言處理方向,在數據容量充足的條件下,Transformer網絡能夠在全局感受野下搜尋相關特征信息,其識別準確性已經超越CNN網絡[21-22]。但是,Transformer網絡歸納偏置能力不及CNN網絡,致使Transformer網絡在數據容量有限條件下識別準確性能欠佳。此外,Transformer網絡模型占用內存和參數量相對于CNN模型有著高額的負載,對于試驗設備性能要求較高,不利于黑木耳品質分級實際應用。
為助力黑木耳實現智能采摘和智能品質分級的一體化,本文以黑木耳為研究對象,提出一種基于CNN和Transformer網絡相結合的黑木耳品質分級方案,實現對干黑木耳和鮮黑木耳的高精度品質分級。首先,通過在黑木耳生產基地采集的黑木耳圖像自建試驗數據集。其次,根據黑木耳主體特征干擾過強的數據特點對基線模型CoTNet[23]加以優化,設計出黑木耳品質分級模型MICS-CoTNet。最終將MICS-CoTNet模型部署在可移動設備Jetson TX2 NX中,用于實時品質分級。
本研究的試驗數據采集自吉林省延邊朝鮮族自治州敦化市牡丹崗村,采集時間為2022年7月至8月。試驗數據的獲取設備為Vivox60智能手機,采用距黑木耳5~10 cm高度垂直拍攝,共采集圖像3 338張。圖像原始的分辨率為3 120×3 120像素,保存為jpg格式。根據國標GB/T6192-2019中黑木耳品質標準,本文將黑木耳干制品圖像數據分為4個不同的類別,包括干黑木耳一等品、干黑木耳二等品、干黑木耳三等品、霉爛黑木耳。此外將干黑木耳一等品、干黑木耳二等品、干黑木耳三等品放在清水中浸泡10 min左右,待其濕潤后獲取鮮黑木耳一等品、鮮黑木耳二等品和鮮黑木耳三等品的數據樣本。由于鮮黑木耳與干黑木耳在實際應用中易于區分,因此本研究對干黑木耳數據和鮮黑木耳數據分別建模。黑木耳各品質數據樣本如圖1所示。

注:鮮黑木耳一等品、鮮黑木耳二等品、鮮黑木耳三等品為干黑木耳一等品、干黑木耳二等品、干黑木耳三等品放在清水中浸泡10 min所得數據樣本。
僅按照國標GB/T6192-2019文件標準對數據劃分會存在部分數據樣本難以界定具體品質的情況,導致數據辨別誤差大,影響模型訓練精度。為進一步保證黑木耳數據的準確性與可靠性,本研究邀請到吉林農業大學食品工程學院相關專家對黑木耳數據進行品質鑒定,并將鑒別完成的數據存放到相應的文件夾中,作為研究的自建數據集。此外,將干黑木耳中的一等品、二等品、三等品和霉爛耳共4類,以阿拉伯數字0、1、2、3進行數據標記。并且將鮮黑木耳中的一等品、二等品、三等品以4、5、6進行數據標記。將所得2 264張干黑木耳和1 074張鮮黑木耳RGB圖像均按照8:2的比例進行隨機劃分。其中,干黑木耳數據訓練集包含1 808張圖像,驗證集包含456張圖像。鮮黑木耳數據訓練集包含872張圖像,驗證集包含202張圖像。數據的詳細信息如表1所示。

表1 黑木耳圖像數據集說明
在黑木耳品質分級的試驗任務中,為避免因數據量不足而造成訓練模型過擬合的問題,現針對實地拍攝的黑木耳數據采用隨機旋轉、隨機翻轉、高斯噪聲3種數據增強方法進行數據擴充。隨機旋轉將對原始黑木耳圖像進行0°~360°隨機調整;隨機翻轉將對原始黑木耳圖像沿水平和垂直方向隨機變換;為控制高斯噪聲對黑木耳圖像的干擾強度,將高斯分布均值設置為0.2、標準差設置為0.3。通過數據增強方法對實地采集的黑木耳數據擴充至原始數據的4倍,2 264張原始干黑木耳圖像擴充到9 056張,1 074張原始鮮黑木耳圖像擴充到4 296張(表1)。通過數據增強方式可以豐富樣本特征的多樣性,改善模型的泛化能力,并使得模型在訓練過程中提高對各品質黑木耳數據有效信息的敏感度。
MICS-CoTNet模型結構圖如圖2所示。首先,模型輸入層將分辨率為224×224的黑木耳圖像轉化為R、G、B三通道的像素矩陣。其次,經注意力模塊CNAM、淺層特征提取模塊Inverted Block和深層特征提取模塊MCoT Block學習黑木耳圖像中有效像素信息。最后將提取到的黑木耳數據關鍵特征信息輸入到全連接層。通過全連接層將所得的特征像素矩陣轉換為特征向量,經映射輸出實現黑木耳數據品質分類的全過程。表2為CoTNet和MICS-CoTNet具體結構數據對比。

注:Stage為MICS-CoTNet模型層次名稱;IB為淺層特征提取模塊Inverted Block;MB為深層特提取模塊MCoT Block; s為步長;7×7conv表示卷積核尺寸為7的卷積;1×1conv表示卷積核尺寸為1的卷積;Gelu為Gelu激活函數;BN為批歸一化層;3Max p表示池化核尺寸為3的最大池化;DSC為深度可分離卷積。

表2 CoTNet和MICS-CoTNet具體結構對比
注:Avgpool為平均池化層;Fc為全連接層。
Note: Avgpool is the average pooling layer; Fc is full connection layer.
CoTNet是在ResNet50[24]模型的基礎上,以CoT block替代殘差結構中的3×3的卷積。為避免CoTNet模型網絡層數過深導致對黑木耳圖像特征感知力趨于飽和,本文將CoTNet模型中主干提取特征層Block堆疊的次數由3、4、6、3調整至2、2、3、1,以降低模型參數容量,減少對黑木耳圖像特征的過度學習。此外,將激活函數統一為Gelu。Gelu相較于Relu激活函數加入了隨機正則的方式,以保證模型高效非線性輸出并提升模型魯棒性。
CoT block為CoTNet模型核心特征提取模塊。該模塊首先從輸入特征中獲取到3種特征向量,分別是數據的查詢值(),關鍵字()和變量值()。通過使用分組卷積以捕捉局部特征的有效表達。然后與拼接并進行連續的1×1卷積運算,用來豐富局部視野內的細節信息。最后與進行相似度的運算,捕捉全局信息同時加強模型動態學習能力,詳細結構如圖3a所示。雖然在CoT block中使用3×3的分組卷積可以強化靜態特征信息的學習,但是該方式會造成信息傳遞不流通,制約模型在黑木耳品質分級任務中的性能。此外,本文采集的黑木耳數據細節特征豐富,使用固定大小的卷積核對黑木耳數據的關鍵信息特征進行捕捉時會伴隨著無用特征的摻雜。為解決上述問題,本文提出一種多尺度深度可分離卷積(multiscale depth separable convolution,MDSC)模塊,以優化CoT block模塊的局部信息提取效果,改進的CoT block模塊結構見圖3b。MDSC的結構如圖3c所示,其核心卷積模塊是卷積核尺寸分別為3、5和7的深度可分離卷積(depthwise separable convolution,DSC)。使用卷積核尺寸為5的DSC分別與尺寸為3和7的DSC進行權值融合,用于增加局部信息量,強化局部特征學習。再使用維度融合方法將不同卷積所得的特征信息融合,促進信息流通的同時獲取不同感受野的圖像特征,進而提升CoTNet模型的識別性能。
此外,標準CoTNet雖然在中引入分組卷積對局部特征信息進行捕捉,但在CoT block自注意力機制下,聚焦的是全局感受野條件下的局部信息。CoTNet模型整體仍缺乏局部信息的感知能力,對黑木耳局部關鍵特征無法高效提取,同時受數據容量的限制造成過擬合。針對如上問題,本文對CoTNet網絡做出改進,去除CoTNet中原有的Stage1和Stage2中的Block,引入MobileNetV2[25]網絡中的Inverted Block至CoTNet網絡的Stage1和Stage2,深化CoTNet網絡對黑木耳圖像局部特征信息的感知能力。此外,Inverted Block采用一種維度大小反復轉換的方式,可以避免維度壓縮帶來的特征損失,并且DSC作為其核心卷積模塊會顯著降低CoTNet網絡的計算負載。

注:V為輸入特征向量的變量值;Q為輸入特征向量的查詢值;K為輸入特征向量的關鍵字;3GC表示卷積核尺寸為3的分組卷積;1conv表示卷積核尺寸為1的卷積;3DSC、5DSC、7DSC分別表示卷積核尺寸為3、5、7的深度可分離卷積;cat表示Concat運算方式。
在黑木耳品質分級的過程中存在特征冗余的干擾,致使網絡對局部關鍵像素權重的關注度不理想,抑制著網絡對黑木耳品質的精準判斷。
注意力機制采用對權重信息再分配的方式,來增強關鍵權值信息的表達,以降低上述負面影響。坐標注意力(coordinate attention,CA)[26]機制雖然具有通道信息和位置信息的同時注入,但是由于該注意力模塊會對獲取的特征降維衰減,影響模塊的識別精度。圖4a為CA結構,CA模塊通過conv1對輸入的特征圖維度進行壓縮,以h_conv2和w_conv2恢復特征圖維度,同時獲取特征圖的水平分量和垂直分量。上述過程使用conv1對特征圖維度壓縮雖然會有效保留模塊的計算量,但也會造成黑木耳圖像部分有效特征信息缺失,制約著注意力模塊的高性能表現。此外,歸一化注意力(normalization-based attention module,NAM)[27]機制雖然一定程度上降低了模塊計算冗余,但是由于其缺乏黑木耳關鍵權值的有效位置信息,使得其在黑木耳品質分類任務中達不到理想效果。
本文在CA和NAM的基礎上,提出坐標歸一化注意力(coordinate normalized attention module, CNAM)。CNAM首先在水平和垂直方向上使用全局平均池化的方法,將輸入的××特征圖像分別下采樣至××1和×1×維度,獲取輸入特征圖的空間位置信息。其次,融合不同維度信息,將信息輸入至NAM中。NAM以歸一化層(batch normalization, BN)中的縮放因子衡量通道維度和空間維度權值信息的重要性,抑制無關權值信息。同時保證輸入輸出維度一致,防止黑木耳關鍵像素特征在信息傳遞中丟失,有效降低CA中conv1卷積操作帶來的計算量。最后,將所得特征分量拆分與升維,并以激活函數將所得特征圖非線性變換,促使水平分量與垂直分量共同與輸入模塊的原始特征相乘。CNAM詳細結構如圖4b所示。

注:avg表示自適應池化;BN_R表示批歸一化層和Relu激活函數;h_conv是指沿垂直方向卷積運算;w_conv是指沿水平方向卷積運算;γ是通道維度的縮放因子,下標數字代表不同通道維度;λ是空間維度的縮放因子,下標數字代表不同空間維度;H是特征圖的高度;W是特征圖的寬度;C是特征圖的通道數。
根據上文(2.1和2.2節)所提優化方案,本文設計出基于CoTNet模型的S-CoTNet、CS-CoTNet、ICS-CoTNet和MICS-CoTNet 4種優化變體模型。
1)S-CoTNet模型:基于CoTNet模型,優化模型結構。將CoTNet模型中主干特征提取模塊的堆疊層數由16層調整至8層,并將網絡中的激活函數由Relu替換為Gelu,降低CoTNet模型中無關特征層的權重信息干擾,優化模型計算效率,將所得模型命名為S-CoTNet。
2)CS-CoTNet模型:以NAM模塊優化CA模塊中復雜卷積的運算負載,得到改進注意力模塊(CNAM)。將CNAM模塊載入S-CoTNet模型,強化S-CoTNet模型的特征學習能力,并將模型命名為CS-CoTNet。
3)ICS-CoTNet模型:去除CS-CoTNet模型中前4層主干特征提取模塊,將MobileNetV2網絡中輕量型卷積模塊Inverted Block引入CS-CoTNet模型,以降低CS-CoTNet模型較淺特征層存在的計算冗余,提升CS-CoTNet模型對細節像素信息的辨識度,并將模型命名為ICS-CoTNet。
4)MICS-CoTNet模型:基于ICS-CoTNet模型,將自注意力機制模塊(CoT block)中的分組卷積更換為MDSC模塊,從而優化ICS-CoTNet模型特征信息的傳遞效率,得到最終的MICS-CoTNet模型。
為客觀分析MICS-CoTNet模型的有效性,本文以模型占用內存、參數量、畫面每秒傳輸幀數(frame per second,FPS)、浮點計算量(floating points of operations,FLOPs,記為)、準確率Accarucy、精確率Precision、召回率Recall、F1值等性能參數為指標進行評價。模型占用內存、參數量、FPS、FLOPs評價指標可以有效衡量模型輕量性能。FPS是評價模型計算速度的指標,數值越高,模型檢測速度越快。FLOPs是衡量模型復雜度的指標,值越低,說明模型所消耗的計算量越小,模型越輕量。的計算方法如式(1)所示。
=(2K2?1)+(2?1)(1)
式中為卷積層輸入通道數,為卷積層輸出通道數,為卷積核大小,、為卷積層輸出特征圖的高度和寬度,、為全連接層中的輸入和輸出數。
本研究采用準確率、精確率、召回率、F1值參數對黑木耳品質分級準確性能進行評價。準確率表明黑木耳被正確識別的總體狀況。F1值權衡召回率和精確率2個模型指標,能夠綜合評估模型準確性能。召回率和精確率則是對F1值的細致說明,分別反映出在預測和實際樣本中黑木耳被準確識別的情況。
圖5為試驗中所使用的服務器設備和模型部署設備。訓練模型的服務器設備操作系統為Windows10,軟件環境配置為Python3.8+Pytorch1.9.0。硬件設備采用的CPU型號為Intel i7-7820X,主頻3.60 Ghz;GPU為兩張TitanXp,顯存12.0 G,CUDA版本11.0。模型部署設備Jetson TX2 NX使用操作系統為Ubuntu18.04,軟件環境配置為Python3.8+Pytorch1.8.0。硬件設備采用的CPU型號為ARM Cortex-A57;GPU型號為Pascal,4 GB內存。

圖5 試驗設備
將輸入模型的圖像分辨率統一調整為224×224,選擇Ranger作為訓練模型的優化器。設置初始學習率為0.001,同時模型每訓練10輪,學習率衰退0.1倍。為平衡硬件設備的內存空間和模型的優化效果,通過相關試驗表明模型訓練迭代次數和批處理大小分別設置為50和48時,模型性能表現為最佳。由于實地采集的黑木耳數據獲取條件存在局限,不同品質的樣本數量分布不均衡,使得不同類別存在著不同的識別難度,模型訓練存在過擬合問題。針對上述情況,采用Focal loss作為訓練模型的損失函數,使模型在訓練過程中對難識別樣本著重分配權重,易識別樣本減少權重分配,達到優化模型訓練效果。
此外,本文將最佳模型訓練權重以pth文件類型保存。為驗證模型在黑木耳品質分級實際應用中的可行性,本研究將MICS-CoTNet模型訓練的權重文件移植到模型部署設備Jetson TX2 NX中,并與其他模型進行對比試驗。通過FPS值評價多模型在Jetson TX2 NX設備中圖像識別速度,以驗證本文提出的方法在黑木耳品質分級實際應用中的實時性和可行性。
本文對MICS-CoTNet模型使用6種不同的優化器進行試驗,并對其性能表現加以評估。采用的優化器包括SGD(stochastic gradient descent)、Adam(adaptive moment estimation)、RAdam(adamrectified adam)、AdamW(adam weight decay optimizer)、RMSprop(root mean square propagation)和Ranger。MICS-CoTNet模型在不同優化器條件下模型識別準確率和損失曲線見圖6。在模型訓練的前20個輪次,SGD、Adam、RAdam、AdamW和RMSprop等5種優化器都存在不同程度的損失,其中RMSprop優化器波動程度最高,在干黑木耳數據中損失在0.02~2.4之間,鮮黑木耳數據中損失在0.02~1.6之間;而Ranger優化器在干黑木耳和鮮黑木耳數據中損失均在0.01~0.2之間。使用Ranger優化器在干黑木耳和鮮黑木耳數據中識別準確率曲線變化最為平滑,始終保持在0.8~1.0區間,且曲線擬合速率更快,初始識別準確率在80%以上。說明Ranger優化器能夠讓模型加速收斂,提升模型識別準確性。因此,本文選用Ranger優化器訓練模型。
為驗證本文所提方法在黑木耳品質分級任務中的性能,本試驗以MICS-CoTNet模型與標準CoTNet以及其余3個變體模型(S-CoTNet、CS-CoTNet、ICS-CoTNet)進行性能對比分析。本研究分別從準確率、精確率、召回率、F1值、模型占用內存、浮點計算量和模型參數量7個方面綜合評估模型改進前后的性能效果,比較結果見表3。S-CoTNet相較于CoTNet模型參數量有效減少,并且準確性能得到提升。說明適當減少網絡的深度可以改善黑木耳數據淺層特征的提取效果。S-CoTNet模型分別加入CA和NAM注意力的準確性能表現均低于加入CNAM注意力模塊的CS-CoTNet模型,證明CNAM注意力模塊性能較CA和NAM注意力模塊表現更佳。ICS-CoTNet模型相較于CS-CoTNet模型在準確性能各評判指標上都有著明顯的改善,并且計算量明顯降低,說明卷積模塊相對Transformer模塊對黑木耳數據的局部特征信息有較好的感知能力。雖然MICS-CoTNet模型相較于ICS-CoTNet模型多占用1.27M的內存資源,但在識別準確性能方面優勢明顯。在干黑木耳數據中,MICS-CoTNet模型識別準確率達到98.45%,F1值達到98.20%。此外,在鮮黑木耳數據中,識別準確率達到98.89%,F1值達到98.75%。MICS-CoTNet模型的準確性能表現最佳,證明了本研究提出模型的有效性。

圖6 不同優化器條件下MICS-CoTNet性能

表3 MICS-CoTNet模型設計性能對比結果
為進一步分析模型訓練的擬合狀態,本研究繪制了干黑木耳與鮮黑木耳的識別準確率和損失曲線,見圖7。從曲線整體變化分析,這5個模型經過20個訓練輪次之后都漸漸趨于收斂,波動幅度變小。S-CoTNet在前20個訓練輪次之前波動損失程度較深,而加入CNAM注意力模塊之后波動程度明顯改善,說明CNAM注意力模塊的加入使網絡產生的特征映射更具判別能力,并讓其在黑木耳品質分級任務上有著更佳的像素推理效果。MICS-CoTNet模型的識別準確率和損失曲線波動幅度最小,收斂速率最快,沒有出現過擬合和欠擬合狀態。

圖7 CoTNet及4種變體模型性能對比
將本文提出的MICS-CoTNet應用于黑木耳品質分級任務,并與在圖像識別任務中表現優秀的12種深度學習網絡[28-38]對比分析。為確保多模型對比試驗在黑木耳品質分類任務上公平進行,本研究將模型的訓練參數保持一致,各模型F1值見表4。
綜合表4中所有模型F1值可知,干黑木耳三等品、霉爛耳和鮮黑木耳二等品中F1值在46.13%~98.11%。說明模型識別過程中,上述3種品質黑木耳的部分數據存在局部特征表現不明顯的情況,模型未準確捕捉到部分樣本中的分類關鍵特征信息,僅抓取到主體特征信息因而造成分類混淆。從各模型分類表現來看,作為Transformer網絡系列的ViT base和Swin base模型在干黑木耳數據集中的F1值分別為71.72%和60.13%,鮮黑木耳數據集中為88.68%和80.08%。可見單一Transformer網絡在黑木耳品質分級任務上受數據容量條件的制約,抑制著其特征提取的表現張力,未能達到理想的識別效果。本試驗中的CoTNet、BotNet和MobileViT s模型是CNN與Transformer相結合的網絡,F1值在干黑木耳數據中均達到84%以上,鮮黑木耳數據中均達到94%以上。證明了CNN網絡和Transformer網絡相結合的可行性,但是仍不能滿足黑木耳品質高精度分類的需求。本文提出的MICS-CoTNet模型在干黑木耳一等品、干黑木耳二等品、干黑木耳三等品、霉爛耳、鮮黑木耳一等品和鮮黑木耳二等品中的F1值均達到最佳,分別為99.68%、98.87%、96.93%、97.34%、99.71%和98.11%。說明本文提出的融合CNN和Transformer的MICS-CoTNet模型在黑木耳品質分級任務中準確性能優異,可以實現黑木耳品質高精度分級。

表4 多模型在不同品質黑木耳的F1值
表5為MICS-CoTNet和多模型綜合性能評析結果。代表輕量性能的MobileNetV3 l、GhostNet和MobileViT s等模型雖然在FLOPs、模型占用內存、參數量和FPS等指標性能表現優異,但是其識別誤差率較高。本文提出的MICS-CoTNet模型在干黑木耳數據中的準確率、精確率、召回率和F1值分別為98.45%、98.30%、98.15%和98.20%,鮮黑木耳數據中分別為98.89%、98.84%、98.68%和98.75%。并且MICS-CoTNet模型浮點計算量為1.49 G,模型占用內存為30.98 M,參數量為6.04 M。說明MICS-CoTNet模型在各項準確性能的指標均達到最優,且在模型的輕量性能上同樣具備優勢。此外,MICS-CoTNet模型在服務器和Jetson TX2 NX中的FPS值分別為81、18幀/s,說明本文方法具備穩健的像素推理能力,可為不同品質黑木耳實時分揀提供重要保障。MICS-CoTNet模型與標準CoTNet模型相比較,占用內存減少96.57 M,且準確性能得到大幅提升。其中干黑木耳識別結果中,與標準CoTNet模型相比,MICS-CoTNet模型在準確率、精確率、召回率和F1值4個指標上分別提升5.22、5.21、6.88、5.22個百分點;鮮黑木耳識別結果中分別提升2.60、2.75、2.52、2.63個百分點。綜上所述,本文提出的方法準確性能高,占用內存少,能夠滿足實際生產中的黑木耳品質分級的要求。

表5 多模型黑木耳品質識別結果
本研究采用混淆矩陣方法實現了模型識別的可視化結果(圖8)。在4類不同品質的干黑木耳數據中,MICS-CoTNet模型識別結果分別高于CoTNet模型0.09、0.04、0.08和0.01。此外,在3類鮮黑木耳數據中,MICS-CoTNet模型識別結果分別高于CoTNet模型0.01、0.04和0.02。說明MICS-CoTNet模型能夠更高效地抓取不同品質類型黑木耳圖像之間存在的細微特征差別。綜上分析,MICS-CoTNet方法識別誤差小,適合實際生產中的黑木耳品質分級任務。
為直觀表現MICS-CoTNet模型提取的有效信息,本文應用Grad-Cam方法,實現了圖9所示的可視化結果。Grad-Cam使用不同色顏色表示對圖像特征的敏感程度,其中紅色與黃色聚焦的區域表示模型在識別過程中重點關注的位置,顏色越深表示該區域特征越關鍵。根據圖9的可視化結果來看,對于干黑木耳一等品、干黑木耳二等品、鮮黑木耳一等品和鮮黑木耳二等品,本文提出的方法可以排除耳郭正面主體特征的干擾,并高效捕捉耳郭背面豐富的顏色及紋理特征;對于干黑木耳三等品和鮮黑木耳三等品模型則更加側重于耳郭表面顏色為棕黃色區域的特征信息;對于霉爛耳,模型著重提取黑木耳潰爛區域的特征。
綜上所述,本文提出的方法更加關注于各類品質黑木耳的細微差別,并能夠正確捕捉各類黑木耳數據的關鍵特征,證明了本研究方法的有效性。
為提升黑木耳的品質識別精度與實時分揀效率,本文基于CNN模型和Transformer模型,提出了一種MICS-CoTNet黑木耳品質識別模型,對干黑木耳和鮮黑木耳進行品質分級識別。主要結論如下:
1)通過調整模型主干特征層的堆疊次數、改進注意力機制、引入輕量卷積模塊、優化模型核心模塊4種策略對基線模型CoTNet進行改進,降低模型內存消耗96.57M,大幅提升模型識別準確率,在干黑木耳與鮮黑木耳數據中分別提升了5.22和2.60個百分點。證明本研究的改進方法能夠穩健提升模型對黑木耳像素信息的特征感知力。
2)MICS-CoTNet模型在干黑木耳數據中F1值為98.20%,在鮮黑木耳數據中F1值為98.75%,遠高于ViT base模型在干黑木耳和鮮黑木耳數據中的F1值(71.72%和88.68%)。說明MICS-CoTNet模型相較于單一Transformer模型線性擬合能力更強。
3)MICS-CoTNet模型實際內存消耗30.98 M,在可移動設備端的實時推理速度達到18幀/s。證明本研究提出的CNN和Transformer融合模型具備穩健的運算效率,能夠滿足黑木耳品質分級的實際應用。
本文提出的MICS-CoTNet黑木耳品質識別模型準確率高、內存消耗小,能夠實現對黑木耳品質分級的實際生產應用。后續將對MICS-CoTNet模型進行進一步優化,并在可移動設備上進行黑木耳品質分級試驗,并對其他農產品品質分級進行試驗,測試本模型的泛化能力。
[1] PAK S J, CHEN F, MA L, et al. Functional perspective of black fungi (Auricularia auricula): Major bioactive components, health benefits and potential mechanisms[J]. Trends in Food Science & Technology, 2021, 114: 245-261.
[2] 孫海蛟,王術娥,王玉明,等. 黑木耳的營業價值及深加工[J]. 食品安全導刊,2022,(17):110-112. SUN Haijiao, WANG Shue, WANG Yuming, et al. Business value and deep processing of black fungus[J]. Food Safety Guide, 2022, (17): 110-112. (in Chinese with English abstract)
[3] KANG M A, JEON Y K, NAM M J. Auricularia auricula increases an apoptosis in human hepatocellular carcinoma cells via a regulation of the peroxiredoxin1[J]. Journal of Food Biochemistry, 2020, 44(10): e13373.
[4] THAKUR P S, TIWARI B, KUMAR A, et al. Deep transfer learning based photonics sensor for assessment of seed-quality[J]. Computers and Electronics in Agriculture, 2022, 196: 106891.
[5] LI L, HU D Y, TANG T Y, et al. Nondestructive testing of the quality of different grades of creamy strawberries based on Laida algorithm[J]. Journal of Food Processing and Preservation, 2022, 46(11): e17008.
[6] 王新龍,李翔. 基于分類特征提取和深度學習的牛肉品質識別[J]. 食品與機械,2022,38(7):91-98. WANG Xinlong, LI Xiang. Beef quality recognition based on classification feature extraction and deep learning[J]. Food and Machinery, 2022, 38(7): 91-98. (in Chinese with English abstract)
[7] KHORRAMIFAR A, KARAMI H, WILSON A D, et al. Grape cultivar identification and classification by machine olfaction analysis of leaf volatiles[J]. Chemosensors, 2022, 10(4): 125.
[8] CHEN Z, HE L, YE Y, et al. Automatic sorting of fresh tea leaves using vision-based recognition method[J]. Journal of Food Process Engineering, 2020, 43(9): e13474.
[9] LU X, WANG J, LU G, et al. Quality level identification of West Lake Longjing green tea using electronic nose[J]. Sensors and Actuators B: Chemical, 2019, 301: 127056.
[10] 孫麗萍,張希萌,何睿,等. 基于SVM的近紅外黑木耳多糖含量分類[J]. 電子科技,2019,32(8):16-21. SUN Liping, ZHANG Ximeng, HE Rui, et al. SVM-based classification of polysaccharide content in the near-infrared black fungus [J]. Electronic Science and Technology, 2019, 32(8): 16-21. (in Chinese with English abstract)
[11] DING Y, YAN Y, LI J, et al. Classification of tea quality levels using near-Infrared spectroscopy based on CLPSO-SVM[J]. Foods, 2022, 11(11): 1658.
[12] 朱德利,文瑞,熊俊逸,等. 融合坐標注意力機制的輕量級玉米花絲檢測[J]. 農業工程學報,2023,39(3):145-153. ZHU Deli, WEN Rui, XIONG Junyi, et al. Lightweight corn silk detection network incorporating with coordinate attention mechanism[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(3): 145-153. (in Chinese with English abstract)
[13] 蘇旭,黃驍力,王春,等. 基于深度學習與融合地形特征的黃土陷穴面向對象提取方法[J]. 農業工程學報,2022,38(10):102-110. SU Xu, HUANG Xiaoli, WANG Chun, et al. Object-oriented extraction method for loess sinkholes based on deep learning and integrated terrain features[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(10): 102-110. (in Chinese with English abstract)
[14] SHE C, SUN C, GU Z, et al. A tutorial on ultrareliable and low-latency communications in 6G: Integrating domain knowledge into deep learning[J]. Proceedings of the IEEE, 2021, 109(3): 204-246.
[15] MINAEE S, KALCHBRENNER N, CAMBRIA E, et al. Deep learning--based text classification: A comprehensive review[J]. ACM Computing Surveys (CSUR), 2021, 54(3): 1-40.
[16] 滕光輝,冀橫溢,莊晏榕,等. 深度學習在豬只飼養過程的應用研究進展[J]. 農業工程學報,2022,38(14):235-249. TENG Guanghui, JI Hengyi, ZHUANG Yanrong, et al. Research progress of deep learning in the process of pig feeding[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(14): 235-249. (in Chinese with English abstract)
[17] ERBAS N, CINARER G, KILIC K. Classification of hazelnuts according to their quality using deep learning algorithms[J]. Czech Journal of Food Sciences, 2022, 40(3): 240-248.
[18] SUN L, LIANG K, SONG Y, et al. An improved CNN-Based apple appearance quality classification method with small samples[J]. IEEE Access, 2021, 9: 68054-68065.
[19] NI J, LIU B, LI J, et al. Detection of carrot quality using DCGAN and deep network with squeeze-and-excitation[J]. Food Analytical Methods, 2022, 15(5): 1432-1444.
[20] LI X, CAI C, ZHENG H, et al. Recognizing strawberry appearance quality using different combinations of deep feature and classifiers[J]. Journal of Food Process Engineering, 2022, 45(3): e13982.
[21] ZHAO M, CAO G, HUANG X, et al. Hybrid Transformer-CNN for real image denoising[J]. IEEE Signal Processing Letters, 2022, 29: 1252-1256.
[22] WANG T, LAN J, HAN Z, et al. O-Net: A novel framework with deep fusion of CNN and transformer for simultaneous segmentation and classification[J]. Frontiers in Neuroscience, 2022, 16: 876065.
[23] LI Y, YAO T, PAN Y, et al. Contextual transformer networks for visual recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 1489-1500.
[24] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 770-778.
[25] SANDLER M, HOWARD A, ZHU M, et al. Mobilenetv2: Inverted residuals and linear bottlenecks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, US: IEEE, 2018: 4510-4520.
[26] HOU Q, ZHOU D, FENG J. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, US: IEEE, 2021: 13713-13722.
[27] LIU Y, SHAO Z, TENG Y, et al. NAM: Normalization-based attention module[EB/OL]. (2021-11-24)[2022-12-15]. https://arxiv.org/abs/2111.12419.
[28] TAN M, LE Q. EfficientNetv2: Smaller models and faster training[C]// International Conference on Machine Learning (ICML). Online: IMLS, 2021: 10096-10106.
[29] SRINIVAS A, LIN T Y, PARMAR N, et al. Bottleneck transformers for visual recognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Nashville, US: IEEE, 2021: 16519-16529.
[30] ZHANG H, WU C, ZHANG Z, et al. ResNeSt: Split-attention networks[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022: 2736-2746.
[31] HUANG G, LIU Z, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, US: IEEE, 2017: 4700-4708.
[32] LIU Z, MAO H, WU C Y, et al. A ConvNet for the 2020s[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New Orleans, US: IEEE, 2022: 11976-11986.
[33] BROCK A, DE S, SMITH S L, et al. High-performance large-scale image recognition without normalization[C]// International Conference on Machine Learning.New York, US: PMLR, 2021: 1059-1071.
[34] HAN K, WANG Y, TIAN Q, et al. GhostNet: More features from cheap operations[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Seattle, US: IEEE, 2020: 1580-1589.
[35] HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Seoul, Korea: IEEE, 2019: 1314-1324.
[36] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[EB/OL]. (2020-10-22)[2021-06-03]. https://arxiv.org/abs/2010.11929.
[37] LIU Z, LIN Y, CAO Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, Canada: IEEE, 2021: 10012-10022.
[38] MEHTA S, RASTEGARI M. MobileViT: Light-weight, general-purpose, and mobile-friendly vision transformer [EB/OL]. (2021-10-05)[2022-03-04]. https://arxiv.org/abs/ 2110.02178.
Method for the classification of black fungus quality using MICS-CoTNet
XU Yanlei, WANG Qi, ZHAI Yuting, GAO Zhiyuan, XING Lu, CONG Xue, ZHOU Yang※
(,,130118,)
Black fungus has been ever-increasing in the market at present, due to its high nutritional value and remarkable economic benefits. However, the manual grading of black fungus quality cannot fully meet the large-scale production in recent years. In addition, the mesh machine filter can be only confined to the size of black fungus as the classification feature. A huge challenge has been posed on the classification accuracy of different quality black fungus on the market. In this study, a MICS-CoTNet network model was proposed to realize the quality grading for the various quality dried and fresh fungus using deep learning. The experimental data was collected from the black fungus cultivation base in Dunhua, Jilin Province, China. Firstly, the number of stacks was fine-tuned for the backbone feature layers of the CoTNet model. The activation function was then unified as the Gelu to reduce the computational redundancy in the model. The computational effectiveness of the model was optimized to improve the overall robustness of the model. Secondly, an improved attention module (known as CNAM) was proposed. In particular, the computational load of complex convolution in the coordinate attention (CA) was optimized by the normalized attention module (NAM), in order to avoid the feature loss from dimensional compression operations in the CA attention module. Thirdly, a backbone feature extraction module in the MobileNetV2 model (the Inverted Block) was introduced into the MICS-CoTNet model, in order to improve the recognition of detailed pixel information of black fungus images. Finally, a multi-scale convolutional module (MDSC) was proposed to optimize the local information extraction of CoT block, the core module of the MICS-CoTNet model. Specifically, the grouped convolution in the CoT block module was replaced by the multi-scale convolution module, which significantly improved the efficiency of model feature information transmission and learning capability. Six optimizers were selected to test the accuracy of the model recognition: SGD, Adam, RAdam, Adamw, RMSprop, and Ranger. The experiment demonstrated that the Ranger optimizer was used as the training model, where the convergence speed of the training model was faster and the accuracy of the model was better. The MICS-CoTNet model was verified to compare with 12 models, including CoTNet, EfficientNetV2, BotNet, ResNeSt, DenseNet, ConvNeXt, NfNet, GhostNet, MobileNetV3, ViT, Swin Transformer, and MobileViT. The MICS-CoTNet model was achieved the best performance in four evaluation indexes. The identification accuracy was 98.45%, the precision was 98.30%, the recall was 98.15%, and the F1 accuracy value was 98.20% in the dried black fungus. By contrast, the identification accuracy was 98.89%, the precision was 98.84%, the recall was 98.68%, and the F1 value was 98.75% in the fresh black fungus. In addition, the parameter capacity of the MICS-CoTNet model was reduced by 96.57 M, compared with the CoTNet model. The MICS-CoTNet model was deployed in the removable device Jetson TX2 NX, in order to achieve the real-time grading of various quality black fungus at an inference speed of (18 Frame/s).
computer vision; deep learning; quality grading; attention mechanism; feature extraction
10.11975/j.issn.1002-6819.202212112
TP391.4
A
1002-6819(2023)-05-0146-10
徐艷蕾,王琦,翟鈺婷,等. 基于MICS-CoTNet的黑木耳品質分類方法[J]. 農業工程學報,2023,39(5):146-155.doi:10.11975/j.issn.1002-6819.202212112 http://www.tcsae.org
XU Yanlei, WANG Qi, ZHAI Yuting, et al. Method for the classification of black fungus quality using MICS-CoTNet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2023, 39(5): 146-155. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.202212112 http://www.tcsae.org
2022-12-15
2023-01-27
吉林省科技發展計劃重點研發項目(20230202035NC);長春市科技局重點科技攻關項目(21ZGN28)
徐艷蕾,博士,教授,博士生導師,研究方向為農業信息化。Email:yanleixu@jlau.edu.cn
周陽,博士,講師,碩士生導師,研究方向為農業信息化。Email:zhouyang@jlau.edu.cn