馬 淏,張 開,姬江濤*,金 鑫,趙凱旋
1. 河南科技大學農業裝備工程學院,河南 洛陽 471003 2. 機械裝備先進制造河南省協同創新中心,河南 洛陽 471003
雙孢蘑菇富含蛋白質、氨基酸、多糖以及多種礦物質元素,備受廣大消費者喜愛[1-3]。雙孢蘑菇的新鮮度是大多數消費者購買時考慮的重要因素。現有鑒別方式大多通過其外觀品質特征對不同新鮮度的雙孢蘑菇進行區分,作為貯藏、銷售的依據。而低溫恒濕環境下保存的雙孢蘑菇在一定存儲天數內其新鮮度很難通過其外部變化進行判斷,因此亟需一種雙孢蘑菇新鮮度量化檢測方法,對于其存儲與銷售具有重要指導意義。
近年來,基于光譜分析技術的雙孢蘑菇營養成分檢測、保鮮以及硬度分析得到了廣泛應用,劉燕德等[4]使用拉曼光譜技術建立了不同成熟度的雙孢蘑菇硬度無損檢測模型,結果表明直徑為3~5 cm的樣本可預測性更佳,預測集精度達到89.6%。孟德梅等[5]開展了雙孢菇采后感官品質變化因素分析與保鮮技術研究,對雙孢菇采后品質變化因素進行了系統概述。劉燦等[6]使用原子發射光譜技術對不同成熟度的雙孢蘑菇主要營養元素與礦物質進行了分析,發現直徑在3 cm以下的雙孢菇富含蛋白質以及礦物質元素,具有更高的營養價值。上述研究在鑒別雙孢蘑菇內外部品質方面取得了一定的研究成果,但對于存儲過程中雙孢蘑菇新鮮度的量化檢測研究仍有不足。
近紅外光譜技術(near infrared reflectance spectroscopy,NRS)具有分析速度快、效率高、測試重現性好、適用范圍廣、對樣品無損傷等優點,該技術在農產品及食品檢測中已得到廣泛應用[7-8]。王文秀等[9]利用近紅外光譜技術對豬肉新鮮度進行檢測,分別使用模擬退火算法和粒子群優化算法作嶺參數尋優,進行嶺回歸運算,相關系數分別為98.19%和97.81%。周嬌嬌等[10]使用近紅外光譜技術對團頭魴新鮮度進行新鮮度檢測,在使用競爭性自適應重加權算法提取特征波長的基礎上采用多元線性回歸分類方法,識別精度最高達到93.88%。段宇飛等[11]基于近紅外光譜技術,使用非線性降維局部線性嵌入算法對原始光譜降維,建立了LLE-SVM雞蛋新鮮度檢測模型,訓練集檢測精度達到91.1%。以上研究表明近紅外光譜技術在農產品新鮮度檢測方面具有重要研究價值。目前,關于近紅外光譜分析技術在雙孢蘑菇新鮮度量化檢測中的應用尚未見報道。
本文提出一種基于近紅外光譜技術的雙孢蘑菇新鮮度量化檢測方法。以雙孢蘑菇貯藏天數作為其新鮮度量化評價指標,對預處理后的原始光譜分別使用主成分分析以及連續投影算法完成數據降維,基于極限學習機分類器結合不同優化算法構建預測模型,以期能在保證預測精度的同時有效提高檢測速度。
實驗選用當天采摘的新鮮A類雙孢菇,2020年7月購于洛陽市奧吉特食用菌工廠并采用分層、分塊包裝且恒溫箱內低溫保存快速運至實驗室。選擇海洋光學4000+近紅外光纖光譜儀,有效光譜范圍為345.89~1 040.49 nm,光譜間隔為0.21 nm,共計3 648個波段。
篩選出200個菇蓋直徑4 cm且無表面應力損傷、菇體開裂的樣本,在潔凈的工作臺處理后,將樣本分為1~5組,每組40個樣本。各組實驗樣本模擬超市保存條件,放置在0 ℃恒溫恒濕試驗箱中貯藏,每天依次從1~5組恒溫箱內取出40個雙孢蘑菇樣本,使用近紅外光譜儀進行光譜數據采集,每次實驗前光譜儀預熱20 min,單個樣品數據采集時間歷時30 s,實驗歷時5 d。
在近紅外光譜信號采集過程中,受電源穩定狀態、采集角度等因素影響,獲得的光譜數據存在不同程度的噪聲干擾。故選用SG平滑濾波與MSC校正的方式消除原始光譜噪聲、基線平移以及光散射的影響。此外,光譜數據在采集初始與結束階段,光譜波動較大,噪聲明顯,為避免這一影響,故選取399.81~999.81 nm作為數據處理范圍,原始光譜及校正后的光譜如圖1所示。

圖1 光譜預處理(a): 原始光譜; (b): 平滑+多元散射校正Fig.1 Spectral pretreating(a): Original spectra; (b): Smoothing+MSC
算法流程如圖2所示,首先使用連續投影算法對原光譜進行降維處理,優選最優光譜波段組合; 然后將降維后的優選光譜組合輸入到不同分類模型中,進行分類預測。利用分類準確率作為模型的評價指標,其定義如式(1)所示。

圖2 算法流程圖Fig.2 Flowchart of data processing
(1)
式(1)中,X為測試集樣本數量,Xi為第i類識別分類正確的樣本數量。
1.3.1 數據降維算法
連續投影算法(SPA)是一種前向循環特征選擇方法[12],通過分析迭代向量的投影,使變量之間的共線性達到最小,最終優選出最優波長組合M及最佳波長變量數N。SPA具體計算步驟如下:
(1)迭代開始前,設定循環次數N,在全光譜Xm×p(m個樣本,每個樣本有p個波長數據)下,任選一光譜波長不同樣本數據記為列向量xi,未選列向量記為集合
S{i, 1≤i≤p,i?{k(0),k(1), …,k(n-1)}}
(2)逐個計算Xi在剩余列向量上投影
(3)記錄、提取最大投影向量的光譜波長
q(n)=arg(max(‖Pxi‖)),i∈S
(4)令:Xi=Pxi,i∈S;
(5)令i=i+1,如果i (6)最后,提取出的特征波長變量集合為 M={Xq(i);i=1, 2, …,N-1} 連續投影算法在全波段下提取的特征波長,能夠最大限度消除原始光譜數據矩陣中的冗余信息,建模過程中,能夠顯著提高模型計算的準確率、運算速度以及模型的穩定性。 1.3.2 分類器 極限學習機(ELM)算法最早由Huang等針對傳統神經網絡容易陷入局部最優解、參數設置多、訓練時間長等固有缺點提出的一種單隱含層前饋神經網絡的神經網絡算法[13]。ELM訓練模型內的輸入層與隱含層間的連接權值以及隱含層神經元閾值是隨機生成的,其模型預測精度主要由隱含層節點個數決定,因此ELM具有極快的學習速度以及泛化性。但是在給定模型參數下,存在隨機數值為0的情況,導致隱含層的輸出矩陣不為滿秩,進而使部分隱含層神經元節點失效,最終造成模型預測精度較低、穩定性較差的后果。 粒子群優化(PSO)是一種常用的尋優算法,是通過控制種群規模、速度、以及運動方向計算得到局部最優解,進而得到全局最優解的過程。 海鷗優化算法(SOA)是一種新穎的生物啟發式元啟發算法,其模仿自然界中海鷗的遷徙和攻擊行為,采用仿生智能算法進行參數尋優,目前已廣泛用于函數優化、約束優化等問題[14]。SOA有較好的尋優能力,能夠為學習模型尋找最優的初始值,從而得到最優的ELM訓練模型,SOA-ELM算法流程如圖3所示。 圖3 SOA優化ELM算法流程圖Fig.3 The flowchart of the ELM algorithm optimized with SOA 為實現對雙孢蘑菇新鮮度快速精準的檢測,本研究分別采用主成分分析(PCA)和SPA特征波長選擇的方式對原始光譜數據進行降維處理,最后通過對比分析模型找出最優的解決方案。 主成分分析是常用的一種數據壓縮特征提取方法,其優勢在于簡化原始高維變量的同時能最大限度保留原始數據的信息。采用主成分分析法對雙孢蘑菇原始光譜數據進行降維分析,樣品在主成分空間的分布如圖4所示。 圖4 主成份分析結果Fig.4 Results of principal component analysis 從圖中可以看出前三個主成分的貢獻率分別為72.03%,15.33%和5.35%,累計貢獻率為92.89%,故可以認為三個主成分能夠較好的代表原始光譜數據信息。此外,由散點圖的分布可知,主成分分析法能有效區分樣本的新鮮度,其中,第1天與第5天的聚合效果最好,區分度最高,這與第1天與第5天的樣本差異性較大緊密相關。此外,由于樣本本身差異的不明顯及奇異值的存在導致第2天到第4天的樣本出現個別樣本重合,聚合效果相對較差,但主體部分仍有顯著的區分度。故通過主成分分析結果可以看出,所選擇樣品具有明確的可分性,且效果較好。 實驗所用儀器為高分辨率近紅外光譜分析儀,波長較多,共計3 416個波段,若將所有波段輸入分類模型,波長間冗余信息繁雜,不僅輸入量大,訓練時間過長,而且精度較低。SPA算法是通過最小化變量間共線性來選擇最優波長組合,若通過SPA特征提取的降維方式對原始光譜提取特征波長,則所提取的特征波長具有相互獨立、互不影響的特點且優化波長組合能有效代表全光譜的數據特征。故選用SPA算法對原光譜進行降維處理,圖5是采用SPA算法對預處理光譜提取的特征波長組合。 圖5 優選特征波長分布Fig.5 Preferred characteristic wavelength distribution 對所采集的200條光譜曲線,隨機選擇160個樣本為訓練集,40個為測試集,以不同天數的雙孢蘑菇為輸出,根據測試集的內部交叉驗證均方根誤差值作為篩選波長組合的選擇標準。從圖5可以看出,SPA算法提取最佳波長組合為: {556.87,445.51,481.15,885.10,802.25,720.90,861.34,909.79,905.58,924.44,873.17,879.06} nm,共計12個特征波長,RMSE為0.124 3,而近紅外光譜儀在光譜采集過程中具有連續性的特點,相鄰較近的波長具有一定的關聯關系,因此可以選擇相鄰間隔較小波長組內,重要性較高的波長,作為該波段范圍內最終選定波長。因此,最終選擇特征波長為{556.87,445.51,481.15,885.10,802.25,720.90,861.34,909.79,924.44,873.17} nm,共計10個波段,其重要性依次遞減,特征數量占原始全光譜的0.32%。此外,通過觀察所選特征波長的分布可以看出,可見光波段范圍內的特征波長數為3,近紅外短波波段內的特征波長數為9,說明近紅外短波波段對雙孢菇新鮮度檢測貢獻值更大,并且特征波長選擇多集中在900 nm處,這是因為特征波長在910 nm處對C—H鍵延伸具有吸收特性,說明雙孢蘑菇貯藏過程中蛋白質在分解消耗。 利用訓練集160個樣本的光譜數據以及天數進行分類,使用SPA+SOA-ELM算法建立雙孢蘑菇新鮮度檢測的分類模型,以分類的準確度作為評價準則。分別與全光譜+ELM、PCA+ELM、SPA+ELM和SPA+PSO-ELM進行對比,考慮到ELM分類模型存在一定隨機性,取5次運行結果的平均值作為最終預測精度,得到的測試集分類結果對比如圖6—圖10所示。 圖6 全光譜+ELM檢測結果Fig.6 Full spectroscopy and ELM detection results 圖7 PCA+ELM檢測結果Fig.7 PCA+ELM detection results 圖8 SPA+ELM檢測結果Fig.8 SPA+-ELM test results 圖9 SPA+PSO-ELM檢測結果Fig.9 SPA+PSO-ELM test results 圖10 SPA+SOA-ELM檢測結果Fig.10 SPA+SOA-ELM test results 為了比較不同預處理方式與分類算法的優劣,將模型參數設置和測試結果統計如表1所示。從表1可以看出,PCA+ELM模型測試集結果最佳,分類準確率為95%; 以SPA選擇特征為輸入的SOA+ELM、PSO+ELM與ELM分類模型識別準確率分別為94%,92.5%和88%; 而全光譜+ELM分類準確率最低為75%。由此可知,通過使用PCA提取主成份或SPA算法提取特征波長作為訓練集輸入時,其測試集精度均遠高于全光譜訓練模型,這是由于通過對樣品分類選取合適的特征,能有效降低樣本特征的維度和冗余性,增強了變量與因變量的關系。 表1 模型測試結果對比表Table 1 Comparison results of the classificationmodel testing 對于以SPA選擇特征為輸入的SOA+ELM、PSO+ELM、ELM算法來說,后兩者模型相較于前者模型分別提高了5.1%和6.8%的識別精度,體現了元啟發式算法具有較好的全局尋優能力,能夠為ELM模型尋找較優的初始值。此外,也可以看出,SOA優化后的模型測試精度略高于PSO優化模型,且PSO訓練集準確度高于測試集精度,存在過擬合現象。由此可知,PSO算法尋優過程依賴于參數設定,局部搜索能力較差、搜索精度不高,粒子在俯沖過程中可能錯失全局最優解,而海鷗優化算法在全局搜索過程中,是根據當前最佳位置計算新位置、方向,并且在搜索過程中不斷改變更新、尋找最佳位置和適應度值,表明SOA算法較優的魯棒性。 由上述分析可知,在所有模型中,以PCA+ELM模型結果最佳,這是由于PCA提取主成份是通過構建全波段不同權重比例系數得出新特征的過程,能夠最大限度保證原始光譜信息,同時去除冗余信息,但是以全光譜作為輸入計算主成份過程計算量大、建模效率低,不利于便攜式光譜儀的發展,而SPA+SOA-ELM模型輸入僅為10個特征波長,建模速度快且精度較高,為研制新型便攜式的光譜儀提供了理論依據。 (1)分析特征波長分布,可見光波段內的特征波長數為3,近紅外短波波段內特征波長數為9,可知近紅外短波區域的特征波長數量多于可見光區域,表明該處特征波長對雙孢蘑菇新鮮度量化檢測的貢獻最大,也反映了雙孢蘑菇貯藏過程中蛋白質成分變化較多。 (2)開展了基于近紅外光譜的雙孢蘑菇新鮮度量化檢測方法研究,提出以貯藏天數作為雙孢蘑菇新鮮度量化評判的綜合指標。基于SG+MSC方法對雙孢蘑菇原始光譜預處理的基礎上,分別使用PCA和SPA算法對原光譜數據進行降維處理,繼而通過比較全光譜+ELM、PCA+ELM、SPA+ELM、SPA+PSO-ELM和SPA+SOA-ELM模型可知,降維處理后的訓練集和測試集精度均顯著高于全光譜。 (3)為了提高模型檢測速度,基于統計學方法,探索了可見-近紅外短波光譜預測雙孢菇新鮮度的有效方式,其中,SPA+SOA-ELM在全光譜3416個波長下提取了10個有效波長,進而基于SOA-ELM建立了雙孢菇新鮮度檢測模型,該模型訓練集和測試集的正確率分別為93.25%和94%,該結果與采用主成分分析法基本保持一致,但極大的減少了計算量。故SPA+SOA-ELM成功用于雙孢蘑菇新鮮度的量化檢測,為進一步開發快速、便攜式及無損雙孢菇新鮮度量化檢測儀器提供了理論依據。
2 結果與討論
2.1 主成分分析

2.2 SPA特征波長選擇

2.3 分析模型對比






3 結 論