夏珍珍,鄭 丹,夏 虹,姚晶晶,王勝鵬,仇建飛
(1.湖北省農業科學院農業質量標準與檢測技術研究所 農業部農產品質量安全風險評估實驗室(武漢),湖北武漢 430064;2.湖北省農業科學院果樹茶葉研究所,湖北 武漢 430064;3.吉林省農業科學院農業質量標準與檢測技術研究所 農業部農產品質量安全風險評估實驗室(長春),吉林 長春 130033)
香菇(Lentinuseduodes,Shiitake)是藥食同源的食用菌品種,富含多種營養物質,如人體必需氨基酸、蛋白質、維生素、多糖、核苷酸等。現代醫學研究發現香菇子實體和菌絲中含有大量生物活性物質,具有防癌、抗癌、降低血壓血脂等醫藥保健價值[1]。我國是香菇的發源地,早在4 000年前就有食用記載。由于香菇的附加產值較普通農作物高,近年來香菇種植更是成為山區產業扶貧的重要模式之一[2]。目前我國的香菇主產區可分為東南(福建、浙江)、華中(湖北、河南)、東北(遼寧、吉林)和西南(四川、重慶、云南)等。隨著香菇種植范圍的擴大,其產量也隨之增加,2018年我國香菇產量達1 043.12萬噸,占我國食用菌總產量的16.4%,是名副其實的主要品種[3]。
現有香菇的產品標準有兩項,分別為國家標準《GB/T 38581-2020 香菇》[4]和行業標準《GH/T 1013-2015 香菇》[5]。標準中的質量評價指標主要包括感官要求(形態、色澤、氣味等)、理化指標(水分、砷、鉛、汞、鎘等重金屬指標)。感官指標的描述多為無法量化的文字描述,理化指標則是重金屬含量的要求,屬于安全要求。標準對于香菇中的多糖類物質、蛋白質類物質、小分子揮發性風味物質這類品質指標暫無規定。但是這類有機物與香菇的口感和營養價值密切相關,從而影響著消費者的購買習慣。栽培香菇的生長環境如光照、氣溫、水源等差異會造成香菇中有機物的累積差異,因而香菇的品質跟種植的產地環境有很大的相關性。我國香菇種植范圍廣,不同產地間的香菇品質參數差異很大[6]。隨著飲食結構的調整,人們對食物的營養價值要求提高。香菇品質的高低不僅影響其內含的有機物組成和含量,且不同品質香菇間的售價也存在較大差異。有些不法商家更是為了經濟利益,混淆產地,以次充好。針對這一問題,建立快速、準確的香菇產地鑒別方法成為分析工作者的一項重要任務,且對保障香菇品牌和消費者利益具有實際意義。
目前用于產地鑒別的分析技術包括光譜法、質譜法、分子生物學等[7]方法,但對于香菇產地的研究報道較少,僅有朱哲燕和王升等[6,8]分別利用中紅外光譜法和氣相色譜-質譜法的香菇產地研究。由于中紅外光譜法和氣相色譜-質譜法自身的特點,如對樣品的制備周期長、提取方法復雜耗時、有機溶劑消耗量大、分析速度長等,制約了其在快速分類領域的應用。近紅外光譜技術因具有快速、無損、測量方便、成本低等特點已經在食品、醫藥、石油領域廣泛應用[9-10]。近年來,近紅外光譜也廣泛用于小麥、芝麻、茶葉等農產品真實性溯源方向[11-13]。但由于近紅外光譜吸收帶寬,光譜重疊嚴重,因而必須結合化學計量學才能實現定性、定量分析。本文采集不同產地干香菇樣品的近紅外漫反射譜結合不同的光譜預處理方法和波長選擇方法,建立了香菇產地鑒別模型,可為香菇的質量控制提供新的評價方法。
采用美國Antaris型傅里葉變換近紅外光譜儀(Fourier transform near infrared spectrometer,FT-NIR),測量選用積分球漫反射光學儀器,光譜掃描區間4 000 ~ 10 000 cm-1,光譜分辨率2 cm-1,InGaAs檢測器。光譜數據處理采用Matlab R2017b(The Math Works,Natick,USA)軟件。
采集吉林、湖北、福建不同產地的栽培香菇干樣共計113個,香菇分別購于基地和市場。在低溫4 ℃冷庫中避光保存。其中吉林香菇樣品58個,湖北香菇31個,福建香菇24個,香菇產地信息列于表1。采用粉碎機將樣品粉碎,過100目篩供光譜測試用。將樣品倒入與儀器配套的旋轉杯中充分壓實后采集光譜,每條光譜掃描64次取平均作為最終光譜。

表1 香菇樣本數和產地分布情況Table 1 Sample numbers and origins of the shiitake samples in the research
由于香菇樣本顆粒不均、獲得的近紅外光譜信息復雜,且存在一些噪聲、基線漂移、背景干擾等問題,需對光譜進行一定的預處理,以提高模型的效果。運用到的預處理方法有求一階導數(First order derivative,1st)、小波變換(Continuous wavelet transform,CWT)、多元散射校正(Multivariate scatter correction,MSC)、標準正態變換(Standard normal transformation,SNV)等[14-17]。
由于近紅外光譜的譜峰寬,特征吸收不明顯,存在大量冗余信息,因此需進行必要的波長篩選,挑選出特征波長進行建模。隨機測試(Randomization test,RT)是由邵學廣課題組提出的一種變量篩選方法,隨機檢驗通過建立大量隨機模型,利用隨機模型與真實模型的統計值之間是否具有統計性差異確定有效參數[18],已經廣泛應用于近紅外數據的有效波長選擇[19],本文采用該方法進行特征光譜信息的篩選。
偏最小二乘判別分析(Partial least squares discriminant analysis,PLSDA)是一種廣泛應用的分類方法[20],分別建立了3種香菇產地的判別模型。通過優化最佳因子數得到最優的判別模型,并通過模型預測的正確率評價3個產地的模型分類效果,模型的訓練集和預測集樣品信息如表2所示。

表2 訓練集和預測集樣品信息Table 2 Varieties of calibration set and prediction set of samples
不同產地香菇的近紅外原始譜如圖1A所示,各近紅外光譜的變化趨于一致,分別在8 400、6 786、5 764、5 159、4 709、4 281 cm-1附近有較寬的吸收峰,主要為香菇中有機物的C—H、N—H、O—H振動的倍頻峰。在7 000 cm-1后香菇樣品的光譜出現漂移,因而需對上述光譜進行一定的前處理。選取的光譜預處理方法包括CWT、1st、MSC和SNV,處理后的光譜如圖1(B~E)。可觀察到,經光譜預處理后可消除光譜間的漂移,增加光譜的分辨率。但由于不同產地香菇光譜間的差異較小,仍無法從譜圖信息上直接區分,需進一步借助化學計量學的方法解析不同產地間香菇的近紅外光譜差別。
主成分分析(Principal component analysis,PCA)是一種常用的聚類分析方法,通過將多變量的光譜空間轉換為新變量空間來減少信息的冗余,從而最大限度的保留和發掘原光譜數據的特征。對栽培香菇的原始光譜進行主成分分析,得到的前兩個主成分得分圖如圖2A所示,其中藍色圓點表示吉林省的香菇樣品,紅色點表示湖北省的香菇樣品,黑色點表示福建省香菇,前兩個主成分的貢獻率達到98.3%,包含了絕大部分的樣品信息。分別觀察各色圓點,發現各色圓點均有一定的聚集,整體看三色圓點有較大范圍的重合,且在第一主成分(PC1)上的重疊較第二主成分(PC2)嚴重。兩兩考察,黑色點與紅色點、黑色點與藍色點的重疊部分較大,而紅色點與藍色點的重疊范圍相對較小,總體看原始光譜的PCA聚類效果不好,未能發現各省份香菇的區分特征。為了提高PCA的分類效果,采用不同的光譜預處理技術以減少光譜的背景漂移和分辨率差等問題。經不同的光譜預處理后的PCA得分圖如圖2(B~E)所示。
圖2B和C為經CWT和1st處理后的前兩個主成分得分圖,前兩個主成分方差貢獻率分別為91.9%和91.7%,相比原始光譜的貢獻率有所下降但仍代表了絕大部分的樣品信息。相比原始光譜的得分圖,經過處理后各色散點間的相互覆蓋程度有一定減少,尤其是紅色點與藍色點的重疊范圍進一步減少,因而經CWT和1st處理后光譜的PCA區分效果相對原始光譜變好。圖2D和E為經MSC和SNV處理后的前兩個主成分得分圖,前兩個主成分方差貢獻率分別為76.5%和77.6%,與原始光譜和經CWT和1st處理后光譜相比,經MSC和SNV處理后其方差貢獻率進一步下降,但依然解釋了大部分的樣品信息。且經MSC和SNV處理的黑色和紅色圓點的聚集較原始光譜和CWT和1st處理的緊湊;藍色圓點的聚集程度也較原始光譜緊湊,但相比于CWT和1st的處理有所分散。觀察藍色點和紅色點的覆蓋程度(覆蓋程度越大表示各省類別相差越小,反之則越大),表明其覆蓋程度相對于原始光譜有明顯減小,但相較于CWT和1st處理,從其對角線的角度觀察,兩色圓點覆蓋程度略有減小。綜上可知,經過預處理的光譜PCA分類效果較原始光譜有較大改善,因而可以確定對原始光譜進行預處理的必要,但不同預處理方法的改善效果差別不明顯。由于基于PCA只能定性的分析香菇產地,無法實現對未知香菇產地的鑒別,因而需對樣品進一步建立各省份香菇的產地判別模型。





通過PLSDA方法將每類產地的香菇樣品按照3∶1比例隨機分為建模集和預測集兩部分,建模集用于建立PLSDA判別模型,預測集用于考察已建立模型的判別效果,預測結果列于表3中,預測結果通過預測正確率表示,其中分省預測正確率和總預測正確率按照下列公式計算:
其中,與實際情況相符的樣本數量包括兩部分:樣本實際是屬于該省份且模型預測為“是”的情況和樣本實際不屬于該省份且模型預測為“不是”的情況。
以表3中Raw+PLSDA結果為例,吉林省的預測集樣本共有33個,其中屬于吉林省的樣本為17個,預測屬于吉林省樣品17個,不屬于吉林省樣本16個,預測不屬于吉林省樣本13個,因此與實際情況相符的樣本數量為30個,則吉林省的分省預測正確率為90.91%。同理,湖北省和福建省的分省預測正確率分別為93.94%和96.97%,最終的總預測正確率為93.94%。
從表3還可以看出,通過CWT、1st、MSC、SNV預處理后光譜的PLSDA的分省預測正確率較原始光譜的分省預測正確率有所變化,如吉林省的預測正確率得到提高。分析湖北省PLSDA的預測率,CWT處理后預測正確率略有提升,1st和MSC處理后的模型正確率維持不變,SNV處理后的模型正確率略有降低。分析福建省PLSDA的預測率,除MSC方法處理后預測率較原始數據持平,其他處理方法的預測率均略有下降,但也均為93.94%。比較3個省的總預測正確率,發現CWT處理較原始光譜和其他處理方式的光譜的模型預測正確率高,達到95.96%。因而選擇CWT預處理方法對光譜數據進行后續處理。

表3 不同預處理的PLSDA的分類結果Table 3 The results predicted of PLSDA by different preprocessing method
全波長范圍的近紅外光譜存在大量冗余信息,采用全波長進行分類建模,會增加計算量。為了選擇有效的變量需要進行波長選擇,選擇RT方法來進行模型優化。選擇波長后的模型預測結果見表4。將Raw+RT+PLSDA的預測結果與表3中Raw+PLSDA結果進行比較,發現選擇波長后,吉林、湖北、福建的預測正確率較原始光譜有所提高,總預測正確率由93.94%提高到95.96%。其中福建省的預測正確率提高最明顯,達到100%;吉林省的模型預測正確率提到93.94%;而湖北省的模型預測正確率維持不變,推測可能是由于此處建模樣品數量較少造成,但通過減少參與建模的波長,客觀上降低了模型的冗余度,提高了模型的解釋性,因而選擇波長是必要的。
經CWT預處理和RT選擇特征波長后,PLSDA的總預測正確率也有所提高,達到96.97%。其中,吉林省的模型預測正確率提高最明顯,達到100%,湖北省的模型預測正確率達96.97%,福建省的模型預測正確率下降至93.94%,但CWT+RT+PLSDA模型預測的總預測正確率還是較Raw+RT+PLSDA模型的預測正確率提高了近1%。因而得出,CWT結合RT得到的香菇產地模型預測效果優于原始光譜結合RT,對原始光譜進行預處理十分必要。另外,通過RT波長選擇后,原始光譜的3 112個變量,縮減到1 200個變量以下,極大地降低了運算的數據量,其選擇的具體波長分布見圖3。

表4 波長選擇后的PLSDA的分類結果Table 4 The results predicted of PLSDA by different wavelength selection methods


本文研究了利用近紅外光譜結合化學計量學方法快速區分香菇地理起源的可行性,為香菇產地的快速無損判別提供了一種新方法。對于地理特征,采用PLSDA分別建立了吉林、湖北、福建等香菇主產省份的產地判別模型,然后通過4種光譜預處理方法和波長選擇方法進行優化。判別分析模型效果均由預測集中的樣本預測正確率進行評估。結果發現,CWT和RT的組合具有更好的預測結果。本方法為香菇產地的真實性溯源提供了一種新方法,在香菇產業發展具有一定的實際意義,但由于文中建立的香菇產地判別模型僅覆蓋吉林、湖北、福建3個香菇主產省份,并未覆蓋全國樣品,無法實現除此之外其他省份的香菇產地判別,后續將繼續擴大樣品覆蓋范圍,從而擴大香菇產地判別模型的應用省份。