郝 勇,杜嬌君,張書敏,王起明
1.華東交通大學機電與車輛工程學院,江西 南昌 330013 2.南昌海關技術中心,江西 南昌 330013
冬棗又名凍棗、雁來紅或蘋果棗,是目前公認的鮮食優質栽培品種。冬棗營養極其豐富,含有天門冬氨酸、蘇氨酸、絲氨酸等19種人體必需的氨基酸,且維生素C的含量尤其豐富,有“活維生素丸”之美譽,營養價值為百果之冠[1]。冬棗的可溶性固形物(soluble solids content,SSC)是其重要的內部品質和成熟度評價指標。冬棗生長環境的溫度、水分、光照、風和土壤等因素均會對其采后轉紅指數產生影響,造成冬棗顏色和SSC差異,而消費者常會將顏色與其SSC進行關聯來判斷冬棗的口感。因此,對于不同顏色冬棗SSC含量的研究是非常必要的。
SSC含量的測定方法主要分為折射法和光譜分析法,折射法的主要缺點是需破壞被測樣品;而可見-近紅外(visible and near-infrared spectroscopy,Vis-NIR)光譜技術是一種快速、無損、綠色的現代檢測技術,根據全波段或者特征波長給出的信息與樣品屬性或含量間的相關關系對樣品進行定性和定量分析。然而,由于Vis-NIR光譜常含有較多冗余信息及干擾,影響了模型的精度和穩定性,因此,需要進行光譜預處理及變量篩選,實現對干擾信息的抑制或濾除,從而提高后續模型的分析精度。李勇等討論了油菜籽樣品顏色對波長為700~2 500 nm譜區的近紅外光譜分析準確度的影響,認為樣品表面顏色越深, 吸光度越大, 在短波處最為明顯[2];姚鑫淼等研究了玉米子粒顏色對850~1 050 nm的光譜波段的淀粉含量的影響,結果表明樣品的外觀顏色是影響其分析精度的因素之一,采用平滑求導等光譜預處理方法可提高模型的預測性能[3]。郭成等采用無信息變量消除(UVE)方法對無花果SSC的PLS模型建模變量進行優選,其預測相關系數可達到0.89[4]。Tian等采用光譜預處理和隨機森林變量選擇方法對蘋果SSC在線預測模型進行優化,變量減少為原始變量的86%,而RMSEP減小了17%[5]。
本工作采用Vis-NIR光譜結合Norris-Williams平滑(Norris-Williams smoothing,NWS)、連續小波導數(continuous wavelet derivative,CWD)、多元散射校正(multiplicative scattering correction,MSC)、標準正態變量變換(standard normal variate,SNV)和NWS-MSC五種預處理方法[6-8]和蒙特卡羅無信息變量消除(Monte Carlo uninformative variable elimination,MCUVE)方法[8]對不同顏色(紅綠相間MJ,綠色GJ和紅色RJ)冬棗樣品的SSC進行偏最小二乘(partial least squares,PLS)定量分析模型的構建和優化,以期實現不同顏色冬棗SSC的準確分析[9]。
樣品(大荔冬棗)來源于陜西某棗園,冬棗樣品如圖1所示。采集了同一批次、取大小均等且表皮顏色不同的三種冬棗(紅綠相間MJ,綠色GJ和紅色RJ)各45個樣品,共計135個。采用冷庫保鮮處理,用蓄冷箱送至實驗室。
光譜采集裝置如圖2所示,采用透射方式進行光譜的采集,Ocean Optics USB2000 Vis-NIR光譜儀(中國海洋光學公司)用于冬棗光譜的檢測,2盞100 W的飛利浦鹵素燈作為光源,光譜范圍為340~1 027 nm,光譜分辨率約為0.4 nm。

圖2 光譜采集裝置示意圖
光譜采集前,將三種顏色的冬棗樣品從冷藏室取出并置于室溫下8 h,相對濕度為25%~30%;采集距離為10 cm,隨機翻轉冬棗位置5次進行光譜的采集,5次測量的平均光譜作為最終的分析光譜。采用SpectraSuite軟件進行光譜數據的采集和存儲。
三種顏色冬棗樣品原始光譜的平均光譜如圖3所示,從圖中可知,不同顏色的冬棗樣品光譜譜形相似,主要不同之處在于光譜響應強度間的差異。此外,光譜圖不僅包含其組分信息,還包括光譜儀相關器件引入的噪聲、雜散光和樣品背景、顏色等干擾信息引起的光譜反射率的變化,因此,需要對光譜進行預處理,以提高后續模型的分析精度。

圖3 冬棗樣品平均光譜圖
每個冬棗樣品均勻地選擇5個點進行SSC的測試,其平均值作為該樣品的最終SSC的標準參考值。采用SSC均勻分布的方式將樣品集劃分為校正集和測試集,每種顏色冬棗樣品校正集和測試集樣品數量比為2∶1,即每種顏色的45個冬棗樣品中,30個樣品用于建模,15個樣品用于模型的測試。
為研究不同顏色冬棗SSC構建的PLS模型的分析精度,分別建立不同顏色冬棗SSC的單一模型和混合模型。單一模型即單種顏色冬棗SSC建模,混合模型即兩種或三種顏色冬棗SSC混合建模。為了描述方便,單一模型校正集MJc,GJc和RJc分別表示建模樣品集是為紅綠相間冬棗、綠色冬棗和紅色冬棗;混合模型校正集MJc-GJc和MJc-GJc-RJc分別表示建模樣品是由紅綠相間冬棗-綠色冬棗和三種顏色的冬棗組成;MJv,GJv,RJv和MJv-GJv-RJv分別表示測試樣品集是由紅綠相間冬棗、綠色冬棗、紅色冬棗和三種顏色冬棗組成;冬棗樣品SSC的統計信息如表1所示。

表1 冬棗樣品及其SSC含量統計信息
采用模型的校正相關系數(correlation coefficient of calibration set,Rc)和交叉驗證均方根誤差(root mean square error of cross-validation,RMSECV)作為評價指標對光譜的預處理方法和變量進行優選,采用測試集的預測相關系數(correlation coefficient of prediction set,Rp)和預測均方根誤差(root mean square error of prediction,RMSEP)作為模型預測精度的評價指標。其中Rc越大,RMSECV越小,模型的精度越高;Rp越大,RMSEP越小,模型的預測能力越好。Matlab R2018a用于光譜數據的預處理、變量優選以及PLS模型的建立。
樣品光譜采集時易受光譜儀噪聲和雜散光等因素的干擾,引起光譜反射率的變化。因此,需要對樣品光譜進行預處理,抑制或濾除干擾信息以提高模型的分析精度。為了研究不同預處理方法對冬棗SSC模型精度的影響,分別采用NWS,CWD,MSC,SNV和NWS-MSC五種預處理方法對光譜進行信息變換和提取,并計算其Rc和RMSECV對模型精度進行評價,PLS模型的校正結果如表2所示。由表可知,校正集為MJc,GJc,RJc,MJc-GJc,MJc-GJc-RJc建立的五種PLS模型分別選用NWS,CWD,NWS,NWS-MSC和SNV方法進行預處理時,模型的精度均有明顯提升。

表2 不同預處理方法的冬棗可溶性固形物PLS模型的校正結果
光譜的吸收主要反映了有機物中C—H,O—H和N—H等含氫基團信息,而SSC主要是指可溶性糖類,包含重要的—OH基團信息。在冬棗樣品Vis-NIR光譜中,波長725 nm處具有明顯的由于O—H鍵伸縮振動產生的吸收峰。圖4(a)為采集的三種顏色共135個冬棗樣品的原始可見-近紅外光譜圖,圖4(b)為采用優選的SNV方法進行預處理后的光譜圖。由圖可知,預處理后在一定程度上消除了原始光譜中的背景噪聲及其他影響。

圖4 冬棗樣品的可見-近紅外光譜圖與SNV預處理后的光譜圖
2.2.1 單一顏色冬棗SSC模型分析
由于三種顏色的冬棗樣品光譜譜形相似,可用不同顏色冬棗樣品的預測集對冬棗SSC模型進行評價。分別對MJc,GJc和RJc樣品集進行建模,采用MJv,GJv和RJv三個測試集樣品對模型的預測能力進行評價。單一顏色冬棗樣品SSC的PLS模型的預測結果如表3所示。
由表3可知,對于單一顏色冬棗的PLS模型,當預測集樣品與建模集樣品的顏色性質相同時,其模型的預測結果較好,即校正集MJc中,MJv為預測集時預測結果最佳;校正集GJc中,GJv為預測集時預測結果最佳;校正集RJc中,RJv為預測集時預測結果最佳。

表3 單一顏色冬棗樣品SSC的PLS模型的預測結果
2.2.2 混合顏色冬棗SSC模型分析
分別對混合顏色MJc-GJc和MJc-GJc-RJc樣品集進行建模,采用MJv,GJv,RJv和MJv-GJv-RJv四個測試集樣品對模型的預測能力進行評價?;旌项伾瑮棙悠稴SC的PLS模型的預測結果如表4所示。

表4 混合顏色冬棗樣品SSC的PLS模型的預測結果
由表4可知,當預測集中只含有與校正集相同顏色的樣品時,其預測結果較好,即校正集為MJc-GJc時,模型對MJv和GJv的預測精度較RJv的好;用預測集為MJv-GJv-RJv評價模型時,雖然校正集MJc-GJc中含有紅綠相間和綠色冬棗樣品,但無紅色冬棗樣品,因此,預測精度較差;當在MJc-GJc中增加RJc組成MJc-GJc-RJc建模集,模型對MJv-GJv-RJv的預測誤差由1.378減小到0.946。
圖5所示為采用不同顏色的冬棗樣品組成的五個校正集建立冬棗SSC的PLS模型對由三種顏色冬棗樣品組成的測試集進行預測的RMSEP變化圖,由圖中可知,當建模集樣品與測試集樣品性質相同時,模型均得到較好的預測結果,RMSEP均比較小。

圖5 不同顏色樣品建模集建立的冬棗SSC的PLS模型的RMSEP變化圖
通過對校正集MJc,GJc和RJc的單一模型,及MJc-GJc,MJc-GJc-RJc的混合模型經預處理方法優選后采用PLS建模分析可知,當測試集樣品與校正集樣品性質相似時,模型具有更好的預測能力。為了進一步對模型進行優化,采用MCUVE方法進行變量選擇后,應用所篩選的特征變量建立PLS模型的結果如表5所示[10]。
由表5中可知,冬棗樣品的Vis-NIR光譜包含有2 048個建模變量,選用MCUVE變量篩選后,模型的建模變量均減少,且精度得到不同程度的提高。對于冬棗校正集為MJc-GJc-RJc模型,優化后的模型保留了200個有效建模變量。圖6是校正集為MJc-GJc-RJc時樣品經過MCUVE選擇的波長信息,選擇的變量主要集中于近紅外短波光譜區域(770~1 100 nm),剔除大部分位于可見光譜區域(390~770 nm)的樣本點,從而減少了表面顏色對分析模型的影響,大大提高了不同顏色冬棗混合建模時變量的相似性,從而使模型的精度及預測能力得以提高,模型的RMSECV從1.158降低到0.886,RMSEP從0.946降低到0.721。

表5 變量優選后模型的分析結果

圖6 MCUVE方法選擇變量的分布
不同顏色的冬棗樣品進行混合建模時,通過光譜預處理和變量優選方法可以得到預測精度較高的分析模型。圖7所示為利用優選變量建立的混合冬棗PLS模型的RMSECV和RMSEP隨主成分數的變化圖,從圖中可以,兩者相差較小且變化規律具有較好的一致性,表明模型擬合的較合理[11]。

圖7 混合冬棗模型的RMSECV和RMSEP隨PLS因子數變化圖
最優混合模型對測試集樣品SSC的預測值和參考值的相關關系如圖8所示。由圖可知,冬棗SSC的參考值和模型預測值之間存在較好的相關關系,預測樣品集的Rp和RMSEP分別為0.922和0.721。

圖8 SSC實測值與模型預測值的相關關系
對不同顏色冬棗SSC的Vis-NIR光譜分析模型構建進行研究,采用不同的光譜預處理方法和MCUVE變量篩選方法對冬棗SSC的PLS定量分析模型進行優化,以期實現不同顏色冬棗SSC含量準確分析的通用模型的構建。結果表明,分別采用MJ,GJ和RJ的獨立樣品集進行建模時,模型僅僅對具有相同顏色的冬棗樣品的SSC實現了較好的預測;分別在MJ樣品中加入GJ和GJ-RJ樣品進行MJ-GJ和MJ-GJ-RJ兩個混合樣品集的定量模型的構建時,MJ-GJ模型對MJ和GJ樣品的SSC具有較好的預測效果,而對RJ樣品的預測誤差較大;MJ-GJ-RJ模型對三種顏色的冬棗SSC均有較好的預測結果;采用Vis-NIR光譜對不同顏色冬棗的SSC進行分析時,當校正集樣品與測試集樣品顏色屬性相似進行模型構建時,模型具有更好的通用性和分析精度。采用MCUVE方法對模型進行變量優選后,模型的各項評價指標均得到改善。