江水泉 孫 通
(江蘇楷益智能科技有限公司,江蘇 無錫 214174)
可見/近紅外光譜技術是一種快速、無損、綠色的現代檢測技術,其根據分析物的C—H、C—C及O—H等的合頻與倍頻吸收進行定性及定量分析。目前,該光譜技術已應用于玉米淀粉[1]、肉類脂肪[2]、魚肉新鮮度[3]、茶葉種類[4]、牛奶蛋白質[5]、當歸阿魏酸[6]及食用油摻假[7]等檢測。對于水果可溶性固形物SSC檢測,劉燕德等[8]利用近紅外漫反射光譜技術在線檢測臍橙SSC含量。偏最小二乘(PLS)模型的預測相關系數為0.90,預測均方根誤差(RMSEP)為0.61。韓東海等[9]建立了3種擺放方式的蘋果SSC在線預測模型。對于上置式檢測器而言,遮光處理和蘋果擺放方式最為重要;PLS模型的預測相關系數和RMSEP分別為0.87和0.67。郭成等[10]采用無信息變量消除(UVE)方法優選無花果SSC的特征波長,并應用PLS方法建立無花果SSC的在線預測模型,其預測相關系數為0.83~0.89,RMSEP為0.63~0.83°Brix。Tian等[11]采用光譜預處理和變量選擇方法對蘋果SSC在線預測模型進行優化。隨機森林方法篩選的特征波長建立的SSC預測模型最優,模型的預測相關系數和RMSEP分別為0.904 3和0.478 7。Xu等[12]研究比較了單點和雙點檢測對蘋果SSC在線檢測精度的影響。此外,還有其他學者[13-16]也對水果SSC進行在線檢測研究。綜合分析上述文獻可知,不少學者采用變量選擇方法篩選水果SSC的特征變量來簡化和提高預測模型性能,但基本是采用單一的變量選擇方法。由于可見/近紅外光譜波長變量眾多,數量可達幾百甚至上千,含有較多冗余及干擾變量,采用單一方法進行波長變量篩選易受冗余及干擾變量影響,從而影響SSC檢測精度和穩定性。因此,有必要探索聯合兩種變量選擇方法篩選SSC特征變量的研究。
試驗擬采用可見/近紅外光譜技術對臍橙SSC含量進行在線檢測。利用遺傳算法(GA)和UVE方法對波長變量進行預篩選,在此基礎上再采用競爭自適應重加權采樣(CARS)及連續投影算法(SPA)進一步篩選特征波長變量,并應用PLS方法建立臍橙SSC的在線預測模型。
試驗所用的臍橙樣本購買于當地水果批發市場,臍橙質量范圍為175~327 g,數量共計188個。為保證校正集樣本的合理性和代表性,按照臍橙樣本SSC測量值進行排序,將最大及最小SSC測量值的臍橙樣本直接分配到校正集,而后按3∶1比例并結合排序將臍橙樣本分配到校正集和預測集。經分配后,校正集和預測集的臍橙樣本分別為141個和47個。
試驗所用的在線光譜檢測系統如圖1所示,由光譜儀、光纖、光源、輸送系統及電腦等組成。光譜儀為USB4000微型光纖光譜儀(美國Oceanoptics公司),配置3 648像素CCD。光源為2盞150 W鹵鎢燈,功率共300 W。光源分布在臍橙赤道兩側,光源—臍橙—光纖的角度為90°。臍橙傳輸速度為0.3 m/s。

圖1 可見/近紅外光譜在線檢測系統原理圖
樣本光譜采集前,先采集暗場和參比光譜。關閉光源,所采集的光譜即為暗場光譜;以聚四氟乙烯球(直徑80 mm)為參比,在圖1所示的在線檢測系統中獲得其參比光譜。對于臍橙樣本,按順序依次在線采集每個臍橙的可見/近紅外光譜。暗場、參比及臍橙樣本的積分時間均為60 ms,平均采集次數設為1,光譜平滑點數設為6。
將臍橙樣本去皮,采用榨汁機破碎臍橙果肉,并通過普通快速濾紙對臍橙果汁進行過濾,然后將過濾后的果汁滴到PR-101α型數字折射儀(日本Atago公司)的測量窗口,進行臍橙SSC真實含量的測定。
對臍橙樣本光譜,先采用無信息變量消除和遺傳算法分別對波長變量進行預篩選,在此基礎上,再分別利用CARS和SPA方法進一步篩選波長變量;對上述方法篩選的波長變量,應用PLS方法分別建立臍橙SSC含量的在線預測模型,并比較模型性能的優劣。
無信息變量消除方法的參數設置為隨機噪聲矩陣的變量數為1 385個,與建模的光譜波長變量數一致,提取的最大主成分數為15。UVE算法的具體原理參見文獻[17]。對于遺傳算法,其種群大小及染色體長度分別為30和30,變異概率及交叉概率分別為1%和 50%,遺傳代數為100。GA算法的具體原理參見文獻[18]。在CARS分析中,采樣次數為50次,提取的最大主成分數由蒙特卡羅交互驗證確定。CARS算法的具體原理參見文獻[19]。在SPA分析中,最大及最小可選的波長變量數分別設為40和1。SPA算法的具體原理參見文獻[20]。UVE、GA、CARS及SPA方法均在Matlab 7.6.0軟件(美國The Math Works公司)里運行完成,PLS方法則在Unscrambler X 10.1軟件(挪威CAMO公司)里運行完成。
SSC預測模型的性能主要由相關系數(r)、校正均方根誤差(RMSEC)及RMSEP進行評價。預測模型的相關系數越高,RMSEC及RMSEP越小,且兩者較為相近,則預測模型的性能越好。
由表1可知,所有樣本的SSC平均值、標準偏差及范圍分別為11.54%,1.19%,8.3%~14.9%。校正集和預測集樣本的SSC平均值分別為11.53%,11.56%,標準偏差分別為1.20%,1.17%。校正集樣本的SSC范圍涵蓋預測集樣本,表明校正集樣本具有一定的代表性,所建立的SSC預測模型能適用于預測集樣本。

表1 臍橙樣本可溶性固形物的主要統計結果
由圖2可知,所有臍橙樣本的光譜形狀均較為相似,表明光譜在線采集沒有出現異常。臍橙樣本光譜在700 nm及820 nm左右有較為明顯的波谷,而在725 nm及830 nm左右存在較為明顯的波峰,此部分區域含有較多有用的光譜信息。樣本光譜兩端波動大,光譜信噪比低。為了避免引入明顯的光譜噪聲和丟失有用的光譜信息,后續的光譜分析在650~950 nm波段范圍進行,該波段范圍共有1 385個波長變量。

圖2 所有臍橙樣本的可見/近紅外光譜
2.3.1 UVE 采用UVE方法對650~950 nm波段范圍的光譜數據進行波長變量篩選。圖3中,波長變量的穩定值在兩水平虛線之外的將作為有用信息波長變量被保留,而在兩水平虛線之內的將作為冗余或噪聲波長變量被去除。經UVE變量篩選后,共有884個波長變量被去除,501個波長變量被保留。
2.3.2 GA 采用GA方法對650~950 nm波段范圍的光譜數據進行波長變量篩選。圖4中,被選中頻率大于閾值的波長變量將作為有用信息波長變量被保留,而被選中頻率小于閾值的波長變量將作為冗余或噪聲波長變量被去除。經GA方法篩選后,共有1 203個波長變量被去除,182個波長變量被保留。其中,在725~755 nm波段范圍有較多的波長變量被保留。
2.3.3 CARS 在UVE和GA變量預篩選的基礎上,采用CARS方法分別對上述結果進行進一步變量篩選。對于UVE篩選的501個波長變量,經CARS方法篩選后,共有187個波長變量被保留。由圖5(a)可知,被選擇的波長變量主要集中在725~880 nm,其中725~800 nm波段范圍有61個,801~880 nm波段范圍有80個;而在650~724 nm波段范圍有21個,881~950 nm波段范圍有25個。對于GA篩選的182個波長變量,經CARS方法篩選后,共有78個波長變量被保留。由圖5(b)可知,被選擇的波長變量主要分布在725~800 nm,而其他波段則較少。在650~724,725~800,801~880,881~950 nm波段范圍分別有7,50,16,5個。

豎虛線左側為真實的波長變量,右側為隨機噪聲變量;兩水平虛線為UVE穩定性的閾值
圖3 臍橙SSC的UVE分析結果
Figure 3 Results of UVE analysis of SSC in navel oranges

水平橫線為波長變量篩選的閾值

圖5 被選擇波長變量的分布情況
2.3.4 SPA 在UVE和GA變量預篩選的基礎上,采用SPA方法分別對上述結果進行進一步變量篩選。由圖6可知,經UVE-SPA方法后,共有8個波長變量被選擇,分別為660.98,703.05,736.24,766.10,874.61,884.31,914.24,935.02 nm;經GA-SPA方法后,共有16個波長變量被選擇,分別為660.57,669.61,684.99,722.16,731.36,738.78,745.59,753.54,756.64,773.79,814.70,834.98,859.88,877.36,906.30,913.34 nm。

圖6 被選擇波長變量的分布情況
對于UVE-CARS、UVE-SPA、GA-CARS及GA-SPA方法篩選的波長變量,應用PLS方法分別建立臍橙SSC的在線預測模型,并與直接采用CARS和SPA方法建立的預測模型及原始光譜建立的預測模型進行比較。
由表2可知:
(1) GA-SPA-PLS模型的性能優于UVE-SPA-PLS,GA-CARS-PLS模型的性能優于UVE-CARS-PLS,表明GA方法優于UVE方法,GA方法更適合于光譜波長變量的預篩選。此外,UVE-CARS-PLS模型性能優于UVE-SPA-PLS,GA-CARS-PLS模型性能優于GA-SPA-PLS,CARS-PLS模型性能優于SPA-PLS,表明CARS方法篩選有用波長變量更為有效。

表2 不同變量選擇方法下臍橙可溶性固形物的PLS建模結果
(2) GA-CARS-PLS模型性能優于CARS-PLS,GA-SPA-PLS模型性能優于SPA-PLS,即以GA方法為變量預篩選的聯合變量選擇方法優于對應的單一變量選擇方法。由此可見,對于臍橙SSC,采用GA方法用于波長變量的預篩選非常必要。
此外,在所建立的預測模型中,GA-CARS-PLS模型的性能最優,與原始光譜建立的PLS模型相比,其校正集相關系數略有下降,但預測集相關系數由0.778上升為0.824,RMSEP由0.731%下降為0.670%,且建模所用的波長變量數由1 385個下降為78個,僅占原波長變量數的5.63%。表明GA-CARS聯合變量選擇方法能有效篩選波長變量,從而提高SSC預測模型的穩定性和預測精度。
利用可見/近紅外光譜技術在線檢測臍橙可溶性固形物含量,采用UVE和GA方法對波長變量進行預篩選,再利用CARS及SPA方法進行波長變量篩選,并應用PLS方法建立SSC預測模型。結果表明,對于臍橙SSC,變量預篩選方法GA優于UVE,變量選擇方法CARS優于SPA,以GA為變量預篩選的聯合變量選擇方法優于對應的單一變量選擇方法(CARS、SPA),GA-CARS聯合變量選擇方法所獲得的結果最優。與原始光譜相比,GA-CARS-PLS模型的預測集相關系數由0.778上升為0.824,RMSEP由0.731%下降為0.670%,且建模所用的波長變量數由1 385個下降為78個,僅占原波長變量數的5.63%。由此可見,GA-CARS聯合變量選擇方法能有效篩選臍橙SSC的波長變量,提高SSC預測模型的穩定性和預測精度。