林 顥 王 卓 陳全勝 林金金
(江蘇大學食品與生物工程學院, 鎮江 212013)
大米是消費最廣泛的谷物之一,大多數國家都會把大米作為戰略資源來儲存以應對突發狀況[1]。因富含蛋白質、淀粉和脂肪等營養物質,隨著儲藏時間的延長,新鮮大米將會發生陳化。大米中的脂類物質由于不穩定性會發生水解或者氧化反應,并開始散發出異味[2]。因此,氣味常作為一種判斷大米新鮮度的指標。
傳統檢測氣體的方式主要采用感官評定和氣相色譜質譜聯用儀(GC-MS)[3]。感官評定具有一定主觀性,且大米儲藏過程中會產生有害氣體,易對實施嗅覺和味覺方面評定的評價人員造成健康威脅,使感官判別分析不適于大米的陳化檢測。而 GC-MS 技術操作繁瑣、成本高、耗時較長使其不能應用于大米新鮮度的快速檢測中[4]。嗅覺可視化技術是近幾年興起的一種表征氣體的新方法[5],該方法利用酯類、醇類、醛類、酸類等揮發性有機物質與色敏傳感器反應,使構成傳感器的特定色敏材料的電子產生能級躍遷,即在宏觀上表現為顏色的變化[6]。通過CCD相機獲取反應前后色敏材料的RGB差值可對揮發性氣體進行定性定量的分析。這種技術已經在判別鑒定肉類新鮮度[7]、食醋種類[8]、紅茶發酵程度[9]等研究中取得了較好的分類或定量效果。然而,基于嗅覺可視化技術獲取的變化信息主要是通過提取反應前后的RGB差值圖像來表征的,即每個色敏材料的顏色變化僅通過R、G、B3個分量來表征。因此,較少的有效信息量可能會一定程度上限制判別大米儲藏時間的正確率。
本文以氟硼吡咯類化合物作為制作色敏傳感器的色敏材料,并且使用色敏傳感器結合可見/近紅外光譜技術對大米儲藏時間進行鑒別。通過提取與不同儲藏時間大米揮發性氣體反應后色敏材料的光譜信息,從更多維的數據水平上對大米的儲藏時間進行鑒別。在數據處理過程中,應用聯合區間偏最小二乘法(Si-PLS)篩選各色敏材料光譜數據的最佳變量區間[10],隨后分別采用遺傳算法(GA)、蟻群算法(ACO)[11]和無信息變量消除(UVE)方法[12]進行變量篩選,并用PCA(主成分分析)和LDA(線性判別分析)算法建立大米的儲藏時間預測模型。
選用中糧集團的福臨門蘇軟香型大米作為研究對象,將購于當地旅游超市的新鮮大米置于恒溫恒濕箱內儲藏,設定儲藏溫度為40℃,空氣相對濕度為80%。實驗時,依據大米在培養箱中的不同時長將其分為儲藏期0、1、2、4、6個月的樣品,每個儲藏期取30份,每份準確稱量8.0 g,共獲取150組樣品。將各組樣品按照2∶1的比例隨機分配為訓練集和校正集。訓練集樣本(100份)用于建立儲藏時間預測模型,校正集(50份)用于評價判別模型的性能。
實驗所用可見/近紅外光譜檢測系統如圖1所示,由鹵素燈、光纖、光譜儀、色敏傳感器和計算機組成。光譜儀為USB2000+型可見/近紅外光譜儀(美國Ocean Optics公司),所用傳感器型號為線陣CCDILX554B,測量的波長范圍為300~1 000 nm。SD1200型鹵素燈(超微光學公司,中國臺灣)功率為10 W。

圖1 可見/近紅外-色敏傳感器檢測系統Fig.1 Detection system of visible/near-infrared combined with colorimetric sensor array1.色敏傳感器 2.光源 3.可見/近紅外光譜儀 4.計算機 5.光纖
1.3.1光譜采集
通過前期的實驗,選取3種對大米揮發性氣體敏感的氟硼吡咯類化合物作為色敏材料,由經典林賽方法在實驗室制得[13]。將色敏材料分別以2.0 mg/mL的質量濃度溶解于二氯甲烷中,并用毛細管(0.5 mm×10 mm)吸取溶液至管長的1/5處,點在3 cm×1 cm的反相硅膠板(德國Merk公司)上,使各色敏材料擴散形成的印染區域大小保持一致,以構成3×1的色敏傳感器陣列,如圖2所示。一個傳感器對應采集一份大米樣品的儲藏揮發性氣體信息,本實驗共制備150個色敏傳感器用于判別不同儲藏時間的大米且制備完成后立即用于實驗以減小外界因素影響。所用色敏材料的名稱和簡稱為8-(4-溴苯基)- 4,4-二氟硼二吡咯甲烷(BrBDP)、8-(4-硝基苯基)- 4,4-二氟-6-溴硼二吡咯甲烷(NO2BrBDP)、8-(4-硝基苯基)- 4,4-二氟-2,6-二溴硼二吡咯甲烷(NO2Br2BDP)。

圖2 色敏傳感器陣列Fig.2 Colorimetric sensor array
將制成的色敏傳感器正面朝上固定在保鮮膜上,并把大米樣品倒入潔凈玻璃皿中,迅速將帶有傳感器的保鮮膜覆蓋于玻璃皿頂部并密封好,使色敏傳感器能夠與氣體充分接觸。之后將玻璃皿放入溫度設置為45℃的恒溫箱內,以加速反應,待大米的揮發氣體與色敏材料充分反應14 min后取出色敏傳感器,通過可見/近紅外光譜技術采集反應后的傳感器陣列的反射光譜數據。光譜采集參數設置如下:積分時間為50 ms,平滑度為5,平均次數為10次。每個色敏傳感器能夠獲得3條光譜數據,每條光譜共1 024個變量。因此,共采集450條光譜數據。
1.3.2光譜變量篩選
在變量篩選前,先用標準歸一化處理方法(SNV)對光譜進行預處理以校正光譜由光散射產生的影響[14]。為了降低光譜變量篩選時的盲目性并縮小搜索范圍,Si-PLS算法首先用于篩選每條光譜的最佳數據區間[15]。將光譜數據分成15~30個區間,從中聯合2~4個區間,使用交互驗證均方根誤差作為參考標準以選擇最佳聯合區間, 交互驗證均方根誤差越小所選區間代表性越高。盡管Si-PLS減小了數據維度,但是在數據中大量具有多重共線性的數據仍然增加了建立大米儲藏時間預測模型的計算負擔。因此,分別使用3種不同的變量篩選算法來選擇特征波長,即UVE、GA和ACO。
UVE為一種基于回歸系數穩定性分析的光譜變量篩選算法,它能防止所建的模型處于過擬合狀態,并提高模型的預測性能。 UVE 的一般操作步驟如下:在光譜矩陣中加入具有與光譜變量數相等的隨機噪聲變量,用偏最小二乘法(PLS)建立模型,以此獲得回歸系數矩陣并計算光譜變量的穩定性。若某光譜變量的穩定性小于某一閾值時將被剔除[16-17]。

圖4 各色敏材料的平均光譜曲線Fig.4 Average spectrum of each color-sensitive material
GA算法是模擬生物進化遺傳過程中自然選擇和生物進化的隨機化搜索方法,利用遺傳算子進行選擇、交換和突變等操作使光譜變量“優勝劣汰”,最終篩選出最佳光譜變量[18-19]。其一般的運行步驟如圖3所示。

圖3 GA運行步驟Fig.3 Running step of GA
ACO是一種基于優化尋找路徑的群集智能演化計算方法。其靈感源于自然界中真實蟻群的覓食行為,先行的螞蟻會在經過的路徑上釋放信息素,后續的螞蟻能夠感知這些信息素,并根據信息素和信息素強度的反饋機制來選擇路徑。在ACO的優化方案中,所有螞蟻一起搜索有關自身行為和問題特征的信息,通過蟻群的協作以修改行動策略,最終得到一個最優方案。ACO模型一般有3個核心的算法步驟:選擇概率、局部信息素更新和全局信息素更新[20]。
1.3.3模式識別法
經3種算法(GA、ACO和UVE)分別篩選后,為了建立預測模型對不同儲藏時間大米的識別,同時進一步地確定最佳波長變量篩選方法,將通過3種不同變量提取算法篩選后的數據進行模式識別。使用PCA和LDA兩種分析方法區分不同儲藏時間的大米,所建立的模型通過訓練集和校正集的正確識別率來判定模型,最終選出最優的大米儲藏時間預測模型。
將色敏傳感器分別與150份不同儲藏時間的大米樣品揮發性氣體反應,然后提取3種色敏材料的光譜數據,共獲得450條光譜曲線。通過計算得出BrBDP、NO2BrBDP和NO2Br2BDP這3種色敏材料采集的大米在不同儲藏時間內的平均光譜曲線,結果如圖4所示。可以發現,在與不同儲存時間的大米揮發性氣體反應后,每種色敏材料獲得的光譜均存在差異,這表明色敏傳感器的顯色反應會因儲藏時間的不同而有所區別。此外,波長范圍400~500 nm以及550~620 nm處光譜數據具有明顯的差異。因此,通過提取可見/近紅外光譜以表征色敏傳感器信號變化,對大米儲藏期進行預測具有可行性。
首先使用Si-PLS算法分別對經過SNV預處理后的3類光譜進行初步篩選,數據處理的結果如表1所示。BrBDP在區間數為26時獲得最佳聯合區間:1、5、14和16子區間。NO2BrBDP在區間數為29時獲得最佳聯合區間:5、6、8和16子區間。NO2Br2BDP在區間數為24時獲得最佳聯合區間:6、8、9和11子區間。因此,變量的總數從3 076縮小為500個。將各色敏材料提取出來的光譜數據區間整合作為新的數據集以進一步提取有效變量。

表1 Si-PLS光譜區間篩選結果Tab.1 Spectral interval screening results of Si-PLS
2.3.1UVE變量優選
將經Si-PLS初步篩選后的光譜數據用UVE算法提取其有效光譜變量。圖5(T表示變量穩定性系數)顯示了UVE變量的穩定性結果,中間的豎直線為隨機噪聲變量和波長變量的分割線,左邊為波長變量,右邊為隨機噪聲變量。上、下兩條水平虛線分別表示變量穩定性系數的上、下閾值。若波長變量的變量穩定性系數在上下閾值之間被稱為無用信息波長變量,需要剔除。而變量穩定性系數在兩閾值之外的波長變量為有用信息變量,需要保留。因此,共優選出68個光譜波長變量。

圖5 UVE處理后各變量的穩定性Fig.5 Stability of each variable in UVE analysis
2.3.2GA變量優選
將經Si-PLS初步篩選后的光譜數據用GA算法提取其有效光譜變量。在使用GA算法之前,將控制參數設置為:初始種群大小為50,最大選取變量500,交叉概率Pc=0.5,變異概率Pm=0.01,遺傳迭代次數為100,適應度函數為交互驗證均方根誤差。圖6展示了所有波長在計算過程中被選擇的次數,圖中虛線以上的69個變量的頻數超過了5,將這些變量作為最終篩選結果。

圖6 各光譜變量的選擇頻數Fig.6 Selection frequency of each variable
2.3.3ACO變量優選
將經Si-PLS初步篩選后的光譜數據用ACO算法提取其有效光譜變量。應用ACO算法進行特征波長選擇之前,首先對ACO算法的參數進行初始化設定。本文設置蟻群大小為20; 因所有節點在初始化時信息素的強度都相同, 則設置信息素強度τ=1,螞蟻對各個節點選擇的概率一致,則啟發因子α=1;能見度η=1,為減少算法的隨機性,使得期望啟發因子β=2,信息素耗散常數ρ=0.95,并將種群的進化代數設置為150。圖7是用ACO算法篩選出來的20個變量以及對應的權重系數。

圖7 ACO算法變量提取結果Fig.7 ACO algorithm variable extraction result
2.4.1主成分分析
主成分分析作為一種簡化數據集的統計技術,能夠將多維變量的數據計算轉變為較低維度。其原理是對變量進行重組,得到一組互不相關但能表示原數據集絕大部分信息的新變量,即主成分(PCs),以此在主成分圖上直觀呈現不同儲藏時間大米的聚類趨勢。圖8展示了由Si-PLS-UVE、Si-PLS-GA和Si-PLS-ACO共3種不同變量篩選方法提取的數據產生的三維主成分分析圖。其中,由Si-PLS-UVE-PCA方法得到的結果顯示前3個PCs的累計方差貢獻率為97.52%,Si-PLS-GA-PCA方法得到的主成分貢獻率為97.68%以及Si-PLS-ACO-PCA方法的結果為92.81%。可以看出,不同儲藏時間的大米樣本之間在各個變量提取算法中基本能區分開,新鮮大米和儲藏1個月的大米在空間模型上距離較近且有小部分重合,可能在大米儲藏的前期其揮發性有機物質的種類及其含量變化趨勢不大,但是兩個儲藏期的樣本都各自有一定的聚類趨勢。

圖8 不同變量提取算法的三維主成分得分Fig.8 Principal component analysis of wheat with different variable extraction method
2.4.2線性判別方法
LDA算法的原理是通過搜尋一種線性變換,使得組內距離與組間距離的比值最大化。本研究在基于PCA計算的基礎上,將PCs作為潛變量輸入。表2為3類不同變量篩選算法的LDA分類結果。用Si-PLS-UVE所提取的光譜變量建立預測模型后,取主成分數為9時,訓練集的正確識別率為98%,校正集的正確識別率為96%。用Si-PLS-GA所提取的光譜變量建立預測模型后,取主成分數為7時,訓練集的正確識別率為92%,校正集的正確識別率為92%。用Si-PLS-ACO所提取的光譜變量建立預測模型后,取主成分數為10時,訓練集的正確識別率為98%,校正集的正確識別率為90%。由此可見,Si-PLS-UVE提取光譜變量所建立的預測模型識別率最高。在預判集中僅兩份新鮮大米樣品被誤判為1個月的儲藏期,這與上述PCA所得結果一致,新鮮大米和儲藏1個月的大米之間的判別存在一定的誤差,整體而言,通過色敏傳感器-可見/近紅外光譜技術對大米的儲藏時間進行區別的結果較好。

表2 不同變量篩選算法的LDA分類結果Tab.2 LDA classification results of three variable screening algorithms
利用色敏傳感器結合近紅外光譜技術對大米中的可揮發性氣體的表征可對大米的儲藏時間進行快速、直觀的鑒別。使用3種氟硼吡咯類色敏材料制作色敏傳感器,并用可見-近紅外光譜技術提取光譜信息。并對不同的變量提取算法進行了比較,確定了由Si-PLS-UVE算法提取光譜信息后,所建立的預測模型判別率性能最優,訓練集和校正集的識別率分別達到了98%和96%。在大米儲藏時間的檢測研究中提供了一種可行的方法。