張欣欣,李尚科,李 跑, *,單 楊,蔣立文,劉 霞
1. 湖南農業大學食品科學技術學院食品科學與生物技術湖南省重點實驗室,湖南 長沙 410128 2. 湖南省農業科學院湖南省農產品加工研究所,湖南 長沙 410125
柑橘是柑、柚、橙、枳、橘(桔)等的總稱,是世界第一大水果。柑橘富含水分、維生素、常量以及微量元素、礦物質、酚類、萜類等營養和生物活性物質[1]。由于氣候、土壤、水分差異,不同產地柑橘在口感、質地方面有所差別,但不同產地的柑橘外觀相似,表皮氣味相近,非專業人士難以實現準確鑒別分析。
國內外許多學者利用化學分析與DNA標記等方法實現了柑橘及其副產物的品種、產地、病害的鑒別分析。Xiao等[2]利用感官評定、氣相色譜質譜聯用與氣相色譜-嗅覺評判三種方法對不同產地甜橙精油的揮發性成分進行了分析。Nicolosi等[3]利用DNA標記法實現了柑橘品種的鑒別分析。這些方法準確度高,但費時費力,不利于大面積推廣,且對樣品具有破壞性,無法實現快速無損分析,影響產品的二次銷售。近年來,近紅外光譜技術因其快速無損、綠色環保的特點在食品鑒別分析領域得到了廣泛應用[4-6]。然而由于柑橘皮對光譜的干擾較大,導致現階段柑橘產地無損鑒別研究匱乏。此外柑橘體積較大,因此需要對光譜采樣點進行優化。
由于光譜采集過程中存在環境、樣本、操作人員等的影響,所以光譜往往存在譜峰重疊、較大背景、基線漂移等干擾。為了消除這些干擾,需要結合化學計量學方法對光譜數據進行預處理[7-10]。現階段提出了很多光譜預處理方法,如去趨勢校正(DT)[11]、去偏置校正(De-bias)[12]、多元散射校正(MSC)[13]、小波變換(WT)[14-15]等,不同光譜預處理方法適用范圍不同,DT和De-bias用于消除光譜中存在的基線漂移,MSC等用來消除顆粒分布不均勻及顆粒大小不同所產生的散射對光譜的影響,WT等求導算法常用來扣除儀器背景或基線漂移對信號的影響。但實際分析光譜中往往存在多種干擾,僅用單一預處理方法無法實現對光譜的優化。為此,在處理光譜數據時通常需采用預處理組合的形式以消除多種干擾[9]。結合光譜預處理方法,可以建立準確的鑒別和定量模型。常用的鑒別算法有無監督的主成分分析(PCA)方法與有監督的Fisher線性判別分析(FLD),其中Fisher線性判別分析方法要求樣本數大于變量數,需要對數據進行降維處理。本文通過結合PCA與FLD的優勢,利用近紅外光譜,提出了一種不同柑橘產地無損鑒別的方法。通過單一與組合預處理對獲得的柑橘光譜進行預處理,利用PCA-FLD方法建立鑒別模型,并與PCA方法模型進行對比,以期為不同產地柑橘的快速無損鑒別提供一種新方法。
云南、湖南、廣西武鳴和來賓是國內常見的沃柑主產區,且這四個產地沃柑在本地超市容易購得。它們外觀上十分相似,但在價格上存在一定的差別。從本地水果超市購買新鮮的云南沃柑、湖南沃柑、廣西武鳴沃柑、廣西來賓沃柑各30個,共計120個,擦拭表皮,于室溫下放置12 h。
傅里葉變換近紅外光譜儀,(AntarisII,美國Thermo Scientific公司),采用積分球漫反射模式采集完整光譜,波數范圍為10 000~4 000 cm-1,最小間隔約為4 cm-1,共采集1557個數據點。使用MATLAB R2010b(The Mathworks, USA)軟件進行數據分析與處理。
光譜采集在室溫下進行。直接將沃柑立放在近紅外光譜儀光斑的中心位置,待重心平衡后,開始對樣品進行掃描,利用漫反射模式對沃柑的果梗部、果頂部以及赤道線(四等分)進行光譜采集,每個樣品共采集6個點的光譜,每個點測量3次,取其平均值作為原始光譜。用Kennard-Stone(KS)分組方法將120個沃柑樣品數據以2∶1的比例分為80個校正集與40個驗證集。此外,對每個類別樣品分別進行KS分組計算以保證每類樣品在校正集和驗證集集的平衡。
為了消除儀器和環境的干擾,提高信噪比,采用DT、De-bias、MSC、最大最小歸一化(Min-Max)、標準正態變量變換(SNV)、一階導數(1st)、二階導數(2nd)以及連續小波變換(CWT)等預處理方法對光譜進行處理。近紅外信號中存在非常明顯的基線漂移干擾,求導預處理可以消除基線漂移干擾,強化譜帶特征; 由于柑橘樣品物理性狀原因,信號中存在光散射的干擾,而MSC和SNV是常用的校正散射影響的方法。因此我們采用了求導和消除光散射預處理的組合方式以消除光譜中的多種干擾。采用1st-DT,1st-SNV,1st-MSC,CWT-SNV,CWT-MSC和SNV-1st等組合預處理方法對光譜進行優化。為了實現不同產地柑橘無損鑒別分析,采用PCA及FLD方法建立鑒別模型。FLD方法要求樣本數為變量數的3~5倍,因此采用PCA方法對數據進行降維處理,利用得到的主成分建立PCA-FLD鑒別模型。
圖1為不同光譜采集點的原始光譜。光譜的大致走勢與其他學者采集的柑橘光譜相似,在8 500~8 300,7 100~6 900,5 700~5 500和5 200~5 000 cm-1四處有較為明顯的波峰,分別為CH第三泛頻帶、CH第二泛頻帶、CH的第一泛頻帶和CH與CO組合帶[16-17],可能與柑橘中的還原糖、果膠、有機酸的近紅外吸收有關。此外,原始光譜中存在明顯的譜峰重疊、較大背景、基線漂移等干擾。僅通過原始光譜無法實現不同產地柑橘的鑒別。因此在建立鑒別模型前需采用預處理方法對原始光譜進行優化處理。

圖1 原始光譜圖(a)—(h): 赤道線1—4、果梗部、果頂部、赤道線4個點平均以及6個點平均Fig.1 The raw spectra(a)—(h): equator 1—4, top, bottom, average of 4 points, average of 6 points, respectively
采用PCA方法結合光譜預處理方法以建立不同產地柑橘的鑒別模型。圖2為赤道線4個采集點平均光譜結合單一預處理的PCA結果。其中校正集樣本用實心圖標,驗證集樣本用空心圖標表示。因為前兩個主成分(PC1和PC2)對沃柑光譜數據變量的累計方差貢獻率在90%以上,因此選擇PC1和PC2進行PCA分析。從圖2(a)可知,不同產地沃柑數據的置信橢圓呈現交織狀態,鑒別率為0%; 經MSC,Min-Max和SNV單一預處理優化后鑒別率得到了提高,但最佳鑒別率僅為5%[圖2(b—i)]。其他光譜采集點以及6個采集點平均光譜得到的結果也較為類似。以上結果表明,采用單一預處理結合PCA模型無法實現柑橘產地的鑒別分析。為了進一步消除光譜中的多重干擾,采用組合預處理優化光譜數據,并建立PCA鑒別模型。然而,即使結合組合預處理優化處理,赤道線4個點平均光譜的最佳鑒別率僅為2.5%。此外,在6個點的鑒別結果中,組合預處理后的最佳鑒別分析結果也僅為5%,可能是因為不同產地柑橘果皮干擾較大,PCA方法無損挖掘得到隱藏在柑橘皮中的差異信息。

圖2 赤道線4個采集點平均光譜結合單一預處理的主成分分析結果(a)—(i): 原始光譜,DT,De-bias,MSC,Min-Max,SNV,1st,2nd和CWTFig.2 PCA results of 4 equator points average spectra with single pretreatment methods(a)—(i): raw spectra, DT, De-bias, MSC, Min-Max, SNV, 1st, 2nd and CWT, respectively
FLD是一種有效的有監督分類方法,常用于尋找目標類之間的最優邊界。為了使樣本數達到變量數的3~5倍,我們采用PCA方法對數據進行降維處理。圖3為隨著主成分(PC)數量增加的累積方差貢獻率。可以看到,隨著PC數量的增加,其方差貢獻率迅速增加最終趨于100%。除2nd預處理方法以外,前30個主成分基本包含所有信息(>99.99%),且樣本數剛好達到了變量數的3~5倍。因此我們采用PC數為30的PCA-FLD方法對數據進行降維處理。

圖3 不同部位光譜分析的累計方差貢獻率((a): 赤道線4個點; (b): 赤道線4個點+果梗部+果頂部(Fig.3 Cumulative variance contribution rates(at different positions((a): 4 points on equator; (b): 4 points on equator+stem+top
利用PCA-FLD結合單一與組合預處理優化以實現不同產品柑橘無損鑒別,并考察不同光譜采集部位對結果的影響。表1為不同預處理方法后的PCA-FLD結果。由表中可以看出,與PCA分析模型相比,PCA-FLD模型鑒別率得到了顯著提高。利用PCA-FLD方法分析4個點平均光譜數據時,無需結合光譜預處理即可達到97.5%的鑒別準確率; 結合De-bias或MSC預處理可獲得100%的鑒別準確率; 最低的鑒別率結果為經過2nd預處理后的67.5%,可能原因是2nd預處理的累計方差貢獻率小于99%。采用6個點平均光譜數據時,無需結合預處理方法,便可實現不同產地柑橘的100%鑒別; 除CWT外,其他單一預處理優化后的PCA-FLD模型鑒別結果均達到了100%; 經組合預處理優化的模型鑒別結果均超過90%。圖4為原始光譜經過De-bias預處理后的PCA-FLD結果,表明PCA-FLD模型可以實現所有產地沃柑的鑒別分析。

表1 基于不同預處理的PCA-FLD模型鑒別準確率Table 1 Identification accuracies by PCA-FLD with different pretreatment methods

圖4 De-bias預處理的PCA-FLD結果(a): 赤道線4點平均光譜數據; (b): 6點平均光譜數據Fig.4 PCA-FLD results with De-bias method(a): 4 points average spectra; (b): 6 points average spectra
基于近紅外光譜結合化學計量學方法,建立了不同產地柑橘的快速無損的鑒別方法。在不破壞沃泔樣品的情況下,獲得了沃柑赤道線及其果梗部、果頂部共6個位置的光譜數據。用光譜預處理方法對光譜進行優化處理,并利用PCA與PCA-FLD模式識別方法建立鑒別模型,同時對柑橘的光譜采集位置進行了優化。結果表明: 僅通過預處理和光譜采集位置的優化,PCA方法都不能實現不同產地柑橘的鑒別分析,最高鑒別率僅為5%; 采用PCA-FLD方法建立的模型鑒別結果顯著優于PCA方法,采用4個點平均光譜獲得的鑒別率可達到97.5%,結合De-bias或MSC預處理可以實現不同產地柑橘100%的鑒別; 當采用6個點平均光譜數據時,無需預處理即可實現對不同產地柑橘的100%鑒別。PCA與PCA-FLD的結果有很大差別,主要原因是PCA為無監督的模式識別方法,而采用有監督模式識別的FLD方法對不同產地沃柑6點平均光譜進行處理可實現100%的聚類分析,因為該方法需提供類別的先驗知識,在處理分類問題時有更好的降維與分類效果。本實驗為不同柑橘產地的無損鑒別提供了一個參考,在今后的研究中,將對其他柑橘水果進行進一步分析,以建立適用性更強的鑒別模型。