李 杰,李尚科,蔣立文,劉 霞,丁勝華,李 跑,*
(1.湖南農業大學 食品科學與技術學院,食品科學與生物技術湖南省重點實驗室,湖南 長沙 410128;2.湖南省農業科學院 湖南省農產品加工研究所,湖南 長沙 410125)
茶作為世界三大飲料之一,不僅具有怡人的清香以及可口的滋味,同時具有諸多藥理保健功效。綠茶是我國的主要茶類之一,由于其未經發酵的加工工藝,較其它茶類保留了鮮葉的大部分天然物質,含有較多的多酚類、葉綠素類以及咖啡因等成分,且在抗衰老、預防癌癥、抑菌、抗氧化等方面具有特殊效果[1-2]。然而市場上的綠茶品種繁多,加工工藝和產地的差異導致其在風味以及微量元素上存在顯著差別。對比不同價位、不同產地的綠茶發現,不同品種綠茶的理化成分存在較大差別,其中茶多酚、酚氨比、抗壞血酸、表沒食子兒茶素沒食子酸酯、酯型兒茶素與非酯型兒茶素的含量具有較為顯著的差異[3]。雖然不同品種綠茶在理化性質上存在較大差異,但根據外觀等表面特征較難實現對其快速準確的鑒別,因而市場上出現了不少無良商家“以次充好”的現象,如何快速準確地鑒別綠茶品種以及優劣是現階段亟待解決的問題。
近紅外光是介于中紅外與可見光區范圍內的一種電磁波,具有較強的穿透能力,因此可通過采集樣品的近紅外光譜,利用其對有機物中含氫基團振動的倍頻和合頻吸收以得到樣品中有機物的組成以及分子結構信息[4]。相較于傳統理化分析方法的繁瑣、檢測費用較高、對樣品有破壞性等缺點,近紅外光譜憑借其快速無損、操作簡便以及無污染等特點,在食品[5-7]、石油[8]、醫藥[9]、煙草[10-11]等行業逐漸嶄露頭角。就綠茶檢測而言,近紅外光譜技術主要應用于產地溯源[12]、品質評價[13]、成分檢測[14]等,但關于綠茶品種鑒別方面的相關研究較少,此外有關綠茶物理性狀等所造成的光譜干擾消除的研究更是少之又少。為了實現不同品種綠茶樣品的無損鑒別,本課題組前期研究中提出了一種基于連續小波變換-標準偏差-相對標準偏差的變量篩選方法[15],發現連續小波變換預處理可消除背景干擾,變量篩選方法可提高鑒別準確性,但該方法需人工選擇合適的閾值以及波長數目等參數,且無法實現對不同品種綠茶的100%鑒別。此外,由于綠茶是由新鮮茶葉經過殺青、整形、烘干等工藝制成的卷曲扁形樣品,相較于其它粉末狀樣品,更易受到光散射等干擾。因此,需對多種預處理方法進行篩選,并組合多種預處理以消除光譜中的多種干擾[16]。此外,還需采用合適的建模方法以建立準確的鑒別模型[17-21]。因此,本文旨在通過采取不同的單一以及優化組合預處理方法來消除此類干擾,并結合主成分分析法(Principal component analysis,PCA)與線性判別分析法(Linear discriminant analysis,LDA),篩選出適合綠茶的近紅外光譜預處理并建立可靠的鑒別模型,實現對不同品種綠茶的快速無損鑒別分析。
QuasIR 4000近紅外光譜儀(美國Galaxy Scientific);光譜預處理與鑒別分析由MATLAB R2010b(The Mathworks,Natick,USA)軟件實現。
不同產地的8個不同品種的綠茶樣品:分別記為小山茶(a)、大山茶(b)、楊山春綠(c)、九華山毛尖(d)、五云龍潭(e)、藍天茶(f)、十八盤毛峰(g)、仰天雪綠(h)。每個品種綠茶取10個平行樣品(3 g),合計80個樣本。
實驗在室溫下操作,波數為4 000~12 000 cm-1,最小間隔約4 cm-1,共采集2 098個數據點。為保證光譜測量的準確性,每個樣品重復測量3次,取3條平行光譜的平均值作為該樣本的原始光譜。
將8種茶葉樣品數據按照Kennard-Stone(K-S)以8∶2的比例分組,選取64個樣品用于建立模型,16個樣品用于驗證,采用去偏置、去偏移、標準正態變量變換、最大最小歸一化、多元散射校正、一階導數、二階導數、連續小波變換8種不同單一預處理方式對綠茶的近紅外光譜進行處理,再采用一階導數+去平移、一階導數+標準正態變量變換、一階導數+多元散射校正、連續小波變換+標準正態變量變換、連續小波變換+多元散射校正、標準正態變量變換+一階導數預處理進一步消除干擾。其中,一階導數和二階導數均采用Savitzky-Golay平滑求導,選取窗口參數范圍為3~25,結合鑒別率選取最優值為17;連續小波變換預處理的小波基為“haar”,尺度參數為20。最后運用PCA結合不同預處理方法對不同品種茶葉進行鑒別,采用LDA分類方法進一步提高結果準確性,并計算建模集和驗證集的鑒別準確率。
為實現不同品種茶葉的無損鑒別,對收集的8個品種綠茶樣品進行近紅外光譜采集,圖1A為綠茶樣品3次測量平均后的原始光譜圖,由圖可見譜線大致趨勢一致,大部分譜線重合,表明具有相同或相似的吸收峰。然而原始光譜存在明顯的背景干擾和基線漂移,可能是由于表面存在起伏的呈片狀的綠茶樣品或儀器自身問題所致。
為有效消除背景干擾以及基線漂移現象,對圖1A中的綠茶原始光譜數據進行多種單一預處理,分別采用去偏置、去偏移、標準正態變量變換、最大最小歸一化、多元散射校正、一階導數、二階導數、連續小波變換8種不同單一方法進行預處理(圖1),以期能消除光譜存在的不良影響,達到有效提取光譜圖中信息的目的。結果顯示,背景干擾經過去偏置(圖1B)或去偏移(圖1C)兩種預處理后得到有效消除,但仍存在一定程度的基線漂移現象。而經標準正態變量變換(圖1D)、最大最小歸一化(圖1E)、多元散射校正(圖1F)、一階導數(圖1G)、連續小波變換(圖1I)預處理后,均在不同程度上消除了光譜散射的影響,背景干擾得到有效消除,基線漂移現象也得到明顯改善。然而,經過最大最小歸一化預處理后,在6 000~8 000 cm-1處仍存在一定的基線漂移。采用二階導數(圖1H)處理后雖消除了背景干擾,強化了譜帶特征,但在10 000~12 000 cm-1處出現了明顯的噪聲干擾。



為提高聚類分析結果的準確性,實驗將不同預處理方式與聚類分析相結合,相應預處理后的PCA圖見圖2,空心圖形表示驗證集樣本,不同形狀的實心圖形為不同品種綠茶的校正集樣本,橢圓形為不同品種綠茶所構建的置信橢圓。由于前2個主成分(PC1和PC2)的方差貢獻率之和在80%以上,因此選其進行PCA分析。表1為不同預處理方法得到的建模集和預測集的鑒別準確率。結果顯示,原始光譜的聚類分析中(圖2A),8類綠茶樣品之間的置信橢圓并無明顯區分,幾乎完全交織在一起,僅a與b,g與b、c、d、e的置信橢圓未重疊,預測集鑒別準確率僅6.25%,因此,基于原始光譜圖的聚類分析完全無法實現不同品種綠茶的鑒別。采用去偏置(圖2B)、去偏移(圖2C)預處理后的聚類分析圖相較于原始光譜的聚類分析并無明顯改善,預測集鑒別準確率分別略微提升至25.00%和12.50%。圖2D與F譜圖相似,僅在主成分上存在一定差異,這是由于多元散射校正與標準正態變量變換在算法層面上基本一致,均能有效消除光譜散射的影響。通過二者圖譜可發現e品種綠茶(五云龍潭)能夠被有效鑒別,其它品種綠茶中d能與a、c、g、e實現區分,g與b、d、e、h等品種的置信橢圓無重疊,預測集鑒別準確率為43.75%。圖2E為經過最大最小歸一化預處理后的聚類分析圖,可看出g品種的置信橢圓除與c有重疊外,與其它置信橢圓無交叉,a與c、d、e、f、g,c與a、d、e,f與a、g、h的置信橢圓也無重疊,預測集鑒別準確率為50.00%。圖2G與I的PCA圖譜相似,a、e、g三者與b、c、d、f四者達到有效區分,但e和h置信橢圓相交織,預測集鑒別準確率僅18.75%。由經過二階導數預處理后的聚類分析圖(圖2H)可見f、h與a、b、c、g被區分開,其它品種置信橢圓均在不同程度上出現重疊,建模集和預測集鑒別準確率均為0.00%,可能原因是二階導數在消除干擾影響的同時也消除了不同品種綠茶的差異信息。相較于原始光譜數據聚類分析,除了使用二階導數預處理方法之外其它單一預處理結果均得到了一定的優化,但鑒別率均不高,因此僅使用單一預處理無法實現8個品種綠茶的鑒別。




表1 不同預處理方法得到的鑒別準確率Table 1 Classification accuracies by different pretreatments

(續表1)
去平移以及去偏置預處理主要用于消除信號中基線漂移的影響,導數處理和連續小波變換預處理可用于消除信號中背景和基線漂移的干擾,多元散射校正與標準正態變量變換預處理可用于消除固體分布不均勻所造成的光散射影響,為進一步實現8種綠茶品種的準確鑒別,選取組合預處理方法對原始光譜數據進行處理,其中一階導數+去平移組合(圖3A)可實現對信號中背景和基線漂移最大程度的扣除;一階導數+標準正態變量變換(圖3B)、一階導數+多元散射校正(圖3C)、連續小波變換+標準正態變量變換(圖3D)、連續小波變換+多元散射校正(圖3E)組合方式可同時消除背景和光散射干擾的影響;標準正態變量變換+一階導數預處理組合方式(圖3F)可用于研究預處理組合順序對結果的影響。結果顯示,A、B、C和F的圖譜類似,D、E圖也基本一致,這可能是因為多元散射校正與標準正態變量變換預處理的相似性,導致其它預處理方法與兩者預處理之一相結合時所產生的結果也具有相似性。經過優化組合預處理對原始光譜數據處理,不但繼承了單一預處理的優點,且光譜中的背景干擾得以消除,基線漂移現象基本得到扣除,譜圖中的有效信息被提取出來。


優化組合預處理方式對原始光譜數據處理后的聚類分析結果見圖4,不同組合預處理方法得到的建模集和預測集的鑒別準確率見表1。結果顯示,一階導數結合去平移預處理之后的聚類分析(圖4A)結果與單一預處理中的一階導數與連續小波變換預處理結果相似,同樣為f品種與其它品種得到了鑒別,b與e品種實現了鑒別,a與d、e置信橢圓無重疊。預測集鑒別準確率僅為18.75%。這可能是因為去偏移在一定程度上能改善基線漂移現象,而一階導數以及連續小波變換預處理也具有相似效果。從一階導數、連續小波變換與多元散射校正、標準正態變量變換的組合預處理后的聚類分析結果(圖4B~E)可見,c、e被有效鑒別,a、d、h與b、f、g品種間也得以區分,然而a與h,b與f置信橢圓仍有重疊,預測集鑒別準確率均為56.25%。由標準正態變量變換+一階導數預處理后的聚類分析結果(圖4F)可見,除d與b,f與g品種置信橢圓存在一定重疊外,其它品種均得以有效鑒別,預測集鑒別準確率最佳,達75.00%,這表明標準正態變量變換+一階導數預處理組合方式比一階導數+標準正態變量變換預處理組合方式結果略好,由此可見預處理組合順序對結果有一定影響。以上研究表明:除一階導數結合去偏移預處理的結果與一階導數預處理結果相似外,經過優化預處理組合處理過后品種間的鑒別成功率相較單一預處理均得到較大提升,且8類綠茶品種間的預測集鑒別準確率可達75.00%。這可能是因為一階導數與連續小波變換消除了基線漂移,有效地扣除了背景干擾,而多元散射校正與標準正態變量變換預處理則有效消除了光譜間散射影響,二者的結合有效提升了綠茶品種之間的聚類分析結果。然而,經過組合處理后仍存在d與b,f與g無法實現完全鑒別的現象,可能是由于這兩類茶葉在產地或加工技術上存在相似或相同之處,需結合其它聚類分析方法進一步探究。



圖5 8個品牌綠茶的線性判別結果圖Fig.5 Linear discrimination results of 8 brands of green tea samples
與無監督的PCA方法不同,基于類別的先驗知識的有監督方法具有更強的鑒別能力。LDA是一種常見的監督學習的降維技術,可用于聚類分析。圖5為8個品種綠茶的LDA結果。結果表明:有監督模式識別方法的判別準確性高于無監督模式識別方法。在使用LDA方法對茶葉數據進行處理后,8類茶葉均得到良好的區分,鑒別成功率達100%。然而使用該方法時需提供類別的先驗知識經驗,而像PCA這樣的無監督學習則無需類別先驗知識即可實現聚類分析。當缺乏校正集的類別信息或者類別先驗知識存在錯誤時,LDA方法往往得不到準確的鑒別結果,因此在利用近紅外光譜技術對不同品種綠茶進行無損鑒別分析時,需選擇合適的分類方法。
本文通過近紅外光譜技術結合不同化學計量學方法對8個不同品種綠茶進行了鑒別分析,比較了單一以及優化組合光譜預處理方法對光譜的影響,利用無監督的主成分分析與有監督的線性判別分析方法分別構建了茶葉品種的鑒別模型。結果表明:綠茶樣品本身形態易造成的光譜散射現象在使用多元散射校正以及標準正態變量變換預處理后得以有效消除;同時使用其它光譜預處理方法能改善光譜中存在的背景干擾以及基線漂移現象。這說明預處理可在一定程度上消除樣品形態等因素所造成的干擾,組合預處理方式的聚類分析結果明顯優于單一預處理方式。組合預處理方式結合無監督的主成分分析法可實現較為準確的綠茶樣品鑒別分析,準確率達75.00%;采用有監督模式識別的LDA方法對茶葉原始光譜數據進行處理可實現8類茶葉的快速100%聚類分析,但該方法需提供類別的先驗知識。