劉 星,范 楷,姚春霞,蔣智林,錢群麗,周佳欣,宋衛國*
(1上海市農業科學院農產品質量標準與檢測技術研究所,上海 201403;2普洱學院農林學院,普洱 665000)
普洱茶為國家地理標志保護產品,是以云南大葉種茶樹鮮葉為原料,經殺青、揉捻、毛茶干燥,再以自然的方式陳放或經過渥堆轉熟等制成具有獨特品質的普洱茶生茶或熟茶[1]。普洱茶中含有茶多酚、茶多糖、游離氨基酸、咖啡堿等營養活性成分[2-3],具有抗腫瘤[4-5]、抗氧化[6]、降壓減脂[7-8]、降血糖[9]等功能,受到不同年齡層次消費者的青睞。普洱茶生茶和熟茶的生產工藝不同,消費者通過肉眼就很容易辨別新茶的生茶(灰綠、墨綠色為主)和熟茶(深褐色或褐紅色為主)。但隨著貯藏時間的延長,生茶揮發性組分逐漸發生變化[10-11],顏色也逐漸變為深褐色,普通消費者通過感官評價很難識別老生茶和熟茶。由于不同產地普洱茶的營養活性成分、風味物質等組分存在差異[12],普洱茶的價格差距很大,這就為不法商家謀取利益提供了可能[13]。因此,迫切需要建立科學精準的方法,對普洱茶生熟屬性和產地進行溯源鑒別。
目前,已有學者利用化學成分分析和近紅外光譜技術(NIRS)實現了普洱茶生熟茶的有效識別[12,14-15]。這些前期研究中的樣品直接來自普洱茶廠家,雖然保證了樣品來源的真實性,但與市場上銷售的普洱茶可能存在差異。因為市場茶葉經過運輸、倉儲的過程,使得普洱茶的組分發生了變化。消費者實際接觸到的普洱茶產品與在廠家直接獲得的普洱茶,尤其是生茶,在風味上會有一定差異。由于化學成分分析方法一般較繁瑣,不能滿足市場快速識別的需求,因此,借助NIRS對市場上普洱茶進行生熟茶的識別可能更具有實際意義。
當前普洱茶的產地溯源技術包括信息溯源技術[16]、多元素溯源技術[17]、紅外光譜技術[18]、拉曼光譜技術[19]等。信息溯源技術依賴于主觀的信息記錄真實性,多元素溯源技術測定過程較繁雜,限制了這兩種技術在市場監管中的實用性。前期應用紅外光譜和拉曼光譜技術進行普洱茶溯源,僅僅是針對熟茶或未區分的生熟茶,所建模型用于市場上實際普洱茶樣品(包括生茶和熟茶)產地溯源的適用性有待驗證。
近紅外光譜主要反映食品各組分中含氫基團振動的倍頻和合頻,具有快速、無損、綠色等優點[20],已經在普洱茶發酵程度判別[21]、多糖含量預測[22]、真假識別[23]及其他茶類[24-25]的產地溯源上廣泛應用。因此,本研究以普洱茶主產區普洱市、西雙版納傣族自治州和昆明市的普洱茶生茶和熟茶為對象,應用NIRS結合化學計量學方法,開展普洱茶生茶和熟茶的判別及不同產地普洱茶的溯源,以期為普洱茶的真實性判定和市場監管提供技術支持和基礎數據。
于2018年在市場上采集普洱茶樣品65個。其中,不同年份的生茶樣品23個,不同年份的熟茶樣品32個,未知類別普洱茶樣品10個。所有樣品中,來自普洱市的樣品18個,西雙版納傣族自治州的樣品18個,昆明市的樣品4個,未知產地樣品25個。已知類別和產地的普洱茶樣品用于建模,未知樣品用于模型預測能力的驗證。將普洱茶樣品用粉碎機粉碎后,過40目標準篩,備用。
IS50紅外光譜儀,配近紅外積分球附件(美國Thermofisher公司);FW177型高速萬能粉碎機(上海本亭儀器有限公司)。
采用漫反射積分球模式采集近紅外光譜,光譜掃描波數范圍10 000—4 000 cm-1,掃描次數32次,光譜分辨率8 cm-1,數據點間隔為0.965 cm-1,近紅外光譜數據變量為6 224個,掃描數據由儀器自帶的OMNIC軟件以吸光度形式存儲。每個樣品平行試驗3次,取其平均光譜作為最終樣品光譜。整個試驗過程保持室內溫度在25℃左右。
為盡可能地利用光譜中的樣品信息,在光譜全波長范圍內,應用無監督學習算法主成分分析(principal component analysis,PCA)和有監督學習算法偏最小二乘判別分析(partial least squares discrimination analysis,PLS-DA)方法開展普洱茶生熟茶判別和不同產地普洱茶的溯源判別。PCA可以把光譜中的多個變量(總變量數為6 224)轉變為少數幾個有代表性的綜合變量(即主成分),這些主成分含有原始變量的大部分信息,能夠代表原始變量,且含有的變量信息互不重疊、互不相關,可以排除變量相關性的影響[26-27];PLS-DA可以借助變量的權重找出不同類別的差異,進而可以對普洱茶的不同類別進行區分[27-28]。PCA和PLS-DA分析過程由SIMCA 14.1軟件(瑞典Umetrics公司)完成。
由圖1可知,在近紅外譜圖的10 000—9 000 cm-1波數處可以清楚地區分大部分普洱茶生茶和熟茶,但在9 000—4 000 cm-1波數,熟茶與生茶出峰位置一致,譜圖重疊,難以辨別生熟茶,且存在2個普洱茶熟茶譜圖在10 000—9 000 cm-1波數處與生茶譜圖重疊,需要借助化學計量學方法進行不同產地生熟茶的識別。如圖2所示,在PCA中,取普洱茶生茶和熟茶前兩個主成分時,對原變量解釋能力(R2X)累積為0.968,大部分普洱茶生茶和熟茶可以明顯區分開,且由于貯存年份對生茶的化學組分影響較大,生茶較熟茶更分散。但是有2個生茶與熟茶相聚集,有2個熟茶的位置與生茶更接近,甚至有1個生茶與熟茶近似重疊(箭頭所指),證明老生茶化學組分中所含氫基團綜合與熟茶差異并不明顯,普通消費者通過感官很難識別老生茶和熟茶,也說明了通過PCA難以實現所有生熟茶的識別。因此,需要運用有監督學習算法PLS-DA來提高生熟茶的識別正確率。

圖1 普洱茶的近紅外原光譜圖Fig.1 Near infrared spectra of Pu’er tea

圖2 普洱茶生茶和熟茶的PCA得分圖Fig.2 Principal component analysis score chart of raw and ripe Pu’er tea
普洱茶生熟茶PLS-DA模型的主成分數、主成分數對原變量的解釋能力(R2X)和生熟茶識別正確率見表1。第一個主成分對原變量的解釋能力為0.714,對普洱茶生熟茶的識別正確率為81.82%,有8個生茶被錯判為熟茶,2個熟茶被錯判為生茶,說明第一個主成分包含原變量信息最多,且有些老生茶所含氫基團綜合可能與熟茶更相近[12]。當取前兩個主成分數時,對原變量的解釋能力為0.964,模型對生熟茶的識別正確率為90.91%,有3個生茶被錯判為熟茶,2個熟茶被錯判為生茶(圖3)。PLS-DA模型的前兩個主成分得分圖與PCA前兩個主成分得分圖(圖2)相似,但PLS-DA可以更好地將組間差異不明顯的變量加以區分[27],圖2中箭頭所指相互重疊的生熟茶樣品,在圖3中則被很好地區分(圓形部分)。當主成分數增加到3時,R2X累積增加到0.994,此時,模型對生熟茶的識別正確率為94.55%,有2個生茶被錯判為熟茶,1個熟茶被錯判為生茶。當主成分數增加到4,R2X累積增加到0.995,模型識別正確率為96.36%,熟茶的識別正確率為100%,仍然有2個生茶被錯判為熟茶,可能增加的主成分中包含更多的熟茶特征成分。當主成分數由4增加到10時,R2X累積逐漸增加,最終增加到1,但是模型對生熟茶的識別正確率沒有發生變化,均為96.36%。當主成分數由10增加到13時,R2X累積和模型識別正確率均無變化。當主成分數增加到14,R2X累積為1,模型識別正確率為98.18%,只有1個生茶被錯判為熟茶,說明所增加的主成分含有更多與生茶特征成分相關的信息。當主成分數增加到15時,模型對生熟茶的正確識別率達100%,說明利用有監督學習算法PLS-DA可以將普洱茶生熟茶完全識別。

表1 普洱茶生熟茶PLS-DA模型的主成分數與生熟茶識別正確率Table 1 Principal component number of PLS-DA model and recognition accuracy of raw and ripe Pu’er tea

圖3 識別普洱茶生熟茶的PLS-DA模型前兩個主成分得分圖Fig.3 The score chart of the first two principal components of PLS-DA for identifying raw and ripe Pu’er tea
由于不同產地普洱茶光譜的主要峰形相似,譜圖存在重疊現象,普洱茶的原光譜(圖1)并不能直接識別普洱茶的產地,本研究運用PCA和PLS-DA來輔助實現。
由圖4a知,第一個主成分對原變量的解釋能力為0.818,說明第一個主成分包含原變量的信息最多,前兩個主成分對原變量的解釋能力累積為0.977,說明前兩個主成分已包含了樣品的大部分信息。雖然圖4a中生熟茶分別聚集,但是3個產地的普洱茶分散無規律。再將生熟茶分開考察不同產地的溯源情況,由圖4b和4c可知,3個產地的普洱茶也不能被正確溯源。結果表明:不同產地自然環境、種植方式等對普洱茶的影響在光譜中的綜合反映沒有生熟茶中化學組分的影響大,僅通過無監督學習算法PCA的前兩個主成分并不能實現3個產地普洱茶的溯源。

圖4 不同產地普洱茶的PCA得分圖Fig.4 Principal component analysis score chart of Pu’er tea from different geographic origins
使用有監督學習算法PLS-DA進行普洱茶不同產地的溯源。不同產地普洱茶的PLS-DA主成分數、主成分數對原變量的解釋能力(R2X)和模型產地溯源正確率見表2,其前兩個主成分得分見圖5。PLS-DA的第一個主成分R2X為0.787,模型的溯源正確率僅為47.5%,因此,需要繼續增加建模的主成分數。當取前兩個主成分時,對原始變量解釋能力的累積為0.976,但是溯源模型的正確率反而降低為42.5%,說明第二個主成分可能包含了產地溯源不相關的信息,且圖5可以進一步說明不同產地的普洱茶混合分散,并沒有呈現聚集現象,這與PCA的前兩個主成分得分圖(圖4a)相似。當主成分數繼續增加,對原始變量解釋能力的累積逐漸增加,模型溯源的正確率也在緩慢增加。當主成分數取6時,R2X累積達到約1,但是模型的溯源正確率僅為62.5%,這可能與不同產地普洱茶的含氫基團綜合差異小有關,且光譜數據的原變量數為6 224個,即使主成分數大幅度增加,但其所包含的與產地相關的信息增加量卻緩慢增加。最終當取前26個主成分數時,模型的溯源正確率達到100%,雖然主成分數較多,但這是與光譜原始變量數相對應的,證實了PLS-DA可以實現不同產地普洱茶的溯源。

圖5 不同產地普洱茶的PLS-DA模型前兩個主成分得分圖Fig.5 The score chart of the first two principal components of PLS-DA model of Pu’er tea from different geographic origins

表2 不同產地普洱茶的PLS-DA模型主成分數與溯源正確率Table 2 Principal component number and traceability accuracy of PLS-DA models of Pu’er tea from different geographic origins
對于所建模型的預測能力和穩健性,通過市場所采集的未知樣品進行驗證。從圖6可見,PCA和PLS-DA前兩個主成分得分圖中均將10個未知類別普洱茶中的1個判為生茶,其他9個判為熟茶,且表3也證實了當PLS-DA模型的識別正確率為100%時,10個未知類別普洱茶中有1個為生茶,9個為熟茶。以上結果表明,在判別普洱茶類別時,PCA和PLS-DA模型均表現出優良的預測能力和穩健性,可以將模型用于普洱茶生熟茶的識別。

圖6 PCA(a)和PLS-DA(b)對普洱茶未知類別樣品的預測結果Fig.6 Prediction results of PCA(a)and PLS-DA(b)models for unknown class samples of Pu’er tea

表3 PLS-DA模型對普洱茶生熟茶的預測Table 3 Prediction of raw and ripe Pu’er tea by PLS-DA model
由圖7可知,由于已知產地普洱茶的PCA和PLS-DA前兩個主成分得分圖不能很好地將三地普洱茶進行溯源,且未知產地的樣品也與3個地區已知的樣品混雜,因此,利用PCA和PLS-DA的前兩個主成分得分圖不能實現未知樣品的溯源。由表2可知,當PLS-DA的主成分數增加到26時,已知樣品的溯源正確率為100%,此時,PLS-DA模型對25個未知樣品的溯源結果為5個樣品來自西雙版納,13個樣品來自普洱,7個樣品來自昆明(表4),說明可以利用PLS-DA模型來實現普洱茶未知樣品的產地溯源。

圖7 PCA(a)和PLS-DA(b)對未知產地樣品的預測結果Fig.7 Prediction results of PCA(a)and PLS-DA(b)models for unknown geographic origin samples

表4 PLS-DA模型對普洱茶產地的預測Table 4 Prediction of geographic origin of Pu’er tea by PLS-DA model
本研究基于普洱茶因生產工藝、產地等造成的其化學組分中含氫基團綜合存在差異,利用NIRS結合無監督學習算法PCA和有監督學習算法PLS-DA進行普洱茶(老)生熟茶類別識別及普洱茶產地的溯源。結果表明:PCA和PLS-DA模型均可很好地實現普洱茶生熟茶識別,且PLS-DA最優模型的識別正確率可達100%;但PCA模型不能實現三地普洱茶的溯源,而PLS-DA最優模型的溯源正確率為100%,說明PLS-DA模型可以實現西雙版納、普洱和昆明三地普洱茶的溯源。
通過10個未知生熟茶類別的普洱茶和25個未知產地的普洱茶來驗證PCA和PLS-DA模型的預測能力和穩健性。PCA和PLS-DA模型對10個未知類別的普洱茶預測結果一致,說明這兩種模型的預測能力和穩健性均優良,可以用于市場上未知類別普洱茶的預測。對于25個未知產地的普洱茶,PCA模型暫不能很好地進行預測,PLS-DA的預測結果顯示有5個樣品來自西雙版納,13個樣品來自普洱,7個樣品來自昆明,說明最優的PLS-DA模型可以初步實現市售未知產地普洱茶的溯源。為了提高所建模型的適用性和預測能力,后續需要進一步增加不同產地普洱茶的數量,尤其是昆明樣品。