摘 要 采用近紅外光譜透反射模式結合化學計量學方法對純茶油進行真偽鑒別。收集并掃描了163個樣品(合格97個,不合格66個),對樣本進行光譜數據預處理優化及有效波段篩選。在5750 ~6000 cm-1波段處,光譜經過平滑,一階導數以及自歸一化后,采用無監督學習算法即主成分分析法(Principal component analysis,PCA)進行分類,然后再采用有監督學習算法即判別分析(Discriminant analysis, DA)建立校正模型,進行預測。PCA和DA都能夠得到滿意的結果,兩種方法的分類準確率均達到98.8%。結果表明: 近紅外光譜可作為一種簡單、快速、無損、可靠的方法用于鑒別純茶油的真偽。
關鍵詞 茶油; 近紅外光譜; 化學計量學; 鑒別
1 引 言
茶油全稱是油茶籽油,是油茶樹(Camellia Oleifera Abel)所產富含脂肪的種子經壓榨或浸提得到的植物油脂。茶油不僅色、香、味俱佳,且具有預防高血壓、冠心病、動脈粥樣硬化等心血管疾病的功效,因此有“東方橄欖油”、“油王”及“油中珍品”等稱號。茶油的高營養價值與其脂肪酸組成有關,《GB 11765-2003油茶籽油》中鑒定了茶油的主要脂肪酸組成:油酸(C18∶1)74%~87%,亞油酸(C18:2)7.0%~14%,飽和酸7%~11%。茶油中油酸的含量為天然植物油中之冠;含有的亞油酸、亞麻酸等多不飽和脂肪酸,是人體生長和生理活動不可缺少的必需脂肪酸,人體消化吸收率達97%;茶油富含生理活性物質甾醇、生育酚、角鯊烯等,對提高人體抗病能力,延緩衰老有重要作用;還含有山茶苷、山茶皂苷等特定的活性物質;茶油的抗氧化能力是普通油脂的60倍;茶油煙點高,熱穩定性好。茶油因色香味美,并具有保健功能,市場發展前景良好。
目前,市場上的純茶油品種有100%野山茶油、100%茶油。為了促進茶油質量的提高和防止摻假,對于100%純茶油品質的檢驗,《GB 11765-2003油茶籽油》與《GB/T 5539-2008 糧油檢驗 油脂定性檢驗方法》分別采用茶油的特征指標脂肪酸組成和茶油的定性實驗作為100%純茶油真實屬性的主要判定依據。已有采用液相色譜法、氣相色譜法、氣相質譜法與核磁共振等方法鑒別油脂真實屬性的報道,但其成本較高,耗時且對樣品具有破壞性。有必要尋找一種簡單、快速、準確的鑒別方法,保證茶油品質。
采用近紅外光譜技術對茶油的品質進行分析的報道較少。李娟等采用紅外和近紅外光譜結合SIMCA模式識別法對植物油進行分類識別。Wang等采用近紅外光譜與中紅外光譜結合SIMCA法和PLS法定性、定量分析了在茶油中添加大豆油的摻假樣品。本研究采用無監督學習算法,即主成分分析(Principal components analysis, PCA)與有監督學習算法,即判別分析(Discriminate analysis, DA),分別建立了純茶油真偽的分類模型,兩種方法相互驗證,并對光譜預處理方法與波段篩選做了系統的考察,取得了滿意的效果。
2 實驗部分
2.1 儀器與試劑
2010氣相色譜儀(日本Shimadzu公司),包括自動進樣器,進樣口、柱溫箱、FID檢測器及GC SOLUTION數據處理工作站; Nicolet Antaris Ⅱ傅里葉變換近紅外光譜儀(美國Thermo公司),配有積分球漫反射采樣系統,InGaAs檢測器,Omnic 7.3光譜采集軟件,TQAnalyst v6.2.1分析軟件,配有金反射板的樣品杯(丹麥FOSS公司),采用Matlab7.1軟件(Mathwork Inc.)處理數據。
脂肪酸甲酯標樣(Sigma-Aldrich公司),包括油酸甲酯(CAS 0000112629)、亞油酸甲酯(CAS 0000112630)、亞麻酸甲酯(CAS 0000301008)、棕櫚酸甲酯(CAS 0000112390)和硬脂酸甲酯(CAS 0000112618)。甲醇(色譜純, Tedla公司); 異辛烷(色譜純, Kermel公司); KOH(分析純,汕頭市西隴化工有限公司); NaHSO4(分析純,上海市振興化工有限公司)。
2.2 實驗方法
2.2.1 樣品收集 本實驗所用樣品163個,其中包括115個茶油(49個未精煉的原茶油,66個標稱精煉純茶油),16個菜籽油,6個大豆油,11個花生油,15個芝麻油。未精煉茶籽油由常德當地農戶提供,其它樣品購自長沙市各大超市。
2.2.2 氣相色譜方法 前處理方法:采用《GB/T 17377-2008 動植物油脂脂肪酸甲脂的氣相色譜分析》方法。稱取油樣60 mg至10 mL具塞試管中,移取4 mL異辛烷,溶解試樣,用微量移液管加入200
@ L KOH-甲醇溶液,蓋上玻璃塞劇烈振搖30 s后靜置至澄清。向溶液中加入約1 g NaHSO4,劇烈振搖,中和KOH。待鹽沉淀后,將上層甲酯溶液倒入進樣瓶中,進行GC分析。
氣相色譜條件: RTX-WAX色譜柱(30 m×0.25 mm×0.25
@ m);進樣口溫度:250℃;柱流速:氮氣1.1 mL/min; 程序升溫:170℃保持0.5 min,升溫速度為12 ℃/min,終溫230 ℃,保持21 min;檢測器氫火焰離子化(FID):280℃;氫氣流速:40.0 mL/min;空氣流速:400 mL/min;尾吹:30.0 mL/min;分流進樣:分流比30∶1。
2.2.3 近紅外光譜方法
近紅外光譜采用透反射檢測系統,NIR光譜掃描波數10000~4000 cm-1,掃描次數32次,分辨率8 cm-1,以內置背景為參照。每批樣品平行實驗4次,取其平均光譜。在樣品杯中置入1 mL樣品,然后用金反射板小心蓋壓在樣品杯中,以消除氣泡對光程的影響。每次采集光譜之后,依次用洗滌劑、自來水及蒸餾水將樣品杯與金反射板洗凈,然后用電吹風吹干,待用。
3 結果與討論
3.1 純茶籽油脂肪酸組成含量的測定
采用上述優化的樣品預處理方法和氣相色譜條件, 測定115個標稱純茶油樣品中油酸、亞油酸等5種脂肪酸的含量。根據《GB/T 11765-2003 油茶籽油》鑒定的純茶油脂肪酸組成范圍,判斷所有樣品的真實屬性。不合格樣品的脂肪酸組成如表1所示。
3.2 樣本的光譜建模波段選擇
圖1為代表性樣本的近紅外光譜圖,記錄了10000~4000 cm-1波數樣品的透反射光譜曲線,該區域包含了CH鍵的一級倍頻、二級倍頻與合頻信息及OH鍵的一級倍頻,其中光譜1和2分別表示合格與不合格純茶油樣品圖。由圖1可見,合格與不合格茶油的NIR光譜無明顯差異,用肉眼很難辨別,必須采用化學計量學方法進行數據預處理和建立模型。由于NIR全譜有1557個光譜變量,包含了大量冗余的信息。如果采用全光譜建模,模型復雜,計算時間長,而且還會影響模型的準確性。因此,需要對建模波段進行選擇。對10000~4000 cm-1全光譜進行Savitzky-Golay五點二次多項式平滑,扣除噪聲,采用一階導數變換得光譜圖2。由圖2可見,在伸縮振動與面內振動組合頻吸收區4200~4400 cm-1及伸縮振動一級倍頻區5750~6000 cm-1,譜圖之間的差異較大。但由于4200~4400 cm-1屬于高吸收區,光譜吸收強度可能與成分濃度之間存在較強的非線性關系。因此,本研究選擇5750~6000 cm-1作為建模的變量輸入,共66個變量。5750~6000 cm-1譜帶的歸屬是CH2, CH3以及CCH伸縮振動的一級倍頻,而合格與不合格純茶油之間的光譜主要差異是由于亞油酸與油酸含量不同造成的,而油酸與亞油酸的結構中均含有上述4種基團,本研究以5750~6000 cm-1波段作為輸入變量是合理的。
圖1 具有代表性樣本的近紅外光譜
Fig.1 Representative NIR spectra of the samples
1. 合格樣品(Qualified); 2. 不合格樣品(Unqualified)\\.
圖2 采用平滑與一階導數處理后樣本的近紅外光譜
Fig.2 NIR spectra by smoothing and first derivative
3.3 無監督學習算法
PCA是經典的無監督學習算法,也是最常用的數據壓縮和特征提取方法。PCA的主要目的是將整個數據進行降維,以排除大量化學信息共存中相互重疊的信息。它是將原變量進行轉換,使少數幾個新變量成為原變量的線性組合,同時,這些變量要盡可能多地表征原變量的數據結構特征而不丟失的信息。這樣新變量既保留了原有變量的主要信息,又減少了變量的個數。新變量又稱為得分,彼此正交。得分圖能夠揭示數據集的分類,因此用PCA定性區分真偽茶籽油。以下是原始數據經不同的預處理方法處理后,得到的主成分的得分圖。本研究中主成分得分圖是利用PC1和PC2繪制的樣品分類圖,橫縱坐標的數字表示主成分所能解釋的方差占所有主成分方差的百分數。
3.3.1 原始光譜數據的主成分得分圖 163個樣本的原始近紅外光譜的主成分得分圖如圖3所示。從圖3可見,直接用原始數據分類效果不好,兩類樣本之間嚴重重疊。這可能是由于原始光譜數據中存在光譜隨機噪聲、基線漂移、干擾組分背景光譜與測定環境背景等因素的影響。此外茶油樣品是由很多化學物質組成,其本身的復雜性也是影響分類效果的重要因素。因此在對光譜進行主成分分析之前要進行建模波段篩選與數據預處理。
3.3.2 預處理后的主成分圖
在全譜及5750~6000 cm-1范圍內,考察平滑(Smoothing)、一階導數(First derivative)、二階導數(Second derivative)、中心化(Centering)、自歸一化(Autoscaling)及相互組合等8種數據預處理方法。平滑可以消除隨機噪聲;導數運算可以去除斜坡背景并提高光譜分辨率,但次數太多可能會降低光譜信噪比;中心化可以去除光譜變量絕對強度對建模的影響;而自歸一化可以同時消除絕對強度以及光散射的影響。通過運算,最優的組合方法為:在5750~6000 cm-1波數下,采用平滑、一階導數及自歸一化3種方法處理,如圖4所示。兩類樣本經處理后,分類效果良好,正確識別率能夠達到98.8%。97個合格的純茶油以及66個不合格純茶油中,只有2個不合格樣品被誤判,被劃分到合格樣品區域,它們的樣品編號分別為68號和82號。從表1可見,68號和82號樣品的油酸含量分別為67.4%和67.5%; 亞油酸含量分別為16.5%和16.4%。與合格純茶油的油酸下限值74%、亞油酸上限值14%,非常接近。由于這兩個樣品的化學組成、含量與合格樣品非常接近,光譜差異很小,從而導致這兩個樣品被錯判。
圖3 原始光譜的主成分得分圖
Fig.3Principal component score for original spectra
圖4 經平滑、一階導數和自歸一化后的主成分得分圖
Fig.4 Principal component score:smoothing, first derivative and autoscaling
3.4 有監督學習算法
采取DA對合格與不合格油樣進行分類。DA是在PCA基礎上進行的,求每個樣本點距各類中心(該類所有建模樣本主成分得分的平均值)的馬氏距離,馬氏距離可以反映樣本點與該類的聚集程度,樣本點距哪一類中心的距離最近,則歸為哪一類。
利用儀器所集成的TQ Analyst v6.2.1提取了各個光譜的前10個主成分,前10個主成分的累計貢獻率為100%。163個樣品中,隨機抽取122個樣品作為訓練集,剩余的41個樣品作為預測集。同樣取5750~6000 cm-1波段作為建模波段,平滑后,對光譜進行建模。鑒別準確率與PCA方法相同,DA訓練集中82號被判錯,預測集中68號被判錯,上述兩個不合格樣本均被識別為合格樣本,樣本集總識別率為98.8%。
3.5 兩種方法的比較
比較PCA與DA兩種方法,錯判的均為68號和82號,結果一致。模型的總體正確識別率為988%。而且通過無監督學習算法與有監督學習算法的相互驗證,二者的結果完全相同,說明采用近紅外光譜技術能夠準確、可靠地鑒別純茶油的真偽,是對茶油定性鑒別的簡單、有效的方法。由圖3和圖4可見,68號和82號均被劃分到合格的純茶油樣品中,說明這兩個樣本的性質與合格純茶油更為相似,其脂肪酸組成含量不合格原因可能與油茶籽品種及采摘時間有關。
References
1 BAI Yun-Ai, SONG Da-Hai, ZHANG Fu-Qiang, XIAO Xue-Jun, ZHANG Qun-Xue(柏云愛,宋大海,張富強,肖學軍,張群學). China Oils and Fats(中國油脂), 2008, 33(3): 39~41
2 LIU Yu-Lan, WANG Xue-De(劉玉蘭, 汪學德). Oil Extraction Technology(油脂制取工藝學), Chemical Industry Press(化學工業出版社), 2006:41~43
3 Zabaras D, Gordon M H. Food Chem., 2004, 84(3): 475~483
4 Hajimahmoodi M, Vander Heyden Y, Sadeghi N, Jannat B, Oveisi M R, Shahbazian S. Talanta, 2005, 66(5): 1108~1116
5 Damirchi S A, Savage G P, Dutta P C.J. Am. Oil. Chem. Soc.,2005, 82(10): 717~725
6 Fragaki G, Spyros A, Siragakis G, Salivaras E, Dais P.J. Agr. Food Chem., 2005, 53(8): 2810-2816
7 LI Juan, FAN Lu, DENG De-Wen, ZHOU Zhan-Ming, WU Cun-Rong, TANG Huai-ian(李娟,范璐,鄧德文,周展明,吳存榮,唐懷建). Journal of Henan University of Technology, Natural Science Edition(河南工業大學學報),2008, 29(5): 18~21
8 Wang L, Lee F S C, Wang X R, He Y. Food Chemistry, 2006,95: 529~536
9 ZHU Xiang-Rong, LI Na, SHI Xin-Yuan, QIAO Yan-Jiang, ZHANG Zhuo-Yong(朱向榮,李 娜,史新元,喬延江,張卓勇). Chinese J. Anal. Chem.,(分析化學), 2008, 36(6): 770~774
10 LU Wan-Zhen(陸婉珍). Modern Near Infrared Spectroscopy Analytical Technology \\(現代近紅外光譜分析技術,第二版), China Petrochemical Press(中國石化出版社), 2006: 29~31
11 XU Lu, SHAO Xue-Guang(許 祿, 邵學廣). Method of Chemometrics(化學計量學方法), Science Press(科學出版社), 2004: 130~138
12 ZHU Xiang-Rong, LI Na, SHI Xin-Yuan, QIAO Yan-Jiang, ZHANG Zhuo-Yong(朱向榮,李 娜,史新元,喬延江,張卓勇). Chem. J. Chinese Universities(高等學校化學學報), 2008, 29(5): 906~911
13 WANG Jia-Jun,QIU Qi-Yang, LIU Wei(王家俊,邱啟楊,劉 巍). Spectroscopy and Spectral Analysis(光譜學與光譜分析), 2007, 25(5): 895~898
Identification of Camellia Oils by Near Infrared Spectroscopy
Combined with Chemometrics
ZHANG Ju-Hua, ZHU Xiang-Rong, LI Gao-Yang, SHAN Yang*,
SHANG Xue-Bo, HUANG Lu-Hong, SHUAI Ming
(Hunan Food Test and Analysis Centre, Hunan Academy of Agricultural Science, Changsha 410125)
Abstract Near infrared spectroscopy(NIRS) in the transreflection mode combined with chemome-trics was used to identify Camellia oil. The samples set contained 163 spectra of qualified (n=97) and unqualified (n=66) have been collected and scanned, the spectral data were pretreated and selected for effective variables. In the wavenumber range 5750 cm-1 to 6000 cm-1, the optimal combination of pretreatments (smoothed, first derivative, and autoscaling) was adopted to process the spectra. Unsupervised classification-principal component analysis (PCA) was firstly adopted to classify, and then supervised classification-discriminant analysis (DA) was used to build calibration model to predict. Satisfactory results were obtained by PCA and DA, the correct recognition rates of two methods can reach 98.8%. The results showed that NIRS can be used as a simple, rapid, nondestructive and reliable method to identify Camellia oil.
Keywords Camellia oil; Near infrared spectroscopy; Chemometrics; Identify
(Received 9 July 2010; accepted 6 December 2010)