張瑋,李曉葦,李光,張榮香
(河北大學物理科學與技術學院,河北保定 071002)
二次特征提取法用于茶葉產地的識別
張瑋,李曉葦,李光,張榮香
(河北大學物理科學與技術學院,河北保定 071002)
利用傅里葉紅外光譜和特征基理論,對茶葉的產地進行研究.采集新茶葉樣品的光譜數據,通過選擇合適樣品建立光譜特征基,將新采集茶葉的光譜數據在反映茶葉產地特性的光譜特征基上投影,依據茶葉產地的地域特征不同,在主成分分析思想的基礎上提出了二次特征提取方法,并對比分析得出利用二次特征提取方法處理紅外光譜圖的可行性,而且可以有效地識別不同產地茶葉的特征.
紅外光譜;特征基;產地;二次特征提取
茶葉是世界3大飲料植物(茶葉、咖啡豆和可可豆)之一[1],從中國起源,并向世界各地傳播.作為已有四五千年茶種植和飲用的歷史,茶葉在中國具有獨特性和歷史性的茶文化[2].茶樹種類、種植產地和生產工藝流程的不同,導致茶葉品種繁多,無形中給茶葉的甄別帶來了困難.茶樹種植地的氣候、光照、土壤和水質等因素對茶葉的品質影響很大,從而出現以產地名稱命名的不同茶葉品牌.隨著市場經濟的發展和競爭,很多貿易問題擺在各大代表產區名茶的生產商和銷售商面前,假冒產地、假冒名茶品牌、濫竽充數的現象時有發生,導致茶葉市場秩序混亂,真正的本產地名茶的名譽和消費者的合法權益無法受到保護.所以,更快、更準、更簡單地辨別茶葉的產地有很重要的現實意義.本文選取了不同地域的25種不同的茶葉樣品,采用經典的紅外光譜壓片法獲得各種樣品的紅外光譜圖,并結合特征提取理論(主成分分析思想),提出了二次特征提取方法.文中簡要闡述了不同波長范圍的選取和光譜數據的預處理,然后應用二次特征提取法分析不同產地茶葉的紅外光譜圖,把不同地域茶葉的紅外光譜圖中的光譜重疊部分分開,進而區分出不同產地的茶葉,此方法對于鑒別茶葉等其他復雜體系的特征有重要的價值.
1.1 特征基理論
特征基理論是在主成分分析法的基礎上提出的一種多元統計分析方法,它可以減少茶葉紅外光譜圖原始數據的維數,從而提取出能夠反映茶葉主要信息的主要特征因素.
茶葉的光譜特征基是反映不同茶葉最大差異信息的特征因子,不同波段上的光譜包含的信息量也不同,一般把反映最大差異信息的典型茶葉進行特征提取,然后通過比較不同特征因子中所含的信息量確定茶葉的光譜特征基,然后把待測茶葉樣品在這個光譜特征基上投影,進而進行特征識別.
紅外光譜結合特征提取方法進行茶葉特征識別的優點是在保持主要光譜信息的前提下,用較少量的幾條本征譜去替代原來復雜的紅外光譜,從而使得由于重疊的譜帶而無法精確分析的問題得到了解決.
二次特征提取過程是把一次特征提取過程中提取出的主要特征因子再進行一次特征提取(主成分分析),也就是再次剔除茶葉主要信息中所含的冗余變量,進而提取出其中變化相差較大變量的過程.因為在一次特征提取中提取出的第一特征因子所含的信息量最全面也最重要,所以二次特征提取是把一次特征提取的第一特征因子再進行一次特征提取.經過二次特征提取后,利用包含信息量最大的特征因子建立特征基.圖1為二次特征提取流程圖.

圖1 二次特征提取流程Fig.1 Flow chart of the secondary feature extraction
1.2 樣品制備
1.2.1 實驗材料
本實驗篩選出來自6個產區的25種茶葉樣品,每類茶葉樣品都是中上等等級茶葉品種,而且在茶葉的分類研究、等級研究等問題上具有一定的說服性.表1給出了茶葉樣品選取的品種和產地情況,并對其進行了符號標示,以便下面的數據分析作圖研究.

表1 茶葉樣品及產地分布Tab.1 Distribution and origin of tea samples
1.2.2 實驗儀器
傅里葉紅外光譜儀;磨碎機;粉末壓片機;電熱恒溫鼓風干燥箱;電子天平.
1.2.3 制備樣品的流程
制備樣品的過程分別是:烘干、粉碎、研磨、壓片.首先,把篩選出的25種標準茶葉樣品放在40℃恒溫箱中烘干,大約12h烘干至恒重;然后把干燥完全的茶葉樣品放入粉碎機粉碎,再經過200目(74μm)篩子篩選后將收集到的茶葉樣品粉末裝入塑料袋中,封好封口并標記茶葉樣品的種類、時間等信息;把用篩子過目好的茶葉樣品粉末和溴化鉀按1∶120比例進行研磨,一定要研磨均勻至呈面狀粉末(一般情況下是稱取8mg標準茶葉樣品粉末和960mg KBr);經研磨后茶葉樣品和KBr的混合粉末還要經過壓片,在18MPa壓強的條件下維持2min.最后即可對做好的茶葉壓片樣品進行紅外光譜采集.制備過程中保持室溫及室內濕度不變.
1.3 波長范圍的選擇和數據的預處理
1.3.1 波長范圍的選擇
近幾年經過一些學者的分析研究,茶葉主要官能團的歸屬基本確定,筆者認為,茶葉在1 147,1 236,1 368,1 450,1 519,1 644,3 400cm-1這幾個波數附近存在較強的吸收峰[3].因此,選用中紅外波段對茶葉進行紅外光譜提取.
1.3.2 光譜數據的預處理
本實驗經過測量得到的茶葉樣品的紅外光譜數據要分別進行矢量歸一、一階導數光譜和S-G平滑預處理.首先進行矢量歸一處理.一般覺得每個光譜中波長點的吸光度遵循某種分布規律,然后在這個假設的基礎上對每條光譜進行校正.計算過程是先求出這條光譜的平均值,然后原光譜與這個平均值相減,最后得到的數據除以這個光譜數據的標準偏差,在本質上,使原有的光譜數據標準歸一化[4].通過矢量歸一計算后能夠去掉樣品紅外光譜中線性平移的影響.其次進行一階導數光譜處理.一階導數光譜消除基線漂移或背景干擾的影響,但也給一個更高的分辨率和更清晰的光譜分布的變化,從而減少重疊頻帶[5].最后進行信號平滑處理.信號平滑是祛除噪聲較常用的方法之一,Savitzky-Go1ay卷積是通過多項式來對移動窗口內的數據進行多項式最小二乘擬合.如果對數據進行多次測量后計算出平均值,就能降低噪聲,而且信噪比得到提高[6].
2.1 樣品的原始光譜圖分析
經過傅里葉紅外光譜儀對茶葉樣品的進一步分析,得到來自25種不同產地地域的茶葉樣品的紅外光譜圖,圖2是6種有代表性的不同產地的茶葉的紅外光譜圖.由圖2可以看出,圖中6種茶葉樣品的光譜圖峰形和峰位相近,譜峰之間互有交叉,用肉眼很難分辨出茶葉的不同產地.
2.2 特征提取過程對識別不同產地茶葉的影響
本實驗在選取建基用的茶葉的原產地時,所選取的茶葉既要包含要研究的君山毛尖、祁門紅茶系列、安溪鐵觀音、四川雅安藏茶等茶葉,還要包含代表中國其他茶葉產地特征的茶葉品種.在實驗中選取代表茶葉產區時,把福建產區分為閩南和閩北2個產區,把安徽產區分為黃山和祁門2個產區.之所以這樣區分是因為每個茶葉產地的地域特征不同,而不同的地域受氣候、土壤、海拔等因素影響很大,所以每個產區茶葉的信息要能在所建立的特征基上找到相應的位置,比如黃山和祁門茶葉要分別投影在各自地域信息位置上.
2.2.1 一次特征提取
采集湖南、四川、安徽黃山和祁門、福建閩南和閩北6個茶葉產區的茶葉紅外光譜,將各個產區的茶葉紅外光譜數據分別進行第一次特征提取,一次特征提取主要提取茶葉的第一特征因子和第二特征因子,因為前2個特征因子包含反映茶葉特性的主要特征成分,建立反映不同茶葉產地特性的光譜特征基,然后將光譜數據分別在特征基上投影,投影圖上的每個點對應一個茶葉樣本,圖3為經過一次特征提取后將25種茶葉數據在特征基上的投影.

圖2 6種茶葉樣品的原始紅外光譜Fig.2 Original infrared spectra drawing of six kinds of tea samples

圖3 一次建基分析不同茶葉產地的紅外光譜投影Fig.3 First foundation analysis for different tea producing area of ir projection drawing
把篩選出的待測茶葉樣品在建好的光譜特征基上進行投影,由圖3可以看出,經過一次特征提取后,各個產地的茶葉群聚性不明顯,除安徽祁門紅茶基本分布在一個區域外,其余產地的茶葉分布在不同的區域,相互交叉,基本無法分辨出茶葉的產區,由此可以看出,經過一次特征提取后,茶葉的特征基提取不純,摻雜很多冗余的成分,無法區分不同產地的茶葉.
2.2.2 二次特征提取對25種不同產地茶葉的特征識別
采集湖南、四川、安徽黃山和祁門、福建閩南和閩北6個茶葉產區的茶葉紅外光譜,將各個產區的茶葉紅外光譜數據分別進行第一次主成分分析,然后分別提取出各個產區的前2個特征因子進行第2次主成分分析(即二次特征提取),建立反映不同茶葉產地特性的光譜特征基,然后將光譜數據分別在第2次提取的特征基上投影,圖4為經過二次特征提取后將25種茶葉數據在特征基上的投影.
把篩選出的待測茶葉樣品在建好的光譜特征基上進行投影,由圖4可以看出,同種產地的茶葉聚團性良好,同種產地的茶葉基本分布同一區域內.福建閩南和閩北的茶葉分布在不同區域,安徽的祁門和黃山也分布在不同區域,符合選取茶葉產地時的區域劃分.但也有個別茶葉出現偏差,分布到其他產區,比如湖南產區的北港毛尖落在安徽祁門產區,而安徽黃山的新安銀針落在湖南產區.這個投影圖充分表明了利用二次特征提取方法處理紅外光譜圖的可行性,而且可以有效地識別不同產地茶葉的特征,識別率可達80%左右.
2.2.3 二次特征提取對16種不同產地茶葉的特征識別
由圖4可以看出,并不是所有茶葉都呈現良好的群聚性,比如:湖南產區的北港毛尖落在安徽祁門產區,安徽黃山的新安銀針落在湖南產區,雅安藏茶落在福建閩北產區,考慮到茶葉品質性的區別,因此在二次特征提取的基礎上,去掉一些聚團性比較差的茶葉重新處理,投影時將聚團性較好的16種茶葉進行投影得出投影圖5.

圖4 二次建基分析不同茶葉產地的紅外光譜投影Fig.4 Secondary foundation analysis for different tea producing area of ir projection drawing

圖5 二次建基分析16種茶葉產地的紅外光譜投影Fig.5 Secondary foundation analysis for 16kinds of tea producing area of ir projection drawing
由圖5可知,剔除零散的茶葉樣本后,16種不同產地的茶葉聚團性很好,各個產區的茶葉基本分布在一個區域,沒有交叉,因而利用二次特征提取方法可以對不同產地的茶葉進行有效地分類識別.
利用二次特征提取方法對不同產地區域的茶葉光譜進行分析處理后,將不同產地區域的茶葉的光譜重疊部分區分開,進而區分出了不同產地區域的茶葉.從最終處理得出的投影圖4和5中可以明顯看出同種產地的茶葉聚團性良好,同種產地的茶葉基本分布同一區域內.這個投影圖充分表明了利用特征提取方法處理紅外光譜圖的可行性.但是仍然可以看出并不是所有茶葉都遵循同種產地分布在同一區域這一規律,而是定位到了別的產地茶葉的區域中.同種產地茶葉的地域特征也會出現差異,這是一個很復雜的問題.經多方分析原因并排除了實驗誤差等原因之后,得出茶葉產地特征是一個綜和性指標的認識.所在地域的天氣、土壤、海拔和日照時間,甚至雨量,都可能對茶葉的產地特征產生很大的影響.
[1] 李愛國,胡子祥,龐彬妃,等.茶葉甄選與鑒別[M].成都:四川科學技術出版社,2003:3 54.
[2] 牛智有,林新.茶葉定性和定量近紅外光譜分析方法研究[J].光譜學與光譜分析,2009,29(9):2417-2420.
NIU Zhiyou,LIN Xin.Qualitative and quantitative analysis method of tea by near infrared spectroscopy[J].Spectroscopy and Spectral Analysis,2009,29(9):2417-2420.
[3] 趙曉輝,聶志矗,張連水,等.茶葉及其組分的紅外光譜研究[J].光學學報,2009,29(2):533 -536.
[4] 陳全勝,趙杰文,張海東,等.SIMCA模式識別方法在近紅外光譜識別茶葉中的應用[J].食品科學,2006,27(4):186-189.
[5] 袁洪福,陸婉珍.現代光譜分析中常用的化學計量學方法[J].現代科學儀器,1998,5(6):9.
[6] 郝勇,陳斌,朱銳.近紅外光譜預處理中幾種小波消噪方法的分析[J].光譜學與光譜分析,2006,26(10):1838-1841.
HAO Yong,CHEN Bin,ZHU Rui.Analysis of several methods for wavelet denoising used in near infrared spectrum pretreatment[J].Spectroscopy and Spectral Analysis,2006,26(10):1838 1841.
[7] LUYPAERT J,ZHANG M H,MASSART D L.Feasibility study for the using near infrared spectroscopy in the qualitative and quantitative of green tea[J].Analytica Chimica Acta,2003,478(2):303-312.
[8] 夏柏楊,任竿.近紅外光譜分析技術的一些數據處理方法的討論[J].光譜實驗室,2005,22(3):629-634.
[9] LEONARDO S G,TEIXEIRA A,FABIO S,et al.Multivariate calibration in Fourier transform infrared spectrometry as a tool to detect adulterations in Brazilian gasoline[J].Fuel,2008,87:346-352.
[10] ZHOW Qun,SUN Suqin,ZUO Lin,et al.Study on traditional Chinese medicine'Qing Kai Ling'injections from different manufactures by 2DIR correlation spectroscopy[J].Vibrational Spectroscopy,2004,36:207 -212.
(責任編輯:孟素蘭)
On the secondary feature extraction method applied to the tea origin identification
ZHANG Wei,LI Xiaowei,LI Guang,ZHANG Rongxiang
(College of Physics Science and Technology,Hebei University,Baoding 071002,China)
The origin of tea are studied by Fourier transform infrared spectroscopy and feature-based theory.Spectral data of new tea samples are collected and spectral characteristics basis is established by selecting the appropriate sample.The spectral data acquisition of new tea project on the spectral characteristics basis that can reflect the origin of tea.Based on the regional characteristics of the different origin of tea,on the basis of the Principal Component Analysis thought secondary feature extraction method is proposed,and comparative analysis of the feasibility of processing infrared spectra by using the secondary feature extraction method can effectively identify the different origin of tea.
infrared spectroscopy;feature-based;place of origin;secondaryfeature extraction method
張瑋(1984-),女,河北保定人,河北大學實驗師,主要從事紅外、傳感技術方向研究.E-mail:lszhangwei@hbu.edu.cn
O433.4
A
1000-1565(2014)05-0479 06
10.3969/j.issn.1000 -1565.2014.05.007
2014-01 -10
河北省自然科學基金資助項目(F2010000309);國家質監局公益性行業科研專項項目(200910083-01)