黃嘉榮,伍博迪,詹求強
(華南師范大學,華南先進光電子研究院光及電磁波研究中心,廣東 廣州510006)
隨著經濟生活水平的提高,人們對膳食結構的認識更加重視,大米作為糧食主食越來越受到關注,市場上大米的種類繁多,質量良莠不齊,所以快速識別大米具有現實的意義。傳統的大米主要成分分析方法有近紅外光譜[1]、高效液相色譜[2],氣相色譜串聯質譜[3],對大米所含離子用離子色譜分析,對大米中微量元素用電感耦合等離子體質譜分析[2]。但是這些檢驗條件都需要大型的實驗設備,便攜式拉曼光譜儀器作為一種新興的檢測手段,能達到高效、快速的檢目的,拉曼譜峰能反映出特定的官能團,先前已有 實 驗 對 植 物 油[4]、馬 鈴 薯[5]、黃 芪[6]、橄 欖油[7]、三七[8]等樣品進行過分析,本實驗采用拉曼光譜作為數據判別的依據,實現對大米的分類。
大米的主要成分是碳水化合物70%-80%,蛋白質7%-8%,脂質1%-2%,水11%-12%[9],其中直鏈淀粉和支鏈淀粉成分相似。測試所得到的拉曼光譜通常都有較強的熒光背景峰,常見降低熒光背景噪聲的方法有純化樣品、長時間照射,改變激發波長,增加掃描次數等等,除了改變這些硬件方法之外,還可以通過算法有效去除背景噪聲,提取真實有效的拉曼信號。主成分分析的目的是將數據降維,求出特征值和特征向量,最后算出主成分得分,利用少量的主成分代表原來大部分的信息,線性判別分析則是利用樣本點之間的距離進行判斷分組,從而能識別和歸類。
東北大米、清遠大米、糯米。
QE6500海洋光學光譜儀,RIP-RPB-785便攜式拉曼光纖探頭(激發波長785 nm,焦距7.5 mm),785 nm半導體激光器。光譜掃描功率200 mW,積分時間5 s,掃描范圍是550 cm-1到1 650 cm-1。
在室溫條件下,將樣品放在石英片上測試,三種大米隨機各取16個樣品,每個樣品測試3次,取平均值。
背景去除的算法用Matlab軟件實現,具體方法為先用最小二乘法對離散拉曼光譜進行多項式擬合,在每個波數下,取拉曼光譜和其擬合函數中較小的值重構成新的輸入函數,作為下一次迭代的輸入函數再次擬合,如此反復,最后一次迭代的擬合多項式將作為熒光背景的函數[10]。在此基礎上Jianhua ZHAO等[11]提出了改進的方法,優點有三個:(1)考慮到噪聲的影響,在多項式擬合函數上加上近似噪聲電平標準偏差(Standard deviation,DEV),再與每次迭代的輸入函數進行比較。而用原先方法時,特別在高噪聲即低信噪比的拉曼光譜中,噪聲會被當作拉曼峰而沒有進入迭代擬合的過程;(2)考慮到大型拉曼峰的影響,在第一次迭代過程中加入大型拉曼峰的去除。而用原先方法時,大型拉曼峰對多項式擬合有很大的影響,這會影響到熒光背景的擬合效果;(3)迭代次數少,大大減少運算的時間。由于只有第一次迭代的過程中去除拉曼峰,所以熒光背景還是很高,導致過度去除熒光背景,所以我們采用前幾次迭代擬合都加入大型拉曼峰去除的方法,保留數據的維數在原來的50%以下,減少過度去除熒光背景。圖1是優化算法流程圖,去除熒光背景前后的圖如圖2所示。
其中

ν1,ν2…νn為拉曼位移(單位cm-1);

迭代收斂條件為|(DEVi-DEVi-1)/DEVi|<5%。
大米的拉曼譜線如圖3所示,由于大米的主要成分是淀粉,圖中所示三種樣品的平均拉曼譜圖峰型相似,只有小部分不同,難以用肉眼進行分辨。各個拉曼峰的歸屬如表1所示[12]。

圖1 優化算法的流程圖Fig.1 Flow chart of optimized algorithm

表1 拉曼峰的位置和歸屬Tab.1 Raman wavenumbers and their respective assignments

s strong,m medium,w weak
由于大米的拉曼波形重復性高,所以對大米全波數范圍進行PCA分析提取關鍵差異信息,分別取前三個主成分為坐標軸,建立可視化模型,前三個主成分的方差貢獻率分別為86.63%,7.78%,3.73%,累計方差貢獻率達到98.14%,說明選取前三個主成分具有較強的代表性。由3D圖可以看出三類大米有良好的空間分類分布,具體的分類由線性判別分析進行進一步討論。

圖2 去除熒光背景前后的拉曼峰Fig.2 Raman spectrum before and after fluorescence background remove

圖3 三個樣品的拉曼譜圖Fig.3 Raman spectra of three samples
為了在二維坐標軸上清楚地顯示判別信息,我們選用PC1和PC2建立坐標軸。區別東北和清遠樣品的費希爾判別直線方程是:0.002PC1-0.009PC2+2.521=0;區別東北和糯米樣品的直線方程是:0.012PC2+2.572=0。分類結果顯示,東北大米有3個樣品分類錯誤,正確分類率為81.3%,清遠大米為100%,糯米為100%,綜合起來正確分類率為93.8%。對于PC1、PC2、PC3建立的三維坐標軸,東北大米有1個樣品分類錯誤,正確分類率為93.8%,清遠大米為100%,糯米為100%,綜合正確分類率為97.9%。由此可見,前三個主成分能代表大部分大米的信息。

圖4 主成分分析3D圖Fig.4 3D plot of PCA

圖5 主成分分析2D圖和線性判別分析Fig.5 2D plot of PCA and LDA
該實驗通過Matlab軟件優化去除熒光背景、降低噪聲的方法,在前幾次迭代過程中去除大型拉曼峰,提取了更精確的拉曼信號,建立分析模型。運用主成分分析法(PCA)和線性判別方法(LDA)對不同種類的大米進行歸類,結果表明,使用前三個主成分能達到97.9%的分類準確率,使用前兩個主成分能達到93.8%的分類準確率,由此可見,本實驗建立的優化模型對大米的分類具有很高的實用價值。
[1] 夏立婭,申世剛,劉崢顥,等.基于近紅外光譜和模式識別技術鑒別大米產地的研究[J].光譜學與光譜分析,2013,33(1):102-105.XIA Liya,SHEN Shigang,LIU Zhenghao,et al.Idenrtification of geographical origins of rice with pattern recognition technique by near infrared spectroscopy[J].Spectroscopy and Spectral Analysis,2013,33(1):102-105.
[2] 夏立婭.大米產地特征因子及溯源方法研究[D].石家莊:河北大學,2013.XIA Liya.Study on characteristic factor and assignment methods of rice geographical origin[D].Shijiazhuang:Hebei University,2013.
[3] 田福林,李紅,劉成雁,等.GC-MS法對不同產地大米的快速鑒定[J].分析測試學報,2011,30(09):1059-1062.TIAN Fulin,LIHong,LIU Chengyan,et al.Study on a quick identification of different rice species by GC-MS[J].Journal of Instrumental Analysis,2011,30(09):1059-1062.
[4] 吳靜珠,石瑞杰,陳巖,等.基于PLS_LDA和拉曼光譜快速定性識別食用植物油[J].食品工業科技,2014,35(6):55-58.WU Jingzhu,SHI Ruijie,CHEN Yan,et al.Rapid qualitative identification method of edible vegetable oil based on PLS-LDA and Raman[J].Science and Technology of Food Industry,2014,35(6):55-58.
[5] 代芬,BERGHOLT M S,BENJAMIN A J V,等.近紅外激發熒光光譜與拉曼光譜快速鑒別馬鈴薯品種[J].光譜學與光譜分析,2014,34(3):677-680.DAI Fen,BERGHOLT M S,BENJAMIN A J V,et al.Rapid identificaiton of potato cultivars using NIR-excited fluorescence and Raman spectroscopy[J].Spectroscopy and Spectral Analysis,2014,34(3):677-680.
[6] 黃浩,李潔,陳榮,等.拉曼光譜結合統計分析對不同產地黃芪飲片的鑒別分類研究[J].福州大學學報(自然科學版),2014,42(4):646-652.HUANG Hao,LI Jie,CHEN Rong,et al.Discrimination of Huangqi(Radix Astragali seu Hedysari)from different producing areas using Raman spectroscopy and statistical analysis[J].Journal of Fuzhou University(Natual Science Edition),2014,42(4):646-652.
[7] 周秀軍,戴連奎.基于最小二乘支持向量機的橄欖油摻雜拉曼快速鑒別方法[J].光散射學報,2013,25(2):176-182.ZHOU Xiujun,DAI Liankui.Fast discrimination of olive oil adulteration based on Raman spectra using least squares support vector machine[J].The Journal of Light Sattering,2013,25(2):176-182.
[8] 董晶晶,陳娟,戈延茹,等.激光拉曼光譜法無損鑒別三七及其偽品[J].激光與光電子學進展,2014,51(5):204-208.DONG Jingjing,CHEN Juan,GE Yanru,et al.Nondestructive identification of Panax notoginseng and its analogues via laser Raman spectroscopy[J].Laser&Optoelectronics Progress,2014,51(5):204-208.
[9] HWANG J,KANG S,LEE K,et al.Enhanced Raman spectroscopic discrimination of the geographical origins of rice samples via transmission spectral collection through packed grains[J].Talanta,2012,101:488-494.
[10] LIEBER C A,MAHADEVAN-JANSEN A.Automated method for subtraction of fluorescence from biological Raman spectra[J].Applied Spectroscopy,2003,57(11):1363-1367.
[11] ZHAO J,LIU H,MCLEAN D I,et al.Automated autofluorescence background subtraction algorithm for biomedical Raman spectroscopy[J].Applied Spectroscopy,2007,61(11):1225-1232.
[12] ALMEIDA M R,ALVESR S,NASCIMBEM L B,et al.Determination of amylose content in starch using Raman spectroscopy and multivariate calibration analysis[J].Analytical Bioanalytical Chemistry,2010,397(7):2693-2701.