吳靜珠, 劉翠玲, 李 慧, 孫曉榮
(北京工商大學計算機與信息工程學院,北京 100048)
基于近紅外光譜的純花生油摻偽快速鑒別方法研究
吳靜珠, 劉翠玲, 李 慧, 孫曉榮
(北京工商大學計算機與信息工程學院,北京 100048)
針對目前國內缺乏快速鑒別花生油摻偽鑒別技術的現狀,提出基于近紅外光譜的純花生油摻偽快速鑒別方法.實驗分別配制了摻入大豆油、菜籽油、棕櫚油和調和油的4類摻偽花生油樣品共40個,純花生油樣品5個,采集樣品近紅外全譜,通過支持向量機技術建立純花生油摻偽鑒別模型.結果表明,選取徑向基函數為支持向量機核函數,通過網格搜索和k折校驗法確定核參數γ為1,懲罰參數c為1 024,建立純花生油摻偽鑒別模型的識別率和預測率均達到100%,基于近紅外光譜的花生油摻偽快速檢測技術具有較好的可行性和實用性.
純花生油;摻偽鑒別;近紅外光譜;支持向量機
花生油是我國第三大食用油,以其營養豐富著稱,在市場上屬于價格較高的食用油之一.目前市場上頻頻出現不法商販為謀取暴利,將價格相對較低的油脂如菜籽油、大豆油和棕櫚油等摻入花生油進行銷售的現象.為了保護消費者權益以及維護市場秩序,在加強對花生油生產和銷售監管的同時,研究花生油摻偽快速鑒別方法在目前形式下尤為重要和迫切.
目前國內檢測花生油摻偽的方法主要有常規理化檢測方法和氣相色譜法等.這些方法具有較高的準確度和可靠性,但需借助于昂貴的設備或是嚴格的實驗室條件對樣品進行復雜的前處理,且分析速度慢,不能滿足市場快速檢測的需要.20世紀70年代迅速發展起來的近紅外光譜分析技術(Near Infrared Spectroscopy,簡稱NIR)是利用近紅外譜區包含的物質信息,用于有機物質定性和定量分析的一種分析技術[1].該方法具有快速、高效、無污染、無需前處理、無損分析及多組分同時測定等優點.西方國家最早將近紅外技術應用于油脂檢測,在橄欖油、堅果油及其他植物油的檢測中已得到成功應用.我國劉福莉[1]以8種食用油純油的43個樣品為對象,采用近紅外透射光譜結合聚類分析法快速鑒別食用油種類,判別模型對預測集樣品的準確率達到100%.范璐[2]等人利用氣相色譜和傅里葉變換紅外吸收光譜,對21種花生油、20種棕櫚油及兩者的4種調和油進行分析,對花生油和棕櫚油做了科學的識別分析.
現有的基于近紅外食用油定性鑒別研究主要是針對食用油種類,而對食用油摻偽鑒別的研究甚少.但是目前國內將低價油摻入高價油的現象頻頻出現,屢禁不止.基于國內實際情況,本文研究基于近紅外光譜技術的花生油摻偽快速鑒別方法,探索其作為一種快速無損鑒別食用油摻偽方法的可行性.
綜合市場上目前出現的在花生油中摻偽的主要是大豆油、菜籽油、棕櫚油等植物油,因此購買了如下樣品:花生油(超市,魯花壓榨一級,非轉基因),大豆油(超市,福臨門一級浸出,轉基因),菜籽油(超市,洪井源,非轉基因),棕櫚油(市場),調和油(超市,福臨門天然谷物調和油).
分別將大豆油、菜籽油、棕櫚油、調和油以一定比例摻入純花生油.以大豆油為例,摻偽比例如表1.菜籽油、棕櫚油、調和油的摻偽比例同大豆油,樣品編號分別以hcXX,hzXX,htXX命名.實驗共配置摻偽樣品40個.純花生油樣品以hsXX編號,共采集5份純花生油樣品.

表1 大豆油摻入花生油的配比Tab.1 Mix proportion of soybean oil and peanut oil
實驗采用德國Bruker公司的VERTEX 70紅外光譜儀.采集光譜波數范圍:4 000~12 500 cm-1,分辨率:8 cm-1,每個樣品重復掃描次數:32次,采樣點:1 102.使用液體光纖探頭采樣,光程:2 mm.
全部樣品未經任何化學處理,將光纖探頭插入裝有樣品的小瓶中,逐一掃描樣品,每次測量前均用石油醚清洗探頭,避免樣品間交叉污染.以表1中的樣品為例,其近紅外譜圖如圖1.

圖1 摻偽(大豆油)花生油樣品近紅外譜圖Fig.1 Near-infrared spectrum of adulteration peanut oil mixed with soybean oil
基于近紅外光譜的快速定性檢測技術目前被逐漸應用于質量控制中,但是,樣本少以及近紅外光譜的高維數給近紅外定性識別模型的建立帶來很大困難.支持向量機[3](Support Vector Machines,簡稱SVM)是一種新的通用的機器學習方法,以其小樣本下良好的推廣能力而被廣泛用于各種模式分類問題.
設訓練集為{xi,yi},i=1,…,n,xi∈Rn,yi∈{ -1,1},則SVM分類器的一般形式如下所示:

其中,K(xi,x)是核函數,通過在約束條件和0≤ai≤c,i=1,…,n 下最大化下式(2)求得.其中,c為懲罰參數.

實驗采用MATLAB 7.0和LIBSVM模式識別與回歸的軟件包(http://www.csie.ntu.edu.tw/~ cjlin/libsvm免費下載)實現SVM的分類算法,目前的最新版本為libsvm-2.91.LIBSVM使用的一般步驟如下.
1)按照LIBSVM軟件包所要求的格式準備數據集;
2)對數據進行簡單的縮放操作;
3)考慮選用RBF核函數;
4)采用交叉驗證選擇最佳參數c與r;
5)采用最佳參數e與r對整個訓練集進行訓練獲取支持向量機模型;
6)利用獲取的模型進行測試與預測.
本實驗采用上述步驟逐步建立基于近紅外-支持向量機的花生油摻偽鑒別模型.
歸一化有助于提高支持向量機的性能,可以避免數值范圍較大的屬性控制數值范圍較小的屬性,并且可以避免計算時的數值困難問題.本文采用的歸一化的計算公式如下式所示:

其中,xj,max,xj,min是光譜矩陣 x 中第 j列的最大值和最小值,OUTmax,OUTmin是歸一化后輸出范圍設定的最大最小值,xij,zij為歸一化前后光譜矩陣.本文設定歸一化后光譜矩陣的數值在[-1,1]內,則歸一化公式如下式所示.

需要注意對預測集也要進行與訓練集相同的歸一化,即對預測數據歸一化時用的最大最小值是訓練數據的最大最小值.本文采用MATAB提供的premnmx函數進行歸一化.
本文采用RBF徑向基函數為支持向量機的核函數,通過網格搜索和k折交叉驗證方法搜索最佳懲罰參數c和RBF核參數γ的最佳組合,設定初步搜索范圍 c=[2 -10,…,210],γ =[2 -10,…,210].網格搜索過程在Matlab 7.0中編程實現.實驗設定參數如下.
純花生油樣品用1標記,各種摻偽樣品用-1標記.
測試集樣品的選擇:純花生油hs02,hs04,根據摻偽濃度的梯度選擇摻大豆油樣品 hc02,hc04,hc06,hc08,摻菜籽油,棕櫚油,調和油樣品也同上類似選擇;其他樣品為訓練集樣品.
SVM類型采用C-SVC,交互校驗采用K重交叉驗證,K=5.
根據上述設定的參數進行最佳參數的網格搜索,結果如圖2.圖中所示曲線為參數組合log2(c)和log2(γ)下,SVM分類模型的交叉校驗預測率的等高線圖,等高線上標注的為預測率.選取SVM模型交叉校驗預測率為100%時的一組最佳參數c=1 024,γ =1.

圖2 SVM模型交叉校驗預測率等高線圖Fig.2 Contour map of cross validation prediction rate of SVM model
在Matlab 7.0中調用SVM模式識別與回歸的軟件包 LIBSVM.“svmtrain”和“svmpredict”是軟件包中兩個重要函數,分別用來實現SVM的訓練和預測過程.根據網格搜索得到的最佳參數訓練SVM模型,在MATLAB中調用形式:

模型參數為,支持向量數11,rho(即式1中的參數 b)為0.683 9.
采用模型預測訓練集和測試集,調用形式為,

這里的訓練集或是測試集的光譜數據都是經過歸一化后的數據.實驗結果如下所示:

實驗結果表明,采用近紅外光譜-SVM建立花生油摻偽定性鑒別模型的預測效果較好.
目前近紅外光譜分析中采用聚類分析法快速鑒別食用油種類研究較多,效果也較好[4].本文嘗試采用系統聚類法對本實驗中摻偽樣品集近紅外光譜進行鑒別分析,光譜矩陣經標準化預處理后,采用OPUS軟件提供的7種不同的聚類方法:singl linkage,average linkage,weighted Av,L inkage,median algorithm,centroid algorithm 和 Ward’s algorithm,聚類結果均不理想.以Ward’s Algorithmn,為例,聚類結果如圖3.因此從本實驗來看,對于摻偽鑒別,支持向量機較系統聚類法具有更好的性能.
本文根據市場上純花生油主要的摻假類型,配置了4種不同類型的純花生油摻偽樣品,通過支持向量機技術,建立了基于近紅外光譜的純花生油摻偽快速定性鑒別模型,對實驗中預測集和測試集的預測率均能達到100%.實驗表明基于近紅外光譜的純花生油摻偽快速檢測技術具有較好的可行性和實用性.

圖3 Ward’s Algorithmn聚類結果圖Fig.3 Cluster result based on Ward’s Algorithm
[1]劉福莉,陳華才,姜禮義,等.近紅外透射光譜聚類分析快速鑒別食用油種類[J].中國計量學院學報,2008,19(3):278-282.
[2]范璐,吳娜娜,霍權恭,等.氣相色譜分析和傅里葉變換紅外吸收光譜識別花生油中棕櫚油[J].河南工業大學學報:自然科學版,2008(1):12-16.
[3]Cristianini N,Shawe-taylor J.支持向量機導論[M].李國正,王猛,曾華軍,譯.北京:電子工業出版社,2004:1-176.
[4]吳靜珠,劉翠玲,李慧,等.近紅外光譜技術在食用油種類鑒別及脂肪酸含量檢測中的應用[J].北京工商大學學報:自然科學版,2010(5):56-59.
(責任編輯:王 寬)
Study on Identifying Peanut Oil Adulteration Based on Near Infrared Spectroscopy
WU Jing-zhu, LIU Cui-ling, LI Hui, SUN Xiao-rong
(School of Computer Science and Information Engineering,Beijing Technology and Business University,Beijing 100048,China)
A new method based on near infrared spectroscopy technology was established to detect peanut oil adulteration quickly.Four kinds of adulteration samples of soybean oil,rapeseed oil,palm oil and blend oil and five samples of pure peanut oil were collected for detection.Near Infrared spectrums of the samples were normalized as the input variables to SVM.The kernel function of SVM was RBF.The best combination of penalty parameter c and RBF kernel parameter γ were selected by gird search and K –fold cross validation(c=1 024,γ=1).The recognition ratio and prediction ratio were 100%.The experiments showed that the fast detection technology based on NIR and SVM was practicable for identifying peanut oil adulteration.
peanut oil;adulteration identification;NIR;SVM
TS207.3
A
1671-1513(2011)01-0075-04
2010-12-31
北京市優秀人才培養資助項目(20081D0500300130).
吳靜珠,女,副教授,博士,主要從事基于近紅外光譜的農產品及食品檢測技術方面的研究.