,巧華,,*, ,, ,
(1.華中農業大學工學院,湖北武漢 430070; 2.華中農業大學國家蛋品加工技術研發分中心,湖北武漢 430070)
隨著我國雞蛋產業的快速發展,國家對盒包裝的雞蛋更加規范化,規定必須標明生產地、生產日期等,市場中亂標雞蛋產地的現象嚴重,不僅影響市場的健康發展,也侵犯了消費者與生產者的權益,不利于中國名優雞蛋原品種和品牌的保護。雞蛋品種及產地的檢測在加工、貯藏和銷售等方面都非常重要。為保證市場的公平,需要建立一種快速、精確的雞蛋產地溯源技術。
由于雞蛋成分復雜,其外觀和理化品質比較接近,采用傳統的感官和經驗方法很難鑒別其產地。可見-近紅外光譜是指波長的其中一部分是屬于可見光(400~760 nm)的波段范圍內,另一部分是屬于近紅外波段(780~2526 nm)的范圍內。可見-近紅外光譜的吸收主要是由于含氫基團振動的倍頻和合頻吸收所造成的。光譜信息能間接的反映出農產品本身的化學構成信息,因此,將該技術應用在農產品內部品質、品種、缺陷等方面的定性和定量研究,有著廣泛的前景[1]。可見-近紅外光譜分析技術是一種快速簡便無損的分析方法,且能夠用于在線檢測分級,被廣泛應用于食品、化工、醫藥等行業[2]。近年來,國內外學者利用光譜技術在農副產品品質的檢測上進行了相關研究[3-7],在蛋品品質檢測中,近紅外光譜技術也有應用。段宇飛等對雞蛋新鮮度研究方面,利用近紅外光譜結合局部線性嵌入(LLE)、支持向量回歸進行無損檢測[8];王巧華等利用近紅外光譜結合多模式共識法(CUVE)、偏最小二乘判別法(PLS-DA)對雞蛋新鮮度進行在線檢測分級[9];祝志慧等利用光譜技術和多分類器融合對異物蛋無損鑒別[10];孫俊等利用介電特性對雞蛋品種及產地進行無損鑒別,模型訓練集正確率為95.83%,測試集正確率為95.83%[11]。戴祁等利用穩定同位素對雞蛋鑒別及溯源進行研究,通過測定各地自來水的δ18O值,可以得出雞蛋的產地[12]。
上述研究中大多是研究雞蛋內部品質,對鑒別雞蛋產地溯源的研究較少且方法比較繁瑣。本研究利用自行搭建的可見-近紅外光譜檢測裝置,提取不同產地雞蛋的可見-近紅外透射光譜,運用直接正交信號校正結合t分布式隨機鄰域嵌入(t-SNE)方法來提取光譜特征信息,再將光譜特征信息輸入隨機森林建立產地溯源模型,為進一步研究與開發雞蛋產地溯源便攜式儀器提供技術支持。
雞蛋 共4種,均取自于湖北武漢、孝感、恩施和黃石4個產地的外形、顏色相近雞蛋,雞種為羅曼粉,產蛋母雞覓食品種均為青草、蟲子及谷粒等(自然放養),雞蛋日期相近(1~2 d),其中蛋重分布在45~65 g,蛋形指數分布在1.30~1.35。
USB2000+光纖光譜儀 美國海洋光學公司;L4探測器聚光透鏡 美國海洋光學公司;ILX511線陣CCD探測器 日本索尼公司;LS-3000高功率鹵素燈 廣州標旗電子科技有限公司;EA-01雞蛋新鮮度測定儀 以色列ORKA公司;MNT150數顯卡尺 上海美耐特實業有限公司;JY103B電子天平 上海精平電子儀器有限公司。
1.2.1 雞蛋樣本的挑選 測試前,清除蛋殼表面污漬,使用雞蛋新鮮度測定儀抽樣檢測,新鮮度均達AA級。隨機挑選4種雞蛋各60枚(共240個樣本)。然后將所有樣本按照每種雞蛋3∶1的比例選取訓練集180個樣本,測試集60個樣本,并對所有的實驗樣本進行編號并稱重。
1.2.2 光譜采集裝置的搭建 采集裝置包括6大部分,如圖1所示。計算機中安裝了與USB2000+光纖光譜儀配套的Specsuite光譜采集軟件。探測儀為聚光透鏡與線陣CCD探測器的組合,透鏡被固定在探測器窗片上,將透過信號光聚焦到探測器上,提高了采集信號光的效率。光源有內置風扇,調節溫度,保證雞蛋采集后的新鮮度。

圖1 雞蛋光譜采集裝置Fig.1 Egg spectrum collection device注:1:計算機;2:光纖光譜儀;3:光譜采集支架; 4:光纖探測儀;5:雞蛋;6:光源。
1.2.3 光譜采集 采集光譜前,將光譜儀開機預熱30 min。每枚雞蛋樣本水平橫放在檢測臺上,探測儀對準雞蛋長軸中心位置,重復掃描5次,取5次平均后的光譜曲線。采集參數設置:積分時間60 ms,平均掃描次數5次,平滑寬度設置為3。
1.2.4 光譜數據預處理 在實驗的過程中不可避免會伴有高頻隨機噪音、基線漂移等因素的影響,為了消除這些影響,需對原始光譜數據進行預處理。利用中心化、歸一化、標準正態變量(SNV)、直接正交信號校正(DOSC)、Savitzky-Golay平滑濾波(SG)和多元散射校正(MSC)方法進行光譜數據預處理,通過比較建模效果,確定最優預處理方法。
1.2.5 建模算法原理 ELM算法由Huang等提出,它是一種新型單隱層前饋神經網絡,已經證明了ELM具有與神經網絡相同的全局逼近能力[13-14]。RF具有分析復雜相互作用分類特征的能力,并且具有較快的學習速度,近年來已經被廣泛應用于各種分類、預測、特征選擇以及異常點檢測問題中[15-16]。ELM建模中武漢、孝感、恩施、黃石雞蛋的標簽分別為[1 0 0 0]、[0 1 0 0]、[0 0 1 0]、[0 0 0 1];RF建模中武漢、孝感、恩施、黃石雞蛋的標簽分別為1、2、3、4。
1.2.6 光譜降維方法原理 利用t分布式隨機鄰域嵌入(t-SNE)對光譜數據進行降維。SNE即Stochastic Neighbor Embedding,是Hinton在2002年提出來的算法,在高維空間相似的數據點,映射到低維空間距離也是相似的[17-18]。t是表示t分布,本文選用t分布的自由度為1。利用t-SNE將經過預處理后的光譜數據分別降到2、3、4、5維,通過建模分析來確定最優維數。

表1 不同產地雞蛋的基本參數分析Table 1 Analysis of the parameters of egg between different origin
注:同一行數據肩標不同小寫字母表示相互間差異顯著(p<0.05)。
利用Matlab2010b(Mathworks,美國)軟件編寫所有算法。Specsuite軟件(海洋光學,美國)用于光譜數據采集。
圖2為所有雞蛋樣本的原始吸光度光譜曲線,光譜采集范圍500~900 nm。

圖2 雞蛋吸收度光譜Fig.2 Original absorbance spectrum of eggs
光譜數據采集完后測量雞蛋的長軸、短軸與蛋殼厚度。用精度0.01 mm的游標卡尺測量蛋的長軸、短軸和蛋殼厚度,結果見表1。
表1說明4個產地雞蛋之間長軸、短軸、蛋殼厚度沒有顯著性差異不能通過這些基本參數來判別產地,且這些參數對光譜數據的影響相差不大,光譜數據可以表征雞蛋內部信息。
本文采用訓練集十字交叉驗證的準確率(cross validation Accuracy,CVaccuracy)、訓練集準確率(Train Accuracy,TRA)、測試集準確率(Test Accuracy,TEA)來評價模型的好壞。準確率越高,說明模型的精度越高。表2為全波段建模方法比較。由表2可知,RF方法訓練集準確率、測試集準確率、交叉驗證準確率均高于ELM方法,RF建模方法效果優于ELM建模方法,RF模型魯棒性好,可以完成隱含特征的選擇,并且提供一個很好的特征重要度的選擇指標。

表2 建模方法比較Table 2 Comparison of modeling methods
表3為不同預處理的預測結果,可以得出,經過不同預處理的光譜數據得出不同的預測效果,通過比較,利用直接正交信號校正(DOSC)建立的模型效果最好,預測集正確率為96.11%,測試集準確率為95.00%,交叉驗證準確率為92.42%。直接正交信號校正能夠有效除高頻隨機噪音、基線漂移[19-20]。

表3 不同預處理的預測結果Table 3 Prediction results based on different pretreatment methods
圖3、圖4為t-SNE、PCA降維后的3維可視化效果。

圖3 t-SNE降維Fig.3 Dimension reduction of t-SNE

圖4 前3個成分對應的累計貢獻率Fig.4 Cumulative contribution rate of the first there principal components

表4 降維處理的結果Table 4 Results based on dimension reduction

表5 t-SNE下不同維數的預測結果Table 5 The prediction results of different dimensions based on t-SNE
分別獲取降到3維的t-SNE、PCA數據,利用RF進行建模分析。其結果如表4所示。通過比較,利用t-SNE降維優于PCA降維與未降維。通過t-SNE方法不僅較好地保留了有效信息,而且極大地剔除了無效信息,減少了數據維數,進一步優化了模型。
表5顯示t-SNE下不同維數的預測結果,通過表5可以得出,降到2、3位的效果低于4、5維,且降到4維和5維效果一樣,在效果一樣的前提下,優先選擇維數小,有利于簡化模型。所以選用4維數據來進行建模。
隨機森林的起始性能往往相對較差,隨著子決策樹數目的增加,隨機森林通常會收斂到更低的泛化誤差(generalization error)。在機器學習中泛化誤差是用來衡量一個學習機器推廣未知數據的能力,即根據從樣本數據中學習到的規則能夠應用到新數據的能力。本文以利用袋外數據誤差(OOB error)估計作為泛化誤差[21]。袋外數據(OOB)誤差的計算方法如下:對于隨機森林,可以利用袋外數據進行性能測試,假設袋外數據總數為Y,用這Y袋外數據輸入生成的隨機森林分類器,分類器會給出Y個數據相應的分類,則用已知正確的分類與隨機森林分類的結果比對,統計隨機森林分類器分類錯誤的數量,設為X,則袋外數據誤差大小為X/Y。圖5為RF模型的袋外數據誤差率。

圖5 袋外數據誤差率Fig.5 Error rate of OOB
由圖5可知,當模型生成63個子決策樹時達到穩定狀態,袋外數據誤差率接近于0.03,使得隨機森林不易過擬合。圖6為預測集分類結果,其中1~15為武漢產地雞蛋,16~30為孝感產地雞蛋,31~45為恩施產地雞蛋,46~60為黃石產地雞蛋。

圖6 預測集分類結果Fig.6 Results of predictive set classification
模型對于訓練集和預測集樣本的鑒別結果:訓練集和預測集正確率為100%、98.33%,交叉驗證準確率為93.50%,袋外數據誤差率為0.03,單個雞蛋測試運行時間為30 ms。
本文提出了包括直接正交信號校正(DOSC)、t分布式隨機鄰域嵌入(t-SNE)結合隨機森林(RF)的方法對湖北4個地區雞蛋產地溯源。直接正交信號校正方法能夠消除可見-近紅外光譜中的高頻隨機噪音、基線漂移。運用t分布式隨機鄰域嵌入將光譜數據降維,得到雞蛋光譜低維空間的特征信息,提取有效信息,剔除無效信息。利用RF算法建模,具有較低的袋外數據誤差率,可以避免模型過擬合,提高模型的魯棒性。
提出的基于可見-近紅外光譜技術的雞蛋產地溯源方法的驗證精度高,訓練集和預測集正確率為100%、98.33%,說明利用該技術可用于雞蛋產地溯源,為下一步開發便攜式光譜檢測設備提供技術支持。
[1]Blanco M,Villarrova I. NIR spectroscopy:a rapid-response analytical tool[J]. Trac Trends in Analytical Chemistry,2002,21(4):240-250.
[2]嚴衍祿,趙龍蓮,韓東海,等.近紅外光譜分析基礎與應用[M].北京:中國輕工業出版社,2005:15.
[3]王徽蓉,陳新亮,李衛軍,等. 玉米品種近紅外光譜的特征分析與鑒別方法[J].光光譜學與光譜分析,2010,30(12):3213-3216.
[4]何勇,李曉麗,邵詠妮. 基于主成分分析和神經網絡的近紅外光譜蘋果品種鑒別方法研究[J].光譜學與光譜分析,2006,26(5):850-853.
[5]李曉麗,唐月明,何勇,等. 基于可見/近紅外光譜的水稻品種快速鑒別研究[J].光譜學與光譜分析,2008,28(3):578-581.
[6]徐文杰,劉茹,洪響聲,等. 基于近紅外光譜技術的淡水魚品種快速鑒別[J].農業工程學報,2014,30(1):253-261.
[7]郝勇,孫旭東,高榮杰,等.基于可見/近紅外光譜與SIMCA和PLS-DA的臍橙品種識別[J].農業工程學報,2010,26(12):373-377.
[8]段宇飛,王巧華,馬美湖,等. 基于LLE-SVR的雞蛋新鮮度可見-近紅外光譜無損檢測方法[J].光譜學與光譜分析,2016,36(4):981-985.
[9]王巧華,李小明,段宇飛. 基于CUVE-PLS-DA的雞蛋新鮮度在線檢測分級[J].食品科學,2016,37(22):187-191.
[10]祝志慧,謝德君,李婉清,等. 基于光譜技術和多分類器融合的異物蛋檢測[J].農業工程學報,2015,31(2):312-318.
[11]孫俊,劉彬,毛罕平,等. 基于介電特性的雞蛋品種無損鑒別[J].食品科學,2017,38(6):282-286.
[12]戴祁,肖冬光,鐘其頂.穩定同位素在雞蛋簽別及溯源中的應用研究[D].天津:天津科技大學,2016.
[13]Guang-Bin Huang,Qin-Yu Zhu,Chee-Kheong Siew. Extreme learning machine:a new learning scheme of feed forward neural networks[J]. IEEE International Joint Conference on Neural Networks,2004,2:985-990.
[14]Breiman L. Random Forests[J]. Machine Learning,2001,45(1):5-32.
[15]Strobl Carolin,Boulesteix Anne-Laure,Kneib Thomas,et al. Conditional variable importance for random forests[J].BMC Bioinformatics,2008,9(1):1-11.
[16]Mohammed Khalilia,Sounak Chakraborty,Mihail Popescu.Predicting disease risks form highly imbalance data using random forest[J]. BMC Medical Informatics and Decision Making,2011,11(1):1-13.
[17]L J P van der Maaten. Accelerating t-SNE using tree-based algorithms[J].Journal of Machine Learning Research,2014,15:3221-3245.
[18]L J P van der Maaten,G E Hinton. visualizing high-dimensional data using t-SNE[J]. Journal of Machine Learning Research,2008,9(12):2579-2605.
[19]李玉軍,湯曉君,劉君華.直接正交信號校正算法在烷烴類多組分氣體定量分析中的應用[J].光譜學與光譜分析,2012,32(4):1038-1042.
[20]胡國田,何東健,Kenneth A Sudduth.基于直接正交信號校正的土壤磷和鉀VNIR測定研究[J].農業機械學報,2015,46(7):139-145.
[21]David H Wolpert,William G Macready. An efficient method to estimate bagging’s generalization error[J]. Machine Learning,1997,5(1):1-16.