錢麗麗,宋雪健,張東杰,*,左 鋒,鹿保鑫,遲曉星,趙海燕
產地鑒別有利于實施名優特產品產地保護,保護地區名牌和特色產品。五常大米因其獨特的地理氣候使得大米品質好、口感佳,其銷售價格在市場上有著絕對優勢[1],致使五常大米摻假情況時有發生,嚴重損害了企業和消費者的利益,因此開發五常大米原產地保護技術尤為重要。稻谷中有機成分的含量及組成特征與其生長環境中的水、土壤或氣候等相關。由于受生長環境差異的影響,不同產地來源的農產品中,其有機成分的含量和組成可能存在差異,因此可作為原產地鑒別指標之一。目前,礦物元素指紋分析技術[2-3]、電子鼻指紋圖譜技術[4-5]、電子舌指紋圖譜技術[6-7]、DNA指紋圖譜技術[8-9]、模糊模式識別技術[10]、近紅外光譜技術[11-13]和中紅外光譜技術[14-15]被用于判別農產品的產地來源。
近紅外光譜技術結合化學計量學手段應用于食品產地鑒別方面,歐盟研究的較多,我國在此方面的研究相對較少。張萍等[16]采用近紅外光譜技術研究了食用油摻假問題,通過主成分分析成功區分了3 種食用油(芝麻油、大豆油、花生油)和摻雜了其他油脂的芝麻油;陳全勝等[17]采用近紅外光譜結合模式識別方法,建立了4 類茶葉識別模型,識別率均在80%以上;Sinelli等[18]通過傳統感官評價方法并結合傅里葉變換近紅外光譜技術(Fourier transform near infrared spectroscopy,FTNIS)對112 組初榨橄欖油進行了產地溯源研究,發現采用線性判別分析和模式識別分類法對初榨橄欖油產地的判別正確率分別為71.6%、100%;在大米的近紅外光譜技術研究中,更多學者集中在大米的品質檢測方面[19-20],對于產地鑒別研究并不多見。夏立婭等[23]以響水和非響水大米為研究對象,利用近紅外光譜法結合凝聚層次聚類和Fisher’s判別方法對響水大米進行產地鑒別,確定了特征波段為7 700~6 700 cm-1與5 700~4 300 cm-1。Davrieux等[24]采用近紅外光譜方法對香米和非香米進行了指紋圖譜分析和鑒別。以上研究可以看出,近紅外光譜技術在不同農產品產地鑒別中已有相關研究。而采用FTNIS法結合化學計量學對大米中有機成分整體指紋進行分析研究鮮見報道。黃方田等[25]采用傅里葉變換紅外光譜法對云南不同產地大米進行鑒別研究;傅里葉變換紅外光譜法對粳米、糯米和秈米進行模式識別研究也具有可行性[26];國外學者采用傅里葉變換近紅外漫反射光譜法,結合主成分分析-概率神經網絡的手段,對枇杷產地進行識別,結果發現模型的正確識別率達97%,能有效地將2 個產地的枇杷區分開[27]。
本實驗采用FTNIS法進行大米樣品光譜的預處理,結合鑒別分析、聚類分析及定量分析建立五常大米產地判別模型,為五常地理標志大米產地保護研究提供一定的理論支撐。
隨機選取2015年黑龍江省五常地區地理標志五常大米70 份樣品,非五常大米121 份從黑龍江省的水稻主產區(建三江、查哈陽、響水、方正等地區稻田)隨機采集獲得,共計191 份樣本,每份樣本采集2 kg并記錄采樣信息,所有大米樣品均為當地主栽粳米,樣品詳細信息如表1所示。

表1 樣品信息Table 1 Information about collected samples
FC2K礱谷機 日本大竹制作所;VP-32實驗碾米機日本山本公司;FW100高速萬能粉碎機 天津泰斯特儀器有限公司;TENSORII型FTNIS儀 德國布魯克(北京)科技有限公司。
1.3.1 儀器參數
漫反射鍍金積分球,InGaAs檢測器,軟件基礎:近紅外譜圖采集及譜圖處理基于OPUS7.5軟件平臺,分辨率:8 cm-1。掃描次數:64 次。環境溫度為室溫(25±1)℃,相對濕度為20%~30%。光譜波段范圍:12 000~4 000 cm-1。
1.3.2 樣品前處理及光譜的采集
將水稻進行晾曬、脫粒、挑選、礱谷和碾米、制粉等統一加工后,制成米粉,并過100 目篩,待測。每份水稻礱谷2 次。碾米時進樣量設置為3,白度為3,碾米3 次。
將FTNIS預熱30 min,打開OPUS7.5軟件、檢查信號、保存峰位,掃描背景單通道光譜每間隔1 h掃描一次背景,消除外界信息干擾保證光譜的穩定性以減少實驗誤差。將樣品粉末倒入玻璃杯中,用壓樣器壓實(保證樣品厚度一致),測量樣品單通道采集樣品光譜。
1.3.3 材料選取
分別隨機選擇兩類全部樣品量的2/3作為訓練集樣品用于模型的建立,1/3作為驗證集樣品集用于模型的驗證。詳細信息見表2。

表2 訓練集與預測集樣品Table 2 Training and prediction sets
1.3.4 五常大米產地溯源模型的建立
1.3.4.1 定性分析溯源模型的建立
利用OPUS7.5軟件內置定性分析方法(鑒別分析和聚類分析),進行定性分析模型的建立,采用矢量歸一化、一階導數+平滑、一階導數+矢量歸一化+平滑、二階導數+平滑、二階導數+矢量歸一化+平滑方式對建模原始光譜進行預處理,其中平滑點數為5、9、13、17、21、25 點(下同),篩選出差異明顯的波段,對光譜采用因子化法進行計算處理,最終建立定性分析模型。利用建立好的鑒別分析模型和聚類分析模型分別對預測集樣品進行產地判別鑒定。
定性分析采用因子化法進行計算,因子化法光譜距離(D)按公式(1)進行計算:

式中:a為原始光譜;b為重建光譜;Tia為第i張原始光譜圖的得分值;Tib為第i張重建光譜圖的得分值。
需要將譜圖先表示為所謂因子譜的線性組合,如公式(2)所示:

式中:a為原始光譜;f為各種因子譜;T為重建原始光譜a時每張因子譜的得分值,該值越大表明該因子譜對原始光譜的貢獻越大。
對于鑒別分析需要通過比較選擇性S值來最終確定最優預處理方式并建立鑒別分析模型,S值按照公式(3)進行計算。S值表征樣品之間的距離,當S值小于1時,表示兩類樣品“相交”,樣品未被分開;當S值為1時,表示兩類樣品“相切”;當S值大于1時,表示兩類樣品“相離”,樣品被分開,故S值越大于1,模型的效果越好。

式中:D表示兩類大米的平均光譜距離;DT1表示五常大米光譜模型半徑;DT2表示非五常大米光譜模型半徑。
對于聚類分析而言,兩類光譜的距離越大證明其差異越大,分類效果越好。采用加權平均距離法進行計算,如公式(4)所示:

式中:p為五常大米,q為非五常大米,p與q被聚為一個新目標r,i為一個目標矢量值;np為五常大米的譜圖數目,nq為非五常大米的譜圖數目;D(r,i)為新目標(r)與目標(i)的距離,D(p,i)為p與i的光譜距離,D(q,i)為q與i的光譜距離。
1.3.4.2 定量分析溯源模型的建立及驗證
利用OPUS7.5軟件建立定量測定方法,利用0、1表示五常大米和非五常大米的組分值,以預測值在真實值±0.5之間表明樣品產地判別正確率[28]。波段選擇及預處理方式則是通過系統優化自動選擇最優組合。同樣光譜的預處理方式有消除常數偏移量、減去一條直線、矢量歸一化、最小-最大歸一化、多元散射矯正、內部標準、一階導數+平滑、二階導數+平滑、一階導數+減去一條直線+平滑、一階導數+矢量歸一化+平滑、一階導數+MSC+平滑,定量分析計算方法為偏最小二乘法(partial least squares,PLS),采用留1交叉檢驗的方式進行建模。利用建立好的定量分析模型對預測集樣品進行產地判別鑒定。PLS法是用一個線性模型來描述獨立變量Y與預測變量組X之間的關系,如公式(5)所示:

式中:b0為截距;b1~bp為回歸系數;Y為大米樣品所賦組分值的真值;X為大米樣品組分值的預測值。

圖1 大米樣品近紅外原始光譜圖Fig. 1 Original near infrared spectra of rice samples
由圖1可知,在I區即波段7 500~9 000 cm-1處為C—H的二級倍頻伸縮振動,其中8 321 cm-1附近的吸收峰脂肪烴中甲基(—CH)基團引起的;在II區即5 500~7 500 cm-1處是C—H第二組合頻區,在6 846cm-1附近的吸收峰是因—CH2二級振動所引起的,因與樣品中氨基酸種類及含量有關,所以較I區信息稍強些;在III區即4 000~5 500 cm-1處是C—H第一組合頻譜區,是表征蛋白質及淀粉物質中的N—H、C—H、O—H及C=O鍵振動的主要區間,其中5 173 cm-1處的吸收峰與其有關[29]。對光譜進行預處理可以消除在光譜采集過程中的無關信息,如電噪聲、雜散光等,能較好地解決模型的傳遞問題,從而提高模型的準確性[30]。
原始光譜經過預處理后,在波數范圍為5 000~5 500 cm-1、7 000~7 500 cm-1處差異明顯,體現出波段特性,故選5 000~5 500 cm-1、7 000~7 500 cm-1、5 000~5 500 cm-1和7 000~7 500 cm-1波數區域進行建模分析,結果如表3所示。根據S值的大小來衡量模型的質量,結果發現,在波段為5 000~5 500 cm-1、預處理方式為二階導數+5點平滑時,五常大米和非五常大米樣品均被唯一鑒別,且S值為1.287,數值最大,在其他條件下雖然有被唯一鑒別的情況出現,但是S值相對較低,即兩類樣品“距離”較近,建立的模型容易出現誤判的情況,鑒別率低。故在波段為5 000~5 500 cm-1,選取二階導數+5點平滑建立鑒別分析模型。所得2D得分圖如圖2所示。

表3 不同波段下預處理方法對鑒別分析模型效果的影響Table 3 Effects of pretreatment methods at different bands on qualitative analysis model

圖2 不同地區大米樣品的因子化法2D得分散點圖Fig. 2 2D score plot of factor analysis method for rice samples collected from different regions
根據水稻的自身屬性,用數學方法按照相似性或者差異性指標來確定樣品之間的親疏關系,并進行聚類分析。由表4可知,在波段為5 000~5 500 cm-1,預處理方法為二階導數+矢量歸一化+5 點平滑對原始光譜進行處理后分類且兩類大米之間的光譜距離為0.087。不同大米樣品的聚類分析結果如圖3所示。綜合以上結果,故選二階導數+矢量歸一化+5 點平滑建立聚類分析模型。

表4 不同波段下預處理方式對聚類分析模型效果的影響Table 4 Effects of pretreatment methods at different bands on clustering analysis model

圖3 不同地域大米樣品的聚類分析結果Fig. 3 Cluster analysis of rice samples from different regions
利用OPUS7.5軟件,調入建立鑒別分析方法即波段為5 000~5 500 cm-1,預處理方式為二階導數+5點平滑,對預測集樣品進行鑒別,結果表明,五常地域的大米鑒別正確率為100%,非五常地域的大米鑒別正確率為97.50%。
調入聚類分析方法即波段為5 000~5 500 cm-1,預處理方法為二階導數+矢量歸一化+5點平滑,對預測集樣品進行聚類分析,結果表明,五常地域的大米判別正確率為100%,非五常地域的大米判別正確率為100%,見表5。

表5 定性分析模型對預測集大米樣品的判定結果Table 5 Results of qualitative analysis for prediction set
采用PLS法依據樣品光譜波段的差異對差異波段范圍、預處理方式的選擇及維數的確立,按交互驗證均方根誤差(root mean square error of cross validation,RMSECV)升序排列進行優化處理。R2為定向系數,數值越接近100%則表示預測含量值愈接近真值,對于交叉檢驗,RMSECV值可以作為模型質量的判據,數值越小越好。由圖4和圖5可知,經過篩選、排除異常點等處理后,篩選出最優組合波段為9 400.9~6 098 cm-1與5 450.6~4 249.8 cm-1組合,預處理方式為二階導數+17 點平滑時,維數為9,R2為99.05%,RMSECV值為0.038 3,故選此建立定量分析模型。

圖4 地區預測值與參考值相關圖Fig. 4 Correlation between predicted value and reference value

圖5 RMSECV與維數的關系圖Fig. 5 Plot of RMSECV as a function of dimensionality
利用OPUS7.5軟件,調入定量分析模型,波段為9 400.9~6 098 cm-1與5 450.6~4 249.8 cm-1組合,預處理方式為二階導數+17 點平滑時,對預測樣品進行定量分析。由表6可知,五常地區的大米判別正確率為95.83%,非五常地區的大米判別正確率為95.00%。

表6 定量分析模型對預測集大米樣品的判定結果Table 6 Results of quantitative analysis for prediction set
選取五常地區大米和非五常地區大米共計191 份樣品進行五常大米的產地鑒別研究,運用因子化法在波段為5 000~5 500 cm-1采用二階導數+5 點平滑的預處理方式建立鑒別分析模型較好,其S值為1.287。并對預測樣品進行鑒別分析,結果表明,五常地區大米的鑒別正確率為100%,非五常地區的大米鑒別正確率為97.50%。在波段為5 000~5 500cm-1,預處理方法為二階導數+矢量歸一化+5 點平滑建立聚類分析模型較好,其加權平均光譜距離為0.087,并對預測樣品進行聚類分析,結果表明,五常地區的大米判別正確率為100%,非五常地區的大米判別正確率為100%,同時利用特征波段進行聚類分析的精確度高于全波段的聚類分析,與夏立婭等[13]研究結果相類似。利用PLS法在波段為9 400.9~6 098 cm-1與5 450.6~4 249.8 cm-1組合,預處理方式為二階導數+17 點平滑建立的定量分析模型較好,其R2為99.05%,RMSECV值為0.038 3,并對預測樣品進行判別分析,結果表明,五常地區的大米判別正確率為95.83%,非五常地區的大米判別正確率為95.00%。綜上可知,FTNIS法結合因子化法和PLS法所建立的定性分析模型和定量分析模型可以用于五常大米的快速鑒別,定性判別分析方法預測效果要優于定量判別分析方法。
參考文獻:
[1] 許慶武. 地方特色大米產業創新發展研究[D]. 武漢: 武漢理工大學,2012.
[2] 張玥, 王朝輝, 張亞婷, 等. 基于主成分分析和判別分析的大米產地溯源[J]. 中國糧油學報, 2016, 31(4): 1-5. DOI:10.3969/j.issn.1003-0174.2016.04.001.
[3] 趙海燕, 郭波莉, 張波, 等. 小麥產地礦物元素指紋溯源技術研究[J]. 中國農業科學, 2010, 43(18): 3817-3823. DOI:10.3864/j.issn.0578-1752.2010.18.016.
[4] 張紅梅, 王俊. 電子鼻傳感器陣列優化及其在小麥儲藏年限檢測中的應用[J]. 農業工程學報, 2006, 22(12): 164-167. DOI:10.3321/j.issn:1002-6819.2006.12.034.
[5] 錢麗麗, 呂海峰, 鹿保鑫, 等. 地理標志大米的仿生電子鼻分類識別[J]. 中國糧油學報, 2016, 31(8): 131-137. DOI:10.3969/j.issn.1003-0174.2016.08.024.
[6] ERNEST T. 傅里葉近紅外光譜技術和電子舌技術結合模式識別方法的可可豆定性定量分析[D]. 鎮江: 江蘇大學, 2014.
[7] 許芳, 陳軒. 電子舌技術對不同產地紅茶的滋味識別[J]. 湖北農業科學, 2016(9): 2373-2376. DOI:10.14088/j.cnki.issn0439-8114.2016.09.057.
[8] 馮雪, 柳艷霞, 賀澤英, 等. 稻米代謝組學分析方法的建立及在產地溯源中的應用[J]. 分析測試學報, 2016, 35(5): 514-519.DOI:10.3969/j.issn.1004-4957.2016.05.003.
[9] 吳婷, 魏珊, 米麗華, 等. 不同產地連翹的DNA指紋圖譜構建與聚類分析[J]. 中草藥, 2016, 47(5): 816-820. DOI:10.7501/j.issn.0253-2670.2016.05.022.
[10] 宋明娟, 朱思宇, 楊麗, 等. 大米產地的模糊模式識別[J]. 模糊系統與數學, 2015, 29(4): 186-190. DOI:1001-7402(2015)04-0186-05.
[11] 程權, 楊方, 王丹紅, 等. 近紅外光譜技術對閩南烏龍茶品種的識別研究[J]. 光譜學與光譜分析, 2014(3): 656-659. DOI:10.3964/j.is sn.1000-0593(2014)03-0656-04.
[12] 楊海龍, 臧恒昌, 胡甜, 等. 近紅外漫反射光譜法對不同產地山楂的定性鑒別和定量分析[J]. 藥物分析雜志, 2014, 34(3): 396-401.DOI:0254-1793(2014)03-0396-06.
[13] 傅霞萍, 應義斌. 基于NIR和Raman光譜的果蔬質量檢測研究進展與展望[J]. 農業機械學報, 2013, 44(8): 148-164. DOI:10.6041/j.issn.1000-1298.2013.08.026.
[14] 胡燕, 齊桂年. 我國不同產地黑茶的FTIR指紋圖譜分析[J]. 核農學報, 2014(4): 684-691. DOI:10.11869/j.issn.100-8551.2014.04.0684.
[15] 劉明地, 李仲, 吳啟勛, 等. 青海枸杞的紅外光譜鑒別及相似度分析[J]. 計算機與應用化學, 2014, 31(12): 1553-1556. DOI:10.11719/com.app.chem20141231.
[16] 張萍, 閆繼紅, 朱志華, 等. 近紅外光譜技術在食品品質鑒別中的應用研究[J]. 現代科學儀器, 2006(1): 60-62. DOI:10.3969/j.issn.1003-8892.2006.01.020.
[17] 陳全勝, 趙杰文, 張海東, 等. SIMCA模式識別方法在近紅外光譜識別茶葉中的應用[J]. 食品科學, 2006, 27(4): 186-189. DOI:10.3321/j.issn:1002-6630.2006.04.044.
[18] SINELLI N. Application of near (NIR) infrared and mid (MIR)infrared spectroscopy as a rapid tool to classify extra virgin olive oil on the basis of fruity attribute intensity[J]. Food Research International,2010, 43(1): 369-375. DOI:10.1016/j.foodres.2009.10.008.
[19] 劉建學, 吳守一, 方如明. 近紅外光譜法快速檢測大米蛋白質含量[J]. 農業機械學報, 2001, 32(3): 68-70. DOI:10.3969/j.issn.1000-1298.2001.03.020.
[20] 劉建學, 吳守一, 方如明. 基于近紅外光譜的神經網絡預測大米直鏈淀粉含量[J]. 農業機械學報, 2001, 32(2): 55-57. DOI:10.3969/j.issn.1000-1298.2001.02.017.
[21] 張巧杰, 張軍. 基于小波變換的大米直鏈淀粉波長選擇方法[J]. 農業機械學報, 2010, 41(2): 138-142. DOI:10.3969/j.issn.1000-1298.2010.02.028.
[22] 陳坤杰, 夏建春. 光譜分析檢測大米加工精度等級[J]. 農業機械學報, 2008, 39(1): 187-190.
[23] 夏立婭, 申世剛, 劉崢顥, 等. 基于近紅外光譜和模式識別技術鑒別大米產地的研究[J]. 光譜學與光譜分析, 2013, 33(1): 102-105.DOI:10.3964/j.issn.1000-0593(2013)01-0102-04.
[24] DAVRIEUX F, OUADRHIRI Y, PONS B, et al. Discrimination between aromatic and non-aromatic rice by near infrared spectroscopy:a preliminary study[C]//Proceedings of the 12th International Conference, Auckland, New zeal, 2007.
[25] 黃方田, 歐全宏, 劉剛, 等. 云南不同產地大米的傅里葉變換紅外光譜研究[J]. 光譜學與光譜分析, 2016, 36(10): 48-49. DOI:1000-0593(2016)10-0048-02.
[26] 黃桂東, 毛健, 姬中偉, 等. 黃酒釀造用大米品種的模式識別研究[J].食品科學, 2013, 34(16): 284-288. DOI:10.7506/spkx1002-6630-201316058.
[27] FU X, YING Y, ZHOU Y, et al. Application of probabilistic neural networks in qualitative analysis of near infrared spectra: determination of producing area and variety of loquats[J]. Analytica Chimical Acta,2007, 598(1): 27-33. DOI:10.1016/j.aca.2007.07.032.
[28] 錢麗麗, 冷候喜, 宋雪健, 等. 基于PLS-DA判別法對黑龍江大米產地溯源的研究[J]. 食品工業, 2017(1): 171-174.
[29] 杰爾·沃克曼, 洛伊斯·文依. 近紅外光譜解析實用指南[M]. 褚小立, 許育鵬, 田高友, 譯. 北京: 化學工業出版社, 2009: 119-120.
[30] 胡昌勤. 近紅外光譜法快速分析藥品[M]. 北京: 化學工業出版社, 2010.