路輝 彭彬倩 馮曉宇 沈曉芳*
(1 江蘇省農墾農業發展股份有限公司,南京210019;2 江南大學食品學院,江蘇無錫214122;第一作者:429772084@qq.com;*通訊作者:xfshen@jiangnan.edu.cn)
營養和風味是大米的重要品質。直鏈淀粉、蛋白質、脂肪、水分含量是大米的重要營養指標[1],同時,直鏈淀粉、蛋白質和脂肪含量與食味品質密切相關,是影響稻米食用品質的重要因素。大米中脂類物質的分布會影響加工精度[2];大米蛋白具有氨基酸組成平衡合理以及不會產生過敏反應等優點[3];直鏈淀粉含量與米飯的脹性、柔韌性、光澤度、粘性有密切關系[4];水分含量則會影響大米的儲藏品質。對這些指標的傳統測定方法存在過程繁瑣、耗時耗力等不足,而近紅外光譜法具有多指標同時檢測、快速無損、成本低等優點[5],在糧食谷物中應用廣泛[6-9]。
基于近紅外光譜法對大米各營養成分含量的快速檢測研究在國內外均有報道。李路等[10]運用分段小波消噪光譜預處理,建立了海南省產的大米蛋白質、脂肪、總糖、含水量的檢測模型。王傳梁等[2]證明了利用近紅外光譜技術測定稻米脂肪含量的可行性。黃道強等[11]通過比較近紅外分析儀和常規法測定水稻種子直鏈淀粉含量,認為通過增加數據量建模可以減少誤差,達到利用近紅外分析儀輔助選育中等直鏈淀粉含量新品種的目的。SAMPAIO 等[12]聯合區間偏最小二乘回歸(siPLS)選擇的光譜區域提高模型的預測能力,從而說明了近紅外技術對直鏈淀粉含量測定的可行性。HEMAN 等[13]采用近紅外無損檢測方法來檢測大米樣品的水分含量,比較化學計量學方法,得到PLS 為最佳模型(rp>0.9)。近紅外技術在大米營養成分檢測中的應用報道較多,但大多是對單項指標的研究,而對大米多項品質指標的評價較少,且由于大米產地頗多,南北各地稻米存在較大差異,各區域模型并沒有普適性,尤其針對江蘇省區域的大米模型鮮有。本實驗針對產自江蘇省的90 個品種126 份粳米、糯米和秈米為研究對象,測定直鏈淀粉、蛋白質、脂肪和水分含量,同時采集對應的近紅外全光譜,建立偏最小二乘定量模型,再通過篩選最佳光譜預處理方式和譜區范圍來優化模型,從而建立適用于江蘇省所產大米中直鏈淀粉、蛋白質、脂肪和水分含量等營養成分的定量模型,為大米行業實現在線品控提供了依據。
實驗材料包含90 個大米品種(表1),有粳米、糯米和秈米,粳米占多數,均由江蘇省農墾農業發展股份有限公司提供,產自江蘇省,共計126 個大米樣品。Antaris II 近紅外分析儀與數據分析軟件TQ Analyst 購自Thermo Fisher 科技(中國)有限公司。

表1 90 個大米品種名稱
1.2.1 大米直鏈淀粉、蛋白質、脂肪、水分含量的測定
直鏈淀粉參照GB/T 15683-2008《大米直鏈淀粉含量的測定》。采用GB 5009.5-2016《食品安全國家標準食品中蛋白質的測定》中凱氏定氮法測定大米的蛋白質含量,氮折算成蛋白質的折算系數為5.95。采用GB 5009.6-2016《食品安全國家標準食品中脂肪的測定》中索氏抽提法測定大米的脂肪含量。采用GB 5009.3-2016《食品安全國家標準食品中水分的測定》中直接干燥法測定大米的水分含量。每份樣品至少檢測3 次,取平均值。
1.2.2 樣品近紅外光譜采集
大米樣不經過粉碎等前處理,混勻后直接填滿圓形樣品池。采用漫反射方式采集樣品光譜,設置采集光譜區間為 4 000~10 000/cm,分辨率為8/cm,樣品掃描頻數為64 次,測量間隔為3.857/cm。采集完后將采樣杯中樣品與原樣品混合均勻后倒出,重復操作3 次,3次采集得到平均光譜作為該樣品的最終光譜。
1.2.3 光譜處理與建模
對光譜數據計算馬氏距離后刪除異常點,預先指定各模型驗證集20 份,剩余樣本為校正集,驗證集測定值范圍應包含在校正集范圍之內。使用校正集樣本,采用偏最小二乘(partial least squares, PLS)回歸法建立大米直鏈淀粉、蛋白質、脂肪、水分含量模型,根據交叉驗證均方誤差(root mean square error of cross-validation, RMSECV)選擇最佳主因子數。為了優化校正模型,提高相關有效光譜信息,削減無效干擾光譜,采用5 種光譜預處理方法,分別為多元散射校正(multiplicative signal correction, MSC)、標準正態變化(standard normal variate, SNV)、一階導數(first derivative, 1st)、二階導數(second derivative, 2nd)和 Savitzky-Golay 濾波平滑(Savitzky-Golay filter, SG),之后在最佳光譜預處理下,采用手動法[14]篩選特征波段進一步優化模型。校正集的相關系數rc和均方誤差(root mean square error of calibration, RMSEC)作為直接評判模型的主要指標,以相對分析誤差(relative percent deviation, RPD)進一步衡量模型的優劣,若RPD≥2.0,表明模型穩健,可用于日常實際定量檢測;若2.0 >RPD ≥ 1.4,則模型一般,如要精確需要改良;若RPD <1.4,則模型用于實際定量檢測困難[15-17]。最后,用不參與建模的驗證集對模型進行驗證。
如圖1 所示,大米每條原始近紅外光譜趨勢相似,難以用肉眼評判特定波段峰值與指標含量的關系。光譜顯示在 4 000~6 000/cm 和 8 000~9 000/cm 區域吸收較強,其中,在5 155/cm 處的譜帶與—OH 基團的第一倍頻和組合頻相對應,主要代表了水分含量;而對于—CH2和—CH3官能團,在拉伸和彎曲振動的組合頻出現在4 300/cm 附近、5 700/cm 附近是拉伸振動的第一倍頻、8 351/cm 是拉伸振動的第二倍頻,4 700/cm 左右吸收峰帶則與蛋白質含量有關[3,18]。通過TQ Analyst 軟件將光譜進行預處理及波段的剔篩,從而利用偏最小二乘法建立各組分的定量模型。

圖1 大米樣本近紅外光譜圖

表2 大米直鏈淀粉、蛋白質、脂肪和水分化學值統計結果

表3 大米樣本校正集和驗證集參數
如表2 所示,蛋白質和水分指標的樣品集數目沒有出現異常值,脂肪指標剔除樣本數4 份后為122 份。由于126 份大米中有24 份為糯米品種,再除去異常點后,實際直鏈淀粉指標參與建模的樣本數為100 份。
如表3 所示,總樣本的驗證集含量范圍包含在校正集內,且校正集與驗證集的平均值和標準偏差相近。因此,校正集樣本所建的檢測模型能較好地適用于驗證集樣本。

表4 大米樣本校正集和驗證集參數
應用5 種光譜預處理方式分別對直鏈淀粉、蛋白質、脂肪和水分含量的PLS 校正模型進行優化,表4 為優化結果,基于全波段的不同光譜預處理下,脂肪和直鏈淀粉模型均在Savitzky-Golay 濾波平滑(SG)下取得最小RMSEC 為0.15 和2.17,此時rc達到最大,分別為0.7810 和 0.6322,RPD 分別為 1.6 和 1.3,采用 SG 光譜預處理方法通過重新計算設定窗口內平滑值,能有效減少光譜噪音干擾,提高信噪比。采用標準正態變化光譜(SNV)預處理,蛋白質模型最佳,rc為 0.9078,RMSEC 為 0.27,與無任何光譜預處理比較,RPD 由 2.2 提升至2.4。SNV 常用于掃描固體樣品后的漫反射光譜,由于漫反射帶來光程不一等負面影響,因此常被用光程調節預處理方法。導數是解決近紅外光譜基線漂移或旋轉的重要方法,水分在一階導數(1st)的光譜預處理下表現最佳,水分模型的rc和RMSEC 分別為0.9554和0.30,相較于無光譜預處理,RPD 值提升尤為明顯,從 2.3 升至 3.4。
建模的優良不僅取決與校正集結果,且與最終驗證集相關,而主因子數大/小會導致校正模型過/欠擬合,導致校正集和驗證集模型差別較大,因此選擇合適的主因子數尤為重要[19-20]。在RMSEC 最小時選擇最佳主因子數,直鏈淀粉、蛋白質、脂肪和水分含量模型主因子數分別為 5、10、9 和 4。

表5 基于最優光譜預處理的特征波段下建模結果

圖2 大米脂肪、蛋白質、直鏈淀粉和水分含量的定量模型

圖3 大米脂肪、蛋白質、直鏈淀粉和水分含量模型驗證
原始近紅外光譜包含雜信息,為提取有效的成分相關光譜信息,可提高模型的精度。本研究采用人工方法[14]將全波段分為12 個光譜范圍,11 個分割點依次為:4 500/cm、5 000/cm、5 500/cm、6 000/cm、6 500/cm、7 000/cm、7 500/cm、8 000/cm、8 500/cm、9 000/cm、9 500/cm。在最佳光譜預處理條件下,依次移除一個光譜范圍,其他波段用于建模所得rc與全波段(4 000~10 000/cm)下的rc比較,結合TQ Analyst 軟件給出的建議波段進行了嚴格篩選,排除了與組分無關的波段。最后,將選定的譜區用于單譜區或組合譜區進行比較。表5 為建立大米樣品中直鏈淀粉、蛋白質、脂肪和水分含量的最佳模型,在5 703~7 194/cm、8 520~9 975/cm下,脂肪含量模型的rc由0.7810 提升至0.8110,RMSEC 由0.15 降低為0.14,RPD 提高了 0.1。直鏈淀粉含量模型的rc沒有得到明顯提升,從0.6322 提高到0.6671,RPD 從1.3 提高到1.4。從相關系數大小來看,蛋白質和水分含量模型的預測值與實測值顯示出良好的相關性,兩者PLS 模型表現最佳分別使用5 613~6 379/cm 和 8 004~8 956/cm、4 755~4 982/cm 和 5 501~7 888/cm 的光譜范圍,rc均在0.9 的基礎上再次增加,分別為 0.9713 和 0.9663,RPD 分別為 4.3 和 3.9。可見其預測性能好、準確度高,說明模型可用于實際定量檢測。
如圖2 所示,脂肪含量與直鏈淀粉含量模型有少數點與擬合線略有分離;蛋白質含量和水分含量散點分布在擬合曲線周邊,沒有顯著偏離,且rc均在0.95以上。
圖3 為最優模型下驗證集的預測值和實測值的散點圖,可見各指標驗證效果良好,尤其是蛋白質含量和水分含量模型的預測性效果良好,rp在0.94 左右,驗證集的蛋白質含量在主成分數為10 時,5 613~6 379/cm和8 004~8 956/cm 的波段范圍內進行SNV 光譜預處理后建立,得到模型 rp為 0.9429、RMSEP 為 0.28;驗證集的水分含量在主成分數為4 時,4 755~4 982/cm 和5 501~7 888/cm 的波段范圍內進行1st 光譜預處理后建立,得到模型rp為 0.9421、RMSEP 為0.49。脂肪含量和直鏈淀粉含量的檢測結果相對較差,主要是因為大米中脂肪的含量較低,且大多集中在米粒表層,這就導致樣本所含脂肪很少[10],對于直鏈淀粉含量rp為0.8030,是由于測定方法允許誤差本身較大[21],且建模樣品數小于其他指標,但兩種模型仍可以用于實際樣品的粗測。
水稻是我國的主要糧食作物,隨著生活水平的提高,大米品質愈發受到人們的關注,同時要求企業能在線快速無損測定大米各營養成分的含量,提高工作效率,降低成本。大米中蛋白質含量等是衡量其營養與風味品質的重要指標,同時對口感影響較大[11,22],也是研究者普遍關注的熱點。前人以大米為材料,構建近紅外優化模型多見報道,但在一定區域內建立大米PLS 模型的研究鮮有報道。本實驗基于產于江蘇省大米(種類包括粳米、糯米和秈米)的化學值和光譜數據,利用近紅外光譜分析技術建立了基于偏最小二乘法的大米直鏈淀粉、蛋白質、脂肪和水分含量定量模型。選擇合適的譜區范圍和光譜預處理方法可以有效地提高模型的性能,該模型可用于大米工業在線快速檢測和評估營養指標,有利于大米資源的合理利用。
模型的建立與優化中,光譜預處理和光譜區的作用舉足輕重。首先,不同的光譜預處理較大程度會提高rc和RPD,降低RMSEC。再者,通過光譜區的篩選,蛋白質和水分模型rc均在0.95 以上,高于黃林森等[24]所得rc,而0.9 以上的相關系數已經表明了模型具有良好的預測性能。最后,通過驗證集結果驗證了定量模型的可 靠 性 ,4 個 模 型 驗 證 結 果 為 0.8030 ≤rp≤0.9429,0.18≤RMSEP≤2.46,表明模型的預測值與實測值接近,預測效果良好,實驗所建立的定量模型可以實現對產自江蘇省大米中直鏈淀粉、蛋白質、脂肪以及水分含量的快速無損檢測,可在實際檢測中實時反饋大米品質。總之,近紅外光譜分析技術能快速檢測江蘇省產大米的直鏈淀粉、蛋白質、脂肪和水分含量,更能夠應用于水稻品質改良育種的在線快速測定與篩選,提高育種篩選效率。