呂都,周帥,陳中愛,唐健波
貴州省農業科學院生物技術研究所(貴陽 550006)
2020年,我國稻谷總產量約為2.1億 t,占全球稻谷產量的32.5%左右[1-2]。大米是稻谷經過加工脫殼而來的產品,我國有超過一半的人口都以大米為主食[3]。稻谷籽粒具有完整的稻殼,起著保護穎果的作用,使其在儲藏過程中穩定性較強,對防止蟲霉危害與緩解稻米吸濕有一定的作用,大米多以稻谷的形式來進行儲存[4]。水分是稻谷儲存期間的重要指標,水分過高稻谷易發生霉變,稻谷水分的快速準確檢測是稻谷良好收儲的關鍵。
常規檢測方法存在對樣品破壞度大,試驗操作繁瑣,試驗條件要求高,檢測結果時間長等問題[5]。近紅外光譜技術具有無損、前處理簡單、易操作、檢測時間短、檢測速度快等特點,近年來被廣泛應用于農業領域,尤其是谷物品質分析[6-7]。近紅外光譜的吸收帶是有機物質中能量較高的化學鍵(主要是C—H、O—H、N—H)在中紅外光譜區基頻吸收的倍頻、合頻和差頻吸收帶疊加而成,所以近紅外光譜的吸收譜帶重疊嚴重[8]。采用全波長近紅外光譜建立預測模型時,光譜中含有大量冗余信息會影響預測模型的質量和精度,并對計算機的運行能力提出較高要求,增加了模型的解析難度,因此,從近紅外光譜中篩選出與分析目標相關的特征波長是近紅外快速檢測技術的一個難點,也是一個研究熱點[9-10]。
近紅外光譜特征波長的篩選方法主要有間隔偏最小二乘法(iPLS)、連續投影算法(SPA)、移動窗(MW)、隨機蛙跳(RF)、無信息變量消除法(UVE),自適應量加權采樣(CARS)和遺傳算法(GA)[11-12]。試驗采用逐步縮短波長優中選優的方法,選擇與分析目標值相關性高的波數段,舍去相關性不高的波數段。將優選出的近紅外光譜的波數段,再進行劃分和優選。減少模型的輸入變量,減少干擾變量,縮短模型的計算時間,提升模型的預測能力。為稻谷水分預測模型提供一種輸入變量少,模型預測精度高的特征波長篩選方法。
稻谷(貴州省湄潭縣茅壩御膳米業有限公司)。
MPA型傅里葉變換近紅外光譜儀(德國Bruker公司);FW-100型高速萬能粉碎機(天津市泰斯特儀器有限公司);WGL-125B型電熱鼓風干燥箱(天津市泰斯特儀器有限公司)。
1.2.1 稻谷樣品的收集和水分測定
將收集的稻谷樣品228份,按照GB/T 20264—2006《糧食、油料水分兩次烘干測定法》推薦方法測定稻谷樣品中的水分。
1.2.2 稻谷樣品近紅外光譜的采集
將稻谷樣品倒入樣品杯中,使用積分球旋轉程序,在室溫條件下對稻谷樣品進行近紅外光譜的采集。將鍍金漫反射體作為參比,每隔1 h掃描1次背景光譜。同一人操作,稻谷樣品裝入樣品杯中,以保證裝樣的緊密程度盡量保持一致。光譜掃描范圍設置為12 790.3~3 594.9 cm-1,分辨率為16 cm-1,掃描次數為64次,每個樣品重復3次,求每個樣品的平均光譜。
1.2.3 稻谷水分預測模型的建立與特征波長的篩選
采用主成分分析結合馬氏距離的方法[13],剔除異常樣品光譜。使用基于聯合x-y距離的樣本集劃分方法[14],按照訓練集與驗證集樣品數量之比3∶1,將剔除異常樣品后的全部樣品光譜劃分為訓練集和驗證集。對近紅外光譜進行預處理后,使用偏最小二乘法和交互驗證,對訓練集樣品進行稻谷水分預測模型的建立,并對預測模型進行驗證。
采用逐步縮短波長優中選優的方法,即將近紅外光譜先按照波長為300 cm-1進行劃分,將劃分的波數段作為預測模型的輸入變量,選擇與響應值相關性高的波數段,舍去相關性不高的波數段。將優選出的近紅外光譜的波數段,按照波長為150,50和10 cm-1進行劃分和優選。減少模型的輸入變量,減少干擾變量,縮短模型的計算時間,提升模型的預測能力。以模型決定系數RCAL
2和模型交叉驗證決定系數RCV2,優化稻谷水分預測模型。RCAL2和RCV
2,越接近1越好[15]。
試驗數據采用OPUS 7.5、Unscrambler 10.4和Oringin 9.5.0處理分析和作圖。
不同水分的稻谷樣品分布圖和樣品正態分布曲線圖,見圖1。稻谷樣品的水分在8.52%~25.76%之間,且稻谷樣品的水分主要分布于10%~16%,水分小于10%和大于19%的樣品量較少,表明收集的稻谷樣品代表性強。

圖1 稻谷樣品水分的分布直方圖和正態分布曲線
由圖2可知,在8 324,6 853,5 199,4 749,4 393, 4 299和4 010 cm-1處有吸收峰。不同水分稻谷樣品的近紅外光譜圖,在12 000~4 000 cm-1范圍內譜圖趨勢相似,但是樣品譜圖不重合,表明不同含水量稻谷的近紅外光譜圖重現性好,且樣品存在差異。

圖2 稻谷樣品的近紅外光譜圖
采用馬氏距離剔除異常光譜,從228份樣品光譜中剔除20個樣品光譜,將剩余的208個樣品,按照3∶1的比例劃分獲得訓練集156個樣品,驗證集52個樣品。采用不同的預處理方式處理近紅外光譜,使用偏最小二乘法建立模型,結果見圖3。近紅外光譜的最佳與處理方式為消除常數偏移量,模型決定系數RCAL2為0.997 5模型交叉驗證決定系數RCV2為0.994 8。量方式進行預處理,按照波長300 cm-1進行劃分,共

圖3 不同光譜預處理方式建立的預測模型
將稻谷樣品的近紅外光譜圖,使用消除常數偏移獲得8個波數段,分別采用偏最小二乘法建立模型,并用驗證集樣品進行驗證,結果見表1。選擇交叉驗證決定系數(RCV2)和外部驗證決定系數(RVAL2)同時大于等于0.90的波數段為優選波數段。由表1可知,第2~8個波數段為優選波數段,共2 007個波數點,占全光譜87%。

表1 波長300 cm-1特征波數篩選結果
將第2~8個波數段按照波長為150 cm-1進行分割,共獲得14段光譜,分別采用偏最小二乘法建立模型,并用驗證集樣品進行驗證,結果見表2。選擇交叉驗證決定系數(RCV
2)和外部驗證決定系數(RVAL2)同時大于等于0.90的波數段為優選波數段。由表2可知,2.2,4.1,5.1,5.2,6.1,7.1,7.2和8.1共8個波數段為優選波數段,共1 200個波數點,占全光譜52.02%。

表2 波長150 cm-1特征波數篩選結果
將2.2,4.1,5.1,5.2,6.1,7.1,7.2和8.1共8個波數段按照波長為50 cm-1進行分割,共獲得24段光譜,分別采用偏最小二乘法建立模型,并用驗證集樣品進行驗證,結果見表3。選擇交叉驗證決定系數(RCV
2)和外部驗證決定系數(RVAL2)同時大于等于0.90的波數段為優選波數段。由表3可知,5.1.1,5.1.2,5.1.3,5.2.1,5.2.3,6.1.2,7.1.1,7.1.2,7.2.1,7.2.2和8.1.1共11個波數段為優選波數段,共550個波數點,占全光譜23.84%。

表3 波長50 cm-1特征波數篩選結果
將5.1.1,5.1.2,5.1.3,5.2.1,5.2.3,6.1.2,7.1.1,7.1.2,7.2.1,7.2.2和8.1.1共11個波數段按照波長為10 cm-1進行分割,共獲得55段光譜,分別采用偏最小二乘法建立模型,并用驗證集樣品進行驗證,結果見表4。選擇交叉驗證決定系數(RCV2)和外部驗證決定系數(RVAL2)同時大于等于0.90的波數段為優選波數段。由表4可知,5.2.1.2,5.2.1.3,7.1.1.4,7.1.1.5,7.1.2.2,7.2.1.4,7.2.1.5和7.2.2.1共8個波數段為優選波數段,共80個波數點,占全光譜3.47%。

表4 波長10 cm-1特征波數篩選結果
將最終獲得的優選波數段,標注在樣品的近紅外光譜圖中,結果見圖4。最終波長為10 cm-1時,獲得優選波數點80個,占全光譜3.47%,所建立的預測模型,其RCV2為0.978 1和RVAL2為0.970 0,表明僅利用全光譜3.47%的信息,就可以準確預測97.81%的樣品。采用逐步縮短波長優中選優的方法,篩選出來的特征波數段為7 247.465~7 174.18,5 434.634~5 361.35,5 318.922~5 284.208和4 856.071~4 744.216 cm-1共4段合計80個波數點,即80個輸入變量,與分析目標相關的特征波數段,與樣品近紅外光譜圖的強吸收峰并沒有重合,這說明僅依靠近紅外光譜進行譜圖解析,并不能獲得理想的結果。

圖4 稻谷樣品的近紅外光譜圖
試驗利用傅里葉變換近紅外光譜儀采集稻谷的近紅外光譜圖,使用偏最小二乘法建立稻谷水分預測模型。采用逐步縮短波長優中選優的方法,篩選稻谷近紅外光譜圖與稻谷水分相關的特征波長。波長為300 cm-1時,篩選出的特征波長共2 007個波數點,占全光譜波數點總量的87%。將篩選出的特征波數段,進一步縮短波長進行篩選,波長為150 cm-1時,篩選出的特征波長共1 200個波數點,占全光譜波數點總量的52.02%。將篩選出的特征波數段,再進一步縮短波長進行篩選,波長為50 cm-1時,篩選出的特征波長共550個波數點,占全光譜波數點總量的23.84%。將篩選出的特征波數段,更進一步縮短波長進行篩選,波長為10 cm-1時,篩選出的特征波長共80個波數點,占全光譜波數點總量的3.47%,所建立的預測模型,其RCV
2為0.978 1和RVAL2為0.970 0,表明僅利用全光譜3.47%的信息,就可以準確預測97.81%的樣品。即稻谷水分預測模型的輸入變量僅占全光譜信息的3.47%,大幅降低變量的輸入,提升模型的運算速度、縮短運算時間,為近紅外預測模型的優化提供技術和方法支持。