彭彥昆 戴寶瓊 李 陽 趙鑫龍 鄒文龍 王亞麗
(1.中國農業大學工學院, 北京 100083; 2.國家農產品加工技術裝備研發分中心, 北京 100083)
玉米是重要的糧食、飼料和生物燃料的來源[1-4]。玉米中主要成分包括淀粉(約72%)、蛋白質(約10%)和脂肪(約4%),而淀粉、蛋白質和脂肪含量是評價玉米營養品質和品嘗品質的重要參考指標[5]。其中玉米中的淀粉是人畜攝取能量的主要能源,而且是最具工業化生產淀粉的谷物原料[6]。蛋白質是玉米營養成分中最重要部分。此外玉米中還含有少量的脂肪,與貯藏時風味變化相關[7-9]。了解玉米籽粒內部各成分含量有利于對玉米品質進行實時評估,為消費者、玉米加工廠等在購買或收購玉米時,將玉米用作不同用途提供參考。然而,在糧食收購、樣品抽檢等場合,還需將樣本送至專業實驗室采用化學分析方法,而對于普通消費者而言,只能依靠感官經驗來判斷玉米品質。常規的檢測方法存在破壞性、檢測效率低等弊端,時間上嚴重滯后,無法及時提供所需的分析數據,嚴重制約收糧、抽檢等工作的效率。因此,研究玉米品質快速、無損檢測方法及便攜式裝置具有重要意義。
可見/近紅外光譜分析技術具有檢測樣品用量少、檢測速度快、非破壞、無污染、可同時獲取多品質成分含量等優點,已被廣泛應用到工業、農業、食品、醫藥等領域,并且已成為農產品品質分析的重要手段[10-18]。國內外基于可見/近紅外技術研發的谷物分析儀器也有很多,如美國的波通9500plus型多功能谷物近紅外分析儀,1 min內可同時測定谷物籽粒樣品或粉末狀樣品的含水率、容重以及蛋白、脂肪、淀粉、灰分含量等多項參數;德國Bruins OmegAnalyzerG型近紅外谷物分析儀可檢測谷物種類多達十余種,分析參數包括含水率以及蛋白質、油分、淀粉含量等十余種。國內BN1700型近紅外谷物分析儀,1 min能同時分析出小麥、面粉、麩皮、次粉、掛面等顆粒、粉狀、片狀物的含水率、吸水率以及灰分、蛋白、面筋含量等多個指標;DH9800型大豆含油率檢測儀適用于玉米、葵花籽、香菜籽、山茶籽、菜籽、花生、大豆、棉籽、芝麻、橄欖等含油作物含油率的測定。但目前已有谷物分析設備均存在以下問題:一是設備價格昂貴,嚴重制約該設備在市場上的應用與推廣;二是設備體積整體偏大,不利于隨身攜帶使用;三是設備操作復雜,有的甚至需要專業工作人員進行操作。
綜上分析可知,目前缺少一種價格低廉、尺寸小巧便攜、檢測速度快、可隨時隨地應用于各種場合的便攜式玉米多品質檢測裝置。本文基于可見/近紅外光譜分析技術,結合化學計量學方法,采用含有與玉米主要品質信息相關波段的傳感器,建立玉米蛋白質、脂肪和淀粉含量等主要品質預測模型。并通過單片機進行裝置的控制,設計光譜采集單元結構,以使裝置整體小巧便攜。
本試驗所用玉米樣本由黑龍江省農業科學院玉米研究所提供,為了確保不同玉米樣本中各組分(淀粉、蛋白質、脂肪等)含量具有梯度,共選取了8個品種,每個品種隨機選擇9個子樣,共準備72個玉米樣本。每份玉米樣本要求無霉變、無缺陷、外形近似、質量約110 g,依次對玉米樣本進行編號。試驗前將待測玉米樣本放置室溫(20℃)下貯藏24 h,以消除溫度的影響。
本試驗利用實驗室自行設計的可見/近紅外光譜采集平臺對所有玉米樣本進行光譜數據采集,其漫反射原始光譜曲線如圖1所示。試驗所采用的光譜采集平臺主要包括AVS-DESKTOP-USB2- EXT-12V型光譜儀(Avantes公司,荷蘭),分辨率為0.6 nm,選取了500~1 050 nm波段的數據;光纖為R200-7-VIS-NIR型,光纖直徑為200 μm。測量之前,將光譜儀以及光源預熱30 min,以便保證光譜儀以及光源達到穩定的工作狀態。然后設置光譜儀檢測參數,包括積分時間、平滑度和平均次數。為防止室內光線對光譜數據采集的影響,本試驗在暗箱中進行。采集時先放置標準校正白板采集白參考,再放置標準黑板采集黑參考,并保存黑、白參考數據。之后依次將待測玉米樣本放置物料杯中,盡量壓平玉米樣本,使用光譜采集平臺依次采集每個樣本的反射光譜數據,每個樣本采集3次取其平均值。

圖1 玉米籽粒漫反射光譜曲線Fig.1 Reflectance spectrum curves of corn kernel
玉米籽粒中總淀粉含量標準理化值依據文獻[19]所規定的酸水解法進行測量;蛋白質含量標準理化值依據文獻[20]所規定的凱氏定氮法進行測量;脂肪含量標準理化值依據文獻[21]所規定的索氏抽提法進行測量。
玉米樣本各指標理化值的統計分析結果如表1所示。

表1 玉米樣本各品質指標含量統計結果Tab.1 Statistical results of each quality index content of corn samples %
1.4.1全光譜數據模型建立與分析
為了消除原始光譜數據摻雜的無關信息和噪聲對數據的影響,需要對原始數據進行預處理分析[22]。采用6種預處理方式,分別為多元散射校正(Multiplicative correction,MSC)、標準正態(Standard normal variate,SNV)、歸一化(Normalize,Nor)、S-G平滑結合多元散射校正(SG-MSC)、S-G平滑結合標準正態(SG-SNV)、S-G平滑結合歸一化(SG-Nor)[23]。其中MSC是利用所測全部樣本的平均光譜來校正每個樣本光譜的散射,達到消除樣本間因散射影響所導致的基線漂移和平移現象的目的;SNV通過對每條光譜進行標準正態化,進而消除光譜中激光光源功率變化、光強衰減等引起的噪聲;S-G平滑可以有效地消除光譜圖中的高頻成分而保留低頻成分,有效提高信噪比[10,22-23]。通過對比不同光譜預處理方法對所建立的偏最小二乘預測模型結果的影響,得出適合該研究的最優預處理方式。
表2為不同預處理方法下玉米蛋白質、脂肪和淀粉全部波長變量的PLS(偏最小二乘)建模結果,從表2可以看出,MSC、SNV、Nor、SG-MSC、SG-SNV以及SG-Nor光譜預處理方法相比于原始光譜建模,均能有效提升建模結果,這可能是因為預處理消除或降低了原始光譜曲線摻雜的無關信息和噪聲對數據的影響。除淀粉模型結果外,蛋白質和脂肪的模型結果經過S-G平滑和其余3種預處理方法組合處理后均優于其余3種預處理方法,原因可能是進行S-G平滑處理時,平滑點數選擇合適,去除了原始光譜中大部分的噪聲,然后再經過其它預處理方法處理,進一步降低了其它影響因素對模型結果的影響。其中蛋白質、脂肪和淀粉質量分數預測的最優預處理方法分別是S-G平滑結合歸一化(SG-Nor)、S-G平滑結合多元散射校正(SG-MSC)、歸一化(Nor),預測相關系數Rp分別為0.930 9、0.949 7、0.952 0;預測均方根誤差分別為0.486 6%、0.154 9%、0.471 4%。

表2 玉米蛋白質、脂肪、淀粉含量全波長PLS建模結果Tab.2 Modeling results of corn protein, fat and starch contents with full wavelength PLS
1.4.2基于競爭性自適應重加權算法模型變量選擇
由上述分析可知,基于不同預處理方法分別建立玉米籽粒蛋白質、脂肪和淀粉質量分數的全波長變量偏最小二乘預測模型,其結果均較好,表明采用可見/近紅外光譜法對玉米籽粒蛋白質、脂肪和淀粉含量進行預測具有可行性。但可見/近紅外光譜數據的多維性和多重共線性會延長模型的運行時間,限制了模型的應用,通過篩選與待測品質參數相關的特征變量,有助于提高檢測速度和精度、簡化模型。故本文采用競爭自適應重加權算法(CARS)分析了玉米主要品質的特征變量分布范圍,為后續便攜式檢測裝置的開發提供理論依據。
CARS算法是通過自適應重加權采樣(ARS)技術選擇出PLS模型中回歸系數絕對值大的波長點,去掉權重小的波長點,反復迭代采樣并利用交互驗證比較每次采樣的交互驗證均方根誤差,直至找到最小交互驗證均方根誤差所包含的最優變量子集,可有效尋出最優變量組合[24-26]。
圖2顯示了利用CARS算法對玉米籽粒中蛋白質、脂肪和淀粉含量進行50次蒙特卡羅采樣的變量選擇過程。由圖2可見,CARS方法在選擇光譜變量的過程中,隨著采樣次數的增加,被選擇的變量數逐漸下降,且下降的速度先快后慢,同時交互驗證均方根誤差曲線呈先緩慢下降至最低點后又逐漸上升的趨勢。同時發現有些變量回歸系數的絕對值不斷變大,而另一些變量回歸系數的絕對值卻不斷變小,這表明在CARS方法進行變量篩選過程中,先剔除了與蛋白質、脂肪、淀粉質量分數無關的波長變量,使交互驗證均方根誤差下降,而后又剔除了與蛋白質、脂肪、淀粉含量相關的波長變量,信息丟失導致交互驗證均方根誤差增加[27-28]。圖中“*”對應的位置為交互驗證均方根誤差最小處,此時蛋白質所對應的采樣次數為25次,特征變量數為47;脂肪所對應的采樣次數為28次,特征變量數為37;淀粉所對應的采樣次數為30次,特征變量數為28。各組分所篩選出的特征變量在全波段光譜圖上的分布情況如圖3所示。

圖3 CARS算法特征變量分布Fig.3 Feature variable distributions of CARS algorithm
經CARS算法變量篩選后,利用PLS方法分別建立玉米蛋白質、脂肪和淀粉含量預測模型,基于全波長和特征波長所建立的PLS預測模型對比結果如表3所示。從表中可以看出,使用CARS挑選特征波長后,蛋白質、脂肪和淀粉質量分數的模型效果均有所提升,均方根誤差相應地有所降低,蛋白質、脂肪和淀粉質量分數預測集相關系數Rp分別為0.960 3、0.977 0、0.960 5;預測集均方根誤差分別為0.406 8%、0.098 9%、0.467 5%。由此說明,采用CARS方法能在不丟失關鍵信息的情況下有效篩選出與蛋白質、脂肪以及淀粉含量相關波長變量,大幅度降低模型的數據維度。也表明了變量篩選的重要性,不僅降低計算量、提高模型運算效率,也為開發基于特征波長變量的玉米主要品質便攜式檢測裝置提供科學依據。

表3 基于全波長和特征波長的PLS建模結果比較Tab.3 Comparison of PLS modeling results based on full wavelength and characteristic wavelength
為了滿足玉米品質無損檢測領域對便攜式、低成本設備的開發需求,在上述對玉米蛋白質、脂肪以及淀粉等組分特征變量分析的基礎上,選用了兼顧玉米蛋白質、脂肪和淀粉等組分含量特征變量的Senorics型近紅外光譜傳感器,設計了玉米主要品質便攜式檢測裝置。該傳感器具有18個通道,光譜響應范圍為400~1 000 nm。每個通道均集成了一個濾波器和光電二極管,濾波器采用干涉拓撲設計,保證了所獲取的信息在時間和溫度方面有較高的穩定性,每個通道的半峰全寬(FWHM)為20 nm。
由上述CARS算法篩選特征變量的結果可知,在500~600 nm、600~700 nm、700~800 nm、800~900 nm、900~1 000 nm等波段均涉及到蛋白質、脂肪和淀粉含量的特征變量,且該傳感器的各通道也均涵蓋了上述各波段。結合傳感器各通道波長和所篩選的特征變量進一步分析,以傳感器每個通道為中心,左右兩側各半峰全寬的50%(即10 nm)處所覆蓋的蛋白質質量分數特征變量(波長)有:501、502、515、516、535、538、539、540、545、570、672、704、897、907、908、909、940、941、942、943、944 nm,占CARS算法篩選出總變量數的44.68%;所覆蓋的脂肪質量分數特征變量有:646、648、689、690、691、705、731、736、907、908、909、910 nm,占CARS算法篩選出總變量數的32.43%;所覆蓋的淀粉質量分數特征變量有:519、554、578、579、678、680、683、723、759、764、908、909、910、941、943、948 nm,占CARS算法篩選出總變量數的57.14%。綜上所述,該傳感器各通道覆蓋了玉米蛋白質、脂肪以及淀粉大部分的特征波長變量,故使用該傳感器建立蛋白質、脂肪以及淀粉質量分數預測模型是可行的。
基于上述所選光譜傳感器設計了便攜式檢測裝置,其中包括光譜采集單元、控制單元、顯示單元、電源單元以及散熱單元。檢測裝置如圖4所示,整體外觀呈圓臺形,最大高度18 cm,外形最大直徑11 cm,總質量900 g,具有小巧、易攜帶、操作簡單等特點,實現了“一鍵式”快速檢測與實時顯示。

圖4 便攜式檢測裝置結構圖Fig.4 Structure drawings of portable testing device1.物料杯 2.光譜采集單元 3.指示燈 4.散熱風扇 5.電源總開關 6.USB接口 7.電池充電口 8.散熱孔 9.外殼 10.顯示屏 11.檢測按鈕
2.2.1光譜采集單元設計
光譜信息采集單元主要包括物料杯、光源探頭、鹵素燈、光譜傳感器等部分,6個飛利浦W1.2W-12516CP型鹵素燈呈環形均勻分布在光譜傳感器四周并固定在光源探頭上,為其提供均勻的環形光照。光譜傳感器固定于光源探頭中間,便于接收反射信息。光譜信息采集單元結構如圖5所示。

圖5 光譜信息采集單元結構示意圖Fig.5 Schematic of spectral information acquisition unit1.物料杯 2.玉米籽粒 3.光源探頭 4.光譜傳感器 5.鹵素燈
2.2.2控制與顯示單元設計
控制單元在該裝置中需要控制光譜傳感器完成數據采集,并對數據進行處理與計算,最后控制顯示單元實時顯示出各指標預測結果。本裝置采用NodeMCU開發板作為核心控制單元,該開發板具有強大計算與存儲功能,輕量化、運行速度快、低功耗、支持多接口(UART、IIC、GPIO、ADC、HSPI等),與大多數傳感器具有很好兼容性。顯示單元選用了2.0英寸TFT型液晶顯示屏。其驅動芯片是ILI9225,分辨率是176像素×220像素,顯示區域為31.68 mm×39.60 mm,四線SPI接口,可以很容易與NodeMCU開發板通過SPI通信協議進行數據傳輸。
2.2.3電源單元設計
該裝置中功耗較大的是光源以及散熱風扇。每個鹵素燈額定電壓為12 V,額定功率為1.2 W。散熱風扇選用4 cm×4 cm小型風扇,額定電壓為12 V,額定功率約為2.4 W。而NodeMCU開發板、顯示屏、傳感器等功耗相對較小,故本裝置中選用12 V、8 400 mA·h大容量可充電鋰電池。裝置中不同單元之間工作電壓要求不同(12 V/5 V),故需要通過穩壓模塊來保證輸出電壓的穩定。如圖6所示,該裝置中電路主要分兩路,一路由降壓模塊轉換成5 V為控制單元供電,另一路由穩壓模塊為光源和散熱風扇提供穩定的12 V電壓。經測試,使用該電池可以為便攜式裝置持續供電6 h以上,可以滿足實際使用需求。

圖6 檢測裝置電源單元供電示意圖Fig.6 Schematic of power supply unit of detection device
基于NodeMCU開發板和Arduino IDE開發工具,采用Arduino語言開發了玉米主要品質便攜式檢測裝置的控制程序,該控制程序包括光譜采集、數據處理與模型計算、數據顯示以及電源電量監測,其流程如圖7所示。裝置開啟后,程序首先會設置光譜傳感器參數、加載各參數模型和初始化顯示界面,然后等待檢測按鈕被觸發。當檢測按鈕被觸發,首先由控制系統控制光譜采集單元獲取玉米籽粒的漫反射光譜數據,然后對獲取的數據進行相應的預處理,再調用移植在該裝置中的玉米各品質參數預測模型,計算出各參數的含量預測值,并實時顯示在顯示界面上。

圖7 檢測裝置控制程序流程圖Fig.7 Flow chart of test device control program
利用該裝置獲取80個玉米樣本的漫反射光譜數據,采用偏最小二乘方法分別建立玉米蛋白質、脂肪和淀粉質量分數預測模型,并將各參數模型移植到裝置控制程序中。為了進一步驗證所設計的便攜式檢測裝置檢測精度和模型可靠性,另選取30個未參與建模玉米籽粒樣本,對所設計的玉米主要品質便攜式檢測裝置進行試驗驗證。將玉米籽粒樣本放入物料盒中,通過裝置中的光譜采集單元進行信息采集,并由裝置預測出玉米籽粒蛋白質、脂肪和淀粉等組分的含量。然后參照國家標準方法依次測定出各組分的實際理化值。各組分試驗預測結果散點圖如圖8所示。為測試裝置的穩定性,對同一樣本重復預測30次,蛋白質、脂肪和淀粉質量分數預測結果的變異系數分別為0.235%、0.241%和0.028%。并通過試驗測試,在室溫下裝置連續工作4 h,其內部溫度基本穩定在30℃上下,且持續工作狀態下儀器無溫漂現象。以上驗證結果表明,玉米主要品質便攜式檢測裝置預測精度和穩定性均滿足實時檢測要求。

圖8 預測結果散點圖Fig.8 Scatter diagrams of predicted results
(1)基于可見/近紅外光譜方法分別建立了玉米籽粒蛋白質、脂肪和淀粉含量的PLS預測模型,對比了不同預處理方法對建模結果的影響,結果表明,蛋白質、脂肪和淀粉質量分數預測的最優模型預處理方式分別為SG-Nor、SG-MSC、Nor,最優模型的驗證集相關系數分別為0.930 9、0.949 7、0.952 0,均方根誤差分別為0.486 6%、0.154 9%、0.471 4%。
(2)采用CARS方法篩選玉米籽粒光譜的特征變量,并建立了玉米蛋白質、脂肪和淀粉含量的PLS定量分析模型,結果表明,CARS方法不僅可以有效篩選出各組分的相關變量,大大降低數據維度,減少模型計算量,而且還提升了建模結果。蛋白質質量分數預測模型的均方根誤差由0.486 6%降至0.406 8%,Rp由0.930 9提升至0.960 3;脂肪質量分數預測模型的均方根誤差由0.154 9%降至0.098 9%,Rp由0.949 7提升至0.977 0;淀粉質量分數預測模型的均方根誤差由0.471 4%降至0.467 5%,Rp由0.952 0提升至0.960 5。
(3)根據CARS方法所篩選的各組分特征變量,選擇了合適的近紅外光譜傳感器。基于該傳感器設計了玉米主要品質便攜式檢測裝置,其中硬件部分包括光譜采集單元、控制單元、顯示單元、電源單元以及散熱單元。并基于NodeMCU開發板和Arduino IDE開發工具,采用Arduino語言對裝置控制程序進行開發,實現“一鍵式”快速檢測。
(4)試驗驗證了該裝置的檢測精度和穩定性,結果表明,預測玉米籽粒蛋白質、脂肪和淀粉質量分數的相關系數分別為0.843 1、0.824 3、0.815 4,預測均方根誤差分別為0.357 6%、0.231 8%、0.233 3%,相對分析誤差分別為1.857 7、1.776 1、1.573 5。對同一樣本多次重復預測,各組分預測值的變異系數分別為0.235%、0.241%和0.028%。這表明,自行設計的玉米主要品質便攜式檢測裝置可以實現對玉米籽粒的蛋白質、脂肪和淀粉等多品質含量進行實時、無損、快速檢測,具有較高的應用前景。