王國梁,王文俊,成 鍇,劉 鑫,趙建貴,李 洪,郭二虎,李志偉,*
(1.山西農(nóng)業(yè)大學農(nóng)業(yè)工程學院,山西 太谷 030801;2.山西農(nóng)業(yè)大學谷子研究所,山西 長治 046000)
山西省地域特點復雜,南北縱貫6 個緯度,屬典型溫帶氣候,獨特的地域生態(tài)環(huán)境孕育出豐富的雜糧種質(zhì)資源,同時也決定了谷子種植區(qū)覆蓋全山西省域的特點。小米中含有豐富的碳水化合物及多種維生素等營養(yǎng)物質(zhì),隨著現(xiàn)代人生活品質(zhì)和對物質(zhì)生活需求的提高以及健康飲食相關產(chǎn)業(yè)的興起,小米因具有食藥性及營養(yǎng)價值豐富的特點,其深加工產(chǎn)品小米米粉逐漸成為備受喜愛的健康食品。小米米粉的主要營養(yǎng)成分為淀粉,淀粉和水混合成懸浮液,在經(jīng)歷加熱、溶解、吸水膨脹過程后會出現(xiàn)淀粉糊化的現(xiàn)象,其糊化特征指標能為評價小米米粉食味品質(zhì)、確定加工工藝提供重要數(shù)據(jù)支撐。目前,小米米粉糊化特征指標測定主要采用快速黏度分析(rapid visco analysis,RVA),但在糊化特征指標測定過程中,待測樣品的制備會破壞其理化特性,且樣品制備操作流程繁瑣,人工、時間成本較高,因此實現(xiàn)待測樣品批量、快速檢測存在一定困難。
高光譜成像技術是一種通過精確反映待測物感興趣區(qū)域(region of interest,ROI)內(nèi)部各像素點連續(xù)光譜信息,從而獲取待測物結構組成和化合物分子結構的無損檢測技術,其具有檢測效率高、不破壞待測樣品理化特性、人工投入低等特點。當前高光譜成像技術已成為國內(nèi)外學者研究熱點,被廣泛應用于農(nóng)產(chǎn)品分級、營養(yǎng)成分反演、分類等農(nóng)業(yè)檢測相關研究工作中。高光譜數(shù)據(jù)維度大,而傳統(tǒng)特征波段篩選數(shù)量有限,且容易造成有效信息丟失,導致建立回歸模型精度低、泛化能力不強。因此,越來越多的學者將計算機深度學習結合高光譜成像技術應用于農(nóng)業(yè)檢測相關工作中,其中,誤差反向傳播(error back propagation,BP)神經(jīng)網(wǎng)絡具有非線性映射、自學習及自適應、泛化及容錯能力,因此備受學者關注。王浩云等分別采用鳥群、免疫算法優(yōu)化BP神經(jīng)網(wǎng)絡建立調(diào)理雞肉菌落總述的預測模型,結果表明優(yōu)化后的BP神經(jīng)網(wǎng)絡能夠?qū)崿F(xiàn)調(diào)理雞肉菌落總數(shù)快速無損檢測,且模型預測精確率、收斂速度明顯提高。Xue Jiankai等通過對灰狼優(yōu)化算法(grey wolf optimizer,GWO)、粒子群算法(particle swarm optimization,PSO)、引力搜索算法(gravitational search algorithm,GSA)、麻雀搜索算法(sparrow search algorithm,SSA)4 種優(yōu)化算法綜合評價,發(fā)現(xiàn)SSA具有迭代時間短、預測精度高等特點。
目前,有關小米高光譜的研究仍主要集中于高光譜結合化學計量法進行產(chǎn)地判別、分類及成分反演方面。為了簡化原始光譜數(shù)據(jù)前處理過程及提升BP神經(jīng)網(wǎng)絡預測性能,本實驗設計一種高光譜數(shù)據(jù)提取、預處理分步運算程序,并提出利用SSA優(yōu)化BP算法進行待測樣品糊化特征指標回歸、預測,旨在尋求一種簡化高光譜數(shù)據(jù)提取、預處理流程的方法,并探討SSA優(yōu)化BP算法在小米米粉糊化特征指標回歸、預測方面的優(yōu)勢,為高光譜成像結合計算機深度學習在小米米粉糊化特性預測方面應用提供理論支撐。
小米樣本于2020年10月在山西省長治市武鄉(xiāng)縣收獲。采用棋盤式采樣法取樣,取樣點1 800 個,采樣面積2 m/點,相鄰5 點取樣混勻,共得358 份實驗原始樣本,按順序編號、記錄。待晾曬后,經(jīng)清選、礱研,過80 目篩網(wǎng),取得待測樣本,待測樣先經(jīng)高光譜數(shù)據(jù)采集,后進行實驗室糊化特征指標測定。
高光譜成像儀 美國Headwall Photonics公司;RVA儀 澳大利亞Newport公司。
1.3.1 高光譜數(shù)據(jù)采集
采用高光譜成像儀(圖1)采集數(shù)據(jù)。近紅外波段采集參數(shù):波長范圍900~1 700 nm、通道間隔4.715 nm、步數(shù)為172,近紅外波段中步數(shù)與波長λ的關系如式(1)所示。


圖1 高光譜成像儀結構Fig. 1 Photograph of hyperspectral imager
數(shù)據(jù)采集前,待測樣品裝入直徑3 cm、深1 cm實驗器皿內(nèi),保證被測樣品表面平整、緊實。每份被測樣品采集光譜數(shù)據(jù)3 次,數(shù)據(jù)按順序編號、保存。
數(shù)據(jù)采集過程中,調(diào)整載物臺平移速率為7.5 mm/s,相機曝光時間為0.9 ms,樣品表面距離鏡頭25 mm,用于采集清晰圖像。數(shù)據(jù)采集前,進行系統(tǒng)黑白校正,掃描暗背景圖像獲得全黑反射率標定值,白背景圖像全白反射率標定值,設備運行后采集到被測樣品實驗圖像反射率,根據(jù)式(2)計算得到相對圖像反射率。每采集3 張高光譜圖像,重復進行上述校正過程。

1.3.2 小米米粉糊化特征指標測定
采用RVA儀,根據(jù)GB/T 24852—2010《大米及米粉糊化特性測定 快速粘度儀法》測定小米米粉糊化特征指標。稱量(3.00±0.01)g小米粉,與(25.0±0.1)mL水在容器中充分混勻,形成小米米粉糊狀液,將糊狀液放置于RVA內(nèi)進行糊化特征指標檢測,重復3 次實驗,取平均值。糊化特征指標為懸浮液在升溫、保溫和冷卻過程中攪拌器內(nèi)置扭力傳感器檢測值、懸浮液溫度變化值和測定時間值,具體指標包括峰值黏度(peak viscosity,PV)、谷值黏度(trough viscosity,TV)、衰減值(breakdown,BD)、最終黏度(final viscosity,F(xiàn)V)、回生值(setback,SB)、峰值時間(peak time,PT)、糊化溫度(gelatinization temperature,GT)。其中,BD、SB分別為PV與TV、FV與TV的差值,GT為儀器運行過程中樣品黏度達到PV一半時對應的溫度。
1.4.1 麻雀搜索算法分析
本研究參考文獻[22,28-31],結合SSA具有的迭代次數(shù)少、預測模型精度高等特點,選用其作為優(yōu)化算法。調(diào)用算法時,使用虛擬麻雀進行食物尋找,種群形式分為發(fā)現(xiàn)者、加入者和預警者,發(fā)現(xiàn)者與加入者之和為總種群數(shù),發(fā)現(xiàn)者與加入者按7∶3比例劃分,種群數(shù)可以式(3)的形式表示。

式中:表示待優(yōu)化變量維數(shù);為麻雀種群數(shù)量。
所有麻雀的適應度值可以表示為式(4)。

式中:()為適應度值。運行SSA算法時,具有較好適應度值的發(fā)現(xiàn)者在搜索過程中會優(yōu)先獲取食物,并負責為種群尋覓食物以及為加入者指導覓食方向,相比其他麻雀,發(fā)現(xiàn)者可以獲得更大覓食范圍。根據(jù)式(3)、(4),在每次迭代時,發(fā)現(xiàn)者位置按式(5)更新。

式中:代表當前迭代數(shù);取值范圍為[1,];是最大迭代次數(shù),本實驗中設置為20;X表示第只麻雀在第維中的位置信息;為取值范圍(0,1]的隨機數(shù);(取值范圍[0,1])和ST(取值范圍[0.5,1])分別表示預警值和安全值;為服從正態(tài)分布的隨機數(shù);表示一個內(nèi)部元素都為1的1×的矩陣。當<ST時,發(fā)現(xiàn)者可以執(zhí)行搜索操作;而當≥ST,表示發(fā)現(xiàn)者種群發(fā)出預警,迅速飛離。
對于加入者執(zhí)行式(5),監(jiān)視發(fā)現(xiàn)者同時隨時準備與之競爭,否則執(zhí)行式(6)。

式中:是發(fā)現(xiàn)者所占最優(yōu)位;是當前種群所占極差位;為1和-1的1×矩陣,=(),當>/2時,適應度值較低的第個加入者沒有獲得食物,即飛往別處覓食。
預警者一般占種群數(shù)量的10%~20%,按式(7)更新占位。

式中:為當前種群極佳位;為步長控制參數(shù);為取值范圍[-1,1]的隨機數(shù);f為當前個體適應度值;、分別為最佳和最差適應度值;為常量,防止分母為零。
按上述運算邏輯完成種群位置更新,迭代后,求得最優(yōu)適應度值所需相應參數(shù)。
1.4.2 小米米粉高光譜數(shù)據(jù)處理與分析
在設定樣本位置坐標范圍內(nèi),對像素點逐一選擇并判定,篩選出符合設定ROI條件的光譜數(shù)據(jù),組成數(shù)據(jù)矩陣并進行均值運算。將光譜數(shù)據(jù)按照7∶3分為訓練集和測試集,運用BP及SSA優(yōu)化BP算法預測小米粉糊化特征指標最優(yōu)迭代次數(shù)、最優(yōu)適應度值,為更明顯觀察預測集與測試集關系,突出SSA優(yōu)化BP算法優(yōu)勢,通過預測集均方誤差(mean squared error,MSE)評價兩種算法對小米米粉糊化特征指標的預測精度。高光譜數(shù)據(jù)處理軟件主要有基于VB開發(fā)的圖像取點、光譜數(shù)據(jù)預處理程序和MATLAB 2020b軟件。
數(shù)據(jù)集統(tǒng)計結果如表1所示。小米米粉中淀粉含量占比不同會導致糊化特性不同,從表中糊化特征指標數(shù)據(jù)統(tǒng)計結果可以看出樣本間糊化特性存在差異,而高光譜技術可以利用各樣本反射率變化反映樣本間成分含量的不同,因此通過運用數(shù)據(jù)處理技術利用高光譜反演樣本糊化特征指標,可以實現(xiàn)小米米粉糊化特性的高光譜預測。

表1 小米米粉糊化特征指標測定結果Table 1 Pasting viscosity properties of millet flour
2.2.1 小米米粉高光譜數(shù)據(jù)提取
樣品表面像素點間反射率存在差異,導致建模時若以少量點繪制成光譜特征曲線誤差較大,為提高模型精度,結合高光譜成像技術優(yōu)點,本研究采用圖2所示采樣方式。

圖2 小米米粉高光譜數(shù)據(jù)提取Fig. 2 Hyperspectral data feature extraction of millet flour
在ROI內(nèi)提取大量像素點過程的選點規(guī)則如式(8)~(10)所示。

式中:(x,y)為當前像素點坐標信息;(,)為ROI中心位置的坐標;、為ROI二維坐標軸的半軸長;Δ、Δ分別為坐標軸方向上圖像像素點間隔參數(shù),在本實驗中設置取點間隔為1;[]表示對、取整,保證選擇像素點在ROI內(nèi)。本實驗中像素點選點規(guī)則為沿軸自上到下,沿軸自左到右依次選擇,根據(jù)式(10)限制選點,選擇符合要求像素點2 000 個,作為原始光譜數(shù)據(jù)。
2.2.2 小米米粉高光譜數(shù)據(jù)預處理
采用小米米粉高光譜數(shù)據(jù)各個波段下反射率的算術平均值集合成平均光譜曲線。算術平均值在數(shù)據(jù)統(tǒng)計與分析過程中具有反應靈敏、確定嚴密、容易獲得和受抽樣變動影響小等特點,計算如式(11)所示。

式中:A為算數(shù)平均值;為ROI采樣點個數(shù),本實驗中近紅外高光譜圖像采樣點個數(shù)設置為2 000 個;A為采樣點集中第個采樣點、第步長的平均光譜反射率。將每一步長取值順序排列,便可獲得整個波段范圍內(nèi)樣品平均光譜曲線。
在實驗中,靠近光譜量程兩端(≤900 nm和≥1 700 nm)的光譜曲線擾動較大,因此截取光譜范圍為950~1 650 nm,波段數(shù)降為148 條。如圖3所示,光譜曲線吸收峰主要集中在980、1 200 nm以及1 450 nm波長處,980 nm和1 200 nm波長處吸收峰主要受小米米粉淀粉含量的影響,而1 450 nm波長處為樣品中水分子敏感波段。

圖3 小米米粉平均光譜曲線Fig. 3 Average spectral curves of millet flour
設置發(fā)現(xiàn)者、加入者和預警者比例為0.7∶0.3∶0.2,運行SSA優(yōu)化BP算法。根據(jù)式(12)可得出運用SSA優(yōu)化BP算法預測小米米粉糊化特征指標的最優(yōu)適應度值。

式中:和分別為訓練集和測試集的預測誤差;mse為均方誤差函數(shù),運用適應度函數(shù)求取具有較好結果的網(wǎng)絡模型。
圖4顯示出小米米粉糊化特征指標隨SSA優(yōu)化BP算法迭代次數(shù)增加誤差變化趨勢,即隨迭代次數(shù)的增加,7 條曲線均呈下降收斂態(tài),其中SB、PT預測結果誤差偏大,GT誤差變化率較大,PV、BD預測結果誤差較小。小米米粉糊化特征指標的最優(yōu)迭代次數(shù)及適應度值如表2所示。

圖4 基于SSA優(yōu)化BP算法對小米米粉糊化特征指標預測的誤差變化曲線Fig. 4 Best score prediction of gelatinization characteristics of millet flour based on SSA-BP algorithm

表2 SSA優(yōu)化BP算法處理下小米米粉PV最優(yōu)迭代次數(shù)及適應度值Table 2 Optimal iteration and fitness of sample sets based on SSA-BP algorithm
以PV為例,從表2中可以看出,最優(yōu)迭代次數(shù)為13,最優(yōu)適應度值能達到0.050 8。為進一步顯著觀察預測值與測試值的關系,突出SSA優(yōu)化BP算法優(yōu)勢,分別在測試樣本集第1、10、20、30、40、50、60、70、80、90、100點設置觀察窗口,將測試集PV、BP算法預測PV及SSA優(yōu)化BP算法預測PV輸出對比,如圖5所示。

圖5 小米米粉PV值與BP算法及SSA優(yōu)化BP算法預測PV值擬合情況Fig. 5 Goodness of fit of experimental values of PV to BP and SSA-optimized BP algorithms
SSA優(yōu)化BP算法所得PV預測結果與測試結果的擬合效果明顯好于BP預測結果,如表3所示,SSA優(yōu)化BP算法預測值MSE為0.017 5,而BP算法預測值MSE為0.026 6,SSA優(yōu)化BP算法預測值MSE比BP算法明顯降低。由表3可知,相較于BP算法,運用SSA優(yōu)化BP算法求得其他小米米粉糊化特征指標預測值MSE均降低,表明SSA優(yōu)化BP算法在提高小米米粉糊化特征指標預測精度、降低MSE方面具有普適性。綜上所述,運用該優(yōu)化算法可為高光譜成像結合計算機深度學習在小米米粉糊化特征指標預測方面提供理論支撐。

表3 BP及SSA優(yōu)化BP算法處理下小米米粉特征指標預測值MSETable 3 MSE for sample prediction sets using BP and SSA-optimized BP algorithms
本實驗以山西省長治市武鄉(xiāng)縣所收獲小米研磨后的小米米粉為研究對象,獲取358 份小米米粉高光譜數(shù)據(jù)集,通過光譜數(shù)據(jù)提取、預處理,并以該數(shù)據(jù)矩陣為基礎,分別運用BP算法、SSA優(yōu)化BP算法進行待測樣品糊化特征指標預測,得到以下主要結論:1)運用光譜數(shù)據(jù)提取、預處理分布運算程序,對樣本高光譜原始數(shù)據(jù)集進行批處理,能夠標準化并簡化光譜數(shù)據(jù)提取、預處理過程,從數(shù)據(jù)處理結果可以看出,該程序在粉末及小顆粒樣本光譜數(shù)據(jù)的提取、預處理過程中具有普遍適用性;2)分別運用BP算法及SSA優(yōu)化BP算法對小米米粉糊化各特征指標進行預測,從預測值與測試值間MSE可以看出,運用SSA優(yōu)化BP算法能夠提高小米米粉糊化特征指標預測精度,降低MSE,其中對PV的預測值MSE最低可以達到0.017 5。
本研究表明,運用高光譜數(shù)據(jù)提取、預處理分步運算程序可以簡化提取小米米粉平均光譜數(shù)據(jù)過程,結合SSA優(yōu)化BP算法可以對待測樣品糊化特征指標進行預測,能夠為高光譜成像結合計算機深度學習在小米米粉糊化特性預測方面應用提供理論支撐。