王 蓉, 鄭恩讓, 陳 蓓
(陜西科技大學(xué)電氣與控制工程學(xué)院,西安 710021)
玉米、小麥等是重要的糧食作物,含有大量的水分、蛋白質(zhì)、脂肪、淀粉、維生素等營養(yǎng)物質(zhì)[1],其副產(chǎn)品是不可或缺的工業(yè)原料,它們被廣泛應(yīng)用于食品、制藥、化工等領(lǐng)域。谷物飼料中淀粉、植物蛋白等成分的含量對提高肉類品質(zhì)、提升乳制品等的蛋白質(zhì)含量有著重要作用,通過檢測其含量成分可以對飼料摻假進(jìn)行鑒定。由此可見,玉米、小麥等糧食作物中與生產(chǎn)生活中的各個領(lǐng)域都息息相關(guān),研究糧食作物成分含量十分必要。
傳統(tǒng)的化學(xué)方法測定物質(zhì)含量操作復(fù)雜、費(fèi)時費(fèi)力,對原物質(zhì)有破壞,測量結(jié)果受人為、環(huán)境因素干擾。近紅外光譜技術(shù)制樣簡單、無污染,分析速度快、效率高,可以進(jìn)行多組分同步測定,不會破壞原物質(zhì)且可實(shí)現(xiàn)在線分析[2],在食品[3-6]、農(nóng)業(yè)[7]、醫(yī)藥[8、9]、石油[10-12]等領(lǐng)域得到了廣泛應(yīng)用。在近紅外光譜技術(shù)的定量分析中,主要方法有多元線性回歸、偏最小二乘法(PLS)[13]、支持向量機(jī)(SVM)[14、15]、人工神經(jīng)網(wǎng)絡(luò)等,這些方法在各個領(lǐng)域得到了廣泛應(yīng)用且備受推崇,但隨著研究的深入,這些方法的弊端也逐漸顯現(xiàn),如難以選擇合適的光譜預(yù)處理方法以及模型預(yù)測精度低的問題。近年來,深度學(xué)習(xí)在語音識別、語義識別,圖像處理等方面取得顯著成果[16-20],而作為近年來深度學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),卷積神經(jīng)網(wǎng)絡(luò)(CNN)也逐漸被應(yīng)用到光譜學(xué)領(lǐng)域。宗倩倩等[21]提出了改進(jìn)的回歸卷積神經(jīng)網(wǎng)絡(luò)算法和近紅外光譜數(shù)據(jù)進(jìn)行結(jié)合,提升了煙葉化學(xué)成分定量分析的預(yù)測精度,但該方法更適合處理數(shù)量多且復(fù)雜的數(shù)據(jù)。唐永生等[22]提出了一種基于一維卷積的卷積神經(jīng)網(wǎng)絡(luò)和近紅外光譜的土壤pH值預(yù)測方法。在公開的玉米數(shù)據(jù)集上,談愛玲等[23]針對玉米樣本進(jìn)行串行光譜融合后對玉米4種成分分別構(gòu)建一維卷積神經(jīng)網(wǎng)絡(luò)模型,提出了一種基于四元數(shù)卷積神經(jīng)網(wǎng)絡(luò)的近紅外光譜并行融合定量建模方法[24],模型精度比傳統(tǒng)建模方法有所提高,但依舊使用了光譜預(yù)處理方法且對光譜預(yù)處理方法的選擇未作說明,且模型僅針對玉米數(shù)據(jù)集,泛化能力不強(qiáng)。
為探究近紅外光譜技術(shù)與深度學(xué)習(xí)結(jié)合進(jìn)行糧食作物主要成分快速無損定量檢測的可行性,最大程度地提取近紅外光譜高維數(shù)據(jù)的特征,本研究在網(wǎng)上公開的3個糧食作物光譜數(shù)據(jù)集上,建立了基于主成分分析(PCA)光譜篩選算法的一維卷積神經(jīng)網(wǎng)絡(luò)(1DCNN)近紅外光譜數(shù)學(xué)模型,在不經(jīng)過光譜預(yù)處理的前提下使預(yù)測性能得到了進(jìn)一步提升,滿足了糧食作物主要成分含量快速測定的需要。
1.1.1 谷物數(shù)據(jù)集1
谷物數(shù)據(jù)集1,來源于https://eigenvector.com/resources/data-sets/#corn-sec,是由在3種不同的近紅外光譜儀(m5、mp5和mp6)上測量的80個不同的玉米樣品組成,其中包括80個玉米樣本中玉米的水分、蛋白質(zhì)、油脂、淀粉成分含量的百分比真值。波長范圍為1 100~2 498 nm,間隔為2 nm,每個近紅外光譜儀采集80條光譜數(shù)據(jù),每條光譜有700 個波長點(diǎn),數(shù)據(jù)集也包含了700個波長對應(yīng)的吸光度值。
1.1.2 谷物數(shù)據(jù)集2
谷物數(shù)據(jù)集2,來源于https://eigenvector.com/resources/data-sets/#corn-sec,數(shù)據(jù)集由231個樣品的數(shù)據(jù)構(gòu)成,波長范圍為1 104~2 495 nm,包含117個波長點(diǎn)的吸光值,數(shù)據(jù)集同時給出了酪蛋白、葡萄糖、乳酸鹽和水分的含量真值。
1.1.3 谷物數(shù)據(jù)集3
谷物數(shù)據(jù)集3,來自于https://www.cnirs.org /content.aspx ?page_id=22 &club_id=409746& module_id=239453,數(shù)據(jù)集包括248個小麥樣品數(shù)據(jù)集分為校準(zhǔn)數(shù)據(jù)集、測試數(shù)據(jù)集、驗(yàn)證數(shù)據(jù)集,校準(zhǔn)數(shù)據(jù)集中有1 488條光譜,測試數(shù)據(jù)中有744條光譜,驗(yàn)證數(shù)據(jù)集是對150個獨(dú)立樣本采集獲得的450條光譜,數(shù)據(jù)集中只給出了校準(zhǔn)和測試集中小麥的蛋白質(zhì)含量參考值,驗(yàn)證集中并未給出蛋白質(zhì)參考值,本文提出的1DCNN模型為有監(jiān)督網(wǎng)絡(luò),因此選用小麥數(shù)據(jù)集的測試集的數(shù)據(jù)進(jìn)行建模與測試。
利用光譜篩選算法從近紅外全波段光譜數(shù)據(jù)中提取與糧食作物主要成分含量信息相關(guān)的特征波長和相應(yīng)光譜數(shù)據(jù),建立了光譜篩選后的光譜數(shù)據(jù)與糧食作物成分含量真值的定量關(guān)系模型。
1.2.1 特征波長篩選
針對數(shù)據(jù)集做回歸任務(wù),通過實(shí)驗(yàn)發(fā)現(xiàn),直接采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行建模做回歸任務(wù),模型容易過擬合,而經(jīng)過光譜篩選算法后進(jìn)行建模,模型準(zhǔn)確率有所提升。因此在卷積之前加上光譜篩選,以提取到更多的關(guān)鍵光譜信息。采用PCA算法篩選近紅外光譜特征波長,它能夠?qū)⒃甲兞恐匦陆M合成幾個新的、不相關(guān)的綜合變量,并選擇盡可能少的綜合變量來表示盡可能多的原始變量中的信息。
1.2.2 1DCNN定量檢測模型
CNN 模型在圖像處理方面應(yīng)用出色,但其一般更適用于二維數(shù)據(jù)建模,而近紅外光譜數(shù)據(jù)作為一維信號,與二維CNN不匹配,為了使得CNN在光譜分析領(lǐng)域的應(yīng)用成為可能,研究通過構(gòu)建一維卷積核,提出農(nóng)作物成分定量檢測的一維卷積神經(jīng)網(wǎng)絡(luò)近紅外光譜數(shù)學(xué)模型,模型結(jié)構(gòu)如表1所示。1DCNN模型結(jié)構(gòu)圖如圖1所示,包含2個卷積層,2個池化層,一個全連接層。2個卷積層的卷積核的大小均為3,卷積核數(shù)目分別為16和32,激活函數(shù)為Relu,池化層選用最大池化操作,優(yōu)化算法為Adam,損失函數(shù)為均方誤差(MSE),輸出層采用線性激活函數(shù)的單神經(jīng)元結(jié)構(gòu),神經(jīng)元數(shù)量為1。卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練包括前向傳播和反向傳播,訓(xùn)練數(shù)據(jù)分成10個批次,批處理樣本數(shù)目為10,圖2所示為1DCNN模型訓(xùn)練過程。

圖1 一維卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)圖

圖2 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程圖

表1 網(wǎng)絡(luò)結(jié)構(gòu)圖
用于回歸模型的評價指標(biāo)主要有均方根誤差(RMSE)、決定系數(shù)(R2[25]),可以表示為:


算法運(yùn)行環(huán)境:Intel(R) Xeno(R) CPU,計(jì)算機(jī)運(yùn)行內(nèi)存32GB,顯卡為GeForce GTX 1080 Ti,采用目前主流的 Tensorflow 2.5.0框架,編程語言為 Python 3.8。此外還使用了 Numpy、OpenCV、Matplotlib 等常用的計(jì)算庫和視覺庫。
為了驗(yàn)證搭建的一維卷積神經(jīng)網(wǎng)絡(luò)算法在糧食作物主要成分近紅外光譜模型方面的有效性,研究在3個不同分布的數(shù)據(jù)集上,構(gòu)建了基于主成分分析的糧食作物主要成分定量檢測的1DCNN、PLS、SVM的近紅外光譜模型,最后將1DCNN、PLS和SVM 3種模型進(jìn)行了對比、測試與分析。同時為了驗(yàn)證PCA算法對農(nóng)作物定量回歸模型的有效性,在這3個光譜數(shù)據(jù)集上,去除了PCA光譜篩選算法進(jìn)行消融實(shí)驗(yàn)。
2.1.1 谷物數(shù)據(jù)集1
對于谷物數(shù)據(jù)集1,分別對數(shù)據(jù)集的水分、蛋白質(zhì)、油脂成分進(jìn)行預(yù)測,選取Kennard-Stone(KS)算法將80個玉米樣本按照8∶2的比例劃分為訓(xùn)練集和測試集,其中64個作為訓(xùn)練集建立定量模型,16個作為測試集驗(yàn)證模型。以4種成分中的水分為例,該成分在1DCNN模型訓(xùn)練中的損失函數(shù)曲線如圖3所示。

圖3 一維卷積神經(jīng)網(wǎng)絡(luò)模型玉米水分訓(xùn)練損失函數(shù)曲線
利用PCA從700個波長變量中選出24個最優(yōu)波長變量輸入一維卷積神經(jīng)網(wǎng)絡(luò),對谷物數(shù)據(jù)集1的水分、油脂、蛋白質(zhì)、淀粉4種成分進(jìn)行建模,另一方面在PCA后建立谷物數(shù)據(jù)集1各成分的PLS、SVM模型,所得模型評價指標(biāo)如表2所示,谷物數(shù)據(jù)集1原始光譜如圖4所示。

圖4 谷物數(shù)據(jù)集1原始光譜

表2 谷物數(shù)據(jù)集1的4種成分在不同模型下評價指標(biāo)
由表2數(shù)據(jù)可知,谷物數(shù)據(jù)集1的4種成分在1DCNN上的模型評價指標(biāo)均要優(yōu)于在PLS、SVM上建模的結(jié)果。相對于談愛玲等[23]提出的谷物數(shù)據(jù)集1的原始光譜、一階導(dǎo)數(shù)光譜、二階導(dǎo)數(shù)光譜乃至這三者的串行融合光譜,進(jìn)行卷積核的參數(shù)尋優(yōu)之后,在相同層數(shù)(但卷積核尺寸等參數(shù)不同)的網(wǎng)絡(luò)結(jié)構(gòu)下進(jìn)行建模,發(fā)現(xiàn)三者的串行融合光譜在模型下的精度更高,其水分、油脂、蛋白質(zhì)、淀粉的R2分別為95.6%、97.2%、98.2%和94.9%。而4種成分在實(shí)驗(yàn)所提出的1DCNN模型下?lián)碛懈叩木?且建模的精度均在98%以上,分別體現(xiàn)在水分的R2提升了3.4%,油脂的R2提升了0.9%,蛋白質(zhì)的R2提升了0.6%,淀粉的R2提升了4.5%。這表明研究所提出的1DCNN模型可以提取到更多光譜數(shù)據(jù)深層的有用信息,提升了預(yù)測精度。
研究對1DCNN下建立的谷物數(shù)據(jù)集1的4種成分定量模型的預(yù)測輸出結(jié)果和目標(biāo)的真實(shí)值做了線性回歸分析,發(fā)現(xiàn)這4種成分在1DCNN模型上輸出的預(yù)測值基本均在y=x的擬合曲線附近,這說明所建立的1DCNN模型對輸入的預(yù)測值與目標(biāo)真值十分接近,且模型對每一種成分都有很好的預(yù)測能力,這進(jìn)一步表明谷物數(shù)據(jù)集1的4種成分在1DCNN模型預(yù)測結(jié)果精確度很高。
2.1.2 谷物數(shù)據(jù)集2
谷物數(shù)據(jù)集2原始光譜如圖5所示,對于谷物數(shù)據(jù)集2,分別對谷物數(shù)據(jù)集2的酪蛋白、葡萄糖、乳酸鹽、水分成分進(jìn)行預(yù)測。選取 KS算法將231個樣本按照8∶2的比例劃分為185個訓(xùn)練集和46個測試集,用PCA從117個波長變量中選出50個最優(yōu)波長變量,建立谷物數(shù)據(jù)集2中4種成分的PLS、SVM、1DCNN模型,所得模型評價指標(biāo)如表3所示。

圖5 谷物數(shù)據(jù)集2原始光譜

表3 谷物數(shù)據(jù)集2四種成分在不同模型下評價指標(biāo)
由表3可知,對于酪蛋白、乳酸鹽和水分3種成分,在PLS模型下進(jìn)行建模時的R2分別為97.43%、92.87%和91.77%,RMSEp分別為0.357 6、0.509 9以及0.517 4;而在SVM模型下進(jìn)行建模的R2分別為98.6%、96.78%和98.54%,RMSEp分別為0.215 3、0.330 7以及0.463 5,二者相比,在SVM模型下這2種成分擁有更高的精度和更低的均方根誤差,可以看出在SVM模型下建模的模型評價指標(biāo)要優(yōu)于PLS模型下的。對于葡萄糖,在PLS模型下進(jìn)行建模時的R2為98.57%,RMSEp為0.207 5;而在SVM模型下進(jìn)行建模的R2為95.26%,RMSEp為0.318 4,可以看出在PLS模型上建模的模型評價指標(biāo)反而要優(yōu)于SVM模型下的。但4種成分在1DCNN上的模型評價指標(biāo)均優(yōu)于在PLS、SVM上建模的結(jié)果,模型準(zhǔn)確度均達(dá)到了99%甚至1,相比于谷物數(shù)據(jù)集1,由于該數(shù)據(jù)集樣本數(shù)量多且維度低,數(shù)據(jù)集分布比較均勻,4種成分的1DCNN模型適配度很高,模型精度達(dá)到最高。
同樣對1DCNN下建立的4種成分定量模型的預(yù)測輸出結(jié)果和目標(biāo)的真實(shí)值做了線性回歸分析,4種成分在1DCNN模型上的輸出預(yù)測值基本均在y=x的擬合曲線上,說明模型預(yù)測輸出幾乎等于成分真實(shí)含量百分比值,谷物數(shù)據(jù)集2在1DCNN模型上擁有很好的擬合效果。
2.1.3 谷物數(shù)據(jù)集3
對于谷物數(shù)據(jù)集3,選取 KS算法將248個小麥樣本按8∶2的比例劃分為198個訓(xùn)練集、50個測試集,用PCA從741個波長變量中選出240個最優(yōu)波長,建立小麥蛋白質(zhì)的PLS、SVM、 1DCNN模型。谷物數(shù)據(jù)集3的原始光譜圖如圖6所示,小麥蛋白質(zhì)在不同模型下評價指標(biāo)如表4所示。

圖6 谷物數(shù)據(jù)集3原始光譜

表4 谷物數(shù)據(jù)集3在不同模型下評價指標(biāo)
由表4可知,小麥蛋白質(zhì)在PLS模型下進(jìn)行建模時的R2為91.92%,RMSEp為0.376 5;在SVM模型下進(jìn)行建模的R2為97.94%,RMSEp為0.293 8;而在1DCNN模型下進(jìn)行建模時的R2為99.8%,RMSEp為0.071 3。可以看出小麥蛋白質(zhì)在3種模型下的模型性能排列為PLS 研究所提出的模型主要包括2個模塊,即PCA和1DCNN。為了驗(yàn)證所選的光譜篩選算法對農(nóng)作物定量回歸模型的有效性,針對3個光譜數(shù)據(jù)集,在去除PCA光譜篩選的情況下,按照20%的訓(xùn)練比率進(jìn)行消融實(shí)驗(yàn),結(jié)果如表5所示。未經(jīng)過PCA的模型的R2低了很多,下降范圍在10%~30%。對于谷物數(shù)據(jù)集1的4種成分,在PLS下R2的平均下降比率為30.53%,SVM下的平均下降比率為28.02%,1DCNN下的平均下降比率為25.10%。由于谷物數(shù)據(jù)集1本身數(shù)據(jù)的分布不均及異常數(shù)據(jù)的存在,完成回歸任務(wù)比較困難,但1DCNN方法下的R2依然達(dá)到了78.49%。谷物數(shù)據(jù)集2和數(shù)據(jù)集3的R2均下降了10%左右,1DCNN的模型準(zhǔn)確率接近90%。其中谷物數(shù)據(jù)集2成分在1DCNN方法下的R2平均下降比率為11.63%,谷物數(shù)據(jù)集3中小麥蛋白質(zhì)的平均下降比率為12.33%。通過實(shí)驗(yàn)結(jié)果可知,即使不經(jīng)過光譜篩選,1DCNN模型也可以提取到比PLS、SVM方法更多更深層的有用光譜信息,模型精度更高;經(jīng)過PCA光譜篩選算法后模型準(zhǔn)確率得到提升,說明PCA光譜篩選算法與建模方法的結(jié)合可以很好的提取光譜特征信息,其中與1DCNN模型結(jié)合提取到的有用信息最多,模型精度最高。 表5 糧食作物主要成分在無光譜篩選下的模型評價指標(biāo) 針對傳統(tǒng)建模難以選擇合適的光譜預(yù)處理方法以及模型預(yù)測精度低的問題,研究提出了一種深度學(xué)習(xí)下基于PCA與一維卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的糧食作物主要成分近紅外光譜檢測方法。在沒有使用光譜數(shù)據(jù)預(yù)處理的前提下,利用PCA光譜篩選算法與1DCNN結(jié)合對數(shù)據(jù)進(jìn)行了訓(xùn)練、建模。與傳統(tǒng)近紅外定量建模方法(PLS、SVM)相比,1DCNN 模型具有更高的準(zhǔn)確率,在國際公開的3個谷物近紅外光譜數(shù)據(jù)集上進(jìn)行了測試,均驗(yàn)證了該方法的有效性。同時經(jīng)過消融實(shí)驗(yàn)驗(yàn)證,PCA光譜篩選算法與1DCNN結(jié)合的方法不僅可以提高模型的泛化能力,還可以使模型的精度有所提升。方法可與近紅外光譜技術(shù)結(jié)合,為糧食作物主要成分含量檢測提供一種快速無損精確的判定方式,研究結(jié)果對于糧食作物主要成分含量檢測具有促進(jìn)作用。 研究所用的是公開的糧食作物光譜數(shù)據(jù)集,且數(shù)據(jù)集分布比較均勻,而實(shí)際場景中數(shù)據(jù)集應(yīng)用到模型可能會有偏差,因此在后續(xù)的研究中要深入到糧食作物樣品定量分析的模型遷移中,進(jìn)一步提高模型的泛化能力和可靠性,滿足實(shí)際生產(chǎn)需求。2.2 消融實(shí)驗(yàn)

3 結(jié)論