談愛玲,王曉斯,楚振原,趙勇
1(燕山大學 信息科學與工程學院,河北省特種光纖與光纖傳感重點實驗室,河北 秦皇島,066004)2(燕山大學 電氣工程學院,河北省測試計量技術及儀器重點實驗室,河北 秦皇島,066004)
近紅外(near infrared,NIR)光譜分析技術具有無需前處理、簡便快捷、適用樣品范圍廣、多組分同時檢測等優點,在食品、農業、醫藥、石油等領域得到了廣泛應用[3-5]。化學計量學方法是近紅外光譜分析技術中的重要工具,可以在樣品待測屬性值與近紅外光譜數據之間建立定性和定量模型[6-7]。深度學習是用于建立、模擬人腦進行分析學習,并模仿人腦的機制來解釋數據的一種深層網絡,近年來,該技術在圖像處理、語音識別、文本數據等多個應用領域取得顯著成果[8-10]。其中,卷積神經網絡(convolution neural network, CNN)是應用最廣泛的深度學習模型,能夠從復雜數據中自主提取有效特征結構進行學習,與傳統的淺層學習模型相比,具有更強大的模型表達能力[11-12]。
在光譜分析領域,CNN可以直接建立原始數據的定性或者定量模型[13-14]。袁培森等[15]利用對菊花的原始圖像數據,通過逐層進行特征學習,進而利用多層網絡獲取菊花的特征信息,實現了對菊花花型和品種的智能識別和高效管理。魯夢瑤等[16]提出了一種改進的CNN建模方法,以我國東北、黃淮、西南三大烤煙產區的600個中部煙葉樣本的近紅外光譜為實驗對象,建立煙葉產區分類NIR-CNN模型。YANG等[17]利用CNN提取可見光-近紅外波段的光譜特征來估計玉米幼苗的冷損傷,與化學法給出的等級具有較高的相關性,證明了基于CNN建模的光譜分析可為玉米幼苗的冷害檢測提供參考。田永超等[18]基于多元散射校正+Norris一階導數光譜建立了偏最小二乘-反向傳播神經網絡模型,對中國中、東部地區5種不同類型土壤有機質含量進行估測。CHEN等[19]提出了一種新的基于CNN的近紅外光譜端到端的定量建模方法,該方法直接將采集到的全部原始光譜信息作為輸入,無需波長選擇,定量分析模型操作簡便,具有較好的實際應用價值。
近紅外原始光譜包含復雜樣本多種成分的全部特征信息,但存在譜帶重疊及含有干擾等問題,導數光譜可以去除背景和基質的干擾,提高重疊譜帶及平坦譜帶的分辨率[20]。對含有多種成分的復雜樣本近紅外光譜,考慮結合原始光譜包含全部特征信息和導數光譜去除干擾的優點,本文提出將串行融合光譜與深度學習相結合的方法,研究該方法在玉米近紅外光譜定量建模分析中的可行性和有效性,將玉米樣本的近紅外原始光譜、一階導數和二階導數光譜歸一化后首尾串行相連,組成新的融合光譜,并結合一維卷積神經網絡(one-dimensional convolution neural network,1D-CNN)學習算法,建立玉米樣本中水分、油脂、蛋白質和淀粉4種成分的定量預測模型。
實驗數據采用EVRI網站公開的玉米近紅外光譜數據集(http://eigenvector.com/data/Corn)[21],該數據集是利用m5、mp5、mp6共3種近紅外光譜儀分別測量80個不同的玉米樣本,共采集獲得240條近紅外吸收光譜。光譜儀波長范圍均為1 100~2 498 nm,間隔為2 nm,因此每條光譜有700個波長點處的吸光度值。3種光譜儀所測玉米的原始光譜、一階導數光譜和二階導數光譜圖分別如圖1-a、b和c所示。

a-原始光譜; b-一階導數光譜; c-二階導數光譜圖1 玉米的3種光譜Fig.1 Spectra of maize samples
數據集同時給出了所有玉米樣品中水分、油脂、蛋白質和淀粉4種成分的含量百分比真值。將80個玉米樣本隨機劃分為訓練集和測試集,其中60個作為訓練集建立定量模型, 20個作為測試集驗證模型。訓練集和測試集玉米樣本中4種成分的均值和標準差如表1所示,由表1可以看出,訓練集與測試集4種成分的均值和標準差都比較接近,樣品劃分滿足隨機性和代表性,符合近紅外光譜技術建模的要求。

表1 用于訓練和預測的樣本4種成分的均值和標準差Table 1 Mean and standard deviation parameters of the four components used for training and prediction sample
CNN是深度學習中重要的網絡結構,也是第一個真正意義上成功訓練多層神經網絡的學習算法,它的權值共享理論與真實的生物神經結構更加接近,同時減少了網絡參數的個數。網絡的基本結構包括輸入層、隱含層和輸出層,每一層網絡有多個神經元,上一層的神經元通過激活函數映射到下一層神經元,每個神經元之間有對應的權值,輸出即為預測的結果,其中重點包括卷積層和激活函數,卷積層的卷積原理如公式(1)所示[22]:
(1)

激活函數就是對卷積層的輸出進行非線性操作,來提取更多特征信息。本文選用LeakyReLU函數作為激活函數,該函數的數學表達式如公式(2)所示:
獨立學院推進人才培養模式改革的過程決不是一蹴而就的,應該是一個循序漸進的過程,是一個逐步推進的過程,是一個“漸進性增量”的改革過程。它一定具有以下的特點:其一,獨立學院探索人才培養模式改革要先試點再推廣,也就是國家先在某類高校或某個地區進行試點,試點成功后,再把典型經驗推廣至全國,這一原則遵循了國家的政策指導。其二,獨立學院人才培養模式的漸進性改革。這并不是對先前人才培養模式的全盤否定,而是一種增量、增值的改革,是在吸取現有高校人才培養典型經驗的基礎上融入新要素,依據新需求,定位新特色,探索符合獨立學院辦學特色的應用型技術技能型人才培養模式。
f(x)=max(0,x)
(2)
玉米樣本的近紅外光譜、一階導數光譜和二階導數光譜均為1×700的一維數據,三者串行得到1×2 100的一維數據。本文提出1D-CNN-NIR定量模型,其結構示意圖如圖2所示。該模型基于經典CNN模型LeNet-5,構建包含2個卷積層和2個池化層,2個卷積層的卷積核尺寸分別為20和10,池化層采用最大池化法,激活函數使用LeakyReLU,全連接層數為1,輸出層采用線性激活函數的單神經元結構,神經元數量為1,采用Adam優化算法,訓練數據分成20個批次(batch),批處理樣本數目為50(batch size)。本文對240條玉米樣本的原始光譜、一階導數光譜、二階導數光譜和3種光譜的串行融合光譜分別進行1D-CNN建模。

圖2 1D-CNN光譜定量預測模型Fig.2 Quantitative spectral prediction model of one-dimensional convolution neural network
算法運行環境:Intel?CoreTMi5-8250 CPU;8GB計算機內存。所用軟件包括Matlab和Pycharm,為實現數據優化和對比不同機器學習算法,系統環境中配置Numpy、Pandas、Sckit-learn等Python運算庫。
CNN的訓練過程分為2個階段。第1階段是數據由低層次向高層次傳播的階段,即前向傳播階段。另一個階段是,當前向傳播得出的結果與預期不相符時,將誤差從高層次向低層次進行傳播訓練的階段,即反向傳播階段。本文設計的1D-CNN-NIR定量模型訓練流程如圖3所示。

圖3 CNN算法流程圖Fig.3 The flowchart of CNN algorithm
采用均方誤差(mean square error, MSE)作為損失函數,首先通過前向傳播過程,輸入的光譜訓練數據經過1D-CNN的卷積層和池化層后,得到樣本成分的預測含量值,通過該預測含量值和成分的含量真值計算損失函數,若所得損失函數值過大,將進行反向傳播過程,反向傳播將誤差一層層返回,計算出每一層的誤差,求出誤差梯度,然后進行權值更新,不斷循環該過程,直到損失函數值達到最小,訓練結束,保存權值。針對串行融合光譜數據,以玉米樣本中水分成分的模型訓練為例,其損失函數值收斂曲線如圖4所示。

圖4 CNN模型訓練中損失函數收斂曲線Fig.4 The convergence curve of loss value of CNN model
定量模型性能評價采用決定系數(R2)和均方根誤差(root mean square error,RMSE)作為評估指標,從模型的回歸擬合度和預測精確度來評價模型性能。




表2 不同卷積核數目配置時水分值模型指標Table 2 Model results of moisture with different convolution kernel configurations
對玉米成分中油脂、蛋白質、淀粉這3種成分的定量模型,進行同樣的卷積核尋優過程,在輸入數據分別為原始光譜、一階導數光譜、二階導數光譜和串行融合光譜時,最優卷積核數目配置下,模型性能指標結果如表3所示。由表3結果可知,對于玉米的4種成分,基于串行融合光譜的1D-CNN模型性能指標均優于另外3種。

表3 水分、油脂、蛋白質和淀粉在最優卷積核數目下模型性能指標Table 3 Modeling and predicting effects of water, oil, protein and starch in maize on four different data sets


a-模型的值;b-模型的RMSEP值圖5 基于4類光譜數據的玉米成分模型結果對比Fig.5 Comparison of corn component models based on different types of spectral data

為了進一步驗證串行融合光譜的有效性,本文利用原始光譜、一階導數光譜、二階導數光譜和串行融合光譜作為輸入數據,分別基于偏最小二乘回歸(partial least squares regression, PLSR)和非線性回歸算法支持向量機回歸(support vector regression, SVR),對玉米中水分、油脂、蛋白質、淀粉4種成分建立了定量模型,模型結果如表4所示。

表4 水分、油脂、蛋白質、淀粉在PLSR和SVR下模型性能指標Table 4 Model performance indexes of water, oil, protein and starch with PLSR and SVR algorithms

為驗證1D-CNN模型的NIR定量預測模型,本文基于融合光譜數據,將PLSR、SVR和1D-CNN 3種算法所建玉米樣本4種成分的定量回歸模型進行對比。測試集樣本的評價指標結果如表5所示。由表5可知,對于玉米樣本的4種成分,串行融合光譜結合CNN所建定量模型的預測性能均優于PLSR和SVR所建定量模型的預測性能。

表5 水分、油脂、蛋白質、淀粉在PLSR、SVR和CNN 下模型性能指標Table 5 Model performance indexes of water, oil, protein and starch under PLSR, SVR and CNN
對1D-CNN定量模型的輸出結果和目標輸出做線性回歸分析,4種成分的回歸結果如圖6所示。由圖6可知,基于CNN所建的定量預測模型,對于預測集玉米樣本中的水分、油脂、蛋白質和淀粉4種成分的預測值基本分布在擬合曲線附近,預測值與其對應的含量真值非常接近,預測精度高。該方法不僅能夠提高定量模型的預測精度,而且對于提高算法的魯棒性和泛化能力也具有重要意義。

a-水分擬合曲線;b-油脂擬合曲線;c-蛋白質擬合曲線;d-淀粉擬合曲線圖6 玉米4種成分的真實值與預測值擬合曲線(CNN)Fig.6 Fitting curve between true value and predicted value of four components in maize (CNN)
本文提出了一種基于導數光譜融合結合1D-CNN的近紅外光譜定量建模方法,實現對玉米數據集的近紅外光譜回歸預測。對國際公開的玉米近紅外光譜數據集的原始光譜、一階導數光譜、二階導數光譜和融合光譜的實驗結果表明,融合光譜方法分別結合傳統回歸算法PLSR和SVR,以及深度學習方法CNN結合所建立的預測模型,模型性能指標均優于原始光譜或導數光譜。同時,與傳統算法所建模型相比,本文提出的基于融合光譜的1D-CNN模型性能指標也更優,預測精度高,回歸擬合效果好。研究結果表明,光譜融合與深度學習相結合更有利于提取和挖掘光譜數據深層信息,建立精度更高的定量預測模型,光譜融合結合1D-CNN的方法在近紅外光譜分析技術領域具有重要的研究意義和應用價值。