陳素彬,胡振
南充職業技術學院(南充 637131)
小麥是人類的主糧之一,也是重要的動物飼料、食品原料和外貿商品。蛋白質含量是小麥的基本品質指標之一,在很大程度上反映了小麥的營養價值和加工特性,對其品種選育、栽培管理、市場交易和食品加工等相關環節都有重要意義。
小麥蛋白質含量測定的最新國標方法為凱氏定氮法、分光光度法和燃燒法[1],它們皆為濕化學分析方法,測量精度高,可用于仲裁檢驗,但有操作復雜、耗時長、污染環境等缺點[2],不適用于大量樣本的快速檢測。近紅外光譜(Near infrared spectroscopy,NIRS)分析是目前應用廣泛的儀器分析技術之一,具有快速、方便、簡單、準確以及可同時分析多種成分的優點,是一種非破壞性的“瞬間分析”技術[3],能對各種氣、液、固態樣品進行定量和定性分析,故其被確定為小麥蛋白質含量快速測定方法的國家標準[4]。
近紅外光譜分析技術的應用也存在一些問題,如數據量大、譜峰重疊嚴重、測定結果受環境影響大等[5]。因此,為了在小麥蛋白質含量及其近紅外光譜之間建立一個準確高效、泛化性能良好的校正模型,應選用先進的建模方法,并輔之以數據預處理、特征波長選取和模型參數優化等技術手段。已有的一些相關研究采用偏最小二乘(Partial least squares,PLS)[6-7]或人工神經網絡(Artificial neural network,ANN)[8-9]方法建模,以無信息變量消除(Uninformative variables elimination,UVE)或連續投影算法(Successive projections algorithm,SPA)篩選特征波長[10-11],獲得了較好的結果。但當物質的待測屬性與光譜數據之間的線性相關度較差時,不適合建立線性回歸模型[12];而ANN模型則存在訓練效率低、易發生過擬合現象等缺陷,且非線性模型的參數優化則一直是個難題,常用的幾種方法都有明顯缺陷,不易確定最優參數值[13]。UVE基于對PLS回歸系數b的分析,因此可能所得波長變量仍然較多;SPA則在剔除共線性波段的同時會損失一些有用的光譜信息,且保留的波段中既有待測成分信息,又有其他屬性信息,這些都在一定程度上影響了所建校正模型的精度和效率。
試驗在通過對比確定小麥樣品光譜預處理和樣本集劃分的最優方案之后,嘗試以最小二乘支持向量機(Least squares support vector machine,LS-SVM)建模,并利用改進的二進制蝙蝠算法(Improved binary bat algorithm,IBBA)進行特征波長和模型參數的聯合優化,得到一個快速、穩健的小麥蛋白質近紅外光譜定量校正模型。所用軟件工具主要為MATLAB R2015b,LS-SVMlab Toolbox 1.8,The Unscrambler X 10.4和OriginPro 8.0。
收集不同產地、品種的248個成熟小麥樣本,剔除雜質后自然晾曬風干,每個樣本取1 kg以四分法分成2份:一份用于蛋白質含量的化學方法測定;另一份避光保存于4 ℃冷藏箱中,用于近紅外光譜掃描。
按照國家標準GB 5009.5—2016《食品安全國家標準 食品中蛋白質的測定》第一法 凱氏定氮法,測定各樣品的蛋白質含量。
每個樣品約取500 g,以FOSS公司的Infratec 1241型近紅外光譜谷物品質分析儀掃描,波長范圍為570~1 100 nm,步長為0.5 nm,掃描10次,取其平均值為樣品光譜。248個樣品的1 061個波點光譜如圖1所示。

圖1 樣品原始光譜
首先用均值中心化(Mean centering,MC)算法對樣品光譜進行預處理,以消除多重共線性的影響。然后以MC預處理結果為基礎數據,分別嘗試用SG平滑(Savitzky-Golay smoothing,2階、5點)、標準正態變量變換(Standard normal variable,SNV)、去趨勢(De-trending,2階)、多元散射校正(Multiplicative scatter correction,MSC)和正交信號校正(Orthogonal signal correction,OSC)算法進行處理;分別以CG(Concentration gradient)法、RS(Random sampling)法、KS(Kennard-Stone)法和SPXY(Sample set partitioning based on joint x-y distance)法,按3︰1劃分樣本校正集和測試集,然后用預處理后的數據建立PLS模型,通過結果比較確定最優的光譜預處理方案和樣本集劃分方法。
LS-SVM能夠支持線性和非線性建模,其訓練即為求解線性方程組,預測則是計算各建模樣本與待測樣本之間的核函數,計算量僅取決于校正集的樣本數目,而與光譜維數無關。LS-SVM模型比線性模型更穩健,而且避免了ANN模型普遍存在的訓練速度慢、易早熟、過擬合和泛化性差等缺陷。但LS-SVM模型(徑向基核函數)的核寬度σ2、正則化參數γ與模型的支持向量數目、預測精度、泛化性能密切相關,因此需要尋找這兩個參數的最優值;此外,小麥樣品的原始光譜中含有大量共線性變量和非目標信息,也會嚴重影響模型的性能和效率,故應選取與蛋白質含量密切相關的特征波長光譜建模,以摒棄無關信息、降低數據維數,從而在簡化模型的同時,提高其精度、速度和穩健性。
1.5.1 改進的二進制蝙蝠算法
蝙蝠算法(Bat algorithm,BA)[14]是Yang基于蝙蝠的回聲定位特性提出的一種群體智能搜索算法,其求解準確性和有效性優于常用經典算法,且模型簡單、效率高,具有潛在并行性和分布式特性。但是,BA的優化能力主要源于個體間的相互作用,而沒有提供能夠保持種群多樣性的變異機制,故易發生早熟收斂而影響尋優精度,并因強化局部搜索而導致了后期進化變慢[15]。為此,可在BA中引入動態速度權重因子和Cauchy分布隨機數擾動,以保持種群的多樣性,增強其全局搜索能力,同時加快收斂速度。該算法的原理及執行流程請參考文獻[15]。
對改進蝙蝠算法進行離散化,將其搜索空間由連續的實數空間映射到離散的二進制空間,即為IBBA[16]。其主要思想是:蝙蝠的各維位置都限定為二進制值0或1,但其速度則不限制,于是可用傳遞函數將速度轉換為概率值來確定蝙蝠個體的位置。
1.5.2 用IBBA進行建模參數與特征波長聯合優化
大多數研究都將LS-SVM的建模參數優化與特征波長選擇分別用不同方法實現,但二者在同一個NIRS定量校正模型中是相互影響的[17],將其置于同一過程進行聯合優化更易得到最優結果。對此,運用IBBA實現:
以蝙蝠的各維位置對應波長變量,某維取值為1表示相應波長的光譜被選中,反之表示未選中[18]。取值1的各維即為特征波長,將其與建模參數σ2、γ一起構成優化變量,對其進行二進制編碼,通過迭代搜索獲得其最優值。在每次迭代過程中調用LS-SVMlab Toolbox函數,用校正集樣本數據建立LS-SVM模型,將留一法交叉驗證(Leave-One-Out Cross Validation,LOO-CV)所得交叉驗證均方根誤差(Root Mean Square Error of Cross Validation,RMSECV),作為IBBA算法的適應度函數,迭代搜索最優建模參數和特征波長。
1.5.3 優化LS-SVM校正模型的建立與驗證
對于經過預處理的校正集樣本,取其特征波長光譜數據,以最優參數建立LS-SVM模型,在同等條件下代入測試集樣本數據進行驗證,并與常用的PLS、CARS-PLS和未優化的LS-SVM建模結果比較。
以校正決定系數Rc2、預測決定系數Rp2、校正均方根誤差(Root mean square error of calibration,RMSEC)、預測均方根誤差(Root mean square error of prediction,RMSEP)、相對分析誤差(Ratio of performance to standard deviate,RPD)為模型評價指標。Rc2和Rp2值大且相差少、RMSEC和RMSEP值小且相差少、RPD值越大,則相應的模型性能越好。
依照1.4小節的方案,首先分別將原始光譜和MC預處理后的數據以CG、RS、KS和SPXY法劃分樣本集并建立PLS模型,比較結果得Rp2和RMSEP,發現用MC預處理數據所建PLS模型遠優于原始光譜,SPXY法劃分的樣本集建模效果優于其他方法;然后用相同方法對比“MC+SG平滑”“MC+SNV”“MC+De-trending”“MC+MSC”“MC+OSC”預處理方案,結果以“MC+De-trending”算法最佳,相應PLS模型的Rp2為0.934 0,RMSEP為0.394 0,明顯優于其它方案。各種預處理方案的PLS建模結果如表1所示。

表1 各種預處理方案的PLS建模結果

圖2 “MC+De-trending”預處理后的譜圖
以SPXY法劃分的樣本集基本信息如表2所示。蛋白質含量最低和最高的樣本都被劃分到校正集,測試集樣本的蛋白質含量在校正集樣本蛋白質含量區間之內,表明兩個樣本集的待測屬性值分布合理,所建校正模型能產生較好的預測結果。

表2 SPXY法劃分的樣本集基本信息
按1.5.2小節的方案設計優化流程,用MATLAB編程實現。算法的運行參數設置:迭代次數60,蝙蝠數量40;頻率Q∈[0,2],響度初值A=0.25,衰減系數α∈[0.001, 0.999],脈沖頻率初值r0=0.1,增強系數β∈[0.001, 1],權重因子w∈[0.5, 1]。
將優化程序運行100次,獲得最小適應度函數值時的模型參數值即為最優,其結果為:γ=1 098 472.606 317,σ2=216.010 717。同時選取的建模特征波長為487個。相應尋優迭代過程中RMSECV值的變化如圖3所示。

圖3 尋優迭代過程的RMSECV值變化
同樣地,亦可直接采用適應度函數值最小時的特征波長作為最終建模的波長變量。但IBBA作為一種智能搜索算法,其結果并非唯一確定的,故將100次優化運算產生的100組特征波長進行統計,得到各波點光譜被選中建模的次數,如圖4所示。
從圖4可以看出,在短波近紅外譜區建立小麥蛋白質近紅外校正模型時,用IBBA算法選中建模的高概率波長點較分散,相對集中的波段主要有595~599,897~909,916~929,977~1 008和1 012~1 023 nm,此外在576.5,595,598,598.5,600,605,623,625,646,654.5,659和674.5 nm處的光譜被選取的概率也在90%以上。

圖4 各波點被選中建模的次數
以優化所得σ2、γ參數值和特征波長光譜對校正集數據建立LS-SVM模型,再用測試集數據驗證其性能,所得結果隨波長變量的選取方法不同而有所差異。
方案A:直接采用優化所得487個特征波點建模、驗證,其結果為:=0.994 5、RMSEC=0.153 2,=0.983 4、RMSEP=0.197 6,RPD=7.81。
方案B:根據100組特征波長的統計情況選取波長變量。將被選概率50%的波點作為起點,分別向遞增、遞減兩個方向調整特征波長數,用相應光譜數據建模并驗證,結果以被選概率為47%以上的對應波點建模最佳:Rc2=0.995 8、RMSEC=0.145 3,Rp2=0.984 2、RMSEP=0.192 4,RPD=8.02。選取不同波長變量所建模型的性能對比如表3所示。
表3表明,當選取的特征波長被選概率從43%開始依次遞增時,所建模型的Rp2逐漸增大,且與Rc2的差值逐漸縮小;RMSEP逐漸減小,且與RMSEC的差值逐漸縮小,同時RPD也隨之遞增,反映出模型的預測精度越來越高,穩健性逐漸增強;但達到47%之后,如果繼續提高建模波長的被選概率,則模型的Rc2、Rp2和RPD逐漸減小,RMSEC和RMSEP逐漸增大。究其原因,應是隨著選取波點數的持續減少,建模所用光譜數據對于待測屬性信息的反映越來越不充分,故而模型性能呈下降趨勢。方案B所建最佳模型的小麥蛋白質測試結果如圖5所示。該模型對測試集樣本預測所得小麥蛋白質含量值位于兩條坐標軸的對角線附近,并均勻分布在擬合線兩邊,表明其精確度高、穩健性好。

表3 方案B不同波長變量所建模型的性能對比

圖5 方案B所建最佳模型的測試結果
為進一步確定優化LS-SVM模型的效果,還分別用CARS-PLS和未優化的SVM(Support Vector Machine,支持向量機)、LS-SVM方法對相同的樣本集建模并驗證,與優化LS-SVM模型及表1的PLS模型進行性能比較,結果如表4所示。CARS-PLS模型選取的特征波長數最少,各項性能指標明顯優于PLS模型,其RPD值達到了ICC(International association for cereal science and technology,國際谷物科技協會)標準等級“好”;未經優化的SVM模型則表現不理想,這也正好印證了參數優化對于建立非線性模型的重要性。相比之下,LS-SVM模型的性能優于前三種模型,充分體現其用于小麥蛋白質近紅外光譜分析的方法優勢;但未經優化的LS-SVM模型穩健性尚有欠缺,故其預測表現較建模指標有明顯下降。采用此次試驗建立的方法獲得最優建模參數和特征波長之后,LS-SVM模型的穩健性和預測精度顯著提高,尤以方案B對應的模型性能最佳,其Rc2和Rp2分別達到0.995 8和0.984 2,RMSEC和RMSEP分別為0.145 3和0.192 4,兩對指標值都相差很小,且RPD值為8.02,已達到ICC標準等級“非常好”。

表4 幾種方法所建模型性能比較
以248個小麥樣品為試驗材料,通過反復對比,選定“MC+De-trending”算法進行光譜預處理,SPXY法劃分樣本集;以建模參數和特征波長為優化變量,應用改進的二進制蝙蝠算法搜索其最優值,用之于LS-SVM模型的建立和驗證。結果表明,該優化LS-SVM模型性能優異,可用于實際檢測工作。