孫曉榮, 周子健, 劉翠玲, 付新鑫, 竇 穎
(北京工商大學 計算機與信息工程學院 食品安全大數據技術北京市重點實驗室,北京 100048)
3小麥粉中灰分含量是指經高溫灼燒后殘留下的無機成分占小麥粉的百分比。高溫處理不但耗能費時更會帶來不必要的浪費。近幾年,研究人員將近紅外光譜(near infrared,NIR)技術結合化學計量學的相關算法應用于小麥粉的品質檢測[1]。偏最小二乘(partial least squares,PLS)法是回歸預測常用的建模方法,但在光譜檢測實驗中存各種因素,會影響PLS模型的準確性和穩定性,引入譜區優化和光譜預處理格外重要[2,3]。馬世榜等人利用牛肉近紅外光譜結合遺傳算法(genetic algorithm,GA)建立了其pH值定量模型,結果表明經該優化波長后的模型預測準確性明顯高于原始光譜所建模型[4],實驗證明光譜預處理效果明顯,GA具有全局搜索最優特點,可以應用于許多研究領域,并成為譜區優化非常有效的方法之一。
本文對比多種光譜預處理方法結合GA建立PLS定量分析實現模型優化,以快速準確分析小麥粉中灰分含量。
所用130份小麥粉樣本均取自古船面粉廠不同批次以及不同種類的小麥粉產品,待測組分真實值均來自古船面粉廠依據傳統國標法測得的實驗數據。采用德國布魯克(Bruker)公司Vertex 70傅里葉紅外光譜儀采集小麥粉樣本的近紅外光譜。光譜數據分析在MATLAB 2014環境下完成。儀器參數設置:分辨率8/cm,樣本掃描次數64次,背景掃描次數64次,采集光譜范圍12 000~4 000/cm,光闌設置6 mm,掃描速度10 kHz。
1.2.1 光譜預處理作用與方法
引入光譜預處理可以有效消除近紅外光譜存在固有缺陷,提高模式識別的準確度。
本實驗研究結合樣本特性和預處理方法功能,對比分析最終選擇了5種預處理方法,分別為矢量歸一化、Savitsky-Golay(SG)卷積平滑法、導數法、標準正態變量變換(standard normal variable transform,SNV)校正以及多元散射校正(multiplicative scatter correction,MSC)[5,6]。
1.2.2 GA
傳統的優化方法[7,8],如相關系數法和蒙特卡羅法等,多是建立譜區和待測組分之間的關系來篩選波長,這需要研究人員具有很強的化學素養和相關經驗,難以實現自動化檢索;而隨機優化方法[9~11]如粒子群算法,模擬退火算法,GA等,能夠自動檢索復雜問題,對不同對象自適應性的分析并快速找出最優解。本文選擇用GA優化譜區,避免因化學專業知識的欠缺影響模型結果。
算法過程包括:選擇、交叉、變異,通過迭代的手段,根據目標函數值留下較優變量,去除較差變量,最終實現特征變量優選,算法屬于自適應的全局搜索算法,其中最重要的選擇環節依據適應度函數,選擇優良個體[13]。
1.2.3 適應度函數
用于區分個體優劣,提升整體優勢[14,15]。可選擇校正模型的相關系數R2、校正標準偏差(root mean square error of calibration,RMSEC)或者預測標準偏差(root mean square error of prediction,RMSEP)。3者均為評價校正模型的重要參數。
實驗中,利用OPUS7.0軟件將采集的光譜轉換為數據點格式以及單一PLS回歸預測曲線,光譜預處理+GA結合PLS由MATLAB 2014軟件完成。
實驗中共130份小麥粉樣本,基于SPXY樣本劃分法選取其中106份樣本作為校正集,24份樣本作為測試集。實驗每隔30 min采集一次背景光譜,并保持室內恒溫26 ℃。光譜儀器掃描次數設置為64 次,分辨率為 8/cm,采集部分小麥粉樣本近紅外光譜如圖1所示。

圖1 部分小麥粉樣本的近紅外光譜
選用歸一化、導數、SNV、MSC、SG平滑5種常用光譜預處理方法,按照一定關系排列成11種組合,分別對面粉中灰分定量分析模型進行光譜處理,旨在最大程度消除與光譜數據無關信息和噪聲,提升校正模型的預測性能和穩健性,通過對結果對比分析,找出最適合面粉檢測的預處理方法。模型基于11種預處理組合分別建立PLS全譜模型,實驗結果表明,光譜經過平滑結合歸一化和平滑結合一階導數預處理組合優化后建模,預測準確性和穩健性均優于原始光譜建立的定量模型。SG平滑分別結合SNV和MSC預處理組合準確性明顯提高,但是模型穩健性不足。其余組合所見模型在滿足模型穩健性的情況下,預測準確性過低,反之,穩健性不足。
實驗在建立基于遺傳算法優化波長的小麥粉中灰分含量PLS定量模型時,相關系數R2和RMSEC隨特征波長數量變化如圖2所示,模型參數在特征波長數量為80時趨于平穩。因此,GA種群規模設定為30,最大迭代次數設定為150次,提取特征波長數量為80個,適應度函數選擇RMSEP。

圖2 R2和RMSEC隨特征波長數量變化
基于光譜預處理結合遺傳算法篩選波長,建立關于小麥粉灰分定量分析模型,實驗挑選部分預處理方法與GA結合優化后模型,參數結果如表1所示。
在模型評價方面,除使用相關系數R2和預測標準偏差RMSEP來評價模型預測準確性外,還引入穩健性參數RMSEP/RMSEC和剩余預測偏差(residual prediction deviation,RPD)2個評價指標。模型穩健性是描述模型容許光譜變動的包容能力,即模型抗干擾能力。國際谷物化學組織(Inter-national Cereal Chemists,ICC)規定在正常容變范圍之內RMSEP/RMSEC應小于1.2,若穩健性參數大于1.2則說明模型穩健性不足;另外,使用RPD對預測精度進行進一步評價,即RPD=SD/RMSEP(SD為驗證集標準偏差)。如果RPD≥3,說明預測效果良好,建立的定量分析模型可用于實際檢測;如果2.5 表1 近紅外光譜經預處理結合遺傳算法優化模型結果(灰分) 由實驗結果得出:灰分含量全譜PLS定量模型相關系數R2為70.31,RMSEC為0.077 5,RMSEP為0.091 4,RPD為1.345,RMSEP/RMSEC為1.18,模型經遺傳算法篩選特征波長后,預測準確性和穩健性均有大幅提高,結合適合的光譜預處理方法后,模型得到了更完整的優化。綜合模型的準確性與穩健性參數,SG平滑(25)點+SNV結合GA優化模型結果最為理想,相關系數R2為97.46,RMSEC為0.022 6,RMSEP為0.021 3,RPD達到了5.781 7,模型穩健性良好。 近紅外光譜經SG平滑(25)+SNV預處理后譜圖如圖3所示。 圖3 SG平滑(25)+SNV法預處理后小麥粉的近紅外光譜 SG平滑(25)+SNV結合GA優化的灰分PLS校正集定量分析模型如圖4所示。 圖4 SG平滑(25)+SNV+GA的灰分PLS校正集定量模型 SG平滑(25)+SNV結合GA優化的灰分PLS驗證集定量分析模型如圖5所示。 圖5 SG平滑(25)+SNV+GA的灰分PLS驗證集定量模型 在不同光譜預處理組合方式與波長篩選方法做了大量實驗,旨在優化小麥粉近紅外光譜定量分析模型,使模型具備良好的預測準確性與穩健性。在實驗過程中探討了11種光譜預處理組合方式對模型評價參數的影響,以及不同預處理組合結合GA篩選波長對優化模型評價參數的影響。在眾多預處理組合中,SG平滑+SNV與GA相結合后模型的預測準確性最好,且RPD結果較好,屬于可接受范圍內,表明模型穩健性良好。利用該模型可以應用于小麥粉品質快速檢測的生產活動中,減少生產工廠的人力投入,提升企業經濟效益,降低食品監管部門的工作強度。 參考文獻: [1] 劉翠玲,吳勝男,孫曉榮,等.基于近紅外光譜的面粉灰分含量快速檢測方法[J].農機化研究,2013,35(4):144-147. [2] 周 揚,戴曙光,呂 進,等.光譜預處理對近紅外光譜快速檢測黃酒酒精度的影響[J].光電工程,2011,38(4):54-58. [3] 褚小立,袁洪福,陸婉珍.近紅外分析中光譜預處理及波長選擇方法進展與應用[J].化學進展,2004,16(4):528-542. [4] 吳靜珠,劉 倩,陳 巖,等.基于近紅外與高光譜技術的小麥種子多指標檢測方法[J].傳感器與微系統,2016,35(7):42-44. [5] 馬世榜,湯修映,徐 楊,等.可見/近紅外光譜結合遺傳算法無損檢測牛肉pH值[J].農業工程學報,2012,28(18):263-268. [6] 張 欣,單 楊,李水芳.基于多元散射校正和偏最小二乘(MSC/PLS)的傅里葉變換近紅外光譜檢測蜂蜜中還原糖[J].安全與檢測,2009,25(6):109-112. [7] 彭云發,詹 映,彭海根,等.用遺傳算法提取南疆紅棗總糖的近紅外光譜特征波長[J].食品工業科技,2015,36(3):303-307. [8] 張國平.食品機械平面四桿機構的遺傳算法優化設計[J].食品與機械,2010,26(3):117-144. [9] 張金權,李 榕,溫 俊,等.基于近紅外TOF傳感器的姿勢識別研究[J].傳感器與微系統,2015,34(7):33-36. [10] 石吉勇,殷曉平,鄒小波,等.基于模擬退火波長優化的草莓堅實度近紅外光譜檢測[J].農業機械學報,2010,41(9):99-103. [11] 谷筱玉,徐可欣,汪 曣.波長選擇算法在近紅外光譜法中藥有效成分測量中的應用[J].光譜學與光譜分析,2006,26(9):1618-1620. [12] 林 萍,陳永明.利用可見近紅外光譜技術快速鑒別大米品種[J].江蘇農業科學,2014,43(12):320-322. [13] 褚小立.化學計量學方法與分子光譜分析技術[M].北京:化學工業出版社,2011:83-84. [14] Zou X B,Zhao J W.Variables selection methods in near-infrared spectroscopy[J].Analytica Chimica Acta,2010,667(1/2):14-23. [15] 徐承愛,林 偉 ,肖 紅.一種基于加權海明距離的自適應遺傳算法[J].華南師范大學學報,2015,47(6):121-127. [16] 劉 瑩,胡云龍.基于 ARM9 的近紅外山茶油無損檢測儀研究[J].傳感器與微系統,2013,32(4):72-75.



3 結 論