李睿雯,孫曉榮,劉翠玲,郭澤翰,田 密
(北京工商大學人工智能學院,食品安全大數據技術北京市重點實驗室,北京 100048)
在食品行業中,煎炸工藝應用十分普遍,由于煎炸食物具有香、酥、脆的口感,深受人們歡迎。由于油品在煎炸過程中經過長時間的持續高溫加熱,會發生一系列的化學反應,包括水解、氧化、聚合、裂解等,持續反復,生成對人體有害的有機化合物[1-2],相比甘油三酯,這些生成物的分子極性更大,被稱為極性組分。這些極性組分會嚴重影響煎炸油本身的品質[3-4],煎炸食品本身的實用口感和營養價值,國家限定標準為27%[5]。目前,測定油脂中極性組分含量最可靠的方法是柱層析法[6-8],是我國相關指標采用,但該標準方法會破壞實驗樣本,產生二次污染,耗時耗力,技術難度大,因此探究一種快速、無損的檢測方法鑒別專用煎炸油的品質具有重要意義。
雖然有許多學者對各種油在煎炸過程中的理化指標變化進行了研究,但對煎炸油的品質質量的檢測仍缺乏統一標準和系統的研究[9],對市場煎炸油品質檢測的系統研究成果也較少。針對這一問題北京市糧食科學研究院研發出商業專用煎炸油,由棉籽油、大豆油、菜籽油、棕櫚油按照10∶5∶3∶2的比例調配,研制的專用煎炸油具有良好的耐炸性,煎炸出的食品色澤以及口感良好,同時該專用煎炸油的最長煎炸時間可長達69 h。
近些年來,拉曼光譜以快速、無損、高效檢測的優點廣泛應用于食品、農業等領域,且拉曼光譜不需要對樣本進行復雜的前操作處理就可以獲取物質的大量信息,具有指紋性強的特性,可用于研究物質的結構特征以及組成成分[10-11],同樣對定量分析具有較好的效果。
在光譜技術中,神經網絡算法在很多定性分析中都有應用,但應用于定量分析研究較少,尤其是在拉曼光譜分析技術中更少。胡軍等[12]基于誤差反向傳播(error back propagation,BP)神經網絡的太赫茲時域光譜對面粉中苯甲酸定量檢測研究中,建立的預測集相關系數為0.994 5,預測均方根誤差(root mean square error of prediction,RMSEP)為0.66。譚琨等[13]針對高光譜數據的特點,設計了有效的特征提取模型,再與徑向基函數(radial basis function,RBF)算法神經網絡的輸入層連接,建立了一個新的高光譜遙感影像分類模型,證明RBF神經網絡在高光譜遙感分類中具有較好的適用性。
本實驗應用拉曼光譜技術,以不同煎炸時間下的專用煎炸油為樣本,采用DXR激光共焦顯微拉曼光譜儀采集樣本的拉曼光譜,利用卷積(savitzky-golay,S-G)平滑、標準正態變換(standard normal transformation,SNV)、多元散射校正(multiple scattering correction,MSC)、導數法對光譜數據進行預處理,結合偏最小二乘回歸(partial least squares regression,PLSR)法、BP算法和RBF算法建立煎炸油極性組分含量的定量分析模型,旨在為實現對專用煎炸油品質快速無損高效的市場監測及系統管理提供技術手段。
專用煎炸油來自北京市糧食科學研究院,分別以棉籽油、大豆油、菜籽油、棕櫚油為原料制備的煎炸油,以速凍薯條為煎炸食材,煎炸過程中每小時取樣一次,樣本極性組分含量由糧科院檢測人員GB/T 5009.202—2016《食用油中極性組分(PC)的測定》[14]方法測定,取值范圍為8.83%~27%。
采集拉曼光譜硬件設備為DXR激光共焦顯微拉曼光譜儀,配合OMNIC軟件使用。激光波長780 nm,激光能量20 eV,光柵400 lines/mm,光闌50 mm,分辨率47~87 cm-1,樣本掃描次數4 次,采集曝光時間5 s。
在掃描煎炸油樣本前,采集實驗室內空氣光譜為背景光譜,檢測光學臺內激光,待儀器預熱至激光能量趨于穩定值,取少量煎炸油樣本于凹槽內,將凹槽放置在10 倍物鏡下,調節物鏡,調焦載物臺的高度,直至油樣在顯微鏡下的成像清晰,煎炸油在10 倍物鏡下的成像如圖1所示。實驗采取面掃描的方法,每次掃描4 個點,每個樣品對應掃描出4 條拉曼光譜,取4 個點中能量最高點的光譜用作后續定量分析。

圖1 煎炸油在10 倍物鏡下的成像Fig. 1 Imaging of used frying oil for French fries under 10 × objective lens
實驗采集的83 個煎炸油樣本的拉曼光譜圖如圖2所示,拉曼光譜的波數覆蓋了80~3 300 cm-1的范圍。可以看到煎炸油的拉曼光譜在不同波數對應不同的拉曼強度,結合已有研究可以指認出部分官能團對應的特征峰,煎炸油的拉曼光譜部分特征峰的指認見表1。煎炸油在食品煎炸過程中產生復雜的極性物質[15-18],如過氧化物,其中羰基和醚鍵是這種極性物質的重要組成部分。
數據在采集和傳輸過程中會產生一些干擾,因此有必要對采集的數據進行預處理。如果采集值處于上下限之間,則作為正常數據處理,如果超出正常的分布范圍,則表明信號受到干擾,此時應將其限定在合理的范圍內。具體公式如下:

圖2 煎炸油樣本拉曼光譜圖Fig. 2 Raman spectra of used frying oil samples

表1 煎炸油的拉曼光譜部分特征峰的指認Table 1 Identification of some characteristic Raman peaks of used frying oil
由于實驗過程中測得的光譜容易受到環境影響,儀器振動、噪聲等因素會導致光譜發生漂移、色散等現象。選擇適合的光譜預處理方法能得到更好的建模效果,適當消除外界因素對光譜的影響。實驗中,專用煎炸油樣本按照訓練集與預測集為8∶2的比例進行樣本隨機劃分,67 份樣本作為建模集,16 份樣本作為預測集,利用TQ Analyst光譜分析軟件對原始光譜進行預處理,導入原始數據,建立了煎炸油中極性組分拉曼全譜PLSR法定量分析模型,選用S-G平滑、SNV、MSC、導數(包括一階導數、二階導數)5 種光譜預處理方法,組合成了7 種組合,對煎炸油樣本的光譜進行預處理。
實驗中定量模型性能采用相關系數R2和RMSEP作為評價指標,從模型的回歸擬合度和預測精確度評價模型性能。RMSEP是模型可靠性的評價指標,也是對模型預測能力可靠性的評價。R2代表了模型預測值與樣本原特征值的相關程度,其值越接近于1,則代表預測結果越準確,模型的可靠性越高,即預測值與樣本真值的差異越小。因此,可以通過評價參數的大小,選擇最優的算法,最終確定出效果最優的模型對樣本數據進行處理,以達到最好的預測效果。

式中:m為預測集樣本個數;yj為訓練集第j個樣本的真實值;為訓練集第j個樣本的預測值;為m個訓練樣本真實值的平均值。
拉曼光譜經預處理結合PLSR法建模結果見表2,預處理后,模型各參數有不同程度變化,經SNV預處理后的建模效果最佳,對消除拉曼光譜檢測過程中產生的光程變化起到了一定作用。此時RMSEP為1.18,R2為0.940 4。此時減少了表面散射以及光程變化對漫反射光譜[19-21]的影響,故采用SNV法對光譜進行預處理。

表2 拉曼光譜經預處理結合PLSR法建模結果Table 2 Comparison of PLSR models with different spectral pretreatments
BP算法是一種多層的前饋神經網絡[22-24],學習過程由信號的正向傳播與誤差的反向傳播兩個過程組成。信息從輸入層到達隱含層逐層處理,直至輸出層,每一層的神經元只會影響下一層的神經元狀態,若輸出層得不到預期輸出,則轉入反向傳播,從而根據預測誤差調整網絡權值和閾值,使得預測的結果不斷逼近期望的輸出值。實驗中,分為以下4 個步驟:
1)特征提取
對實驗中得到的數據集采用主成分分析(principal component analysis,PCA)法[25-27]進行特征提取,對3 300 個波數進行優化,得到27 個向量,此時的PCA得分為99%,則提取到的特征能充分、有效地表示原始數據的特征信息。
在BP神經網絡數據分析之前,通常需要將數據歸一化,利用歸一化后的數據進行分析。原始數據經過數據歸一化處理后,各指標處于同一數量級,適合進行綜合對比評價,以防某些數值低的特征被淹沒。
3)創建網絡
本實驗利用3 層BP神經網絡建立煎炸油極性組分含量快速檢測研究的定量分析模型。輸入神經元個數為27 個,為樣本經過PCA降維后得到的特征光譜。輸出神經元個數為1,表示被檢測樣本的極性組分的預測值。根據Kolmogorov定理[28]“對于具有一個隱層的3 層BP神經網絡,有足夠多的隱節點數,就可以實現對任意非線性函數的逼近”,并且3 層BP神經網絡結構可以提高網絡學習速度,而過于復雜的網絡結構表示過多的參數和模型精度的降低,所以選擇隱含層層數為1,神經元個數為18的BP神經網絡。實驗中設置迭代次數為7 000 次,目標誤差為10-3,學習率為10。模擬實驗中的神經網絡結構圖如圖3所示。

圖3 模擬實驗中的神經網絡結構圖Fig. 3 Schematic illustration of neural network structure in the simulation experiment
4)選擇算法
建立的BP神經網絡參數設定如下:訓練函數采用自適應學習率動量因子梯度訓練法,輸入層與隱含層之間的傳遞函數是對數S型函數logsig,隱含層與輸出層之間的傳遞函數是正切S型函數tansig。
5)訓練網絡
網絡訓練過程中,RMSEP按照式(1)計算,決定系數R2按照式(2)計算。
網絡的訓練曲線如圖4所示,可以看到RMSEP收斂速度快,僅需2 步就能達到預期結果,BP算法得到煎炸油極性組分含量預測結果,測試集樣本的預測結果與真實值對比(圖5),RMSEP為0.032 6,R2穩定在0.972。此時訓練的結果接近期望的輸出,可以認為網絡找到了輸入、輸出之間的映射關系。

圖4 網絡的訓練曲線Fig. 4 Training curve

圖5 BP算法的預測結果Fig. 5 Prediction results of error back propagation algorithm
RBF神經網絡和BP神經網絡都屬于非線性多層前向神經網絡、通用逼近模型,對于每個輸入、輸出數據對,只有少量的連接權需要調整。鑒于此,采用RBF神經網絡進行對比分析預測。訓練過程中RBF神經網絡的參數設置為均方誤差目標為10-3;神經元的最大數目為56 個;RMSEP為0.953 5,R2穩定在0.904,此時測試集樣本的預測結果與真實值對比,RBF算法的預測結果如圖6所示。

圖6 RBF算法的預測結果Fig. 6 Prediction result of radial basis function algorithm
針對兩種神經網絡算法得到的預測結果不同,為進一步對該技術手段的誤判情況進行分析,重新采集30 個新的煎炸油樣本的拉曼光譜,采用增加預測樣本數據量,對實驗數據重新進行分析統計,兩種算法建模結果對比如表3所示。

表3 兩種算法建模結果對比Table 3 Comparison of results of modeling using two algorithms
對比兩種網絡對極性組分預測結果,在增加了預測樣本數據量后,BP神經網絡的RMSEP為0.097 3,R2為0.749,RBF神經網絡的RMSEP為0.964 9,R2為0.704,BP的結果明顯優于RBF。這是由于兩種網絡的映射方式有很大區別:BP神經網絡的隱節點采用輸入模式與權向量的內積作為激活函數的自變量,而激活函數采用Sigmoidal函數[29-31]或硬限幅函數,因此BP神經網絡是對非線性映射的全局逼近[32],網絡對所有權值進行修正。而RBF神經網絡則是使用局部指數衰減的非線性函數對非線性輸入輸出映射進行局部逼近,網絡只修正一小部分權值,其隱節點采用輸入模式與中心向量的距離作為函數的自變量,并使用RBF作為激活函數。RBF關于N維空間的中心點具有徑向對稱性,中心點是在輸入樣本中選取,而且神經元的輸入離該中心點越遠,神經元的激活程度就越低。選取的中心點難以反映出系統真正的輸入輸出映射關系,使得網絡的預測結果產生較大的誤差。
通過本實驗研究結果,驗證拉曼光譜在煎炸油中極性組分含量的快速檢測有效、可行,建立了煎炸油中極性組分含量定量分析檢測模型。通過建立PLSR模型,比較多MSC、S-G平滑和求導的預處理方法,得到SNV法的處理校正效果更好。將SNV處理后的數據建立BP和RBF模型,得到BP神經網絡模型的建模效果最佳,RMSEP為0.032 6,R2為0.972。因此,BP神經網絡更適用于煎炸油中的極性組分含量檢測建模分析,具有精度高和相關度高的特點。本實驗探索的基于拉曼光譜的專用煎炸油極性組分快速檢測研究,改變了傳統耗時耗力、成本較高、易破壞樣本的化學分析檢測的方法,對極性物質檢測具有一定的借鑒意義。