傅里葉變換結合卷積神經網絡分析西藏酥油真偽

2023-09-05 04:20:48扎西窮達次仁旺姆央拉尼珍

現代食品 2023年13期

◎ 扎西窮達，次仁旺姆，央拉，尼珍

（西藏自治區食品藥品檢驗研究院，西藏自治區醫療器戒檢測中心，國家藥品監督管理局中藥（藏藥）質量控制中心重點實驗室，西藏拉薩 850000）

酥油富含脂肪酸和維生素，是我國高海拔地區居民熱量攝入的重要來源[1-2]。酥油是我國少數民族地區的傳統食物，深受藏族、蒙古族、納西族等民族的喜愛。在實際生產、食用過程中，酥油的品質往往受原料來源[3]、加工工藝[4]、儲藏時間[5]等因素的影響而發生較大變化。例如，受特殊地域氣候等的影響，藏酥油中不飽和脂肪酸的含量明顯高于其他奶制品，如二十碳五烯酸、二十二碳六烯酸。近年來，不法商人為牟取利益，常以廉價人造奶油冒充藏酥油或摻假。因此，建立一套行之有效的藏酥油真偽鑒別方法，對規范酥油市場、保護消費者權益有較為深遠的實踐意義。

20 世紀50 年代，近紅外（Near Infrared，NIR）技術開始在農業生產領域應用，并隨著現代光譜分析技術的發展逐步成熟[6]。近紅外光譜具有快速、無損、無需前處理等優勢，被廣泛應用于黃油、奶制品[7-10]、食用油[11-12]等食品的質量監控和摻假分析。然而，近紅外技術仍存在較多問題，如譜圖重疊嚴重、缺乏特征信號、解析依賴化學計量學等[7]。近紅外光譜具有高維度、高度自相關性等特點，往往會對數據模型的穩定性和準確性造成較大的影響。在常規方法實踐中，首先篩選特征波長，特征波長選擇技術主要有相關系數法（Correlation Analysis，CA）、連續投影法（Successive Projection Algorithm，SPA）、競爭性自適應重加權法（Competitive Adaptive Reweighted Sampling，CARS）。王立琦等[8]利用區間偏最小二乘法（Interval Partial Least Squares，OPLS）評估豆粕品質；李春婷[11]結合模擬退火算法（Simulated Annealing，SA）與OPLS算法對多目標進行優化，路皓翔等[10]結合最小角回歸（Least Angle Regression，LAR）和CARS 的優勢篩選特征波長。這些方法都依賴于數據集標簽，對數據反復建模，獲取特征波長。因此，數據準確性在建模過程中至關重要，往往是NIR 應用的限制性因素。

本試驗采用傅里葉變換算法將NIR 光譜從時域轉換到頻域，在頻域信中對近紅外信號進行去噪和降維等特征工程，規避NIR 本身的局限性引起的試驗模型對采樣偏差的依賴性，根據卷積神經網絡識別信號間的相關性，建立、驗證了一套用于識別西藏酥油的NIR 分析方法。

1 材料與方法

1.1 材料與試劑

試驗樣本選擇西藏境內的30 批牦牛奶酥油、30 批奶牛奶酥油、1 批羊奶酥油、1 批金鸝牌人造奶油和1 批其他品牌人造奶油，詳細信息見表1。

表1 樣品信息表

1.2 光譜采集

用PerkinElmer 公司Frontier FT-IR/NIR Spectrometer光譜儀采集所有樣品的光譜，光譜掃描范圍為12 800～4 000 cm-1，每個樣品掃描2 次，采樣間隔為2 cm-1。

1.3 模型建立

利用Python 讀取NIR 光譜儀中的數據，利用Python 的Numpy、Pandas 等工具箱進行了一階導數、傅里葉變換、閾值濾波等光譜預處理，利用Matplotlib 工具箱進行可視化操作，使用mixOmics 軟件建立偏最小二乘判別分析法（Partial Least Squares Discriminant Analysis，PLSDA）模型，五重交叉折疊驗證模型的準確性。

1.3.1 導數法

酥油是不均一、黏稠的半固體樣品，在檢測時會發生漫射、反射、折射等現象，容易發生基線漂移。導數法是處理基線漂移的標準方法，求導間隔是數據預處理的關鍵選擇。間隔過小容易造成噪音增加，導致光譜的可讀性降低；間隔過大會導致樣品信息丟失。考慮到特征工程的抗噪性和特征光譜的提取能力，本研究選擇間隔為1 的一階導數法，處理公式為

式中：g 為間隔波數，cm-1；A(i+g)為i+g波數的吸光度，L·(g·cm)-1；A(i)為i點的吸光度，L·(g·cm)-1；xi為i點的導數。

1.3.2 傅里葉變換

傅里葉變換是信號學中常見的數據處理方式，由法國學者約瑟夫·傅里葉在1807 年提出，該信號處理技術的主要思路是將信號分解成多個正弦信號，若信號滿足狄利克雷條件，則可進行傅里葉變換。經研究發現NIR 光譜滿足狄利克雷條件，可以進行傅里葉變換，公式為

式中：F(j)?為頻域傅里葉級數；?為頻率；f(t)為指時域信號；j為虛數；nΩ為角頻率；e 為自然數。

近紅外光譜記錄的是分子振動的倍頻和合頻信息。傅里葉變換作為一種特征工程技術，雖然無法拆分分子振動的頻率，將其變得更加簡潔，但是可以根據頻域信號能量差拆分出信號和噪聲。結合濾波技術，在頻域內完成去噪和降維的雙重目的。

1.3.3 卷積與卷積神經網絡

卷積是一種數據計算，計算公式見式（3）。卷積的基本原理是輸入函數f(x)，經過卷積核g(x)后，信號累加。卷積在NIR 光譜中的最常見應用是滑動平均法去除噪音。相較于PLSDA，卷積更加關注信號之間的關系，這在一定程度上消除了變量之間的自相關性。因此，相對單純的線性回歸系統而言，卷積發生過擬合的可能性進一步降低。將卷積核作為分類的依據，但卷積核難以求出，考慮到模型的擴展性，本文設計了卷積神經網絡，識別不同來源的酥油。

式中：f(x)為時域信號；g(x)為卷積核；*為卷積運算符；τ為某時刻。

卷積神經網絡是一種利用卷積思維的神經網絡[12]。相較于全連接神經網絡，卷積神經網絡的特點是采用了卷積核對短距離信號加權求和，相當于對一段信號進行了過濾和積分處理，降低了信號之間的自相關性。

1.3.4 建模方法

選用PLSDA 建模。

1.3.5 模型評判

分別用一階導數、頻譜、虛數譜建模，用接受者操作特性曲線（Receiver Operating Characteristic，ROC）評價多分類模型，ROC 曲線下面積（Area Under Curve，AUC）越接近1，分類的準確度越高。

2 結果與分析

2.1 酥油近紅外光譜特征

近紅外光譜分為3 個區域，第一區（12 800 ～8 500 cm-1）是電子轉運、高階倍頻、多種振動模式的組合；第二區（8 500 ～5 500 cm?1）是極性鍵的一階、二階伸縮振動的倍頻信息；第三區（5 500 ～4 000 cm?1）是多種模式的合頻信息[13]。本項目中5 種不同類型的酥油樣本平均光譜極為類似，在Ⅱ區和Ⅲ區（4 000 ～8 500 cm-1）信號呈現變化，但信號較弱；Ⅰ區大部分信號較強，缺少變化，如圖1 所示。在奶牛酥油的NIR 光譜分析中，大量樣品發生了光譜漂移，如圖2 所示。經過一階導數分析后，Ⅰ區大部分信號極為混雜，難以觀測出信號特征，如圖3 所示。但是為了模型的穩健性，增加了8 500 ～9 200 cm-1波段，因此選擇區間4000 ～9200 cm-1為分析對象。

圖1 不同酥油種類的平均光譜圖

圖2 奶牛酥油的原始光譜圖

圖3 酥油一階導數熱圖

2.2 傅里葉變換

本文采用離散傅里葉變換處理數據，如圖4 所示。頻譜中能量主要集中在0 ～500 Hz 的頻域內，500 ～2 000 Hz 信號較弱，在傅里葉變換后，有效信號主要集中在低頻區。將所有的檢測數據轉化到頻域，如圖5 所示，在650 Hz 附近發現某個特征光譜頻率，在分析頻譜的過程中，單獨的虛部和實部中頻譜信號更加特征，如在350 Hz、600 Hz附近存在兩條特征信號，250 Hz 存在著強度約為-1 的信號，這表明變換后增強了數據的特征。

圖4 傅里葉變換頻譜圖

圖5 不同閾值傅里葉變換熱圖

2.3 閾值濾波

為了降低模型的復雜程度和噪音對數據的感染，在頻譜中分別選擇振幅閾值為0.1、1、5 的信號去噪，結果如圖6 所示。較高閾值的信號連續性增強，但是有可能丟失部分信息，振幅為1 的閾值是相對保守的選擇。經去噪后，有效數據僅剩下不到500 維，數據量下降到了90%，表明傅里葉變換不僅去除了部分噪音，也同時完成了降維，有利于后期模型的建立與維護，提升模型的穩健性。

圖6 不同閾值濾波后逆傅里葉變換效果圖

2.4 PLSDA 評價特征工程

在特征工程的處理中，運用PLSDA 模型評價了一階導數法、頻譜法、頻譜虛數法3 種處理方法的差異，采用mixOmic 軟件包完成，建模方法用4 個主成分，5 重交叉折疊驗證，結果見表2。結果表明，在較大的數據集中，牦牛酥油和奶牛酥油的真陽性概率（True Positive Rate，TPR）均能達到1.00，一階用導數法僅在0.91 ～0.98；牦牛酥油和奶油酥油的AUC值均為1.00，一階導數法為0.98；假陽性概率在牦牛酥油和奶油酥油中均小于0.10，在一階導數法中牦牛酥油假陽性概率（False Positive Rate，FPR）值高達0.16，表明在較大的數據集中，傅里葉變換比一階導數法好。小數據集的TPR 值均較低，如人造奶油、羊奶酥油、摻假酥油，但可以看出頻譜法略微優于導數法，如羊奶酥油在虛數法中有0.83 的真陽性率，頻譜法在摻假酥油有0.50 的真陽性率；虛數法中人造酥油的AUC 值為0.97，遠遠大于導數法的0.79，表明傅里葉變換對小數據集也能提升模型的可靠性。從精確度（Precision，PREC）角度，傅里葉變換提升了分類的準確度，牦牛酥油的PREC 從0.85 上升至0.94，奶牛酥油的PREC 從0.96 上升至0.98 和0.99，表明傅里葉變換和去噪進一步提升了近紅外光譜的特征性，雖然傅里葉變換無法提取出分子振動的頻率，但是依然有利于模型的建立和模型穩健性的提升。

表2 不同特征工程下的評價數據表

2.5 卷積神經網絡

數據的偏向性導致模型的擴展性較差，本文僅采用了頻譜數據建立一維卷積神經網絡，結果見表3。在建模的過程中，為避免小數據集全部進入訓練集中，訓練集、驗證集、測試集的比例為5 ∶4 ∶1。對輸入數據進行歸一化處理，通過一個卷積層和池化層提取特征信息，最后通過全連接層輸出分類信息。分類采用one-hot 編碼。通過100 次的訓練后，模型在訓練集的準確度（Accuracy，ACC）達100%，所有數據被完美分類，AUC 值均等于1；模型在驗證集準確度均大于97%，FPR 值低于5%，但在摻假酥油和人造奶油中AUC 值為0.5 分析假陰性（False Negative，FN）值可知，在測試集中僅分到一個正樣本，可能是樣本數量不足導致。測試集牦牛酥油FPR值高達33%，AUC值為0.82；羊奶酥油未能分配得到正樣本，也未出現假陽性概率，因此其PREC 無法計算，可能是由于除數為0。

表3 卷積神經網絡數據集表

3 結論

傅里葉變換是一個正向的特征工程處理技術。在NIR 光譜分析過程中，傅里葉變換不僅能夠有效去除NIR光譜的噪音，也能在保持原有信息的基礎上完成降維，識別出NIR 光譜的特征頻率。傅里葉變換結合卷積神經網絡使用能夠快速分析大量數據，但是卷積神經網絡對小數據集效果較差，需重點注意小數據集的數據分配。