◎ 扎西窮達,次仁旺姆,央拉,尼珍
(西藏自治區食品藥品檢驗研究院,西藏自治區醫療器戒檢測中心,國家藥品監督管理局中藥(藏藥)質量控制中心重點實驗室,西藏 拉薩 850000)
酥油富含脂肪酸和維生素,是我國高海拔地區居民熱量攝入的重要來源[1-2]。酥油是我國少數民族地區的傳統食物,深受藏族、蒙古族、納西族等民族的喜愛。在實際生產、食用過程中,酥油的品質往往受原料來源[3]、加工工藝[4]、儲藏時間[5]等因素的影響而發生較大變化。例如,受特殊地域氣候等的影響,藏酥油中不飽和脂肪酸的含量明顯高于其他奶制品,如二十碳五烯酸、二十二碳六烯酸。近年來,不法商人為牟取利益,常以廉價人造奶油冒充藏酥油或摻假。因此,建立一套行之有效的藏酥油真偽鑒別方法,對規范酥油市場、保護消費者權益有較為深遠的實踐意義。
20 世紀50 年代,近紅外(Near Infrared,NIR)技術開始在農業生產領域應用,并隨著現代光譜分析技術的發展逐步成熟[6]。近紅外光譜具有快速、無損、無需前處理等優勢,被廣泛應用于黃油、奶制品[7-10]、食用油[11-12]等食品的質量監控和摻假分析。然而,近紅外技術仍存在較多問題,如譜圖重疊嚴重、缺乏特征信號、解析依賴化學計量學等[7]。近紅外光譜具有高維度、高度自相關性等特點,往往會對數據模型的穩定性和準確性造成較大的影響。在常規方法實踐中,首先篩選特征波長,特征波長選擇技術主要有相關系數法(Correlation Analysis,CA)、連續投影法(Successive Projection Algorithm,SPA)、競爭性自適應重加權法(Competitive Adaptive Reweighted Sampling,CARS)。王立琦等[8]利用區間偏最小二乘法(Interval Partial Least Squares,OPLS)評估豆粕品質;李春婷[11]結合模擬退火算法(Simulated Annealing,SA)與OPLS算法對多目標進行優化,路皓翔等[10]結合最小角回歸(Least Angle Regression,LAR)和CARS 的優勢篩選特征波長。這些方法都依賴于數據集標簽,對數據反復建模,獲取特征波長。因此,數據準確性在建模過程中至關重要,往往是NIR 應用的限制性因素。
本試驗采用傅里葉變換算法將NIR 光譜從時域轉換到頻域,在頻域信中對近紅外信號進行去噪和降維等特征工程,規避NIR 本身的局限性引起的試驗模型對采樣偏差的依賴性,根據卷積神經網絡識別信號間的相關性,建立、驗證了一套用于識別西藏酥油的NIR 分析方法。
試驗樣本選擇西藏境內的30 批牦牛奶酥油、30 批奶牛奶酥油、1 批羊奶酥油、1 批金鸝牌人造奶油和1 批其他品牌人造奶油,詳細信息見表1。

表1 樣品信息表
用PerkinElmer 公司Frontier FT-IR/NIR Spectrometer光譜儀采集所有樣品的光譜,光譜掃描范圍為12 800~4 000 cm-1,每個樣品掃描2 次,采樣間隔為2 cm-1。
利用Python 讀取NIR 光譜儀中的數據,利用Python 的Numpy、Pandas 等工具箱進行了一階導數、傅里葉變換、閾值濾波等光譜預處理,利用Matplotlib 工具箱進行可視化操作,使用mixOmics 軟件建立偏最小二乘判別分析法(Partial Least Squares Discriminant Analysis,PLSDA)模型,五重交叉折疊驗證模型的準確性。
1.3.1 導數法
酥油是不均一、黏稠的半固體樣品,在檢測時會發生漫射、反射、折射等現象,容易發生基線漂移。導數法是處理基線漂移的標準方法,求導間隔是數據預處理的關鍵選擇。間隔過小容易造成噪音增加,導致光譜的可讀性降低;間隔過大會導致樣品信息丟失。考慮到特征工程的抗噪性和特征光譜的提取能力,本研究選擇間隔為1 的一階導數法,處理公式為
式中:g 為間隔波數,cm-1;A(i+g)為i+g波數的吸光度,L·(g·cm)-1;A(i)為i點的吸光度,L·(g·cm)-1;xi為i點的導數。
1.3.2 傅里葉變換
傅里葉變換是信號學中常見的數據處理方式,由法國學者約瑟夫·傅里葉在1807 年提出,該信號處理技術的主要思路是將信號分解成多個正弦信號,若信號滿足狄利克雷條件,則可進行傅里葉變換。經研究發現NIR 光譜滿足狄利克雷條件,可以進行傅里葉變換,公式為
式中:F(j)?為頻域傅里葉級數;?為頻率;f(t)為指時域信號;j為虛數;nΩ為角頻率;e 為自然數。
近紅外光譜記錄的是分子振動的倍頻和合頻信息。傅里葉變換作為一種特征工程技術,雖然無法拆分分子振動的頻率,將其變得更加簡潔,但是可以根據頻域信號能量差拆分出信號和噪聲。結合濾波技術,在頻域內完成去噪和降維的雙重目的。
1.3.3 卷積與卷積神經網絡
卷積是一種數據計算,計算公式見式(3)。卷積的基本原理是輸入函數f(x),經過卷積核g(x)后,信號累加。卷積在NIR 光譜中的最常見應用是滑動平均法去除噪音。相較于PLSDA,卷積更加關注信號之間的關系,這在一定程度上消除了變量之間的自相關性。因此,相對單純的線性回歸系統而言,卷積發生過擬合的可能性進一步降低。將卷積核作為分類的依據,但卷積核難以求出,考慮到模型的擴展性,本文設計了卷積神經網絡,識別不同來源的酥油。
式中:f(x)為時域信號;g(x)為卷積核;*為卷積運算符;τ為某時刻。
卷積神經網絡是一種利用卷積思維的神經網絡[12]。相較于全連接神經網絡,卷積神經網絡的特點是采用了卷積核對短距離信號加權求和,相當于對一段信號進行了過濾和積分處理,降低了信號之間的自相關性。
1.3.4 建模方法
選用PLSDA 建模。
1.3.5 模型評判
分別用一階導數、頻譜、虛數譜建模,用接受者操作特性曲線(Receiver Operating Characteristic,ROC)評價多分類模型,ROC 曲線下面積(Area Under Curve,AUC)越接近1,分類的準確度越高。
近紅外光譜分為3 個區域,第一區(12 800 ~8 500 cm-1)是電子轉運、高階倍頻、多種振動模式的組合;第二區(8 500 ~5 500 cm?1)是極性鍵的一階、二階伸縮振動的倍頻信息;第三區(5 500 ~4 000 cm?1)是多種模式的合頻信息[13]。本項目中5 種不同類型的酥油樣本平均光譜極為類似,在Ⅱ區和Ⅲ區(4 000 ~8 500 cm-1)信號呈現變化,但信號較弱;Ⅰ區大部分信號較強,缺少變化,如圖1 所示。在奶牛酥油的NIR 光譜分析中,大量樣品發生了光譜漂移,如圖2 所示。經過一階導數分析后,Ⅰ區大部分信號極為混雜,難以觀測出信號特征,如圖3 所示。但是為了模型的穩健性,增加了8 500 ~9 200 cm-1波段,因此選擇區間4000 ~9200 cm-1為分析對象。

圖1 不同酥油種類的平均光譜圖

圖2 奶牛酥油的原始光譜圖

圖3 酥油一階導數熱圖
本文采用離散傅里葉變換處理數據,如圖4 所示。頻譜中能量主要集中在0 ~500 Hz 的頻域內,500 ~2 000 Hz 信號較弱,在傅里葉變換后,有效信號主要集中在低頻區。將所有的檢測數據轉化到頻域,如圖5 所示,在650 Hz 附近發現某個特征光譜頻率,在分析頻譜的過程中,單獨的虛部和實部中頻譜信號更加特征,如在350 Hz、600 Hz附近存在兩條特征信號,250 Hz 存在著強度約為-1 的信號,這表明變換后增強了數據的特征。

圖4 傅里葉變換頻譜圖

圖5 不同閾值傅里葉變換熱圖
為了降低模型的復雜程度和噪音對數據的感染,在頻譜中分別選擇振幅閾值為0.1、1、5 的信號去噪,結果如圖6 所示。較高閾值的信號連續性增強,但是有可能丟失部分信息,振幅為1 的閾值是相對保守的選擇。經去噪后,有效數據僅剩下不到500 維,數據量下降到了90%,表明傅里葉變換不僅去除了部分噪音,也同時完成了降維,有利于后期模型的建立與維護,提升模型的穩健性。

圖6 不同閾值濾波后逆傅里葉變換效果圖
在特征工程的處理中,運用PLSDA 模型評價了一階導數法、頻譜法、頻譜虛數法3 種處理方法的差異,采用mixOmic 軟件包完成,建模方法用4 個主成分,5 重交叉折疊驗證,結果見表2。結果表明,在較大的數據集中,牦牛酥油和奶牛酥油的真陽性概率(True Positive Rate,TPR)均能達到1.00,一階用導數法僅在0.91 ~0.98;牦牛酥油和奶油酥油的AUC值均為1.00,一階導數法為0.98;假陽性概率在牦牛酥油和奶油酥油中均小于0.10,在一階導數法中牦牛酥油假陽性概率(False Positive Rate,FPR)值高達0.16,表明在較大的數據集中,傅里葉變換比一階導數法好。小數據集的TPR 值均較低,如人造奶油、羊奶酥油、摻假酥油,但可以看出頻譜法略微優于導數法,如羊奶酥油在虛數法中有0.83 的真陽性率,頻譜法在摻假酥油有0.50 的真陽性率;虛數法中人造酥油的AUC 值為0.97,遠遠大于導數法的0.79,表明傅里葉變換對小數據集也能提升模型的可靠性。從精確度(Precision,PREC)角度,傅里葉變換提升了分類的準確度,牦牛酥油的PREC 從0.85 上升至0.94,奶牛酥油的PREC 從0.96 上升至0.98 和0.99,表明傅里葉變換和去噪進一步提升了近紅外光譜的特征性,雖然傅里葉變換無法提取出分子振動的頻率,但是依然有利于模型的建立和模型穩健性的提升。

表2 不同特征工程下的評價數據表
數據的偏向性導致模型的擴展性較差,本文僅采用了頻譜數據建立一維卷積神經網絡,結果見表3。在建模的過程中,為避免小數據集全部進入訓練集中,訓練集、驗證集、測試集的比例為5 ∶4 ∶1。對輸入數據進行歸一化處理,通過一個卷積層和池化層提取特征信息,最后通過全連接層輸出分類信息。分類采用one-hot 編碼。通過100 次的訓練后,模型在訓練集的準確度(Accuracy,ACC)達100%,所有數據被完美分類,AUC 值均等于1;模型在驗證集準確度均大于97%,FPR 值低于5%,但在摻假酥油和人造奶油中AUC 值為0.5 分析假陰性(False Negative,FN)值可知,在測試集中僅分到一個正樣本,可能是樣本數量不足導致。測試集牦牛酥油FPR值高達33%,AUC值為0.82;羊奶酥油未能分配得到正樣本,也未出現假陽性概率,因此其PREC 無法計算,可能是由于除數為0。

表3 卷積神經網絡數據集表
傅里葉變換是一個正向的特征工程處理技術。在NIR 光譜分析過程中,傅里葉變換不僅能夠有效去除NIR光譜的噪音,也能在保持原有信息的基礎上完成降維,識別出NIR 光譜的特征頻率。傅里葉變換結合卷積神經網絡使用能夠快速分析大量數據,但是卷積神經網絡對小數據集效果較差,需重點注意小數據集的數據分配。