殷 勇,趙玉珍,于慧春
(河南科技大學食品與生物工程學院,洛陽 471023)
食醋作為人們日常生活中不可或缺的調味品,具有重要的營養與藥理價值[1-2],如促進消化與吸收、抗病毒、降血糖等等。食醋的產品質量直接影響人們的健康,因此食醋的識別檢測是非常重要的。目前,食醋檢測主要采用感官評定[3]、微生物檢測[4-5]和物理化學指數評估[6-7]等傳統方法,但這些方法存在主觀性強、操作繁瑣、耗時等缺點。電子鼻作為一種非常有潛力的鑒別工具,在食醋鑒別分析中已有諸多研究報道[8-11]。由于食醋屬于復雜樣品,且對質量等級相近的多類樣品進行鑒別時,鑒別難度大幅提升。同時,傳感器之間的交叉響應所產生的冗余信息,對鑒別結果也極為不利。因此,采用電子鼻對食醋進行檢測時,可利用特征提取與選擇[12-14]優化表征特征,實現食醋樣品的有效鑒別。據文獻[15]報道,多特征表征模式可有效表征電子鼻信號的響應信息,提高電子鼻的鑒別能力。此外,面對所提取特征的多樣性,進行電子鼻的特征優化,選取能夠有效表征電子鼻響應信號的特征也是十分必要的。目前,關于電子鼻特征優化方法的研究不斷涌現,如相關性分析[16-17]、聚類分析[18-19]、多重共線性分析[20]、Wilks Λ統計量[9,21]等等,但這些方法的適用性皆因不同的鑒別目標而存在應用效能上的差異。
本文在提取了 6種食醋電子鼻原始信息的多個特征值基礎上,提出一種采取載荷分析進行電子鼻傳感器陣列優選,并運用主成分分析(principal component analysis,PCA)融合Wilks Λ統計量進行多特征表征的選擇策略。即采用載荷分析優選傳感器,運用PCA消除傳感器特征數據間的相關性,以更好、更準確地構造Wilks Λ統計量,并借助于生成主成分變量的線性組合系數,探索電子鼻數據的最佳表征特征變量集的構成。最后,為檢驗該特征選擇策略的有效性,采用 Fisher判別分析(Fisher discriminant analysis,FDA)和 BP神經網絡(back propagation neural network,BPNN)對特征選擇前后的數據進行鑒別分析,并通過巴氏距離說明FDA和BPNN結果的可信性。
試驗材料為6種食醋,含3個品牌,每個品牌都包含質量等級相近但不同的2種樣品。它們分別為建洛袋裝、建洛桶裝、來福瓶裝、來福桶裝、紫林瓶裝、紫林桶裝6種食醋,并且分別標記為JLDZ、JLTZ、LFPZ、LFTZ、ZLPZ、ZLTZ。各樣品的基本信息見表1。為了使統計鑒別結果更可靠,每種樣品準備54個平行試驗樣本,總計6×54=324個樣本。每種樣品隨機抽取36個樣本(占每種樣本總數的2/3)構成訓練集,訓練集樣本數共有6×36=216個,剩余的18個樣本(占每種樣本總數的1/3)構成測試集,測試集樣本數共有6×18=108個。為了使研究結果具有穩健性與可靠性,共隨機生成5組平行的訓練集和對應的測試集進行比較分析。

表 1 食醋樣品的基本信息Table 1 Basic information of vinegar samples
試驗所使用的電子鼻系統是實驗室自行研制的。該系統主要由氣敏傳感器陣列、測量箱、數據采集裝置及計算機等部分組成。氣敏傳感器陣列作為電子鼻系統的關鍵部分,主要由14個TGS型金屬氧化物傳感器組成,即 TGS813,TGS800,TGS821,TGS822,TGS824,TGS816,TGS812,TGS825,TGS826,TGS831,TGS832,TGS830,TGS880和 TGS842,它們所檢測的典型氣體詳見文獻[22]。在電子鼻測試過程中,各氣敏傳感器的加熱電壓為(5.0±0.05)V,回路的測量電壓是(10.0±0.01)V。另外,為補償測量環境對測量結果所造成的影響,該裝置還配備有溫度傳感器和濕度傳感器。溫、濕度傳感器為集成部件(奧松電子),型號為DHT11,其測量電壓為(10±0.01)V,溫度傳感器的測量范圍是 0~50℃,濕度傳感器的測量范圍是20%~90%RH。
電子鼻在開始工作前,首先需要進行大約30 min的預熱,以期消除儀器本身不穩定所造成的影響。每個樣本測試前進行空載測試,產生空載響應值(測量環境的響應值)作為傳感器復原時的基準值;然后進行樣本的測試;最后進行傳感器復原,以便于下1個樣本的測試。圖1給出了傳感器TGS800對1個建洛袋裝樣本的響應曲線圖。根據圖1可知,傳感器在1 500 s后處于相對穩定響應狀態。另外,由預試驗知,傳感器恢復960 s時可至基準狀態。因此,電子鼻工作參數設置為:數據采集間隔時間1 s,空采時間20 s,樣本采樣時間1 500 s,復原時間960 s。

圖1 傳感器TGS800對1個建洛袋裝樣本的響應曲線Figure 1 Curve of sensor TGS800 response to one sample of bagged Jianluo vinegar
1.3.1 數據預處理
為減少環境溫、濕度以及信號噪聲的影響,首先對電子鼻數據進行去基準處理[23],即每個樣本采集的1 500個響應值減去其空載響應平均值,以部分補償環境對氣敏傳感器的影響;然后,采用Savitzky-Golay五點二次多項式[24]對去基準處理后的數據進行平滑處理,以期消除噪聲信號的影響。文中所有的數據處理工作在MATLAB R2014b軟件平臺實現。
1.3.2 特征提取
在實際應用中,積分值、方差、平均微分值等作為常見的特征參量[13]被應用于電子鼻信號表征領域,且均取得不錯的應用效果。同時,不僅樣本的響應曲線對鑒別結果有一定的影響,傳感器的復原曲線也有一定的作用[25]。因此,在綜合分析了電子鼻信號特征參量的基礎上,本文擬采用樣本響應曲線的積分值(integral value,INV)、方差(variance value,VARV)、相對穩態平均值(relation steady-state response average value,RSAV)、平均微分值(average differential value,ADV)、小波能量值(wavelet energy value,WEV)以及傳感器復原曲線的平均微分值(average differential value of recuperation curve,ADVRC)6種特征作為食醋電子鼻信號的特征參量。由于 6種特征參量的量綱不同,各特征參量的提取結果均進行了數據歸一化處理。
圖2給出了每個傳感器對1個建洛袋裝樣本響應信號的特征柱狀圖。由圖 2可知,對于同一個傳感器,不同的特征參量表現了不同的響應信息,揭示了氣敏傳感器的廣譜響應特性;而同一特征參量對不同的傳感器也存在一定程度的差異,體現了傳感器的選擇特性。因此,這6個特征參量可有效表征6種食醋的電子鼻信號。由于樣品在測量過程中,溫、濕度響應信息是變化的,因此選取能夠反映其總體變化程度的積分值作為溫、濕度響應信息的表征。對于單個特征表征時,電子鼻信號由14個氣敏傳感器對應的14個特征、1個溫度傳感器特征和1個濕度傳感器特征表征。當由6個特征表征時,電子鼻信號由14×6個特征、1個溫度傳感器特征和1個濕度傳感器特征表征。因此,初始特征矩陣為 324個樣本×86個特征。

圖2 各傳感器對1個建洛袋裝樣本的6個特征的柱狀圖Figure 2 Bar results of six kinds of features for each gas sensor to one bagged Jianluo vinegar
1.3.3 特征表征策略
由于不同的特征對電子鼻鑒別性能有著不同的貢獻度,所以進行特征參量的篩選,以選取對樣本判別最為有效的特征是十分必要的。
1)載荷分析。對傳感器陣列進行優化,不僅可減少冗余信息,還可減少數據量以降低計算的工作量。根據文獻[12,26-27],對6種食醋共計324個樣本第1 400 s時刻的電子鼻響應值進行載荷分析,分析結果如圖3所示,橫軸是第1主成分,縱軸是第2主成分。綜合各個傳感器所處的橫縱坐標位置來看,所有傳感器離原點都較遠,表明這些傳感器對樣本檢測都有貢獻。傳感器TGS822、TGS800、TGS813和TGS816的因子載荷分布較接近,表明這些傳感器對食醋的檢測信息比較相近,因此可以考慮去掉響應信號相似的部分傳感器,以減少信息冗余。經計算分析,這 4個傳感器的距原點歐氏距離依次為0.276 8、0.277 8、0.285 8和0.292 2,因此在這4個傳感器中,選擇剔除相對距原點較近的傳感器 TGS822和TGS800。所以,經載荷分析后選擇了12個傳感器進行后續的數據分析。
2)相關性分析。相關性分析[20]是利用相關系數值對傳感器間的相關程度進行評估。相關系數值的取值范圍為[-1,1],相關系數絕對值越大,表明傳感器響應信號之間的相關程度越高,也意味著對應的特征參量無關性不強。由于積分值反映了傳感器對樣本的總體響應[28],因此,對載荷分析優選出的12個氣敏傳感器之間用積分特征值進行相關分析,發現相關系數大于0.9的多達26對傳感器,表明從這些傳感器信號中提取的特征參量無關性不顯著。在多元判別分析中,Wilks Λ統計量作為一種有效的特征變量選擇方法,要求所提取的特征變量之間應該是獨立的[29],故由電子鼻數據提取的特征參量不可直接用于構建Wilks Λ統計量。因此,需用數據變換方法來消除特征變量間的相關性,為選取能有效提高電子鼻鑒別能力的特征變量奠定基礎。

圖3 6種食醋的載荷分析圖Figure 3 Loadings analysis plot for six kinds of vinegar samples
3)主成分變量選擇。PCA作為一種重要的數據變換方法,它通過變換將原始數據空間投影到一個正交空間,將原始變量轉換為獨立的新變量[30]。因此,采用PCA處理電子鼻特征數據以消除特征變量之間的相關性,在獲得主成分變量的基礎上,構造Wilks Λ統計量并計算每個主成分變量的Wilks Λ值。Wilks Λ統計量[31]可以對多類樣品中各變量的判別能力進行評估,因此在計算各主成分變量的Wilks Λ值后,并按照從小到大對Wilks Λ值進行排序,選出有利于分類的主成分變量。Wilks Λ值的數學表達見式(1)。

式中T為食醋電子鼻信號原始特征矩陣中每一列數值的總離差,D為原始特征矩陣中每一列數值的組內離差。
當T比較大,而D又很小時,Wilks Λ值則越小,各個類別間的差異性就越顯著,越有利于鑒別。因此,適當地移除對應于較大 Wilks Λ值的主成分變量可能會進一步提高樣品的鑒別效果。當移除不同數目的主成分變量時,食醋樣品的鑒別結果也隨之變化。圖 4給出了基于不同數目的主成分變量對應的食醋樣品測試集的 FDA結果。

圖4 移除不同的主成分變量數對應的鑒別正確率Figure 4 Relationship between correct discrimination rates and removed principal component variables
從圖4可以看出,隨著移除主成分變量數目的增加,鑒別正確率先上升后急劇下降;當剔除10個主成分變量時,鑒別正確率達到最高值(86.11%),此時余下的 76個主成分變量即為鑒別能力最優的主成分變量集。
4)原始特征變量選擇。在選擇了鑒別能力最優的主成分變量后,利用選擇的主成分變量選取原始特征變量是特征選擇策略中的另一項重要內容。以主成分變量選擇的76個主成分的每一個原始特征變量為對象,計算所選擇的主成分變量對應于每一個原始特征變量的線性組合系數的絕對值之和,其計算公式見式(2)。

式中 P為一個原始特征變量對應生成主成分的線性組合系數的絕對值之和,t為被選擇主成分的個數,Si為第i個被選擇主成分對應的線性組合系數值。
當對應于某些原始特征變量的線性組合系數的絕對值之和大于某個指定值時,就形成了對應的原始特征變量集,指定值不同,原始特征變量集也隨之不同,如表2所示。由于每個主成分變量是所有原始特征變量的線性組合,而對于每一個原始特征變量,線性組合系數的絕對值之和越大,說明該原始特征變量對生成的主成分變量貢獻率越大,也越有利于食醋樣品的鑒別。研究發現,線性系數絕對值之和較大的原始特征變量是少數的。但是,特征變量數目較少時,其所能表征的信息也較少,使鑒別性能下降。因此,尋找合適的原始特征變量集,以使鑒別性能達到最佳。

表2 線性組合系數的絕對值之和與原始特征變量數目的對應關系Table 2 Relationship between sum of absolute value of linear combination coefficients and number of original feature variables
圖5給出了不同數量的原始特征變量集對應的測試集鑒別正確率。由圖5可知,隨著原始特征變量數目的變化,鑒別結果也發生了明顯變化;當原始特征變量數目為48(對應的線性組合系數的絕對值之和大于5.4)時,鑒別正確率最高(92.59%)。因此選擇48 個原始特征變量來表征食醋電子鼻信號。基于最佳變量集的不同傳感器信號的特征表征結果如表3所示。根據表3可知,特征選擇后每個傳感器的表征特征發生了很大的變化,只有傳感器TGS821和TGS830用6 個特征參量來表征樣品,且僅有小波能量值這一特征適用于12 個氣敏傳感器。這說明在食醋鑒別時,特征參量的選擇是非常重要的,選擇合適的特征表征參量將有利于提高電子鼻的鑒別性能。

圖5 不同數量的原始特征變量集對應的鑒別正確率Figure 5 Relationship between correct discrimination rate and number of original feature variables

表3 特征選擇后各傳感器的表征參量Table 3 Feature parameters of each sensor after feature selection strategy
為了驗證特征選擇策略的有效性和選擇的特征表征參量的合理性,分別采用FDA、BPNN以及巴氏距離對6種食醋樣品進行分析。另外,為了更好地說明研究結果的可靠性和魯棒性,用隨機生成的 5組訓練集及其對應的測試集進行比較分析。
采用選擇的48個原始特征參量來表征食醋樣品的電子鼻信號,并進行FDA鑒別分析,發現5組訓練集的FDA鑒別正確率均達93%以上,5組測試集的FDA鑒別正確率也在 90%以上。以第一組樣本訓練集及對應的測試集為例,FDA鑒別結果如圖6所示。從圖6可以看出,6種食醋樣品基本上可以鑒別開來,充分表明所提出的特征選擇策略是可行的。
為了進一步驗證特征選擇策略的有效性和可行性,采用BPNN對6種食醋樣品進行鑒別分析。其BPNN的各參數為:迭代次數1 000,訓練目標0.000 01,學習效率0.01。當訓練函數為trainscg函數,隱層神經元函數為logsig函數,輸出層神經元函數為tansig函數,隱層神經元的個數為23時,訓練結果較好。表4給出了BPNN的鑒別結果。從表 4中可以看出,食醋樣品的訓練集鑒別正確率均在98%以上,測試集鑒別正確率可達93%以上,這充分說明特征選擇策略對食醋樣品的鑒別是非常有效和可靠的。

圖6 基于特征選擇策略的FDA結果Figure 6 FDA results based on feature selection strategy

表4 BPNN的鑒別結果Table 4 Discrimination results of BPNN
巴氏距離[32]作為類別可分性的量度指標,在 2類模式中,巴氏距離的數學表達見式(3)。

式中,Bij為類別i與類別 j之間的巴氏距離值,u、σ分別為均值和標準差。
在2類模式中,巴氏距離值越大,類別可分性越好。各食醋樣品間的巴氏距離值如圖7所示,其中,數字1~6分別表示JLDZ、JLTZ、LFPZ、LFTZ、ZLPZ和ZLTZ樣品,如B12表示JLDZ和JLTZ之間的巴氏距離值。從圖7可以看出,JLTZ和LFPZ,JLTZ和LFTZ,LFPZ和LFTZ,LFTZ和ZLTZ,ZLPZ和ZLTZ之間的巴氏距離值小于其他類別間,說明這些類別間的食醋樣品較難區分;此外,以第一組樣本測試集為例,FDA和BPNN樣本測試集的類別錯分情況如表5所示,可以看出,類別錯分情況與巴氏距離分析結果相一致。上述判斷解釋了FDA和BPNN的鑒別正確率未達到100%的原因;同時也間接說明了特征選擇策略的合理性。

圖7 各食醋樣品之間的巴氏距離值Figure 7 Value of B-distance between vinegar samples type combination

表5 樣本測試集的類別錯分情況Table 5 Misclassification results of test set for vinegar samples
針對6種食醋樣品的電子鼻檢測,在提取6種特征參量構成原始特征矩陣的基礎上,運用載荷分析、主成分分析以及 Wilks Λ統計量提出了一種多特征變量的選擇策略。運用這一策略,最終選取了48個特征參量組成的特征矩陣來表征食醋電子鼻信號。同時,借助于 FDA和BPNN鑒別方法,對5組平行的訓練集和對應的測試集進行鑒別分析,2種方法測試集的鑒別正確率可分別達到 90%和 93%以上。另外,采用巴氏距離進一步闡述 6種食醋樣品的可分離性,更好地解析了FDA和BPNN鑒別結果的可信性。研究結果充分證明了所提出的特征選擇策略是有效的,并且我們認為該特征選擇策略對其他復雜樣品的電子鼻鑒別分析也具有參考價值。