武斌,王大智,嵇港,黃大鵬,武小紅,陳開兵,賈紅雯
1(滁州職業技術學院 信息工程系,安徽 滁州,239000)2(江蘇大學 京江學院, 江蘇 鎮江, 212013)3(江蘇大學 電氣信息工程學院, 江蘇 鎮江, 212013)
食醋是人們日常飲食中常用的酸性調味品。由于食醋釀造的地理位置、氣候和水源環境、原材料以及釀造工藝流程的各有千秋,因此釀造出來的食醋風味不同[1]。市場上有多種品牌的食用醋,醋的質量良莠不齊,還存在以次充好的現象,而普通消費者憑主觀判斷選擇食醋難以確定食醋品質。
電子鼻技術包含了傳感器,模式識別,信號處理等多個學科的技術。隨著物聯網和人工智能的發展,電子鼻技術將成為新的研究熱點[2]。電子鼻利用傳感器陣列對氣體反應靈敏來檢測混合氣體,被廣泛用來分析各種有機揮發性有機化合物的氣體成分[3-5]。由于電子鼻具有無損檢測,速度快,智能化,靈敏度高等優點,在食品及食品安全行業領域得到應用[6]。目前,電子鼻技術在有毒氣體檢測[7-9]、中藥檢測[10-13]和食品安全檢測[14-18]上都有應用。特別在食品檢測上,已經成為研究熱點。例如電子鼻已經成功應用于對碳酸飲料[14],鱈魚[15],豬肉冷凍儲藏期[16-17],不同產地名優紅茶和綠茶[18]等的檢測。WU等使用自制電子鼻設備,提出模糊鑒別主成分方法,快速準確判別不同品牌的白酒[19]。成劍峰等使用PEN3電子鼻判斷食醋是否變質,使用主成分分析(principal component analysis,PCA)和線性判別分析(linear discriminant analysis,LDA)進行對比分析,獲得很好的效果[20]。黎新榮使用PEN3電子鼻對不同貯藏時間沃柑的氣味進行判別,分別采用PCA和LDA對氣味進行特征值提取,最后比較發現使用LDA具有更好的準確率[21]。食醋的香氣成分多達65種,其中酸類,酯類和酮類共占79.15%,乙酸乙酯,苯乙醇,苯乙醛,3-羥基2-丁酮,乙醛-3-甲基1-丁醋,2-甲基丁酸,2, 3-丁二酮,二氫-5-戊基-2(3H)呋喃酮共8種特征香氣[22]是區分食醋的關鍵物質。不同品種的食醋其8種特征香氣存在差異,這些差異有利于食醋品種的分類。
綜上所述,電子鼻技術可實現對食醋的分類。目前,電子鼻技術的應用存在兩個問題,第一,大部分采用的電子鼻都不是自制的,使用的德國的PEN3比較多,價格昂貴,不利于市場推廣使用,操作起來也很復雜;第二,分類方法仍然有待進一步研究和優化。本研究設計一種用于食醋檢測的電子鼻系統,用主成分分析(PCA)+線性判別分析(LDA)和正交線性判別分析(orthogonal linear discriminant analysis,OLDA)[23]來處理電子鼻信號而實現食醋品種的快速無損檢測。
實驗所用食醋品種共有5種,分別是鎮江香醋、恒順香醋、鎮江陳醋、山西陳醋和保寧醋。5種食醋的詳細信息見表1。

表1 食醋的詳細信息
實驗所用的食醋電子鼻系統主要包括氣體傳感器陣列、數據采集卡、PC機、氣室、電源模塊和樣品瓶等組成。如圖1所示。

圖1 食醋電子鼻系統
采用TGS813、TGS822、TGS822TF、TGS2620、TGS2610、TGS2611、TGS2602、TGS2600、MQ135、MQ3十個半導體氣體傳感器。傳感器的基本信息見表2。本文的自制電子鼻針對食醋的特征香氣選取電子鼻傳感器,用于食醋品種分類。電子鼻傳感器對所測樣品的氣味類別和氣味濃度敏感,工作環境溫度在20 ℃和濕度在35%~70%。

表2 傳感器的基本信息
1.2.1 環境溫度與濕度
實驗采用了靜態測試法,在室溫約20 ℃和濕度40%左右的環境下進行采樣。
1.2.2 電子鼻系統
首先打開樣品瓶蓋,將電子鼻各部分器件連接起來,電源模塊接傳感器陣列,傳感器陣列信號輸出端接數據采集卡的輸入端,數據采集卡的輸出端通過USB線連接到PC機。將電子鼻通電10 min進行預熱。
1.2.3 食醋樣本
量取10 mL樣品放入樣品瓶中,將樣品瓶的氣管與氣室連接,伸入氣室的氣管位置正好位于傳感器陣列中心,目的是對各個傳感器響應時間保持大體一致,然后連接好數據采集卡與傳感器陣列和PC,并計時。讓傳感器靜置60 min,待氣體揮發完全[23]。
1.2.4 電子鼻信號采集
編寫控制PC端Labview程序,設置好數據采集卡參數,分別在60 min采集數據1次,然后每隔5 min采集1次,總共采集3次,最后計算3次結果的平均值作為最終結果,將結果通過USB傳輸并保存到PC機。采集1次完成后,打開樣品瓶的瓶蓋,開啟出氣的氣泵,清除整個系統的氣味10 min,使傳感器恢復初始狀態[23]。將采集的數據結果按食醋品種分類保存,每個品種食醋的樣本數為51,每個樣本10 mL,共255個樣本。
與線性判別分析相比,正交線性判別分析(OLDA)[24]無需事先運行PCA對數據進行降維。OLDA的判別投影向量之間的正交關系以消除投影中的冗余信息,OLDA要計算的新投影向量與所有先前獲得的投影向量正交,解決了LDA小樣本問題。
假設有一組樣本的集合IR,令訓練樣本矩陣A={A1,A2,…,Ak},其中Ai∈IR。類內方差矩陣為Sw,類間方差矩陣為Sb和總體方差矩陣別為St定義公式(1)、(2)、(3)、(4)如下:
(1)
(2)
(3)
(4)
式中:e(i)=(1,1,...,1)T∈Rni,e=(1,1,...,1)T∈Rn,c(k)是第k類樣本均值,c為總體樣本均值。

實驗獲得5種食醋總樣本共255個數據,每種食醋有51個樣本數據,將51個樣本數據里的20個數據作為訓練樣本,其余的31個數據作為測試樣本。也就是總樣本255個數據分成100個訓練樣本數據集和155個測試樣本數據集。所有的樣本都是1×10的向量,則100個訓練樣本數據可得到100×10的數據矩陣;同理155個測試樣本數據可得到155×10的數據矩陣。用100個訓練樣本數據進行模式訓練學習,建立食醋的預測分類模型,再用155個測試樣本數據來檢驗該模型的分類準確率。
對采集的255個食醋樣本數據進行標準正態變量變換處理。標準正態變量變換也稱為標準歸一化,它是一種預處理方法,能降低電子鼻采集數據中產生的噪聲影響,有效地優化了原始數據,減少冗余信息。標準正態變量變換就是將數據按照對于一組實驗獲得的原始樣本,求出它的標準差、方差和均值,通過標準歸一化變換得到一個新變量。標準正態變量變換能夠按照比例把樣本數據進行平移和縮放,使數據落入到一個特定的小區間中。
PCA是一種基于Karhunen-Loeve變換思想的方法[25],它主要是用于簡化變量結構并提取訓練數據樣本空間的特征,把樣本空間從高維降到低維。使用PCA得到的樣本數據不僅能降低各特征信息相關性和減少冗余信息,還能使得訓練算法的運行效率得到提高。線性判別分析[26]計算得到一個最優的線性變換,通過這個變換,高維空間中的原始數據被轉換為一個更低維的特征空間,在減小維數的同時保留盡可能多的分類信息。
首先使用PCA算法對預處理后的數據進行第1次降維,其中降維是通過針對數據矩陣求取特征向量和特征值然后選取合適的維數。定義其特征向量數為6,得到其特征值見表3。其對應的特征向量為表4所示。用PCA降維后,根據前2個特征向量投影形成的測試樣本的兩維散點圖如圖2所示。圖2中PC1和PC2為PCA的前2個特征向量。由圖2可知,鎮江香醋和山西陳醋重疊在一起難以區分開,而保寧醋和其他4種醋間隔遠,易于和其他4種醋區分開。

表3 用PCA計算得到的特征值

表4 用PCA計算得到的特征向量

圖2 主成分分析處理后的測試樣本兩維散點圖
在通過PCA降維處理后得到了255×6的樣本集,其中訓練集數據為100×6,余下所有數據均為測試集數據。通過線性判別的方法提取鑒別特征向量。經過LDA算法的計算后,最終將PCA算法降維得到的155×6的測試數據樣本轉換成155×4的新的測試集。完成了從PCA特征空間向LDA特征空間的空間轉換,達到了降維和提取分類信息的目的。
經過LDA計算后得到的測試樣本的兩維散點圖見圖3。由圖3可知,食醋電子鼻信號經過PCA+LDA后完成了數據維數從10維到4維的減少,從測試樣本的兩維散點圖可以看出,鎮江香醋和山西陳醋這2類醋數據點很靠近給分類造成一定難度,容易造成誤分類現象。恒順香醋、鎮江陳醋和保寧醋這3種醋彼此之間以及與其他2種醋的間隔較大,比較容易區分開。
經過OLDA處理后的測試樣本的兩維散點圖見圖4。圖4和圖3情況類似,鎮江香醋和山西陳醋兩種醋的數據點很靠近,不利于分類器進行分類。另外,在本文中OLDA處理后的測試樣本是4維數據,無法可視化看到4維數據分布情況,所以也就無法進一步比較PCA+LDA和OLDA處理后測試樣本的4維數據分布。

圖3 線性判別分析處理后的測試樣本兩維散點圖

圖4 正交線性判別分析處理后的測試樣本兩維散點圖
PCA將數據降為不同特征維數時再用LDA計算降為4維后,用最近鄰分類器得到的食醋識別準確率見圖5。由圖5可知,當特征維數為9時,PCA+LDA分類準確率最高。在其他特征維數時,分類準確率保持在85%以上。

圖5 特征維數與識別準確率的關系
在PCA以后再用LDA,這種方法是在降維的另一階段之后執行LDA。由于類內散布矩陣Sw的秩以m-c為上限,所以PCA的最大維數可以減少到m-c,其中m是訓練集的大小,并且c表示類的大小。然而,PCA + LDA存在一個嚴重的問題,那就是分類信息可能會丟失。
OLDA強制判別投影向量之間的正交關系以消除投影中的冗余信息,從而在識別率方面實現比傳統判別投影向量更強的判別投影向量。OLDA算法在處理數據時無需先用PCA對數據進行降維,其計算的新投影向量與所有先前獲得的投影向量正交。針對PCA+LDA方法的不足,用正交線性判別分析對食醋電子鼻信號進行處理,再用最近鄰分類器進行分類。表5列出了樣本在不同劃分情況下的分類準確率。
由表5可知,當每類食醋電子鼻信號的訓練樣本個數為20,測試樣本個數為31個時,主成分分析與線性判別分析的分類準確率達到最高(90.32%)。對于不同的訓練樣本與測試樣本劃分情況,基于正交線性判別分析的分類準確率始終保持在90%以上,高于PCA+LDA方法的分類準確率。

表5 樣本不同劃分情況下的分類準確率
由圖6可知,當每類的食醋電子鼻信號的訓練樣本個數變化時,基于正交線性判別分析的分類準確率要明顯高于基于PCA+LDA方法的分類準確率。
當總樣本數較少時,例如總樣本數是75個數據樣本(即每種15個樣本數),當訓練樣本每種6個樣本數,共30個訓練樣本,測試樣本每種9個樣本數,共45個測試樣本。用PCA將數據降維到6維,再用LDA降維到4維,最后用最近鄰分類器進行分類,分類準確率為82.22%。用OLDA將數據降維到4維,用最近鄰分類器進行分類,可得分類準確率為82.22%。

圖6 訓練樣本個數變化時兩種算法分類準確率
采用主成分分析與線性判別分析(PCA+LDA)方法對食醋電子鼻信號進行處理會存在分類信息丟失現象。為了克服這一缺陷,引入正交線性判別分析方法對食醋電子鼻信號進行處理,分類準確率得到了提高。對訓練樣本和測試樣本進行了不同劃分,當訓練樣本為20,測試樣本為31時,PCA+LDA方法識別準確率達到最高90.32%。而且,在訓練樣本和測試樣本劃分變化時,使用正交線性判別分析方法的食醋電子鼻信號分類準確率明顯高于使用PCA+LDA方法的分類準確率,即基于正交線性判別分析的電子鼻食醋信號分類是切實可行的一種方法。當總樣本數較少,訓練樣本較少時,分類準確率不高,此問題有待以后的進一步研究和探索。