陳寅生,羅中明,孫 崐,許永輝,王 祁
(1.哈爾濱理工大學測控技術與儀器黑龍江省高校重點實驗室,哈爾濱150001;2.哈爾濱工業(yè)大學電氣工程與自動化學院,哈爾濱150001)
電子鼻E-Nose(Electronic Nose)是一種由一組具有廣譜響應特性的氣體傳感器陣列和恰當的模式識別方法組成的氣體檢測設備[1]。目前,電子鼻在氣味分析、食品工業(yè)質量控制、環(huán)境保護、公共安全以及航天應用等領域起到了越來越重要的作用[2-6]。電子鼻系統(tǒng)的基本原理框圖如圖1所示??梢?,模式識別方法是電子鼻系統(tǒng)的核心部分,其性能直接影響系統(tǒng)的檢測與分析結果的準確性與可靠性。
金屬氧化物半導體MOS(Metal-Oxide Semiconductor)傳感器通過敏感材料表面與氣體的氧化-還原反應所引起的傳感器內阻的變化,實現(xiàn)對目標氣體的檢測。MOS氣體傳感器陣列成為了電子鼻系統(tǒng)中使用最為普遍的氣味信息獲取裝置[7]。由于MOS氣敏材料存在交叉敏感特性,并不存在僅對單一目標氣體敏感的MOS氣體傳感器。因此,電子鼻系統(tǒng)需要選擇適當的模式識別方法實現(xiàn)對混合氣體中組成成分的準確識別[8],為后續(xù)的濃度分析提供必要的信息。

圖1 電子鼻系統(tǒng)的基本原理框圖
電子鼻系統(tǒng)中的模式識別方法包括對氣味信息的特征提取和氣體成分識別兩個主要步驟。目前,應用于電子鼻系統(tǒng)的特征提取方法主要是基于線性方法[9],如主成分分析法[10](PCA)和獨立成分分析法[11](ICA)。但是,由于MOS氣體傳感器陣列對混合氣體的響應信號呈非線性,基于PCA和ICA的線性特征提取方法在一定程度上不能有效提取信號中的非線性特征,導致氣體識別準確率相對較低。在氣體識別方面,一般采用人工神經網絡(ANN)、支持向量機(SVM)等機器學習方法實現(xiàn)氣味識別。但是,ANN的結構較為復雜,隱含層的選取對識別結果的影響較大;另外,在小樣本應用條件下,其氣味識別精度無法保證。盡管SVM能夠解決小樣本問題,但是其核函數的選取及參數的優(yōu)化情況都將直接影響氣味的識別結果。因此,電子鼻系統(tǒng)中的模式識別方法對系統(tǒng)的整體性能有十分重要的影響。
鑒于此,本文提出一種基于核主成分分析(KPCA)與多分類相關向量機(MRVM)的二元混合氣體組成成分識別算法。該方法利用KPCA的非線性特征提取能力,對MOS傳感器陣列的多維響應信號進行特征提取,組成訓練樣本集,再利用訓練樣本集對M-RVM分類器進行訓練,實現(xiàn)對二元混合氣體的組成成分的高準確率識別。
KPCA是利用核技巧將主成分分析法(PCA)推廣到非線性情況下的應用,其基本思想是首先定義非線性轉換Φ(·),將樣本從輸入空間映射到高維空間F,然后在此高維空間內執(zhí)行PCA。
假設 X=[x1,x2,…,xN]∈?M×N為原始觀測樣本,其中,N為變量個數,M為觀測樣本的個數。xi∈?M表示第i個M維觀測樣本。X映射到特征空間F中的協(xié)方差矩陣表示為

協(xié)方差矩陣C的特征值分解由下式給出,

式中:λ與v分別表示協(xié)方差矩陣C的特征值和特征向量,<·,·>表示點乘運算。 存在系數 αi(i=1,2,…,N)對特征向量v進行線性表示。

將式(3)代入式(2),并在等式兩端分別乘以Φ(xk),可以獲得以下等式:

N×N的核矩陣K定義為

結合式(3)~式(5),特征值求解問題將進一步轉換為

式中:Nλ 為 K 的特征值,系數向量 α=(α1,α2,…,αN)T為特征向量。在特征空間F執(zhí)行PCA等價于對式(6)進行特征值求解問題,獲得特征向量α1,α2,…,αN對應特征值 λ1≥λ2≥…≥λN。
通過累計貢獻率rCCR可以確定p個特征值對應的特征向量,

新觀測量x的第k個特征可以通過將Φ(x)映射到vk上,


多分類相關向量機[12]MRVM(Multiclass Relevance Vector Machines)由牛津大學的I.Psorakis等人在相關向量機(RVM)的基礎上提出的,通過引入輔助變量Y,將RVM擴展到多分類情況下。MRVM的基本原理如下所述:
假設訓練集為{xi,ti}Ni=1,其中 x∈RD,D 表示特征的維數,t∈{1,2,…,C}表示訓練樣本的標簽。觀測值還可以表示為觀測矩陣X∈RN×D。根據觀測矩陣,可以基于數據集依賴核函數推導出訓練核K∈RN×N。核K的每一行kn表示在選擇的核函數下觀測值n與訓練集中的其他觀測值的關聯(lián)性。
MRVM的回歸目標Y∈RC×N為輔助變量,服從標準化噪音模型,

以上的回歸目標轉換為類標簽通過引入多項概率連接。

類成員的概率輸出可以通過多項概率似然函數,

式中:u~N(0,1),Φ表示高斯累加分布函數。
為了保證模型的稀疏性,W中的回歸量wnc服從標準正態(tài)分布,均值為零,方差為a-nc1,其中 anc屬于尺度矩陣A∈RN×C并服從超參數為τ,υ的Gamma分布。 對于足夠小的τ,υ(<10-5),尺度矩陣A因為小方差,限制W在零均值附近。因此,回歸量wnc的小部分子集為非零,隨后產生了稀疏解。

圖2 MRVM模型原理框圖
MRVM的訓練過程通過標準期望最大化不斷更新模型參數。根據圖2,回歸系數W可以通過下式進行推導,

式中:Ac為由A的c列組成的對角矩陣,表示樣本之間的尺度αic。鑒于此,回歸量的最大后驗估計為=argmaxP(W|Y,A,K)。 因此,給定一個類,參數W可以通過下式進行更新,

根據上式及文獻[14],輔助變量的后驗分布為C×N維圓錐形地截斷高斯函數。因此,對于給定的任意類 i,估計步驟?c≠i,

對于第i類,

最后,權值向量的先驗參數的后驗概率分布為,P(A|w)∝P(w|A)P(A|τ,υ)∝

如圖3所示,為二元混合氣體成分識別算法框圖,主要流程分為訓練過程與測試過程。訓練過程中,需要氣體樣本集對氣體識別模型進行訓練,氣體樣本集由兩種單一氣體和混合氣體組成;利用核主成分分析(KPCA)對各樣本進行特征提取,獲取特征向量集;利用特征向量集對多分類相關向量機(MRVM)進行訓練,獲取權值參數。測試過程中,對測試氣體樣本進行特征提取,獲取特征向量;利用訓練完成的MRVM對氣體成分進行識別,得到識別結果。

圖3 二元混合氣體成分識別算法框圖
如圖4所示為本文設計的實驗系統(tǒng)框圖,實驗系統(tǒng)由PC機,PXI機箱,直流電源,MOS氣體傳感器陣列,電扇,注射器及待測氣體樣本組成。為了嚴格控制溫濕度變化對傳感器陣列的影響,實驗過程中將氣室放置于恒溫恒濕箱中,對溫度與濕度進行控制。

圖4 實驗系統(tǒng)框圖
為了獲取更多的被測氣體信息,本文采用MOS氣體傳感器陣列作為信息獲取裝置。表1所示為本文采用的MOS氣體傳感器陣列中氣體傳感器的選型和數量。系統(tǒng)中采用HITP105數據采集卡對MOS氣體傳感器陣列的輸出進行AD轉換。待測氣體樣本通過注射器按照相應的濃度注入氣室,再通過電扇將氣室中的待測氣體分布均勻,系統(tǒng)將保存此時的數據作為氣體樣本。

表1 MOS氣體傳感器陣列選型
本文實驗采用一氧化碳(CO)氣體和甲烷(CH4)氣體的單一氣體及二元混合氣體作為待測氣體樣本,樣本組成如表2和表3所示。

表2 單一氣體樣本濃度選擇

表3 混合氣體樣本濃度選擇
經過KPCA提取的MOS氣體傳感器陣列多維信號的特征向量的維數將直接影響后續(xù)氣體成分識別的準確率。KPCA提取特征向量的維數與高斯核參數δ2的選取有關。表4為KPCA高斯核參數δ2的選取與特征維數的關系。

表4 KPCA高斯核參數δ2與特征維數的關系
為了說明提出的基于KPCA與MRVM的二元混合氣體識別算法的有效性,本文利用4.1小節(jié)中的實驗系統(tǒng)采集的氣體樣本集,分別利用gauss核與poly核進行氣體成分識別實驗,實驗結果如表5和表6所示,P1,P2,P3分別表示單一CO氣體,單一CH4氣體,CO與CH4混合氣體的估計概率??梢?,本文提出的二元混合氣體識別算法能夠有效地對氣體的成分進行有效識別。
為了說明本文提出的基于KPCA與MRVM的二元混合氣體成分識別算法的識別效果,表7對不同模式識別方法的識別準確率進行比較??梢姡疚奶岢龅亩旌蠚怏w識別算法具有較高的混合氣體識別準確率,達到99.83%。

表5 gauss核,ξ=0.3條件下二元混合氣體成分識別結果

表6 poly核,d=2條件下二元混合氣體成分識別結果

表7 不同識別方法識別率比較
本文提出一種基于KPCA與MRVM相結合的二元混合氣體成分識別算法。該方法利用KPCA提取MOS氣體傳感器陣列獲取的氣體信息特征,再利用MRVM分類器進行成分識別,具有較高的識別準確率。該算法的研究對電子鼻系統(tǒng)后續(xù)濃度估計問題的解決具有重要的支持作用。本文提出的算法在實驗室條件下進行實驗分析,還未充分考慮在實際應用過程中的外界干擾問題,這將是后續(xù)的研究方向。