潘銘津,何家峰,駱德漢
(廣東工業大學 信息工程學院,廣東 廣州 510000)
在現代社會中,室內的裝修材料大多采用有機合成材料,這些材料所散發出來的甲醛、氨氣等室內有害氣體,造成室內環境污染,對居民的身體健康產生較大的惡性影響。研究[1]表明在中國家庭中,室內氣體環境污染是“病態建筑綜合征”的一個危險因素。在室內空氣環境監測中,對有害氣體定量分析有多種不同的方法,包括非分散紅外法、氣相色譜法、納氏試劑比色法以及離子選擇電極法。以上提到的方法所采用的儀器操作比較復雜且不能實時實地地進行空氣質量檢測。隨著信息科學和傳感器等技術的快速發展,仿生嗅覺系統憑借其快捷、簡便和經濟等優點,在醫療、食品加工、環境檢測等領域已經得到了諸多應用。
仿生嗅覺系統中的傳感器陣列是由多個金屬氧化物半導體(Metal-Oxide Semiconductor,MOS)傳感器組成,以此實現對不同目標氣體信息的采集。同時因為MOS氣體傳感器中的氣敏材料存在交叉敏感特性,因此對單一目標氣體敏感的MOS傳感器暫時不存在。因此,仿生嗅覺系統需要結合合適的模式識別方法對混合氣體中的各種氣體成分信息進行識別,為各類別的氣體濃度提供信息。
本文將結合基于仿生嗅覺和卷積神經網絡(Convolution Neural Network,CNN)[2]的方法對多元室內有害氣體中的每種氣體進行定量識別,從而降低因仿生嗅覺系統中MOS氣敏傳感器存在交叉敏感特性的影響,提高對目標氣體識別的準確率。
仿生嗅覺系統是一個識別單種或多種氣體的檢測系統,通過利用一組氣體傳感器陣列的響應信號來識別氣體的電子系統,其檢測結果得到的是一種圖譜,這種圖譜又被稱為氣味指紋圖譜,該圖譜能描述該氣體物質的唯一特征,類似于人類指紋的唯一性。仿生嗅覺系統一般由氣體傳感器陣列、信號處理和模式識別方法組成,它可以在幾小時、幾天甚至數月的時間內連續地、實時地監測特定位置的氣體信息。仿生嗅覺系統與普通的化學儀器不同,如色譜儀、光譜儀等,不能直接得到被測樣品各種成分的定性和定量結果,而是需要模式識別方法中不同的識別算法才能得到被測樣本中的不同信息。仿生嗅流工作原理圖如圖1所示。

圖1 仿生嗅覺工作原理圖
在仿生嗅覺系統中的模式識別方法主要由對氣體信息的特征提取和氣體成分識別兩個步驟組成。當今,被常用于仿生嗅覺系統的特征提取算法主要有基于線性的方法,例如主成分分析法(Principal Component Analysis,PCA)[3]和線性判別分析法(Latent Dirichlet Allocation,LDA)[4]。這兩種算法在對單一氣體的分類識別中效果較好,但是由于室內氣體環境中存在多種氣體,而MOS氣體傳感器陣列對混合氣體的響應信號是非線性的,因此在一定程度上,難以通過基于PCA算法和LDA算法[5]的線性特征提取方法來提取混合氣體信號中的非線性特征,從而導致氣體識別準確率較低。在氣體識別的過程中,一般是采用傳統的BP神經網絡、支持向量機(Support Vector Machine,SVM)等機器學習方法進行氣味識別。但是由于傳統的BP神經網絡(Back Propagation Neural Network,BPNN)在處理氣體數據時需要建立較多的權值,導致計算量太大和需要大量樣本進行訓練。雖然SVM能夠處理小樣本問題,但核函數的選取和參數的設置都直接關系到氣體識別的結果。因此,在仿生嗅覺系統中模式識別方法的選擇對系統的性能有著非常重要的影響。
因此,本文提出一種基于仿生嗅覺和卷積神經網絡的算法用以識別室內空氣中的有害氣體成分。該方法利用卷積神經網絡對MOS傳感器陣列的多維響應信號進行特征提取以進行室內有害氣體成分的識別,實現對室內空氣中有害氣體組成成分的高準確度識別。
卷積神經網絡是由多層感知機(Multi-Layer Perception,MLP)演化而來的,由于CNN具有局部連接、權值共享、降采樣的結構特點,使得卷積神經網絡在圖像處理領域取得了巨大的成功。CNN相對于傳統的BP神經網絡的主要區別在于權值共享和局部連結兩個方面。權值共享使得卷積神經網絡的結構更加貼合生物神經網絡的結構。卷積神經網絡的局部連接不像傳統神經網絡,等n-1層的每一神經元都與第n層的所有神經元連接,而是第n-1層的神經元與第n層的神經元部分連接。這兩個特點的作用使得網絡模型比傳統的BP神經網絡具有更低的模型復雜度,更少的權值數量。
1989年,LECUN Y[6]首次將方向傳播算法與權值共享的卷積神經層結合起來發明了卷積神經網絡,并將其用于美國郵局的手寫數字識別系統中,取得了巨大的成功。CNN的基本結構由輸入層、卷積層、池化層、全連接層以及輸出層構成。卷積層用于提取數據的特征;池化層[7]用于對特征的抽樣,可以在使用較少的參數同時還能減輕網絡模型的過擬合程度;全連接層用于把提取的特征圖連接起來,最后通過分類器獲得最終的分類結果。
卷積層通過多卷積核對輸入的數據進行卷積處理并提取出卷積后的特征,即特征圖。即通過一個卷積核提取出對應的一類特征。因為在同一卷積核的操作中具有局部連接、參數共享和多卷積核特性,所以相比較于全連接層,卷積層在提取數據的特征時,能在參數較少的情況下提取出更加豐富的特征。由于卷積結構不受輸入維度的影響且訓練深度結構簡單,因此能有效地對復雜的高緯度的輸入進行特征提取。卷積層卷積公式為:
(1)
式中:i為第i個卷積核,g(i)為第i個卷積核提取得到的特征圖,a為輸入數據,β為卷積核的偏置,x、y、z為數據的維度,在處理一維時域信號時,對其中兩個維度進行簡化即可。
在完成對數據的卷積后需要對數據使用非線性激活函數進行非線性轉換,CNN中常用的激活函數一般為ReLU,其公式為:
y(i)=f(g(i))=max{0,g(i)},i=1,2,…,q
(2)
池化層通過池化核對輸入特征向量進行降采樣(down sampling)處理,在對數據進行降維的同時更加突出提取的特征。
pl(i,j)=max(j-1)w (3) pl(i,j)=avg(j-1)w (4) 式中:al(i,t)為第l層中第i個特征圖的第t個神經元,w為卷積核的寬度,j為第j個池化核。 本文基于一維卷積神經網絡時序信號識別模型1D-CNN[8],針對仿生嗅覺PEN3電子鼻[9]的采集數據特性,提出室內有害氣體成分識別算法。本算法模型框圖如圖2所示。模型框架包含兩個一維卷積層、一個池化層、一個全局最大池化層[10]和一個輸出層。該模型與傳統的CNN模型相比,是通過加入全局最大池化層以代替傳統的CNN模型中作為輸出的全連接層。由于全局最大池化層參數較少,因此用以解決全連接層參數過多所導致計算量過大和過擬合的問題。同時較少的參數也可以降低模型的復雜度和模型對訓練樣本數據量的要求,適用于現階段仿生嗅覺數據量較少的情況。 圖2 本文所提出方法的算法結構圖 室內有害氣體一般包括甲醛、氨氣、甲苯和甲醇。因此,本文分別使用三種濃度分別為0.02 mg/m3、0.08 mg/m3、0.16 mg/m3的甲醛氣體,三種濃度分別為0.05 mg/m3、0.15 mg/m3、0.25 mg/m3的氨氣氣體,三種濃度分別為0.05 mg/m3、0.09 mg/m3、0.18 mg/m3的甲苯氣體以及三種濃度為0.05 mg/m3、0.10 mg/m3、0.15 mg/m3的甲醇氣體構成81個氣體樣本組,然后使用PEN3電子鼻分別對81個樣本組進行混合氣體數據的采集。對每個樣本組采集10個數據樣本,最后得到810個數據樣本。 為了說明提出的基于一維卷積神經網絡時序信號識別模型1D-CNN的室內有害氣體成分識別算法的有效性,本文將4.1小節中通過PEN3電子鼻采集的數據樣本集,分別利用PCA+ LDA算法、BP神經網絡以及本文提出的CNN算法進行氣體成分識別實驗,實驗結果如表1~表4所示。 表1 不同算法對混合氣體中甲醛濃度識別率的比較 (%) 算法混合氣體中甲醛濃度/(mg/m3)0.020.080.16PCA+LDA65.2362.5563.44BPNN85.1286.3188.52本文算法90.1293.3492.81 表2 不同算法對混合氣體中氨氣濃度識別率的比較 (%) 算法混合氣體中氨氣濃度/(mg/m3)0.050.150.25PCA+LDA68.8964.1669.92BPNN88.6389.4590.25本文算法93.4094.7696.25 表3 不同算法對混合氣體中甲苯濃度識別率的比較 (%) 算法混合氣體中甲苯濃度/(mg/m3)0.050.090.18PCA+LDA61.3659.5260.47BPNN78.9879.1278.54本文算法88.8987.3688.41 表4 訓練參數數量的比較 (%) 算法訓練參數數量BPNN587 373本文算法5 433 由表1~表3可見本文所處提出的室內有害氣體成分識別算法對混合氣體中各種氣體具有較高的識別率。表4說明本文提出的室內有害氣體成分識別算法在較高的識別率情況下,擁有較少的訓練參數數量。 本文提出一種基于CNN與仿生嗅覺相結合的室內有害氣體成分識別算法。該方法利用卷積神經網絡權值共享和加入全局最大池化層,使得神經網絡在擁有較少的訓練參數數量的情況下,對室內有害氣體具有較高的識別率。該算法的研究對仿生嗅覺系統后續濃度估計問題的解決具有重要意義。本文提出的算法在濃度回歸實驗上還沒有得到很好的驗證。在實驗的過程中還沒考慮到外界因素對實驗結果造成的影響,這將是后續的研究方向。3 室內有害氣體成分識別方法

4 實驗結果
4.1 數據采集
4.2 有害氣體成分識別實驗




5 結論