王 驍,李 博,馮小琴
?
基于JADE的室內多組分混合污染氣體定量分析
王 驍1,李 博1,馮小琴2
(1. 中北大學儀器科學與動態測試教育部重點實驗室,山西 太原 030051;2. 北方自動控制技術研究所,山西 太原 030006)
檢測室內有害氣體得到的紅外光譜為混合有害氣體的紅外光譜,針對吸收譜帶相互交疊的混合氣體定性定量不容易的問題,提出基于特征矩陣聯合近似對角化(joint approximative diagonalization of eigenmatrix,JADE)的特征提取方法,該方法通過分析數據的高階統計量信息,充分挖掘原始數據隱含的信息,以便準確地區分出混合氣體中各物質的光譜,同時應用基于正則理論的支持向量機(SVM)對提取出來的獨立信號源建立多維數據定量分析的模型。實驗結果表明,混合氣體中各組分的定量分析相關系數均保持在0.9991以上,驗證了該特征提取方法的準確性。
特征矩陣聯合近似對角化;定量分析;多組分;支持向量機
隨著社會進步,人類日常生活水平提高,人們對于居住房屋的環境和氛圍要求逐漸增高,名類繁多的裝修風格則為各類人群提供了滿足需求的可能。我國房屋裝修以及家居用品中使用的新型復合材料和化學合成材料質量參差不齊,大部分含有多類有毒有害的物質,長時間接觸這些有害物質嚴重影響了人們的身心健康[1-3]。室內空氣檢測旨在分析室內空氣質量現狀給人們提供一個數據考量,這在降低室內空氣污染中有著重要的意義[4-5]。
利用紅外光譜表[6-7]征物質物理屬性的良好能力對室內多種污染氣體進行分析檢測,對于各組分污染氣體的定量分析則建立在良好的特征提取基礎之上,合理充分地挖掘測試數據的信息是一項繁雜重要的工作。而基于高階統計量信息的JADE有良好的盲源分離性能被用于矢量水聽器陣列信號辨識[8],雷達信號抗主瓣干擾[9],假藥快速檢測分析[10]。對于實際紅外測量應用中,目標光譜特征上存在各種未知干擾成分、基線漂移和噪聲信號,吸收譜線上有較多的重疊,而我們感興趣的光譜信號僅有一小部分,針對紅外光譜數據的非線性、小樣本以及空間光譜維數大等問題,適當利用高階統計量挖掘信息全貌則為光譜的特征提取提供了一種新的嘗試。
支持向量機(support vector machine,SVM)是建立在統計學習理論的VC維理論和結構風險最小原理基礎上的機器統計學習方法[11],對于小樣本、非線性高維模式識別有很大優勢,兩者結合使用對污染氣體的高維度、非線性紅外光譜特征進行快速提取與識別,并定量解析,有效地發揮了2種方法的統計優勢,揚長避短的結合提高了各氣體定性定量分析的準確度。
特征矩陣聯合近似對角化(joint approximative diagonalization of eigenmatrix,JADE)是由法國學者Cardoso提出的一種處理多導信號的方法,是獨立分量分析的一種批處理算法[12-13]。JADE是對引入的多變量數據的四維計量矩陣對其特征分解的簡化算法,它通過求原始數據球化后的全部四階累積量構造一組加權重的階累積量矩陣,然后尋求一個酉變換矩陣對這組四階累積量矩陣進行聯合對角化逼近從而估計出混合矩陣和信源。本文采用這種方法對混合氣體紅外光譜進行特征提取。
設一個待觀測的維信號=[1,2, …,x]T由個源信號=[1,2, …,s]T線性混合而成:
=+(1)
式中:是線性混合矩陣;為噪聲信號矩陣。通過JADE可計算出混合矩陣,解混矩陣和源信號。對于紅外光譜信號來說,×(≤)可看做個測試點在處波長的紅外光譜信號矩陣,用×(≤)表示單一物質的光譜矩陣,每一行均可看成是一種物質的光譜信息,×則是混合矩陣,能體現出混合光譜中的相對濃度。使用JADE完成各成分分離時,令=[1,2, …,z]T為原始數據=[1,2, …,x]T球化后的觀察矢量,為任意×矩陣,的四階累積量矩陣()的第,元素定義如下:

式中:K()是中的第,,,四個分量的四維累積量,()是×的對稱陣,m是矩陣的第,個元素。()中,點上的元素反映了給定,下全部cum(x,x,x,x)的加權和,其權重是對應于,點的元素值。由此矩陣()概括了多通道數據的全部四維累積量。酉陣表示為混合矩陣和球化陣的乘積=,且=。令v,=1~代表中各列=[1, …,, …,],且=[1, …,]T,則陣可取為:

其第,個元素為m=vv。四階累積量矩陣()可分解為:
()=(4)
其第,元素表示為[()]=m,式中=4()是信源的峰度,()的特征矩陣為,其特征值為=4()。由于[()]=4(),它的一個特征分解為=T,則()一定可表示為:


通過式(6)尋求能通過T()將()對角化的酉陣,對混合矩陣做出辨識和分解:

式中:為分離出的信源。
對多組分氣體進行定量分析實質上是考慮實值函數的估計問題,目標是估計一個幾乎沒有先驗知識的函數()[14],其滿足:
=()+(8)
式中:為預估的偏差;是一個維輸入向量;是室內混合污染氣體的標定濃度。估計是基于個樣本來實現的,Z~(x,y),=1, 2, …,是服從獨立同分布(,)=()(|)的概率。因此預估式(8)可以表示為:

學習過程中,選擇最優函數(,0)來最小化預測的期望風險,∈是預測函數集合的廣義參量。通過方差損失函數進行回歸估計,以表征預測結果的好壞:

但學習方法所支持的函數集合(,)不一定包含式(9)所對應的回歸函數,因此學習的問題是僅使用訓練樣本數據尋找預測函數(,0)實現最小化期望風險[15]:

函數泛化能力通常用風險大小來表示,實際中我們往往認為未知的函數()或是樣本分布()都是非時變的,所以利用先前的數據所做的估計才是有意義的,按照經驗風險最小實現實際模型的參量估計:

建模的目標是最小化經驗風險,雖說理論上許多分類函數在樣本集上的準確率很高,但是實際分類的結果卻不盡人意。因此即使確定了預測函數最小的經驗風險,也還是無法保證期望風險為最小。因此統計學習的就是為了尋求結構風險的最小化:

式中:(/)是學習的置信區域;是預測函數的VC維數(Vapnik-Chervonenkis dimension)。SVM正是這樣一種努力最小化結構風險的算法。樣本數量與分類函數的VC維決定了置信風險的結果,大量的給定樣本數量和越小的VC維數會保證越小的置信風險。在根據式(12)中在有關學習復雜控制的結構風險最小化框架下,可以依靠樣本靈活的適應性把預測函數集(,)排列成一序列子集的嵌套。式S={(,),∈}中元素的VC維都具有有限性,為了確保在同一個預測函數都的置信范圍相同,必須利用式(13)使函數子集能夠分別按照VC維的大小進行排列,同時遵循結構逢小最小化原則,為最優模型提供最小真實風險的上界函數。為了確保在這個空間中可構造最優分類超平面作為決策曲面,最大化正例和反例之間的隔離邊緣。因此輸入向量可通過已確定的非線性映射映射到高維特征空間中內,所以在權空間中的優化可以表達為:


式中:是調和常量,():R? R是核空間的映射函數,是均方誤差和正則量化之和的損失函數,映射函數與核函數可根據Mercer條件表示為:

因此最優化的預測函數為:

使用北京瑞利分析儀器公司生產的WQF-520型傅里葉變換紅外光譜儀搭建實驗系統,配套其提供的100mm常規密閉氣室。采用七星華創電子股份有限公司生產的質量流量計精密的控制氣體濃度,為了保證實驗的準確性,需要對儀器用高純的N2進行沖洗,然后通入混合氣體,不同濃度的氨氣(NH3)、甲醛(CH2O)、氮氣(N2)通過流量計進入密閉氣室,經過重復多次實驗采集到100條混合氣體樣品的光譜如圖1所示,其中光譜分辨率為4cm-1,波數范圍大氣窗口700~1300cm-1。

圖1 采集到的100條樣品透過率光譜
采集到的混合氣體的光譜數據經過JADE算法的處理,將吸收峰交錯重疊的兩種純物質氣體分離出來,并反演出兩種純物質的光譜。
圖2為JADE分離出的獨立成分分量,其中上面的獨立成分為甲醛(CH2O)的透過率特征譜圖,下面的獨立成分為氨氣(NH3)的透過率特征譜圖。

圖2 JADE分離出的獨立成分
圖3是恢復重建的濃度分別為1000mol/L的氨氣(NH3)和95mol/L甲醛(CH2O)的透過率光譜。

圖3 恢復某濃度下的NH3和CH2O透過率光譜
根據上述分離實驗得到的100條氨氣和甲醛光譜透過率數據,各自從中隨機挑選出80組數據作為訓練樣本,剩下的20組數據作為建立濃度預測模型的測試樣本,利用SVM建立濃度預測模型,定量分析得到的測試集輸出濃度和相對誤差結果,如圖4和圖5所示。
由圖4、圖5的結果可計算得到NH3與CH2O相關系數分別為=0.9992和=0.9991,二者均方根誤差分別為MSE=27.9312和MSE=0.7931,相關系數和均方根誤差說明定量分析結果比較精確,從而說明JADE方法在多組分混合氣體定性分析中具有很高的分離性能,能夠精確的將吸收峰混疊的2種氣體區分開來。

圖4 NH3測試集預測結果
將特征矩陣聯合近似對角化算法應用到室內污染氣體檢測中,提高了定性分析的穩定性,結合支持向量機良好的泛化學習能力和推廣能力構建出混合污染氣體的定性定量分析模型,兩種算法的有機結合取長補短,基本能夠達到混合氣體的定性定量要求,而且這樣的結合也為精確測量多組分混合氣體提供了參考。
[1] 劉紫紅, 洪琦. 室內裝修污染源分析及防治措施[J]. 綠色科技, 2015(5): 197-199.
LIU Zihong, HONG Qi. Analysis and prevention of indoor decoration pollution source[J]., 2015(5): 197-199.
[2] 鄭家鑫. 住宅裝修甲醛的釋放因素探究[J]. 產業與科技論壇, 2015, 15: 79-80.
ZHENG Jiaxin. Research on releasing factor of formaldehyde in residential decoration[J]., 2015, 15: 79-80.
[3] 陳猛. 試論室內空氣污染危害與解決措施[J]. 黑龍江科技信息, 2014(4): 2-2.
CHEN Meng. Study on harm and solution of indoor air pollution[J]., 2014(4): 2-2.
[4] 陳希堯. 淺談室內裝修帶來的環境污染及預防措施[J]. 資源節約與環保, 2014(11): 88-88.
CHEN Xiyao. Pollution and prevention of indoor decoration[J]., 2014(11): 88-88.
[5] 王登山. 室內空氣污染危害及其凈化技術的探究[J]. 潔凈與空調技術, 2015(2): 33-36.
WANG Dengshan.Research on health hazard and purification technology of indoor air pollution[J]., 2015(2): 33-36.
[6] 宋英華. 紅外光譜技術在環境安全領域中的應用與展望[J]. 能源與節能, 2015(08): 104-105.
SONG Yinghua.On the application and prospect of infrared spectrum technology in the environmental safety field[J]., 2015(08): 104-105.
[7] 李吉光. 在線紅外結合獨立成分分析研究含能化合物合成反應機理[D]. 西安: 西北大學, 2014.
LI Jiguang. Investigating the synthetic mechanism of energy compounds by on-line IR spectroscopy combined with independent component analysis[D]. Xi’an: Northwest University, 2014.
[8] 肖大為, 程錦房, 張景卓,等. 基于JADE算法的矢量水聽器陣列信號盲估計研究[J]. 武漢理工大學學報: 交通科學與工程版, 2013(5): 1012-1016.
XIAO Dawei, CHENG Jinfang, ZHANG Jingzhuo, et al.Blind signal estimation based on JADE algorithm for an vector hydrophone array[J].:, 2013(5): 1012-1016.
[9] 王文濤, 張劍云, 劉興華,等. JADE盲源分離算法應用于雷達抗主瓣干擾技術[J]. 火力與指揮控制, 2015(09): 104-108.
WANG Wentao, ZHANG Jianyun, LIU Xinghua, et al.Radar anti-mainlobe-jamming based on blind source separation algorithm of JADE[J]., 2015(09): 104-108.
[10] 宋清. 獨立組分分析在光譜分析中的基礎與應用研究[D]. 上海: 第二軍醫大學, 2012.
SONG Qing. The basic and applied research of independent component analysis in spectral analysis[D]. Shanghai: The Second Military Medical University, 2012.
[11] 邊雙微. 田納西—伊斯曼化工過程的故障診斷[D]. 武漢: 華中科技大學, 2011.
BIAN Shuangwei.Fault diagnosis on Tennessee-Eastman process [D]. Wuhan:Huazhong University of Science and Technology, 2011.
[12] Cardoso J F. Higher order contrast for independent component analysis[J]., 1999, 11(1): 157-193.
[13] Cardoso J F, Souloumiac A.Blind beam forming for non-gaussian signals[J].(), 1993, 140(6): 362-370.
[14] 林繼鵬, 劉君華. 光譜分析中的支持向量機方法及其性能優化[J]. 光譜學與光譜分析, 2006, 26(12): 2232-2235.
LIN Jipeng, LIU Junhua. Support vector machine and optimized method for spectral analysis[J]., 2006, 26(12): 2232-2235.
[15] 林繼鵬, 劉君華. 光譜嚴重交疊的多組分混合氣體紅外定量分析技術[J].現代科學儀器, 2006(1): 53-57.
LIN Jipeng, LIU Junhua. A new technology study based on seriously overlapped spectrum of quantitative analyzing on multi-component hybrid gas[J]., 2006(1): 53-57.
Quantitative Analysis of Indoor Multi-component Gas Mixture Based on JADE
WANG Xiao1,LI Bo1,FENG Xiaoqin2
(1.,,030051,; 2.,030006,)
The infrared spectrum obtained by indoor air pollution monitor is a variety of harmful mixture gas and absorption bands of mixture gas overlap makes qualitation a difficult question. A feature extraction method based on joint approximative diagonalization of eigenmatrix (JADE) is proposed. The method can fully mine implicit information in the original data by analyzing the Higher-order statistics information so that we can separate mixture gas spectrum into each material’s spectrum. SVM (support vector machine) based on the regular theory is applied to establish a multi-dimensional data quantitative analysis model by the extracted independent source. The experimental result shows that the relevant factors of mixture gas component quantitative analysis are maintained at 0.9991, which proves the accuracy of this feature extraction method.
joint approximative diagonalization of eigenmatrix,quantitative analysis,multi-component,SVM
TM930
A
1001-8891(2016)03-0255-05
2015-10-13;
2015-12-23.
王驍(1990-),男,碩士研究生,主要研究信號處理。E-mail:valor98@aliyun.com。
李博(1972-),碩士生導師,副教授,主要研究方向為精密檢測設備、信號采集與處理。E-mail:libo@nuc.edu.cn。
國家自然科學基金儀器專項基金項目(61127015)。