王前進 孫鵬帥 張志榮3)4)? 張樂文5) 楊曦吳邊 龐濤 夏滑 李啟勇
1) (中國科學技術大學環境科學與光電技術學院, 合肥 230026)
2) (中國科學院合肥物質科學研究院安徽光學精密機械研究所, 光子器件與材料安徽省重點實驗室, 合肥 230031)
3) (中國科學院合肥物質科學研究院安徽光學精密機械研究所, 中國科學院環境光學與技術重點實驗室, 合肥 230031)
4) (國防科技大學, 先進激光技術安徽省實驗室, 合肥 230037)
5) (中國科學技術大學, 合肥 230022)
6) (安徽省生態環境監測中心, 合肥 230071)
在基于可調諧二極管激光吸收光譜技術(tunable diode laser absorption spectroscopy, TDLAS)進行多種組分混合氣體測量時, 經常會遇到吸收譜線之間存在相互干擾的現象, 這也是使用該技術測量過程中的主要“瓶頸”. 比如在前期的應用中: 微量一氧化碳(CO)和甲烷氣體(CH4)在同時檢測時兩者的吸收譜線存在嚴重的重疊干擾現象, 特別是在高濃度CH4存在的環境下, 微量CO氣體吸收信號會被干擾甚至湮沒, 無法實現有效解調, 這是通過譜線選取所不能解決的問題. 因此, 針對此問題本文提出了基于支持向量回歸模型, 以CO和CH4吸收譜線的嚴重重疊干擾問題為例, 通過選擇線性核函數建立CO支持向量回歸模型和CH4支持向量回歸模型, 可對CO和CH4的混合氣體吸收譜線進行解調, 最終獲得兩種氣體濃度的準確測量結果. 通過實驗分別實現了四種不同濃度CH4環境下微量CO氣體的檢測, 得到的CO和CH4濃度(氣體的體積分數)測量的絕對誤差分別小于2 × 10—6和0.2 × 10—2; 通過不同濃度的固定配比實驗分析, CO和CH4氣體的測量值與實際值之間的相關系數分別達到了0.998和0.9995, 且CO和CH4氣體測量結果的絕對誤差分別不超過2 × 10—6和0.1 × 10—2, 完全滿足了混合氣體的精確測量, 為實現多場合混合氣體目標的實時監測提出了解決方案.
可調諧二極管激光吸收光譜(tunable diode laser absorption spectroscopy, TDLAS)具有非接觸實時測量、分辨率高、靈敏度高、響應速度快等優點[1-6], 能夠實現對特定氣體分子的高選擇性精確測量. 結合波長調制技術和長光程技術的TDLAS系統能夠得到更高的檢測靈敏度和更低的檢測下限[7-9], 已被廣泛應用于環境監測、汽車尾氣監測、工業氣體檢測、燃燒診斷、醫學診斷等眾多領域[10-14].
通常情況下, 采用TDLAS技術同時測量混合氣體濃度時, 需要根據每一種氣體分子吸收譜線的“指紋識別區”設計一套特定波段的監測系統, 也就是氣體和激光光源是一一對應的關系, 這也就導致了整套系統的復雜程度和成本的增加. 雖然當兩種氣體的吸收譜線比較接近并且不會互相重疊時(如CO和CO2在1579 nm附近的吸收譜線), 可以采用溫度控制和驅動電流控制的方法使得一臺分布反饋式激光器(distributed feedback laser, DFB laser)能夠同時掃描過這兩種氣體的吸收波長, 進而實現兩種氣體同時在線檢測[15]. 這樣不僅能夠降低檢測系統的復雜程度以節省成本, 也提高了系統的響應率和檢測速度. 然而像CO和CO2氣體的這類相近而又獨立的吸收譜線是特殊的, 大多數情況下兩種氣體之間的吸收譜線足夠接近且存在交叉干擾現象. 為了對混合氣體中多種成分進行測量, 科研人員進行了多種相關研究[16,17], 如: Zhang等[18]利用中心波長為1578和1747 nm的兩個激光器對比了分時鋸齒法、光開關法和多頻正弦調制法同時檢測H2S和HCl兩種氣體的優缺點; Shao等[19]利用中心波長為2.3 μm的DFB激光器在低壓條件下完成了CO和CH4氣體的同時檢測. 以上方法雖然提高了混合氣體實時檢測的可靠性, 但是同時也會增加系統電路、光路或者氣路的復雜性. 此外, 在某些應用場合, 上述處理方式仍不可避免地遇到譜線間的交叉干擾問題. 例如常溫常壓下,CO和CH4的吸收譜線存在嚴重的交叉干擾現象,特別是在含有高濃度CH4的特殊場合(例如礦井、天然氣泄漏檢測等), CO的吸收信號會被湮沒在不規則的多峰CH4吸收譜線之下, 此時難以對這兩種氣體, 特別是微量CO氣體進行準確地解析.
為了解決上述譜線干擾的共性問題, 進一步實現簡化系統復雜程度、降低系統成本、增加系統可靠性的目的, 本文提出了一種基于支持向量回歸(support vector regression, SVR)模型的方法, 來解決TDLAS系統遇到的多組分混合氣體檢測中的譜線干擾問題. 支持向量機在氣體檢測方面已經得到了廣泛應用. Qu等[20]利用改進的網格搜索算法對支持向量機進行參數優化, 建立了氣體的紅外光譜定量分析方法, 并且在1%—25%濃度范圍內對CO2氣體進行定量分析, 得到的絕對誤差小于4%; Laref等[21]對比了支持向量回歸和偏最小二乘回歸在定量分析松樹精油蒸氣應用中的性能, 得出了支持向量回歸具有更高測量精度的結論. 本文以微量CO和較高濃度CH4為例, 經過小樣本數據集訓練得到CO和CH4氣體濃度回歸模型, 分別為CO-SVRmodel和CH4-SVRmodel. 經不同濃度的氣體測量實驗驗證, 該模型能夠顯著解決微量CO氣體吸收信號在高濃度CH4吸收信號下被湮沒的譜線重疊干擾問題, 實現了微量CO和較高濃度CH4的同時檢測, 為實現多組分氣體的TDLAS同時測量技術奠定了基礎和可行性論證.
根據Lambert-Beer定律, 特定波長的激光光束穿過待測氣體會被吸收, 透射光強變化可以表示為

其中I0是激光出射強度;It是透射激光強度;S(T)(cm—2·atm—1)為氣體溫度為T時的吸收譜線強度;X為待測氣體濃度;P(atm)為氣體壓強;L(cm)為光在待測氣體中傳播的距離即光程;φ(υ) 是吸收線型函數, 與氣體溫度和壓力有關, 描述了氣體吸收譜線的形狀;α(υ) (cm—1)為待測氣體對特定波數υ的吸收率.
為了提高系統的抗干擾能力和檢測靈敏度, 引入波長調制技術. 在激光器的掃描信號上疊加一個高頻的正弦調制信號, 則激光器在某一時刻t的瞬時頻率和出光強度可以表示為


其中P2f為二次諧波的峰值; Δυ為氣體吸收譜線的半高寬;m為無量綱變量,m=a/Δυ. 二次諧波信號的峰值和初始光強I0也成正比關系. 因此實際測量中, 常使用一次諧波進行光強修正, 消除光強波動引起的峰值變化.
SVR原理可以分為線性回歸和非線性回歸[23],首先給定一組樣本集: (x1,y1), (x2,y2), ···, (xn,yn). 其中,xi(xi∈ R )是第i個樣本的光譜數據;yi(yi∈ R )為實際測量得到的第i個樣本的氣體濃度值.
當所測氣體為單一氣體時, 氣體濃度與光譜數據之間符合線性關系, 構造線性回歸模型如下:

其中w為權重向量;b為偏置.
采用ε-不敏感損失函數作為誤差函數, 表達式如下:

回歸函數的求解問題可以描述為一個二次凸優化問題, 即:

根據(6)式和(7)式, 將SVR問題形式化定義為

其中C為正則化常數,C越大表示對訓練誤差大于ε的樣本懲罰越大;l?是(6)式對應的ε-不敏感損失函數. 當我們允許SVR在某些樣本上出錯時,即引入松弛變量后, 目標函數變為

為了更加高效地求解目標函數, 可以對(9)式使用拉格朗日乘子法. 引入拉格朗日乘子μi≥0最終得到目標優化函數的“對偶問題”如下:

通過對偶問題的最優值求解, 可以得到線性SVR的解如下:

但是對于混合氣體而言, 在原始樣本空間是線性不可分的, 此時可以通過引入非線性映射, 將樣本空間映射到一個高維的特征空間中, 然后在該特征空間應用SVR線性回歸方法求解回歸函數.
令φ(x) 表示將樣本x映射后的特征向量, 于是, 在特征空間中劃分超平面所對應的模型可表示為

對于(12)式, 經過與線性回歸中相同的一系列求解后, 可以得到特征空間中回歸模型的解如下:

其中φ(xi)Tφ(x) 是樣本映射到特征空間之后的內積, 而特征空間維數很高, 甚至可能是無窮維, 因此直接計算φ(xi)Tφ(x) 是困難的, 為了避開這個障礙, 引入了核函數:

最終, 特征空間下SVM回歸模型的解如下:

常用的核函數有線性核函數、多項式核函數和高斯核函數等, 經過實驗得出結論, 對于混合氣體數據, 使用線性核函數得到的SVR模型效果最優.
為了實現CO的低濃度測量, 該實驗系統選擇中心波長為2.3 μm的DFB激光器作為光源. 其波長隨著溫度和電流變化的調諧性能如圖1所示.共測試了6組不同溫度下的電流調諧性能, 均能夠獲得較好的線性特征, 因此在調諧過程中不會出現激光輸出的不穩定性因素. 在本實驗中將激光驅動器的掃描電流調節到合適的范圍, 使得DFB激光器從2326.6 nm掃描到2327.7 nm的波數范圍, 此時中心發射波長為2327.2 nm, 完全覆蓋CO的中心吸收譜線.

圖1 DFB激光器電流-波長調諧性能曲線Fig. 1. Current-wavelength tuning curve of DFB laser.
實驗裝置原理圖如圖2所示, 分別由電路部分(Part A)、光學部分(Part B)、數據采集與分析部分(Part C)、配氣系統(Part D)四個功能模塊組成. 首先, 電路部分包括函數發生器、激光驅動器和雙通道鎖相放大器, 該部分完成DFB激光器驅動以及信號調制和解調的功能. 函數發生器產生低頻掃描信號和高頻正弦信號, 頻率分別為10 Hz和10 kHz. 低頻掃描信號使得激光器掃描輸出2 cm—1的波長范圍, 而高頻正弦信號使激光器波長得到調制輸出. 通過鎖相放大器對接收到的信號進行解調而獲得一次諧波信號(1f)和二次諧波信號(2f). 其次, 光學部分包括蝶形封裝的DFB激光器、帶有光纖準直和光電探測器的光學吸收池, 其光程為20 m. 最后, 在數據采集和分析部分中, 從鎖相放大器獲得的1f和2f分別包含2000個采樣點, 采集觸發信號為10 Hz. 最后將1f和2f數據通過串口通信發送給計算機進行分析和計算. 配氣系統主要用于不同濃度CO和CH4混合氣體的配比,標準濃度的CO和CH4氣體分別通過質量流量計1和質量流量計2混合后通入吸收池, 通過已知的CO和CH4氣體濃度和對應質量流量計的讀數, 可計算得到混合氣體中CO和CH4的濃度.

圖2 實驗系統原理圖Fig. 2. Schematic diagram of the experimental system.
圖3為HITRAN數據庫[24]仿真得到的在上述DFB激光器的掃描波數范圍內濃度分別為20 ×10—6和400 × 10—6的CO氣體、濃度為1 × 10—2的CH4氣體吸收譜線, 該處及下文(包括表1)中氣體濃度均為氣體對應的體積分數. 可以發現濃度為400 × 10—6的CO氣體, 其吸收譜線的峰值信號強度仍然小于濃度為1 × 10—2的CH4氣體在該波長位置的吸收信號強度. 所以利用傳統的濃度反演方法, 在高濃度CH4氣體的大信號背景下, 要實現精確地定量檢測微量CO氣體是非常困難的, 因此本文采用基于支持向量回歸模型解決激光吸收光譜遇到的類似譜線重疊的共性問題.

表1 訓練數據集Table 1. Training data set.

圖3 CO (20 × 10—6, 400 × 10—6)和CH4 (1 × 10—2)的模擬吸收光譜圖Fig. 3. Simulated absorption spectra of CO (20 × 10—6,400 × 10—6) and CH4 (1 × 10—2).
基于支持向量回歸原理和CO, CH4兩種氣體在2327 nm附近的重疊吸收光譜特征, 選擇了14組經過1f歸一化處理之后的2f數據(2f/1f)[19]作為訓練集構建SVR模型. 訓練數據集的氣體種類及其對應濃度如表1所列. 其中包含3組CO標氣、4組CH4標氣、7組CO和CH4混合氣體(標氣按照1∶1比例配比而成). 經過計算, 光學多通池中氣體種類及實際濃度如表1中最后兩列所示.
選擇表1中三組氣體, 分別為Group 1(CO標氣), Group 4 (CH4標氣)和Group 10 (混合氣體), 它們的信號如圖4所示, 其對應濃度如圖4中圖例所示. 對比圖4中曲線和劃線的差別可知, CH4氣體的吸收信號(Group 4)和包含微量CO的混合氣體信號(Group 10)在圖4黑框中(對應采樣點范圍為100到500之間)基本一致, 采用傳統的計算方法無法將微弱的CO吸收信號解調出來.

圖4 三組氣體(Group 1、Group 4、Group 10)的2f/1f信號Fig. 4. 2f/1f signals of three groups of gases (Group 1,Group 4, Group 10).
而本文基于Matlab R2018a平臺, 采用5折交叉驗證經過15次迭代構建SVR模型, 并且采用序列最小最優化(sequential minimal optimization, SMO)算法進行參數優化, 得到兩個SVR模型, 分別命名為CO-SVRmodel和CH4-SVRmodel,這兩個模型的主要參數如表2中所列. 其中, Box-Constraint(C)為懲罰系數, 主要影響模型的泛化能力; KernelScale是歸一化常數;ε是不敏感損失函數設置的損失閾值.

表2 SVR模型主要參數Table 2. Optimal parameters of SVR model.
鑒于混合氣體中CO和CH4氣體的濃度差距在103—104量級, 且兩種氣體的吸收峰會產生明顯的交疊, 所以為了使兩種氣體的回歸模型都能夠得到精準的結果, 兩個模型采用的訓練數據集不完全相同. CH4-SVRmodel的訓練采用整個2f/1f光譜數據進行訓練, 能夠充分反映CH4氣體的吸收譜線特征; CO-SVRmodel則放棄了光譜冗余數據, 選擇只包含CO吸收信息的光譜數據(光譜中的第100—500個點之間的范圍)進行訓練, 如圖4中黑色方框所示.
為了初步驗證兩種氣體SVR模型的可用性,首先對表1中的14組氣體分別進行60組測試, 然后根據回歸模型(CO-SVRmodel, CH4-SVRmodel)分別對CO和CH4氣體進行濃度計算, 得到CO和CH4氣體濃度的計算結果分別如圖5(a) 和圖5(b)所示. 從圖5中可以看出, 不管是CO氣體還是CH4氣體, 基于SVR模型計算得到的結果和真實值相差都不大, 其中CO氣體的誤差最大值為2 × 10—6,CH4氣體的誤差最大值為0.16 × 10—2, 該處及下文中誤差均是指氣體濃度的絕對誤差. 并且可以發現CO和CH4氣體發生最大誤差具有統一性,即都發生在CO氣體濃度為0, CH4氣體濃度為5.02 × 10—2時的測量結果. 出現這種結果的原因是CO和CH4氣體的濃度相差越大, 就會導致CO信號被湮沒地越徹底, 并且在實驗中也發現了濃度為5.02 × 10—2的CH4氣體在信號穩定(觀察信號穩定)后仍然會存在相對大的波動, 也導致了CO和CH4氣體的測量結果在此處產生了最大的誤差.經過驗證, 采用線性核函數, 并且基于以上兩個數據集分別訓練得到的兩個濃度回歸模型比采用整個光譜數據集得到的回歸模型更加精確.

圖5 CO和CH4濃度設置值和測試值對比 (a) CO濃度值; (b) CH4濃度值Fig. 5. Comparisons between set and test values: (a) CO concentration; (b) CH4 concentration.
4.1 節訓練集數據的驗證從一定程度上反映了SVR模型對CO和CH4兩種氣體濃度計算有效. 但是其中訓練集和測試集的濃度設置完全一致, 所以不能很好地說明系統具有良好的泛化能力(泛化能力是指對于訓練數據集之外的數據仍然能夠得到準確的計算結果, 標志著模型是否具有通用性和普適性). 為了更進一步探討該模型的泛化能力, 進行了氣體配比實驗.
將濃度為102 × 10—6的CO氣體與濃度分別為2.02 × 10—2, 4.5 × 10—2的CH4氣體進行1∶4,2∶3, 3∶2, 4∶1比例的混合, 并利用該實驗系統對以上配比的混合氣體進行檢測, 待信號穩定后記錄每組混合氣體30組的數據, 并對其求平均值, 然后根據兩個氣體濃度回歸模型(CO-SVRmodel和CH4-SVRmodel)對得到的數據進行回歸計算. CO和CH4氣體濃度的真實值和測量值之間的相關性,及其測量誤差如圖6所示.

圖6 設置值和測量值之間相關性及測量誤差 (a) CO相關性; (b) CH4相關性; (c) CO測量誤差; (d) CH4測量誤差Fig. 6. Correlation and test errors between set and average values: (a) CO correlation; (b) CH4 correlation; (c) CO errors; (d) CH4 errors.
圖6 (c), (d)可以說明: 基于上文的濃度回歸模型分別對CO和CH4氣體濃度進行濃度測量, CO和CH4氣體濃度誤差分別不超過2 × 10—6和0.1 ×10—2; 且由圖6(a),(b)可知, CO和CH4的真實值與預測值之間的相關系數分別為0.998和0.9995.由此可得CO-SVRmodel和CH4-SVRmodel回歸模型在固定配比數據集上能夠取得良好的濃度回歸測量效果, 證明上述兩個模型良好的泛化能力.
為了驗證該算法在不同濃度的CH4環境下仍能夠對微量CO進行準確測量. 將18 × 10—6的CO氣體和四種濃度的CH4氣體(濃度分別為0.5 ×10—2, 1.04 × 10—2, 2.02 × 10—2, 5.02 × 10—2)進行1∶3的配比, 待信號穩定后進行濃度結果回歸計算,每組配比的氣體進行120組數據測量, 其中CO和CH4的濃度真實值如圖7中黑色數字標注. CO濃度回歸結果和CH4回歸結果如圖7所示. 從圖7中可以看出, 該TDLAS系統結合SVR模型計算得到的CO和CH4氣體濃度在較小的范圍之內波動. 微量CO氣體在受高濃度CH4氣體干擾的條件下, 其最大誤差小于2 × 10—6; 而CH4氣體得到的測量結果最大誤差小于0.2 × 10—2, 證明了系統的抗干擾能力, 說明CO-SVRmodel和CH4-SVRmodel能夠克服吸收譜線數據中的特征干擾問題并得到精確的濃度回歸結果.

圖7 不同濃度CH4對CO測量結果的干擾Fig. 7. Interference on CO measurement results by different concentrations of CH4.
為了更進一步驗證CO-SVRmodel和CH4-SVRmodel兩個濃度回歸模型的動態可靠性, 利用上述實驗系統進行了兩組充氣過程實驗, 分別如下: 在兩組過程中均利用CO-SVRmodel和CH4-SVRmodel得到CO和CH4的濃度結果.
第一組充氣過程中CO和CH4氣體的濃度變化趨勢如圖8所示. 初始狀態氣體池中底氣為1.04 × 10—2的CH4氣體, 在某一時刻, 將濃度為20 × 10—6的CO氣體和濃度為1.04 × 10—2的CH4氣體按照1:1的配比同時打開, 可以觀察到CO氣體濃度逐漸上升, CH4氣體濃度逐漸下降, 且兩者濃度變化過程具有時間上的統一性, 也會隨著時間的推移接近按照1:1比例配比的濃度(CO濃度接近10 × 10—6, CH4濃度接近0.52 × 10—2); 當CO和CH4混合氣體吸收信號無明顯變化, 待信號穩定一段時間后, 關閉CH4氣體氣閥, 保持CO氣體氣閥打開, 可以觀察到CO氣體濃度逐漸上升并趨近20 × 10—6, CH4氣體濃度繼續逐漸下降并趨近0, 且兩者濃度變化過程具有時間上的統一性.

圖8 第一組充氣過程中CO和CH4濃度變化Fig. 8. Concentration measured of CO and CH4 during the first set of inflation.
第二組充氣過程中CO和CH4氣體的濃度變化趨勢如圖9所示. 氣體池中底氣為濃度8.5 ×10—2的CH4氣體和濃度20 × 10—6的CO氣體按照1:1比例混合的氣體, 從圖9中可以看出CO和CH4氣體均能夠獲得比較準確且穩定的結果, 在某一時刻, 關閉CH4氣體氣閥, 保持CO氣體氣閥打開, 此時會發現CH4氣體濃度會微微增大, 再緩慢減小, 直至信號穩定, 此時CH4氣體濃度已經減小到0附近并保持; 在關閉CH4氣閥的同時, 觀察到CO氣體濃度會下降約3 × 10—6, 然后再逐漸上升至20 × 10—6左右并保持. 出現上述現象的原因是由于此時混合氣體中CH4含量較高(為4.25 ×10—2), 關閉CH4氣閥瞬間, 信號會產生波動, 而該波動對多峰的CH4濃度回歸計算影響較小, 但是對特征量較少的CO氣體濃度回歸計算會產生較大的影響.

圖9 第二組充氣過程中CO和CH4濃度變化Fig. 9. Concentration measured of CO and CH4 during the second set of inflation.
通過上述兩組充氣過程的驗證, TDLAS系統結合SVR模型能夠對包含微量CO和濃度不超過4.25 × 10—2的CH4的混合氣體進行動態實時監測, 且在整個動態過程中能夠將CO和CH4的誤差分別控制在3 × 10—6和0.5 × 10—2; 待信號穩定后, 利用該回歸模型得到的CO和CH4濃度誤差仍然不超過2 × 10—6和0.2 × 10—2. 充氣動態過程實驗充分驗證了基于SVR模型解調CO和CH4混合氣體重疊干擾吸收譜線的可靠性和完備性.
本文基于2.3 μm的DFB激光器以CO、CH4和氮氣混合氣體濃度測量時的譜線交叉干擾共性問題為例, 提出了基于支持向量回歸模型的混合氣體濃度解析方法, 實現了CH4和微量CO的混合氣體濃度的同時測量. 為了確保濃度回歸模型的準確性和高效性, 根據吸收譜線的特征對2f/1f數據進行了合理切割和利用, 分別得到了兩種氣體的回歸預測模型. 基于這兩個模型, 進行了固定配比的驗證實驗、混合氣體濃度定量解析及組分變化過程實驗. 在固定配比實驗中, 可以得到CO和CH4氣體的測量值與真實值的相關性分別為0.998, 0.9995,證明了該系統具有良好的泛化能力. 混合氣體濃度同時測量實驗說明在高濃度CH4與微量CO氣體同時共存的氣體環境下, CO氣體回歸計算結果絕對誤差不超過2 × 10—6, CH4回歸結果的絕對誤差不超過0.2 × 10—2. 上述結果證明, 基于SVR原理構建的回歸預測模型具有自動提取吸收譜線特征、抗干擾性強、回歸預測結果準確等優點, 可有效地解決激光光譜技術在混合氣體測量過程中遇到的吸收譜線重疊干擾問題, 為該技術面臨的共性技術難題及其應用提供了新的解決方法.