馮 春, 趙南京, 殷高方, 甘婷婷, 陳曉偉,陳 敏, 華 卉, 段靜波, 劉建國
1. 中國科學院環境光學與技術重點實驗室, 中國科學院安徽光學精密機械研究所, 安徽 合肥 230031 2. 中國科學技術大學, 安徽 合肥 230026 3. 安徽省環境光學監測技術重點實驗室, 安徽 合肥 230031
近年來多波長透射光譜因具有豐富的特征光譜信息成為研究水體致病菌的重要工具。 不少學者結合細菌的多波長透射光譜建立光譜解析模型, 研究了細菌大小、 濃度和化學組分等特征信息的獲取方法[1-3]。 目前雖然在水體致病菌的多波長透射光譜識別方面已經開展了一定的研究工作[4-5], 但由于不同細菌微生物的光譜相似性較高, 且光譜會隨細菌微生物所處環境條件的變化而變化, 比如濃度、 生長階段等, 這些因素大大增加了細菌微生物的識別難度。 分析不同細菌多波長透射光譜的特征差異性, 可以更好地實現基于多波長透射光譜法的水體致病菌的識別。
在目標分析物的光譜特征提取和光譜識別方法研究方面, 高斌等以移動平滑算法處理光譜數據, 通過“組合放大”提取光譜特征并基于BP神經網絡完成對不同動物血液的熒光光譜識別[6]; 宮鵬等研究了高光譜數據處理的一系列方法,結合神經元網絡算法實現不同針葉樹種的光譜差異分析與識別[7]; 張正勇等將紫外可見光譜與化學計量法相結合提取光譜特征, 進行白酒年份的鑒別[8]。 鑒于此, 本文以肺炎克雷伯氏菌、 金黃色葡萄球菌、 鼠傷寒沙門氏菌、 銅綠假單胞菌和大腸埃希氏菌為研究對象, 獲取細菌在不同狀態下的多波長透射光譜, 對光譜進行歸一化處理得到了細菌光譜的最佳測量范圍, 通過方差分析法得到光譜變動最顯著的特征波長區間, 在該區間提取200 nm處的吸光度值及短波段的斜率值等光譜特征值, 結合支持向量機對不同細菌種類進行識別, 為水體細菌快速識別和檢測提供技術支持。
肺炎克雷伯氏菌(K.pneumoniae)、 大腸桿菌(E.coli)、 鼠傷寒沙門氏菌(S.typhi)、 金黃色葡萄球菌(S.aureus)和銅綠假單胞菌(P.aeruginosa)5種水體常見致病性細菌微生物菌種均購于中國工業微生物菌種保藏管理中心(China Center of Industrial Culture Collection,CICC); 牛肉膏蛋白胨培養基(主要成分及其質量分數, 牛肉膏: 0.3%, 氯化鈉: 0.5%, 蛋白胨: 0.5%; pH: 7.2); 去離子水等。
紫外可見分光光度計(UV2550, 日本島津), 高速冷凍離心機(H-1650R型, 江東), 壓力蒸汽滅菌鍋(YX-280D型, 上海華泰), 超凈工作臺(SW-CJ-ID型, 蘇州安泰), 組合式光照振蕩培養箱(MQP-B3G型, 上海旻泉)等。
將液體培養基及所用器皿在121 ℃下滅菌20 min后, 在超凈臺上用接種環挑取斜面固體培養基中的一個細菌菌落, 接種到液體培養基中, 將接種后的細菌培養液放入培養箱, 在溫度為35 ℃, 轉速為120 r·min-1條件下進行培養。 培養到特定生長階段, 取適量細菌培養液于離心管中, 在12 000 r·min-1的轉速下離心5 min, 倒出上清液; 再向離心管中倒入去離子水, 同樣轉速下對細菌離心洗滌三次, 將離心洗滌后的細菌再次分散在去離子水中, 并對該細菌懸浮液進行稀釋, 獲得不同濃度的細菌懸浮液用于細菌多波長透射光譜的測量。
取搖勻后的細菌懸浮液3.5 mL加于石英比色皿中進行多波長透射光譜測量, 以去離子水為參比扣除背景, 消除雜散光。 多波長透射光譜測量范圍為200~900 nm, 采樣間隔為1 nm。
消除細菌濃度對光譜的影響, 需要對細菌的多波長透射光譜進行歸一化處理, 根據胡玉霞的研究, 總和歸一化的光密度譜的標準偏差值最小, 該歸一化方法得到的細菌濃度反演的結果準確性和穩定性最好[9]。
τ=τi/sum(τi)
其中τ表示經總和歸一化后的光譜數據, τi表示原光譜數據第i個波長點對應的光密度值, i從200到900。
數據量很大的情況下, 需要進行一定的特征提取, 或者有些特征之間相互關聯, 其中一些特征可以用其他特征來表述, 利用特征提取來達到問題化簡、 處理方便的目的。
利用方差分析法計算歸一化預處理后的光譜陣在200~900nm區間內各波長的標準偏差, 對應標準偏差越大的波長, 其光譜變動越顯著, 給定一閾值來選取用于細菌識別的特征波長區間, 在此區間進行光譜特征值的提取。 基于matlab平臺對特征波長區間進行特征值提取, 利用find函數提取200nm處的光密度值作為第一特征值, 利用polyfit函數提取200~245, 250~275和280~300nm波段的斜率值分別作為第二、 三、 四特征值, 得到一個降維后的特征值矩陣。
支持向量機(supportvectormachines,SVM)是建立在統計學習理論VC維理論和結構風險最小化原理上的機器學習方法[10], 其主要思想是建立一個超平面作為決策曲面, 使正反例之間的隔離邊緣被最大化。SVM工具箱種類很多, 本研究所用程序采用臺大林智仁的libsvm[11]中的多類模式識別, 易于使用且快速有效。 在特征提取的基礎上, 將所有樣本隨機劃分為訓練集和測試集, 支持向量機選擇懲罰因子模型以及線性核函數, 通過尋優算法確定最佳的懲罰因子參數c和核函數參數g, 再對測試集樣本進行測試, 得到細菌種類的識別結果。
以金黃色葡萄球菌為例, 將細菌懸浮液進行稀釋得到一系列濃度梯度的金黃色葡萄球菌測試樣品, 并進行多波長透射光譜測量, 對測得的光譜進行總和歸一化預處理, 并將高濃度和低濃度測試樣品的歸一化光譜進行對比分析, 結果如圖1所示。
由圖1可以看出, 細菌濃度越高, 對應的光譜吸光度值越大, 高濃度的歸一化光譜特征峰更明顯但重合度并不高, 低濃度的歸一化光譜具有很好的重合性, 其他四種細菌的光譜圖也有類似的規律。 當細菌樣品濃度高時, 吸光粒子間的平均距離減小, 受粒子間電荷分布相互作用的影響, 摩爾吸收系數發生改變, 偏離朗博比爾定律。 通過實驗確定當細菌的多波長透射光譜最大吸光度值不超過1.5a.u.時, 對光譜進行歸一化處理可以有效消除濃度對細菌光譜的影響。

圖1 金黃色葡萄球菌在不同濃度下的多波長透射光譜圖及歸一化圖(a): 金黃色葡萄球菌不同濃度的光譜圖; (b): 各不同濃度光譜圖的歸一化譜圖;(c): 高濃度光譜圖的歸一化譜圖; (d): 低濃度光譜圖的歸一化譜圖Fig.1 Multi-wavelength transmission spectra and normalized images of S.aureus at different concentrations(a): Spectra of S.aureus at different concentrations; (b): Normalized spectra of different concentrations;(c): Normalized spectra at high concentrations; (d): Normalized spectra at low concentrations
以余弦相似度[12]度量歸一化處理方法對不同細菌光譜間的影響, 余弦相似度越低, 說明光譜差異性越大, 余弦相似度越高, 說明光譜差異性越小。 對原始光譜和歸一化處理后的光譜差異程度進行對比分析, 結果表1所示。
由表1可知, 對光譜進行歸一化變換后, 各光譜間的相似度值不變, 說明歸一化處理并不影響不同細菌微生物光譜之間的差異性程度, 歸一化處理能最大程度保留光譜的原始信息。

表1 不同細菌微生物光譜之間的余弦相似度Table 1 Cosine similarity between different microbial spectra of bacteria
選擇五種細菌的低濃度樣品的光譜曲線各12條進行歸一化預處理, 得到五種細菌的歸一化光譜, 對細菌的12條歸一化后的光譜曲線求平均值得到平均值曲線, 即為五種細菌各自的歸一化光譜圖趨勢線, 結果如圖2所示。

圖2 五種細菌低濃度下的多波長透射光譜歸一化趨勢圖Fig.2 Normalized trend graphs of multi-wavelength transmission spectra of five low bacteria concentration samples
利用方差分析法計算歸一化預處理后的光譜陣在200~900 nm區間內各波長下的標準偏差, 標準偏差越大, 其光譜變動越顯著, 通過確定一閾值得到細菌的特征波長區間, 根據該區間提取實驗樣本多波長透射光譜的特征值作為細菌種類識別的光譜數據。 方差分析的結果如圖3所示。

圖3 細菌多波長透射光譜的方差分析圖Fig.3 Variance analysis diagram of multi-wavelengthtransmission spectrum of bacteria
根據圖3顯示, 選擇200~300 nm波段為特征波長區間, 在此區間提取不同種類細菌的光譜特征值, 選擇圖2中200 nm處對應的光密度值, 200~245 nm波段、 250~275 nm波段和280~300 nm波段的曲線斜率進行特征值提取, 結果如表2所示。

表2 五種細菌微生物的多波長透射光譜歸一化圖差異性對比Table 2 The difference of normalized graph of multi-wavelength transmission spectra of five kinds of bacteria
從表2可以看出五種細菌多波長透射光譜在200 nm處的吸光度值及200~245, 250~275和280~300 nm波段的斜率具有差異性, 五種細菌在200 nm處的吸光度值分別為0.006 5, 0.005 1, 0.007 4, 0.007 5和0.008 5, 在200~245 nm波段處的斜率值為-62.45, -35.94, -81.30, -82.67和-103.49, 250~275 nm波段處的斜率值為-15.48, -14.82, -20.91, -13.92和-26.21, 280~300 nm波段處的斜率值為-29.96, -24.62, -33.71, -36.09和-30.88。
選取五種細菌96個樣本, 一部分作為訓練集(49), 一部分作為測試集(47), 五種細菌的標簽分別是1, 2, 3, 4和5。 對樣本數據進行歸一化預處理, 分別選取200 nm處的吸光度值作為第一特征值, 200~245 nm波段、 250~275 nm波段和280~300 nm波段的斜率值作為第二、 第三、 第四特征值, 利用訓練集得出的模型對測試集進行預測, 得到五種細菌的預測準確率如表3所示。

表3 支持向量機對五種細菌的識別率Table 3 The recognition rates of five kindsof bacteria by libsvm
由表3可以看出, 五種細菌預測集的預測準確度均達到100.0%, 說明通過歸一化數據預處理得到的細菌多波長透射光譜特征值(200 nm處的吸光度值及200~245, 250~275和280~300 nm波段的斜率值)結合支持向量機(libsvm)可以快速對不同種類的細菌進行識別。 將細菌的多波長透射光譜數據直接作為識別模型的輸入, 訓練模型時需處理上百上千的數據, 而對光譜數據進行預處理并提取特征值后, 模型需處理的數據量不僅大量減少, 避免了數據冗余影響模型的識別精度, 而且提取的特征值可以最大限度體現不同種類細菌光譜的差異, 有助于快速準確識別不同種類的細菌。
對水體細菌進行多波長透射光譜測量, 細菌樣品的濃度滿足最大吸光度值不超過1.5 a.u.的情況下, 對細菌的多波長透射光譜進行歸一化預處理可以有效消除細菌濃度的影響, 且保留原始光譜的完整信息。 經歸一化預處理之后, 利用方差分析法得到特征波長區間在200~300 nm波段, 在該區間提取200 nm處的吸光度值及200~245 nm波段、 250~275 nm波段、 280~300 nm波段處的斜率特征值, 結合支持向量機建立識別模型, 能夠很好地用于不同細菌種類的識別, 對肺炎克雷伯氏菌、 金黃色葡萄球菌、 鼠傷寒沙門氏菌、 銅綠假單胞菌和大腸埃希氏菌的預測準確度可達100.0%。 基于多波長透射光譜技術的特征值提取結合支持向量機在水體細菌微生物快速檢測和識別應用方面具有很大潛力。