辛忠洋
(中國移動通信集團山東有限公司濟寧分公司,山東 濟寧 272000)
作為對氣體進行檢測的技術之一,機器嗅覺可被拆分成兩部分,分別是對傳感數據進行采集、對采集數據進行處理,其中,對系統輸出起決定作用的環節為數據處理。氣體數據是指氣體傳感器以陣列為依托,通過長期收集所得到數據。對數據進行收集期間,相關人員應對壓力、溫度等外部環境嚴加控制。
對氣體數據加以表示所用音頻及圖像數據,通常有顯著差異存在,相關人員考慮到氣體數據的獲得途徑是陣列采樣,故提出用以下公式對數據樣本進行表達:

式中,si為數據特征i;m為特征數量。由此可見,要想使特征數據集得到準確表示,可采用以下公式:

式中,gj為樣本數據j;n為樣本數量。要想使機器學習算法取得符合心理預期的良好分類效果,關鍵是提前處理氣體數據。對諸多因素加以考慮后,相關人員提出以下處理策略:一是數據標準化,二是PCA。其中,PCA需要尤為注意,作為著重分析主成分的技術,PCA強調以降維思想為指導,確保單指標能夠被有效轉變成綜合指標。
2.1.1 評價指標
對回歸模型進行評價的指標,主要有MSE、MAE和RMSE,其中,對MSE進行計算的公式為:

由上述公式可知,該指標強調先對真實值、預測值進行減法計算,獲得偏方后,再對平均值進行求解。由于回歸模型的損失函數多為MSE,這也表明在預測環節將MSE視作評價指標有實際意義。
對MAE進行計算的公式為:

作為線性分數的一種,MAE的特點是個體誤差對應平均值有相等權重,即:個體誤差均要接受線性懲罰。上文提到的MSE和下文即將介紹的RMSE,其誤差懲罰均為非線性懲罰,這點較易被忽略。
RMSE是以MSE為基礎所進行的開根計算,其公式為:

如果數據有偏大的數量級,將有一定概率出現較高平方誤差,對MES進行開根計算,可保證誤差結果與數據始終處于相同數量級。
2.1.2 人工神經網絡
將ANN和回歸問題相結合,損失函數往往為MSE,要求相關人員以梯度下降法為依托,對模型進行優化訓練。除特殊情況外,網絡輸出層均不對激活函數加以使用,這是因為預測數值范圍有一定概率出現超出常用值域范圍的問題,進而使預測計算無法更進一步。對人工神經網絡進行訓練較易出現過擬合情況。基于ANN所展開訓練可被劃分到監督學習陣營,要想使訓練效果達到預期,關鍵是要有充足的標簽樣本提供支持。本文所研究氣體傳感器相關數據,通常要經過數年的收集或累積,可被用來輔助訓練展開的樣本數量有限,對網絡進行訓練的難度不言而喻。要想使上述問題得到解決,關鍵是以實際情況為依據,通過提前終止或是數據增強等方法,確保過擬合問題可得到有效預防[1]。
2.1.3 支持向量機
回 歸 數 據 集 固 定,通 常 是T={(x1,y1),(x2,y2),…,(xN,yN),},其中,xi的取值范圍是Rn,i的取值范圍是1至N。相關人員希望能夠得到取值與y相近的回歸模型:

在該模型中,w、b均屬于模型參數。常規回歸模型用來展開損失計算所依托對象,通常以真實值、模型輸出值為主,只有二者數值相等,才能得出損失是0的結論。本文所討論支持向量機的特點,則是能夠容忍二者有誤差ε存在,只有二者誤差較ε更大時,才會對損失進行計算。
基于支持向量機所建立回歸模型、分類模型,在優化問題的處理方面,通常會采取相同的方法,即:先借助拉格朗日乘子將優化問題轉變成對偶問題,再對問題進行解答。求解時,相關人員可根據實際情況決定是否用核函數對內積進行替代,確保特征能夠得到自低維至高維的有序映射。但要注意一點,計算對象首選低維,這樣做可降低計算難度,保證計算準確。
2.2.1 實驗說明
相關人員出于對比不同算法所取得分類效果的考慮,決定以前人研究所得氣體傳感器相關數據為依據,通過隨機挑選的方式,確定本次實驗所需乙醇樣本,共600個,樣本的乙醇濃度在10至600間。將乙醇樣本平均分成3組,每組的樣本數量為200個,僅對第1組樣本進行訓練,剩余兩組作為測試組。為確保實驗有實際意義,相關人員還制定了以下對比方案:方案1,僅利用Z-score對數據進行處理。方案2,在利用Z-score進行處理的基礎上,借助PCA完成降維與特征提取操作。
2.2.2 人工神經網絡
在參數過多的情況下,ANN有一定概率出現過擬合情況。而較多的網絡層數所帶來的問題,通常是梯度消失。對諸多因素加以考慮后,相關人員提出以隱藏層數量為一個的網絡為依據,對回歸任務進行落實,將該網絡隱藏層共設128個神經元并接入ReLU,用來對函數進行激活,輸出層則不對激活函數加以使用。另外,相關人員還計劃通過提前終止的方式,對過擬合問題進行控制。本次實驗的結果如下:

表1 回歸結果
由實驗結果可知,基于人工神經網絡所建立回歸模型,對方案1加以使用,通常可取得較為理想的效果,簡單來說,就是憑借Z-score處理特征數據。這表明PCA降維所造成影響,往往集中在特征表達領域,方案2優勢的發揮自然會受到制約。
2.2.3 支持向量機
相關人員出于對傳感器數據所存在聯系進行準確表達的考慮,決定利用徑向基函數完成回歸實驗,借助網格搜索法,對C和gamma的最優值加以確定,作出這一決定的原因,主要是徑向基函數有極強的映射能力。表2為網格搜索結果。

表2 不同方案的最優超參數
相關人員可借助最優超參數,基于不同方案分別訓練第1組數據,將R2視為評價回歸結果的核心指標,對比其他組數據,得出表3的結果。

表3 回歸結果

對上述計算公式進行分析能夠發現,R2≤1,這表明R2的取值越靠近1,模型效果越理想,如果R2=1,則表明當前預測結果無誤差存在,若R2=0,該模型則具備成為基準模型的條件。這里提到的基準模型,主要是指并未對特征取值加以考慮,而是以樣本均值為依據,對預測值加以確定的模型。由此可見,將R2視為評價模型質量的指標,即便評價對象不同,最終結果仍有實際意義。
結合表3所給出數據可知,方案2所取得回歸效果較方案1更符合預期,這表明基于PCA做降維處理,可使支持向量機效果得到優化,對氣體樣本相關特征進行提取時,同樣可選擇引入PCA降維,為回歸精度提供保證。
2.2.4 比較分析
上文分別分析了基于不同算法所進行實驗的結果,從不同維度對上述方法進行分析可得出以下結論:其一,將方案2與支持向量機結合,可獲得最接近預期的回歸效果。其二,將方案2與ANN結合,其回歸效果往往差強人意。其三,基于方案1所展開實驗的效果和方案2相反。從全局視角來看,相關人員所采取方案并不會給最終效果帶來決定性影響,即:支持向量機所取得效果,均較人工神經網絡更接近理想水平。
現將本次實驗所得到結論歸納如下,供相關人員參考:首先是對氣體濃度回歸而言,支持向量機所取得效果明顯較人工神經網絡更符合實驗要求。其次是PCA降維與網絡特征表達的關聯十分密切。最后是PCA降維+Z-score的組合,在多數情況下,均可被用來對氣體濃度進行準確預測。
持續發展的機械嗅覺技術,現已被應用在航天航空、食品安全還有環境檢測等領域,作為組成機器嗅覺不可缺少的部分,識別氣體濃度的重要性有目共睹。本文著重討論了如何利用機器學習對氣體數據進行處理,通過實驗分析的方式,對不同算法所取得效果進行對比,并得出可使效果最接近預期的算法,即邏輯回歸+人工神經網絡。