鞠 薇,魯昌華,張玉鈞,陳曉靜,蔣薇薇
1.安徽大學互聯網學院,安徽 合肥 230039 2.合肥工業大學計算機與信息學院,安徽 合肥 230009 3.中國科學院合肥物質科學研究院,安徽 合肥 230031
有機化合物中組分的種類及含量信息是決定其性質的關鍵因素。有機物分子在中紅外波段具有發射和吸收紅外輻射的能力,不同種類及含量的有機物分子的紅外光譜呈現出位置及幅度不同的紅外吸收峰。
紅外光譜技術發展至今,已形成較為完善的理論體系,能夠通過精密光譜測量儀器獲取高分辨率以及寬波段的有機物紅外光譜,如何利用高效分析算法快速精確地計算出光譜中包含的有機物信息是紅外光譜技術領域現階段的研究重點。紅外光譜定量回歸方法通過對大量紅外光譜樣本進行篩選及優化,提取光譜數據中的有用信息并利用該信息解析未知光譜中包含的有機物組分。常用的光譜定量回歸算法為化學計量學方法中的經典最小二乘(classical least squares, CLS)、多元線性回歸(multiple linear regression, MLR)、偏最小二乘(partial least squares, PLS)等。隨著近年來機器學習技術的迅猛發展,研究人員嘗試利用支持向量機(support vector machine, SVM)[1],隨機森林(random forest, RF)[2],決策樹(decision tree, DT)[3],卷積神經網絡(convolutional neural networks, CNN)[4]等算法對紅外光譜數據進行分類以及定量回歸,與化學計量學相比,機器學習算法在處理非線性數據上表現出明顯的優越性。
機器學習中不同算法在預測準確性、穩定性以及時間效率上分別有著不同的優異表現,集成學習(ensemble learning)通過融合各類機器學習算法的優點,獲取更為優異的泛化性能。……