張小鳴 湯寧



摘 要: 近紅外光譜技術是檢測土壤信息的有效工具,為了提高預測模型的準確度和建模效率,需要對波長進行優選。提出SiPLS?GA?SPA特征波長提取方法,即協同區間偏最小二乘算法(SiPLS)、遺傳算法(GA)和連續投影算法(SPA)對土壤有機質特征波長進行梯度提取,最終從1 050個波長中提取9個土壤有機質的特征波長。利用偏最小二乘回歸(PLSR)和支持向量機回歸(SVMR)建立6種基于特征波長的土壤有機質含量預測模型。結果表明:SiPLS?GA?SPA?SVMR模型的預測結果為RMSEP=1.15,R2=0.91,優于其他模型;SiPLS?GA?SPA特征波長提取方法能夠簡化預測模型,提高模型預測精度,為開發便攜式近紅外光譜土壤養分檢測儀提供理論基礎。
關鍵詞: 近紅外光譜; 特征波長; 協同區間偏最小二乘; 遺傳算法; 連續投影算法; 支持向量機回歸
中圖分類號: TN929?34 文獻標識碼: A 文章編號: 1004?373X(2018)22?0126?04
Abstract: The near infrared spectroscopy technology is an effective tool for detecting soil information, and wavelength optimization is necessary to improve the accuracy and modeling efficiency of the prediction model. Therefore, an SiPLS?GA?SPA feature wavelength extraction method is proposed. The synergy interval partial least squares (SiPLS), genetic algorithm (GA) and successive projection algorithm (SPA) are combined to conduct gradient extraction for feature wavelengths of soil′s organic matter, and 9 feature wavelengths of soil′s organic matter are extracted from 1050 wavelengths. The partial least squares regression (PLSR) and support vector machine regression (SVMR) are adopted to establish 6 soil′s organic matter content prediction models based on feature wavelengths. The results show that, the prediction results of the SiPLS?GA?SPA?SVMR model (RMSEP=1.15, R2=0.91) are superior to other models, and the SiPLS?GA?SPA feature wavelength extraction method can simplify the prediction model and improve the prediction accuracy of the model, which provides a theoretical basis for the development of the portable near infrared spectroscopy soil nutrient detector.
Keywords: near infrared spectrum; feature wavelength; synergy interval partial least squares; genetic algorithm; successive projection algorithm; support vector machine regression
可見/近紅外光譜區幾乎包含了有機物中所有含氫基團的信息,信息量極為豐富,能夠實現對物質的定性和定量分析[1]。光譜檢測技術具有分析速度快、多組分同時測定、非破壞性分析、低分析成本和操作簡單等顯著特點[2]。能夠適應現代精準農業(Precision Agriculture)對土壤養分信息實時準確、快速、大范圍獲取的要求。土壤有機質(SOM)是評價土壤肥力高低的重要指標,快速有效測定土壤有機質含量,對指導農業耕種中作物種植和施水施肥都有很大指導意義。
本文提出協同區間偏最小二乘(SiPLS)、遺傳算法(GA)和連續投影算法(SPA)對土壤有機質的特征波長進行梯度提取,從1 050個波長中選擇出9個土壤有機質的特征波長,利用偏最小二乘回歸(PLSR)、支持向量機回歸(SVMR)建立基于特征波長的土壤有機質含量預測模型,以期獲得計算量小、精度高的預測模型,為研究便攜式近紅外光譜土壤養分檢測儀提供技術參考。
土壤樣本光譜數據來源于網絡(http://www.models.life.ku.dk/NIRsoil),包含了在瑞典北部阿比斯庫地區進行的一項長期田間試驗采集到的108個土壤樣本的近紅外吸光度光譜數據,光譜波長區間為400~2 498 nm,光譜分辨率為2 nm,共1 050個波長點,其中土壤有機質含量采用550 ℃條件下的灼燒失重法測定[3]。
2.1 異常樣本剔除與樣本劃分
土壤樣本采集和光譜數據獲取過程中可能會產生異常樣本,剔除異常樣本能夠提高模型的穩定性和預測精度,采用蒙特卡洛異常值剔除法[4]剔除異常樣本,樣本預測誤差的平均值和標準偏差中有一項明顯大于其他樣本的可視為異常樣本。共剔除異常樣本6個,剔除后總樣本數變為102。
具有代表性的校正集樣本能夠加速模型回歸,提高模型預測精度。利用SPXY[5]算法計算樣本光譜吸光度與待測有機質含量之間的歐氏距離,相比于其他樣本劃分算法,SPXY考慮光譜矩陣的同時能將預測屬性也考慮在內。有效覆蓋多維向量空間,改善模型預測能力[6]。SPXY算法劃分校正集樣本82個,預測集樣本20個,樣本的有機質含量統計數據結果如表1所示。
2.2 光譜數據預處理
數據預處理技術能解決光譜數據中噪聲的抑制和消除,增強光譜吸收特征,提高模型性能。經反復對比研究,采用平滑點數為5、多項式階數為2的Savitzky?Golay(SG)平滑對光譜數據進行預處理,能消除光譜基線漂移和傾斜噪聲。由于土壤顆粒大小不均勻,其漫反射光譜中包含有光散射造成的噪聲,多元散射校正(Multiple Scattering Correction,MSC)將光譜中散射信號與化學吸收信息進行分離,消除在漫反射光譜測量中由于樣本顆粒不均勻造成的樣本光譜差異[7],故對SG平滑后光譜數據再利用MSC進行預處理。圖1為SG結合MSC預處理后的光譜曲線圖。
2.3 特征波長提取
SiPLS是將光譜數據劃分為一定數目的等長子區間,計算2,3或4個區間所有可能組合的PLS模型[8],在土壤有機質特征區間不確定的情況下,對子區間的劃分數進行優化,確定特征子區間,研究中將全部波長劃分為11~25個子區間。表2為不同區間數下SiPLS模型所對應的最小交互驗證均方根誤差(RMSECV),將其最小的區間組合作為最優選擇。由表2可知,當全部波長劃分為24個子區間時,每個子區間44個波長,4個子區間分別為4,10,12,16組合后建立的PLS模型RMSECV值最小為1.48,即選擇特征區間波段為664~752 nm,1 192~1 280 nm,1 368~1 456 nm和1 720~1 808 nm。它們在全部光譜中的位置如圖2所示。
近紅外光譜都具有一定的連續性,有效波長點附近的波長點對預測的土壤養分也有較強解釋性和化學意義[9]。SiPLS算法從1 050個波長中篩選出4個子區間共176個波長,能夠很好地反映土壤有機質含量,也很大程度減少了波長數,但SiPLS算法優選出的是波長區間,相鄰波長變量之間仍然存在較強共線性和冗余。遺傳算法(GA)是一種全局概率搜索算法,借鑒生物進化和自然選擇機制,利用選擇、交換和突變等算子的操作使目標函數值最優的變量“優勝劣汰”[10]。遺傳算法進行波長選擇是產生大量的波長組合,能很好保留波長之間的協同效應。因此利用GA進一步篩選,GA主要參數設置:最大繁殖代數為100,交叉概率為0.5,變異概率為0.01,由于遺傳算法存在一定的隨機性,故運算10次以消除影響。圖3為各變量被選頻率圖。頻數大于黑色虛線的變量為入選變量,篩選波長變量53個。但被選變量仍然較多,還存在一定的冗余信息。連續投影算法(SPA)是利用向量的投影分析,尋找含有最低限度冗余信息的變量組,能有效克服光譜數據的共線性和冗余,減少建模變量,降低建模復雜度[11]。利用SPA在GA的基礎上進一步提取與有機質相關的特征波長,提取結果如圖4所示。
2.4 預測模型建立與分析
2.4.1 模型的評價指標
模型評價指標包括衡量自變量和因變量之間線性相關程度的決定系數(R2),反映樣本預測值和實測值之間誤差大小的預測均方根誤差(RMSEP)和能夠評價模型預測能力的相對分析誤差(RPD)。
2.4.2 偏最小二乘回歸
偏最小二乘回歸(PLSR)是應用廣泛的定量分析方法,將典型相關性分析、主成分分析和回歸分析結合。盡可能多地保留光譜矩陣中有用信息的同時保證與待測成分的相關程度最大。能充分反映出波長與待測成分之間的相互關系[12]。構建基于SiPLS優選波長區間,SiPLS?GA和SiPLS?GA?SPA優選特征波長的PLSR模型,采用留一交叉驗證法防止模型過擬合,需要優化的參數是潛在變量(Latent Variables,LVs)個數,并將預測集20個樣本作為建立的模型輸入,結果如表3所示。
2.4.3 支持向量機回歸(SVMR)
對于土壤養分的近紅外模型構建,線性建模方法已經有了廣泛應用,是目前的主流方法,支持向量機算法(SVM)是一種基于核函數的學習算法,在分類和回歸中有很廣泛的應用[13]。研究采用基于徑向基核函數(RBF)的SVMR算法對土壤的有機質含量進行預測分析,同樣建立了3種基于特征波長的SVMR土壤有機質預測模型,并將預測集20個樣本作為建立的模型輸入進行預測,結果如表4所示,核函數的懲罰參數c和核參數g采用網格法進行優化,最終選擇c=100;g=0.000 1。
比較建立的6種模型發現SVMR預測性能要優于PLSR,可能是因為土壤的形成和發育過程復雜,土壤中的有機質含量與光譜特征之間存在著非線性關系。在兩種回歸模型中基于SiPLS?GA?SPA優選特征波長的預測模型要優于其他兩種,且SiPLS?GA優于SiPLS,說明由于SiPLS提取的是連續波長區間,相鄰波長之間仍然存在較強的共線性, GA進一步選擇后能夠消除一部分冗余波長,但選擇的波長數還有較多冗余信息仍然存在,SPA算法擅長消除變量間的冗余。所以三種算法聯用時各自優缺點能夠得到互補,提取出最有效的土壤有機質特征波長。
采用SiPLS?GA?SPA方法選擇土壤有機質的特征波長,將原始的1 050個波長減少到9個,減少了模型的計算量,簡化了模型的復雜度,SiPLS算法能夠減少建模變量同時能夠提高模型的穩定性。但由于近紅外光譜高度重疊的特性,相鄰變量之間有很強的共線性。因此使用GA算法對SiPLS選擇的波長區間進行變量的組合優化,篩選出最有效的變量組合。在此基礎上利用SPA算法進一步消除冗余,減少建模變量,結合SVMR算法預測土壤有機質取得較高的精度,為便攜式近紅外光譜土壤養分檢測儀提供理論支撐。
參考文獻
[1] 宋海燕.土壤近紅外光譜檢測[M].北京:化學工業出版社,2013.
SONG Haiyan. The soil′s near infrared spectroscopy detection [M]. Beijing: Chemical Industry Press, 2013.
[2] 劉燕德,熊松盛,劉德力.近紅外光譜技術在土壤成分檢測中的研究進展[J].光譜學與光譜分析,2014,34(10):2639?2644.
LIU Yande, XIONG Songsheng, LIU Deli. Application of near infrared reflectance spectroscopy technique (NIRS) to soil attributes research [J]. Spectroscopy and spectral analysis, 2014, 34(10): 2639?2644.
[3] RINNAN R, RINNAN A. Application of near infrared reflectance (NIR) and fluorescence spectroscopy to analysis of microbiological and chemical properties of arctic soil [J]. Soil biology & biochemistry, 2007, 39(7): 1664?1673.
[4] 楊峰,張勇,諶俊旭,等.高光譜數據預處理對大豆葉綠素密度反演的作用[J].遙感信息,2017,32(4):64?69.
YANG Feng, ZHANG Yong, CHEN Junxu, et al. Effects of hyperspectral data pretreatment on model inversion of soybean chlorophyll density [J]. Remote sensing information, 2017, 32(4): 64?69.
[5] 陳奕云,齊天賜,黃穎菁,等.土壤有機質含量可見?近紅外光譜反演模型校正集優選方法[J].農業工程學報,2017,33(6):107?114.
CHEN Yiyun, QI Tianci, HUANG Yingjing, et al. Optimization method of calibration dataset for VIS?NIR spectral inversion model of soil organic matter content [J]. Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(6): 107?114.
[6] GALV?O R K H, ARAUJO M C U, JOS? G E, et al. A method for calibration and validation subset partitioning [J]. Talanta, 2005, 67(4): 736?740.
[7] 王瑛瑛.土壤有機質近紅外光譜分析及相關軟件開發[D].合肥:中國科學技術大學,2014.
WANG Yingying. The near?infrared spectroscopy analysis of organic matter and related software development [D]. Hefei: University of Science and Technology of China, 2014.
[8] YANG M, CHEN Q, KUTSANEDZIE F Y H, et al. Portable spectroscopy system determination of acid value in peanut oil based on variables selection algorithms [J]. Measurement, 2017, 103: 179?185.
[9] 楊海清,祝旻.基于可見?近紅外光譜特征波長選擇的土壤有機質快速檢測研究[J].紅外,2015,36(2):42?48.
YANG Haiqing, ZHU Min. Study of rapid detection of soil organic matter based on characteristic wavelength selection of visible?near infrared spectra [J]. Infrared, 2015, 36(2): 42?48.
[10] 賓俊,范偉,周冀衡,等.智能優化算法應用于近紅外光譜波長選擇的比較研究[J].光譜學與光譜分析,2017,37(1):95?102.
BIN Jun, FAN Wei, ZHOU Jiheng, et al. Application of intelligent optimization algorithms to wavelength selection of near?infrared spectroscopy [J]. Spectroscopy and spectral analysis, 2017, 37(1): 95?102.
[11] 章海亮,羅微,劉雪梅,等.應用遺傳算法結合連續投影算法近紅外光譜檢測土壤有機質研究[J].光譜學與光譜分析,2017,37(2):584?587.
ZHANG Hailiang, LUO Wei, LIU Xuemei, et al. Measurement of soil organic matter with near infrared spectroscopy combined with genetic algorithm and successive projection algorithm [J]. Spectroscopy and spectral analysis, 2017, 37(2): 584?587.
[12] MORELLOS A, PANTAZI X E, MOSHOU D, et al. Machine learning based prediction of soil total nitrogen, organic carbon and moisture content by using VIS?NIR spectroscopy [J]. Biosystems engineering, 2016, 152: 104?116.
[13] ROSSEL R A V, BEHRENS T, GUERRERO C, et al. Using data mining to model and interpret soil diffuse reflectance spectra [J]. Geoderma, 2010, 158(1): 46?54.