方 向,金 秀,朱娟娟,李紹穩
(安徽農業大學 信息與計算機學院,智慧農業技術與裝備安徽省重點實驗室,安徽 合肥 230036)
土壤速效氮(AN)是農作物生長發育過程中的重要營養來源之一,其含量與土壤的有機質含量有關,能夠很好地反映出近期土壤氮素的供應情況[1]。快速、準確地獲取土壤速效氮的養分信息對于指導精準施肥、促進現代農業的發展具有重要的意義。傳統的土壤養分信息檢測都是采用化學方法,對檢測人員要求高,且存在著檢測效率低、成本高、易造成環境污染等問題,已不能滿足現代精準農業的發展要求。可見-近紅外高光譜分析技術具有易操作、無污染等優點,近年來在土壤養分的定量測定方面越來越受到重視[2-4]。
Shao等[5]采集浙江不同地區的280份土壤樣本,分別利用偏最小二乘回歸(PLSR)和最小二乘支持向量機(LS-SVM)對土壤速效氮含量進行預測建模,結果顯示,LS-SVM的預測精度較高。劉雪梅等[6]在可見/短波近紅外光譜區域利用蒙特卡羅無信息消除方法(MC-UVE)對土壤堿解氮的建模變量進行篩選,應用偏最小二乘法(PLS)建立校正模型,驗證集的決定系數(R2)達到了0.84。Kodaira等[7]以日本北海道Kasai區十勝平原為實驗研究區,分別建立了土壤銨態氮、硝態氮、水解氮、總氮含量的PLSR模型,其總氮預測集的R2大于0.9,相對分析誤差(RPD)大于2.0,屬于A類預測精度,具有良好的預測能力;銨態氮和水解氮預測集的RPD大于1.4,屬于B類預測精度,具有中等的預測能力;硝態氮預測集的RPD小于1.4,屬于C類預測精度,不能用于定量預測。齊海軍等[8]在野外條件下利用以色列中部和北部的2個實驗點共76個土壤樣本展開研究,依次使用Savitaky-Golay卷積平滑(SG)、一階導數、標準正態變換和均值中心化對原始光譜進行預處理,在此基礎上使用Y-GLSW構建濾波模型對變換后的光譜進行濾波校正,最后使用PLSR建立土壤速效氮含量的預測模型,預測集的RPD達到了2.07,屬于A類預測精度,具有很好的預測效果。綜合高光譜技術在土壤速效氮含量檢測方面的研究現狀可知,在室內條件下,基于可見-近紅外光譜測定土壤速效氮含量是可行的,且取得了一定的成果。
本研究以皖南黃山市黃山區和池州市石臺縣兩地為研究區,進行野外土壤采樣、室內理化分析、光譜采集與處理等一系列工作,研究光譜預處理變換、回歸算法等建模環節對土壤AN含量預測精度的影響,探索基于可見-近紅外光譜的土壤AN含量預測方法,為該區域土肥信息的遙感監測提供參考。
在安徽省農業信息化產業技術體系皖南綜合試驗站的支持下,本研究于黃山市黃山區和池州市石臺縣兩地采集土壤樣本。兩地均屬于典型的皖南山地丘陵區,地理坐標為117°29′7″~118°11′1″E,30°8′23″~30°22′25″N。皖南地區氣候溫和,水量充沛,屬于中亞熱帶(北部)濕潤季風氣候,水稻-油菜輪作制是當地最主要的種植方式。
黃紅壤旱地有機質、氮磷缺乏,人工因土施肥對作物增產穩產尤為重要;因此,選擇皖南地區的黃紅壤作為研究對象,進行土壤速效氮含量的高光譜預測研究。采集土壤樣本的區域包括黃山市黃山區烏石鄉桃園基地和池州市石臺縣大演鄉。
實驗集中在2018年7月進行,此時正值暑假,天氣晴朗,適合采集土壤樣本。采用對角線法采樣,共采集耕作層土樣188份,采樣深度為0~20 cm。采集時簡單地去除土壤剖面上的植物根系、碎石塊和其他雜物,混勻后用四分法去掉多余的土壤,收集1.5 kg的純土壤樣本作為1份實驗樣本。將采集得到的土壤樣本帶回實驗室,在通風環境下進行自然風干處理,風干后將土壤磨碎,過2 mm篩,每份土壤樣本分成2份:一份用于高光譜數據采集,另一份用于理化檢測。土壤AN含量采用堿解擴散法測定。
土壤樣本光譜反射率的測定,采用的是蔚海光學儀器(上海)有限公司生產的便捷式地物非成像光譜儀(型號:OFS-1700),波譜范圍為200~1 700 nm,光譜分辨率為2 nm(200~950 nm)和5 nm(950~1 700 nm),重采樣間隔為1 nm。將處理好的2 mm土壤粉末放在直徑4.5 cm、深2.5 cm、內部鋪有黑布(以防雜散光的干擾)的盛樣器皿中,用直尺輕輕地將土樣刮平,再用反射探頭壓緊土壤樣本,防止雜光干擾和漏光,在電腦端打開儀器控制軟件進行光譜采集。對每個土壤樣本,隨機選取3處進行光譜測量,每個土壤樣本測量10條光譜,取其平均值作為土壤樣本的原始光譜。
利用SG、一階導數變換(FD)、二階導數變換(SD)、標準正態變量變換(SNV)、多元散射校正(MSC)、對數變換(LG)、均值中心化(MC)、去趨勢校正(DT)及其組合共計29種預處理方法對原始光譜數據進行校正處理。具體包括FD、SD、SNV、MSC、LG、MC、DT、SNV+DT、SNV+FD、SNV+SD、MSC+FD、MSC+SD、LG+FD、LG+SD、SG、SG+FD、SG+SD、SG+SNV、SG+MSC、SG+LG、SG+MC、SG+DT、SG+SNV+DT、SG+SNV+FD、SG+SNV+SD、SG+MSC+FD、SG+MSC+SD、SG+LG+FD、SG+LG+SD。經多次實驗和對比分析,確定使用2階20點的SG濾波器對可見-近紅外高光譜數據進行平滑去噪。
PLSR算法[9]是一種適用性較廣的化學計量學建模方法,被大量應用于光譜分析中。利用PLSR開展建模分析,其中,潛在變量的個數利用留一交叉驗證的方式,以均方根誤差(RMSE)值為標準進行優選。
在實際的數據分析中,樣本數據之間往往不是簡單的線性關系,可能存在非線性關系。為了讓線性不可分的數據變得線性可分,本研究利用徑向基核函數(RBF)聯合PLSR來建立非線性模型,以此來提高預測模型的精度。使用的非線性核函數為徑向基函數[10]中常用的高斯函數,其表示1個取值僅僅依賴于離原點距離的實值函數,是回歸算法中常用的非線性核函數,公式如下:
(1)
采用Scikit-learn庫的train_test_split()函數,通過PyCharm 2016(JetBrains,捷克)軟件隨機劃分188個土壤樣本為建模集和預測集:選取全部土壤樣本的70%劃入建模集,共包含131個土壤樣本;剩余30%的土壤樣本劃為預測集,共包含57個土壤樣本。
模型預測性能,使用R2、RPD和RMSE作為評價標準[11]。采用Chang等[12]給出的評判等級:RPD>2.0,代表模型具有良好的預測能力;1.4 在建模過程中,光譜的預處理往往是必不可少的,是近紅外定量分析與定性分析中非常關鍵的一步。采用適當的近紅外預處理方法可有效提高模型的適用能力。合理的預處理方法可以有效地過濾近紅外光譜中的噪聲信息,保留有效信息,從而降低近紅外定量模型的復雜度,提高近紅外模型的穩健性[13]。 為了更加直觀地觀察出經過不同預處理方法校正之后土壤光譜之間的差異性,將土壤的原始光譜(RS)和經過29種預處理變換后的平均光譜圖做對比展示。圖1前5行展示了188份土壤樣本的平均原始光譜和經14種不包含SG的預處理變換后的平均光譜,圖1后5行展示了經過15種包含SG的預處理變換后的平均光譜。本研究去除了首尾信噪比較低的光譜區域,選取350~1 657 mm區域作為研究對象。從圖1可以發現,SNV和MSC兩種散射校正方法并沒有明顯改變光譜曲線的變化特征。但是其他的預處理變換方法在很大程度上都改變了光譜曲線的變化特征,尤其是均值中心化和導數變化及其組合變換的光譜,增強了光譜曲線的首尾抖動。對原始光譜進行一階導數變換后,原始光譜曲線的峰值變成了零點,并且在原峰值兩側的拐點處分別出現了正的或者負的新峰值。與一階導數變換相比,在二階導數變換光譜中,盡管符號出現了反轉,但原始峰值的波長點處仍是導數光譜峰值,因此可以比較方便地把握原始光譜曲線的變化趨勢。總的來說,導數變換可以去除基線的影響,加強光譜的有用特征,但是也放大了噪聲,因此在導數變換之前需要使用SG來濾除無關噪聲信息。在對數變換中,反射率被轉換成了吸收率,光譜曲線的走勢剛好和原始光譜曲線相反。對比可知,經過SG處理后的平均光譜在整體形態上沒有什么很大的改變,但是有效減少了光譜的噪聲,從圖形上看起來曲線變得更加平滑,濾除了曲線中的毛刺[14-15]。 利用PLSR結合原始光譜和29種預處理后的光譜分別對土壤AN含量進行建模分析,建模集和預測集的結果如表1所示。可以看出,利用SG+LG進行預處理變換后建立的模型預測效果最好,建模集R2=0.94、RPD=3.88,預測集R2=0.91、RPD=3.38,達到了較高的精度,屬于A類預測模型,具有極強的預測能力。基于其他預處理變換(包括FD、SNV、LG、MC、DT、SNV+DT、LG+FD、SG、SG+FD、SG+SNV、SG+LG、SG+MC、SG+DT、SG+SNV+DT、SG+SNV+FD、SG+LG+F等16種),以及RS建立的回歸模型的預測精度也都達到了A類,具有極強的模型預測能力。從建模結果看:經過SG處理后的光譜及其組合光譜可以提升模型的預測精度,但效果不是非常明顯;導數變換及其組合預處理變換后,建模結果整體表現不佳,導數變換降低了模型的預測精度,尤其是經過二階導數變換及其組合預處理變換后,模型預測精度變為C類,不能用于預測;多元散射校正及其組合預處理變換的建模結果表現最差,其模型預測精度均為C類,不能用于預測。 圖1 原始光譜及預處理變換后的光譜對比圖Fig.1 Contrast of spectra before and after preprocess 利用RBF-PLSR基于30種光譜(原始光譜及29種預處理后的光譜)對土壤AN含量進行建模分析,建模集和預測集的結果如表2所示。可以看出,利用LG進行預處理變換后建立的模型預測效果最好,建模集R2=0.98、RPD=6.84,預測集R2=0.90、RPD=3.20,達到了較高的精度,尤其是在建模集上實現了非常好的擬合效果,屬于A類預測模型,具有極強的預測能力。基于其他的預處理變換(包括SNV、LG、MC、DT、SNV+DT、SG、SG+FD、SG+SNV、SG+LG、SG+MC、SG+DT、SG+SNV+DT、SG+SNV+FD、SG+LG+FD等14種),以及RS所建模型的預測精度也都達到了A類,具有極強的模型預測能力。從建模結果上看:與PLSR建立的模型相似,經過SG處理后的光譜及其組合光譜可以提升模型的預測精度,但效果不是非常明顯;導數變換后建模的整體表現不佳,降低了模型的預測精度,尤其是經過二階導數變換及其組合的預處理變換后,模型預測精度變為C類,不能用于預測;多元散射校正及其組合預處理變換后的建模效果也不佳,模型預測精度大多為C類,不能用于預測。 表1 基于不同預處理光譜所建PLSR模型的預測結果 Table1Prediction performance of PLSR models based on spectra with varied preprocesses 預處理Preprocess建模集 Calibration setR2RMSE/(mg·kg-1)RPD預測集 Prediction setR2RMSE/(mg·kg-1)RPD潛在變量個數Number oflatent variables預測模型等級Predictive modellevelRS0.9242.583.340.8847.12.9211AFD0.9534.714.160.8257.912.266ASD0.7376.501.660.6382.101.443BSNV0.9629.734.900.8454.382.6611AMSC0.9435.484.07—302.131.119CLG0.9435.714.040.9043.343.1611AMC0.9242.583.340.8847.102.9211ADT0.9143.653.250.8847.252.9910ASNV+DT0.9910.9513.530.7962.102.3419ASNV+FD0.9435.254.100.6480.781.785BSNV+SD0.6192.461.260.39105.271.322CMSC+FD0.10140.290.34—243.250.901CMSC+SD0.11139.580.35—251.820.911CLG+FD0.9627.585.290.8453.512.396ALG+SD0.9534.054.240.6679.001.555BSG0.9046.823.010.8944.703.0312ASG+FD0.9047.082.990.8552.912.625ASG+SD0.7087.711.520.6481.481.443BSG+SNV0.9534.554.180.8257.722.5611ASG+MSC0.9435.494.06—261.491.1511BSG+LG0.9437.053.880.9140.173.3812ASG+MC0.9046.823.010.8944.703.0312ASG+DT0.8752.582.640.8748.292.9210ASG+SNV+DT0.9437.273.850.8158.802.5810ASG+SNV+FD0.9534.624.170.7962.532.366ASG+SNV+SD0.6488.941.340.41103.581.392CSG+MSC+FD0.9143.673.25—212.141.205CSG+MSC+SD0.10140.140.34—241.700.901CSG+LG+FD0.9628.015.210.8650.252.787ASG+LG+SD0.7376.301.670.6876.951.553B “—”表示數值無效。下同。 “—” indicated that the value was invalid. The same as below. 表2 基于不同預處理光譜所建RBF-PLSR模型的預測結果 Table2Prediction performance of RBF-PLSR models based on spectra with varied preprocesses 預處理Preprocess建模集 Calibration setR2RMSE/(mg·kg-1)RPD預測集 Prediction setR2RMSE/(mg·kg-1)RPD潛在變量個數Number oflatent variables預測模型等級Predictive modellevelRS0.9726.815.450.8749.072.8719AFD0.9532.454.470.5491.601.5510BSD0.42112.560.860.30113.290.932CSNV0.9822.706.470.8747.872.8514AMSC0.8361.412.20—184.441.213CLG0.9821.516.840.9042.583.2023AMC0.9725.835.670.8847.472.9520ADT0.8948.772.880.8650.932.7310ASNV+DT0.9822.656.480.8650.232.7714ASNV+FD0.9143.633.250.20120.721.288CSNV+SD0.26126.870.600.16123.640.711CMSC+FD0.9534.564.18—155.261.1610CMSC+SD0.25127.930.58—188.300.871CLG+FD0.9725.945.640.5789.031.5610BLG+SD0.43111.810.870.28114.580.932CSG0.9723.666.200.8944.053.3324ASG+FD0.8361.922.180.7765.242.116ASG+SD0.46108.720.920.41103.821.032CSG+SNV0.9629.914.870.8551.812.6112ASG+MSC0.9630.784.720.40104.521.6414BSG+LG0.9821.716.770.8944.073.3323ASG+MC0.9723.666.200.8944.053.3324ASG+DT0.8753.912.570.8650.032.7710ASG+SNV+DT0.9631.394.630.8847.502.8410ASG+SNV+FD0.9144.973.150.7862.812.336ASG+SNV+SD0.27126.700.610.21119.860.721CSG+MSC+FD0.9726.465.530.40104.691.6911BSG+MSC+SD0.24128.760.57—182.670.871CSG+LG+FD0.8852.222.660.8257.722.417ASG+LG+SD0.49106.220.970.38106.271.072C 如前所述,不同的預處理變換方法對2種模型的預測結果都有很大的影響[16]。在線性PLSR模型中,利用SG+LG進行預處理變換后建立的模型預測效果最好。可能是因為SG處理濾除了原始光譜中的無關噪音信息,對數變換將反射率轉換為吸收率,將光譜中的有用信息釋放出來,使得模型取得了很好的預測效果。但在非線性RBF-PLSR模型中,利用LG進行預處理變換后建立的模型預測效果最好,無需引入SG處理。 SG處理可以濾除原始光譜中的無關噪聲信息,從而提升模型精度。從表1、表2可以看出,無論是PLSR還是RBF-PLSR模型,經過SG處理后建立的預測模型的精度大多都有一定的提升,這一點在非線性PLSR模型中表現得更為明顯:在不含SG處理的預測模型中,只有6個達到了A類精度;但在包含SG處理的預測模型中,有9個達到了A類精度。這可能是因為在使用SG處理的過程中,光譜中的一些線性信息作為噪聲被濾除,使得土壤AN含量與光譜具有較強的非線性關系,從而提升了模型的預測精度。在所有的校正模型中,包含導數變換及其組合變換預處理的模型的預測效果都不是很好,導數變換或其組合變換會降低模型的預測精度,尤其是含有二階導數變換及其組合的預處理,會導致模型的預測精度降為C類,模型不可用。究其原因,可能是導數變換提高了原始光譜的信噪比,放大了原始光譜中的噪聲信息,使得建模效果變差。包含多元散射校正及其組合預處理的模型表現最差,幾乎全是C類模型,不能用于預測;但是在非線性模型中,經過SG+MSC、SG+MSC+FD處理的模型精度達到了B類,具有一定的預測能力。 對比分析可知,利用SG+LG對原始光譜進行預處理結合PLSR建立的土壤AN含量預測模型效果最優。利用PLSR對經過SG+LG預處理變換的光譜數據和土壤AN含量數據建立回歸模型,采用留一交叉驗證的方式對基于不同數量的潛在變量(LV)建立的模型進行分析,以LV的數量為橫坐標、RMSE為縱坐標作圖(圖2)。可以看出,隨著LV個數增加,RMSE值呈現先下降再上升的狀態:當LV的個數較少時,RMSE值較大,說明模型處于欠擬合狀態,誤差較大;當LV的個數逐漸增大至超過12時,構建的模型越來越復雜,出現過擬合現象,此時RMSE值再次出現上升趨勢。綜合分析,當LV的個數為12時,模型的RMSE值最小,故選取12個潛在變量用于建立土壤AN含量的線性PLSR預測模型。該模型在建模集和預測集中實測值和預測值的關系如圖3所示,建模集中R2=0.94、RPD=3.88,預測集中R2=0.91、RPD=3.38。 圖2 SG+LG/PLSR模型中LV數量與RMSE的關系Fig.2 Relationship of LV quantity and RMSE in SG+LG/PLSR model 圖3 SG+LG/PLSR模型建模集(a)和預測集(b)中實測值與預測值的關系Fig.3 Relationship between measured values and predicted values of SG+LG/PLSR models in calibration set (a) and prediction set (b) 利用原始光譜數據和29種預處理方法變換光譜數據,分別結合PLSR和RBF-PLSR算法建立土壤AN含量的預測模型,主要結論如下: (1)不同的預處理變換方法對模型的預測結果有很大的影響。大部分預處理變換可以提高模型的預測性能;但是導數變換及其組合的預處理下建模效果不理想,甚至降低了模型的預測性能,多元散射校正及其組合預處理下的建模效果最差,大多為C類模型,不能進行預測。SG處理可以在一定程度上濾除無關噪聲信息,提高模型的預測性能。 (2)線性模型和非線性模型的建模效果相差不大,但是線性模型的預測效果總體上要優于非線性模型。這可能是因為土壤光譜數據和土壤AN含量之間存在較多的線性關系,而線性關系有利于模型的構建,因此線性模型的效果要優于非線性模型。其中,最優校正模型組合是SG+LG/PLSR,建模集的R2=0.94、RPD=3.88,預測集的R2=0.91、RPD=3.38。該模型可以很好地估測該區域的土壤速效氮含量,可為該區域土壤高效管理、現代化配方施肥和信息化精準農業的發展提供科學依據。2 結果與分析
2.1 預處理變換對光譜的影響
2.2 PLSR建模結果分析

2.3 RBF-PLSR建模結果分析


2.4 PLSR與RBF-PLSR模型對比分析
2.5 基于最優預處理方法的土壤AN含量高光譜模型分析


3 結論