楊可明 何家樂 李艷茹 吳 兵 張建紅
(中國礦業大學(北京)地球科學與測繪工程學院,北京 100083)
玉米是世界主要的谷類作物,近年來玉米的總產量僅次于水稻,位居我國第二位[1],玉米已經逐漸成為日常生活中基本的糧食、飼料和生產原料等。因此玉米種植中的健康生長尤為重要,玉米的合理化種植逐漸成為研究熱點[2]。如果土壤中的重金屬含量超標,就會逐漸被農作物吸收并累積,從而對人體有嚴重影響[3-4],其中鉛(Pb)是重金屬污染物中毒性較大的一種,能直接傷害人的腦細胞;而銅(Cu)中毒輕者會產生胃腸道黏膜刺激癥狀,重者甚至會出現腎功能衰竭及尿毒癥、休克等[5-7]。
農作物的重金屬污染監測非常關鍵,只有正確地識別重金屬污染元素的類別,才可以對農作物接下來種植的土壤進行調整[8-10],因此對玉米生長中所受重金屬污染的辨別研究顯得尤為重要,采用高光譜技術辨別重金屬污染逐漸成為了遙感應用熱點[11],目前采用高光譜技術進行參量反演的方法比較常見[12-13],但是運用到農作物重金屬污染辨別的還較少。
高偉等[14]建立了CLCDF污染判別特征,對作物中的重金屬污染種類進行判別,為重金屬脅迫的光譜辨別提供了新的思路;GUO等[15]通過基于高光譜的ML模型,確定污染垂直分布的關鍵因素和判斷地下土壤中的金屬(類);LI等[16]通過構建新的光譜指數,快速識別了土壤重金屬污染中的元素,經過驗證該模型的通用性和魯棒性都較好。還有學者采用了特征光譜融合提取[17-19]以及深度強化學習[20-22]的方法對植被災害以及污染進行辨別。
上述研究在重金屬脅迫辨別方面均取得了較好的結果,但是光譜處理與辨別方法較為繁瑣,辨別準確度仍需提高,算法較為復雜,計算量大,不易進行應用,因此尋找一種快速辨別農作物重金屬污染的方法變得尤為重要。本文以受不同程度銅鉛(Cu、Pb)脅迫的玉米葉片為研究對象,采用ASD光譜儀獲取玉米葉片的光譜,經過0.1~1.0階的分數階微分(Fractional derivatives,FD)處理后,通過競爭性自適應重加權算法(Competitive adapative reweighted sampling,CARS)提取光譜的特征光譜,最后通過比較多種辨別模型的性能,最終選擇性能最佳的多層感知機(Multi-layer perceptron,MLP),構建FD-CARS-MLP模型并進行試驗,以達到辨別玉米葉片中Cu、Pb污染信息的目的。
以不同梯度重金屬元素(Cu、Pb)脅迫的不同時期玉米生長葉片為研究對象,選用玉米品種為中糯1號。共分為兩組:重金屬元素(Cu、Pb)脅迫試驗分別選CuSO4·5H2O和Pb(NO3)2溶液作為試劑,脅迫梯度為0、50、100、150、200、300、400、600、800、1 000、1 200 μg/g,脅迫梯度平行試驗共3組。試驗期間,保持土壤濕潤,空氣暢通,保證各盆栽生長環境一致,避免其他因素對試驗結果產生影響。
選取ASD FieldSpec 4型便攜式地物光譜儀,進行重金屬元素(Cu、Pb)脅迫試驗苗期、拔節期、抽穗期玉米葉片高光譜數據采集。每次光譜反射率測定前使用標準白板對光譜反射系數進行校準,光纖探頭視場角為25°,探頭垂直于葉片表面,垂距小于5 cm,每盆玉米葉片光譜測量5次。得到不同重金屬(Cu、Pb)脅迫試驗的光譜曲線如圖1所示。

圖1 重金屬(Cu、Pb)脅迫的光譜曲線
分數階微分的定義形式有很多種,其中主要有Riemann-Liouville、Grünwald-Letnikov、Caputo、Remann-liouville、廣義函數等[23-24],本研究選擇Grünwald-Letnikov進行光譜數據處理。若設f(λ)為一維的光譜曲線,則分數階微分定義可表示為


(1)
式中q——任意階數n——波段數
λ——波段的中心波長
將波長范圍按步長h進行等分,[a,t]為波長范圍區間,λ∈[a,t],因為玉米葉片在光譜采集時,光譜儀光譜重采樣間隔為1 nm,因此令h=1,n=t-a。
競爭性自適應重加權采樣法(CARS)結合了蒙特·卡羅方法(Monte Carlo,MC)和最小偏二乘回歸方法(Partial least squares regression,PLS)對特征變量進行選擇[25-26],該算法和達爾文的“適者生存”理念非常相似。CARS采用自適應加權采樣(Adaptive reweighted sampling,ARS)的方法,選擇PLS中回歸系數絕對值占比權重相對較大的波長,形成新的組合形式[27],去掉權重占比較小的特征波長,以新建的組合為基礎重復上述方法,得到PLS交互驗證均方根誤差(Root mean square error of cross validation,RMSECV)最小的最優組合,該組合中的剩余波長將被作為原始光譜的特征波段,進行接下來的數據辨別,具體過程如下:
(1)通過蒙特·卡羅方法,從原數據中隨機抽取一部分數據用于模型建立[28],剩余數據將作為PLS模型的預測數據(一般建模數據與預測數據的比例為8∶2),采樣時PLS中的回歸系數權重的絕對值計算式為
(2)
式中bi——第i個變量回歸系數
wi——第i個變量回歸系數權重
m——采樣剩余變量的數量
(2)通過指數衰減函數(Exponentially decreasing function,EDF)剔除回歸系數權重占比絕對值相對較小的波段,第i次MC采樣構建PLS模型時,通過EDF獲取保留波段點的占比Ri為
Ri=ue-ki
(3)
式中u、ki——常數
(3)每輪采樣均從前一輪采樣時的數據中,通過自適應加權采樣(ARS)提取Ri的n個波段,進行建模,并經過計算得到RMSECV。
(4)經過所有的采樣后,CARS生成了多組待選擇的特征波段集合,并且每個集合都有相對應的RMSECV,最后保留RMSECV最小的一組作為所需要的特征波段。
交叉驗證又名循環估計,是一種統計學中將數據作為總集合分成多個子集合的過程[29]。K-fold交叉驗證即在樣本空間中,選擇大量數據作為訓練樣本,剩余數據作為模型的測試樣本,并且求出剩余樣本的誤差、準確度以及其平均值。將樣本的誤差平方相加,即可得到模型的預測誤差。常見的交叉驗證方法有簡單交叉驗證、K-fold交叉驗證和留一驗證,本研究選擇最常用的K-fold交叉驗證,在數據辨別之前劃分出訓練、預測數據。
分類是一種通過機器學習(Machine learning)的自然語言處理任務,機器學習中的分類算法,是通過訓練集來預測其他數據將會屬于某個種類的概率。本研究選擇的分類算法為多層感知機(Multi-layer perceptron,MLP)、K-最近鄰(K-nearest neighbors,KNN)、支持向量機(Support vector machine,SVM),經過試驗最終選擇性能最優的MLP分類模型作為主辨別方法。
以MLP分類模型為例,該模型分為輸入層、隱藏層和輸出層,其中輸入層為數據的不同特征,在本研究中就是光譜不同波段的反射率,即輸入層的神經元個數就是光譜的波段數目;隱藏層為1層,有25個神經元;最后輸出層共有2個神經元,分別表示銅污染和鉛污染信息。
分數階微分處理后的光譜數據和原數據差別較大,它可以放大數據的特征,獲取到光譜數據中的更多細節信息,相較于原數據更有利于污染信息的辨別。綜合考慮光譜數據量和數據質量,本研究選擇以拔節期玉米葉片光譜數據為主,苗期和抽穗期為輔進行辨別,對受重金屬(Cu、Pb)脅迫生長的玉米葉片高光譜數據進行從原光譜到1.0階的分數階微分處理(即0~1.0,以0.1為間隔依次增加),隨著微分階數的不斷增加,光譜逐漸產生變化,以200 μg/g濃度梯度銅脅迫下的拔節期玉米葉片光譜為例,經過0.1~1.0階分數階微分的光譜曲線如圖2所示。

圖2 0.1~1.0階分數階微分的光譜曲線
原數據的波段為350~2 500 nm,如果直接運用,不僅后續處理數據量龐大,數據處理時間過長,而且特征點過多也會使分類的精度降低。CARS可以通過計算,直接篩選出回歸系數權重占比最大的波段,直接得出原數據的最佳特征波段,該方法相較于傳統的主成分分析法(Principal components analysis,PCA)等方法更加方便,不用手動調整參數即可直接給出多種特征波段組合以及其每一種波段組合的RMSECV,該均方根誤差越小表示該波段組合的性能越好,通過比較每一種波段組合的RMSECV即可直接給出最佳特征波段,采用該種方法進行特征提取更加簡便智能,而且不會遺漏特征波段組合。
本研究的特征波段提取過程由Python編程實現,對經過分數階微分后的光譜數據通過CARS進行特征數據提取,從2 250個波段中進行自動的特征波段選取。進行脅迫辨別時要求相同波段對應,本研究對以重金屬(Cu、Pb)脅迫的光譜數據進行CARS計算。接下來以拔節期Cu、Pb脅迫光譜數據為例,結合圖3進行分析。

圖3 經過CARS計算的拔節期Cu、Pb脅迫原數據
對于拔節期的重金屬(Cu、Pb)脅迫光譜數據進行CARS計算,其最佳篩選次數與特征波段數如表1所示。

表1 最佳篩選次數與特征波段數
由圖3和表1可得,隨著迭代次數的增加,得到的特征光譜數量不斷減少,RMSECV呈現先降低后增加的趨勢,對于重金屬(Cu、Pb)脅迫光譜數據來說,隨著分數階微分階數的不斷增加,最佳特征波段所對應的的迭代次數不斷減少,波段數量不斷增加。
經過分數階微分和CASR處理后,得到了代表每一組光譜的最佳特征波段,然后選擇不同的分類模型進行脅迫污染辨別,選取最適合玉米葉片光譜數據的模型,以達到最好的污染辨別效果。本研究選擇的分類算法為MLP、KNN、SVC。在數據辨別之前先通過5折交叉驗證(K=5)劃分出訓練數據和預測數據,以方便后續對所建的模型進行性能評估。基于接收者操作特征曲線(Receiver operating characteristic curve,ROC),本研究選擇ROC曲線下面積(Area under curve,AUC)、準確率(Accuracy,Acc)、精確度(Precision,Pre)、錯誤接受率(False acceptance rate,FAR)以及錯誤拒絕率(False rejection rate,FRR)5個評價指標,5個評價指標均位于0~100%之間,其中AUC、Acc、Pre 3個指標數值越接近于100%,FAR、FRR 2個指標越接近于0表示所建立的模型辨別性能越好。3種分類模型指標如圖4所示。

圖4 基于MLP、KNN、SVM分類模型的拔節期Cu、Pb 污染辨別評價指標對比
由圖4可得,3個分類模型中,KNN模型的AUC、Acc、Pre 3個指標數值均在95%以上,除原數據以外,均為96%以上;FAR、FRR均在4%以下;MLP模型的AUC、Acc、Pre均在97%以上,除原數據以外,均為98%以上;FAR、FRR均在2%以下,MLP模型相比于KNN模型在5個指標數值上均提高2個百分點,性能較好,對于重金屬(Cu、Pb)脅迫玉米葉片的辨別能力較好;而SVM明顯不適用于本次研究數據的辨別。
本研究的數據量較大,因此SVM并不適用;KNN分類模型的計算量較大,特別是當特征變量增多時,而本試驗的特征變量較大,并且如果樣本量不平衡時,其精度也會有所降低;MLP分類模型辨別率高且分類速度快,因此MLP綜合來看最適合本研究的分類任務。
選取MLP作為數據辨別的方法,對重金屬(Cu、Pb)脅迫的光譜數據進行辨別。分析可得,經過分數階微分的污染信息辨別評價指標高于原數據,并且最佳的階數為0.1和0.2,隨著階數的增加,辨別準確度有所下降,但是仍高于原始光譜數據。由此可以構建一個新的玉米葉片重金屬(Cu、Pb)污染信息高光譜遙感辨別模型——FD-CARS-MLP模型。
為了驗證FD-CARS-MLP模型的可行性,選擇拔節期、抽穗期重金屬(Cu、Pb)脅迫的玉米葉片進行驗證,分數階微分選擇效果最好的0.1、0.2階進行驗證,結果如表2所示。

表2 FD-CARS-MLP模型驗證
由表2可知,運用高光譜數據的分數階微分處理結果,FD-CARS-MLP模型對于受脅迫的玉米葉片Cu、Pb污染信息辨別的精度較高且更穩定,為監測谷類作物不同脅迫的重金屬污染監測提供了技術與方法。
(1)光譜數據經分數階微分處理后,許多光譜特征被加強,能夠獲取到更多細節信息,相較于原始光譜數據更有利于污染信息的辨別,試驗可得,所有經過分數階微分處理光譜數據的辨別精度均大于原數據,其中0.1、0.2階的分數階微分效果最好,數據辨別評估指標AUC、Acc、Pre的精度可以達到99%以上,FAR、FRR的精度可以達到1%以下。
(2)CARS相較于傳統的特征光譜波段提取方法,可以涵蓋每一組特征波段組合,更加全面化,且不用手動調整參數,更加方便快捷,CARS可以通過算法直接給出最佳的特征波段組合,使特征波段的選擇更加智能化。
(3)經試驗證明,FD-CARS-MLP模型可以有效地對受脅迫的葉片光譜數據進行Cu、Pb污染信息辨別,該模型的辨別評估指標AUC、Acc、Pre可以高達98%以上,FAR、FRR可以達到2%以下。FD-CARS-MLP模型辨別玉米在生長過程中受重金屬脅迫的葉片污染信息效果良好,并且具有較好的可靠性和穩定性。