特征變量選擇結合SVM的耕地土壤Hg含量高光譜反演

2022-01-26 01:59:44郭云開張思愛王建軍謝曉峰

測繪工程 2022年1期

郭云開,張思愛，王建軍，章瓊，謝曉峰

(1.長沙理工大學交通運輸工程學院，長沙 410076; 2.長沙理工大學測繪遙感應用技術研究所，長沙 410076; 3.清遠市土地整理中心，廣東清遠 511518;4.廣州城建職業學院建筑工程學院，廣州 510925)

隨著工業化城鎮化的快速發展，土壤重金屬污染問題變得日益顯著[1-2]。汞作為一種毒性極強的金屬，對環境與生態系統的持續性、嚴重性危害已引起全球性的關注。傳統的土壤重金屬含量監測方法精度高，但費時費力且難以實現大面積重金屬含量動態監測[3-5]。高光譜技術具有無損、高效、低成本等優點，為快速獲取土壤重金屬信息提供有效手段，引起國內外學者對土壤重金屬高光譜反演的廣泛研究。

Kooristra L等通過對萊茵河區域進行土壤重金屬Zn,Cd含量反演，發現偏最小二乘回歸模型能夠獲得較好的精度[6]。涂宇龍等通過主成分分析(PCA)與皮爾森相關系數(PCC)提取重金屬銅元素的特征波段，并運用逐步回歸法進行建模，發現PCA特征提取能有效提升土壤Cu含量預測精度[7]。滕靖等通過對西范坪礦區土壤Cu元素進行研究，利用逐步回歸法和皮爾遜相關系數分別提取土壤Cu的特征波并組成特征變量集，取得較好的預測效果[8]。袁自然等利用競爭性自適應重加權算法進行光譜粗選，并通過PSO -SVM對土壤砷(As)含量估算研究，結果表明，基于優化后的SVM模型預測精度具有明顯提高[9]。

雖然對于土壤重金屬已有大量研究，但由于土壤重金屬與原始光譜反射率敏感性弱，且光譜數據冗余等因素，導致反演精度不高，對數據進行降維在一定程度上能有效提高模型精度。不同特征變量提取方法所得變量有所不同，其模型精度也會受到影響[10]。目前，已有研究中光譜特征變量提取方式和反演模型都有待進一步改進。

文中針對土壤重金屬光譜特征弱和光譜數據冗余問題，以湖南省衡東縣某工業區周邊耕地為對象開展土壤重金屬Hg的高光譜估算模型研究。首先對原始光譜數據進行預處理，利用一階微分(FD)、二階微分(SD)、倒數對數(RL)和多元散射校正(MSC)進行光譜變換，分別與重金屬Hg元素進行相關性分析選取最優變換光譜，再利用迭代保留信息變量法((Iteratively Retains Informative Variables，IRIV)、皮爾森相關系數(PCC)和隨機蛙跳算法(Random frog)進行光譜特征選取，分別建立SVM與GWO-SVM土壤重金屬Hg含量高光譜反演模型，找出最優反演路徑，提高預測精度。

1 數據與方法

1.1 研究區概況與數據獲取

衡東縣位于衡陽市東北部地區中心城鎮，地貌主要以丘陵為主，氣候溫和濕潤，雨量充沛，交通便利，地理位置優越。近年來，隨著農業生產結構調整，形成以茶油、油菜為主的多個產業種植帶。此外，研究區工業發達，具有大量工業企業，且以化工、重金屬等產業為主，使當地生態環境受到了嚴峻挑戰。因此，對研究區耕地土壤重金屬污染情況的研究已迫在眉睫。本次試驗研究于2019年6月進行，每個樣本實地采集以“S”型曲線確定5個土壤樣點，共采集88個樣本。土壤樣本采集過程中，對土壤樣品進行密封、標記等處理。實驗分析前，將土壤樣品在陽光下自然風干，研磨并剔除土壤中雜質，最后使用100目尼龍篩過濾。對每個土壤樣本分別通過化學方法測定土壤重金屬Hg含量和使用AvaField-3波譜儀(波段范圍為300～2 500 nm)進行土壤高光譜采集。土壤Hg含量的描述性統計結果如表1所示。

表1 土壤Hg含量描述性統計

1.2 數據預處理與相關性分析

光譜采集過程中易受儀器噪聲、水分、環境等因素影響，導致光譜曲線含有較多噪聲，影響土壤重金屬預測精度[11]。本次研究去除邊緣噪聲較大的土壤光譜波段300～400 nm和2 300～2 500 nm，并對原始光譜數據(400～2 300 nm)進行SG平滑處理，通過10 nm重采樣(RS)對光譜信息進行數據降維，采用FD、SD、RL和MSC等光譜變換處理，使土壤光譜特征更明顯。運用SPSS軟件對以上光譜數據與土壤重金屬Hg含量進行相關性分析，如圖1所示。RS與Hg的相關性總體呈正相關且相關性不明顯，RL則呈負相關且相關性略有提高，FD和SD與Hg的相關性 900 nm波段以后普遍較低。綜上可見，FD光譜變換相關性提升效果最佳，在580～1 030 nm、1 800～2 080 nm波段相關性總體較好，且在1 810 nm相關性值最高為0.394。因此，文中選取FD變換光譜作為后續特征波段提取研究。

1.3 研究方法

1.3.1 迭代保留信息變量法

IRIV是一種新型的特征變量提取方法，利用變量的隨機組合進而考慮到變量之間的相互作用，將變量劃分為強信息變量、弱信息變量、無信息變量和干擾信息變量[12-13]。基本步驟主要將m個樣本n維變量的一階微分變換光譜數據轉換為含有相同數量的0和1矩陣X，其中1和0表示變量是否用于建模，通過交叉驗證均方根誤差(RMSECV)去評估包含任意變量i和未包含i在模型中的重要性?；诿總€變量的重要性程度進行算法迭代，直到只剩下強信息變量和弱信息變量的新變量子集P。通過對變量集P進行反向消除策略，最終獲得最優特征變量。

圖1 光譜數據與Hg元素相關性分析

1.3.2 隨機蛙跳算法

隨機蛙跳是一種對高維變量數據進行特征選擇的新方法，其利用少量變量迭代進行建模，并輸出每個變量選擇的可能性，根據不同需求選取可能性較大的變量作為特征變量[14]。其主要步驟如下：

1)隨機初始化包含Q個變量，得到一個變量集V0。

2)通過初始變量集V0提出一個包含Q*個變量的候選變量集V*，根據一定的概率選擇V*作為V1，并利用V1替換V0。通過循環此步驟，直至完成N次迭代結束。

3)計算每個變量的選擇概率，該概率可以用作變量重要性的度量。

1.3.3 皮爾森相關系數

皮爾森相關系數(PCC)是一種普遍使用的線性相關系數，一般使用r表示。它能夠反映兩個變量X和Y的線性相關程度，其r值為-1～1之間，絕對值越大表明相關性越強。其算式表達如下：

(1)

1.3.4 灰狼算法優化支持向量機

支持向量機是Vapnik提出的一種基于統計學理論的新型的機器學習方法，其常用于小樣本的非線性問題[15]?；依莾灮惴?Grey Wolf Optimizer，GWO)是Mirjalili等受灰狼捕食啟發在2014年提出的一種新型群體智能優化算法[16]。文中采用GWO算法對SVM懲罰因子c和核函數參數g進行尋優，灰狼優化算法利用狼群嚴格的等級制度(α,β,δ和ω)，不斷更新各等級狼群位置尋找獵物，獲取全局最優解。其算法步驟流程如下：

1)初始化參數：狼群數量n=20，最大迭代次數N=400，設定懲罰因子c和核函數參數g的取值范圍。

2)隨機生成灰狼群，每頭狼個體位置受參數c和g影響，通過對訓練集學習計算每頭狼相應的適應度值，利用適應度值對狼群進行等級劃分，并對狼群位置進行更新。

3)計算每頭狼在新位置的適應度值，并與上一次迭代最優適應度值比較，選取最優值，超過最大迭代次數時結束，選取全局最優位置即為參數c和g的最優值，否則返回第二步繼續尋優。

4)利用尋優后的參數c和g進行SVM的回歸預測。

1.4 模型精度評價與研究技術路線

采用決定系數(R2)、均方根誤差(RMSE)和平均絕對誤差(MAE)3個指標對兩種預測模型進行精度評價。其中決定系數R2越大，模型的預測效果越好，RMSE和MAE越小，說明預測值與實測值越接近，其模型魯棒性越高。文中研究技術路線如圖2所示。

圖2 研究技術路線流程

2 試驗分析

2.1 特征波段選取

由于高光譜數據信息波段多，數據冗余問題嚴重影響反演精度，為避免數據冗余并提高模型反演精度，文中使用IRIV、Random Frog和PCC 3種特征提取方法對FD變換光譜進行波段提取。

IRIV算法中的交叉驗證次數為5，最大主因子為10，共有190個光譜波長變量，隨著迭代次數的增加，保留的變量會相應的減少，其迭代保留變量數如圖3所示。本次研究共進行6次迭代，在第7次迭代時趨于飽和，每次迭代所保留變量數分別是190、82、42、25、21和20，再對剩余變量進行反向消除，最后篩選獲得16個與重金屬Hg的最優光譜特征變量，其中強信息變量為5個，均為近紅外變量(1 040 nm、1 990 nm、2 220 nm、2 240 nm、2 280 nm)，弱信息變量為11個，其中可見光變量2個(600 nm、620 nm)，近紅外變量9個(1 000 nm、1 090 nm、1 560 nm、1 590 nm、1 610 nm、1 620 nm、1 730 nm、2 100 nm、2 110 nm)。

Random Frog算法根據每個變量具有不同的選擇概率對光譜變量進行提取，其變量選擇概率如圖4所示，變量數在120左右(對應光譜波段1 590 nm)，選擇概率達到最高。本次研究通過提取選擇可能性排名前10的光譜變量作為特征波段，其全部集中在近紅外波段(1 030 nm、1 040 nm、1 320 nm、1 340 nm、1 590 nm、1 780 nm、1 940 nm、1 960 nm、2 080 nm和2 180 nm)。

利用皮爾森相關系數對重金屬Hg含量與一階微分變換光譜進行相關性分析如圖5所示，當顯著性水平P<0.05和P<0.01時，其相關系數在0.208和0.273時為顯著相關和極顯著相關。文中通過選取顯著性水平P<0.01的光譜變量作為特征波段，在1 810 nm處達到最大相關值0.394；其特征波段為690 nm、740 nm、770 nm、790 nm、810 nm、840 nm、880 nm、900 nm、920 nm、970 nm、1 010 nm、1 020 nm、1 030 nm、1 520 nm、1 530 nm、1 540 nm、1 810 nm、1 870 nm、1 880 nm、1 900 nm、1 910 nm、1 920 nm、1 930 nm、1 940 nm、1 970 nm、2 000 nm、2 040 nm、2 050 nm、2 080 nm和2 200 nm。

圖3 IRIV迭代保留變量數

圖4 Random Frog特征波段提取

圖5 Hg含量與FD變換光譜相關性

2.2 SVM回歸預測

本次試驗利用3種特征提取方法分別提取土壤重金屬Hg含量光譜特征波段，通過以上研究可得，IRIV、Random Frog和PCC分別提取16、10和30個特征波段用于建模。本次實驗共采集88個樣本，其中選取60個作為建模樣本，其余28個作為驗證樣本，利用特征波段作為光譜參量，建立SVM土壤重金屬含量反演模型。采用決定系數、均方根誤差和平均絕對誤差綜合評價兩種模型性能，如表2所示。其中基于PCC特征提取的建模集R2為0.835，RMSE為0.091，MAE為0.018，驗證集R2為0.833，RMSE為0.086，MAE為0.017，模型預測效果最好；基于Random Frog特征提取的建模集R2為0.804，RMSE為0.094，MAE為0.017，驗證集R2為0.654，RMSE為0.118，MAE為0.018，模型預測效果相對較差；基于IRIV特征提取的建模集R2為0.767，RMSE為0.097，MAE為0.018，驗證集R2為0.778，RMSE為0.093，MAE為0.018，模型預測效果較好；SVM模型實測值與預測值散點圖如圖6(a)、圖6(c)、圖6(e)所示。

2.3 GWO-SVM回歸預測

通過對一階微分變換光譜進行IRIV、Random Frog和PCC特征波段提取，利用特征波段作為自變量，土壤重金屬含量作為因變量，建立GWO-SVM回歸模型，建模結果如表3所示。其中基于IRIV特征提取的建模集R2為0.908，RMSE為0.090，MAE為0.019，驗證集R2為0.894，RMSE為0.082，MAE為0.016，模型預測效果最佳；基于Random Frog特征提取的建模集R2為0.859，RMSE為0.085，MAE為0.018，驗證集R2為0.856，RMSE為0.080，MAE為0.015，模型預測精度相對較低；基于PCC特征提取的建模集R2為0.864，RMSE為0.086，MAE為0.017，驗證集R2為0.876，RMSE為0.078，MAE為0.015，模型預測效果較好。相較于SVM回歸模型，GWO-SVM模型在IRIV和Random Frog特征提取的驗證集模型R2分別提高0.116和0.202，RMSE和MAE相應降低；在PCC特征波段提取的驗證集模型R2略有提升，RMSE和MAE相應降低。GWO-SVM模型估測結果如圖6(b)、圖6(d)、圖6(f)所示，從圖中可知，其實測值與預測值趨勢基本一致，說明經過灰狼算法優化后的支持向量機模型預測精度與穩定性得到明顯改善，滿足實際預測要求。

表2 SVM回歸模型驗證系數

表3 GWO-SVM回歸模型驗證系數

3 討論

本次實驗主要針對耕地土壤重金屬Hg含量高光譜估算研究，通過重金屬Hg含量與變換光譜數據進行相關性分析可得，一階微分光譜變換與Hg元素相關性整體最優，這是由于微分技術能夠較好去除光譜曲線漂移現象和部分線性的背景干擾，更好地提高光譜與重金屬之間敏感光譜特征參數[17]。對比3種特征波段提取方法，IRIV的復雜程度較高且運算時間較長，在波段數量上，IRIV、Random Frog和PCC方法分別提取16、10和30個特征波段，在很大程度上減少數據冗余。此外，對比3種方法提取下的光譜特征波段，主要分布在近紅外波段，少量在可見光波段，說明Hg元素的光譜敏感波段主要分布在近紅外波段。在模型上，通過灰狼算法對支持向量機的核函數g和懲罰因子c進行優化，對比未優化的支持向量機回歸模型，在一定程度上提高回歸模型的預測精度和穩定性。在建模結果上，基于IRIV特征提取下的GWO-SVM模型建模效果最優，其驗證集R2為0.894，RMSE為0.082，MAE為0.016。說明IRIV特征提取能夠有效去除無信息變量和干擾信息變量保留強信息變量和弱信息變量，降低模型誤差，提高模型預測精度。綜上可得，IRIV結合GWO-SVM模型能夠快速準確預測土壤重金屬含量。

(a)IRIV-SVM

(b)IRIV-GWO-SVM

(c)Random-Frog-SVM

(d)Random-Frog-GWO-SVM

(e)PCC-SVM

(f)PCC-GWO-SVM

4 結論

文中以湖南省衡東縣某工業區周邊耕地為研究對象，通過對光譜數據與土壤Hg元素進行相關性分析，使用不同特征提取方法進行光譜特征提取，采用SVM與GWO-SVM分別構建土壤重金屬Hg含量高光譜反演模型。結果表明：1)通過對原始光譜進行不同光譜變換處理，發現一階微分光譜變換后土壤光譜特征更明顯，與土壤重金屬Hg的相關性更高，在1 810 nm波段相關性值最高為0.394。2)通過IRIV、Random Frog和PCC方法分別提取16、10和30個特征波段，在很大程度上減少光譜數據冗余并保留有效變量信息，增強模型穩定性，提高模型預測精度。(3)對比兩種模型，經過灰狼算法優化后的支持向量機在不同特征提取下的建模結果明顯優于支持向量機模型，其中IRIV結合GWO-SVM模型精度最高。說明灰狼算法能夠有效增強支持向量機性能，提高模型穩定性與預測精度，研究可為同類地區反演土壤重金屬含量提供新的參考。