倪碧珩,陸 胤,施維林*
(1. 蘇州科技大學環(huán)境科學與工程學院,江蘇 蘇州 215009;2. 浙江樹人大學生物與環(huán)境工程學院,浙江 杭州 310015)
土壤作為環(huán)境保護的特定要素之一,它的狀況直接影響人類的健康[1]。但隨著城市經(jīng)濟的快速發(fā)展,各類污染與化學物質與日俱增,導致土壤中的重金屬含量不可控制,因此,對土壤中重金屬元素含量進行預測,對人類的健康發(fā)展具有重要意義[2]。
黃趙麟[3]等人提出基于多模型優(yōu)選的土壤重金屬元素含量預測方法,該方法通過BP神經(jīng)網(wǎng)絡模型建立(BP-S),(BP-K),(BP-SK)模型,利用得到的模型模擬了土壤重金屬元素含量的具體分布,實現(xiàn)土壤重金屬元素含量的預測。該方法沒有考慮多變量數(shù)據(jù)之間存在的相關性,增加了問題分析的復雜度,導致最終結果與實際結果偏差較大。陸榮秀[4]等人提出基于改進即時學習算法的土壤重金屬元素含量預測方法,該方法首先利用信息加權建模,了解變量之間存在的關聯(lián)性,最后建立LS-SVM模型實現(xiàn)土壤重金屬元素含量的預測。該方法沒有針對土壤重金屬元素之間的變量關系建立相應的指標體系,導致預測精度低。高文武[5]等人提出基于協(xié)同克里金插值法的土壤重金屬元素含量預測方法,該方法首先通過方差分析原理分析了土壤元素含量的影響,然后運用協(xié)同克里金插值法計算出平均誤差、均方根誤差和標準化均方根誤差,對插值結果進行評價,最終實現(xiàn)土壤重金屬元素含量的預測。該方法缺少重金屬元素含量的相關數(shù)據(jù)分析,造成資料收集片面,導致最終的誤差偏大。
為了解決上述方法中存在的問題,提出基于Krigin插值法的土壤重金屬元素含量預測方法。
Pearson相關系數(shù)又叫做積差相關系數(shù),r為樣本相關系數(shù),p為總體相關系數(shù)。具體表達式如下

(1)

相關分析定義為確定兩個參數(shù)之間是否存在一定的關聯(lián)性,用系數(shù)r來表示。它有兩個特點,一個是方向性,表現(xiàn)為正關聯(lián)、負關聯(lián)或零關聯(lián),另一個是強度,表示兩個參數(shù)存在的密切關聯(lián)性。當x,y同向時,r>0為正關聯(lián);當x,y反向時,r<0為負關聯(lián)。具體的評判標準如下所列:|r|>0.95說明兩個變量之間確定關聯(lián),|r|≥0.8說明兩個變量之間高程度關聯(lián);0.5≤|r|<0.8說明兩個變量之間中程度關聯(lián);0.3≤|r|<0.5說明兩個變量之間很少關聯(lián)相關;|r|<0.3說明兩個變量之間幾乎不關聯(lián);r=0說明兩個變量之間不關聯(lián)[6]。
在相關數(shù)據(jù)分析的基礎上對土壤重金屬數(shù)據(jù)進行主成分分析,利用Hessian矩陣,將收集的高維數(shù)據(jù)映射到特征方向上,找到最大的曲線回歸方向[7]。Hessian矩陣由實值函數(shù)f(x1,x2,…,xn)表達,當實值函數(shù)f中所有的二階導數(shù)都存在時,f的Hessian矩陣表達為
H(f)ij(x)=DiDjf(x)
(2)
其中,x=(x1,x2,…,xn),則存在下式

(3)


(4)

(5)

當向量x滿足均值ux和協(xié)方差的正態(tài)分布時,uy就是y的均值,此時平均加權協(xié)方差矩陣就能夠決定Hessian矩陣,如下列公式
(6)
向量x根據(jù)仿射變換標準化處理,得到滿足標準正態(tài)分布的結果[9]。此時,土壤重金屬數(shù)據(jù)的特征向量b1,…,bp可以根據(jù)下式得出
bp=λjbj,j=1,…,p
(7)
根據(jù)上式獲取的特征向量,即為土壤重金屬元素數(shù)據(jù)的主成分。
基于Kriging插值法的土壤重金屬元素含量預測方法采用Kriging插值法實現(xiàn)土壤重金屬元素含量的預測。Kriging插值法就是將原始變量值轉換為如式(8)所示的指示變量

(8)
其中,Iz(s,t;zc)是Zc的引導值;Zc表示閾值;Z(s,t)表示為原變量值;t表示時間;s表示研究區(qū)域空間。
時間t全覆蓋在研究區(qū)域內,不高于閾值Zc的積累概率可以根據(jù)相應指示值計算得出[10]
F(Zc)=Prob[Z(s,t)≤Zc]

(9)
其中,F(xiàn)(Zc)表示不高于閾值的積累概率;Prob[Z(s,t)≤Zc]表示小于閾值的積累概率;E[Iz(s,t,Zc)]表示在一定條件下的預期值。
在無抽樣的情況下,在閾值以下的積累概率變量可以通過對樣本點指示值的加權計算得到,Z(s,t)積累概率的最佳預測結果可以根據(jù)指示變量的最佳預測結果表示[11]。即

(10)
其中,F(xiàn)[s,t;Zc(n)]表示變量低于閾值的積累概率,λi表示對應條件下特定值的比例。上式中得到積累概率的最佳預測結果實際就是土壤重金屬元素含量的預測結果。
為了更好地得出最佳預測結果,需要計算出樣本指示值的半變異函數(shù)

(11)
其中,γ(hs,hr)表示空間半變異函數(shù);hs表示空間間隔變量,hr表示時間間隔變量;N(hs,hr)表示在空間和時間間隔內對應數(shù)據(jù)的點數(shù);Z(s,t)i表示空間為s、時間為t的參數(shù);Z(s+hs,t+hr)表示空間為s+hs、時間為t+hr的參數(shù)。通過上述時空半變異函數(shù)優(yōu)化土壤重金屬元素含量的預測結果。
1)確定n個等級閾值Zc1,Zc2,…,Zcn,分別將變量歸類為C0,C1,C2,…,Cn,其中,C0=(0,Zc1],C1=(Zc1,Zc2],…,Cn=(Zc1,∞]。將各個閾值根據(jù)式(8)進行指示變換,輸出預測結果。
2)利用式(11)計算出與指示收集函數(shù)相關聯(lián)的空間半變異函數(shù),也可用中位值代表閾值的半變異函數(shù)代替每個等級閾值的半變異函數(shù)。
3)依次對等級閾值Zc1,Zc2,…,Zcn和各個空間單元使用Kriging插值法進行空間插值,算出各個等級劃分中小于第n個閾值的概率P0,P1,P2,…,Pn及其誤差預計的標準差sp1,sp2,…,spn。
4)根據(jù)預計概率和誤差分別對各個空間單元進行歸類判定。判定方法如下:
①計算預計概率的空間為[Pi-spi,Pi+spi]。
②當i=1,按照式(12)對空間單元進行等級判定:

(12)
其中,ci表示等級;Ci表示第i級;Ci-1表示第i-1級;C-1表示最末等級;Pci表示第ci個概率閾值;Pi表示第i個概率閾值;spi表示第pi個標準誤差的標準差。
當i≠1,按照式(13)確定空間單元等級判定

(13)
③判斷所有閾值是否完成計算,如果完成則輸出結果,如果沒有完成則重回1)繼續(xù)執(zhí)行。
5)將同等級空間單元進行歸類,形成等級邊界。等級劃分一般取決于概率估計值和概率閾值,大小由劃分指數(shù)決定。一般情況下,兩者越接近時誤差越大,空間等級歸類方法越易出錯,其結果越不確定。
根據(jù)上述步驟,概率閾值對最終的結果起決定性作用,Kriging插值法計算結果小于閾值概率。在實驗中,選取不同的概率閾值確定等級劃分結果,將得到的最終結果與實際結果進行比較,得到不同概率閾值對應的誤差指標,最終等級劃分的概率閾值為最小誤差指標對應的概率閾值,具體步驟如下列所示:
1)將概率閾值設定為0.1、0.2、0.3、…0.9;在特定的情況下,依次保留一個對應的原始樣點,其他概率閾值則通過Kriging插值法對樣點進行等級劃分。
2)通過Kriging插值法計算的等級劃分結果與真實結果進行對比,根據(jù)第一類錯誤T1、第二類錯誤T2、綜合錯誤E進行對比判定,三類公式如下所示

(14)

通過最終結果得出最合適的概率閾值,在實驗中得知概率閾值越大,第一類錯誤就會越大,第二類錯誤會減少,當實驗結果中需要第一類錯誤最小,那么就控制概率閾值為0.1;第二類錯誤最小,概率閾值取0.9就會實現(xiàn);如果讓第一類和第二類錯誤接近,那么概率閾值就取0.5;如果劃錯比例控制最小,則概率閾值取0.4。
綜上所述,基于Krigin插值法的土壤重金屬元素含量預測方法首先利用Krigin插值法初步對土壤中重金屬含量進行預測,其次通過半變異函數(shù)對預測結果進行優(yōu)化,提高預測結果的準確率,最后設定閾值對重金屬元素含量的等級進行劃分,實現(xiàn)土壤重金屬含量的預測。
為了驗證基于Kriging插值法的土壤重金屬元素含量預測方法的整體有效性,需要對其進行測試。分別采用基于Kriging插值法的土壤重金屬元素含量預測方法(方法1)、基于多模型優(yōu)選的土壤重金屬元素含量預測方法(方法2)和基于改進即時學習算法的土壤重金屬元素含量預測方法(方法3)在不同情況下對土壤重金屬元素含量進行預測,預測結果如圖1所示。


圖1 不同方法的重金屬含量預測結果
分析圖1中可知,當距路基垂直距離不同時,方法1預測金屬含量值與實際結果更吻合,方法2和方法3預測金屬含量值與實際結果存在較大誤差。因為方法1對多變量之間存在的相關性進行分析,并以此為依據(jù)對土壤重金屬元素含量進行預測,降低了預測結果與實際結果之間存在的誤差,提高了方法的預測精度。
圖2為不同方法在重金屬含量預測中均方根誤差的對比結果。

圖2 不同方法的均方根誤差
分析圖2中可知,鄰近點數(shù)目不同時,方法1的均方根誤差比方法2和方法3的均方根誤差更小。因為方法1對變量進行相關分析時,建立了多指標分析體系,在一定程度上減少了信息的丟失,降低了誤差。
圖3為不同方法在重金屬含量預測中不同概率閾值下錯誤比例的對比結果。

圖3 不同概率閾值下的錯誤比例
分析圖3可知,概率閾值不同時,方法1得出的錯誤比例比方法2和方法3更小,因為方法1在進行相關數(shù)據(jù)分析時,運用少量的綜合指標對土壤重金屬含量中的信息進行提取,保證了信息的真實有效,在一定程度上降低了錯誤比例。
土壤是人類獲取食物的重要途徑,與人類的身體狀況密切相關。如今越來越多的土壤遭受重金屬的污染,直接影響人類的身體健康,因此,提高土壤質量,加強土壤的管理與利用成為現(xiàn)階段的重中之重。目前土壤重金屬元素含量的預測中,存在預測精度低,信息大量丟失,資料收集片面的問題,提出基于Kriging插值法的土壤重金屬元素含量預測方法,該方法首先對相關數(shù)據(jù)進行分析,總結出數(shù)據(jù)之間存在線性相關性,利用Kriging插值法建立預測函數(shù),最終實現(xiàn)土壤重金屬元素含量預測。該方法解決了以往方法中存在的問題,為土壤重金屬元素含量預測仿真提供了全新的參考依據(jù)。