王清亞,李福生*,江曉宇,鄔書良,謝濤鋒,黃溫鋼
(1.東華理工大學 核技術應用教育部工程研究中心,江西 南昌 330013;2.東華理工大學 核資源與環境國家重點實驗室,江西 南昌 330013)
隨著工業進程的加快,鎘(Cd)的大量利用造成了嚴重的環境污染,全世界每年約向環境中釋放40萬噸的Cd,其中59%直接進入土壤[1]。土壤中Cd含量的傳統檢測方法存在效率低、成本高、易造成環境污染等問題,無法滿足較大尺度區域的土壤鎘含量的調查需求[2]。近二十年來,近端土壤傳感技術,如X射線熒光光譜(X-ray fluorescence spectroscopy,XRF)[3]和可見光-近紅外(Visible and near-infrared spectra,Vis-NIR)光譜分析技術[4],因可以實現土壤中重金屬含量的無損、高效和無污染快速測定[5],引起了研究人員的關注。
但不同類型的土壤基質差異大,元素種類繁多,基質效應明顯[6],單一采用XRF和Vis-NIR時準確度[3,7]難以滿足國標對Cd含量測定的要求[8]。多源數據融合可以將多個信息源或傳感器獲得的同一個目標的不同信息融合到一起,利用計算機技術對這些信息進行分析、支配和使用,做出決策,往往較單一信息更具準確性[9]。目前多源數據融合已經廣泛應用于光譜分析領域。武中臣等[10]采用兩種數據融合(等權融合和累加融合)對硅酸鹽、硫酸鹽、碳酸鹽等4種礦物進行分類研究,發現融合后的預測結果均好于單一檢測方法。O’rourke等[11]將可見-近紅外與中紅外光譜等權融合后,測試了愛爾蘭國家土壤數據庫中的樣品,結果顯示,相比單一檢測技術,多傳感器的等權融合技術提高了檢測土壤多項指標的準確性。Stenberg等[12]將Vis-NIR和XRF光譜等權融合,分別獲得了土壤有機質(SOM)礦物、水分、pH值、銅、鉛含量等重要土壤屬性。史舟等[5]通過數據外積融合測定了土壤中鉻的含量,相比單一數據預測模型,融合后的模型預測精度(ρc=0.88,RMSEP=6.8,RPD=2.30)更佳。綜合以上技術在土壤相關參數定量檢測方面的研究可知,基于數據融合測定土壤Cd含量是可行的,但目前相關研究較少。
本研究以鄱陽湖南磯山為研究區,進行野外土壤采樣、室內理化分析、光譜采集與處理等工作,并基于XRF和Vis-NIR研究了不同數據融合算法對土壤Cd含量預測模型穩定性和精度的影響,探索基于兩種光譜數據融合的Cd含量的預測方法,以為該區域的重金屬污染調查提供參考。
研究的區域位于江西鄱陽湖西南岸(116°10′24″~116°23′50″E,28°52′21″~29°06′46″N),共采集371個樣品,土壤類型覆蓋潮土、水稻土、黃棕壤,采用十字法取樣,采樣深度為0~20 cm,采樣時剔除侵入體,混勻后用四分法收集土樣。經風干、研磨,過2 mm孔徑篩后,將每份樣品分成3份,分別用于室內理化分析和XRF、Vis-NIR光譜采集。
按照《石墨爐原子吸收分光光度法GB/T 17141-1997》進行樣品消解和分析,用HCl-HNO3-HF-HClO4(四酸)破壞礦物晶格,以石墨爐原子吸收分光光度計測定試劑中的Cd[13]。約20%的土壤被分析兩次,用以評估方法的重復性。設置95%的置信區間,剔除超出置信區間的樣品,最終保留356個樣品進行后續研究。選用K-S(Kennard-Stone)算法[14]計算各個樣品的歐式距離,選用60%的樣本用于建模,40%的樣品用于預測和驗證(表1)。

表1 土壤樣品鎘含量統計特征Table 1 Statistical characteristics of soil Cd content
采用美國ASD公司的便攜式FieldSpec3高光譜分辨率地物波譜儀測定土壤樣品的Vis-NIR光譜,其波段值為350~2 500 nm,采樣間隔為1.4 nm(350~1 000 nm)和2 nm(1 000~2 500 nm),重采樣間隔為1 nm。將樣品放置在培養基中(直徑10 cm,高度1 cm),隨機掃描10次,取信噪比最佳的3次測定結果進行平均,作為樣品光譜。
XRF測量采用泰克松德公司的TS-XH4000-G分析儀,選用土壤模式,每次測試90 s,同一個樣品測試3次。每測30個樣品校正1次,最終取3次測試結果的平均作為該樣品的光譜。TS-XH4000-G分析儀對Cd的檢出限為2 mg·kg-1。測試結束后,對測試結果進行分析,在371個樣品中只有14個樣品的Cd含量高于儀器檢出限。大部分樣品的Cd含量低于檢出限。文中儀器對Cd含量的分析結果不作為建立模型的考慮范圍。
最小二乘支持向量機(Least squares support vector machine,LS-SVM)是基于支持向量機(SVM)的一種改進算法,通過構造損失函數將原SVM中算法的二次尋優變為求解線性方程,其求解速度較快,在光譜分析領域中得到了廣泛應用[15]。LS-SVM方法共有4種核函數(線性核、多項式核、徑向基函數核、高斯核)可供選擇,徑向基函數核(Radial basis function,RBF)非常適用于光譜分析中的非線性問題處理[16],因此本文使用RBF函數來實現LS-SVM建模。
模型預測精度以決定系數(Determination coefficients,R2)、校正均方根誤差(Root mean squared error of calibration,RMSEC)、預測均方根誤差(Root mean square error of prediction,RMSEP)、相對分析誤差(Relative percent deviation,RPD)4個參數衡量。R2反映模型建立和驗證的穩定性,RMSEC和RMSEP用來檢驗模型的預報能力[17],RPD是樣本標準差與RMSEP的比值,用以判斷模型的預測能力,RPD<1.4時,模型無法對樣品進行預測;1.4≤RPD<2.0時,認為模型效果一般,可用來對樣品進行粗略評估;RPD≥2.0時,模型具有極好的預測能力[18]。


圖1 不同Cd含量土壤的原始XRF光譜(A)和Vis-NIR光譜(B)Fig.1 Theoriginal XRF spectra (A) and Vis-NIR spectra(B) of soil with different Cd contents
選取土壤樣品中Cd含量最大值、中間值、最小值(Cd含量分別為1.50、0.76、0.21 mg·kg-1)所對應的3條原始光譜曲線進行分析(圖1)。
根據莫塞萊定律,土壤中Cd產生的K系和L系特征射線的能量是唯一的。圖1A中23.17 keV處為Cd的Kα特征射線,其能量計數與Cd含量呈正相關。但Cd的L系特征射線(3.13 keV)處于傳感器探測范圍的邊緣,靈敏度較差,不可作為定量模型的輸入量,故許多定量儀器只將Cd的Kα特征射線計數作為輸入量。而復雜的原級X射線與土壤樣品的作用過程和元素間特征射線的相互影響(例如Pb的23.82 keV Kβ和Cd的23.17 keV Kα射線相互影響)導致目標元素的照射量率與含量之間不再是單純的正比關系,這也可從圖1A中的特征射線計數看出來。而廣泛用于土壤重金屬(如Pb、Cu、Zn、Cr等)檢測的XRF儀器利用元素特征射線與元素含量之間的正相關關系進行定量分析,從而導致對Cd類亞mg·kg-1級含量的重金屬的檢測效果不佳。
不同Cd含量土壤樣品的Vis-NIR光譜(圖1B)具有以下特征:(1)光譜形態大致相同,近似平行,均呈上凸趨勢,總體單調遞增;(2)在可見光波段的反射率小于近紅外波段,不同光譜間的差別也較??;(3)3條光譜曲線的差異主要在近紅外波段,出現特征吸收峰的位置大致相同,吸收深度和吸收面積有差別;(4)在400~600 nm區間斜率較大,和土壤中鐵的含量有關;(5)在1 400、1 900、2 200 nm處存在明顯的水分吸收谷,1 400 nm附近為羥基(OH—)譜帶,1 900 nm附近為H2O譜帶,2 200 nm附近為羥基伸縮振動與Al—OH和Mg—OH彎曲振動的合譜帶[19]。
為消除噪音和低能射線的影響,首先在光譜中截取數據較為豐富的一段:Vis-NIR反射光譜截取450~2 450 nm段(2 000個通道),并將反射光譜轉換成吸收光譜;XRF光譜選取0.405~42.105 keV段(2 000通道)。隨后,對兩種光譜進行基線校正、Sacitzky-Golay(S-G)平滑[20](窗口大小為15,2階多項式)以及標準矢量歸一化(SNV)[21]處理。最后,對處理后的Vis-NIR和XRF光譜重新采樣(保留200個通道,分辨率分別為10 nm,0.20 keV),Vis-NIR光譜的數值范圍為-3.42~4.29,XRF光譜的數值范圍為-1.16~2.37,解決了數據融合中量綱不一致的問題。
Moros等[22]提出了3種數據融合算法:累加融合(Coadditionfusion,CF)、等權融合(Equal rights fusion,ERF)、外積融合(Outer product fusion,OPF)。累加融合是將XRF和Vis-NIR光譜相關通道上的數據按照一定權重進行加和,得到的新矩陣的行數等于樣品數量,列數不變。本研究中將對XRF和Vis-NIR光譜進行加權(XRF∶Vis-NIR=3∶1)累加融合得到的定量模型記為CF-LSSVM;等權融合是將XRF和Vis-NIR光譜數據首尾相連,得到的新矩陣行數為樣品數量,列數為兩個光譜數據的列數之和,定量模型記為ERF-LSSVM;外積融合則通過求取XRF和Vis-NIR光譜數據的克羅內克積(Kronecker product)[23]進行融合:如果A是m×n矩陣,B是p×q矩陣,則求取的克羅內克積為mp×nq的分塊矩陣[24],見公式(2)。應用克羅內克積的形式可以有效增強不同物理量光譜的共同演化性能[23,25-27]。
(2)
如圖2所示,外積融合的具體方法是:第m個被測樣品可以得到一組具有r個變量的XRF光譜(1×r)和c個變量的Vis-NIR光譜(1×c),分別記為rm、cm(公式3),將2個矩陣進行相乘求取克羅克內積,得到c×r矩陣(公式4),該矩陣為第m個樣品的外積融合光譜。將得到的矩陣按照1行的形式展開(Unfold)得到(1×r·c)矩陣,以此矩陣作為建立模型的輸入量,定量模型記為OPF-LSSVM。

圖2 外積融合算法示意圖Fig.2 Process of data fusion by OPF
rm=(r1,m,…,ri,m)
cm=(c1,m,…,cj,m)
(3)
(4)
(5)
其中rm、cm分別為第m個樣品的XRF光譜和Vis-NIR光譜,Am是該土壤樣品的外積融合光譜,ri,m是XRF光譜在i能量處的通道計數,cj,m代表同一個樣品在j波長處的吸光度。Ψ為Am矩陣的展開,為1行c×r列矩陣。
以1號土壤樣品為例,經XRF光譜、Vis-NIR光譜融合算法后,構建了CF光譜、ERF光譜、OPF光譜,如圖3所示。從圖中可以看出,CF光譜走勢和XRF光譜類似,保留了XRF光譜和Vis-NIR中的一些特征峰;ERF光譜圖比CF光譜圖含有更多的信息,包括XRF和Vis-NIR光譜中的所有特征峰;OPF光譜圖所含數據量最多,達到40 000個變量,其數值的變化也較大。





圖3 1號土壤樣品的XRF光譜圖(A)、Vis-NIR光譜圖(B)、累加融合光譜圖(C)、等權融合光譜圖(D)和外積融合光譜圖(E)Fig.3 XRF spectra(A),Vis-NIR spectra(B) and their coaddition fusion spectra(C),equal rights fusion spectra (D) andouter product fusion spectra(E) of No.1 soil sample
在建立LS-SVM模型時,首先要選擇合適的核參數σ2和懲罰系數γ,通過網格搜索法和留一法(Leave-one-out)進行全局尋優。數據處理中γ的搜索范圍為1~10 000,σ2的搜索范圍為0.01~1 000,確定的最優γ和σ2見表2。

表2 LS-SVM模型中γ和σ2最優值Table 2 The optimal values of γ and σ2 in LS-SVM model
2.4.1 單一光譜預測模型使用XRF和Vis-NIR光譜作為輸入變量,建立LS-SVM模型,具體預測效果如圖4所示。從圖中可以看出,以單一光譜作為輸入量的模型中,XRF-LS-SVM模型的R2(0.63)略低于Vis-NIR-LS-SVM模型(R2=0.69),其RMSEP(0.13)則高于Vis-NIR-LS-SVM(RMSEP=0.10),表明Vis-NIR-LS-SVM模型具有很好的穩定性和精度,略優于XRF-LS-SVM的預測效果,但兩種模型的預測效果均不理想,RPD介于1.40~2.0之間。

XRF儀器[28]對Cd類亞mg·kg-1級含量的重金屬的檢測效果不佳,使用XRF全光譜作為模型的輸入,雖可以提高痕量元素的檢出限[29],但從實驗結果看,預測精度和穩定性仍然無法滿足實際檢測要求。
土壤中的重金屬常與土壤有機質、粘土礦物結合,這些物質在Vis-NIR光譜上具有強烈的特征吸收[30],可基于此使用Vis-NIR對土壤中的重金屬進行預測。使用Vis-NIR光譜預測土壤Cd含量時,效果略優于XRF光譜預測模型,這與文獻研究結果類似[31]。

表3 不同方法預測精度的比較Table 3 Comparison of prediction accuracy of different methods
2.4.2 數據融合預測模型在光譜融合的預測模型中,CF-LS-SVM的RPD=1.24,基本沒有預測能力,從1號土壤樣品CF光譜圖中可以看出(圖3C),融合后光譜集合了XRF和Vis-NIR光譜的一些信息,但兩個光譜值相加,導致一些光譜信息消失,增強了融合后光譜的非線性。除CF-LS-SVM外,融合后的模型預測效果均優于單一光譜模型,表明數據融合可以為Cd含量預測提供有效方法(表3)。ERF光譜保留了XRF和Vis-NIR的所有光譜信息。ERF-LS-SVM模型的RMSEP=0.09,比兩個單一光譜及CF-LS-SVM模型效果更佳,但其RPD=1.92也表明ERF-LS-SVM預測能力一般,僅可對土壤中Cd含量進行粗略預測。OPF-LSSVM在所有模型中效果最好,相比ERF-LS-SVM模型,其RMSEP從0.09降低到0.06,預測精度更高,RPD=2.41則表明該模型具有極好的預測能力。
上述結果說明數據融合相較于單一光譜包含了更多的土壤信息,其中外積融合通過求取兩個光譜的克羅克內積,增強了光譜的區域性,尤其是將不同物理量的XRF和Vis-NIR光譜外積融合后,可以充分利用光譜的不同性質和互補信息,更利于土壤參數的預測建模。但在具體運算過程中,外積融合的光譜變量是單一光譜變量的幾百倍,建模計算所消耗的時間也相對增加。
本文基于LS-SVM算法對比了XRF和Vis-NIR單一光譜模型及其等權融合模型、累加融合模型、外積融合模型的預測能力,結果顯示外積融合模型的預測精度和模型穩定性最佳(R2=0.85,RMSEP=0.06,RPD=2.41),符合土壤調查中對鎘含量的預測要求。本研究為土壤重金屬含量的調查,尤其是Cd、Hg類亞mg·kg-1級重金屬含量的調查提供了借鑒方法,對開發土壤重金屬分析儀具有重要意義。