陳 穎,楊 惠,肖春艷,趙學亮,,李 康,龐麗麗,史彥新,劉崢瑩,李少華
1. 燕山大學電氣工程學院河北省測試計量技術及儀器重點實驗室,河北 秦皇島 066004 2. 河南理工大學資源與環境學院,河南 焦作 454000 3. 中國地質調查局水文地質環境地質調查中心,自然資源部地質環境監測工程技術創新中心,河北 保定 071051 4. 河北先河環保科技股份有限公司,河北 石家莊 050035
土壤重金屬污染問題一直備受人們廣泛關注,土壤重金屬不易被分解,且易于累積,不僅會隨著食物鏈進入人體,危害人體健康,更會影響生態系統的平衡。目前土壤中重金屬元素的檢測方法有紫外可見分光光度法[1]、原子吸收光譜法[2]、電感耦合等離子體質譜法[3]、化學消解法[4]等。這些傳統檢測方法存在檢測速度慢、操作復雜、易造成污染、精度低等問題,而本實驗采用XRF法對土壤重金屬元素進行檢測,具有檢測速度快、精度高、操作簡單等優點,可同時對土壤中多種元素進行檢測,能更好的滿足實驗的需求[5]。
近幾年,深度卷積神經網絡及XRF法已經得到了快速的發展,被廣泛地應用在生物學、地質學、食品學、醫學以及合金材料等領域。Chen等[6]采用一種由數據驅動的閾值策略的小波去噪方法,并將該方法應用于檢測除風機軸承旋轉機械故障中,具有很好的實用性; Ng W等[7]建立卷積神經網絡分類模型,結合近紅外光譜根據土壤中微塑料的濃度將采集的土壤樣本分類為不同的污染等級,提高了分類的準確性; 李靈巧等[8]采用深度卷積網絡模型,對藥品近紅外光譜進行分析研究,建立不同廠商、不同藥品的分類模型,將該模型與多種淺層神經網絡分類模型相對比,通過大量實驗數據驗證,該方法可以對不同廠商、不同藥品的近紅外光譜數據進行準確可靠的分類預測。目前人們將卷積神經網絡算法實際多用于人臉識別、語音識別和檢測以及圖片處理分類等領域,卷積神經網絡是被認為學習圖像內容的最佳技術之一,通過查閱文獻可知基于深度卷積神經網絡模型在近紅外光譜處理領域研究較多,而在X射線熒光光譜處理以及對土壤中重金屬元素含量預測方面應用較少。
本文提出基于深度卷積神經網絡-X射線熒光光譜法對土壤中重金屬Zn元素含量預測模型,將X射線熒光光譜法與深度卷積神經網絡相結合,通過粉末壓片法制作土壤壓片,采集土壤熒光光譜數據,結合箱型圖、熵權法、多元散射校正、Savitzky-Golay平滑去噪法以及線性本底法對光譜數據進行預處理,根據卷積神經網絡對圖數據處理的優越表現,將獲取的一維光譜數據向量,采用構建光譜數據矩陣的方式來進行處理,將同一含水率下、同一重金屬濃度下的5組平行光譜數據向量轉化為二維光譜信息矩陣的形式,以此作為深度卷積神經網絡模型的輸入,同時探究了不同學習率、不同迭代次數下該預測模型的預測性能,并與BP,ELM和PLS等模型相對比,為土壤中重金屬Zn元素含量的精確預測提供了新思路。
儀器: CIT-3000SYB能量色散X熒光分析儀(四川新先達測控技術有限公司),艾澤拉小型研磨機(艾澤拉有限公司),瑞紳葆PrepP-01 100T XRF用大噸位壓片機(瑞紳葆分析技術上海有限公司),電動攪拌器,佰輝電熱鼓風干燥箱,不同規格土壤篩等。
試劑: Zn標準溶液,去離子水,工業酒精等。
實驗土壤樣本取自河北省保定市周邊村莊,由于土壤表層易受雨水沖刷,風力遷移等自然條件的影響,會導致表層土壤重金屬元素含量的流失,而重金屬元素由于長時間的沉積會富集在土壤表層下具有診斷意義的亞表層,故采用網格法布點采集地面10~40 cm處土壤作為實驗樣本,去除土壤雜質,采用粉末壓片法來制作土壤壓片,放入研磨機中研磨并過200目篩,再置于烘干箱中烘至恒重,確保去除土壤中水分。配置100,200,400,600和800 mg·kg-1等5個不同重金屬濃度的Zn元素重金屬溶液,將其與烘干過篩后的土壤均勻混合攪拌,由于華北平原土壤的含水率區間在10%~25%之間,故將Zn標準溶液采用加去離子水及烘干標液法來控制土壤壓片的含水率在10%~25%之間。當含水率在10%~15%之間時,制備的土壤壓片表面平滑,可用于熒光光譜的采集,當含水率在15%以上時,制備的土壤壓片粘連,表面不平整,無法進行檢測,故采用樣品盒代替壓片進行測試[9]。
在X射線熒光光譜采集之前先將能譜儀預熱5 min以保持儀器正常穩定工作,然后將制作好的土壤壓片放入能譜儀樣品腔中進行檢測,檢測時間為2 min,即可獲得含有多種重金屬元素的土壤熒光光譜數據。
本研究主要以檢測土壤中重金屬元素Zn為主,通過XRF法獲得土壤壓片原始光譜數據,由重金屬元素Zn的特征X射線標定其特征峰位置,熒光強度為標定特征峰的凈峰面積。將光譜數據進行預處理,包括異常光譜數據剔除、樣品盒數據校正、光譜去噪、本底扣除等操作,將同一濃度、同一含水率下的5組平行光譜數據向量轉化為二維光譜信息矩陣形式,以此來作為深度卷積神經網絡的輸入,提高了預測模型對土壤中重金屬元素Zn含量的預測精度,并將深度卷積神經網絡預測模型與BP,ELM,PLS三種預測模型進行對比,驗證了該模型的優越性。
在光譜數據獲取過程中,由于周圍環境因素、人為因素等導致光譜數據出現異常,使后期模型預測結果誤差較大,故在建立模型之前需要對光譜數據進行異常值剔除操作。本實驗采用箱型圖去除異常光譜數據,利用箱型圖可以很直觀識別光譜數據中的異常點,數據點在Q1—Q3之間為正常光譜數據,數據點高于上限或是低于下限為極端異常值,應予以剔除,數據點在Q3至上限之間或在下限與Q1之間為溫和值,不予剔除。取五組光譜數據進行檢測,由圖1可知第二組光譜數據有一個異常數據點為7.636,應予以剔除。

圖1 異常值剔除Fig.1 Outlier rejection
在土壤壓片樣本制作過程中,在含水率區間10%到25%之間設置10個等含水率梯度,當采用含水率大于15%的土壤進行壓片時,在10 MPa壓力下,壓片易粘連變形,導致土壤壓片檢測面不平整,無法進行測量,故用樣品盒代替土壤壓片進行測量。由圖2(a)光譜曲線可知,在同一濃度,同一含水率條件下,采用樣品盒土壤測得的熒光光譜曲線相比于壓片測得的熒光光譜曲線中Zn元素的特征峰波峰下降,波寬變窄,相應的凈峰面積減少,所以需對樣品盒光譜數據進行校正,減少測量誤差。首先對同一重金屬濃度,同一含水率條件下4個壓片數據進行處理,通過熵權法根據光譜數據的變異程度,利用信息熵對每一個壓片數據指標的權重進行修正,使得壓片指標權重更為客觀,以此來獲得平均壓片光譜數據[10]。再通過多元散射校正來對樣品盒數據進行校正,以平均壓片光譜數據作為理想光譜數據,對樣品盒光譜數據進行修正,由圖2(a)和(b)所示,經校正后的樣品盒數據更貼近土壤壓片數據,可以有效地消除土壤樣品顆粒大小,裝填密度等不同引起的散射影響,有效的提高光譜的信噪比[11]。

圖2 土壤樣品盒光譜校正圖(a): 校正前光譜對比; (b): 校正后光譜對比Fig.2 Soil sample box spectral correction chart(a): Spectrum comparison before correction;(b): Comparison chart of corrected spectrum
由于測量環境和能譜儀在采集光譜,獲取光譜以及傳輸光譜的過程中,受到各種噪聲的干擾[12],影響光譜數據的分析,因此要對光譜進行去噪處理,本實驗采用5點2次Savitzky-Golay卷積平滑去噪法來對光譜進行處理,該方法操作簡單,功能強大,在光譜去噪處理中被廣泛應用。圖3(a)為去噪處理后光譜數據對比圖,經過處理后提高了光譜的平滑性,降低了光譜噪聲的干擾。另外利用X射線熒光光譜法快速檢測樣品時,X射線與樣品間相互作用產生的相干及非相干散射、康普頓散射等,會導致X射線信號峰生成本底,產生基線漂移現象,為此在光譜解析前必須扣除本底,本研究采用線性本底法有效地扣除了光譜本底,圖3(b)為扣除本底后光譜對比圖。

圖3 土壤光譜數據處理(a): 土壤光譜去噪對比; (b): 本底扣除對比Fig.3 Processing of soil spectral data(a): Comparison of soil spectral denoising;(b): Background deduction comparison
由于深度卷積神經網絡特殊的深度學習結構,需先對光譜數據進行歸一化處理,再將提取歸一化后的光譜數據向量轉化為二維光譜信息矩陣,以適應卷積層的操作要求,充分發揮深度卷積神經網絡預測模型的表達能力。取道址范圍100~700區間內600個光譜數據點作為模型的輸入,共取245組光譜即(245×600),輸出為土壤中重金屬Zn元素的含量值,由于卷積神經網絡結構的特殊性,實驗過程中,對同一含水率、同一重金屬濃度下測得5組平行光譜數據,即以5組平行光譜數據構建光譜信息矩陣,對應輸出一個土壤中重金屬Zn元素含量預測值。如此就將245×600的光譜數據轉化為49×5×600形式,對應輸出49組土壤重金屬Zn元素的含量,圖4為深度卷積神經網絡預測模型結構圖。
本研究采用三層深度卷積神經網絡預測模型,三層卷積核尺寸都設置為3×1、步長設置為1×1,卷積核個數每層依次為16,32和64,模型使用ReLU激活函數激活,池化層采用最大池化方式,池化步長設置為2×1以減少數據的維度,提高訓練效率。在全連接層和輸出層之間加入Dropout層,防止過擬合,使用ADAM優化器對預測模型進行優化[13]。首先將總光譜數據劃分為39個訓練集和10個測試集,通過樣本LOSS,MAE,MRE以及MSE來評價預測模型的好壞,預測模型的LOSS越小,代表預測值與真實值之間差異越小,模型的魯棒性越好。本次研究采用LOSS,MAE和MRE等三項指標來確定三層卷積神經網絡最優的學習率及迭代次數,如表1所示。

圖4 深度卷積神經網絡結構圖Fig.4 Structure of deep convolutional neural network

表1 卷積神經網絡參數Table 1 Convolutional neural network parameters
由表1數據可以發現,在深度卷積神經網絡預測模型中,當固定模型迭代次數次η=2 000時,學習率ε=10-3時,模型的預測效果最好,同理固定模型學習率ε=10-3時,迭代次數η=3 000時,模型的預測效果最好,因此,當深度卷積神經網絡預測模型的學習率ε=10-3,迭代次數次η=3 000時,模型的LOSS,MAE和MRE都最小,模型具有較好的預測效果,預測模型的MSE為5.466×10-7、RMSE為7.393×10-4、R2為0.955 9,通過預測模型計算的Zn含量預測效果如圖5(a)和(b)所示。
將基于深度卷積神經網絡預測模型與淺層神經網絡預測模型進行對比分析,對比模型包括BP神經網絡預測模型、ELM預測模型、以及PLS預測模型,通過MSE,RMSE以及R2來分析比較基于深度卷積神經網絡預測模型的好壞,對比結果如表2所示。
由表2可以發現,深度卷積神經網絡的MSE以及RMSE分別達到5.466×10-7和7.393×10-4,相比于淺層神經網絡預測模型,深度卷積神經網絡預測模型預測的重金屬Zn元素的含量值要更加精確,另外卷積神經網絡預測模型的決定系數為0.958 3,相比于BP,ELM和PLS三種預測模型,曲線的擬合程度也比另外三種預測模型效果要好,因此利用深度卷積神經網絡-X射線熒光光譜法對土壤中重金屬Zn元素含量預測具有較好的準確性和精確度,具有可行性。

圖5 Zn元素含量預測圖(a): 四種預測模型測試集數據對比;(b): 3-CNN訓練集數據對比Fig.5 Zn element content prediction chart(a): Data comparison of four prediction model test sets;(b): 3-CNN training set data comparison

表2 預測模型對比Table 2 Comparison of prediction models
通過粉末壓片法制作土壤壓片,采用XRF法獲得土壤X射線熒光光譜數據,利用箱型圖、熵權法、多元散射校正、Savitzky-Golay平滑去噪法以及線性本底法等對土壤X射線熒光光譜數據進行處理,并建立基于深度卷積神經網絡-X射線熒光光譜法的預測模型來對土壤中重金屬Zn元素含量進行預測,可以得到如下結論:
(1) 采用熵權法,根據采集到的光譜數據的差異性客觀分配權重,以此獲得平均壓片光譜數據,再結合多元散射校正,將平均壓片光譜數據作為理想光譜數據來對樣品盒光譜數據進行校正,減少了預測模型的預測誤差,使預測結果更加精確。
(2) 研究分析了在不同學習率、不同迭代次數等條件下,預測模型的預測性能,確定了深度卷積神經網絡預測模型最優的學習率為10-3以及最優的迭代次數為3 000。
(3) 根據卷積神經網絡的深度學習結構,采用構建光譜信息矩陣的方式,將同一含水率、同一重金屬濃度下5組平行光譜數據向量轉化成二維光譜信息矩陣的形式能更好的適應卷積層的操作要求,利用卷積神經網絡局部連接、權值共享、卷積池化操作以及多層結構特點,能有效提取土樣壓片X射線熒光光譜數據的局部特征,充分發揮了卷積神經網絡預測模型的表達能力。
(4) 將深度卷積神經網絡預測模型與BP預測模型、ELM預測模型、PLS預測模型進行對比,通過預測模型的MSE,RMSE和R2可知基于XRF-CNN的預測模型具有很好的精確度和準確性。
在土壤重金屬污染中,Zn元素只是重金屬污染所包含元素之一,該預測模型的建立對土壤中其他重金屬如Cr,Cd,As,Pb等元素含量的預測也具有重要的借鑒意義,為未來土壤污染中重金屬元素的定量檢測提供了相應的技術支持。