李聰,郭軍,楊鵬至,陳方偉,毛雄,湯恒佳
基于BP神經(jīng)網(wǎng)絡的Se元素生物有效性預測研究——以黃沙街鎮(zhèn)茶葉Se為例
李聰,郭軍,楊鵬至,陳方偉,毛雄,湯恒佳
(中國地質(zhì)調(diào)查局長沙自然資源綜合調(diào)查中心,長沙 410600)
Se含量是茶葉質(zhì)量重要指標,為了預測茶葉中的Se含量,本文以岳陽縣黃沙街鎮(zhèn)茶葉基地的茶葉Se元素為研究對象,基于BP神經(jīng)網(wǎng)絡建立茶葉Se預測模型,在此基礎上預測了黃沙街茶廠茶葉Se富集系數(shù)。并與實測結果進行對比,其研究結果表明預測結果精度達到84.77%,與實際數(shù)據(jù)有較好一致性。該建模方法同樣可運用于土壤中其他元素的預測研究。
BP神經(jīng)網(wǎng)絡;茶葉Se;生物有效性;模型;黃沙街鎮(zhèn)
在以往研究中,對元素生物有效性研究更傾向于建立模型,而模型建立往往選擇傳統(tǒng)的多元回歸方程。在預測原理方面,其回歸預測模型需人為選擇預測變量間的函數(shù)形式,而BP神經(jīng)網(wǎng)絡則不需要人為選擇函數(shù)形式。可以通過網(wǎng)絡的自學習能力,建立預測變量到被預測變量的非線性映射,其在環(huán)境評價和預測等方面的具體應用中表現(xiàn)出高于傳統(tǒng)方法的精確度(何國民,2019)。因此本文以黃沙街鎮(zhèn)茶葉基地所產(chǎn)茶葉中的Se元素為研究對象,根據(jù)前人研究及通過對數(shù)據(jù)進行相關分析挑選了土壤pH、CaO、有機質(zhì)為變量因素,基于BP神經(jīng)網(wǎng)絡預測了黃沙街鎮(zhèn)茶葉Se元素含量。為了更好地安全高效利用土地提供科學依據(jù)。
茶葉采集均為秋茶,且表1數(shù)據(jù)取自相同品種黃茶,茶葉類樣品采集方法:以0.1hm2~0.2 hm2為采樣單元,隨機選取15棵~20棵植株,每株采集上、中、下多個部位的葉片混合成1件樣品,老葉或新葉混合采樣。初步加工:茶葉類樣品采用隨機取樣法縮分,先用清水將樣品洗凈晾至無水后,將整株植株粗切后混合均勻,隨機取所需足量的樣品。加工方法:①用不銹鋼刀或剪刀將茶葉樣品在晾干室內(nèi)或高出地面1.5m以上架子上攤放于晾樣盤中風干,或?qū)⑶兴闃悠贩旁?5~90℃烘箱鼓風烘1 h,再在60~70℃下通風干燥24~48 h成風干樣品。;②將風干樣品置于瑪瑙研缽進行研磨,使樣品全部通過40目~60目尼龍塑料篩,混合均勻成待測試樣。

圖1 研究區(qū)位置圖及采樣點位圖
數(shù)據(jù)處理方法:數(shù)據(jù)整理利用Excel、Origin完成,圖件繪制利用SPSS、ArcGis完成。
茶葉中Se含量富集系數(shù)(K)通過如下公式計算:
K=Cplant/Csoil
其中,K表示元素的富集系數(shù),Cplant為重金屬元素在作物中的含量,單位為mg/kg,Csoil為重金屬元素在根系土中的含量,單位為mg/kg(王銳等,2020)。

表1 元素指標數(shù)據(jù)
黃沙街茶廠建于1965年,位于湖南省東北部岳陽縣洞庭湖畔,東接107國道,茶廠占地面積3.2萬畝,是湘北地區(qū)建場時間最長、連片種植規(guī)模最大、年茶葉產(chǎn)量最大的茶葉生產(chǎn)基地。湖南省九大茶葉示范廠之一,年產(chǎn)干茶5000余擔。茶廠地處長江中游中低緯度區(qū),屬亞熱帶大陸季風濕潤氣候,受季風的影響較大,年平均氣溫17℃,年平均降雨量在1500mm以上。茶廠主要出露地層為第四系洞庭湖組和汨羅組,廠區(qū)的地形主要以崗地為主,土壤類型主要有紅壤、水稻土。
在擬合模型建立過程中,必須滿足數(shù)學模型建立的三個基本原則:簡化原則、可推導原則和反映性原則。在模型建立過程中,需秉持“簡明實用”的原則,防止出現(xiàn)“過度擬合”的錯誤 。其次,建立的模型要在數(shù)學基礎上能完成推導,可進行一定程度的推廣。最后數(shù)學模型的主要目的是為了解決實際問題,因此建立的模型必須具有地質(zhì)意義,要將地質(zhì)問題和傳統(tǒng)數(shù)學聯(lián)系起來,反映客觀事實(楊忠芳等,2020,王銳等,2020)。
本文通過主成分分析法確定影響茶葉Se吸收的主因子中,挑選權重較大、相關性較強及與Se密切相關的影響因素用于網(wǎng)絡訓練及建立多元非線性回歸模型方程:土壤CaO、土壤有機質(zhì)、pH。其變量數(shù)據(jù)均進行對數(shù)化處理(pH除外),茶葉Se含量用富集系數(shù)K表示,各指標數(shù)據(jù)見表1。
人工神經(jīng)網(wǎng)絡無需事先確定輸入輸出之間映射關系的數(shù)學方程,僅通過自身的訓練,學習某種規(guī)則,在給定輸入值時得到最接近期望輸出值的結果。作為一種智能信息處理系統(tǒng),人工神經(jīng)網(wǎng)絡實現(xiàn)其功能的核心是算法。同現(xiàn)行的計算機不同,是一種非線性的處理單元。只有當神經(jīng)元對所有的輸入信號的綜合處理結果超過某一閾值后才輸出一個信號。因此神經(jīng)網(wǎng)絡是一種具有高度非線性的超大規(guī)模連續(xù)時間動力學系統(tǒng)(閆以聰?shù)龋?007)。我們只需將經(jīng)過對數(shù)化處理后的變量因素導入神經(jīng)網(wǎng)絡中,而后設置代碼,經(jīng)過一系列運算便可得出其結果。
3.3.1 設置代碼
getwd( ) #查詢工作目錄
setwd("F:/data") #設置工作目錄
tea <- read.csv("tea.csv") #讀入茶葉根系土數(shù)據(jù)
str(tea) #查看數(shù)據(jù)結構
plot(tea$K)
hist(tea$K)
tea$Cdr <- log(tea$K)
hist(tea$Cdr)
tea$Cds <- log(tea$Cds) #使數(shù)據(jù)均衡分布
normalize <- function(x) { return((x - min(x)) / (max(x) - min(x))) }#構造歸一化函數(shù)
tea.norm <- as.data.frame(lapply(tea[,5:12], normalize))
summary(tea.norm$Cdr) #確認歸一化結果
summary(tea.norm$Cds) #確認歸一化結果
ind <- sample(2, nrow(tea), replace = TRUE, prob = c(0.8, 0.2)); #隨機八二抽樣;
tea.train <- tea[ind == 1,] #設置訓練數(shù)據(jù)
tea.test <- tea[ind == 2, ] #設置檢驗數(shù)據(jù)
library(neuralnet) #加載神經(jīng)網(wǎng)絡包neuralnetset.seed(12345);
model1<-neuralnet(formula=K~CaO+pH+有機質(zhì),data=tea.train) #構造和訓練了神經(jīng)網(wǎng)絡plot(model1) #繪圖
test1.results <- compute(model1, tea.test[1:7]) #計算檢驗數(shù)據(jù)
predicted1 <- test1.results$net.result #提取驗證結果
3.3.2 網(wǎng)絡結構(圖2、圖3)

圖2 神經(jīng)網(wǎng)絡訓練結構

圖3 神經(jīng)網(wǎng)絡拓撲結構
3.3.3 訓練數(shù)據(jù)處理
將原始數(shù)據(jù)經(jīng)過R語言構造歸一化函數(shù),然后將41件茶葉及根系土數(shù)據(jù)進行八二抽樣,以設置訓練數(shù)據(jù)和檢驗數(shù)據(jù),確保后續(xù)所生成預測數(shù)據(jù)與原始數(shù)據(jù)對比誤差小,如模擬精確高、誤差小,則證明此網(wǎng)絡模型可用于下步預測。

表2 BP網(wǎng)絡模型誤差表
3.3.4 網(wǎng)絡模型的檢驗與驗證
網(wǎng)絡訓練完后,通過對目標實測值與預測值進行對比參照(表2,圖3),下表實測值(K)與網(wǎng)絡模型值(K1)均為富集系數(shù),檢驗網(wǎng)絡模型的擬合度及精確度和誤差值,在此僅以抽樣后檢驗數(shù)據(jù)作為對比,其中數(shù)值及結果均為經(jīng)過歸一化處理后的還原值。
采用歸一化平均誤差(NME)和歸一化均方根誤差(NRMSE)判斷模型的準確度與精密度,公式如下:

其中:P為預測值的平均值,O為實測值的平均值,Pi表示第i套樣品的預測值,Oi表示第i套樣品的實測值,N表示樣品總數(shù)。通過對34組訓練數(shù)據(jù)計算,該方程的NME=-0.024,NRMSE=0.284,其準確度和精確度均較好。
從對Se元素的含量預測中可以看出,BP神經(jīng)網(wǎng)絡預測模型精度達到84.77%,其歸一化平均誤差(NME)和歸一化均方根誤差(NRMSE)顯示其準確度與精確度均較好,可以體現(xiàn)出網(wǎng)絡模型對于這種不直觀化的事物中的優(yōu)越性,明顯高于傳統(tǒng)多元回歸模型。
利用BP神經(jīng)網(wǎng)絡的特殊優(yōu)勢及算法,不需要人為選擇函數(shù)運算形式,可為該地區(qū)富Se茶葉選址提供依據(jù),由于神經(jīng)網(wǎng)絡被證明具有非線性函數(shù)處理能力,相較于傳統(tǒng)回歸模型處理線性模型更具優(yōu)勢及根據(jù)。

圖4 實測數(shù)據(jù)與網(wǎng)絡模型折線對比圖
神經(jīng)網(wǎng)絡與傳統(tǒng)回歸方程在后續(xù)研究中可結合運用,由于神經(jīng)網(wǎng)絡在進行計算時,常無法直觀明了清楚每個數(shù)字運算過程,而是通過特點輸入、輸出以及特定隱藏層方式構建(周志華等,2004)。
在被證明模型可用后,通過采集少量的茶葉樣品及少量的茶葉根系土樣品建立模型,在知道該地區(qū)農(nóng)用地土壤元素含量基礎上,可將其作為對應茶葉Se元素仿真部分輸出值進行計算,即可預測該年份當?shù)剞r(nóng)作物Se元素含量。
何國民. 2019. BP神經(jīng)網(wǎng)絡預測模型與回歸模型預測效果比較研究[J]. 第十一屆全國體育科學大會,
王銳,鄧海,賈中民,等.2020.硒在土壤-農(nóng)作物系統(tǒng)中的分布特征及富硒土壤閾值[J]. 環(huán)境科學,12
楊忠芳,湯奇峰,劉久臣.2020.湘鄂重金屬高背景區(qū)1∶5萬土地質(zhì)量地球化學調(diào)查與風險評價報告[R]. 130-131,05
王銳,胡小蘭,張永文.2020.重慶市主要農(nóng)耕區(qū)土壤Cd生物有效性及影響因素[J]. 環(huán)境科學,04
閆以聰. 2007. 回歸方程與神經(jīng)網(wǎng)絡在數(shù)值預測方面的對比研究綜述[J]. 數(shù)理醫(yī)學雜志,001
周志華. 2004.神經(jīng)網(wǎng)絡及其應用[M].北京: 清華大學出版社.
Bioavailability Prediction of Se Element Based on BP neural——Take Tea Se in Huangshajie Town as an Example
LI Chong GUO Jun YANG Peng-zhi CHEN Fang-wei MAO Xiong TANG Heng-jia
(Changsha Center for Comprehensive Natural Resources Survey, China Geological Survey, Changsha 410600)
Se content is an important index of tea quality. In order to predict Se content in tea, this paper took the Se element of tea in Huangshajie Tea Base of Yueyang County as the research object, established a tea Se prediction model based on BP neural network, and predicted the Se enrichment coefficient of tea in Huangshajie Tea Factory. Compared with the measured results, the research results show that the accuracy of the predicted results reaches 84.77%, which is in good agreement with the actual data. The modeling method can also be applied to the prediction of other elements in soil.
BP neural network; tea Se; bioavailability; model; Huangsha Street Town
X53
A
1006-0995(2022)04-0673-04
10.3969/j.issn.1006-0995.2022.04.025
2022-02-22
李聰(1995— ),男,湖北宜昌人,技術員,研究方向:地球化學土地質(zhì)量