












摘" 要:土壤重金屬含量預(yù)測是土壤污染治理的重要一環(huán),為提高預(yù)測準(zhǔn)確性,文章提出一種基于COPSO-GRNN的土壤重金屬含量預(yù)測模型。該模型針對廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)的平滑因子難以確定的問題,使用余弦優(yōu)化粒子群算法(COPSO)對其進(jìn)行優(yōu)化,優(yōu)化過程中除了為種群個體增加小種群比較策略之外還采用了余弦加速系數(shù)來擴(kuò)大搜索范圍并避免陷入局部最優(yōu),之后引入適應(yīng)準(zhǔn)則來提高算法收斂速度。對該模型與幾種常見的土壤重金屬含量預(yù)測模型進(jìn)行對比實驗,實驗結(jié)果表明該模型的預(yù)測值更接近于真實值,具有更好的預(yù)測性能。
關(guān)鍵詞:土壤重金屬含量預(yù)測;廣義回歸神經(jīng)網(wǎng)絡(luò);余弦優(yōu)化粒子群算法;參數(shù)優(yōu)化
中圖分類號:TP183;TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2024)09-0153-05
Prediction Model for Soil Heavy Metal Content Based on COPSO-GRNN
CAO Wenqi
(Information Engineering Institute, Wuchang Institute of Technology, Wuhan" 430065, China)
Abstract: The prediction of soil heavy metal content is an important part of soil pollution control. To improve the accuracy of prediction, this paper proposes a prediction model for soil heavy metal content based on COPSO-GRNN. In response to the problem that it has difficulty in determining the smoothing factor of generalized regression neural networks (GRNN), the model uses cosine optimization particle swarm optimization (COPSO) for optimization. In addition to adding a small population comparison strategy to the population, it also uses cosine acceleration coefficient to expand the search range and avoid falling into local optima during the optimization process. Then, an adaptation criterion is introduced to improve the convergence speed of the algorithm. Comparative experiments are conducted between this model and several common prediction models for soil heavy metal content. The experimental results show that the predicted values of this model are closer to the true values and has better predictive performance.
Keywords: the prediction of soil heavy metal content; GRNN; COPSO; parameter optimization
0" 引" 言
隨著工業(yè)化的發(fā)展,我國的土壤重金屬污染問題愈發(fā)嚴(yán)重[1],但是由于人力、物力等條件的限制,往往難以做到對污染區(qū)域土壤重金屬含量進(jìn)行全面檢測,因此選用有效的方法對未知區(qū)域的土壤重金屬含量進(jìn)行預(yù)測是一項重要的研究。
廣義回歸神經(jīng)網(wǎng)絡(luò)模型(GRNN)是一種無須反向迭代訓(xùn)練的前饋型神經(jīng)網(wǎng)絡(luò)[2],相較于BP神經(jīng)網(wǎng)絡(luò)等具有收斂速度快、非線性逼近能力強(qiáng)等優(yōu)勢,目前已被廣泛應(yīng)用到各個行業(yè)的數(shù)據(jù)預(yù)測上,如水質(zhì)預(yù)測[3]、光伏發(fā)電量預(yù)測[4]等,因此將該模型用于土壤重金屬含量預(yù)測是可行的。雖然在使用GRNN進(jìn)行數(shù)據(jù)預(yù)測時能夠取得較好的效果,但由于其平滑因子難以確定,容易導(dǎo)致預(yù)測性能不夠穩(wěn)定[5]。研究人員通常采用智能優(yōu)化算法對GRNN中的平滑因子進(jìn)行尋優(yōu)以提高GRNN的預(yù)測性能,在算法的選擇上,粒子群算法相較于其他智能優(yōu)化算法在解決目標(biāo)優(yōu)化問題時具有更快的收斂速度與更好的收斂結(jié)果[6],但隨著問題復(fù)雜性的增加,其優(yōu)化結(jié)果容易陷入局部最優(yōu)。
本文在GRNN與PSO的基礎(chǔ)上提出了一種COPSO-GRNN模型,該模型首先在PSO的迭代過程中引入了余弦加速系數(shù)來進(jìn)行個體位置的計算,同時利用小種群比較策略來讓個體向周圍方向進(jìn)行發(fā)散以擴(kuò)大搜索范圍,之后引入適應(yīng)準(zhǔn)則進(jìn)行迭代前后適應(yīng)度值的比較來獲得較優(yōu)的位置信息,最后將該尋優(yōu)方式用于確定GRNN的平滑因子最優(yōu)取值,以此來克服GRNN與PSO本身存在的不足,從而在進(jìn)行土壤重金屬含量預(yù)測時獲得更好的預(yù)測效果。
1" 基本原理
1.1 廣義回歸神經(jīng)網(wǎng)絡(luò)
廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)是一種具有較好的非線性逼近能力的四層前向傳播神經(jīng)網(wǎng)絡(luò)[2],其結(jié)構(gòu)如圖1所示,數(shù)據(jù)輸入網(wǎng)絡(luò)后依次經(jīng)過輸入層、模式層、求和層、輸出層后得到輸出結(jié)果。
1)輸入層,將輸入數(shù)據(jù)傳遞到模式層,節(jié)點數(shù)為輸入數(shù)據(jù)的特征維度。
2)模式層,一般使用高斯函數(shù)對輸入數(shù)據(jù)進(jìn)行處理,節(jié)點數(shù)為訓(xùn)練樣本的個數(shù),具體的計算公式為:
其中,xi為訓(xùn)練樣本,xj為學(xué)習(xí)樣本,σ為平滑因子。
3)求和層,假設(shè)輸出樣本維度為k,則該層節(jié)點數(shù)為k+1,其中一個節(jié)點輸出SD為模式層輸出的算術(shù)和,其余節(jié)點輸出SNi均為模式層輸出的加權(quán)和,具體的計算式為:
其中,wij為加權(quán)系數(shù);
4)輸出層,該層節(jié)點數(shù)為輸出樣本維度,主要根據(jù)求和層求出的算術(shù)和與加權(quán)和進(jìn)行計算輸出,計算式為:
雖然GRNN無須進(jìn)行網(wǎng)絡(luò)訓(xùn)練,但模式層的平滑因子σ對網(wǎng)絡(luò)的性能影響較大[7],平滑因子過大或過小會分別導(dǎo)致網(wǎng)絡(luò)出現(xiàn)欠擬合與過擬合的現(xiàn)象,而在實驗中通常難以將平滑因子設(shè)定至較優(yōu)的數(shù)值,因此若想獲得較好的網(wǎng)絡(luò)性能,往往選用高效的智能優(yōu)化算法對平滑因子進(jìn)行尋優(yōu)。
1.2" 粒子群算法
粒子群算法(PSO)于1995年被Kennedy等人提出[8],該算法受到自然界中鳥群捕食這一群體性行為的啟發(fā),將問題的不同解作為鳥群個體的位置信息,最優(yōu)解作為食物的位置信息,個體間通過位置信息的交換進(jìn)行移動,從而發(fā)現(xiàn)食物的位置,即問題的最優(yōu)解。
假設(shè)種群中存在m個不同的個體,在第t次種群位置的迭代過程中,每個個體的移動速度計算公式和位置更新公式為:
其中" 和" 分別為第i個個體在第t次迭代時的移動速度和位置信息,w為慣性系數(shù),c1和c2均為加速系數(shù),r1和r2為0到1之間的隨機(jī)數(shù), 是第i個個體在第t次迭代時的歷史最優(yōu)位置信息,gbestt是該種群在第t次迭代時的歷史最優(yōu)位置信息。
雖然PSO在處理尋優(yōu)問題時的高效性已得到證明,但與大多數(shù)元啟發(fā)式算法一樣,隨著問題復(fù)雜度的提高,收斂精度降低、局部信息利用與全局信息搜索難以平衡等問題依舊存在[9],這也是需要對該算法進(jìn)行改進(jìn)的方向。
2" COPSO-GRNN模型
2.1" 余弦優(yōu)化粒子群算法
本文提出的余弦優(yōu)化粒子群算法(COPSO)在PSO的基礎(chǔ)上進(jìn)行了三個方面的改進(jìn):應(yīng)用小種群比較策略擴(kuò)大個體搜索范圍、采用余弦加速系數(shù)更新個體學(xué)習(xí)方式以及利用適應(yīng)準(zhǔn)則進(jìn)行個體位置更新前后比較。
2.1.1" 小種群比較策略
小種群比較策略在每次迭代時首先圍繞種群的每個個體隨機(jī)生成一個新的小種群,然后在小種群中進(jìn)行最優(yōu)位置的選擇,并將該最優(yōu)位置信息與個體的歷史最優(yōu)位置進(jìn)行比較。假設(shè)個體i的歷史最優(yōu)位置信息和對應(yīng)的適應(yīng)度值分別是" 和 ,小種群的最優(yōu)位置信息和對應(yīng)的適應(yīng)度值分別是" 和 ,那么每次迭代過程中,若" 小于 ,則" 將作為新的" 存在,反之則不發(fā)生變化。
通過這種方式,可以讓個體在每次迭代過程中探索自身周圍的區(qū)域,擴(kuò)大搜索范圍以增加種群的多樣性,避免落入局部最優(yōu)位置。
2.1.2" 余弦加速系數(shù)
在個體移動速度的更新公式中,存在參數(shù)c1和c2這兩個加速系數(shù),分別表示對個體和種群最優(yōu)位置信息的學(xué)習(xí)速度,然而每個個體的位置優(yōu)劣不同,個體學(xué)習(xí)的量也應(yīng)隨之改變,因此傳統(tǒng)的c1和c2采用固定值不利于個體的全局尋優(yōu)。
COPSO中的c1和c2采用基于余弦的變化方式,根據(jù)個體自身的適應(yīng)度值大小來決定學(xué)習(xí)的速度,具體的計算式為:
其中fxi為當(dāng)前個體的適應(yīng)度值,fmax和fmin分別為當(dāng)前種群的最優(yōu)適應(yīng)度值和最差適應(yīng)度值,c1和c2隨f取值變化的曲線如圖2所示。
結(jié)合圖2以及c1和c2的計算公式可以得知當(dāng)個體自身適應(yīng)度值接近種群的最優(yōu)時,f1取值越小,對應(yīng)c1取值越大,那么個體本身將會更多地向周圍進(jìn)行探索,降低向種群最優(yōu)個體學(xué)習(xí)的比例,以此來避免陷入局部最優(yōu);而當(dāng)個體的適應(yīng)度值越小時,f2的取值越小,c2取值越大,此時個體將更多地向種群最優(yōu)個體進(jìn)行學(xué)習(xí),以此來加快其收斂速度。
2.1.3" 適應(yīng)準(zhǔn)則
適應(yīng)準(zhǔn)則主要通過比較更新前后的個體適應(yīng)度來計算接受新的位置信息的概率,避免由于位置更新后適應(yīng)度值的降低導(dǎo)致收斂速度降低的情況發(fā)生,概率的計算公式如下:
其中?f為位置更新前后適應(yīng)度的差值,T為迭代次數(shù),初始值為0,隨著迭代過程不斷增加。當(dāng)?f大于或等于0時,p取值為1,即若更新后的位置信息優(yōu)于更新前,將直接接受更新后的位置信息,而當(dāng)?f小于0時,p隨T的變化曲線如圖3所示。
由圖3可以看出,迭代前期T取值較小,p取值較小,即個體將會以較小的概率接受更新后適應(yīng)度較低的位置信息,以此加快收斂速度,而到了迭代后期,個體的收斂情況相對較好,出現(xiàn)更新前后差值較大的概率較小,那么個體接受適應(yīng)度較低的位置信息的概率也會增大。此外當(dāng)適應(yīng)度差值?f取值越大時,接受該位置信息的概率越低,這主要是為了保持較好的位置信息,從而加快其收斂速度。
2.2" COPSO-GRNN模型的建立
在COPSO和GRNN的基礎(chǔ)上建立COPSO-GRNN模型,建模步驟如下:
1)以GRNN中平滑因子值作為COPSO算法個體的位置信息進(jìn)行種群初始化。
2)將輸入數(shù)據(jù)輸入賦值不同平滑因子的GRNN,計算輸出值與目標(biāo)值之間的均方誤差,并將其作為每個個體的適應(yīng)度值。
3)將個體的位置信息作為個體的歷史最優(yōu)位置初始值,比較不同的個體適應(yīng)度值來獲取種群的歷史最優(yōu)位置初始值。
4)進(jìn)行個體移動速度和位置信息的更新。
5)在每個個體周圍生存小種群。
6)計算更新后的適應(yīng)度值,根據(jù)適應(yīng)準(zhǔn)則判斷是否接受新的位置信息。
7)通過適應(yīng)度值的比較來對個體的歷史最優(yōu)位置和種群的歷史最優(yōu)位置進(jìn)行更新。
8)重復(fù)步驟4)到步驟7),當(dāng)滿足停止迭代條件或達(dá)到最大迭代次數(shù)時停止迭代,輸出種群歷史最優(yōu)位置信息,模型訓(xùn)練結(jié)束。
COPSO-GRNN的流程圖如圖4所示。
3" 實驗與結(jié)果分析
3.1" 數(shù)據(jù)選擇與處理
為驗證COPSO-GRNN模型在土壤重金屬含量預(yù)測上的有效性,選用寧夏銀川市市區(qū)表層土壤重金屬元素數(shù)據(jù)集作為實驗數(shù)據(jù)[10],該數(shù)據(jù)集總共96組,隨機(jī)選擇其中的24組作為測試數(shù)據(jù)集,72組作為訓(xùn)練數(shù)據(jù)集。另外數(shù)據(jù)集中包含的重金屬分別為Co、Cr、Cs、Mg、Pb、Ti,選取重金屬Ti的含量作為待預(yù)測的輸出特征,然后將其他重金屬與重金屬Ti進(jìn)行相關(guān)性分析來確定模型的輸入特征,本實驗采用Pearson系數(shù)作為相關(guān)性分析依據(jù),具體的計算結(jié)果如表1所示,根據(jù)計算結(jié)果,選取Pearson相關(guān)系數(shù)絕對值大于0.5的重金屬Co、Cr、Mg、Pb作為模型的輸入特征。
實驗前與實驗后需要對輸入數(shù)據(jù)與輸出數(shù)據(jù)分別進(jìn)行歸一化與反歸一化處理,本實驗采用最大最小歸一化方法,公式為:
其中,Xold為原始數(shù)據(jù),XMAX與XMIN分別為原始數(shù)據(jù)中的最大值與最小值。
3.2" 實驗結(jié)果與分析
本實驗選用支持向量機(jī)(SVM)、徑向基神經(jīng)網(wǎng)絡(luò)(RBFNN)、GRNN、PSO優(yōu)化GRNN(PSO-GRNN)以及COPSO-GRNN進(jìn)行對比實驗,其中SVM的相關(guān)參數(shù)設(shè)置為默認(rèn)值,RBFNN的學(xué)習(xí)率與迭代次數(shù)分別設(shè)置為0.01和100,其他模型的參數(shù)設(shè)置與表1中的參數(shù)設(shè)置保持一致。將五種模型進(jìn)行迭代訓(xùn)練,它們的最終預(yù)測值與真實值之間的差值對比情況分別如圖5所示。
在圖5中可以看到與真實值重合最高的是COPSO-GRNN預(yù)測值的曲線,這兩條曲線的走勢基本一致,部分樣本點出現(xiàn)了重合,說明COPSO-GRNN的預(yù)測值較其他模型更接近真實值。
另外針對24個預(yù)測樣本點,分別計算了每個預(yù)測點的預(yù)測值和真實值之間的差值占真實值的比例,并對不同比例區(qū)間的預(yù)測點的數(shù)量進(jìn)行了統(tǒng)計,統(tǒng)計結(jié)果如圖6所示。
在圖6中,小于10%的樣本個數(shù)越多,說明模型預(yù)測值與真實值之間差距越小,COPSO-GRNN在這個區(qū)間內(nèi)點的數(shù)量最多,總共有19個,而在10%~30%以及大于30%的區(qū)間內(nèi)數(shù)量要少于另外四種模型,說明CBSA-GRNN預(yù)測值與真實值之間的差距最小。
除上述兩種實驗結(jié)果分析外,還使用平均絕對誤差(MAE),對稱平均絕對百分比誤差(SMAPE)以及準(zhǔn)確率(Acc)三項誤差指標(biāo)對五種模型的預(yù)測效果進(jìn)行評估,這三項誤差指標(biāo)的計算式為:
其中,yi為真實值, 為預(yù)測值,n為預(yù)測樣本數(shù)量,MAE與SMAPE計算結(jié)果越小表示預(yù)測誤差越小,Acc計算結(jié)果越大表明預(yù)測值越接近真實值。表2給出了五種模型在四項誤差指標(biāo)下的計算結(jié)果。
由表2可以看到,在MAE與SMAPE這兩項誤差指標(biāo)上,COPSO-GRNN的計算結(jié)果最小,而在誤差指標(biāo)Acc的計算結(jié)果中,COPSO-GRNN相較于其他幾種模型計算結(jié)果最大,說明COPSO-GRNN的三項誤差指標(biāo)結(jié)果計算值較其他模型更優(yōu)。
綜合上述三項實驗結(jié)果及分析可以得出結(jié)論,本文提出的COPSO-GRNN在進(jìn)行土壤重金屬含量預(yù)測時較其他四種對比模型預(yù)測精度更高,預(yù)測效果更好。
4" 結(jié)" 論
本文提出一種COPSO-GRNN模型用于土壤重金屬含量預(yù)測,其中COPSO是在PSO的基礎(chǔ)上引入了小種群比較策略、余弦加速系數(shù)以及適應(yīng)準(zhǔn)則,在提高種群內(nèi)部信息利用率的同時增強(qiáng)了算法的全局搜索能力,然后將COPSO運(yùn)用到GRNN平滑因子的尋優(yōu)上過程,最后將COPSO-GRNN與其他四組模型進(jìn)行土壤重金屬含量預(yù)測對比實驗,證明了該模型較其他對比模型預(yù)測準(zhǔn)確性更高,具有更好的預(yù)測性能。對COPSO-GRNN模型的結(jié)構(gòu)進(jìn)行改進(jìn)以提高其預(yù)測性能,并將其應(yīng)用到更多的實際問題上,是接下來將進(jìn)一步研究的內(nèi)容。
參考文獻(xiàn):
[1] 陳雅麗,翁莉萍,馬杰,等.近十年中國土壤重金屬污染源解析研究進(jìn)展 [J].農(nóng)業(yè)環(huán)境科學(xué)學(xué)報,2019,38(10):2219-2238.
[2] SPECHT D F. A General Regression Neural Network [J].IEEE Transactions on Neural Networks,1991,2(6):568-576.
[3] 徐睿,張曉斌,薛鵬松.基于改進(jìn)的GRNN-Markov水質(zhì)預(yù)測模型研究及應(yīng)用 [J].灌溉排水學(xué)報,2022,41(S1):104-110.
[4] 卞海紅,孫健碩.基于典型氣象周的GRNN光伏發(fā)電量預(yù)測模型 [J].電力工程技術(shù),2021,40(5):94-99.
[5] LIANG Y,NIU D X,HONG W C. Short Term Load Forecasting Based on Feature Extraction and Improved General Regression Neural Network Model [J].Energy,2019,166(1):653-663.
[6] 李軒宇,張兆軍,許釗雄.基于改進(jìn)PSO算法的B樣條曲線擬合 [J].傳感器與微系統(tǒng),2022,41(7):130-133+138.
[7] 高媛,陽媛,凌啟東.基于麻雀算法優(yōu)化GRNN的三維定位算法 [J].計算機(jī)工程與設(shè)計,2022,43(11):3149-3158.
[8] Kennedy J,Eberhart R. Particle Swarm Optimization [C]//Proceedings of ICNN 95-international Conference on Neural Networks.Perth:IEEE,1995:1942-1948.
[9] 杜鑫鈺,陳軍鋒,薛靜,等.基于PCA-PSO-GRNN模型的凍融期土壤蒸發(fā)預(yù)報 [J].節(jié)水灌溉,2021(1):14-19.
[10] 張明鑫,李浩.寧夏銀川市市區(qū)表層土壤重金屬元素數(shù)據(jù)集 [J].全球變化數(shù)據(jù)學(xué)報:中英文,2018,2(2):198-204+321-327.
作者簡介:曹文琪(1995—),男,漢族,湖北黃岡人,高級工程師,碩士研究生,研究方向:機(jī)器學(xué)習(xí)算法及其應(yīng)用。