蔣定國 全秀峰 李飛 劉偉



摘要:利用自動監測數據,采用神經網絡對水體中葉綠素a含量進行預測,是水體中葉綠素a含量預測的主要手段之一。但受梯度下降法局部搜索的限制,傳統BP神經網絡模型預測精度和穩定性均存在問題。鑒于此,引入全局搜索的思維進化算法優化BP神經網絡權值、閾值,提高葉綠素a預測效率;并采用偏導方法對預測模型輸入因子敏感性進行分析,精簡模型輸入因子。結果表明:在葉綠素a 的BP神經網絡預測模型中,引入思維進化算法可顯著提高網絡訓練穩定性和精度,預測精度波動范圍從[0.364,0.978]提高至[0.917,0.983],平均預測精度從0.950提高到0.968。利用Dimopoulos敏感性分析將模型輸入因子從12因子精簡為8因子后,平均預測精度從0.968降至0.962,預測精度波動范圍從[0.917,0.983]變為[0.921,0.976],預測模型穩定性更好;在輸入因子數目均為8條件下,基于Dimopoulos方法敏感性分析結果篩選出的輸入因子組合平均預測精度明顯高于基于主成分分析法篩選出的輸入因子組合。研究可為基于BP神經網絡葉綠素a預測模型輸入因子優化提供參考,提高模型預測的穩定性。
關鍵詞:葉綠素a;BP神經網絡;思維進化算法;敏感性分析;優化
中圖分類號:X824文獻標志碼:A
開放科學(資源服務)標識碼(OSID):[TP蔣定國.TIF]
Abstract:Combining automatic monitoring data and neural network method is one of the main methods to predict the chlorophyll-a concentration in waterbody.However,the prediction accuracy and stability of the traditional BP neural network model are questionable due to the limitations of the local search with the gradient descent method.To solve this problem,the global search algorithm EMA was used to optimize BP neural network weights and thresholds to improve the chlorophyll-a prediction efficiency.The partial derivative method was used to analyze the sensitivity of the input factor in prediction model,and then to simplify the number of input factors.The results showed that EMA could significantly improve the stability and accuracy of network training in the BP neural network prediction model for chlorophyll-a concentration.The prediction accuracy ranged from [0.364,0.978] to [0.917,0.983],and the average prediction accuracy improved from 0.950 to 0.968.The predictive model was more stable using Dimopoulos sensitivity analysis to reduce the model input factor from 12 to 8.The average prediction accuracy decreased from 0.968 to 0.962 and the prediction accuracy ranged from [0.917,0.983]to [0.921,0.976]. Under the condition that the number of input factors was 8,the average prediction accuracy with the input factors selected by the sensitivity analysis of Dimopoulos method was significantly higher than that with the input factors based on traditional PCA method.The study results can provide reference for input factor optimization based on BP neural network on chlorophyll-a prediction model to improve the stability of model prediction.
Key words:chlorophyll-a concentration;BP neural network;EMA;sensitivity analysis;optimization
水體葉綠素a含量變化機理復雜,是表征水體富營養化程度的重要特征指標[1]。對水體中葉綠素a含量預測及其影響因子研究,可為水污染防治以及水生態環境控制措施建制提供關鍵依據[2]。其研究方法,可基于自動監測數據本身分析,也可基于數據構建預測模型分析。但相對前者,葉綠素a相關控制措施及控制標準難以確定,而基于預測模型討論和分析水體葉綠素a的影響因素,更能直觀體現其內在聯系,為水體葉綠素a的控制措施研究提供參考。
目前,通過自動監測數據,利用神經網絡的非線性逼近能力構建葉綠素a預測模型已成為水體葉綠素a含量預測的主要手段之一[3]。例如,裴洪平等[4]利用西湖湖心采樣數據,成功構建BP神經網絡預測模型,實現了對葉綠素a含量的短期變化趨勢預測;Hou等[5]利用滇池40個采樣點數據,基于三層前向BP神經網絡,實現了對滇池的葉綠素a含量預測。然而,針對葉綠素a變化機理復雜體系,BP神經網絡受梯度搜索算法的限制,易陷入局部最優[6],結果穩定性差。現有研究表明,耦合優化算法,增強神經網絡的穩定性,是提高葉綠素預測效率有效途徑,盧志娟等[7]通過小波分析分解葉綠素a原始序列為低頻、高頻數據集,再基于BP神經網絡獨立預測后匯總預測值,平均誤差顯著縮小;姚志紅等[8]基于遺傳算法,構造新的平衡交叉算子,結合神經網絡實現了藻類生長的高效預測。
此外,神經網絡訓練效率不僅與網絡結構密切相關,同時還受樣本質量制約[9],能表達葉綠素a變化信息且冗沉較少的樣本因子輸入更能提高神經網絡泛化能力,保證葉綠素預測精度。但基于BP神經網絡的“黑匣子”模型[10],很難解釋輸出輸入的響應機制,明確預測模型參數的具體敏感程度,進行因子輸入優化。預測模型的輸入往往是大量相關指標,增加了樣本隨機性,給BP神經網絡訓練帶來可變性,出現預測精度不高[11]、穩定性差問題,同時,不必要的數據采集,也增大了樣本監測布施成本,造成經濟浪費。
鑒于此,本文在BP神經網絡構建的葉綠素a預測模型中,引入思維進化算法優化權值、閾值,提高葉綠素a預測精度及模型穩定性;以基于網絡結構的Dimppoulos敏感性分析方法,進行模型靈敏度分析,對比常用的主成分分析法,探討葉綠素a相關因子敏感性,優化模型因子輸入,為水體葉綠素a含量預測效率提高,藻華生態防治措施制定提供參考。
1 葉綠素a預測模型構建
1.1 BP神經網絡預測模型
BP神經網絡是由Rumelhart和McClelland等1986年提出的一種多層前饋式網絡,因其具有良好的泛化能力以及非線性映射能力而被廣泛應用于藻華預測領域[12]。本文采用三層前饋神經網絡構建葉綠素a含量預測模型[13],基本結構如圖1所示。采用tansig函數為隱含層傳遞函數,purelin函數為輸出層線性傳遞函數,learngdm函數為閾值學習函數;B1為隱含層神經元閾值矩陣,B2為輸出層神經元閾值矩陣。
圖2為基于BP神經網絡的葉綠素a預測結果,葉綠素a的平均預測精度0.95(圖2(b)),但模型穩定性較差,10 000次循環訓練中26.98%概率陷入局部最優(Q1以下)。顯然,這與BP神經網絡依據梯度下降算法收斂權值有關[14],針對水體葉綠素a含量變化復雜機理體系,非線性結構深度學習模型,誤差平面存在多個局部最優點(鞍點);其局部搜索方式,決定了網絡訓練易陷入局部最優[15]。
2 神經網絡權值、閾值優化
2.1 思維進化算法優化
為了提高網絡訓練穩定性及預測準確性,采用思維進化算法[16](Mind Evolutionary Algorithm,EMA)進行權值、閾值優化。思維進化算法是一種啟發式全局高效搜索算法,繼承了遺傳算法的“群體”、“進化思想”[17],其基本原理是:隨機截取一定規模個體,依據評價得分決勝出“優勝”、“臨時”子種群,并迭代完成群體內部的局部“趨同”競爭以及群體間的全局“異化”競爭,直至運算收斂,輸出最優個體。
葉綠素a預測模型中,思維進化算法采取如下步驟進行。
(1)映射編碼。
依據BP神經網絡拓撲結構,映射解空間到編碼空間,編碼長度S由神經網絡各層神經元數目確定,記為S=n×K+2K+1;其中,n為神經網絡輸入層神經元數,即葉綠素a含量相關因子數目,K為隱含層神經元數目。
(2)初始種群生成。
選取神經網絡訓練集輸出值均方誤差的倒數,記為個體與種群得分函數;解空間中隨機生成若干個體,依據得分最高篩選M個優勝個體以及N個臨時個體,依據篩選個體確定中心,鄰近檢索形成種群大小一定的初始優勝子種群、初始臨時子種群。
(3)種群內部趨同競爭。
子種群內部,個體依據得分最高成為優勝個體的局部競爭,記為趨同過程,以個體最高得分為所在子種群得分,直至所有子種群不再生成新的優勝個體,趨同結束。
(4)種群之間異化競爭。
子種群之間,種群依據得分最高成為優勝種群的全局競爭,記為異化過程。[KG-*4]當臨時子種群得分高于優勝子種群,則取代前者,釋放原有優勝種群,異化結束后重新迭代,計算至運算收斂,獲取全局最優個體得分。
(5)解析最優個體。
解碼最優個體即為優化的神經網絡權值、閾值,編碼長度S的前n×K個編碼為輸入層與隱含層間權值,緊后K個編碼為隱含層與輸出層權值,再后K個編碼為隱含層神經元閾值,最后1個編碼為輸出層神經元閾值。
基于MEA-BP神經網絡的葉綠素預測模型結構見圖3。
2.2 MEA-BP神經網絡訓練
依據葉綠素a預測模型中神經網絡的拓撲結構,確定思維進化算法中參數設置。其中,映射編碼長度169,設置子種群規模100,優勝、
臨時子種群數各12。同樣在1 400余組有效數據種選取1 000組為訓練數據,400組作為驗證數據;神經網絡其它參數不變,基于MEA-BP神經網絡的葉綠素a含量預測效果見圖4,具有較好預測效果,訓練精度0.983、仿真精度0.979。
2.3 模型預測精度分析
以葉綠素a含量為預測值,12項相關因子為輸入變量,固定神經網絡其它參數不變,對優化后的MEA-BP神經網絡進行10 000次循環仿真,驗證思維進化算法對神經網絡權值、閾值的優化效果,繪制的葉綠素a預測精度分布見圖5。
圖5結果顯示:優化模型預測精度符合正態分布,平均預測精度0.968,預測精度波動范圍[0.917,0.983]。對比基礎BP神經網絡預測精度波動范圍[0.364,0.978],波動區間縮減了89.3%,基于MEA-BP神經網絡的葉綠素a預測精度分布集中性更高。顯然,基于MEA-BP神經網絡優化了權值、閾值,有效避免了網絡訓練易陷入局部最優的弊端,模型穩定性更好。
3 因子敏感性分析
3.1 Dimppoulos敏感性分析原理
采用基于偏導的Dimppoulos敏感性分析方法[18],進行模型靈敏度分析,探尋葉綠素含量變化的主敏感因子,為優化預測模型因子輸入提供參考。Dimppoulos敏感性分析視訓練結束的神經網絡為系數明確的函數表達式,繼而對輸出變量求得輸入變量的一階偏導值,記為該輸入變量的敏感值。
單樣本中,本文葉綠素a含量各相關因子敏感值如下[19]:
3.2 基于偏導的敏感性分析討論
基于Dimopoulos敏感性分析結果如圖6所示:葉綠素a含量對pH值最為敏感,水汽壓、溶解氧、水溫及氨氮次之,最低氣溫、相對濕度、海平面氣壓及化學需氧量再次之,而對降雨量、極大風速與光強三項指標敏感性最弱。而張亞等[20]現有研究表明,于橋水庫葉綠素a含量變化與硝酸鹽氮含量密切相關,同時氨氮值的變化會顯著影響pH升降;顯然,基于Dimopoulos因子敏感性秩序具有合理性,可作為葉綠素a含量變化主因子探討的參考依據。
4 模型輸入因子精簡
4.1 輸入因子精簡方案設置
依據Dimopoulos因子敏感性秩序,參考敏感值由小到大逐個增加剔除的輸入變量,調整輸入參數數目,設置不同因子輸入精簡方案。固定葉綠素預測模型其它設置不變,進行1 000次基于神經網絡循環訓練。不同輸入參數調整方案精簡結果見表1。
如表1所示,預測精度隨Dimopoulos敏感性秩序精簡因子同趨勢變化。剔除光強、極大風速、降雨量及化學需氧量四項指標,葉綠素預測精度依舊保持較高精度0.96;其中,光強、極大風速及降雨量3項指標累積剔除時,預測精度基本不變,表明光強、極大風速及降雨量不是葉綠素a含量變化的主敏感因子。
4.2 輸入因子精簡方案選擇
繪制平均預測精度與輸入因子數目相關曲線,
見圖7,葉綠素a預測精度與輸入因子數目符合Logistic分布,輸入數目8時正是預測精度曲線拐點,預測精度不隨輸入因子數增加而持續顯著提高,確定精簡光強、極大風速、降雨量及化學需氧量為輸入因子精簡方案。因子精簡后(8因子輸入),預測精度波動幅度縮減16.7%,模型穩定性更好。
4.3 精簡方案合理性驗證
水體葉綠素a含量預測中,常以主成分分析法(PCA)確定神經網絡預測模型的因子輸入[21],為了進一步驗證基于Dimopoulos精簡因子的合理性,依據主成份抽取比例確定的因子敏感性秩序設置精簡因子對照方案[22]。主成分分析中因子貢獻秩序(由大到小)依次為:pH、水汽壓、相對濕度、降雨量、化學需氧量、光強、溶解氧,總解釋方差91.7%。對比Dimopoulos敏感性分析,基于7項PCA主因子添加剩余相關因子,探討葉綠素a預測模型8因子輸入合理性。基于PCA主因子輸入方案的預測精度分析見表2。
如表2所示,隨著輸入因子增加,葉綠素a預測精度呈現不同程度提高;添加的因子敏感值(水溫、氨氮)越高,預測精度漲幅越大。8因子組合下,Dimopoulos篩選的因子組合平均預測精度普遍高于基于PCA確定的因子組合,驗證了Dimopoulos因子敏感性秩序的合理性。而基于PCA主因子輸入訓練神經網絡,葉綠素a初始預測精度較低(93.5%),可能與PCA只截取方差較大因子為主成份有關,遺漏了部分信息而不適合水體葉綠素a含量高精度預測要求。
5 結論
本文基于BP神經網絡構建了于橋水庫葉綠素a預測模型,引入思維進化算法優化網絡訓練權值、閾值,提高模型預測精度和模型穩定性;并以Dimopoulos偏導敏感性分析,對比常用的主成分分析法,研究葉綠素a預測模型輸入因子敏感性,探討了精簡因子輸入提高預測效率合理性,確定因子輸入。通過本文研究得到如下結論。
(1)傳統BP神經網絡構建葉綠素a預測模型穩定性差,網絡訓練易陷入局部最優,預測精度波動幅度大。
(2)葉綠素a預測模型中,引入思維進化算法優化BP神經網絡權值、閾值,可保證有效預測精度,顯著提高模型穩定性。
(3)精簡冗沉因子輸入能有效提高神經網絡訓練效率,且對比主成分分析法,基于Dimopoulos敏感性分析更能為葉綠素a預測模型輸入因子確定提供參考。
本文僅在權值、閾值上考慮了神經網絡的優化,沒有深入研究網絡拓撲結構和參數設置對預測精度影響,應進一步研究神經網絡結構設置提高訓練效率。
參考文獻(References):
[1] H KANSON L,MALMAEUS J M,BODEMER U,et al.Coefficients of variation for chlorophyll,green algae,diatoms,cryptophytes and blue-greens in rivers as a basis for predictive modelling and aquatic management[J].Ecological Modelling,2003,169(1):179-196.DOI:10.1016/S0304-3800(03)00269-2.
[2] ELIK K.Predicting chlorophyll-a concentrations in two temperate reservoirs with different trophic states using Principal Component Regression (PCR)[J].Oceanological & Hydrobiological Studies,2018,47(1):1-9.DOI:10.1515/ohs-2018-0001.
[3] XIAO X,HE J Y,HUANG H,et al.A novel single-parameter approach for forecasting algal blooms[J].WATER RESEARCH,2017,108(1):222-231.DOI:10.1016/j.watres.2016.10.076.
[4] 裴洪平,羅妮娜,蔣勇.利用BP神經網絡方法預測西湖葉綠素a的濃度[J].生態學報,2004,24(2):246-251.(PEI H P,LUO N N,JIANG Y.Applications of back propagation neural network for predicting the concentration of chlorophyll-a in West Lake[J].ACTA Ecologica Sinica.2004,24(2):246-251.(in chinese)) DOI:10.3321/j.issn:1000-0933.2004.02.012 .
[5] HOU G X,SONG L R,LIU J T,et al.Modeling of Cyanobacterial Blooms in Hypereutrophic Lake Dianchi,China[J].Journal of Freshwater Ecology,2004,19(4):623-629.DOI:10.1080/02705060.2004.9664743.
[6] GORI M,TESI A.On the problem of local minima in backpropagation[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1992,14(1):76-86.DOI:10.1109/34.107014.
[7] 盧志娟,朱玲,裴洪平,等.基于小波分析與BP神經網絡的西湖葉綠素a濃度預測模型[J].生態學報,2008,28(10):4965-4973.(LU Z J,ZHU L,PEI H P,et al.The model of chlorophyll-a concentration forecast in the West Lake based on wavelet analysis and BP neural networks[J].ACTA Ecologica Sinica.2008,28(10):4965-4973.(in chinese)) DOI:10.3321/j.issn:1000-0933.2008.10.042.
[8] 姚志紅,孔海南,靳志成,等.改進遺傳神經網絡及其在水體富營養化和藻類生長預測中的應用[J].上海交通大學學報,2008,42(2):262-265.(YAO Z H,KONG H N,JIN Z C,et al.Improved genetic neural network and its application in forecasting of rich nourishment of water and blue-green algae[J].Journal of Shanghai Jiao Tong University,2008,42(2):262-265.(in chinese)) DOI:10.16183/j.cnki.jsjtu.2008.02.024.
[9] 呂光建,張新燕,陳杰,等.神經網絡訓練樣本優化方法研究[J].電子世界,2014,22(2):411-412.(LYU G J,ZHANG X J,CHEN J,et al.Research on neural network training sample optimization method[J].Electronics World,2014,22(2):411-412.(in chinese)) DOI:10.3969/j.issn.1003-0522.2014.22.399.
[10] [ZK(#]GOH A T C.Back-propagation neural networks for modeling complex systems[J].Artificial Intelligence in Engineering,1995,9(3):143-151.DOI:10.1016/0954-1810(94)00011-S.
[11] 劉翔.BP算法的改進及其應用[D].太原:太原理工大學,2012.(LIU X.Research on improving BP algorithm and ITS aplication[D].Taiyuan:Taiyuan University of Technology,2012.(in chinese))
[12] KELBLE C R ,ORTNER P B ,BOYER J N,et al.Phytoplankton bloom status:Chlorophyll a biomass as an indicator of water quality condition in the southern estuaries of Florida,USA[J].Ecological Indicators,2009,9(6):S56-S67.DOI:10.1016/j.ecolind.2008.11.013.
[13] MOHAMMAD R,MAHSA J R.Artificial neural network approaches to the prediction of eutrophication and algal blooms in Aras Dam,Iran[J].Ulūm-i Bihdāshtī-i rān,2015,3(1):25-32.
[14] WANG J,WEN Y,GOU Y ,et al.Fractional-order gradient descent learning of BP neural networks with Caputo derivative[J].Neural Networks,2017,89(12):19-30.DOI:10.1016/j.neunet.2017.02.007.
[15] CHOI B,LEE J H,KIM D H.Solving local minima problem with large number of hidden nodes on two-layered feed-forward artificial neural networks[J].Neurocomputing,2008,71(16):3640-3643.DOI:10.1016/j.neucom.2008.04.004.
[16] WANG W X,TANG R C,LI C,et al .A BP neural network model optimized by Mind Evolutionary Algorithm for predicting the ocean wave heights[J].Ocean Engineering,2018,162(15):98-107.DOI:10.1016/j.oceaneng.2018.04.039.
[17] ZHAO Y F,REN X H,HU Y,et al.CNC thermal compensation based on mind evolutionary algorithm optimized bp neural network[J].World Journal of Engineering and Technology,2016,4(1):10,39-44.DOI:10.4236/wjet.2016.41004.
[18] DIMOPOULOS Y,BOURRET P,LEK S.Use of some sensitivity criteria for choosing networks with good generalization ability[J].Neural Processing Letters,1995,2(6):1-4.DOI:10.1007/BF02309007.
[19] DIMOPOULOS I,CHRONOPOULOS J,CHRONOPOULOU-SERELI A,et al.Neural network models to study relationships between lead concentration in grasses and permanent urban descriptors in Athens city (Greece)[J].Ecological Modelling,1999,120(2):157-165.DOI:10.1016/S0304-3800(99)00099-X.
[20] 張亞.淺水型富營養化水庫三維水動力及水質數值模擬研究與應用[D].天津:天津大學,2014.(ZHANG Y.Development and application of three-dimensional hydrodynamic and water quality model in a shallow eutrophic reservoir[D].Tainjin:Tainjin University,2014.(in chinese))
[21] MOHAMMAD Z K .Principal component analysis (PCA) for estimating chlorophyll concentration using forward and generalized regression neural networks[J].Applied Artificial Intelligence,2014,28(1):16-29.DOI:10.1080/08839514.2014.862771.
[22] ZHOU L G,MA W C,ZHANG H,et al.Developing a PCA-ANN model for predicting chlorophyll a concentration from field hyperspectral measurements in Dianshan Lake,China[J].Water Quality,Exposure and Health,2015,7(4):591-602.DOI:10.1007/s12403-015-0175-5.