安小宇,趙復興,柳海濤
(鄭州輕工業大學電氣信息工程學院,鄭州市,450002)
我國是一個水資源非常缺乏的國家,同時農業用水又占據了很大的比例[1]。在有限的資源下,改善農作物的生長狀態,就需要不斷提高灌溉技術[2]。提高墑情預測的精確度,對農作物的生長起到至關重要的作用,并對我國的水資源做出了巨大的貢獻[3]。因此,對墑情的研究是近些年相關科研機構的重要課題之一[4]。
段浩等[5]提出在遙感Penman-Monteith模型中土壤含水量與土壤蒸發量的關系,通過運用遙感的方法對蒸發量進行試驗,驗證了土壤含水量的變化與土壤蒸發量之間的關系;Scott等[6]通過飽和的含水量和蒸騰系數建立了土壤墑情變化的模型,驗證了蒸騰因素對土壤含水量的影響;劉小剛等[7]將時間序列分析法與ArcGIS普通克里金差值法相結合的方法對墑情變化情況進行試驗,得出了墑情變化與大氣環境之間的聯系;Schmer等[8]通過監測到的環境數據進行研究,得出了墑情與地表溫度間的耦合關系;裴源生等[9]以滿足水資源實時調度模型系統的需求為目標,結合地表因素、大氣環境因素和人工灌溉因素的空間分布情況,得出對墑情變化造成的實時影響;Wilson等[10]通過對溫度與墑情之間相互關系的研究,得出墑情的季節性變化規律和每日溫度變化的關系;Lin等[11]采用土壤水動力的研究方法,得出農作物種植條件的變化對墑情的影響。
傳統的方法對墑情進行預測時,都會考慮到影響墑情變化的各種變量,這樣就會增加墑情預測的難度、增加預測的時間同時降低預測的精確度。本文首先采用相關性分析法,來得到墑情的變化與其它變量的耦合大小,然后通過ROC曲線分析得出在有無降水狀態下的閾值,進而通過卡方分析,分別得出在有無降水狀態下墑情與其它變量之間的耦合關系,最后通過線性回歸分析和BP神經網絡進行試驗對比,為提高墑情預測的準確率提供技術參考。
本文是針對河南省平頂山市的農田環境進行分析試驗,該城市處于中國華東地區,屬于溫帶大陸季風性氣候,平均海拔高度為400 m。從該地區采集到的農田環境變量有:蒸發量、地溫、降水、氣壓、土壤相對濕度(墑情)、日照時數、氣溫、風速。實測數據為2019年3—9月的數據,其中3—9月有降水為57 d(26.64%),無降水為157 d(73.36%),總數據(N)為214組。
本試驗所使用的數據庫借助Excel錄入各種數據,然后使用SPSS17.0統計軟件對所錄入的數據進行試驗分析,得出最終的試驗結論。在錄入墑情和大氣環境的數據后,針對有無降水的狀態進行分析檢驗,檢驗水平為P<0.05(P為顯著性程度)。
本文首先采用Pearson相關系數法,得出墑情與各變量之間的相關系數,然后使用ROC曲線來對有無降水兩種情況進行分析,分別得出在這兩種情況下各個變量的閾值,而后通過卡方分析得出在有無降水狀態下的卡方值,最后利用線性回歸分析和BP神經網絡,來對有無剔除與墑情變化相關性較小的變量進行試驗對比,得出在剔除相關性較小的變量后,對墑情的預測更加顯著。
1.3.1 Pearson相關分析

(1)
式中:EX——X的平均值;
EY——Y的平均值;
N——數據的總量;
RX,Y——相關系數。
1.3.2 ROC曲線分析
受試者工作特性曲線(ROC曲線)分析主要對診斷的閾值進行修正,獲得多對真(假)陽性率值。在ROC曲線下面的面積稱做AUC值,用來判斷診斷試驗的可靠性[13]。通常認為AUC的值在0.5~0.7之間時,診斷的可靠性較低;在0.7~0.9之間時,診斷的可靠性中等;大于0.9時診斷的可靠性較高[14]。
本文提出ROC曲線分析是來區分在有無降水兩種情況下,各變量對墑情變化的影響程度。即在有雨狀態和無雨狀態兩種情況下,來分析影響墑情變化的主要因素。根據試驗的有關數據,對有雨組和無雨組進行判定分析,得出在不同狀態下的臨界值,并且對不同狀態下各變量的坐標分布進行計算,同時以此狀態的敏感性做為縱坐標代表真陽性率,特異性作為橫坐標代表假陽性率,來對ROC曲線進行繪制。
1.3.3 卡方檢驗
卡方檢驗是一種假設性檢驗的方法之一,用來檢驗兩組或兩組以上的樣本率之間的差別、變量與變量之間有無相關性等方面的問題[15]。卡方檢驗是在ROC曲線分析后的第一次檢驗,根據ROC得出的閾值來劃分土壤的高低墑情,然后對所有試驗數據進行分類,從而得出期望值E(r);測得的實際值為O(r),從而根據式(2)得出各變量與墑情之間的卡方值。
(2)
當r為1項集時,E(r)=O(r),則式(2)轉為式(3)。
E(r)=N×E(r1)/N×…×E(rk)/N
(3)
卡方檢驗就是判斷土壤數據實際的測試值與理論值的偏差程度,卡方值的大小就表示測試值與理論值的相關性程度[16]。
1.3.4 線性回歸分析
線性回歸分析在統計學中,使用線性回歸方程的最小平方函數對一個或多個自變量的變化情況,來預測與之相關的某變量的未來值,而建立的一種分析方法[17-18]。本文以墑情作為因變量Y,影響墑情變化的各個變量作為自變量X,建立線性回歸模型如式(4)所示。通過線性回歸分析,來對比在有無剔除與墑情變化相關性較小變量時的預測誤差,從而得出在墑情預測時的更優預測模型。
Y=β0+β1X1+β2X2+…+βn·Xn+ε
(4)
式中:Y——墑情值;
β0——常量;
ε——殘差;
Xi——影響墑情變化的各個變量,i=1,2,3…n;
βi——影響墑情的變量Xi的系數。
1.3.5 BP人工神經網絡
截止到目前為止,使用最為廣泛的神經網絡是BP算法的多層前饋網絡,在許多非線性的模型中,BP算法可以較為準確的反應出變量與變量之間的關系[19]。常用到的BP結構如圖1所示,由輸入層、隱含層、輸出層組成。

圖1 BP神經網絡結構Fig. 1 BP neural network structure
本文將影響墑情變化的7個變量作為輸入層,墑情作為輸出層,隱含層的節點數目由式(5)進行計算,由式(5)得出本試驗隱含層節點數范圍為4~13。

(5)
式中:M——輸入層節點數;
L——輸出層節點數;
a——整數,1~10。
本文采用試算法來對隱含層節點數進行確定。表1列出了隱含層不同節點個數下的訓練情況,可以看出,相對誤差的變化不大,而決定系數R2的變化較大,而隱含層節點數為9時,R2最小,從而確定隱含層節點數為9。最終確定BP神經網絡的拓撲結構為7∶9∶1。

表1 不同隱含層節點數模型訓練的表現Tab. 1 Performance of different number of neurons in the hidden layer under training
本文將影響墑情變化的各變量作為輸入層,隨后在隱含層進行算法處理,將經過處理后的數據與真實數據進行對比,若其差值不滿足設定的精度要求,則進入反向傳播,此時各層神經元的權值、閾值將進行改變,通過以上過程循環不斷對權值、閾值進行改變,直到滿足設置的最小差值或者預設的訓練次數[20-21],其過程如下。
1) 參數初始化。首先設置網絡輸入層、隱含層、輸出層節點數為M、q、L,其次初始化各個神經元層之間的權值、閾值。
2) 正向傳播算法。隱含層輸出如式(6)所示。
(6)
式中:Hi——隱含層輸出;
j——輸入層;
i——隱含層;
ωij——輸入層與隱含層連接權值;
a——隱含層閾值;
f——隱含層激勵函數。
把得出的Hi作為輸出層的輸入值,進而對輸出層進行計算。輸出層的輸出如式(7)所示。
(7)
式中:Ok——輸出層輸出;
bk——輸出層閾值;
ωki——隱含層與輸出層連接權值。
3) 輸出O與期望y′k的誤差如式(8)所示。
ek=y′k-Ok,k=1,2,…,L
(8)
式中:ek——第k個節點輸出與期望的誤差。
4) 權值、閾值的更新如式(9)~式(12)所示。
(9)
更新輸入層與隱含層之間的連接權值,得出下一次神經元的連接權值。
ωki=ωki+ηHiek,i=1,2,…q;k=1,2,…,L
(10)
更新隱含層與輸出層之間的連接權值,得出下一次神經元的連接權值。
(11)
更新隱含層的閾值,得出下一次神經元的閾值。
bk=bk+ηek,k=1,2,…L
(12)
更新輸出層的閾值,得出下一次神經元的閾值。
式中:η——學習效率。
5) 返回步驟(2),更新過權值與閾值后重新計算各神經元輸出值,當輸出誤差小于設定誤差時,保留當前權值與閾值,否則重復以上過程直到輸出誤差滿足為止。
通過BP神經網絡,來對比在有無剔除與土壤墑情變化相關性較小變量時的預測誤差,從而得出在墑情預測時的更優預測模型,同時與線性回歸分析的預測結果進行對比,來驗證本試驗的準確性。
本文首先對傳感器采集的所有數據進行相關分析,得出墑情與各變量之間的相關性數值,如表2所示。從表2中可以看出,相對濕度與蒸發量的相關系數最大為-0.534,呈負相關,并且顯著性程度P<0.05,相對濕度與降水、地溫、氣壓、日照時數、風速呈相關性,同時顯著性程度P<0.05。氣溫與相對濕度的相關性較弱,為0.018,把該變量作為墑情預測時擬剔除的變量。

表2 Pearson相關性分析結果Tab. 2 Pearson correlation analysis results
在有無降水兩種狀態下,對土壤墑情做進一步的ROC分析。圖2為在有雨狀態下的ROC曲線,從圖2中可以看出在有雨狀態下,降水的ROC曲線下的面積最大。
在表3中可以看出,在有雨狀態下,降水量的AUC值為1,相對濕度的AUC值為0.851,而其余幾個變量的AUC值都小于0.5,故在有雨狀態下,相對濕度的變化只與降水量有較大的相關性。在表3中還列出了各變量在有雨狀態下ROC曲線的標準誤差和顯著性的具體數值。在無雨狀態下的ROC曲線如圖3所示。

圖2 有雨狀態下的ROC曲線Fig. 2 ROC curve under rain condition

表3 有雨狀態曲線下的面積Tab. 3 Area under rain state curve

圖3 無雨狀態下的ROC曲線Fig. 3 ROC curve under non rain condition
從圖3中可以看出在無雨狀態下,日照時數、蒸發量、地溫、氣壓的ROC曲線下的面積相對較大。在表4中可以看出,在無雨狀態下,蒸發量的AUC為0.656,P<0.001;地溫的AUC為0.637,P<0.01;日照時數的AUC為0.814,P<0.001;氣溫的AUC為0.589,P<0.05,故在無雨狀態下,相對濕度的變化與蒸發量、地溫、日照時數有較大的相關性。

表4 無雨狀態曲線下的面積Tab. 4 Area under rain-water condition curve
最終根據ROC曲線可以得出在有無降水兩種狀態下每個變量的閾值,如表5所示,進而來為卡方分析提供一個標準閾值,進一步得出與墑情變化的相關性較大的變量。

表5 分類后的閾值Tab. 5 Thresholds for classification
根據ROC曲線得出的每個變量的閾值進行卡方分析,其中,降水量1表示有降水,0表示無降水。分別對每個變量在高墑值和低墑值兩種情況下進行分類分析,即在高墑情況下,大于或者小于各個變量的閾值劃分情況如表6所示,從表6中可以看出蒸發量的卡方值最大,為67.608,則顯著性最強,說明蒸發量越大對墑情的影響就越大;其次是日照時數,卡方值為39.731,顯著性為0.001,說明日照時間越大,對墑情的影響越大;氣溫的卡方值最小,為1.385,顯著性為0.275,表示氣溫與土壤墑情不顯著相關。經過表6分析可得,與墑情變化相關性較大的變量有蒸發量、地溫、氣壓、日照時數和風速。

表6 卡方分析結果Tab. 6 Chi-square analysis result
通過線性回歸來對土壤墑情進行預測,表7~表9為在未剔除與墑情變化相關性較小的變量時的分析結果,以此來與本文第2.5節進行對比。從表7中可以看出,回歸分析的Sig值為1.557 2e-32,從表8中可以看出,線性回歸模型預測的標準偏差為13.229 5,殘差為11.895 9,表9為各變量的回歸系數。圖4為墑情的回歸標準化的正態分布圖,從圖4中可以看出試驗所用的數據呈正態分布,說明試驗分析有效。

表7 線性回歸方差分析Tab. 7 Variance analysis of linear regression

表8 線性回歸殘差統計Tab. 8 Residual statistics of linear regression

表9 線性回歸回歸系數Tab. 9 Regression coefficient of linear regression

圖4 相對濕度的正態分布圖Fig. 4 Normal distribution diagram of relative humidity
經過剔除相關性較小變量的方差分析和線性回歸系數的分析如表10所示,從表中可以看出,線性回歸的顯著性值為9.606e-33,而未剔除相關性較小的變量的顯著性值為1.557 2e-32,說明在剔除相關性較小變量后的顯著性更好。表11為剔除相關性較小變量的殘差統計表,從表中可以看出經過剔除相關性較小變量之后的預測值的標準偏差為12.888 3,殘差為12.264 7,而未經過剔除相關性較小變量的預測的標準偏差為13.229 5,殘差為11.895 9。由此可見,經過剔除相關性較小的變量之后,對墑情預測的準確性更為有利。表12為剔除相關性較小變量后的回歸系數。

表10 剔除相關性較小變量后的方差分析Tab. 10 Variance analysis after the elimination of

表11 剔除相關性較小變量后的殘差統計Tab. 11 Residual statistics after the elimination of

表12 剔除相關性較小變量后的回歸系數Tab. 12 Regression coefficient after the elimination of
為了綜合體現BP預測模型的性能,通過絕對誤差的平均值(PING)、方差(VAR)、相對誤差的平均值(Relativeerror)三個指標來評價預測結果,在無剔除相關性較小的變量時,BP神經網絡預測后的相對誤差為0.004 9,平均誤差為0.024 4,方差為3.248 9×10-4,如表13所示。在刪除相關性較小的變量時,BP神經網絡預測后的相對誤差為0.004 7,平均誤差為0.023 2,方差為2.708 0×10-4,如表13所示。經過對比可以說明,在剔除相關性較小的變量后,墑情的預測精度要優于未剔除相關性較小的變量的預測精度。

表13 BP神經網絡結果對比Tab. 13 Comparison of BP neural network results
本文針對影響土壤墑情變化的因素,通過運用相關性分析、ROC曲線分析、卡方分析相結合的手段得出與墑情變化的相關性較大的變量,然后通過線性回歸分析與BP神經網絡,來對有無剔除相關性較小變量時的墑情進行預測對比分析。
1) 經過相關性分析可以得出,影響墑情變化的相關性較大的變量為蒸發量、降水、氣壓、地溫、日照時數和風速。
2) 經過ROC曲線分析,得出在有降水和無降水狀態下的閾值,且對相關性分析得出的結果進行了進一步的驗證。
3) 根據ROC曲線得出的閾值,然后通過卡方分析可以得出,在墑情較高或者較低的情況下,影響墑情變化最主要的因素是蒸發量、地溫、氣壓、日照時數和風速。
4) 本文對比了在有無剔除與墑情變化相關性較小變量的預測分析,通過分析結果可以得出,經過剔除與墑情變化相關性較小的變量后,線性回歸分析預測的標準偏差為12.888 3,BP神經網絡在剔除相關性較小變量時預測值的相對誤差為0.004 7,二者預測的結果均優于未剔除相關性較小變量時的預測結果。
5) 在剔除與墑情變化相關性較小的變量后,不僅可以降低預測模型的維數,其對墑情的預測值也會更加準確,為今后農場更加精準的獲悉土壤墑情提供可能。