楊利納, 李文竹, 劉 心
(河北工程大學, 河北 邯鄲 056038)
從宏觀而言,準確有效的水資源預測可為社會和經濟的發展、糧食和生態環境安全提供重要保障[1]。具體到校園的水資源管理,由于學校校園人口密集,需水量大,所以做好校園的定量用水預測,可以及時發現校園用水異常,以此來合理地下達用水指標[2]。
關于需水量研究的方法,國內外構建了許多與需水預測相關的模型,例如ARIMA模型[3]、灰色建模模型[4]、神經網絡模型[5]。除了上述的方法,有很多學者也將多種預測方法組合在一起。例如,宋帆等[6]利用聚類方法和灰色關聯分析的方法結合起來,對吉林省的用水量進行了預測;查木哈等[7]利用BP神經網絡的雙層隱層模型,對老哈河流域的用水量進行了預測。但將灰色關聯分析和神經網絡結合起來的比較少,因此本文嘗試將兩種算法結合,另外,在神經網絡中加入遺傳算法優化,不容易陷入局部極小的問題[8]。
本文建立了以灰色關聯分析方法和遺傳算法的遺傳神經網絡區間預測模型,該模型首先采用灰色關聯分析方法,通過設置灰色關聯度閾值確定需水量主要影響因子,用于提取特征變量,從而降低冗余輸入變量的復雜性;其次在神經網絡中加入遺傳算法優化,不容易陷入局部極小的問題;最后提出了區間需水預測[9],根據模型先得出點的預測值,再根據點預測和實際值兩者的殘差值來估計預測區間的上界和下界,區間預測能準確地預測用水量在未來時段的波動范圍。此模型可以克服校園區間水預測比較復雜、信息比較單一的缺點,從而避免了灰色關聯分析方法及模型在非線性預測方面的缺陷,具有良好的泛化能力和訓練效果。通過與傳統的神經網絡方法相比,該模型應用于校園需水預測是可行的。
目前最常用的數學方法是對校園數據用水進行灰色關聯分析,對影響校園用水的數據進行處理分析,從而確定各個影響因素的權重[10]。影響校園用水有很多復雜的因素,例如節假日、當日最高氣溫、最低氣溫、天氣等,本文以天為單位采集了2018年4月份共30 d的校園數據,通過灰色關聯分析來對校園用水數據進行處理,求出關聯系數和關聯度,通過比較大小進行排序,得出影響校園用水的主要因素,然后將其作為輸入層,輸入到神經網絡進行校園用水的預測。
2.1.1 原始數據的處理 用灰色關聯方法去分析系統的發展趨勢,該方法可以在信息貧乏、樣本小的系統中提取出對系統指標影響較大的因素,解決計算量過大、樣本不服從一定的概率分布、計算結果會出現量化結果和定向結果不同的缺點,本文用區間值化處理方法處理校園原始用水數據[11]。
2.1.2 灰色關聯系數及關聯度求解 關聯程度可以反映數列形狀 ,校園用水的灰色關聯的系數為:
(1)
式中:Δnmax和Δnmin分別為所有校園用水比較數列中的最大值和最小值;ρ為分辨函數;m為參考序列,即校園用水量;n為比較序列,即當日最高氣溫、最低氣溫、節假日和天氣4個序列;i取值為30,表示2018年4月份的30 d;Δmn(i)為參考序列m與比較序列n第i個點的絕對差值。
關聯度計算公式如下:
(2)
式中:s為參考序列長度,本文取值為30;θmn(i)為參考序列m與比較序列n第i個值的關聯系數;λ(xm,yn)為x曲線上參考序列m與y曲線上比較序列n對應的關聯度。
2.1.3 關聯度排序分析 根據數值代表節假日、1天中最高和最低氣溫,將它們排順序。關聯度描述了參考序列和比較序列相對變化,通俗來講就是如果兩者關聯度大,則校園用水和影響因素變化基本一致,反之,關聯度小[12]。
非線性問題用遺傳算法解決,進而得到網絡的連接權,步驟如下:
(1)采用BP神經網絡3層結構確定其權、閾值的長度。
利用訓練樣本對輸入的神經網絡進行訓練,權值和閾值長度確定后,組成向量[13]。
(2)確定遺傳算法的編碼方式及長度和種群初始化。
因為參數比較多,采用實數進行編碼,可以提高準確性,使運算更加方便快捷。其中每個實數串都包含了網絡的權值和閾值的維數即為編碼的長度。
(3)用BP神經網絡中的誤差定義適應度函數:
(3)

(4)用適應度來進行評測,得出適應度最高的個體在群體中保留下來。
(5)完成交叉和變異操作,則新一代種群由此生成。
(6)得到適應度最高的個體,從而得出神經網絡最優的權值和閾值。
當研究一個系統時,將影響因素作為神經網絡的輸入,當影響因素比較復雜時,神經網絡也變得復雜。文中加入灰色關聯分析方法,故降低了網絡的性能,減少了計算難度和時間,可以對大量的數據進行處理,其模型計算流程圖如圖1所示。

圖1 模型計算流程圖
由圖1可知,通過對數據的分析,將歷史數據以及對校園需水影響最大的幾個因素作為輸入量,輸入到神經網絡中,各層神經元對影響因素發生作用以后,生成輸出量。神經網絡的權值和閾值經過遺傳算法的優化,得出適應度的數值,以此找出適應度最優的個體。再以輸出誤差為目標函數,修正誤差直到達到要求后,經過訓練后的神經網絡就可以進行預測。
由于校園原始數據中沒有需水區間的預測上下界,本文通過求出校園用水的點預測值與實際值之間的殘差來估計出校園用水預測區間的上界和下界。具體步驟如下:
(1)根據模型求出的校園用水點預測值和實際的數值進行兩者間殘差計算。
(2)用模糊算法[14]將用水數據樣本輸入聚類,根據殘差大小排序樣本。
(3)計算預測區間的上區間和下區間的方法如公式(4)所示。
p=am
(4)

(4)計算校園用水樣本的預測區間。
(5)
(5)計算校園區間上下界,其中Ry表示模型輸出的點的預測值。
Ty=Ey+Ry
(6)
式(5)和(6)中:Ej為用水樣本的預測區間,包括用水樣本預測的上區間和下區間;f為聚類的總數,其取值為30;Ty為校園區間上、下界;Ry為模型輸出點的預測值。
為了衡量預測區間是否可靠準確,文中引入了預測區間覆蓋率(PICP)和預測區間平均帶寬指標(PINAW)的綜合指標CWC[15]。假設規定置信水平為100(1-α)%。
2.5.1 預測區間覆蓋率(PICP)
(7)
式中:N為樣本總數,若預測值在預測區間內,則ρi=1,否則為0。若PICP很明顯小于1-α,則說明預測的區間不可靠。
2.5.2 預測區間平均帶寬指標(PINAW)
(8)
式中:m和n分別為校園用水預測區間的上、下界;N為樣本總數;R為檢驗樣本目標值的最大值與最小值之間的差值。
2.5.3CWC綜合評價指標
CWC=PINAW+δ(PICP)eχ(PICP-η)
(9)
式中:η=1-α,當PICP<η時,δ(PICP)=1,否則δ(PICP)=0;χ為懲罰參數;CWC越小區間構建的越好。
影響校園區間用水有許多因素,如氣象、人文經濟和自然因素[16]。本文以河北工程大學每日的用水量為研究對象,選取2018年4月份每日的用水量作為輸出因子,選取節假日(r1)、當日最高氣溫(r2)、當日最低氣溫(r3)和天氣(r4)4個因素作為輸入因子構建模型。在2018年4月份的30 d中,校園每天的用水量分別與以上4個因素之間的關系如圖2所示。
由圖2可知,天氣因素有晴朗天氣、多云天氣、下雨天氣和陰天。其他的影響校園區間用水的因素還包括當日最高氣溫和當日最低氣溫。圖中有1個極值點表示用水量最低的時刻,即在4月9日,這天是正常的上課時間,最低氣溫很低,最高氣溫也比較低。由此可以看出氣溫與校園用水量有很大的關系。其影響因素的關聯系數經過Matlab仿真的結果如表1所示。

圖2 2018年4月份用水量與氣溫、節假日及天氣的關系

當天最高氣溫當天最低氣溫節假日天氣0.82400.89060.76740.5742
由表1可知,影響因素的關聯度依次為:當天最低氣溫>當天最高氣溫>節假日>天氣。當關聯度小于0.6,認為兩個序列無關,若關聯度大于0.8,則兩序列相關性很好;在0.6與0.8之間時,兩者關聯度好[17]。表1中關聯度大于0.6的因素有當日最低氣溫、當日最高氣溫和節假日3個因素。
為了得到更好的預測效果,對BP神經網絡和遺傳算法進行了最佳的參數的設置,如表2、3所示。

表2 BP神經網絡初始參數設置

表3 遺傳算法參數設置
本文以河北工程大學校園的用水量為研究對象,所采用的數據來源于河北工程大學節能節水監管平臺。首先根據灰色關聯分析方法得出校園區間需水量的3個主要影響因素,得出輸入節點數為m=3,n=2m+1,即隱含層節點數為n=7,可得BP神經網絡的結構為3-7-1。此模型用河北工程大學2018年4月份一個月前29 d每天24 h的數據作為訓練值,然后計算出的點預測值見圖3。

圖3 預測模型點預測曲線
從圖3可以看出此模型預測值與實測值基本吻合,但是點預測方式一般不能對預測結果做出可靠性描述,因此必須進行模型的區間預測。
對于校園區間需水預測,本文引入了灰色關聯分析方法,找到影響校園區間用水的主要因素,并結合遺傳算法優化神經網絡解決自動尋優的問題,從而增強了其穩定性和適應能力,通過此方法與BP神經網絡預測值進行比較,如圖4所示。

圖4 用水量實際值與GA-BP和BP預測值比較圖
從圖4中可以看出優化后的神經網絡不易陷入到極小化的問題,從而使預測結果更精確。
本文采用河北工程大學2018年4月每天的用水量作為樣本,假設置信區間為90%。根據點預測的結果和實際值進行殘差計算,可以求出區間的上下界,從而清楚地看到區間預測的結果,見圖5。

圖5 預測區間上下界及預測結果曲線
從圖5中可以看出無論預測值還是實際值,基本落入了預測區間上下界區間內,證明該區間預測模型十分有效。
區間預測值的可靠性可以用區間覆蓋率指標PICP、區間平均帶寬指標(PINAW)、綜合指標CWC進行判斷。從圖5中可以看出,實際觀測數據中有兩個未完全落在預測區間上下限范圍內,而訓練樣本共有29個,因而由公式(7)可得出PICP=93.10%。再根據公式(8)、(9)分別得出PINAW和CWC的值。3個指標值的計算結果見表4。

表4 區間預測性能指標表
由表4可知,預測區間覆蓋率PICP大于90%,證明此模型建立的預測區間是可靠的。在構建區間模型時,發現PICP足夠大時,PINAW的寬度也越大,而PINAW越小則PICP又越小,因而引入CWC綜合指標,CWC的值若足夠小,證明本文建立的預測模型是可靠的。
為了驗證此算法的精確度,本文引入了誤差分析,分析要素包括誤差均值、最大誤差、最小誤差。根據預測值和實際值求出相對誤差值[18]。公式如下:
(10)
式中:E為相對誤差;γp為預測值;γa為真實值。
根據公式(10)可以求出誤差均值、最大誤差、最小誤差如表5所示。

表5 誤差分析表 %
由表5可知,本文方法所計算的誤差均小于10%,模型的仿真精確度可達到90.32%,證明此方法預測校園區間需水是十分有效的。
本文結合校園用水數據,用灰色關聯法分析出影響校園用水的主要因素,結合遺傳算法優化后的神經網絡模型可以準確地得到校園用水的點預測值。然后通過輸出的點的預測值和實際值的殘差來尋找最優的預測區間上下限,可以看出,預測值基本落入了預測區間上下限內。主要結論如下:
(1)通過灰色關聯分析方法,找出影響校園用水主要有3個因素,即當日最低氣溫、當日最高氣溫和節假日,將主要因素作為遺傳算法輸入層,由計算結果可以看出,預測值曲線和真實值曲線基本一致。引入區間預測,在90%的區間置信水平下,預測值基本落入了預測區間上下限內。
(2)為了證明此區間預測的可靠性,引入了預測區間覆蓋率、預測區間平均帶寬指標和CWC綜合評價指標。通過誤差分析,得到相對誤差均值為3.22%、最大誤差為9.68%,證明其仿真精度可以達到90.32%。
(3)校園需水預測受很多因素影響,為了描述和量化主要因素的影響程度,以河北工程大學為例,引入了上述算法,此模型可以有效地進行校園用水數據的預測,能夠及時發現校園用水異常,以此對校園供水進行合理調度,達到節約用水的目的。