蔣仲廉 劉培豪 鐘 誠 余 珍 李 博
(武漢理工大學國家水運安全工程技術研究中心1) 武漢 430063) (武漢理工大學交通學院2) 武漢 430063) (長江航道規(guī)劃設計研究院3) 武漢 430040) (武漢工程職業(yè)技術學院4) 武漢 430415)
水位數據在水運工程中具有重要作用.在水位觀測中,由于一些儀器故障或人為原因,水位數據的完整性難以得到有效保障[1].在現有的水位數據修復方法中,線性插值方法,如拉格朗日插值法、牛頓插值法、Hermite插值法、三次樣條插值法等[2]是較為常用的方法.此外,還有基于潮汐學理論的潮汐調和方法,通過潮汐的正余弦函數分解,對其多階導進行平滑修正,在感潮河段的潮位分析中得到了廣泛應用.在水位時間序列相關關系上,唐巖等通過余水位的空間相關性,對潮高模型進行了精化修復[3].
內河航道由于受地形、天氣、匯流及分流等眾多因素的影響,其季節(jié)性、周期性等特征變化幅度較大,故上述方法在內河水位數據修復、預測中的適用性有待進一步提升.水位數據本質上屬于時間序列數據,時間序列是將某種統計指標的數值,按時間先后順序排列所形成的數列,時間序列分析就是從時間序列數據的分析中尋找其所具有的時序性和規(guī)律性,根據時間序列所反映出來的發(fā)展過程、方向和趨勢,進行類推或延伸,借以預測下一段時間可能達到的水平,其數據本身已經為建模提供了足夠的信息量,因而,時序分析方法可在內河水位預測上能取得較好的效果[4-5].
指數平滑法是生產預測中常用的一種時間序列分析預測法,作為趨勢外推法的一種,指數平滑法不同于一般的移動平均法(ARIMA).移動平均法中,近期資料對預測結果的影響要大于遠期資料,且越近期的資料對結果影響越大[6].而指數平滑法在此基礎上,對各期的數據按一定的規(guī)律賦予權數,越近期的數據,權重越大;而對于遠期的數據,則僅給予逐漸減弱的影響程度,即隨著數據的遠離,賦予它們逐漸收斂為零的權數.
基于上述分析,本文提出一種基于改進指數平滑法的內河水位預測方法.在修復過程中,對指數平滑法的單向預測過程進行了改進,引入正反雙向預測,并對正反向結果進行加權求和,最終實現內河航道水位預測.通過長江中游水位站日均水位數據驗證,結果表明本文方法穩(wěn)定可靠,可有效實現長江等內河干線航道水位數據修復與預測.
根據平滑次數不同,指數平滑預測分為一次指數平滑預測、二次指數平滑預測和三次指數平滑預測.它們的基本原理都是預測值是對以前觀測值的加權和,且對不同的數據給予不同的權,新數據給較大的權,舊數據給較小的權.基本公式為
St,1=αyt+(1-α)St-1,1
(1)
St,2=αSt,1+(1-α)St-1,2
(2)
St,3=αSt,2+(1-α)St-1,3
(3)
式中:St為t時刻的平滑值;yt為t時刻的實際值;St,1、St,2、St,3分別為一次、二次和三次指數平滑值;α為平滑系數,取值范圍[0,1].設次數為3,則三次指數平滑預測的表達式為
yt+m=at+btm+ctm2
(4)
式中:yt+m為第t+m時刻的預測值;at,bt,ct均為t時刻的參數,其值為
at=3St,1-3St,2+St,3
(5)


(6)

(7)
將指數平滑法用于缺失數據修復時,通常采用單向的修復方法.本文在單向指數平滑方法基礎上,充分利用缺失點前后趨勢,對待修復數據進行正反雙向預測,并通過正反向預測結果進行加權平均,實現預測結果修正,提高預測精度.雙向指數平滑法的預測流程見圖1.

圖1 雙向指數平滑法流程圖
指數平滑法的計算中,平滑系數α的取值十分重要,它反映了不同時期的歷史數據對指數平滑值的影響.平滑系數α的取值范圍在0~1,平滑系數越大,近期實際值對本期平滑值的影響越大.α的取值依賴與時間序列的平穩(wěn)性,當時間序列呈平穩(wěn)趨勢時,α取值較小,反之,時間序列有較大波動時α取值增大.
時間序列的平穩(wěn)性檢驗常用辦法有ADF均方根檢驗方法.取長江安慶段2016年水位數據進行ADF均方根檢驗,其結果見表1.

表1 均方根檢驗結果表
在ADF檢驗結果中,0為非穩(wěn)定序列,1為穩(wěn)定序列.其中原始數據檢驗結果表明原始水位序列并非平穩(wěn)數據,一階差分及二階差分結果均通過ADF檢驗,表明數據在部分區(qū)間段內有抖動情況,但抖動程度并不劇烈.由水位序列數據特性分析,應選取較小的平滑系數[7].分別取平滑系數α=0.2,0.3和0.4進行試算[8],對安慶段2016年水位數據進行擬合,擬合情況見圖2.在長江中下游段,其水位抖動不劇烈的情況下,α取值0.3時有較好的擬合結果.

圖2 平滑系數擬合曲線
初始值的估算對于指數平滑法最終結果具有較大影響.初始值的選取方法主要有兩種,對于已有樣本的平均及擬合[9].當樣本數據量較大時,擬合方法更為精確,其具體過程如下.
對于缺失部分,首先獲取其對應的歷史數據,然后根據式(4),對前三個已知數據進行擬合.此時,t= 0,將m= 1,2,3代入,用實際水位代替預測值,即
a0+b0+c0=y1
a0+2b0+4c0=y2
a0+3b0+9c0=y3
(8)
求解上述方程組得出a0,b0,c0,再將a0,b0,c0代入式(5)~(7),結合數據特征選取適當的平滑系數α,解方程組即可得出初始值S0,1,S0,2,S0,3.
由于時間序列特性,水位數據序列中任意數據前后數據均與該數據存有一定的相關關系.常用的單向預測方法可有效利用正向相關關系對數據進行預測,而反向關系經常被忽略.為充分利用已知數據,提高預測精度,由缺失部分之后的數據對丟失數據進行反向預測,并對雙向預測結果進行加權求和.雙向預測過程如下.
設有水位數據序列x={x1,x2,…,xn},其中待修復數據點為xk,正向預測為以{x1,x2,…,xk-1}為預測數據集,由指數平滑公式得到正向預測結果yl,以{xn,xn-1,…,xk+1}為數據集,對待修復點進行反向預測,可得預測結果yr.
yr=ar+brm+crm2
(10)
yl=al+blm′+clm′2
(11)
對正反向預測結果進行加權求和,采用均值求和方式,最終預測結果表達為
(12)
為驗證基于雙向指數平滑法的水位數據修復方法的有效性,以長江安慶段2016年7—8月水位數據為樣本進行驗證.其中水位數據為每日上午8時的實測水位,見圖3.

圖3 安慶水位示意圖(2016年7-8月)
以前15個水位數據為已知數據,假設之后的一段數據為水位數據的連續(xù)缺失段.同時通過二次曲線擬合法得到三次指數平滑法的初始值分別為S0,1=12.995 0,S0,2=12.416 7,S0,3=11.675.反向預測的平滑系數選擇方法類似,此處不再贅述.在MATLAB平臺上,采用三次指數平滑法的雙向預測模型,取正反雙向預測值的平均值作為修正,對不同長度的缺失段數據進行驗證.實驗結果見圖4~7.

圖4 缺失2個點時修復結果

圖5 缺失3個點時修復結果

圖6 缺失4個點時修復結果
為驗證實驗結果,引入均方根誤差(RMSE)、平均百分比誤差(MAPE)以及模型決定系數(R2)對實驗結果進行評價,其中均方根誤差表示模型輸出的平均誤差,百分比誤差表示輸出的百分比誤差,決定系數代表模型的擬合好壞程度,其值越高,模型的擬合程度越好.
評價指標具體公式為
(13)

(14)
式中:Xobs為原始水位數據;Xmodel為模型預測數據.以下分別以連續(xù)缺失三個數據和五個數據為例,取安慶段和南京段足量水位數據進行雙向修復實驗,其結果由三類評價指標進行評價,見表2.

表2 修復結果
由表2可知,基于雙向平滑指數的水位數據修復方法,在修復精度上,比正向及反向的單向方法均有提升;隨著連續(xù)修復點數的增加,精度提升的數值逐漸增大.在修復點數為3時,均方跟誤差約減少0.05 m,百分比誤差降低0.5%.在修復點數增加至5時,均方跟誤差降低約0.1米,百分比誤差降低約1%,在模型擬合精度上均有所提升.
指數平滑法作為常用的數據修復方法之一,對于受多種因素共同影響的復雜時間序列,直接從數據本身分析其變化趨勢,具有簡單易行的優(yōu)點.對于三次指數平滑預測方法進行改進的基礎上,將其應用于內河水位數據修復;通過雙向預測方法,對結果進行修正,有效地提高了水位數據修復精度.
實驗結果表明:基于雙向指數平滑的水位數據算法對內河水位數據的修復結果良好,精度較單向指數平滑法有較大提升;對于多點修復與預測,方雙向指數平滑方法具有較強的適應性.目前,雙向方法的求和權重采用了平均值求和的方法;根據正、反向預測的擬合優(yōu)劣程度,是否有更好的權重求取方法,將是未來深化研究的方向之一.