何 躍,尹 靜
(四川大學 工商管理學院,成都 610064)
基于GMDH的小樣本數據預測模型
何 躍,尹 靜
(四川大學 工商管理學院,成都 610064)
對于樣本數據少的情況,文章中利用SPSS曲線估計的方法選取三次曲線和二次曲線兩種模型進行預測,同時用GMDH自回歸模型進行分步預測,最后利用GMDH組合模型將三種模型進行組合預測。預測結果表明:GMDH自回歸模型對于小樣本數據的預測結果優于其他模型,效果更好、更穩定。
小樣本數據;SPSS曲線估計;GMDH自回歸模型;組合預測
現代宏觀經濟預測的各種模型,如回歸預測模型、馬爾可夫預測模型、灰色系統預測模型、投入產出預測模型等,多是基于對已知數據的分析,找到數據內部的規律和相互依賴關系,從而得到對未知數據的預測能力。但是這是基于樣本數據足夠多的前提下,對于樣本比較少的數據,預測效果往往不好。利用一般的宏觀經濟預測模型預測小樣本數據一般都存在一定的缺陷。例如回歸預測模型需要大量的歷史數據,而多元非線性回歸模型不僅建模難度大,且計算過程復雜;馬爾可夫模型雖然需要的數據量小,但是計算的準確率偏低而存儲復雜度偏高;灰色系統預測模型的特點是小樣本建模,但模型本身還存在一定的問題[1]。
基于以上模型的缺點,學者們開始對小樣本預測的進一步研究。例如安紅剛等提出小樣本進化神經網絡預測模型對盾構施工實測位移資料樣本進行建模預測下一步施工的地表變形,效果更好[2];針對武器系統實驗數據小樣本建模問題,徐軍輝等提出了通過二次修正插值方法解決測試數據的非等間隔性和樣本容量小的問題,提高了預測精度[3];曾波等(2009)從序列灰色關聯度的角度去挖掘數據之間變化的規律,對中國2008年的GDP進行預測,預測結果顯示了GIFM(m)模型具有比傳統的GM(1,1)模型以及GM(1,n)模型更高的預測精度。
由上面的研究可以看出,利用進化神經網絡和二次修正插值方法都是對數據進行預處理的改進,在此基礎上再利用一般預測方法預測;雖然灰色關聯度的預測優于傳統的灰色系統預測模型的預測結果,但是誤差卻高達6.80%,誤差相對較大。根據以上研究和工業增加值小樣本數據的特點,本文將對四川省七大優勢產業的工業增加值建立SPSS曲線模型,選取兩個最優的模型,利用GMDH自回歸模型預測,最后將三種模型進行GMDH組合預測。
變量之間的關系并不總表現出線性關系,非線性關系也是極為常見的。對于非線性關系,我們通常無法通過線性回歸來分析,無法直接建立線性模型[4]。SPSS曲線估計模型中,在不能明確究竟哪種模型更接近樣本數據的變化規律時,可以在軟件界面上列出來的眾多選項中選擇出多種模型,如:二次曲線(Y=b0+b1t+b2t2)、復合曲線、增長曲、對數曲線(Y=b0+b11n(x))、三次曲線(Y=b0+b1xb2x2+b3x3)、s 曲線、指數曲線、逆函數曲線(Y=b0+b1/x)、冪函數曲線、邏輯函數曲線等多種模型分別來擬合樣本數據,然后計算各個模型的參數,并計算回歸方程顯著性檢驗的f值和概率p值、判定系數R平方等統計量;最后,以判定系數為主要依據選擇其中的最優模型,并進行預測分析等[5]。
自組織理論又稱數據組合處理方法GMDH(Group-Method of Data Handling),是基于神經網絡和計算機科學的迅速發展而產生和發展起來的[6]。它將黑箱思想、生物神經元方法、歸納法、概率論、數理邏輯等方法有機地結合起來,實現了自動控制與模式識別理論的統一,極大減少了人在認識過程中的參與,從而更具有客觀性與公正性。自組織建模思想首先由烏克蘭控制論學家A·G·Ivakhnenko提出,并在Adolf Mueller等德國科學家的協作下得以不斷發展,如今已成為一有效而實用的數據挖掘工具[7]。其主要思想是通過各種簡單的初始輸入(局部模型)的交叉組合產生第一代中間候選模型,再從第一代中間候選模型中選出最優的若干項結合而產生第二代中間候選模型,重復這樣一個產生、選擇和遺傳進化的過程,使模型復雜度不斷增加,直到選出最優復雜度模型為止[8]。
它將觀測樣本數據分為訓練集和測試集:在訓練集上利用內準則建立中間待選模型,在測試集上利用外準則進行中間候選模型的選留。當外準則達到最小時,相應的模型即為最優復雜度模型。這個模型表達了輸入輸出變量之間的相互關系[9]。
(1)將數據樣本集(N個數據樣本)分為訓練集A和檢測集B(Nω=NA+Nb,ω=A∪B)若建立預測模型,則將數據樣本集分為學習集 A,檢測集 B 和預測集 C,Nω=NA+NB,ω=A∪B∪C。
(2)建立因變量(輸出)和自變量(輸入)之間的一般關系,作為“參考函數”,一般常用K—G多項式。例如對于三輸入單輸出系統,可取二次K—G多項式

為參考函數,并以它的子項作為建模網絡結構中的10個初始模型:

(3)從具有外補充性質的選擇準則中選出一個(或若干個)作為目標函數(體系),或稱為外準則(體系)。
(4)產生第一層中間模型。第一層中間模型們由自組織過程自適應產生,且因所含變量個數、函數結構而彼此不同,同時在訓練集A上估計參數。
(5)對第一層中間模型進行篩選。根據外準則,在檢測集B上對第一層中間模型進行篩選,選出的中間模型作為網絡第二層的輸入變量。
(6)形成最優復雜度模型網絡結構。 重復(4)、(5)兩步,可依次產生第二、第三…層中間模型,最終形成可用于分析的顯式最優復雜度模型[10][11]。
所謂組合預測,就是將不同的預測方法進行適當的組合,綜合利用各種方法所提供的有用信息,從而盡可能的提高預測精度。2003年諾貝爾經濟學獎得主、美國加利福尼亞大學的C.Granger教授關于組合預測的評價是:組合預測提供了一種簡便而實用的可能產生更好預測的途徑。
權系數組合預測法的特點是單模型的線性組合,而往往單個預測模型都是非線性的;非線性組合預測法所需設計的參數比大多數統計預測模型都多,有時會造成網絡模型的過擬合現象,即這種模型雖然對樣本數據有較高的擬合精度,但預測能力差。GMDH組合預測模型恰好能解決這些問題,它是基于樣本數據自身特點進行預測,解決了這些問題。因此本文選取該方法進行組合預測。

表1 SPSS曲線估計的參數結果

表2 GMDH自回歸不用預測方法結果比較
利用四川省七大優勢產業工業增加值數據做實證分析,該產業僅僅只有1998~2009年的12個年度數據,數據來源于《四川省統計年鑒》。把1998~2007年的數據用于構造預測模型,2008、2009年兩年的數據用來檢驗預測效果。
應用SPSS軟件,選取回歸分析——曲線估計,在此界面下選取合適的模型,就可以得到預測值。此時得到如表1結果。
根據檢驗的f值和概率p值、判定系數R平方的檢驗原則,其中以判定系數為主要依據,當R平方越趨于1,p值與f值越大越好的原則,我們確定二次曲線和三次曲線為最優模型。
根據GMDH自回歸預測模型原理,利用軟件Knowledge Miner預測。
我們需要選取合適的maxtime lag、Model Type等參數值,來確定預測模型。同時根據在模型擬合與預測中,R2、平均絕對百分比誤差和預測誤差平方和(PESS)這些數據才選取合適的參數。我們根據的原則是R2越接近1,效果越好;平均絕對百分比誤差越小越好,控制在5%以內均是可接受水平;預測誤差平方和(PESS)越小越好。

表3 模型預測結果

此模型中,R2=0.9995, 十分接近 1;MAPE=0.7%;PESS=0.0008,為最優模型。在此基礎上進行預測。
但需要注意GMDH有一特點:選取不同的檢測集進行預測時,結果有明顯差異。因此對2008、2009年直接預測,與兩年分步分別得到的結果有較大差距。其中兩步預測是基于先預測出一個,在再多一個數據的基礎上進一步預測,得到結果。兩種方法預測結果如表2所示。
由表2明顯可以看出,兩步預測優于一步預測,因此我們可以根據實際情況選取合適的方法,對于本文所選數據我們采取兩步預測方法。
類似于GMDH自回歸建模過程,參數選取選擇相同,得到的模型為:
此時 R2=0.9995,十分接近 1;MAPE=0.71%;PESS=0.0006。模型擬合效果較好。
根據預測得,雖然每個預測模型都趨于最優擬合,但是還是由于樣本數據較少,總體誤差會比較偏高。也因為數據少,適用模型也較少標準誤差最低也只能達到1.23(見表3)。
由表3可知:GMDH自回歸模型的預測結果明顯優于其他單模型,標準誤差為1.23,甚至優于組合預測模型預測結果。分析可知,前面兩種單模型的預測結果明顯差于GMDH自回歸模型,因此我們選擇組合預測時,也需要保證單模型預測效果較好。
文章中利用SPSS曲線中二次曲線、三次曲線模型和GMDH自回歸模型分別對小樣本數據進行預測,并將得到的三種單模型利用GMDH進行組合預測。
經預測結果比較得到:GMDH自回歸結果最優;其次為組合預測模型預測結果。因此對于小樣本數據的預測,GMDH自回歸方法效果更好。
GMDH預測方法有其特殊點,即不同的學習集,預測結果明顯不同,我們需要根據具體數據情況,選取合適的學習集,以使預測結果最優;組合預測結果不一定最優,其優劣除了取決于組合預測模型外,還取決于單模型預測效果。為了使組合預測效果好,在尋找更優的組合預測模型的同時,必須保證找到合適的、預測效果好的單指標預測模型。
[1]朱家元,楊云,張恒喜,王卓健.基于優化最小二乘支持向量機的小樣本預測研究[J].航空學報,2004,(25).
[2]安紅剛,胡向東,趙永輝.軟土盾構施工地表變形的小樣本進化神經網絡預測[J].巖土力學,2003,(24).
[3]徐軍輝,汪立新,前培賢.基于最小二乘指出向量機的小樣本建模方法研究[J].航空控制,2008,(1).
[4]薛薇.SPSS統計分析方法及應用[M].北京:電子工業出版社,2004.
[5]劉靜思,何躍.基于組合預測模型的工業增加值中長期預測方法研究[J].工業技術經濟,2008,(2).
[6]Mueller J-A,Lemke F.Self-Organising Data Mining[M].Hamburg:Libri,2000.
[7]Madala H R,Ivakhnenko A G.Inductive Learning Algorithms for Complex Systems Modeling[M].Tokyo:CRC Press Inc,1994.
[8]Harrision,P.J.,C.F.Stevens.A Bayesian Approach to Short Term Forecasting[J].Operational Research Quarterly,1971,22.
[9]騰格爾,何躍.基于GMDH組合的中國GDP預測模型研究[J].統計與決策,2010,(7).
[10]賀昌政.自組織數據挖掘與經濟預測[M].北京:科學出版社,2005.
[11]朱兵,賀昌政,肖進.基于GMDH方法的四川民用汽車保有量預測研究[J].現代管理科學,2006,(6).
F224.7
A
1002-6487(2011)10-0011-03
國家自然科學基金資助項目(70771067)
何 躍(1961-),男,重慶人,博士,副教授,研究方向:管理信息系統、數據挖掘、決策支持系統。
尹 靜(1986-),女,河北保定人,碩士研究生,研究方向:信息管理與信息系統。
(責任編輯/亦 民)