999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于DFA方法的自組織組合預測模型的應用

2010-09-15 08:50:14葉學芳
統計與決策 2010年23期
關鍵詞:數據挖掘方法模型

葉學芳,何 躍

(四川大學 工商管理學院,成都 610064)

基于DFA方法的自組織組合預測模型的應用

葉學芳,何 躍

(四川大學 工商管理學院,成都 610064)

文章運用消除趨勢波動分析(DFA)方法,計算了四川省工業增加值季度數據的標度指數,該指數表明四川省工業增加值的時間序列值具有長程相關特性,其預測模型有較好的擬合效果。在此基礎上根據自組織數據挖掘的理論與方法,提出了自組織組合預測模型。模型預測結果及與ARIMA、GMDH自回歸、SPSS曲線估計等三個單項預測模型及最優線性組合、人工神經網絡組合等常用的組合預測模型的對比表明,自組織組合預測模型不僅改善了對數據樣本的擬合精度,而且顯著提高了模型的預測能力。

工業增加值;DFA;GMDH;ARIMA;自組織組合預測

0 引言

工業增加值是指工業企業在報告期內以貨幣形式表現的工業生產活動最終成果,是企業全部活動的總成果扣除了在生產過程中消耗或轉換的物質產品和勞務價值后的余額,即企業生產產品或提供勞務過程中新增加的價值。四川省作為一個工業大省,工業增加值占據著GDP最大份額,在四川省的經濟活動中起著舉足輕重的作用。如何才能更有效準確地預測工業增加值,很多學者都提出了自己的看法。賈明輝等[1]應用灰色預測理論,建立灰色系統的預測GM(1,1);張玲等[2]提出采用時間序列分析法對我國工業增加值的趨勢進行預測;徐智勇等[3]利用支持向量機和微分進化算法相結合的方法對中國工業增加值數據進行預測;劉靜思等[4]提出預測中長期工業增加值的一個有效方法是將AC模型、GMDH模型、SPSS曲線模型等三個單項模型進行最優線性組合預測;張秋菊等[5]選取AC模型、GMDH自回歸模型、Curve Estimation過程預測等三個單項模型,再根據最小二乘法原理進行組合預測。前兩位學者只采用了一種模型進行預測,后三位學者均采用了組合預測方法,結論中也證實了常見的組合預測模型的預測能力優于單項模型,但是是否存在更好的組合預測模型,使它的精度相比于常見的組合預測模型更高呢?針對這個問題,本文擬使用四川省2002~2008年工業增加值(現行價)實際數據,首先采用DFA方法用于探測工業增加值指標的時間序列分形標度特性與長期相關性;接著采用SPSS曲線估計、GMDH自回歸、ARIMA等三個單項模型對工業增加值進行預測;然后分別采用最優線性組合預測模型、人工神經網絡組合預測模型及自組織組合預測模型三種組合模型進行組合預測;最后比較分析各種組合預測模型的優劣。

1 DFA方法簡介

消除趨勢波動分析(DFA)方法自1994年由Peng等人提出之后,已成功地應用于許多領域,特別是在噪聲序列、非平穩時間序列上DFA方法已成為廣泛使用的技術。

對給定長度為 N 的序列{xk}(k=1,2,…,N),DFA 方法的一般過程如下[6~10]。

第一步:通過求和把原序列歸并成一個新的輪廓序列

式中<x>是序列{xk}的平均值。

第二步:把輪廓序列y(i)分割成長度為s的Ns=int(N/s)個不相交的等長子區間。但因序列長度N通常不是分割跨度s的整數倍,一般對輪廓序列末端剩余的一小部分保留待用,若為了這一小段末端序列不至于被忽略,可以從原輪廓序列末端開始往回重復分割一次,這樣就可一共獲得2Ns個(當N為s的整數倍時,只要Ns個)等長子區間。

第三步:通過最小二乘法擬合每一子區間v(v=1,2,…,2Ns)上的局部趨勢Pv(k)(j)函數,其中Pv(k)(j)是k階多項式(k=1,2,…,N)(一般記為 DFA1,DFA2,…)。 消除子區間 v 中的局部趨勢,得其消除趨勢序列

第四步:計算2Ns個消除趨勢子區間序列的平方均值

這里 v=1,2,…,2Ns,進而求這 2Ns個 F2(s,v)的均值的平方根

第五步:在雙對數圖中分析波動函數F(s)與s的關系

式中a為標度指數,它體現序列的相關特性。通常,波動函數值F(s)是分割長度s的增函數,做出logF(s)對logs的函數關系圖,求出logF(s)相對于logs的變化斜率,其斜率即為所得的標度指數a。

當序列的標度指數a=0.5時,意味著該序列是一個獨立過程,但并不能說明時間序列是一個高斯隨機過程,僅表明序列不存在長期記憶。若時間序列僅是短期相關,a值會十分接近于0.5;當0.5<a<1時,暗示時間序列具有狀態持續性;當0<a<0.5時,時間序列具有狀態反持續性。特別地,當a=1時,時間序列的相關性與1/f噪聲相似;若a>=1,序列的相關性不再是冪律的形式;當a=1.5時,時間序列的相關性與布朗噪聲相似。因此,標度指數a可以作為描述原始時間序列的“粗糙度”的指標,標度指數a越大,時間序列越光滑。

2 自組織組合預測方法

所謂組合預測方法,就是將不同的單個預測方法按照一定的原理進行適當的組合,綜合利用各種單個方法所提供的有用信息,從而盡可能地提高預測精度。目前常用的預測方法分為權系數組合預測法和人工神經網絡法。前者主要包括最優組合預測法和變權重組合預測法。它的缺點是當單個預測方法來源于非線性模型或者所基于的條件期望是信息集合的非線性函數時,各個單個預測方法的線性組合并不是最優的。而后者的缺點在于有時會造成過擬合現象。即模型對樣本數據有較高的擬合精度,但預測能力差。為此,我們這里提出了自組織組合預測法。

最早的自組織數據挖掘思想——數據分組處理方法(GMDH)由A.G.Ivakhnenko于1967年首次提出,并成為自組織數據挖掘理論與方法發展的第一個里程碑。經過40多年的發展,如今在復雜系統的模擬、預測、模式識別、樣本聚類等諸方面,自組織數據挖掘方法已經成為輔助人們進行系統分析和決策的強有力工具[11]。

自組織數據挖掘理論的基礎是建立在人類生存歷史中最古老的、最富有成效的試探法則——選擇學說之上的。生物的遺傳在不斷地受到外界的制約并與周圍的環境協調的過程中,物種將逐步發生變化。在大批量進行育種的過程中,為了得到新的一代,每一次大批量淘汰的過程都應該篩選出具有某些最好特性的,但還需要繼續改進的那些生物,并利用這些生物繼續育種。經過一些階段的選擇之后,就可以培育出理想的物種[12]。

表1 對四川省工業增加值求DFA標度指數過程

以參加組合的各預測方法作為自組織算法的輸入,其輸出即為組合預測結果,這就是我們提出的自組織組合預測方法。

3 實證分析

在進行DFA分析時,選取四川省工業增加值(現行價)2002年第一季度至2008年第四季度共28個數據作為研究對象。在后面的預測工作中,選取四川省工業增加值(現行價)2002年第一季度至2008年第四季度共28個數據作為訓練集,選取四川省工業增加值(現行價)2009年第一季度至2010年第一季度共5個數據作為測試集 (數據均來源于四川省統計月報)。

3.1 DFA分析

從圖1可以看出,logF(s)與logs之間存在著比較明顯的線性關系。由于在第二步中從原輪廓序列末端開始往回重復分割了一次。因此,取s值為3~11的logF(s)與logs的數據,用線性回歸求得標度指數a的值為1.103,a>1,意味著四川省工業增加值時間序列具有持久性的長期相關,即工業增加值具有“長期記憶性”,過去的信息會影響到工業增加值未來的發展趨勢。也就是說,工業增加值的數據是存在內部相關性的,數據是有效的。因此,可以通過自組織數據挖掘方法對工業增加值建立模型,用已知的工業增加值的數據預測未來一段時間內的工業增加值變化趨勢是可行的[12]。即具有長程相關的時間序列,其模型有較好的擬合預測效果。

3.2 單項模型預測

3.2.1 ARIMA模型

圖1 四川省工業增加值標度指數散點圖

圖2 二階差分前序列圖

圖3 二階差分后序列圖

圖4 二階差分后的序列自相關系數和偏相關系數

差分自回歸移動平均模型(ARIMA)是研究時間序列的重要方法,由自回歸模型(AR模型)與滑動平均模型(MA模型)為基礎“綜合”構成。傳統的趨勢模型外推預測方法只適合于具有某種典型趨勢性變化現象的預測,然而在現實中,許多現象的序列資料并不總是具有這種典型趨勢特征,依此方法建立的模型所產生的誤差項不一定完全是具有隨機性質的,從而影響了預測效果。ARIMA模型先根據序列識別一個試用模型,再加以診斷,做出必要調整,反復進行識別、估計、診斷,直到適合的模型,因此它適用于各類的序列,是迄今最通用的時間序列預測法[13]。

這里我們采用Eviews6.0軟件做ARIMA模型預測。以四川省工業增加值的季度數據為已知序列,繪制序列圖,如圖2所示。從圖2可以看出,2002~2008年四川省工業增加值呈上升趨勢,并且增長幅度不同,需進行平穩后處理。對原序列數據求對數后進行二階差分轉換后重新繪制序列圖,如下圖3所示。新序列無明顯上升或下降趨勢,說明通過二階差分轉換后的新序列具有穩定性。

對二階差分轉換后的數據做自相關和偏相關系數圖,如圖4所示。從圖4中可以看出自相關系數在k=2與3時顯著不為0,所以確定p值為1,2,3。偏相關系數在k=2時顯著不為 0,所以確定 q 值為 1,2。因此(p,q)的可能組合有 6 個。表2為各個組合的參數值。其中AIC(Akaike info criterion)越小越好,SC(Schwarz criterion)越小越好,R-squared越大越好,通過比較這三個參數值,最后確定p值為2,q值為2。因為在數據處理時進行了二階差分,所以d的取值為2。所以最終模型為 ARIMA(2,2,2)[14]。 最后得到的最終模型為:

其中,Z=ΔY。

3.2.2 GMDH自回歸模型

GMDH自回歸區別于一般回歸模型的最大的優點是它將數據分為訓練集和測試集,在訓練集上使用內準則進行參數估計得到中間待選模型,而在測試集上使用外準則進行中間候選模型,而在測試集上使用外準則進行中間候選模型的選擇,這個過程不斷重復直到外準則值不能再改善才停止,這樣的停止法則可以保證在一定噪聲水平下得到數據擬合精度和預測能力之間實現最優平衡的最優復雜度模型,不會出現一般的回歸方法中常出現的過擬合而犧牲了預測能力的現象[4]。

表2 ARIMA模型參數值

表3 SPSS各模型預測結果

表4 2009年1季度至2010年1季度工業增加值單項預測模型與組合預測模型預測結果

不同于SPSS,在做GMDH自回歸預測時首先把工業增加值的季度數據轉換為環比數據以消除量綱。然后通過在Knowledgeminer軟件中不斷調整參數并比較各參數值,最終篩選出最優復雜度模型如下:

其中:z11=6.359(e-2)Yt-2-6.895(e+0)

在模型擬合與預測中,R-squared的值越接近1,效果越好。此模型中為0.9769,十分接近1,擬合效果好;平均絕對百分比誤差(Mean Absolute Percentage Error)越小越好,控制在5%以內均是可接受水平,此模型中為1.73%,誤差小,可接受;預測誤差平方和(PESS)越小越好,此模型中PESS=0.0286,預測誤差較小。

3.2.3 SPSS曲線估計模型

用SPSS做預測可有很多種方法,可利用工業增加值與影響工業增加值的一些因素進行多元線性回歸,剔除相關度低的影響因素,最后得到工業增加值與相關度高的各因素的回歸模型。但利用此模型進行預測時,需要首先找出影響工業增加值的典型因素,并對各因素進行預測,才能對工業增加值進行預測,整個過程顯得復雜,而且預測精度不一定高。也可以采用的自回歸模型,但預測效果卻不是很好。這里我們采用文獻[4]提到的曲線估計模型。

首先選擇分析→回歸→曲線估計,將四川省各季度工業增加值的環比累加值作為因變量,將時間序列作為自變量,在模型一欄里選擇常見的變量如線性、二次項、三次項、復合、冪等。表3即為SPSS各模型預測結果。

通過觀察R Square的值以及經驗分析,最后選定二次型模型為最優,即:

(注:在實際工作中,不一定只采用一種模型,可以對R Square值較好的幾個模型求組合)

由于我們采用的是工業增加值的環比累加值進行預測,因此,式中的Yt為t季度工業增加值的環比累計值,Xt為t季度的時間序列值。

3.3 組合預測模型

3.3.1 最優線性組合預測模型

在SPSS17.0軟件中將以上三個單項預測模型線性組合生成最優線性組合預測模型為:

3.3.2 人工神經網絡組合預測模型

在matlab軟件中編程將三種單項預測模型的輸出YSPSS,YGMDH,YARIMA作為模型的輸入,得到的人工神經網絡組合預測模型為:

3.3.3 自組織組織預測模型

在knowledgeminer軟件中,將三種單項預測模型的輸出YSPSS,YGMDH,YARIMA作為模型的輸入,用自組織數據挖掘技術篩選出的最優自組織組合預測模型為:

3.4 結果分析

四川省2009年1季度至2010年1季度工業增加值單項預測模型與組合預測模型的預測結果如表4所示。

從表4可以看出平均誤差的大小順序為:YARIMA>YSPSS>YGMDH>Y最優線性>Y人工神經>Y自組織。 由此,可以得出組合預測模型的預測效果優于單項預測模型,而在三種組合預測模型中,自組織組合預測模型具有更好的預測效果。這是由于自組織組合預測模型充分發揮了自組織數據挖掘算法自身的特點和優點,在盡可能多的模型結構形式中進行擇優選擇,而不僅僅在線性形式中進行計算選擇,這體現了復雜性科學研究的思想。自組織建模選擇最適于系統的表現形式,從而盡可能地利用了每一單項預測方法的有用信息[12]。

4 結語

本文首先通過DFA分析得出四川省工業增加值是具有長程相關的時間序列,也就是說在預測時,其模型將有較好的擬合效果。然后采用三個單項預測模型和三個組合預測模型預測四川省2009年一季度至2010年一季度的工業增加值。實證分析表明,自組織組合預測模型無論是擬合效果還是預測精度都比單項預測模型及常見的組合預測模型高。

雖然自組織組合預測模型在數據擬合和預測方面整體精度都較高,但它是基于單項預測模型基礎之上的。因此,提高各單項預測模型的擬合效果和預測精度,是提高自組織組合預測模型的預測能力的關鍵。

[1]賈明輝.我國工業增加值的灰色預測與分析[J].內蒙古民族大學學報(自然科學版),2009,24(2).

[2]張玲.時間序列分析法對我國工業增加值趨勢的預測分析與研究[J].統計與咨詢,2010,(2).

[3]徐智勇,孫林巖,郭雪松.基于支持向量機的中國工業增加值預測研究[J].運籌與管理,2008,17(3).

[4]劉靜思,何躍.基于組合預測模型的工業增加值中長期預測方法研究[J].工業技術經濟,2008,(2).

[5]張秋菊,何躍,馬海霞,劉成昭.組合預測模型在工業增加值預測中的應用[J].統計與決策,2006,(9).

[6]Peng C K,Buldyrew S V, Havlin S,et al.Mosaic Organization of DNA Nucleotides[J].Physical Review E,1994,49(2).

[7]Ausloos M.Statistical Physics in Foreign Exchange Currency and Stock Markets[J].Physica A,2000,(285).

[8]Kantelhardt J W,Koscielny-Bunde E,Rego H H A,et al.Detecting Long-range Correlations with Detrended Fluctuation Analysis[J].Physica A,2001,(295).

[9]Peng C K,Havlin S,Stanley H E,et al.Quantification of Scaling Exponents and Crossover Phenomena in Nonstationary Heartbeat time series[J].Chaos,1995,5(1).

[10]Vjushin D,Govindan R B,Monetti R A,et al.Scaling Analysis of Trends Using DFA[J].Physica A,2001,(302).

[11]賀昌政.自組織數據挖掘與經濟預測[M].北京:科學出版社,2005.

[12]賀昌政,俞海,盧躍奇.自組織組合預測方法及其應用[J].數量經濟技術經濟研究,2002,(2).

[13]劉明珠,趙曉萍,傅志華.靈活運用SPSS進行稅收預測[J].中國發展,2005,(4).

[14]騰格爾,何躍.基于GMDH組合的中國GDP預測模型研究[J].統計與決策,2010,(7).

(責任編輯/亦 民)

F201

A

1002-6487(2010)23-0042-04

國家自然科學基金資助項目(70771067)

葉學芳(1987-),女,四川內江人,碩士研究生,研究方向:數據挖掘、管理信息系統。

何 躍(1961-),男,重慶人,副教授,研究方向:管理信息系統、數據挖掘、決策支持系統。

猜你喜歡
數據挖掘方法模型
一半模型
探討人工智能與數據挖掘發展趨勢
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
基于并行計算的大數據挖掘在電網中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
3D打印中的模型分割與打包
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
一種基于Hadoop的大數據挖掘云服務及應用
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 99re免费视频| 91年精品国产福利线观看久久 | 亚洲无码37.| 天天综合色网| 国产精品亚洲精品爽爽| 尤物国产在线| 久久久精品国产SM调教网站| 国产一区二区三区精品久久呦| 国产精品综合久久久| 91网红精品在线观看| 天天躁夜夜躁狠狠躁躁88| 国产毛片一区| 91亚洲影院| 亚洲 日韩 激情 无码 中出| 久久香蕉国产线| 国产在线精彩视频二区| 91色老久久精品偷偷蜜臀| 久久6免费视频| 婷婷丁香色| 国产真实乱了在线播放| 国产精品偷伦在线观看| 久久久精品无码一二三区| 国产区精品高清在线观看| 国产女人喷水视频| 欧美天堂久久| 青青极品在线| 免费又黄又爽又猛大片午夜| 手机在线看片不卡中文字幕| 国产xx在线观看| 国产高颜值露脸在线观看| 草草影院国产第一页| 亚洲av无码专区久久蜜芽| 国产乱子伦视频在线播放| 香蕉蕉亚亚洲aav综合| 久久久久夜色精品波多野结衣| 国产女人在线| 国产成人精品在线1区| 激情午夜婷婷| 孕妇高潮太爽了在线观看免费| 一级一级一片免费| 久久久噜噜噜久久中文字幕色伊伊| 国产精品极品美女自在线| 一本大道香蕉高清久久| 久久国产成人精品国产成人亚洲 | 亚洲色偷偷偷鲁综合| 5555国产在线观看| 国产欧美日韩视频怡春院| 99视频在线免费观看| 天天色天天综合网| 日日噜噜夜夜狠狠视频| 色九九视频| 91视频首页| 福利在线免费视频| 国产成人亚洲无吗淙合青草| 在线观看亚洲精品福利片| 亚洲最大综合网| 中文字幕乱码二三区免费| 欧美激情二区三区| 黄色网在线免费观看| 狠狠综合久久久久综| 国产日韩欧美精品区性色| 国产国拍精品视频免费看 | 亚洲精品在线影院| 国产色爱av资源综合区| 播五月综合| 狠狠ⅴ日韩v欧美v天堂| 毛片手机在线看| 天天操天天噜| 麻豆精品在线视频| 久久6免费视频| 午夜精品区| 最新国产在线| 看看一级毛片| 亚洲最大情网站在线观看| 欧美一区二区三区欧美日韩亚洲| 日本不卡在线视频| a级毛片在线免费观看| 日韩毛片免费视频| 77777亚洲午夜久久多人| 亚洲精品福利网站| 久久久久久高潮白浆| 亚洲成肉网|