999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于分位點回歸系數(shù)聚類的時間序列分類方法

2011-10-18 10:32:40孫曉丹張鳴鳴
統(tǒng)計與決策 2011年6期
關(guān)鍵詞:分類方法

孫曉丹,張鳴鳴

(1.哈爾濱工程大學(xué)經(jīng)濟(jì)管理學(xué)院,哈爾濱150001;2.中國社會科學(xué)院研究生院,北京100102)

基于分位點回歸系數(shù)聚類的時間序列分類方法

孫曉丹1,張鳴鳴2

(1.哈爾濱工程大學(xué)經(jīng)濟(jì)管理學(xué)院,哈爾濱150001;2.中國社會科學(xué)院研究生院,北京100102)

時間序列曲線分類的目的是為了找到曲線之間相似波動結(jié)構(gòu)、減少建模工作量和進(jìn)行預(yù)測,所以分類的結(jié)果將直接影響模型的質(zhì)量和預(yù)測的精度。為此,文章提出了一種新的時序曲線分類方法—分位點回歸系數(shù)聚類法。它可以有效地避免一些分類方法帶來的局限性,能夠更為全面、詳盡地考查待分類時序數(shù)據(jù)的運行方式,改善分類的效果并為預(yù)測提供強大的支持。

分位點回歸;公共變量;層次聚類;整體預(yù)測

0 引言

時間序列曲線分類方法作為一個新的研究領(lǐng)域,在經(jīng)濟(jì)分析、時間序列數(shù)據(jù)挖掘、以及計算機科學(xué)中已經(jīng)得到研究工作者們極大的關(guān)注。Liao(2005)把時間序列分類方法研究分為了三個主要的方向[1]:(1)基于原始數(shù)據(jù)分類法;(2)基于序列特征分類法,例如A.M.Alonso(2006);(3)基于模型分類法。本文所提出的分類方法屬于上述的第三個方向。現(xiàn)在較為流行的基于模型分類方法是源于自回歸AR過程,大多數(shù)研究過程是通過找到數(shù)據(jù)均值過程的結(jié)構(gòu)和AR distance來進(jìn)行分類的,例如Piccolo(1990)[2],Maharaj(1996)[3]和Maharaj(1999)[4],Xiong和Yeung(2002)[5]等。

除了上述三種分類方法外,利用平滑曲線的方法進(jìn)行分類應(yīng)該屬于一種純統(tǒng)計手段。雖然它可以把趨勢大致相同的曲線歸為一類,但由于沒有考慮到時間序列曲線其中較為頻繁的波動,所以這種方法就會把一些本應(yīng)該歸為不同類別的曲線因其趨勢大致相同而被歸為了一類。另外,還有一種采用先提出若干種典型的模式,再按照模式對數(shù)據(jù)進(jìn)行分類的方法[6]。筆者認(rèn)為:(1)由于曲線的形式千差萬別,幾種典型的曲線模式不可能把曲線的所有形態(tài)都包含進(jìn)去;(2)典型的曲線模式雖然可以使預(yù)測變的簡單,但對于特殊形態(tài)曲線的分類及預(yù)測并無好的效果。

在本文中,我們擬提出一種基于模型的分類方法QRP Clustering,這是利用回歸參數(shù)進(jìn)行聚類,最終達(dá)到劃分曲線的一種方法。考慮到眾多時間序列曲線(股票價格序列)其波動形態(tài)、趨勢大都不同,采用普通最小二乘回歸不能完全體現(xiàn)因變量(待分類曲線變量)的分布特征。在這種意義下,時間序列在高點位和低點位運行的分布形態(tài)并沒有被展現(xiàn)出來,這主要是因為普通最小二乘回歸只是在平均意義下研究因變量與自變量之間的關(guān)系。本文所應(yīng)用的分位點回歸Koenker and Bassett(1978)[7]可以為研究隨機變量間統(tǒng)計關(guān)系提供一種更為全面的視角。

1 從經(jīng)典最小二乘回歸到分位點回歸

最小二乘回歸中的經(jīng)典估計方程—條件均值方程,它的作用體現(xiàn)在描述因變量的均值是如何隨著自變量向量X觀測的變化而變化的。但是,當(dāng)我們關(guān)心的不是這種均值變化,而是試圖描述y的分布狀態(tài)時,最小二乘回歸就不能滿足我們的需要。而本文引入的分位點回歸則采用條件分位數(shù)方程,即因變量y的條件分布的分位數(shù)被表示為已觀測自變量的方程,并通過最小化加權(quán)絕對值殘差和來進(jìn)行估計[8]。

1.1 經(jīng)典最小二乘回歸與中位數(shù)回歸

對于單自變量普通回歸模型:y=XTβ+ε,其中X=(1,x)T,β=參數(shù)向量β一般是通過二次損失函數(shù)r(u)=u2來估計的,確切的說就是給定一組觀測值最小化損失函數(shù)來求得β,損失函數(shù)為:

與普通回歸相類似,中位數(shù)回歸所關(guān)心的也是條件期望的參數(shù)估計問題,只不過期望函數(shù)、損失函數(shù)變成了E[|Y-θ|| X=x]和ρ0.5(u)=0.5|u|,其參數(shù)估計過程是最小化β)來求得β。中位數(shù)回歸是分位點回歸的一種特例,它是分位數(shù)等于0.5時的分位點回歸,分位點回歸則更具有一般性。

1.2 分位點回歸模型

分位點回歸估計的是條件分位數(shù)方程參數(shù)的問題。考慮一般性回歸模型的設(shè)定:y表示因變量,為自變量,并且有n個獨立的觀測值對于任意的0<τ< 1:Q(τ)=inf{y:F(y)≥τ}表示y的τ分位數(shù)。所以線性條件分位數(shù)方程就可以定義為:

對于任意的0<τ<1,定義損失函數(shù),ρτ(u)=u(τ-I(u<0)),其中I(u<0)為示性函數(shù)在上述定義的基礎(chǔ)上,就可以得到條件分位點回歸參數(shù)向量β的估計值:

2 時序數(shù)據(jù)分類過程

2.1 基于一元分位點回歸的考慮

本文只用一元線性分位點回歸,沒有用多項式分位點回歸及非參數(shù)分位點回歸,是基于以下考慮:第一,應(yīng)用多項式分位點回歸時,每一分位點的回歸系數(shù)至少會增加一個,這會帶來聚類變量的成倍增加。同時,由于多項式回歸是由自變量的一次方項、二次方項等構(gòu)成,這還會導(dǎo)致聚類變量出現(xiàn)嚴(yán)重的多重共線性。第二,采用非參數(shù)分位點回歸,即y=m (X),由于其對應(yīng)每條曲線回歸函數(shù)形式并不一定相同,故無法確定聚類變量。

2.2 實證序列數(shù)據(jù)

(1)待分類時間序列數(shù)據(jù):上證180中的64支股票2007年1月4日至2008年4月30日322個交易日每日收盤價格序列(如:圖2)。(2)公共變量:上證綜合指數(shù)序列。公共變量是基于上海證券交易所掛牌交易的個股收盤價序列與上證綜合指數(shù)序列在某種程度上存在著一定的數(shù)量關(guān)系而選取的,數(shù)據(jù)情況見圖2。

2.3 分位點回歸系數(shù)聚類步驟及分類結(jié)果

在聚類分析中需要定義點點距離的算法,我們選取最為常用的歐氏(Euclid)距離。

這里的“點”指的是p維空間點,點點距離表示由p個變量構(gòu)成的兩個樣本點之間的距離。

在本文中,設(shè)有n條待分類時間序列曲線S1,S2,…,Sn,每條時序曲線所對應(yīng)的數(shù)據(jù)作為自變量與公共變量S做分位點回歸,則第i條序列曲線與S的回歸系數(shù)與回歸截距分別為和把和作為聚類變量進(jìn)行聚類分析,數(shù)據(jù)矩陣表示如下:

在聚類分析中,不僅要考慮各個類的特征,而且要計算類與類之間的距離。為了使同類樣品(曲線)之間的離差平方和較小,類與類之間的離差平方和較大,所以選擇了層次聚類中的Ward method(離差平方和法)作為聚類方法。下面列出了QRP Clustering主要的四個步驟。

(1)選取公共變量。對于同屬性待分類的時間序列數(shù)據(jù),總能找到與之有關(guān)聯(lián)的公共變量,這是進(jìn)行分位點回歸的關(guān)鍵。另外,公共變量的選取也可以采用對各條曲線求平均的做法,那么這條平均線就與各個待分類曲線具有一定的相關(guān)關(guān)系。

(2)時序數(shù)據(jù)的標(biāo)準(zhǔn)化。

(3)利用R語言編程,把時序數(shù)據(jù)分別進(jìn)行分位點回歸,回歸方程的自變量為公共變量(本文為上證綜合指數(shù))(這里采用0.05;0.25;0.5;0.75;0.95,五個分位數(shù))。

(4)5個分位點回歸系數(shù)及5個回歸截距被看作為10個聚類變量進(jìn)行聚類分析,得到分類結(jié)果見圖3~9。利用一元線性回歸系數(shù)聚類得到的分類結(jié)果見圖10~16。

聚類分析可以根據(jù)實際的要求選擇分類數(shù)目。對于具有較大數(shù)目的時間序列曲線,我們本著既要使類與類之間有較大的區(qū)分度,又要使類內(nèi)有較好的一致性。一般情況下,分類的時候既不能分類太少,因為這樣必然會導(dǎo)致類內(nèi)曲線參差不齊無法達(dá)到分類的效果,甚至對以后的整體預(yù)測帶來很大的影響;而且又不能分類太多,因為這就失去分類的真正意義了。本文實際數(shù)據(jù)共64條曲線樣本,分別進(jìn)行了4個不同分組數(shù)目的實驗(Clusters=5,6,7,8;見表1),經(jīng)過比對選擇了7類(Clusters=7)作為最終的分類數(shù)目。

3 結(jié)論及意義

本文利用分位數(shù)回歸系數(shù)作為聚類變量,把64條時間序列曲線分成了7個曲線組,每一組曲線都具有大致相同的趨勢與波動形態(tài),其中與一元線性回歸系數(shù)聚類方法所得到的結(jié)果(圖10~16)進(jìn)行對比也充分說明了QRP Clustering達(dá)到了很好的分類效果,有效地提高了分類的精度。對于那些趨勢大體相同階段波動不同的曲線,利用分位點回歸可以更全面地分析時序曲線的特征,因為分位點回歸可以根據(jù)分位數(shù)的設(shè)定把兩個時序變量的關(guān)系變成多個回歸形式,這樣就可以更為全面、詳盡地考查待分類時序數(shù)據(jù)的運行方式,尤其是對那些波動劇烈且具有極端值的序列曲線。

對于分類完成后的各組曲線,可以分析各組曲線的特征,并進(jìn)一步達(dá)到建模和整體預(yù)測的需要。這里我們闡述兩個問題:

(1)建模。對每組曲線(已分類)建立模型可以有多種選擇。例如,①選擇該組任意一條曲線作為該組的代表曲線進(jìn)行建模;②選擇處于中間位置的曲線作為代表曲線;③對該組曲線在每一時點上的曲線數(shù)值進(jìn)行平均化處理,這便會形成一條新的序列曲線,然后用得到的新曲線作為代表曲線進(jìn)行建模。

(2)整體預(yù)測。當(dāng)代表曲線選擇完成后,具體的建模方法就要根據(jù)進(jìn)一步的時序曲線的特征分析來進(jìn)行。常用的時間序列曲線模型有ARMA、ARIMA、ARCH、GARCH等等。模型建立完畢后,就可以根據(jù)建立的時間序列模型進(jìn)行每組曲線的整體預(yù)測。

[1]Liao,T.Clustering Time Series Data:A survey[J].Pattern Recognition,2005,(38).

[2]Piccolo,D.A Distance Measure for Classifying ARIMA Models [J].Journal of Time Series Analysis,1990,(11).

[3]Maharaj,E.A.A Significance Test for Classifying ARMA Models [J].Journal of Statistical Computation and Simulation,1996,(54).

[4]Maharaj,E.A.Comparison and Classification of Stationary Multivariate Time Series[J].Pattern Recognition,1999,(32).

[5]Xiong,Y.,Yeung,D.Y.Mixtures of ARMA Models for Model-Based Time Series Clustering[J].In:Proceedings of the IEEE International Conference on Data Mining,2002,1~4.

[6]范新洪,張春梅,葉慧萍.基于負(fù)荷曲線分類的電力負(fù)荷預(yù)測方法[J].現(xiàn)代計算機,2007,(6).

[7]Koenker,R.Bassett,G.,Regression Quantile[J].Econometrica,1978, (46).

[8]Yu,K.,Lu,Z.,Stander,J.Quantile Regression:Application and Current Research Areas[J].The Statistician,2003,(52).

(責(zé)任編輯/亦民)

O212

A

1002-6487(2011)06-0021-03

孫曉丹(1980-),男,黑龍江齊齊哈爾人,博士后,講師,研究方向:復(fù)雜數(shù)據(jù)經(jīng)濟(jì)統(tǒng)計分析與產(chǎn)業(yè)經(jīng)濟(jì)。

張鳴鳴(1981-),女,黑龍江塔河人,博士研究生,研究方向:服務(wù)經(jīng)濟(jì)與財稅政策。

猜你喜歡
分類方法
分類算一算
垃圾分類的困惑你有嗎
大眾健康(2021年6期)2021-06-08 19:30:06
學(xué)習(xí)方法
分類討論求坐標(biāo)
數(shù)據(jù)分析中的分類討論
教你一招:數(shù)的分類
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
賺錢方法
給塑料分分類吧
主站蜘蛛池模板: 波多野结衣爽到高潮漏水大喷| 十八禁美女裸体网站| 欧美69视频在线| 日本欧美精品| 伊人中文网| 精品91自产拍在线| 日韩欧美国产精品| 青草娱乐极品免费视频| 日韩人妻少妇一区二区| 国产午夜看片| 欧美成一级| 尤物精品视频一区二区三区| 日韩在线播放欧美字幕| 激情网址在线观看| 三上悠亚一区二区| 毛片手机在线看| 国产性生交xxxxx免费| 久久五月天国产自| 亚洲男人天堂久久| 中文国产成人久久精品小说| 国产精品极品美女自在线| 久久这里只有精品8| lhav亚洲精品| 亚洲久悠悠色悠在线播放| 欧美成人精品一级在线观看| 97成人在线观看| 无码精品福利一区二区三区| 欧美成人精品高清在线下载| 色婷婷国产精品视频| 亚洲欧美成人影院| 国产精品hd在线播放| 亚洲日韩第九十九页| 特级欧美视频aaaaaa| 99视频在线免费| 呦女亚洲一区精品| 国产成人调教在线视频| 亚洲性网站| 久久久久88色偷偷| 免费观看男人免费桶女人视频| 波多野结衣无码AV在线| 国产激爽大片高清在线观看| 亚洲高清在线播放| 亚洲欧美日韩久久精品| 在线观看国产小视频| 91在线日韩在线播放| 色综合天天娱乐综合网| AV不卡在线永久免费观看| 在线免费亚洲无码视频| 亚洲国产精品不卡在线| 欧美日韩在线第一页| 午夜高清国产拍精品| 在线国产欧美| 日韩欧美国产成人| 91网在线| 成人夜夜嗨| 亚洲无码熟妇人妻AV在线| 亚洲欧美一区二区三区蜜芽| 色网站在线视频| 亚洲国产精品VA在线看黑人| 国产美女一级毛片| 国产精品夜夜嗨视频免费视频| 日韩精品一区二区深田咏美| 国产高颜值露脸在线观看| 亚洲黄色成人| 精品国产香蕉伊思人在线| 福利在线免费视频| 91在线一9|永久视频在线| 无码区日韩专区免费系列| 国产在线自在拍91精品黑人| 88av在线| 人妻一区二区三区无码精品一区 | 四虎在线观看视频高清无码| 国产欧美又粗又猛又爽老| 国产精品亚洲αv天堂无码| 成人毛片免费在线观看| 亚洲综合一区国产精品| 国产欧美日韩在线一区| 91精品视频网站| 国产视频自拍一区| 无码AV高清毛片中国一级毛片| 久久美女精品国产精品亚洲| 污网站在线观看视频|