馮鶴林,陳勇明,楊 淼
灰色關聯度是灰色系統的重要組成部分,也是灰色系統分析、灰預測、灰決策的基礎。灰色關聯度主要是就兩序列之間的幾何相似程度進行比較,描述其相近程度。序列越接近,關聯程度也就越大;反之,越小。自灰色系統的創始人鄧聚龍提出鄧氏灰色關聯度以來,很多專家和學者依照灰色關聯度的思想,提出了不同的關聯度算法。唐五湘[1]于1995年通過引入符號函數提出了能夠刻畫正負相關性的T型關聯度。其后,查金茂[2]于1997年就唐五湘提出的T型關聯度,提出相關缺陷如不滿足規范性以及增量為零時沒有意義;孫玉剛[3]于2008年重新給出了T型關聯系數算法并補充了T型關聯度的性質。2010年馮鶴林[4]提出一種改進的T型關聯度,分析了量綱化問題,從傳統上優化了關聯度的取平均的固定思維模式。T型關聯度是最早能夠反映出關聯度的正負性的關聯度之一,但在正負性上并不十分完善,主要是通過序列的自增和自減來刻畫,與序列的空間位置有很大關系。其后曹明霞[5]就關聯度模型的正負性問題進行了研究,取到了很多的效果,通過介入變異系數,更加準確的反映出灰關聯思想。但由于運用的是斜率做為基礎,而斜率是關于角度的正切值,對同一自變量,函數值存在著不均勻性。即同一個斜率差反映兩個序列相近程序不一致性。本文主要針對馮鶴林2010年取出的改進T型關聯度,做進一步完善。
灰色關聯度是依據關聯度思想提出的各種算法。最根本的源頭是關聯度思想。最早也是最權威的T型關聯度是唐五湘提出的。下面介紹一下唐五湘的T型關聯度的基本思想[1]。
按照因素的時間序列曲線相對變化勢態的接近程度的來計算關聯度。對于離散時間序列,所謂兩曲線的相對變化勢態的接近程度,是指兩時間序列在對應各時段Δtk=tk-tk-1(k=2,3,…,n)間原始變量經標準化后的增量的大小來判定的。若在時段Δtk間兩增量相等或接近于相等,則這兩時間序列在時段Δtk間的關聯系數就大;反之,就小。兩時間序列的關聯度定義為:各時段Δtk間的關聯系數的加權平均數。
按照T型關聯度的基本思想,馮鶴林針對關聯度的計算做了進一步修正。給出了對于量綱和意義相同的兩時間序列X1={ }X1(t1),X1(t2),…X1(tn),X2={X2(t1),X2(t2),…,X2(tn)}T型關聯度的具體的計算步驟。
步驟1:求增量序列

步驟2:求兩序列間的關聯系數
設[a,b]上的兩時間序列分別為:

將

為序列X1與X2的在從tk-1到tk時間段Δtk內的關聯系數。
其中:

步驟3:求兩序列X1={ }X1(t1),X1(t2),…X1(tn),X2={X2(t1),X2(t2),…X2(tn)}間 的 關 聯 度,稱 r=為X1與X2改進的灰色T型關聯度。
r不僅能夠反映正負關聯程度,更能夠確切的表明某一時間段Δtk內,增量對整體相似的貢獻程度。避免了以前所定義的T型關聯程度出現的,局部關聯系數不同,但總體關聯度可能相同,對應的圖形與事實相差甚遠的情況。
T型關聯度能夠很好的反映兩時間序列的正負相關性,這是很多其它關聯度不具備的特征之一。從關聯系數的公式中,能清楚得看到反映正負相關性是由符號函數sgn(ΔX1(tk).ΔX2(tk))決定的。其中的ΔX1(tk),ΔX2(tk)分別是兩時間序列的自增量。
從T型關聯度的基本思想可以看出,T型關聯度是反映兩時間序列的接近程度,接近程度越高,關聯程度也就越高;反之,越小。從這里,可以得出如下的基本結論:兩時間序列的接近程度不以空間位置的相對變化而變化,而只與兩時間序列的相對距離相關。這里的相對位置的度量可以采用相交后的夾角,夾角越小,關聯程度越大;反之越小。同樣也可采用先平移使相交于一點,從原始序列上取一點,作這點到比較序列的距離來衡量。距離越近,關聯程度越大;反之越小。見圖1、2。

圖1

圖2
接下來,開始將等時間序列推廣到非等時間序列。實際數據中有很多這樣的例子,當一個數據已經結束記錄時,另一個數據還在繼續。這樣的數據實際上是可以討論它們的關聯程度的。無論上面哪種方式的度量都可以反映出關聯程度的大小與時間序列的長度無關,是與時間序列所在的直線所在的相對位置相關。這里的相對位置是比較時間序列相對于原時間序列的相對位置。在接受這樣的觀點以后,開始闡述T型關聯度衡量正負性的缺陷。
T型關聯度的度量只與比較序列與原始序列的相對位置相關,也就表示與他們的初使位置無關。在此基礎上,對這組序列進行旋轉,它們的關聯度依然是可以度量的。以兩序列所在直線的交點進行旋轉。旋轉后,從理論上說沒有任何改變,它們關聯度不會發生任何改變。但是,它們的意義發生了很大的變化。從圖形(圖3、4)上看,它們并非等時間序列。關聯程度之前是無法度量的,現在可以度量了。當然度量的方式還是采用夾角或點到直線的距離來度量。當然前面剛剛引入了兩時間序列的關聯度與它們的長度無關而是與它們所在的直線相關。初始位置發生改變后,可能導致原來一些序列自身的增加量、減少量發生改變,從而改變它們的增量序列正負性,進而影響它們的關聯系數。這樣就影響了這個關聯度的正負性。舉一個具體的例子來說明這個問題。

圖3

圖4
原始序列op1,對比序列為op2,將該圖形繞O點進行旋轉450度后,得到新的序列op1',op2'。但原始序列相對于比較序列的相對位置并未發生任何改變,只是相對于初使位置的相對位置發生了移動。因此它們的關聯度不會發生任何改變。但是比對序列op2的位置由初始的位于經x軸下方旋轉到x軸的上方op2'。對比序列對應的增量ΔX2(tk)由負數變更為正數,而原始序列對應的增量ΔX1(tk)符號一直沒有發生改變。這樣符號函數判斷關聯正負性的sgn(ΔX1(tk).ΔX2(tk))函數就發生了改變。從關聯度的基本思想上看,兩個時間序列的接近程度不會因為它們相對于初使位置的相對變化而發生改變,只會因為它們之間的相對位置發生改變。但如果用符號函數sgn(ΔX1(tk).ΔX2(tk))來定義原始序列與比較序列的正負相關性,是達不到這點的。
在量綱相同和意義一樣的兩時間序列,按照因素的時間序列曲線的相對變化勢態的與原始序列的接近程度來計算關聯度。反映原序列X1={ }X1(t1),X1(t2),…X1(tn)與比較序列X2={ }X2(t1),X2(t2),…X2(tn)正負相關性的符號函數sgn(ΔX1(tk).ΔX2(tk)) 更 正 為 sgn(ΔX2(tk)-ΔX1(tk)) 或-sgn(ΔX1(tk)-ΔX2(tk))。其可理解為以原始序列的增量為一標尺,增量大于這個標尺的視為正相關,小于這個標尺的視為負相關。原始序列的增量相當于在數軸上的原點,在原點右側的為正,原點左側的為負。從本質上講,原始序列的增量序列和對比序列的增量序列,可以繞它們所在直線交點進行旋轉,將原始序列增量所在直線旋轉到與x軸重合。此時,對比序列增量旋轉后的位置決定它們的正負相關性。ΔX1(tk)-ΔX2(tk)>0,說明對比序列增量小于原始序列增量,旋轉后位于x軸下方;ΔX1(tk)-ΔX2(tk)<0,說明對比序列增量大于原始序列增量,旋轉后位于x軸上方。對照唐五湘提出的T型關聯度,原始序列增量為正,比較序列增量為負的關聯依然是負關聯。但原始序列和比較序列增量同時為正或同時為負時,此次的關聯度已經不再是以前提出的那種正關聯,而要比較兩序列增量的大小。

步驟1:求增量序列若量綱不統一的情況下,先對兩序列進行量綱化處理后,再求增量序列。
步驟2:求兩序列間的關聯系數
設[a,b]上的兩時間序列分別為X1={X1(t1),X1(t2),…X1(tn)}和X2={ }X2(t1),X2(t2),…X2(tn),稱

為序列X1與X2的在從tk-1到tk時間段Δtk內的關聯系數。
其中:

步驟3:求兩序列X1={ }X1(t1),X1(t2),…X1(tn),X2=X2(t1),{X2(t2),…X2(tn)}間的關聯度,稱為X1與X2改進的灰色T型關聯度。
r更能夠準確地反映正負關聯程度,更正后的符號函數不會因為原始增量序列與對比增量序列相對于初始位置的改變發生改變,只與原始增量序列相對于對比增量序列的相對位置有關。
下面將用重新定義正負性后的T型關聯度分析一個具體實例。西南地區城鎮居民家庭平均每人全年消費性支出增量表如表1。(數據來源于統計年鑒)

表1 西南各地區城鎮居民家庭平均每人全年消費性支出表
由于數據的結構與類型一致,因此無需采用無量綱化處理。可以求出增量序列如表2。
依據關聯系數的計算公式

表2 西南各地區城鎮居民家庭平均每人全年消費性支出增量表

可求出西南各地區與全國平均消費性支出的關聯系數見表3。

表3 西南各地區城鎮居民家庭平均每人全年消費性支出與全國平均水平的關聯系數表
為了體現整體相似的貢獻程度的關聯度,用

求關聯度得到:

上面的數據可以看出,在西南地區,重慶的消費性支出趨勢與全國的消費性支出趨勢最為相似,貴州的消費性支出趨勢與全國的消費性支出趨勢在負相關里面差異最大。主要原因是貴州與全國的消費支出關聯系數每一個均為負(每一個增量均小于全國的水平),加上整體相似的貢獻程度的綜合作用,使得貴州的消費性支出趨勢與全國的消費性支出趨勢差異性明顯。
[1]唐五湘.T型關聯度及其計算方法[J].數理統計與管理,1995,14(1).
[2]查金茂.T型關聯度的缺陷[J].武漢交通科技大學學報,1997,21(2).
[3]孫玉剛,黨耀國.灰色T型關聯度的改進[J].系統工程理論與實踐,2008,(4).
[4]馮鶴林,陳勇明.一種改進的T型灰色關聯度及應用研究[J].統計與決策,2011,(5).
[5]曹明霞.灰色關聯度模型正負性問題的研究及其改進[J].系統工程與電子技術,2008,30(6).