李旭軍
(安徽經濟管理學院 計算機工程系,安徽 合肥 230031)
基于PCA方法的地理系統分析
李旭軍
(安徽經濟管理學院 計算機工程系,安徽 合肥 230031)
在多要素復雜系統的分析,利用主成分分析方法,用較少的變量代替原來較多的變量,可以簡化問題的處理,提高處理的效率.
復雜系統;主成分分析法;地理系統
地理環境是多要素復雜系統,進行地理系統分析時,多變量問題是經常會遇到的.變量太多,無疑會增加分析問題的難度與復雜性,而且在許多實際問題中,多個變量之間是具有一定的相關關系的.在各個變量之間相關關系研究的基礎上,用較少的新變量代替原來較多的變量,而且使這些較少的新變量盡可能多地保留原來較多的變量所反映的信息.主成分分析把原來多個變量化為少數幾個綜合指標的一種統計分析方法,是一種降維處理技術[1-3].
假設有n個地理樣本,每個樣本共有p個變量描述,這樣就構成了一個n×p階的地理數據矩陣:

如何從這么多變量的數據中抓住地理事物的內在規律性呢?要解決這一問題,自然要在p維空間中加以考察,這是比較麻煩的.為了克服這一困難,就需要進行降維處理,即用較少的幾個綜合指標來代替原來較多的變量指標,而且使這些較少的綜合指標既能盡量多地反映原來較多指標所反映的信息,同時它們之間又是彼此獨立的.那么,這些綜合指標(即新變量)應如何選取呢?顯然,其最簡單的形式就是取原來變量指標的線性組合,適當調整組合系數,使新的變量指標之間相互獨立且代表性最好[4-5].
如果記原來的變量指標為x1,x2,…,xp,它們的綜合指標——新變量指標為x1,x2,…,xm(m≤p).則

在(2)式中,系數lij由下列原則來決定:
(1)zi與zj(i≠j;i,j=1,2,…,m)相互無關;
(2)z1是x1,x2,…,xp的一切線性組合中方差最大者;z2是與z1不相關的x1,x2,…,xp的所有線性組合中方差最大者;……;zm是與z1,z2,……zm-1都不相關的x1,x2,…,xp的所有線性組合中方差最大者.
這樣決定的新變量指標z1,z2,…,zm分別稱為原變量指標x1,x2,…,xp的第一,第二,…,第m主成分.其中,z1在總方差中占的比例最大,z2,z3,…,zm的方差依次遞減.在實際問題的分析中,常挑選前幾個最大的主成分,這樣既減少了變量的數目,又抓住了主要矛盾,簡化了變量之間的關系.
從以上分析可以看出,找主成分就是確定原來變量xj(j=1,2,…,p)在諸主成分zi(i=1,2,…,m)上的載荷lij(i=1,2,…,m;j=1,2,…,p),從數學上容易知道,它們分別是x1,x2,…,xp的相關矩陣的m個較大的特征值所對應的特征向量.
主成分分析的計算步驟
通過上述主成分分析的基本原理的介紹,我們可以把主成分分析計算步驟歸納如下:

在公式(3)中,rij(i,j=1,2,…,p)為原來變量xi與xj的相關系數,其計算公式為

因為R是實對稱矩陣(即rij=rji),所以只需計算其上三角元素或下三角元素即可.
首先解特征方程|λI-R|=0求出特征值λi(i=1,2,…,p),并使其按大小順序排列,即λ1≥λ2≥…,≥λp≥0;然后分別求出對應于特征值λi的特征向量ei(i=1,2,…,p).

一般取累計貢獻率達85-95%的特征值λ1,λ2,…,λm所對應的第一,第二,……,第m(m≤p)個主成分.

由此可以進一步計算主成分得分:

對于某區域地貌-水文系統,其57個流域盆地的九項地理要素:x1為流域盆地總高度(m),x2為流域盆地山口的海拔高度(m),x3為流域盆地周長(m),x4為河道總長度(km),x5為河道總數,x6為平均分叉率,x7為河谷最大坡度(度),x8為河源數,x9為流域盆地面積(km2).
1、首先對原始數據作標準化處理,由公式(4)計算得相關系數矩陣(見表1).

表1 相關系數矩陣
2、由相關系數矩陣計算特征值,以及各個主成分的貢獻率與累計貢獻率(見表2).由表2-16可知,第一,第二,第三主成分的累計貢獻率已高達86.5%,故只需求出第一,第二,第三主成分z1,z2,z3即可.
(3)對于特征值 λ1=5.043,λ2=1.746,λ3=0.997分別求出其特征向量e1,e2,e3,并計算各變量x1,x2,……,x9在各主成分上的載荷得到主成分載荷矩陣(見表3).

表2 特征值及主成分貢獻率

表3 主成分載荷矩陣
從表3可以看出,第一主成分z1與x1,x3,x4,x5,x8,x9有較大的正相關,這是由于這六個地理要素與流域盆地的規模有關,因此第一主成分可以被認為是流域盆地規模的代表:第二主成分z2與x2有較大的正相關,與x7有較大的負相關,而這兩個地理要素是與流域切割程度有關的,因此第二主成分可以被認為是流域侵蝕狀況的代表;第三主成分z3與x6有較大的正相關,而地理要素x6是流域比較獨立的特性——河系形態的表征,因此,第三主成成可以被認為是代表河系形態的主成分.
以上分析結果表明,根據主成分載荷,該區域地貌-水文系統的九項地理要素可以被歸為三類,即流域盆地的規模,流域侵蝕狀況和流域河系形態.如果選取其中相關系數絕對值最大者作為代表,則流域面積,流域盆地出口的海拔高度和分叉率可作為這三類地理要素的代表,利用這三個要素代替原來九個要素進行區域地貌-水文系統分析,可以使問題大大地簡化.
〔1〕張科靜.基于主成分分析法的城市創意競爭力評價[J].情報雜志,2010,29(4):68-71.
〔2〕田盈.基于加權主成分分析的企業技術創新績效評價模型研究[J].科技進步與對策,2008,25(3):130-133.
〔3〕張洪波.主成分分析法與概率神經網絡在模擬電路故障診斷中的應用[J].計算機測量與控制,2008,16(12):1789-1792.
〔4〕楊海瀾.主成分分析結合神經網絡技術在焊接質量控制中的應用[J].焊接學報,2003,24(4):55-60.
〔5〕李曉剛.基于主成分回歸的公路客運量預測模型研究[J].交通標準化,2009,(156):187-191.
P208
A
1673-260X(2011)12-0041-03