[摘要] 本文根據系統聚類分析的最小離差平方和法,利用SPSS軟件,通過浙江省11個地市的國民經濟主要指標,對處在不同經濟發展水平的各個地市進行聚類分析,從而將浙江省劃分為三個經濟發展水平不同的經濟區域,結果供有關決策部門參考。
[關鍵詞] 最小離差平方和法 主要經濟指標 聚類分析
聚類分析又稱群分析,是多元統計分析中研究樣本或指標的一種主要的分類方法,起源于考古分類學。隨著經濟和社會的發展,結合了更為強大的數學工具的聚類分析方法已經越來越多應用到經濟分析和社會工作分析中。在經濟領域中,主要是根據影響國家、地區乃至單個企業的經濟效益、發展水平的各項指標進行聚類分析,然后根據分析結果進行綜合評價,以便得出科學的結論。聚類分析的方法主要有兩種,一種是“快速聚類分析方法”(K-Means Cluster Analysis),另一種是“系統聚類分析方法”(Hierarchical Cluster Analysis)。本文將根據2004年浙江省各市國民經濟主要指標,利用系統聚類的Ward’s Method,對浙江省11個市進行分類。
一、聚類方法簡介
系統聚類法(hierarchical clustering method)是使用最多的一種聚類方法。它的基本思想是:
1.將全部n個樣品各看成一類,即得到n類;
2.確定樣品與樣品和類與類之間的距離;
3.計算各類之間的距離,并將距離最近的兩類合并為一類,形成一個新的類;
4.重復步驟3。這樣從有n類開始,每次合并一類,經過n-1次合并后,所有的樣品成為一類;
5.將上述合并的全部聚類過程用一個直觀圖形畫出來,即畫出聚類圖;
6.決定類的個數,并由上述步驟得到相應的聚類分析的結果。
以下我們用Gij表示第i個樣品與第j個樣品的距離,G1,G2,…表示類,GKL表示GK與GL的距離。本節介紹的系數聚類法中,類與類之間的距離與樣品之間的距離相同,即DKL=dkl。
二、 數據處理
(來源:2005浙江統計年鑒,見參考文獻[13])。
:國內生產總值 GDP(億元);:社會固定資產投資(億元);
:全社會消費品零售總額(億元);:城鎮居民人均可支配收入(元);
:農村居民人均純收入(元)。
1.原始數據標準化
標準化后的數據
2.SPSS軟件處理結果
我們采用系統聚類分析法的Ward’s Method對標準化后的數據進行處理,下面對軟件輸出結果進行詳細介紹。
使用SPSS的Classify→Hierarchical Cluster程序進行聚類分析。其中Method子對話框里,方法選擇最小方差法(Ward’s Method),間距測度變量選擇Squared Euclidean distance(歐氏距離的平方),然后得出如下結果:
(1)系統聚類分析的概要結果,
從表3中可以看出,11個樣本都進入了聚類分析。
本表格的第一行表示,第4個樣本和第6個樣本最先進行了聚類,樣本間的距離為0.195,這個聚類的結果將在后面的第五步聚類中用到;第二行表示聚類的第二步中第8個樣本和第11個樣本進行了聚類,樣本間的距離為0.653,這個聚類的結果將在后面的第八步聚類中用到。其他行的含義和上面的類似??梢姡涍^了10步聚類,11個樣本聚成了一個大類。
該表格是樣本系統聚類分析聚成3個類時,樣本的類歸屬情況表。從該表格可以看出,杭州市,寧波市2個市聚為一類;溫州市,嘉興市,紹興市,臺州市4個市聚為一類;湖州市,金華市,舟山市, 衢州市,麗水市5個市聚為一類。
(4)聚類圖
這個圖是系統聚類分析的譜系圖(Dendrogram)。從圖中可以看出,各個類之間的距離在25的坐標內。借此可以直觀地顯示整個聚類的過程。
3.通過以上的分類表和龍骨圖(譜系圖)可以清楚的看到,離差法聚類分析結果
(1)較發達城市:杭州市,寧波市;
(2)中等發達城市:溫州市,嘉興市,臺州市,紹興市;
(3)發展中城市:金華市,湖州市,舟山市,衢州市,麗水市。
三、 結果分析
通過上面的聚類分析,根據2004年浙江省各市國民經濟的主要指標,我們將目前浙江省各市縣的經濟發展水平劃分為3個經濟區域:
1.較發達城市:杭州市,寧波市
2.中等發達城市:溫州市,嘉興市,臺州市,紹興市,金華市,湖州市,舟山市
3.發展中城市:衢州市,麗水市
從聚類結果我們可以發現,發達城市杭州市和寧波市,由于城市發展歷史悠久,基礎建設比較完善,產業機構比較合理,城市規模較大,城市經濟發展快,所以把它們歸類為經濟發達的城市。而中等發達城市,湖州市、嘉興市和舟山市由于靠近上海,與上海的社會經濟關系比較密切,依托上海,大力發展外貿經濟。其他4個城市一般為沿海城市,對外貿易便利,而且這里有浙東兩條黃金旅游線(杭州—紹興—寧波—舟山;杭州—紹興—臺州),旅游業也很發達,因此經濟達到中等發達水平,而金華市跟多個市比鄰,所以跟其他市的經濟貿易也比較頻繁,經濟方面相對來說也是比較發達的。而衢州市,麗水市由于位于地理位置原因,基礎建設相對滯后,產業結構不夠合理,財政收入少,所以經濟會相對比較落后。
當然,以上分析結果僅是根據一年的經濟主要指標得出的結論,如果要想進行更準確合理的分析,還需要進一步結合其它的數據進行分析。
參考文獻:
[1]張堯庭方開泰:多元統計分析引論[M].北京:科學出版社,1982
[2]王學仁王松桂:實用多元統計分析[M].上海:上??茖W技術出版社,1990
[3]錢俊龍:概率論與應用統計[M].北京:中國統計出版社,1992
[4]何曉群:現代統計分析方法與應用[M].北京:中國人民大學出版社,1998
[5]于秀林任雪松:多元統計分析[M].北京:中國統計出版社,1999
[6]李雙杰顧六寶:用聚類分析法評估區域經濟[J].中國農村觀察,2001
[7]蘇金明:統計軟件SPSS系列應用實戰篇[M].北京:電子工業出版社,2002
[8]郝黎仁:SPSS實用統計分析[M].北京:中國水利水電出版社,2002
[9]吳明隆:SPSS統計應用實務[M].科學出版社,2003
[10]盧紋岱:SPSS for Windows統計分析[M].北京:電子工業出版社,2004
[11]何曉群:多元統計分析[M].北京:中國人民大學出版社,2004
[12]王學明:應用多元分析[M].上海: 上海財經大學出版社,2004
[13]浙江省統計局,2005浙江統計年鑒.中國統計出版社,2005