肖 瑤
(安徽大學 經濟學院,安徽 合肥 230601)
?
基于聚類分析的中國31省市經濟發展現狀評析
肖瑤
(安徽大學 經濟學院,安徽 合肥 230601)
根據多元統計中的系統聚類法和K-均值法,將全國31個省市依照其經濟發展狀況大致分成4類,區分了經濟發達省市和偏遠落后省市,并在分類的基礎上對不同類別的省市作出大體的評價,這不僅有助于全國經濟的統籌發展,也有助于不同省市之間優勢互補、互相借鑒發展模式。
聚類分析;經濟發展;轉型
我國作為全世界最大的發展中國家,仍面臨著經濟發展不均衡、貧富差距明顯等問題。總體上來看,我國近幾年經濟發展速度放緩,GDP增速由2007年的14.16%逐步下降到2015年的6.9%。失業率上升、國際金融危機、體制改革等原因固然會影響全國的經濟運行,但分區域來看,有的省市產能過剩有的省市產能不足,有的省市勞動力短缺而有的省市勞動力過剩,這些原因并不能籠統而含糊地一帶而過,所以,將全國31個省市的經濟發展狀況劃分歸類成相應的類別,將有助于黨中央根據不同類別的經濟發展特點制定相應的發展政策,統籌規劃,取長補短,作出正確的決定。
在對我國31個省市的經濟發展狀況作出類別劃分的問題上,國內外學者對此還未做出過多研究。不過就現有資料表明,大多學者都運用聚類分析做出了簡要的分類。聚類分析是多元統計分析中如何對樣品或指標進行分類的一種統計方法,針對不同的統計科研問題可以運用不同的聚類分析方法,各類聚類分析方法在其特性、算法、可操作性上都有所不同。聚類分析的過程和方法在地區經濟發展評價方面具有一定的實用性,可以得出科學的分析結果,但王玻、李從東(2009)認為,聚類分析方法還存在一定的局限性,雖然聚類分析法來解決分析各學科方方面面的實際問題, 其定量分析的準確性能是毋庸置疑的, 但是初始指標的選擇往往也是影響最終結果的重要因素,很多人為控制因素對參數輸入、停機條件將有影響,當面對數據過于龐大,維度高度復雜的情況時,聚類分析不能給出一個很好的操作方法,從而無法保證得出高質量的聚類結果。[1]148-151所以,還有學者通過主成分分析、判別分析、因子分析等方法和聚類分析相互驗證,從而得出更可靠的分析結果。
從整體經濟規模、綜合經濟水平來看,我國31個省市一般認為可以被分為3到5類。梁國巍、王傳美、童恒慶(2003)運用分層聚類法將全國各省市綜合經濟水平分為3類。[2]他們的研究顯示,東部省市經濟發展明顯快于西部,尤其第一類別作為直轄市,經濟基礎好,人口密度大,人均受教育水平高,競爭力強,經濟發展居于較高水平。第二類省市善于利用自身優勢,沿海省市貿易發達,老工業地區實力雄厚,自然資源豐富地域旅游業水平高。第三類省市多為偏遠內陸或山區,農業為主,工業落后。王玻,李從東(2009)用譜系聚類法,采用歐式距離作為分類統計量。得出結論認為將全國31個省市按地區經濟規模劃分為4類最為合理。[1]148-151得出結論與前幾年的結果相比,近年來有些城市經濟規模穩步前進如西部省市云南、廣西等自治區的綜合經濟規模有明顯的改進。祝新亞、李許堅(2011)在對我國主要省市綜合實力評價指標進行選取時,經濟指標占了很大一部分,其根據聚類分析得出的2008 年各省綜合實力發展層次也可以作為本文按經濟發展分類的依據。[3]可以看出老牌工業區、沿海省市、內陸、中部地區分別對應著不同的經濟發展水平。
從影響經濟水平的各個變量看來,金相郁(2004)利用經濟變量和次聚類法和對中國區域進行劃分,層次聚類法的好處就是劃分過程不受其他因素的影響,只受選定變量的影響,所以他以國內生產總值年增長率為基準的區域聚類將全國分為3個類別,東部地區的一些省、市明顯地聚成為一類區域,而中西部地區的劃分并不明顯;按照人均GDP的聚類分析,將全國分為5大類,東部地區分成四個區域, 中西部地區聚成一個區域;按城鎮居民平均人均可支配收入和各省農村居民家庭平均人均純收入的聚類分析,將全國分為5大類,中西部地區的區別不明顯,并且,東部地區內部出現不同類型的區域。[4]陳愛娟、程雪(2010)按國際勞務競爭力,將全國31省市劃分為4類,沿海省市如上海、浙江、廣東經濟基礎雄厚,人力資源豐富,貿易口岸多,人口較為集中,對外貿易占有一定優勢為第一類。而第四類多為中部省份以及西部省份,這些省份深居內陸,自然條件導致經濟發展程度和國際貿易發展程度相對較低,中部省份以及西部省份相對來講國際勞務競爭力比較弱,東部省份和沿海省份國際勞務競爭力相對較強,各省市之間國際勞務競爭力差別巨大。[5]朱冰潔,李玉山(2012)按城鎮居民收入,將全國31省市劃分為4類,得出結論東部發展快于西部。
由于聚類分析的指標選取在很大程度上影響著分類的結果,所以前人的研究只能給我們的分析作為一種參考,并不能全盤接納。在制定發展政策時,不同省市對經濟發展的側重點各不相同,因此有必要在作出政策決策之前選取與經濟發展目標相符合的指標作為衡量標準,剔除與本省市經濟發展無關的變量,篩選出影響決策的主要變量,從而有針對性的制定出合理的發展政策。
全國31個省市之間經濟發展存在著不同程度的相似性,本文采用聚類分析法將31個省市進行分類,使得同一類中的對象之間的相似性比其他類中的對象相似性更強。聚類分析法的目的就是使類間對象的同質性最大化和類與類間的對象的異質性最大化。
不同的聚類分析方法所得出的結果也略有不同,為了保證研究的客觀性,我們采用兩種聚類分析方法以及進行驗證,分別是系統聚類法和K-均值法。
在系統聚類法中,我們先將N個樣品分成N類,然后計算N類之間的相互距離,把距離最近的兩類合并成一類,從而得到N-1類,再從N-1類中找出距離最近的兩類加以合并,從而得到N-2類,依次進行下去,最后,N類樣品均歸為一類,畫出聚類圖則可以決定分為多少類,每類各有哪些樣品。[6]43-44
K-均值法可以事先選定聚類個數,把每個樣品聚集到其最近均值的類中,在修改的過程中,重新計算接受新樣品的類和失去樣品的類的均值,直到各類無元素進出。[6]43-44
本文根據數據的可得性,并參考了以往文獻資料,從國家統計局網站和各省市2014年統計年報中選取了9個能夠表明各省市經濟運行總體情況的指標。分別為:年末常住人口、地區生產總值、消費品零售總額、公共財政預算收入、公共財政預算支出、人均可支配收入、全社會固定資產投資、居民人均消費支出、進出口總額。具體指標數據見表1。
雖然我們有9個指標的數據描述出了31個省市的經濟發展大體運行情況,但是否有必要將這9個指標都作為分類變量則需要進一步的篩選。先對這9個指標進行降維處理,9個分類變量量綱各自不同,先確定用相似性來測度,度量標準選用pearson系數,聚類方法選最遠元素,此時,由于涉及到相關,9個變量可不用標準化處理,將來的相似性矩陣里的數字為相關系數。如果有某兩個變量的相關系數接近1或-1,說明兩個變量可互相替代。
從表2指標相似性矩陣中我們可以看到,社會消費品零售總額、公共財政預算收入、公共財政預算支出與地區生產總值的相關系數都大于0.9,于是這4類沒有必要都作為聚類變量,選出其中一種即可,本文選擇地區生產總值。
由于各個指標的量綱不同,為了防止指標取值的分散程度較大,我們先對各取值做標準化處理。數據經過標準化處理后,再依次用不同聚類方法進行聚類分析。對于分類數的抉擇,根據經驗資料以及文獻整理,我國31個省市一般認為可以被分為3到5類,本文中認為劃分為4類較為合理。分析結果見表3。

表1 全國31個省市各指標數據

表2 各指標相似性矩陣

表3 聚類分析結果
在組內聚類法中,由于第四類中包含浙江省同時還包含了新疆、西藏、內蒙古等省,它們明顯不能歸為一類,則用組內聚類法不合理。在最短距離法中,最短距離法有鏈接聚合的趨勢,大部分樣品都被聚集在一類中,導致這樣的聚類效果并不好,并且第四類中,天津、浙江等省明顯不該和新疆、西藏等省歸為一類,則用最短距離法不合理。最長距離法和ward法得到了相同的分類結果,但第三類中,內蒙古和浙江、天津市明顯不該歸為一類,則用這兩種方法并不合理。重心法和組間聚類法得到了相同的分類結果,但第四類中天津和內蒙古、寧夏等省市明顯不能歸為一類,則用這兩種方法并不合理。在K-均值法中,第一類為經濟發達省市,人均消費支出均處于全國領先水平,第二類省份外貿經濟發達,人均消費水平較高,第三類多為平原地區,經濟基礎薄弱,但勞動力資源豐富。第四類地區多為偏遠省市,經濟基礎水平受到地理條件限制,社會經濟資源匱乏,尤其是人力資源缺乏,這構成了其經濟發展的瓶頸。以此看來采用K-均值法將全國31個省市分成相應4類較為合理。
第一類北京、天津、上海、浙江人均消費支出均在22000元以上,是全國貿易中心城市,北京作為首都,政治、經濟實力雄厚,上海對外貿易發達,交通便利,跨國公司和國際商貿組織大多坐落在此,天津和浙江作為沿海城市,地理位置優越,人口密度大,勞動力受教育水平高。
第二類江蘇和廣東,在改革開放之后,江蘇和廣東發展迅速,隨著對外開放步伐的加快,2014年江蘇和廣東的進出口總額已分別達5637.6和10767.34億美元,在全國31個省市中遙遙領先。但是對比第一類省市,廣東發展起步晚,經濟實力沒有第一類城市雄厚。
第三類河北、遼寧、安徽、山東、河南、湖北、湖南、四川,勞動力資源豐富,但勞動力整體教育水平不高,教育投資較少,并且勞動力大多流向第一、第二類省市。經濟增長主要依靠內需拉動,由于地理位置的原因,外貿水平偏低,多以第一產業、第二產業為主。這類省市若想提高經濟發展水平,需要得到國家政策的支持,發揮人力資源優勢,加大教育投資力度,努力發展服務業,加快經濟轉型。
第四類山西、內蒙古、吉林、黑龍江、福建、江西、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆,這些省市地理位置偏遠,物資匱乏,經濟發展在一定程度上還依賴于第一產業,但另一方面,這些省市自然資源豐富,應大力發展旅游業,發揮本省優勢,國家也應對這些省份給予政策扶持。
總的看來,不論是系統聚類還是K-均值法我們都可以看出北京、上海這兩個特大型城市均居于全國領先水平,它們分別是我國政治、經濟中心,是中國規模最大、綜合實力最強的兩個城市,屬于經濟發達地區,分別已經完成工業化而進入后工業化時期。沿海省市經濟較為發達,在經濟全球化的今天,外貿出口在很大程度上影響著一個省市的經濟發展水平,這些省份充分利用發達國家和地區調整產業結構、轉移勞動密集型產業的機遇,積極吸引外資,大力發展外向型經濟。而中部地區和老工業地區省份經濟發展則較為落后,它們主要依靠內需拉動經濟增長,對外貿依存度不高,并且由于受經濟基礎、自然條件等方面的制約,老工業基地以資源消耗、環境污染為代價的粗放型經濟增長模式已嚴重威脅其可持續發展。這些地區與率先改革開放的東部沿海地區相比,經濟發展有相當的差距。大部分內陸偏遠省份,由于地區開放程度較低,吸收外部資金及技術、人才等促進經濟發展因素能力較弱,導致近年來經濟增長緩慢。
[1]王玻,李從東.地區經濟規模評價的多元統計分析及其適用性比較[J].經濟與管理,2009(2).
[2]梁國巍,王傳美.多元統計方法在分析各地區綜合經濟水平中的應用[J]. 中南民族大學學報(自然科學版),2003(9)68-70.
[3]祝新亞,李許堅.基于聚類分析和判別分析的我國主要省市綜合實力狀況評價[J].北方經濟,2011(4)16-18.
[4]金相郁.中國區域劃分的層次聚類分析[J].城市規劃匯刊,2004(2)23-28.
[5]陳愛娟,程雪.我國各省市國際勞務競爭力聚類分析[R]. Proceedings of 2010 International Conference on Management Science and Engineering (MSE 2010) (Volume 4):161-164.
[6]何曉群.多元統計分析[M].北京:中國人民大學出版社,2012.
責任編輯周覓
F061.3
A
1003-8078(2016)05-0019-05
2016-04-07doi:10.3969/j.issn.1003-8078.2016.05.06
肖瑤(1991-),女,安徽安慶人,安徽大學經濟學院2014級碩士研究生。