劉 干,陸 葉
(杭州電子科技大學 經(jīng)濟學院,浙江 杭州 310018)
近年來,我國經(jīng)濟快速發(fā)展,人們生活水平日益提高,與此同時,由于受各地區(qū)區(qū)位優(yōu)勢及資源稟賦等多方面因素的影響,區(qū)域經(jīng)濟差距也被進一步拉大,如何促進區(qū)域經(jīng)濟協(xié)調(diào)發(fā)展日益受到相關各方的重視。解決區(qū)域發(fā)展不平衡問題的前提是對區(qū)域按經(jīng)濟條件的差異進行合理的劃分。相關的研究文獻很多,但綜合來看,一方面,大多數(shù)研究主要從截面維度展開,這樣其聚類結(jié)果的隨機成分較多,因而可信度無法得到保證;另一方面,在聚類指標的選取上,多數(shù)學者只考慮了經(jīng)濟和社會層面的表現(xiàn),而忽視了環(huán)境因素,這顯然是不合適的。因此,本文首先從經(jīng)濟、社會及環(huán)境三方面篩選了若干指標,對地區(qū)經(jīng)濟進行更加全面的刻畫,再運用面板數(shù)據(jù)聚類的方法對地區(qū)經(jīng)濟進行合理劃分,并結(jié)合實際情況對聚類結(jié)果做出評價。
通常情況下,人們評價經(jīng)濟狀況好壞,主要從經(jīng)濟規(guī)模及增速兩個維度進行,隨著人們認識的提升,開始逐漸意識到,一個地區(qū)經(jīng)濟的好壞不僅僅反映在其經(jīng)濟層面,還應考慮社會及生態(tài),本文在綜合考慮這三個方面因素并結(jié)合前人研究成果的前提下,構(gòu)建了一套經(jīng)濟發(fā)展水平的評價指標體系(見表 1)。

表1 經(jīng)濟發(fā)展水平評價指標體系
從經(jīng)濟層面來看,一地區(qū)經(jīng)濟水平的高低主要反映在其經(jīng)濟規(guī)模、經(jīng)濟結(jié)構(gòu)、對外開放程度及經(jīng)濟效率等方面,因此本文分別從這四個角度選取了5個指標來衡量;從社會層面來看,社會的“文明”程度可以通過居民生活水平、社會結(jié)構(gòu)、科技及教育等方面來體現(xiàn);環(huán)境層面,本文選擇了各地區(qū)在“三廢”的處理及排放方面的三個指標來刻畫。
本文的數(shù)據(jù)選自我國31個省市2005—2015年的14個經(jīng)濟指標數(shù)據(jù)。為了使分析結(jié)果更合理,本文在指標計算中涉及價格因素的均以固定基期(2005)的實際值帶入。特別地,貿(mào)易開放程度指標計算中涉及的進出口總額按美元計價,因而在指標計算時以對應年份的平均匯率進行加權。另外,部分指標存在的缺失值,如15歲以上人口識字率2010年的指標值可直接采用線性插值法計算得到;而西藏的萬元GDP能耗指標缺失較多,不宜進行插補,因此,本文的聚類過程只包含其余的30個省市數(shù)據(jù),再依據(jù)其余10個指標數(shù)據(jù)將西藏判入距其最近的類別。本文所有的指標數(shù)據(jù)或計算數(shù)據(jù)均來源于《中國統(tǒng)計年鑒》、《中國能源統(tǒng)計年鑒》、《中國科技年鑒》、《國民經(jīng)濟和社會發(fā)展統(tǒng)計公報》及各地區(qū)年鑒。
在聚類分析之前,需要明確三件事,即聚類分析方法、最佳聚類數(shù)的確定方法和類的優(yōu)劣判別方法。關于這三者的研究文獻有很多,本文選用目前最流行的K-means聚類法進行聚類,選用CH法作為最佳聚類數(shù)的確定方法,然后以類平均綜合因子得分作為類優(yōu)劣排序標準,下面分別對這三種方法進行簡要介紹。
K-means聚類法又稱快速聚類法和動態(tài)聚類法[1]。其實現(xiàn)過程非常簡便,只需設定一個初始聚類數(shù),然后以隨機法產(chǎn)生K個數(shù)據(jù)點作為初始聚類中心,并依次將其余樣本點劃分到距其最近的聚類中心,計算每一類的指標均值作為下一次迭代的聚類中心,直到聚類中心不再發(fā)生變化或相鄰兩次聚類中心之間的距離小于給定的閾值時迭代停止。本文采用歐式距離作為類間相似性的度量標準,其公式如下:

其中,xi表示第i個樣本點矩陣,其維度為Q×T(Q表示聚類指標個數(shù),本文表示主因子個數(shù);T表示聚類周期的長度),vj表示第j個聚類中心矩陣,其維度與xi相同。||A||F表示矩陣A的Frobenius范數(shù),即矩陣A內(nèi)部所有元素平方和的平方根。
需要注意的是,K-means聚類法主要適用于超球形的類,因而當樣本數(shù)據(jù)分布不滿足該條件時,不宜直接進行K-means聚類;聚類分析中的距離函數(shù)一般都要求各指標維度相互獨立,因此本文在聚類之前對數(shù)據(jù)進行因子分析,并以主因子數(shù)據(jù)作為聚類基礎數(shù)據(jù)。
另外,由于K-means聚類的初始聚類中心通過隨機種子產(chǎn)生,這樣聚類結(jié)果便具有一定的隨機性,為了使每次的聚類結(jié)果盡可能接近最優(yōu),可以將每一聚類數(shù)下的K-means聚類重復進行若干次取最優(yōu)。對于聚類數(shù)相同的若干聚類結(jié)果,組內(nèi)誤差越小越好,因此,只需取組內(nèi)誤差平方和達到最小的聚類結(jié)果作為該分類數(shù)下的最優(yōu)聚類即可。
如果在聚類之前已經(jīng)掌握樣本的實際分類數(shù),那么最佳聚類數(shù)即為實際分類數(shù),但是通常情況下,聚類之前并無法確定研究對象的類別個數(shù),因而,需根據(jù)樣本數(shù)據(jù)的分布,確定最優(yōu)的聚類個數(shù)。關于最佳聚類數(shù)的確定方法主要分為圖示法和指標法,圖示法主要包括譜系圖法、聚合系數(shù)法和離差平方和法,通常取指標數(shù)值發(fā)生突變的節(jié)點對應的分類數(shù)作為最優(yōu)聚類數(shù);指標法即聚類有效性指標法,主要包括CH法、DB法、Sil法等,具體可參考文獻[2-4]。不同指標得出的最佳聚類數(shù)之間往往差別較大,但是,據(jù)[2][4]研究表明CH法的穩(wěn)定性最好,因此,本文主要采用CH法作為最佳聚類數(shù)判別法。CH指標的公式主要有兩種形式,通常采用第一種形式,如式(2)。

其中,N表示總樣本點個數(shù);K表示聚類數(shù),理論上,CH指標的K值可取2到N-1范圍內(nèi)任意整數(shù),但是通常情況下,聚類數(shù)范圍可根據(jù)對事物的認識確定或選擇研究者感興趣的區(qū)間,但一般不宜過大;xki表示第k類的第i個樣本點;|Ck|表示第k類的樣本點個數(shù);vˉ表示所有樣本點的均值矩陣。CH指標的另一種形式為[5]:

從CH和VRC的公式可以看出,兩者都是基于F統(tǒng)計量構(gòu)造的指標,即分子和分母分別表示組間和組內(nèi)的均方誤差。該方法的思想是,當聚類數(shù)小于最佳聚類數(shù)K*時,組內(nèi)誤差包含組間誤差成分,組內(nèi)均方偏大;當聚類數(shù)大于K*時,組間誤差包含組內(nèi)隨機誤差成分,組間均方偏小;只有當聚類數(shù)等于K*時,組間均方與組內(nèi)均方的比值達到最大。因此,這兩個指標對于呈球狀分布且存在明顯聚類輪廓的聚類對象,指標最大值對應的聚類數(shù)即為最佳聚類數(shù),當聚類指標的分布近似呈球狀且各類之間只存在少數(shù)樣品界限模糊時,指標也能較好的找到最佳聚類數(shù)點。
通常情況下,人們聚類的目的往往是對事物做出評價。對于聚類結(jié)果的評價通常是根據(jù)人們的期望來進行的,即對于同一聚類結(jié)果中的兩類,我們認為離我們期望更近的類更優(yōu)。例如,對于按經(jīng)濟發(fā)展水平聚得的不同地區(qū)的分類,我們認為經(jīng)濟發(fā)展水平高的類更優(yōu)。其實,聚類結(jié)果評價問題歸根結(jié)底還是對聚類對象的綜合評價。常用的綜合評價方法是對評價指標進行簡單加權平均,再依據(jù)加權平均值的大小對事物作出評價。關于評價指標權重的確定方法可參考文獻[6]。本文在聚類之前為了解決指標相關的問題對數(shù)據(jù)進行了因子分析,因此,對聚類結(jié)果的綜合評價可依據(jù)類平均因子綜合得分給出,第k類平均因子綜合得分的計算公式為:

其中,λ表示方差貢獻率列向量,e表示T維全1列向量。只需將zk進行排序,zk越大對應的類越優(yōu)。
依據(jù)式(2)、(3),對我國區(qū)域經(jīng)濟發(fā)展水平進行K-means聚類,得出聚類數(shù)在2~8區(qū)間內(nèi)CH指標的值如表2所示。

表2 不同聚類數(shù)條件下的CH統(tǒng)計值
由表2可得,在聚類數(shù)為2~5的區(qū)間內(nèi),CH值不斷增大,在聚類數(shù)為5處達到最大值,之后開始逐漸小幅下降。這說明我國區(qū)域經(jīng)濟發(fā)展水平存在5個比較明顯的等級,由于聚類樣本量較小,類內(nèi)樣本間較為分散,導致最值點后的CH指標降幅緩慢。其實,如果CH指標在K*之前快速上升,當達到K*之后的一小段數(shù)值趨于平穩(wěn),甚至出現(xiàn)小幅上升,根據(jù)奧卡姆剃刀原理仍可以將最佳聚類數(shù)設為K*。因此,根據(jù)CH指標法得出將我國區(qū)域經(jīng)濟發(fā)展水平劃分為5類最為合理。
對我國區(qū)域經(jīng)濟發(fā)展水平進行分類數(shù)為5的K-means聚類,并運用式(4)計算出各類平均因子綜合得分。考慮到西藏的萬元GDP能耗數(shù)據(jù)完全缺失,因此,聚類分析過程只對其余30個省市進行,為了分析的完整性,還需對西藏的歸類作出判別。本文選用以熵值法進行指標加權的最近鄰判別法將西藏判入距其最近的聚類中心。所有分析結(jié)果列于表3。

表3 我國區(qū)域經(jīng)濟發(fā)展水平聚類分析、判別分析及各類平均因子綜合得分
從表3中各類元素的分布來看,全國只有北京和上海兩個地區(qū)被劃分到經(jīng)濟水平高的類中,有超過75%的省市經(jīng)濟發(fā)展水平落入了中等及中等以下的類。從表中第二行類平均因子綜合得分數(shù)據(jù)來看,只有兩類的綜合得分值為正,且北京和上海的平均因子得分值遠遠領先于其余四類,第三類的綜合得分值接近于0,說明其經(jīng)濟發(fā)展水平處在全國平均水平;從綜合得分差值來看,經(jīng)濟發(fā)展水平最高的兩類的差值達到了0.86,而經(jīng)濟發(fā)展水平較低的三類的綜合得分差值分別為0.19和0.28,說明第一、二類的經(jīng)濟發(fā)展水平平均差距最為明顯,第三、四類的平均經(jīng)濟發(fā)展水平最為接近。結(jié)合一二兩列數(shù)據(jù)來看,我國區(qū)域經(jīng)濟發(fā)展水平呈現(xiàn)出了明顯的右偏分布,區(qū)域經(jīng)濟發(fā)展不平衡問題仍非常突出。從表的第三列可以得出,西藏距經(jīng)濟發(fā)展水平低的類最近,因此,將其判入該類別。為了更直觀的看出聚類的情況,運用ArcGIS10.5作出聚類結(jié)果分布圖如圖1所示。

圖1 我國區(qū)域經(jīng)濟發(fā)展水平分布圖
從圖中可以明顯看出,我國區(qū)域經(jīng)濟發(fā)展水平總體呈現(xiàn)“東高西低”的階梯狀分布趨勢。從局部來看,東、中部地帶除山西外經(jīng)濟發(fā)展水平均位于全國平均水平及以上,其中,以東部沿海城市的經(jīng)濟表現(xiàn)最為突出,西部地區(qū)仍然是我國經(jīng)濟建設的薄弱環(huán)節(jié),尤其是西南地區(qū),更是全國經(jīng)濟貧困人口的集中分布區(qū)域。該現(xiàn)象不僅印證了對外開放對于地區(qū)經(jīng)濟發(fā)展具有極大地促進作用,也反映出我國經(jīng)濟輻射作用主要由沿海城市向內(nèi)陸延伸。從西部地區(qū)的空間分布來看,青海和四川不僅處于地理中心位置,也是西部貧困區(qū)的核心區(qū)域;重慶、陜西和山西為中、西部銜接的重要地段。但從第一財經(jīng)最新公布的城市等級劃分結(jié)果來看,只有四川、重慶和陜西三省的省會城市經(jīng)濟發(fā)展水平相對較高,具備經(jīng)濟輻射點的經(jīng)濟條件。當前國家已將成都和重慶納入國家中心城市戰(zhàn)略規(guī)劃,而從長遠來看,青海、陜西和山西省對于西部地區(qū)的發(fā)展同樣具有不可忽視的作用,相比而言,這三省中青海的經(jīng)濟建設較為落后,但對于西部來說其地理位置是最重要的,如果能發(fā)揮出其經(jīng)濟輻射作用,對于整個西部經(jīng)濟的發(fā)展都具有巨大的作用。因此,當前階段國家在開展經(jīng)濟扶貧工作的同時,還應幫助這些關鍵省市找準經(jīng)濟增長點,培育一批新的經(jīng)濟中心城市。
本文首先從經(jīng)濟、社會和環(huán)境三個角度重新構(gòu)建了一套區(qū)域經(jīng)濟發(fā)展水平評價指標體系,并在此基礎上運用CH指標法得出將我國經(jīng)濟區(qū)域劃分為5類最為合適。然后運用K-means聚類法及類平均因子綜合得分法得出最優(yōu)分類結(jié)果及各類經(jīng)濟發(fā)展水平高低,根據(jù)最近鄰判別法將存在指標缺失的西藏判入低經(jīng)濟發(fā)展水平一類。最后根據(jù)聚類結(jié)果,得出我國區(qū)域經(jīng)濟發(fā)展水平整體呈現(xiàn)“東高西低”的格局;區(qū)域經(jīng)濟發(fā)展水平呈現(xiàn)出明顯的右偏分布特征;從地區(qū)分布來看,我國整體經(jīng)濟水平受西部影響較大,而解決發(fā)展不平衡問題和進行西部扶貧工作應以青海、四川、重慶、陜西和山西為重。
[1]王千,王成,馮振元,等.K-means聚類算法研究綜述[J].電子設計工程,2012,20(7):21-24.
[2]Milligan G W,Cooper M C.An examination of procedures for determining the number of clusters in a data set[J].Psychometrika,1985,50(2):159-179.
[3]周開樂,楊善林,丁帥,等.聚類有效性研究綜述[J].系統(tǒng)工程理論與實踐,2014,34(9):2417-2431.
[4]Arbelaitz O,Gurrutxaga I,Muguerza J,et al.An extensive comparative study of cluster validity indices[J].Pattern Recognition,2013,46(1):243-256.
[5]Caliński T,Harabasz J.A dendrite method for cluster analysis[J].Communications in Statistics,1974,3(1):1-27.
[6]楊宇,2006.多指標綜合評價中賦權方法評析[J].統(tǒng)計與決策(13):17-19.