周建新,付傳秀
(1.皖西學院 應用文科實訓中心; 2.皖西學院 金融與數學學院, 安徽 六安 237012)
GPCA和遺傳算法聚類分析在中國區域經濟綜合評價中的應用
周建新1,付傳秀2
(1.皖西學院 應用文科實訓中心; 2.皖西學院 金融與數學學院, 安徽 六安 237012)
本文結合全局主成分分析(GPCA)和遺傳算法聚類分析,對中國 31 個地區的經濟發展水平進行綜合評價.首先借助 GPCA 獲得經濟水平全局主成分分值,對區域經濟發展進行縱向、橫向分析;然后在GPCA 基礎上,對區域經濟發展水平做非線性映射的遺傳算法聚類分析.仿真表明,綜合評價結果與客觀實際吻合度較高.
區域經濟;全局主成分分析;非線性映射;遺傳算法聚類分析
改革開放以來,中國經濟迅猛發展,綜合國力明顯提高.同時,區域經濟間的發展差距問題隨之顯現.按照科學發展觀的要求,統籌區域經濟協調發展成為現代化建設中的一個重大戰略問題.正確評價中國各地區的經濟發展水平,可以為區域經濟均衡發展提供理論指導.
區域經濟的發展是一個動態過程,對其評價應考慮時間因素.全局主成分分析(GPCA)在傳統主成分分析方法的基礎上,融入了時間序列的思想,適合從縱向、橫向兩方面評價中國各地區的經濟發展水平.非線性映射的遺傳算法聚類分析,是通過智能計算將眾多的評價指標數據映射到二維空間,進行聚類分析,聚類結果的顯示更為直觀.
本文利用 GPCA和遺傳算法聚類分析,對中國31個地區連續兩年的經濟發展水平進行綜合評價,得到一些有意義的結論,可以為區域經濟、社會的統籌發展提供決策參考.
1.1 區域經濟綜合評價指標體系
區域經濟的發展受政治、經濟、文化、社會諸多因素影響,是一個復雜系統.對其客觀評價,需要合理構建評價指標體系.

表1 區域經濟發展水平評價指標體系
本文從經濟規模、經濟結構、經濟創新及可持續發展能力、社會發展水平等方面綜合衡量,選取反映區域經濟發展水平的 20項評價指標,建立指標體系如表1:
1.2 全局主成分分析(GPCA)
經典主成分分析,是在樣本評價指標組成的數據表基礎上進行分析,無法實現不同時點樣本的評價對比.全局主成分分析,是融入了時間序列思想的主成分分析方法,它首先將不同時點的若干數據表按時間順序整合,得到一個全局數據表,然后進行經典主成分分析.
區域經濟的發展一般以年為時間跨度加以評價分析,評價指標間具有數據相關性.通過 GPCA進行降維處理,保證了區域經濟系統分析的整體性、統一性和可比性.
根據區域經濟發展水平的評價指標 A1,A2,…,A20,選取中國 31個地區連續 2年的數據,整合為全局數據表,利用 Matlab7.0軟件的 princomp函數進行全局主成分分析.
2.1 非線性映射
非線性映射分析是 Sammon于 1969年提出的一種幾何降維數學方法,是通過非線性變換,用少數幾個綜合變量最大限度地表達高維變量,將高維空間問題轉化為直觀的低維空間問題.

非線性映射由高維變換到低維的約束條件,即誤差函數為:分別為高維空間和低維空間中樣本點 i、j之間的歐氏距離.
2.2 基于遺傳算法工具箱的聚類分析
遺傳算法是借鑒生物界中自然選擇原理、自然遺傳機制的一種全局尋優算法,其實質是通過群體搜索技術,根據適者生存的原則逐代進化,最終得到最優解或準最優解.其構成要素:染色體編碼,個體適應度評價,遺傳算子(選擇、交叉、變異),運行參數設置.
Matlab7.0軟件的遺傳算法與直接搜索(Genetic Algorithm and Direct Search)工具箱可以優化目標函數.利用遺傳算法工具箱對非線性映射的誤差函數做最小化處理,找到合適的二維數據結構,完成高維數據到二維數據的非線性映射,實現樣本的聚類分析.
3.1 選取中國 31個地區連續 2年的數據,進行GPCA
根據區域經濟發展水平評價指標體系,選取中國 31個地區在 2010年和 2011年的 31×2×20個數據,整合為全局數據表.經 GPCA可知,前 4個主成分的累積貢獻率達到 85%,故選擇 4個主成分作為綜合指標,代替原有的 20個指標.2010、2011年地區經濟發展水平綜合得分及排序如表2:

表 2 2010、2011年地區經濟發展水平綜合得分及排序
經驗證,GPCA綜合得分及排序與中國各地區經濟發展水平基本相符,表明區域經濟水平的評價指標體系構建合理.
由表 2縱向、橫向比較可知,中國經濟在 2010年和 2011年發展平穩,東部、東北、中部、西部各區域經濟發展均衡.經濟發展的整體格局穩健,其中,東部發展較迅速,中部尤其是安徽崛起顯著.
3.2 利用遺傳算法工具箱,進行 2011年中國各地區經濟發展水平的聚類分析
將 2011年的主成分分值作為樣本數據,在Matlab7.0中調用遺傳算法工具箱,完成高維數據到二維數據的非線性映射,實現樣本的聚類分析.
選取一次的仿真結果并分析如下:
當遺傳算法停止,種群進化完畢,得到如圖 1所示的最優個體適應度函數值變化曲線及最優個體.最優個體對應的適應度函數值為 0.0137878,比較接近 0,說明遺傳算法較好地找到了非線性映射時誤差函數的解.
根據最優個體的值,得到高維數據映射到二維空間的結果如圖 2(標號對應的地區見表 2),從圖中可看出各樣本的聚類情況.2011年我國 31個地區的經濟發展水平大致可分為 4類,分別為:A類(經濟發達地區):北京、上海;B類(經濟較發達地區):天津、浙江、廣東、江蘇、福建、遼寧、山東、內蒙古;C類(經濟中等發達地區):重慶、海南、吉林、湖北、河北、陜西、黑龍江、山西、湖南、寧夏、江西、安徽、四川、河南、新疆、廣西;D類(經濟欠發達地區):青海、云南、西藏、甘肅、貴州.其中,北京、上海的經濟發展水平明顯高于其它地區;廣東、浙江、江蘇、天津的經濟發展水平也較高.
由 GPCA和遺傳算法聚類分析的結果,可以得出以下結論:
(1)將 GPCA和非線性映射的遺傳算法聚類分析相結合,可以為區域經濟評價提供了一種新的思路和方法.GPCA可根據綜合分值對區域經濟發展水平進行縱向、橫向比較;非線性映射的遺傳算法聚類分析,實現了在二維平面中直觀地看到高維樣本點的近似圖像,避免了其它聚類法的人為選擇因素.
(2)GPCA得分值與遺傳算法聚類分析的結果基本吻合,實現了定量與定性的統一,結果較為理想.從 GPCA的結果來看,中國各地區經濟在 2010年和 2011年期間整體發展平穩;從遺傳算法聚類分析的結果來看,中國各地區經濟發展的差距較大,特別是東西部間差距明顯,統籌區域經濟協調發展的任務十分緊迫.
本文結合 GPCA和遺傳算法聚類分析,對中國地區發展水平進行綜合評價.首先借助 GPCA獲得經濟水平全局主成分分值,對區域經濟發展進行縱向、橫向分析;然后在 GPCA的基礎上,對區域經濟發展水平做非線性映射的遺傳算法聚類分析.仿真顯示,綜合評價結果與客觀實際吻合度較高,表明GPCA和遺傳算法聚類分析相結合的綜合評價方法,在中國區域經濟評價中的應用是合理有效的.

圖1 遺傳算法中最優個體適應度函數值變化曲線及最優個體

圖 2 2011年中國區域經濟發展水平二維空間映射結果
〔1〕高洪深.區域經濟學(第三版)[M].北京:中國人民大學出版社,2010.7-21.
〔2〕何曉群.多元統計分析(第三版)[M].北京:中國人民大學出版社,2012.114-128.
〔3〕張建平.基于主成分分析的區域經濟發展水平的綜合評價[J].農業與技術,2007(6):125-128.
〔4〕耿海清,陳帆,詹存衛等.基于全局主成分分析的我國省級行政區城市化水平綜合評價[J].人文地理,2009(5):47-51.
〔5〕陸仁強,張宏偉,牛志廣等.基于非線性映射理論的城市供水管網壓力監測點布置方法研究[J].水利學報,2010(1):25-29.
〔6〕雷英杰,張善文,李續武等.MATLAB 遺傳 算法工具箱及應用[M].西安:西安電子科技大學出版社,2006.
〔7〕韓瑞鋒.遺傳算法原理與應用實例[M].北京:兵器工業出版社,2009.25-36.
F224;O29
A
1673-260X(2014)08-0107-03
基金支持:六安市定向委托皖西學院市級研究項目(2012LW 020);安徽高校省級科學研究項目(KJ2013B332)