加權主成分距離聚類分析法及其應用

2018-09-04 07:51:42呂巖威樓賢駿

統計與決策 2018年15期

呂巖威，樓賢駿，李平

（1.山東大學（威海）商學院，山東威海 264209；2.中國社會科學院數量經濟與技術經濟研究所，北京100732）

0 引言

作為數據挖掘領域的重要分支，聚類分析技術近年來正得到蓬勃發展。聚類分析是通過數學方法研究樣本數據在內在特征上的相似性與差異性，將樣本劃分成若干個不同的類型，從而發現樣本數據的分布規律和數據屬性之間相互關系的多元統計方法。作為一種無監督學習方法，如何在沒有任何先驗信息的指導下，實現高效率、高質量分類是學者們關注的重點。目前學術界已從不同角度提出了多種聚類分析方法，在眾多聚類分析方法中，傳統聚類分析方法假設條件較多，要求樣本指標之間權重相同并且相互獨立，在實際應用中存在諸多局限。于是許多學者關注于對傳統聚類分析方法的改進研究。呂巖威和李平（2016）提出了加權主成分距離聚類分析法[1]，從理論層面解決了上述聚類分析方法存在的問題，但尚未將該方法應用于實踐檢驗。有鑒于此，本文擬進一步運用該方法對2014年中國各省份經濟發展質量進行分類，從可解釋性與統計檢驗兩個層面檢驗該方法在實踐應用中的分類效果，最后以該方法所得分類結果為基準，對各類別省份經濟發展質量進行主成分評價，指出其發展的側重點，為各地區經濟發展提供參考和借鑒。

1 指標體系構建與主成分因子選取

1.1 指標體系構建

對經濟發展質量的評估是一個動態過程，唯有以經濟發展的階段性特征為基礎，選擇科學的評價指標和評價方法，才能有針對性地對我國各省份經濟發展質量進行科學評價。當前，中國經濟發展正步入以“中高速、優結構、新動力、多挑戰”為特征的新常態，結合經濟新常態的基本特征，分別從經濟水平、產業結構、需求結構、城鄉區域結構、創新效率、可持續發展六大方面著手，構建中國各省份經濟發展質量評價指標體系①指標體系中各二級指標數據均來源于2015年《中國統計年鑒》、《中國科技統計年鑒》和《中國環境統計年鑒》。，指標體系中的一級指標和二級指標如表1所示。

表1 中國各省份經濟發展質量評價指標體系

對表1中各級指標的具體說明如下：

（1）經濟水平：采用人均GDP指標衡量。人均GDP是衡量一國（地區）經濟水平的基本指標，人均GDP處于不同階段的地區，其經濟發展驅動力也有顯著差異。

（2）產業結構：根據佩蒂—克拉克定律，隨著經濟的發展，勞動力將呈現首先由第一產業向第二產業轉移，再向第三產業轉移的演進趨勢。因此以第一產業增加值占GDP比重、第三產業增加值占GDP比重反映產業結構指標。

（3）需求結構：當前中國經濟結構存在的一個重要問題就是消費需求不足，經濟增長過于依賴投資需求。因此以居民消費占GDP的比重反映需求結構的協調狀況。

（4）城鄉區域結構：城鄉區域協調發展是實現經濟發展方式轉變的內在要求和重要內容，因此以農村與城鎮人均收入比和城市化率反映各地區城鄉區域結構。

（5）創新效率：促進經濟發展應由主要依靠增加物質資源消耗向主要依靠科技進步、勞動者素質提高、管理創新轉變。因此以R&D經費投入占GDP比重、單位資本產出與千人專利申請量反映科技投入與產出狀況。

（6）可持續發展：實現可持續發展必須降低物質、資源消耗，全面促進資源節約和環境保護。因此以單位二氧化硫排放產值、萬元GDP能耗降低率反映可持續發展指標。

1.2 主成分因子選取

考慮到指標之間量綱不同且數量級相差較大，首先對原始數據進行標準化處理，并進行KMO檢驗和BARTLETT檢驗，計算出BARTLETT檢驗統計量為282.449，相應的概率值接近0，可認為相關系數矩陣與單位矩陣有顯著差異。同時，KMO值為0.701，表明指標之間確實存在高度相關性，適合進行主成分分析。應用主成分分析法提取主成分因子，特征值大于1的主成分因子共有3個，其累計的方差貢獻率達到80.356%，說明3個主成分因子能夠解釋原指標變量的絕大多數信息。所提取主成分因子的特征值、方差貢獻率和因子載荷矩陣見表2。

表2 主成分因子分析結果

表2結果顯示，第一主成分因子在人均GDP、第一產業增加值占GDP比重、第三產業增加值占GDP比重、城市化率、農村與城鎮人均收入比、R&D經費投入占GDP比重、單位資本產出、千人專利申請量8個指標上的荷載值都很大，這些指標主要反映了經濟水平、產業結構、城鄉區域結構和創新效率狀況，因此將其命名為綜合因子。第二主成分因子在單位二氧化硫排放產值、萬元GDP能耗降低率上的荷載值很大，主要反映了資源節約與環境保護狀況，因此將其命名為可持續發展因子。第三主成分因子在居民消費占GDP比重指標上的荷載值很大，主要反映了消費狀況，因此將其命名為需求結構因子。就3個主成分因子所含信息量來看，第一主成分因子的方差貢獻率為51.892%，是第二、三主成分因子方差貢獻率的3倍以上，說明第一主成分因子與第二、三主成分因子對分類重要性的差異較大，如果不考慮各主成分因子對分類重要性的客觀差異，將會導致分類結果精度降低。

2 分類結果的定性比較與統計檢驗

2.1 分類結果的定性比較

為增強不同聚類分析方法之間的可對比性，統一以歐氏距離作為樣本間相似程度的統計量、以Ward方法測度類間距離，并將31個省份分為5類地區，各聚類分析方法所得分類結果如表3所示。分類結果顯示，各聚類分析方法基本均能夠將北京、上海、天津、江蘇、浙江、廣東與其他省份分開，其原因在于上述六省市的各項指標數值總體上均遠遠領先于其他省份，與其他省份之間的界限較為明顯。另一方面，各聚類分析方法基本均將海南、西藏、青海、新疆歸為第五類地區，說明這些省份的各項指標數值總體上落后于其他省份，與其他省份之間的差距較大。而其余21個省份的各項指標數值離散程度較小，在聚類空間的分布密集，各聚類分析方法的分類結果也存在較大的差異，具體體現在歸屬第三類地區的省份數量很多，且歸屬類別的規律性不明顯。

從各聚類分析方法分類結果的差異看，第一主成分聚類分析方法與加權主成分聚類分析方法的分類結果十分相似，兩種方法只是在對山東、河南和寧夏3個省份的分類上產生差別。即在第一主成分聚類分析方法的分類結果中，山東被劃為第三類地區，河南和寧夏被歸為第五類地區，但在加權主成分聚類分析方法的分類結果中，山東被劃為第四類地區，河南和寧夏被歸為第三類地區，兩種方法對其余省份的分類結果完全一致。究其原因在于加權主成分聚類分析方法放大了第一主成分因子對分類的重要性，而削弱了其他主成分因子對分類的作用，從而使得加權主成分聚類分析方法的分類結果近似于第一主成分聚類分析方法。

表3 中國各省份經濟發展質量的分類結果

另一方面，加權主成分距離聚類分析方法與傳統聚類分析方法的分類結果較為相似，加權主成分距離聚類分析方法只是將傳統聚類分析方法分類結果中的廣西和青海由第三類地區分別歸類到第四類地區和第五類地區，兩種方法對其余省份的分類結果完全一致。這說明加權主成分距離聚類分析方法科學、準確地賦予了各主成分因子對分類結果的權重分配系數，從而使得其分類結果顯著不同于其他主成分聚類分析方法，反而與傳統聚類分析方法的分類結果更為接近。這也說明了由于其他主成分聚類分析方法放大或縮小了各主成分因子對分類重要性的作用，在各主成分因子特征權重差異較大時，傳統聚類分析方法的分類效果并不一定劣于其他主成分聚類分析方法。

尤需引起注意的是，一般主成分聚類分析方法的分類結果與其他所有聚類分析方法的分類結果均有較大差異。一是，一般主成分聚類分析方法將北京、上海、江蘇、浙江、廣東歸為第一類地區，將天津、河北等8個省份歸為第二類地區。而其他聚類分析方法則均將北京、上海與天津、江蘇、浙江、廣東區分開，分別作為第一、二類地區。結合原始數據不難發現，除農村人均收入/城鎮人均收入、R&D經費投入占GDP比重指標外，北京、上海的其他指標基本都領先于天津、江蘇、浙江和廣東，將這些省份劃歸為一類地區不盡合理。二是，一般主成分聚類分析方法所劃分的第二、三類地區內的各省份絕大部分為其他聚類分析方法所劃分的第三類地區內的省份，這些省份之間的各項指標數值相差不大，將其劃分為兩類地區難以解釋。導致上述分類結果出現的原因在于，一般主成分聚類分析方法以等權的主成分因子代替原始指標直接進行聚類，未區分各主成分因子對分類重要性的差異，從而產生了明顯不合理的分類結果。

2.2 分類結果的統計檢驗

進一步對加權主成分距離聚類分析方法的分類結果進行統計檢驗，從定量角度考察該方法的分類質量。根據系統聚類法的指導思想，一個合理的聚類應當以保持類內相似性最大化以及類間相似性最小化為目標，使得類內樣本之間的離差平方和盡可能小，類與類之間的離差平方和盡可能大。因此，本文運用方差分析法測算了加權主成分距離聚類分析方法分類結果的總類內離差平方和、總類間離差平方和和F檢驗統計量，進而與其他聚類分析方法分類結果的F檢驗統計量相比較，結果如表4所示。

表4 各種聚類分析方法分類結果的統計檢驗

F檢驗統計量為經自由度調整之后的總類間離差平方和與總類內離差平方和之比，其值越大，表明分類結果的類間距離相對較大、類內距離相對較小，分類準確度越高；反之，則分類準確度越低。根據表4中F檢驗統計量的計算結果，可以得出以下結論：

（1）一般主成分聚類分析方法分類結果的F值最低，僅為46.825，分類效果明顯劣于其他聚類分析方法。這再次說明在各主成分因子信息含量相差較大的情況下，如果忽略不同主成分因子對分類重要性的客觀差異，以等權的主成分因子代替原始指標直接進行聚類，并不必然提高分類的質量。事實上，由于指標之間往往存在高度相關性，所提取的第一主成分因子的方差貢獻率通常會遠大于其他主成分因子，因而一般主成分聚類分析方法更多地表現為低效率的分類結果。

（2）加權主成分聚類分析方法和第一主成分聚類分析方法分類結果的F值分別為52.022和48.179，高于一般主成分聚類分析方法分類結果的F值46.825，但卻低于傳統聚類分析方法分類結果的F值（58.589）。這一方面說明加權主成分聚類分析方法考慮了各主成分因子信息含量的差異性，較已有主成分聚類分析方法的分類效果有所提高。另一方面也說明加權主成分聚類分析方法放大了第一主成分因子對分類的重要性，而削弱了其他主成分因子對分類的作用，其分類結果同樣也存在失真問題，因此該方法的分類結果也并不一定優于傳統聚類分析方法。

（3）相比其他聚類分析方法，加權主成分距離聚類分析方法分類結果的F值最高，為60.887，其分類效果明顯優于其他聚類分析方法。這主要是由于加權主成分距離聚類分析方法一方面簡化了數據結構，消除了指標相關性帶來的影響，另一方面又考慮了各主成分因子信息含量的差異，并科學、準確地賦予了各主成分因子對分類結果的權重分配系數，因此其所得分類結果更為客觀、可信。

2.3 分類結果的綜合評價

鑒于加權主成分距離聚類分析方法的優勢，以此方法所得分類結果為基準，對中國各省份經濟發展質量進行主成分綜合評價。為便于分析，這里將這五類地區劃分為三個梯隊：第一梯隊包括第一類地區和第二類地區的省份；第二梯隊包括第三類地區的省份；第三梯隊包括第四類地區和第五類地區的省份。從而計算出各梯隊主成分因子得分均值和主成分綜合得分均值，結果如表5所示。

表5 中國各省份經濟發展質量的主成分得分結果

結合表5結果，分別從各主成分因子得分和主成分綜合得分兩個方面分析不同梯隊省份經濟發展質量的特征和異同，并指出其發展的側重點。

2.3.1 主成分因子得分分析

在綜合因子方面，第一、二、三梯隊的省份得分均值分別為4.253、-0.435、-2.264，第一梯隊的得分遠高于第二梯隊和第三梯隊。這反映了第一梯隊的省份市場經濟起步較早，在經濟水平、產業結構、城鄉結構和創新效率等方面均保持了較高的水平。同時由第一梯隊的省份以點帶面輻射，由北向南依次形成了以北京為中心的首都經濟圈、以上海為中心的長三角經濟圈及以廣東為中心的珠三角經濟圈。另一方面，從梯隊內各省份的差異性來看，第一梯隊綜合因子得分的標準差為1.312，高于第二梯隊的0.656和第三梯隊的0.325，說明第一梯隊內各省份離散程度較大，這是由于北京和上海的綜合因子分值遠高于天津、江蘇、浙江、廣東，這兩個省市的綜合經濟水平更為突出。

在可持續因子方面，第一、二、三梯隊的省份得分均值分別為0.178、-0.407、0.731，第三梯隊得分遠高于其他梯隊，表面上呈現出最好的資源利用和環境保護狀況。但結合現實不難發現，導致該結果產生的原因在于第三梯隊的省份經濟發展落后，資源開發不充分，從而使得其在可持續發展方面較為突出。另一方面，從梯隊內各省份的差異性來看，第三梯隊的標準差為1.724，高于第一梯隊的1.460和第二梯隊的0.541，說明第三梯隊內各省份離散程度較大，這是由于第三梯隊內的新疆、西藏和海南可持續因子分值遠高于其他省份，具有最好的資源開發潛力和自然環境條件。

在需求結構因子方面，第三梯隊得分（0.743）同樣遠遠高于第一梯隊得分（0.195）和第二梯隊得分（-0.419）。這一結果符合蔡躍洲和王玉霞（2010）對我國消費率演進的判斷[2]，也同錢納里（Chenery,1975）關于消費率與經濟增長關系的測算結論一致[3]。即隨著經濟由較低水平向較高水平階段演進，消費率將呈現先下降后上升的U型趨勢。另一方面，從梯隊內各省份的差異性來看，第一梯隊的標準差為1.749，高于第二梯隊的0.724和第三梯隊的1.132，說明第一梯隊內各省份離散程度較大，這是由于北京和上海的需求結構分值遠高于天津、江蘇、浙江、廣東，是典型的消費拉動型省市。

2.3.2 主成分綜合得分分析

就主成分綜合得分和梯隊分布而言，第一梯隊的省份普遍位于東部沿海發達地區，主成分綜合得分均值為2.813，遠高于第二梯隊和第三梯隊省份的主成分綜合得分均值，經濟發展質量整體較好。結合各主成分因子得分發現，這主要是由于第一梯隊的省份綜合因子得分很高，而可持續發展因子得分則相對較低。故第一梯隊的省份應摒棄粗放型經濟發展方式，切實當好加快轉變經濟發展方式的排頭兵，提供本地區發展經驗供其他省份借鑒，發揮本地區對其他省份的輻射帶動作用。

而第二梯隊的省份大多位于我國東北地區和中部內陸地區，其主成分綜合得分均值為-0.429，經濟發展質量相對一般。結合各主成分因子得分發現，這主要是由于第二梯隊的省份在綜合因子得分不高，且在可持續發展因子得分和需求結構因子得分很低。故第二梯隊的省份一方面應根據該地區居民消費特征制定消費政策，提高居民的邊際消費傾向，另一方面還應增強可持續發展意識，推行綠色改革，提高可持續發展能力。

第三梯隊的省份則全部位于我國西部地區，主成分綜合得分均值為-1.2，與其他梯隊綜合得分均值存在較大差距，經濟發展質量相對較差。結合各主成分因子得分發現，其主要原因是第三梯隊的省份綜合因子得分很低，在經濟水平、產業結構、城鄉區域結構和創新效率方面較為落后。故第三梯隊的省份應“提升存量，做優增量”，在保持經濟快速增長的同時，提高經濟增長的質量和效益。

3 結論

指標之間的相關性及其重要性差異導致了已有聚類分析方法往往無法獲得良好的分類效果。加權主成分距離聚類分析方法系統集成了多個方法的優點，既簡化了數據結構，消除了指標相關性帶來的影響，又考慮了各主成分因子信息含量的差異，科學、準確地賦予了各主成分對分類結果的權重分配系數，因而能夠有效解決已有聚類分析方法在特定情形下的失效問題。本文運用加權主成分距離聚類分析方法對中國各省份的經濟發展質量進行分類，從可解釋性與統計檢驗兩個層面檢驗該方法在實踐應用中的分類效果。研究結論表明，與已有聚類分析方法相比，加權主成分距離聚類分析法的分類結果可解釋性最強，F檢驗值最高，分類效果明顯優于其他聚類分析方法。

進一步以該方法所得分類結果為基準，對各類別省份經濟發展質量進行主成分評價，評價結果表明，北京、上海、天津、江蘇、浙江、廣東被劃歸為第一梯隊，應摒棄粗放型經濟發展方式，切實當好加快轉變經濟發展方式的排頭兵；廣西、貴州、云南、甘肅、海南、西藏、青海、新疆被劃歸為第三梯隊，應“提升存量，做優增量”，在保持經濟快速增長的同時，提高經濟增長的質量和效益。其余省份被劃歸為第二梯隊，應提高居民的邊際消費傾向及增強可持續發展能力。