【摘要】探討對應分析方法在市政建設特征分析中的應用,以及運用對應分析時應注意的幾個問題。用對應分析方法對全國全國31個省市的市政基礎設施建設狀況情況進行分析。從對應分析的因子負荷圖中可以看出城市建設水平和地區的經濟發展水平具有一定的對應關系。
【關鍵詞】對應分析 市政建設 方法特征
市政基礎設施建設是城市賴以生存和發展的根本,是實現城市功能定位和提高城市綜合競爭力的重要基礎。城市基礎設施的建設和完善程度決定了一個城市的現代化水平,進而影響到這個城市的影響力和競爭力等各個方面。研究國內城市發展和建設水平,可以發現城市建設水平和地區的經濟發展水平具有一定的對應關系,而且,處在不同經濟發展階段的地區,其城市基礎設施建設的重點也有所不同。通過評價城市基礎設施的建設水平,可以有針對性地提出今后進一步建設的建議。
一、對應分析的主要特點
對應分析又稱為相應分析,也稱R—Q分析,是在因子分子基礎發展起來的一種多元統計分析方法。它主要通過分析定性變量構成的列聯表來揭示變量之間的關系。在因子分析中人們通常只是分析原始變量的因子結構,找出決定原始變量的公共因子,從而使問題的分析簡化和清晰。這種研究對象是變量的因子分析稱為R型因子分析。但是對于有些問題來說,我們還需要研究樣品的結構,若對于樣品進行因子分析,稱為Q型因子分析。當我們對同一觀測數據施加R和Q型因子分析,并分別保留兩個公共因子,則是對應分析的初步。對應分析的基本思想是將一個聯列表的行和列中各元素的比例結構以點的形式在較低維的空間中表示出來。它最大特點是能把眾多的樣品和眾多的變量同時做到同一張圖解上,將樣品的大類及其屬性在圖上直觀而又明了地表示出來,具有直觀性。另外,它還省去了因子選擇和因子軸旋轉等復雜的數學運算及中間過程,可以從因子載荷圖上對樣品進行直觀的分類,而且能夠指示分類的主要參數(主因子)以及分類的依據,是一種直觀、簡單、方便的多元統計方法。
二、實例
采用spss軟件對全國31個省市的市政建設狀況進行對應分析,數據來源于《中國統計年鑒2010》.共紀錄了31個省、市、自治區當年的城市市政工程建設狀況,具體有如下6個指標:
road:年末實有道路長度;area:年末實有道路面積;bridge:城市橋梁數;
under:城市下水道長度;water:城市污水處理能力;lamp:城市路燈數。
考察各省市城市設施水平的建設情況差異,特別是各地區在這6個指標上分別存在著哪些優勢和不足之處。
(一)數據處理
對應分析的第一步是進行數據的標準化,將數據轉換為代表行、列變量問類別聯系的數據陣。由于本例采用的數據不是頻數,不存在行列合計頻數,所以不能像交叉表那樣基于無效假設計算標準化殘差,此處需要使用歐式距離來表示關聯程度。首先需要考慮應當采用何種距離標準化方法。顯然,6項指標的均數大不相同,而這并不是我們所要關心的,同時它們的量綱也相差較大,最大、最小值的倍數在數十到上千不等;另一方面,各省市發展水平的差異是我們希望考察的內容,即上海的平均發展水平是否高于北京,諸如此類。因此,本例中使用Column Totals are Equalized and Column Means Removed這一標化方法,它可以消除各指標均數和量綱不同的影響,同時又保留了地區發展水平的差異。
(二)數據分析結果
運用spss對原始數據進行分析得到對應分析的最終匯總結果,如表1。
有表1中的數據我們可以看到,前兩個維度工攜帶了總信息量的94.8%,因此可以利用二維空間進行分析結果的解釋。
表1 Summary
把31個省市樣本和6個市政建設衡量指標繪制在一張二維平面圖上,并將分布相當集中的地級市樣本和指標歸為一類,如圖1所示:
位置臨近的指標點表示他們密切相關,我們首先來看指標的分布,在指標散點中,6個散點并未完全分開,其中橋梁指標與其他5個指標遠遠分離,但是其他5個指標基本重疊,顯然從常識看道路長度,道路面積,下水道長度,污水處理和路燈數著5個指標是緊密相關的。
臨近的樣本點則表示它們的發展狀況相似,根據這種分布,可以將31個省市分類,然后結合指標的分布來分析全國各地區的市政建設狀況。
根據原始數據和樣本及指標在二維坐標圖中的分布情況,31個省市和6各指標可以分為以下幾類:
圖1 基于均數的對應分析圖
第一類:10(江蘇),11(浙江),15(山東),19(廣東)幾個沿海發展較好省市,雖然這四個省被歸為一類,但是從二維圖中可以看到:江蘇和浙江比較接近處于第一象限,而山東和廣東則處于第四象限。這也與事實比較接近,山東和廣東的發展較為相似,而其他兩個較為相似。由二維圖可以看到這四個省與橋梁指標放射方向基本一致,查看原始數據也可以發現這四個省的橋梁建設處于全國前四,其中江蘇省散點橋梁散點的放射方向一致,在原始數據中江蘇的橋梁指標也是最高的;在道路面積和道路道路長度指標中,廣東、山東兩省基本均處于全國前兩名,這在圖中則表現為它們正好位于相應兩個指標散點的放射線上。另外,這四個省的散點與所有指標散點分布都較為接近,這說明這四個省在市政建設的各個指標上均處于較為領先水平,此結果從原始數據中也可以得到驗證。
第二類:包括1(北京),2(天津),9(上海)三個發展水平較好的直轄市,這三個城市的散點與除橋梁以外的5個指標放射方向大體一致,這說明這三個城市的在這5個指標的建設狀況都比較好。其中上海的污水處理水平也處于全國較為領先的地位,這在二維圖中表現為兩個散點位于相應的放射線上。
第三類:3(河北),6(遼寧),8(黑龍江),12(安徽),13(福建),16(河南),17(湖北),18(湖南),20(廣西),23(四川)發展程度中等省市,由二維圖中的位置與原始數據我們都可以發現這些省市的市政建設裝況均處于中上水平。endprint
第四類:其他則是欠發達省市,包括邊遠落后地區,這類散點位于最遠離各個指標的左上方,市政建設狀況較為落后。這一狀況由原始數據可以得到驗證。
三、小結
由以上實例分析我們可以看到,對應分析的結果比較簡單直觀,它最主要的結果就是對應分析圖,非常容易理解,這也是對應分析比對數線性模型這些專業建模方法更受應用統計人員歡迎的原因。它不僅可以同時對指標和樣本進行聚類,而且可以分析指標和樣本的關系,這是因子分析和聚類分析都無法單獨實現的。對應分析適于研究較多分類變量:多重對應分析可以將多個分類變量的關聯在一張圖形中表現出來,當變量數較多時,該優勢非常明顯。當分類變量的類別數越多時,對應分析圖形化結果的優勢就越明顯。它省去了復雜的建模和檢驗過程,可以直接觀察到最為主要的關聯特征。
對應分析也存在自身的劣勢:首先,對應分析不能進行具體聯系的檢驗:對應分析在本質上仍然只是一種統計描述方法,他無法對所觀察到的變量類別間的聯系進行檢驗,從而在統計上加以確認。因此,對應分析在結果解釋上要小心,特別是多重對應分析,事先一定要采用卡方檢驗等統計方法進行預分析,篩除掉實際上無聯系的變量。在得到圖形結果后也要將圖形和原始數據反復對照,以確保結論的正確性。其次,無法自動判斷最佳維度數:對應分析只能根據研究者指定的數量進行相應維度的提取,而不能自動判斷最合適的維度數。最后,分析結果對極端值敏感:由于對應分析的第一步是對數據進行標準化變換,對于罕見類別或者小樣本,變換后非常容易出現極端值,這使得分析結果嚴重受這些類別的影響。
參考文獻
[1]中國統計年鑒2011,國家統計局出版
[2]何曉群.多元統計分析.中國人民大學出版社.2008(7):242-263.
[3]張文彤.SPSS統計分析高級教程.高等教育出版社.2004(15):299-303.
[4]許人杰.廣東省區域經濟發展的對應分析[A].中國商界.2010年第七期.
[5]毛騰飛.中國城市基礎設施建設投融資模式創新研究[M].北京:中國社會科學出版社,2007:5-8.
[6]段娟,文余源.中國城市化進程中基礎設施建設和管理的問題與對策探討[J].云南地理環境研究,2007(1).
作者簡介:霍煒紅(1986-),女,河北人,經濟學碩士,研究方向:數據挖掘與抽樣統計。endprint
第四類:其他則是欠發達省市,包括邊遠落后地區,這類散點位于最遠離各個指標的左上方,市政建設狀況較為落后。這一狀況由原始數據可以得到驗證。
三、小結
由以上實例分析我們可以看到,對應分析的結果比較簡單直觀,它最主要的結果就是對應分析圖,非常容易理解,這也是對應分析比對數線性模型這些專業建模方法更受應用統計人員歡迎的原因。它不僅可以同時對指標和樣本進行聚類,而且可以分析指標和樣本的關系,這是因子分析和聚類分析都無法單獨實現的。對應分析適于研究較多分類變量:多重對應分析可以將多個分類變量的關聯在一張圖形中表現出來,當變量數較多時,該優勢非常明顯。當分類變量的類別數越多時,對應分析圖形化結果的優勢就越明顯。它省去了復雜的建模和檢驗過程,可以直接觀察到最為主要的關聯特征。
對應分析也存在自身的劣勢:首先,對應分析不能進行具體聯系的檢驗:對應分析在本質上仍然只是一種統計描述方法,他無法對所觀察到的變量類別間的聯系進行檢驗,從而在統計上加以確認。因此,對應分析在結果解釋上要小心,特別是多重對應分析,事先一定要采用卡方檢驗等統計方法進行預分析,篩除掉實際上無聯系的變量。在得到圖形結果后也要將圖形和原始數據反復對照,以確保結論的正確性。其次,無法自動判斷最佳維度數:對應分析只能根據研究者指定的數量進行相應維度的提取,而不能自動判斷最合適的維度數。最后,分析結果對極端值敏感:由于對應分析的第一步是對數據進行標準化變換,對于罕見類別或者小樣本,變換后非常容易出現極端值,這使得分析結果嚴重受這些類別的影響。
參考文獻
[1]中國統計年鑒2011,國家統計局出版
[2]何曉群.多元統計分析.中國人民大學出版社.2008(7):242-263.
[3]張文彤.SPSS統計分析高級教程.高等教育出版社.2004(15):299-303.
[4]許人杰.廣東省區域經濟發展的對應分析[A].中國商界.2010年第七期.
[5]毛騰飛.中國城市基礎設施建設投融資模式創新研究[M].北京:中國社會科學出版社,2007:5-8.
[6]段娟,文余源.中國城市化進程中基礎設施建設和管理的問題與對策探討[J].云南地理環境研究,2007(1).
作者簡介:霍煒紅(1986-),女,河北人,經濟學碩士,研究方向:數據挖掘與抽樣統計。endprint
第四類:其他則是欠發達省市,包括邊遠落后地區,這類散點位于最遠離各個指標的左上方,市政建設狀況較為落后。這一狀況由原始數據可以得到驗證。
三、小結
由以上實例分析我們可以看到,對應分析的結果比較簡單直觀,它最主要的結果就是對應分析圖,非常容易理解,這也是對應分析比對數線性模型這些專業建模方法更受應用統計人員歡迎的原因。它不僅可以同時對指標和樣本進行聚類,而且可以分析指標和樣本的關系,這是因子分析和聚類分析都無法單獨實現的。對應分析適于研究較多分類變量:多重對應分析可以將多個分類變量的關聯在一張圖形中表現出來,當變量數較多時,該優勢非常明顯。當分類變量的類別數越多時,對應分析圖形化結果的優勢就越明顯。它省去了復雜的建模和檢驗過程,可以直接觀察到最為主要的關聯特征。
對應分析也存在自身的劣勢:首先,對應分析不能進行具體聯系的檢驗:對應分析在本質上仍然只是一種統計描述方法,他無法對所觀察到的變量類別間的聯系進行檢驗,從而在統計上加以確認。因此,對應分析在結果解釋上要小心,特別是多重對應分析,事先一定要采用卡方檢驗等統計方法進行預分析,篩除掉實際上無聯系的變量。在得到圖形結果后也要將圖形和原始數據反復對照,以確保結論的正確性。其次,無法自動判斷最佳維度數:對應分析只能根據研究者指定的數量進行相應維度的提取,而不能自動判斷最合適的維度數。最后,分析結果對極端值敏感:由于對應分析的第一步是對數據進行標準化變換,對于罕見類別或者小樣本,變換后非常容易出現極端值,這使得分析結果嚴重受這些類別的影響。
參考文獻
[1]中國統計年鑒2011,國家統計局出版
[2]何曉群.多元統計分析.中國人民大學出版社.2008(7):242-263.
[3]張文彤.SPSS統計分析高級教程.高等教育出版社.2004(15):299-303.
[4]許人杰.廣東省區域經濟發展的對應分析[A].中國商界.2010年第七期.
[5]毛騰飛.中國城市基礎設施建設投融資模式創新研究[M].北京:中國社會科學出版社,2007:5-8.
[6]段娟,文余源.中國城市化進程中基礎設施建設和管理的問題與對策探討[J].云南地理環境研究,2007(1).
作者簡介:霍煒紅(1986-),女,河北人,經濟學碩士,研究方向:數據挖掘與抽樣統計。endprint