摘 要:聚類分析是一種應用性很強的統計方法,它是在未知樣品類別的情況下,根據樣品自身性質上的親疏關系以及相似程度對樣品進行分類。應用聚類分析的方法并通過SAS軟件實現了對我國31省(市、區)的農業總產值進行歸類,較為科學地揭示了氣候條件和地理環境的差異對農業生產與發展的制約作用,清晰地呈現了我國農業總產值高低的區域性分布特點,從而為各地區制定農業發展戰略提供一定的參考依據。
關鍵詞:聚類分析;農業總產值;SAS軟件
中圖分類號 C81 文獻標識碼 A 文章編號 1007-7731(2013)15-21-02
1 問題的提出及分析
中國各地區由于氣候條件和地理環境的不同,在農業生產和發展上存在很大的差異,表1[1]給出了2007年全國31個地區農業各門類——農林牧漁的總產值。
表1 2007年我國31個地區農林牧漁總產值(億元)
[地區\農業總產值\林業總產值\牧業總產值\漁業總產值\北京\115.5\17.8 \122.4 \10.2\天津\117.6\2.1\76.9 \36.1\河北\1 639.1\52.4\1 147.0\85.1\…\…\…\…\…\]
這是一個數據較為龐雜的表格,用描述性統計方法顯然過于繁瑣。我們嘗試著用系統聚類的方法進行歸類,這種方法通過定義距離來描述兩個樣品以及類別之間的親疏關系,然后根據某種準則來對樣品做出分類,所分類別由多到少。
2 問題的解決
2.1 數據的輸入
data GAV;
input area$ x1 x2 x3 x4 @@;
label area=“地區” x1=“農業總產值” x2=“林業總產值” x3=“牧業總產值” x4=“漁業總產值”;
cards;
北京115.5 17.8 122.4 10.2
天津117.6 2.1 76.9 36.1
河北1 639.1 52.4 1 147.0 85.1
山西322.6 17.6 140.2 3.5
內蒙古620.4 63.7 559.7 10.9
遼寧837.5 60.3 830.8 326.1
吉林641.5 48.8 635.3 18.8
黑龍江971.9 79.0 585.0 25.1
上海126.7 10.0 58.0 54.2
江蘇1 542.5 58.9 704.4 579.0
浙江735.9 95.5 367.6 369.9
安徽1 054.0 100.5 637.4 195.0
福建685.3 120.7 340.6 473.3
江西621.3 126.5 435.6 182.2
山東2 604.1 82.0 1 313.0 580.3
河南2 254.5 104.8 1 326.1 44.5
湖北1 152.1 41.9 686.2 310.8
湖南1 243.2 144.1 1 013.8 154.7
廣東1 328.7 73.4 775.6 541.9
廣西970.5 99.8 710.2 178.3
海南224.2 80.5 106.1 121.3
重慶401.5 25.9 264.5 18.4
四川131.6 87.2 1 827.1 85.8
貴州392.2 27.8 231.6 9.0
云南683.8 156.0 438.4 25.4
西藏39.5 2.7 34.9 0.1
陜西629.3 33.8 274.0 4.2
甘肅458.7 19.4 131.2 0.9
青海49.2 2.0 67.0 0.1
寧夏111.1 5.7 53.3 5.2
新疆767.0 20.9 231.5 7.0;
以上程序是SAS中實現數據輸入的必要步驟,它先定義了一個數據集GAV,然后定義了5個變量:地區以及農、林、牧、漁的總產值。
2.2 執行聚類的過程
proc cluster data=GAV method=ave outtree=ot standard pseudo ccc;
var x1-x4;
id area;
proc tree data=ot ;
run;
在第一個過程——cluster過程中,proc語句指出對數據集GAV進行系統聚類分析,method=ave outtree=ot分(下轉52頁)(上接21頁)別表示使用類平均法,將數據集輸出到ot中以便繪制譜系圖,standard pseudo分別表示聚類之前將數據進行標準化處理,輸出偽統計量、偽統計量,ccc表示輸出統計量、半偏統計量以及ccc統計量。
在第二個過程步——TREE過程[2]中,PROC語句支出根據數據集ot繪制聚類過程的譜系圖,若加上選項HORIZONTAL表示繪制的是橫向的譜系圖,這里默認為繪制縱向的譜系圖。
2.3 輸出結果分析 在SAS軟件中運行上述程序之后得到結果,以下進行結果分析:
圖1 系統聚類的過程
從圖1可以看出,系統聚類進行了30步,在每一步都是合并了兩類。在圖1顯示的第一列(NCL)顯示的是當前類的個數從表中可以看出來,第一步合并之后又30個類,最后一步只剩下一個類。因為用類平均法計算得到西藏和青海的距離最小,因此首先將二者合為一個類。從第5列到第10列顯示了當前這一步對應的各種統計量,最后一列則給出了兩個類在合并之前的平均距離。從譜系圖(圖2)中可以直觀地了解整個系統聚類的過程,并且可以清晰地看到對所有國家在不同水平下的分類,但是究竟該采用哪種分類、具體分為幾類,則需要分析相應的統計量。
圖2 系統聚類的譜系圖
圖1中統計量隨著分類個數的減少而減少,并且在由4類變成3類時減少較快(由0.638減少到0.238)。因此從統計量來看分成4類比較合適。
接下來分析半偏統計量,當NCL=3時半偏統計量最大(值為0.400 4),當NCL=1時半偏統計量次大(值為0.150 1),說明這兩步的合并效果都不好,應該采取上一步的分類。因此從半偏統計量來看分成4類或者2類較為合適。
再看偽統計量,發現當NCL=3時偽統計量最大(值為29.9),當NCL=14時偽統計量次大(值為26.3),當NCL=13時偽統計量(值為26.1),由此可以看出這3步的擬合效果并不好,應該采取其上一步的分類。于是,認為分為4類、13類、14類是比較合適的。
綜合上述幾個統計量反映的結果,可以得出結論,認為分成4類時比較合適的。
查看譜系圖可以清楚的知道,分為四類的結果是:第一類:北京、天津、上海、西藏、青海、寧夏、山西、甘肅、重慶、貴州、陜西、新疆、內蒙古、吉林、黑龍江、海南。第二類:河北、河南、遼寧、湖北、江蘇、廣東、浙江、福建、安徽、廣西、江西、湖南、云南。第三類:四川。第四類:山東。
從分類的結果不難看出,第一類中,北京、上海、黑龍江、海南等地區因為重視工業或者地理環境的不適宜導致農業各部門的總產值相對較低,因此歸為一類;河北、河南、云南、浙江等地區,總體來講自然環境稍好于第一類地區,總產值高一些,因此可以分為一類;四川地處中原,降雨較為豐富,總產值又好于前兩類;山東地區降雨量大,勞動力充足,氣候適宜,因此農業各部門的總產值最高[3]。
3 結語
雖然科技方面的進步會對農業產生很大的影響,但是良好的氣候條件和地理環境仍然有著自身的優越性。本文采用系統聚類的方法對我國31個地區按照農業總產值進行了分類,較為科學地揭示了氣候條件和地理環境的差異對農業生產與發展的制約作用,清晰地呈現了我國農業總產值高低的區域性分布特點,從而為各地區制定農業發展戰略提供了一定的依據。
參考文獻
[1]王芳,陳勝可,馮國生,等.SAS統計分析與應用[M].北京:電子工業出版社,2011.
[2]胡良平,高輝.SAS統計分析教程[M].北京:電子出版社,2010.
[3]李慶東,李穎.證券投資分析方法新探索[J].現代情報,2005(11):223-224.
(責編:張宏民)