摘 要:聚類分析是一種應用性很強的統計方法,它是在未知樣品類別的情況下,根據樣品自身性質上的親疏關系以及相似程度對樣品進行分類。應用聚類分析的方法并通過SAS軟件實現了對我國31省(市、區)的農業總產值進行歸類,較為科學地揭示了氣候條件和地理環境的差異對農業生產與發展的制約作用,清晰地呈現了我國農業總產值高低的區域性分布特點,從而為各地區制定農業發展戰略提供一定的參考依據。
關鍵詞:聚類分析;農業總產值;SAS軟件
中圖分類號 C81 文獻標識碼 A 文章編號 1007-7731(2013)15-21-02
1 問題的提出及分析
中國各地區由于氣候條件和地理環境的不同,在農業生產和發展上存在很大的差異,表1[1]給出了2007年全國31個地區農業各門類——農林牧漁的總產值。
表1 2007年我國31個地區農林牧漁總產值(億元)
[地區\農業總產值\林業總產值\牧業總產值\漁業總產值\北京\115.5\17.8 \122.4 \10.2\天津\117.6\2.1\76.9 \36.1\河北\1 639.1\52.4\1 147.0\85.1\…\…\…\…\…\]
這是一個數據較為龐雜的表格,用描述性統計方法顯然過于繁瑣。我們嘗試著用系統聚類的方法進行歸類,這種方法通過定義距離來描述兩個樣品以及類別之間的親疏關系,然后根據某種準則來對樣品做出分類,所分類別由多到少。
2 問題的解決
2.1 數據的輸入
data GAV;
input area$ x1 x2 x3 x4 @@;
label area=“地區” x1=“農業總產值” x2=“林業總產值” x3=“牧業總產值” x4=“漁業總產值”;
cards;
北京115.5 17.8 122.4 10.2
天津117.6 2.1 76.9 36.1
河北1 639.1 52.4 1 147.0 85.1
山西322.6 17.6 140.2 3.5
內蒙古620.4 63.7 559.7 10.9
遼寧837.5 60.3 830.8 326.1
吉林641.5 48.8 635.3 18.8
黑龍江971.9 79.0 585.0 25.1
上海126.7 10.0 58.0 54.2
江蘇1 542.5 58.9 704.4 579.0
浙江735.9 95.5 367.6 369.9
安徽1 054.0 100.5 637.4 195.0
福建685.3 120.7 340.6 473.3
江西621.3 126.5 435.6 182.2
山東2 604.1 82.0 1 313.0 580.3
河南2 254.5 104.8 1 326.1 44.5
湖北1 152.1 41.9 686.2 310.8
湖南1 243.2 144.1 1 013.8 154.7
廣東1 328.7 73.4 775.6 541.9
廣西970.5 99.8 710.2 178.3
海南224.2 80.5 106.1 121.3
重慶401.5 25.9 264.5 18.4
四川131.6 87.2 1 827.1 85.8
貴州392.2 27.8 231.6 9.0
云南683.8 156.0 438.4 25.4
西藏39.5 2.7 34.9 0.1
陜西629.3 33.8 274.0 4.2
甘肅458.7 19.4 131.2 0.9
青海49.2 2.0 67.0 0.1
寧夏111.1 5.7 53.3 5.2
新疆767.0 20.9 231.5 7.0;……