
摘要:本文對我國2020 年疫情期間31省份農林牧漁業總產值數據進行了梳理, 運用SPSS對這四個指標進行聚類分析,先進行系統聚類,然后運用K-means方法繼續聚類,得出了一些結論和思考。
關鍵詞:農林牧漁;總產值;聚類分析;SPSS
1.論文的背景與意義
農林牧漁業總產值指以貨幣表現的農、林、牧、漁業全部產品的總量,它反映一定時期內農業生產總規模和總成果。農業總產值的計算方法通常是按農林牧漁業產品及其副產品的產量分別乘以各自單位產品價格求得;少數生產周期較長,當年沒有產品或產品產量不易統計的,則采用間接方法匡算其產值;然后將四業產品產值相加即為農業總產值。
農林牧漁業總產值在國內總產值中占有重要地位,其發展對我國國民經濟穩定快速發展有著深遠的意義。2011-2020年中國農林牧漁業總產值呈直線增長趨勢,至2020年底,中國農林牧漁業總產值13.78萬億元,較2011年增長5.9萬億元。
疫情影響下各地的農林牧漁業發展穩定性尤為重要,本文主要以2020年疫情下全國31個省市自治區農林牧漁業總產值為研究對象,通過系統聚類和快速聚類法(K-means聚類)把31個地區分為三類比較合適,對全國31個省、市、自治區的農林牧漁業總產值水平進行了地區差異分析。
2.數據的來源與數據的介紹
數據來源于國際統計局。其中該數據是按照現行統計制度,農林牧漁業總產值的核算范圍是本轄區內一定時期內生產的農業、林業、牧業、漁業產品的價值量和對農林牧漁業生產活動進行的各種支持性服務活動的價值的總和。
根據農業生產特點,農林牧漁業總產值的核算采用“產品法”進行計算,即用產品產量乘以價格求出各種產品的產值,然后把它們加總求得各業的產值,最后各業相加求出農林牧漁業總產值。當年生產的各種農產品都要計算產值,并且每種產品都按全部產量計算,不扣除用于當年農產品生產消耗的那部分產品的產值。以林業為例,其產值主要包括林木的培育和種植,木材、竹材采運產值,林產品產值等。其中林木的培育和種植采用以費用代替生長量計算,即按從事人造林木各項生產活動的成本計算,先取得育苗面積、造林面積、零星植樹株數、跡地更新面積、幼林撫育面積、成林撫育面積六項資料,然后分別乘以上述各項生產活動的單位成本得到。
3.簡單的描述性統計分析
運用SPSS對這八個指標進行描述統計分析,對數據進行過程處理,得到處理結果如下:
1. 四大類指標中農業總產值平均值最高為2314.4584,林業總產值平均值最低為192.3087。
2. 31省份指標差異性最大也就是離散程度最高(標準差最大為1614.18928)的為農業總產值,其次是牧業總產值;省份間差異性較小(標準差為147.11588)的為是漁業總產值。
4.實證分析
統計或計量方法的介紹:
系統聚類法(或層次聚類法,hierarchical clustering method)是通過一系列相繼的合并或相繼的分割來進行的,分為聚集的(agglomerative) 和分割的(divisive)兩種,適用于樣品數目n不是很大的情形。聚集系統法的基本思想是:開始時將n個樣品各自作為一類,并規定樣品之 間的距離和類與類之間的距離,然后將距離最近的兩類合并成一個新類, 計算新類與其他類的距離;重復進行兩個最近類的合并,每次減少一類, 直至所有的樣品合并為一類。常用的系統聚類方法有: 最短距離法、最長距離法、類平均法、重心法、離差平方和法(Ward方法),以上系統聚類方法的區別在于類與類之間距離的計算方法不同。
動態聚類法,只能用于對樣品的聚類,而不能用于對變量的聚類。 動態聚類法有許多種方法,一種比較流行的動態聚類法為k均值法(k-means法) 。動態聚類法的計算量要比建立在距離矩陣基礎上的系統聚類法小得 多。因此,使用動態聚類法計算機所能承受的樣品數目n要遠遠超過使用系統聚類法所能承受的n。
k均值法(k-means法)的基本步驟:
1.選擇k個樣品作為初始凝聚點,或者將所有樣品分成k個初始類,然 后將這k個類的重心(均值)作為初始凝聚點。
2. 對除凝聚點之外的所有樣品逐個歸類,將每個樣品歸入凝聚點離它 最近的那個類(通常采用歐氏距離),該類的凝聚點更新為這一類 目前的均值,直至所有樣品都歸了類。
3. 重復步驟2,直至所有的樣品都不能再分配為止。最終的聚類結果在一定程度上依賴于初始凝聚點或初始分類的選擇。 經驗表明,聚類過程中的絕大多數重要變化均發生在第一次再分配中。
(2)數據與模型相結合分析
表1為我國2020 年31省份農林牧漁業總產值數據情況,我們想要用這四個指標來分析疫情發展一整年我國北京等31個省、直轄市、自治區農林牧漁業水平分別屬于哪一個類別,哪幾個省市農林牧漁業水平處在同一個水平。
運用SPSS對這四個指標進行聚類分析,先進行系統聚類,得到初始的聚類結果樹狀圖,確定聚類的個數,然后運用K-means方法繼續聚類。
第一步:先進行系統聚類,這里的系統聚類法,分別采用歐氏距離的類平均法、最短距離法、最長距離法把31個省市分類來得到我們需要的結論。對數據進行系統聚類過程處理,得到處理結果:
1. 其中三個方法得到的數據缺失值報告均一致:
數據的缺失值為0,很可觀,可對其進行聚類分析。
2. 三個方法得到的樹狀聚類圖結果顯示:類平均法和最遠近鄰法這兩種方法來看,聚類數分為3類較為合適,最近鄰元素法最合適分類不太明顯。
第二步:再利用K-means法對31個省、市、自治區的城鎮居民消費水平進行聚類分析,其中聚類數分為3類。
K=3時的k-means輸出結果如下:
1. 通過初始聚類中心表:可以看出,第一類的各指標值總體上是最優的,往下依次為第二類和第三類。
2. 迭代歷史記錄表展示了3個類中心點每次迭代的偏移情況,第三次迭代3個類的中心點偏移達到指定判定標準。
3. 最終聚類中心表展示了3個類的最終類中心情況,總體來看,第一類各指標值仍是最優的。
4. ANOVA表可以看出漁業總產值對聚類分析影響較小,顯著性大于0.05,農業、林業、牧業總產值等對聚類分析影響較大。由于已選擇聚類以使不同聚類中個案之間的差異最大化,因此 F 檢驗只應該用于描述目的。實測顯著性水平并未因此進行修正,所以無法解釋為針對“聚類平均值相等”這一假設的檢驗。
5. 每個聚類中的個案數目表:給出了各類中的樣品數目,第一類包括13個地區,第二類包括15個 地區,第三類包括3個地區。
5.結論
以上先針對八大指標先進行了系統聚類,得到每兩個地區或類間的聚類過程,確定聚類數量為3,在此基礎上在進行K-means聚類,通過這兩種方法的結合,使分析更充分優化,得到疫情下2020年的全國31個省、市、自治區的農、林、牧、漁業各總產值的差異化分析,得到了這31個省、直轄市、自治區消費水平分別屬于哪一個類別,哪幾個省市消費水平處在同一個水平,其中:
第一類:山東省、河南省、四川省,這3個省份農業總產值尤其高,農業產出大省;
第二類:江蘇省、黑龍江省、廣東省、湖北省、河北省、湖南省、廣西壯族自治區、新疆維吾爾自治區、云南省、陜西省、貴州省、安徽省、遼寧省、福建省、內蒙古自治區,這些省份農牧業總產值還可以,部分省份漁業總產值不錯;
第三類:北京市、天津市、山西省、吉林省、上海市、浙江省、江西省、海南省、重慶市、西藏自治區、甘肅省、青海省、寧夏回族自治區,這些省份農、林、牧、漁業各總產值均較低,這些城市城市發展更多的不依賴于農業,比如北京、天津、上海等更多的依賴于科技、金融等。
6.分析與討論
2020年新冠肺炎疫情對我國經濟產生了重大沖擊,此次疫情情對國民經濟、農業和農業食物系統的沖擊顯著。與無疫情基期相比,全國 GDP 下降嚴重的情況下,農業下降的幅度相對小一些。特殊時期,保障國家糧食安全和重要農產品有效供給更是尤為重要,2020 年又是全面建成小康社會和“十三五”規劃收官之年,也是脫貧攻堅決戰決勝之年,面對國內外風險與挑戰,我們穩住了農業,尤其是農業大省的農林牧漁業總產值。未來我們不僅要體量更要質量,更要堅持農業科技優先發展,深化農業科技體制改革確保糧食和重要副食品的安全。
參考文獻:
[1]郭志剛.《社會統計分析方法——SPSS軟件應用》中國人民大學出版社
[2]張啟楠,張凡凡,曾詠梅.《我國城鎮化率與農林牧漁業總產值之間的關系》江西農業
[3]魏后凱.《協調推進農林牧漁業現代化改革的核心內涵》 中國禽業導刊
[4]于超,江賽君,許光宇.《以企業產品法開展農林牧漁業統計的探索思考》統計科學與實踐
作者簡介:張靜(1992.1-),女,滿族,天津市,本科,對外經濟貿易大學統計學院,研究方向:大數據科學與應用。