趙國富
(山東理工大學網絡信息中心,淄博 255049)
分層聚類在土地利用中的應用
趙國富
(山東理工大學網絡信息中心,淄博 255049)
通過分析分層聚類法理論基礎,實現分層聚類算法。運用分層聚類算法研究土地利用變化,通過多次嘗試、比較不同的距離變量,得到較好的結果,驗證聚類結果的正確性,提高算法結果的有用性。
聚類分析;土地利用;分層聚類
當前,土地科研工作者對于土地利用的研究不斷采用更先進的技術方法,所得到的結果也越來越能反映陸地的表層(巖石、巖石的風化物和土壤)的實際情況。當前很多工作者選用聚類分析的策略,其中分層聚類算法是常用的一種技術方法。根據計算類別間距離的不同,構成了不同的分層聚類方法[1]。通過研究、比較分層聚類的類別間不同的距離,參照實際的土地狀況,可以得到較好的結果,可以為進一步改善我國土地利用、保護土地資源提出更好的策略。
分析數據,可以從原始數據開始,對原始數據對象展開調查、研究,分析有用的主要成分,形成所需要的有效數據,并將每一個有效數據對象作為矩陣的變量,置于相應的行列位置。所以,可用p個變量來表示n個對象,將這種數據結構看成如下n×p的數據矩陣[2]:

在這個數據矩陣中,往往因為各個變量可以選用不同的度量單位,而不同的度量值經常導致觀測值有一定偏差,所以需要對度量值進行絕對值轉換,以減小變量的不同帶來的具體影響。
在統計中,聚類具有不可替代的作用,通常選用群重心、群中心、群間距離中的一種作為聚類統計量進行統計。在聚類分析過程中,聚類統計量的選取較為關鍵。如果選取不盡合理,可能導致錯誤的結論。對于空間聚類,聚類統計量通常采用歐氏距離[2]。


聚類算法一般是建立在相異度矩陣的基礎上。將數據矩陣轉化為相異度矩陣,表示對象與對象之間的關系緊密程度,即相似度或相異度,表現形式是一個n×n維的矩陣[2]:對象i和j越相似,d()i,j值就越接近0,所以相異度矩陣能夠充分地表示出各分類對象間的相似度,作為基礎數據用于進行聚類分析。為了確保各變量在分析中的作用相同,需要對分析數據進行中心化和標準化變換[3]
顧名思義,分層聚類就是對給定的數據按層次進行劃分,直到滿足要求的條件結束。該方法可以是基于距離的或基于密度或連通性的,有“自底向上”和“自頂向下”兩種。
通過分析具體數據,選擇“自底向上”分層聚類法較為合理,其實現過程為[1]:
(1)將初始的n各數據對象分別作為一個類別,將原始數據矩陣做相應處理,生成一個距離矩陣;
(2)分析該距離矩陣,將距離最小的兩個數據對象歸并,生成了n-1個類別的新的距離矩陣;
(3)迭代第二步,直到所有的數據都滿足條件,這時意味著生成一新的類別。
分層聚類法的計算主要是“起初聚類統計量的計算”和“統計量在類別合并過程中的刷新”[4]。
為適應經濟全球化的大趨勢,依據《土地利用現狀分類》(GB/T 21010-2007),要求各省(區、市)農業部門會同國土資源部門的土地工作者有效科學地規劃土地,合理利用土地,對土地的管理達到最優,所以迫切需要一些切實可行的技術方法,為土地決策者提供有力的技術支持。算法以各省(區、市)的農用地的利用現狀(2006)為基礎數據。通過分析,在各因素中農用地(如牧草地、建筑用地、未利用土地等)因素分布變化較大,需合理選取農用地分析因素算法的變量,用于分層聚類方法生成符合需求的聚類。通過綜合分析,算法選用幅員面積、農用地、建筑用地和未利用地四個方面進行處理[5]。
(1)數據處理
對原始數據對象進行中心化和標準化變換,生成的相異度矩陣,如表1所示。

表1 相異度矩陣
(2)聚類分析過程
對土地利用進行的分層聚類算法的分類結果顯示以離差平方和法較為合理[5],其聚類過程如表2所示。

表2 聚類過程
由表2,第1列表示聚類過程的步驟號,第2列和第3列表示在某一步驟中參與合并的省市,第4列表示每一步聚類的聚類系數,第5列和第6列表示合并的省(市)初次出現在哪一步。在聚類過程中,一個記錄代表的是一個類別,0代表該記錄在聚類過程中第初次出現。根據聚類系數的變化,聚類過程共進行了29步。
(3)實驗結果
根據我國土地資源的基本狀況,聚類結果應滿足各省(區、市)的農業發展規劃和土地利用規劃,盡可能反映各地實際情況,為土地工作者提供具有價值的聚類數據,以進一步對各省(區、市)的農業發展規劃和土地利用規劃提供決策,達到不斷改進規劃,更好的利用土地資源的目的。綜合考慮30個省(市)土地資源的地方差異,將試驗結果分為4類比較合理如下:
第一類:北京、天津、上海、江蘇、安徽、山東、河南;
第二類:河北、山西、內蒙古、湖北、廣東、廣西、海南、貴州、云南、陜西;
第三類:遼寧、吉林、黑龍江、浙江、福建、江西、湖南、四川、寧夏;
第四類:西藏、甘肅、青海、新疆。
通過上述分析,基于土地利用的分層聚類算法的結果符合各地農業發展規劃和土地利用規劃的要求,可以為改善我國土地利用狀況,提供一定參考價值,較好地引導農業發展。算法還表明各部門的土地工作者需要對土地利用盡量優化,例如盡量利用荒山荒坡、灘涂等未利用土地。因此,通過我們的算法,在開展土地資源的調查研究和科學評價中,能夠更好地對土地組成、利用現狀進行綜合的考慮,做到有計劃有限制地開發土地資源,增加耕地面積,提高耕地質量,以達到對土地資源的更加科學的改造與治理的目標,保持土地的良性循環,土地利用可持續化,同時為社會發展、城市化進程不斷推進、國民經濟建設提供決策支持。
[1]張文彤,董偉.SPSS統計分析高級教程[M].北京:高等教育出版社,2004.
[2]Jiawei Han,Micheline Kambe著.數據挖掘概念與技術.范明,孟小峰譯.機械工業出版社,223-262.
[3]邵峰晶,于忠清.數據挖掘原理與算法[M],北京:中國水利水電出版社,2003.
[4]郭仁忠.空間分析(第二版).北京:高等教育出版社,2001.
[5]趙國富.基于聚類的空間數據挖掘方法與應用研究[碩士學位論文]。山東:山東理工大學,2006.
Abstract:Analyzes the basic theories of the hierarchical cluster algorithm,and makes the algorithm come true.Applies the hierar?chical cluster algorithm into land use change,so attains a better result through many times of attempting,comparing some space regular clustering algorithm,validates the correctness of clustering gained,improves arithmetic serviceability.
Keywords:Cluster Analysis;Soil Utilization;Hierarchical Cluster
Application of the Hierarchical Cluster Algorithm in Soil Utilization
ZHAO Guo-fu
(Network Information Center,Shandong University of Technology,Zibo 255049)
山東省自然科學基金資助項目(No.2004ZX31)
1007-1423(2017)26-0033-03
10.3969/j.issn.1007-1423.2017.26.008
趙國富(1971-),男,山東濰坊人,碩士,高級工程師,研究方向為空間數據處理、計算機應用
2017-06-02
2017-08-30