[摘 要]運用數據挖掘的決策樹方法為未利用土地適宜性評價建立模型,以福建省福州市閩侯縣作為一個試驗區,本文首先運用主成分分析法,消除各因素之間的相關性,得出8個相互獨立的指標(影響因子)作為測試屬性,共提取了67個樣本,再運用C45算法構建未利用土地適宜性評價決策樹并進行了分析,表明所得規則符合實際并且易于理解。然后運用生產的規則對試驗區未利用土地進行評價,并與應用實地調查所得的結果作對比分析。結果表明:基于決策樹技術的未利用土地適宜性評價方法不僅不依賴于經驗知識,而且通過此模型得到的評價結果具有較高準確率,能夠滿足評價的要求。
[關鍵詞]數據挖掘;決策樹;未利用土地適宜性評價
[中圖分類號]TP393 [文獻標識碼]A [文章編號]1005-6432(2013)10-0052-03
決策樹分類方法是數據挖掘中經常使用的數據分類方法之一,它一般采用以實例為基礎的歸納學習算法,在確定了訓練集,之后學習完全依賴數據本身,生成類似于流程圖的樹狀結構來表示數據挖掘所得的結果。而未利用土地適宜性評價是在綜合考慮土地的自然、社會經濟等條件下的一種針對土地用途適宜性的評價,也可以看成是對影響土地某種用途適宜性的因子量化后的混合空間數據的分類問題,其分類的結果便是土地某種用途適宜性等級劃分的結果。傳統的評價方法與之相比,大多依賴于知識、經驗,無法對知識的不完備性做出適當的調整,不完備、不準確的知識會給結果帶來較大偏差,并且不具有自學習能力,且難以處理定性描述的變量。傳統的方法如模糊綜合評判法、極限條件法、灰色關聯度分析法、經驗指數和法等。本文嘗試把數據挖掘中的常用的決策樹分類法應用于未利用土地適宜性評價中,在克服傳統評價方法過于依賴經驗知識和無法處理不完備信息的基礎上,進而為未利用土地適宜性評價的研究提供另一種思路和方法。
1 主成分分析法概述
11主成分分析
主成分分析也稱為主量分析(Karhunnen-loeve變換),它是一種研究如何將多指標的問題轉化為只有較少的綜合指標的統計分析方法,它能將問題從高維空間降到低維空間去處理,不僅簡化了變量系統的數字統計特征,而且還能夠提供更多重要的系統信息。從數學方法的角度來看,這種方法被稱之為降維,即把多指標轉化為關聯度比較小的少數幾個綜合指標。
選用主成分分析法,其核心是通過分析、選擇p個主成分,并且以每個主成分zi的方差貢獻率ai作為權數,構造出綜合評價函數:
12 主成分分析法選擇評價因子
影響未利用土地適宜性的因素較多,如果將全部因子都予以考慮,一方面資料很難收集,另一方面其中有些因素對未利用土地的適宜性沒有很直接的影響或影響程度不顯著,因此本文先用主成分分析的方法選取了質地、有機質含量等8個關聯性比較弱的因素作為評價因子。評價因子指標的分級反映了其對主要農作物類型的生物學適應性,主要根據參評因子對農作物的適宜性程度來確定。在確定評價因子后,結合福建省福州市閩侯縣的實際情況, 然后采用特爾斐法來分析確定各評價因子的分級指標。
2 決策樹應用原理與方法
21 基本原理
決策樹是以IF-THEN規則形式對所用數據進行自動分類。在決策樹的內部節點比較屬性值,并根據不同的屬性值來判斷確定自該節點向下的分支,最后從決策樹的葉節點得到結論。所以從樹的根節點到葉節點的一條路徑對應著一條生成的提取規則,相應的整棵決策樹對應著一組表達式規則。
決策樹的構造過程分為構造樹和樹剪枝兩個階段:
(1)構造樹階段。這一階段最關鍵的操作就是在樹的根節點上選取最適合的測試屬性,選取的標準包括基尼指數、信息增益、信息增益比以及基于距離的劃分等。然后按照所有可能取值的相應屬性建立向下的分枝,接著依次劃分訓練樣本,直到每一個節點上的所有樣本都被劃分為同一個類或者某一節點中樣本數量低于給定的值時為止。
(2)樹的剪枝階段。決策樹構造過程中可能許多分枝所反映的是數據訓練中的噪聲或者孤立點。因此,生成決策樹的過程中需要按某種規則來將相近或相似的分枝進行合并之后剪除,從而得到一棵能夠反映數據集特性的決策樹。樹的剪枝方法主要可分為后剪枝、先剪枝或者兩者相結合的方法。樹的剪枝方法的剪枝標準主要包括期望錯誤率最小原則和最小描述長度原則(MDL)等。
22 算法的比較
當前,最常用的決策樹方法法是Quinlan提出的ID3算法和C45算法。C45算法是對ID3算法的改進,改進后不僅可以處理離散型的屬性值,還可以處理連續型的屬性值。此外C45算法選擇測試屬性的標準是信息增益比,克服了之前ID3選用信息增益作為測試屬性的標準的弊端,比如偏向于取值較多的屬性等。常用的決策樹算法還有PUBLIC、CART、SPRINT、CAL5和QUEST等。具體的算法可參考文獻[3][4]等。
23 應用思路
運用決策樹方法研究未利用土地適宜性評價的思路如圖1所示。
(1)數據的預處理。根據未利用土地適宜性評價的目的,選取并構建用于決策樹的訓練集。
(2)決策樹的構建,提取評價規則。未利用土地適宜性的影響因素既有離散型的,如土壤的質地,又有連續型的,如耕層的厚度等,本文研究采用C45算法來構建未利用土地適宜性評價決策樹模型,再從經過剪枝后的決策樹模型提取出評價規則,最后以IF…THEN…形式的結構組織。
(3)規則的應用。根據所提取的規則,建立關于未利用土地適宜性評價因素的空間數據庫,以規則匹配的方式對未利用土地適宜性評價空間數據庫中的數據集進行推理運算,得到評價的結果。
3 實例應用分析
福建省福州市閩侯縣2011年的土地利用現狀變更調查結果表明,全縣參與評價了的未利用土地面積大約為1132596公頃。本文下述的未利用土地面積均指參與評價了的未利用土地面積,不包括沼澤地、鹽堿地、裸巖石礫地以及其他未利用地。
31 數據的預處理
本實例采用1∶50000的土地利用現狀圖,評價單元是土地利用現狀圖中的地塊單元,其原因;一是由于土地利用現狀中的地塊單元相對于其他來說其單元內各種條件和標準比較一致,另外也方便評價結果的應用。在整個試驗區域中,依據樣本級別分布均勻和空間分布均勻兩大原則,總共選取了67個地塊作為決策樹訓練的樣本集。
32 決策樹的構建
本文應用決策樹中常用的C45算法構建未利用土地適宜性評價決策樹模型,應用程序中各相關因子及其屬性取值定義:其中,continuous表示的是對應因子屬性的取值為連續型,如有機質取值必須是連續的。其余的都表示離散型的因子及其屬性的取值范圍,如以“輕壤,中壤,重壤,輕粘,砂壤,中粘,砂土”之一來描述其中某一土地單元的土壤質地。
33 結果與分析
依據從決策樹中提取出來的規則,對用于未利用土地適宜性評價的空間數據庫以規則匹配的方式實施推理和運算,得到評價結果。其中各類別(林地、耕地、園地、其他)面積分別為:192442畝,440197畝,415608畝,286727畝。而對這一樣區進行實地調查驗證的各類別面積分別為:201402畝,450832畝,402514畝,278226畝。圖2為應用決策樹方法所得結果和實地調查結果所做的一個對比,若以后者為基準,各級偏差分別為45%,26%,29%,31%。另外對具體地塊的用地類別進行了對比分析,其吻合率達到了923%。
4 結 論
決策樹分類方法只需要預先給定訓練集,之后完全依賴數據學習得到決策樹模型,并用定量規則的方式來表達所獲取的知識,應用于未利用土地適宜性評價即只需選取合適的未利用土地適宜性評價的樣本,包括每個樣本評價單元的屬性值以及未利用土地適宜性評價的類別。本文通過質地、灌溉條件、有機質、坡度、土層厚度、≥10℃積溫、PH、海拔等屬性,用決策樹方法確定未利用土地適宜性評價類別,并驗證了其可行性,該方法不僅可有效地避免主觀判斷和彌補缺陷的經驗知識,且可以隨著土地資源數據的變更,快速更新未利用土地適宜性評價的數據集,為土地的適宜性評價提供了一種新的思路和方法。當然它的應用也有一定的局限性,比如當它用于某一土地評價單元,其“有效土層厚度”小于8cm時,即使地形坡度等其他條件再好,也不適宜作為耕地,而應用決策樹方法很難處理這類問題,而采用傳統的“極限條件法”卻能很快處理。因此,在實際工作中,我們要結合多種方法,對不同的數據分析對象采用不同的分析方法,從而得到更為科學、合理、適用的結果。
參考文獻:
[1]周斌,王繁基于決策樹模型的土壤性質空間推斷[J].土壤通報,2004,35(4).
[2]張海玲,過仲陽,等決策樹方法在環境物理量場與暴雨之間關系研究中的應用[J].地理信息科學,2005,7(4):39-41
[3]焦利民人工神經網絡和模糊邏輯在未利用土地適宜性評價中的應用研究[D].武漢:武漢大學,2002
[4]韓慧,毛鋒,等數據挖掘中決策樹算法的最新進展[J].計算機應用研究,2004(12).
[5]邢世和,黃吉,黃河GIS支持下的區域耕地質量評價[J].福建農林大學學報(自然科學版), 2002, 31(3):378-382