劉興波,徐志英,都 春 ,張 紅
(1.朝陽(yáng)師范高等專科學(xué)校,遼寧 朝陽(yáng) 122000;2.朝陽(yáng)市自然資源局,遼寧 朝陽(yáng) 122099)
隨著計(jì)算機(jī)技術(shù)、互聯(lián)網(wǎng)技術(shù)等相關(guān)技術(shù)的發(fā)展,針對(duì)于不同資源的數(shù)據(jù)不斷產(chǎn)生,這就導(dǎo)致了數(shù)據(jù)庫(kù)的總量激增,不同的數(shù)據(jù)庫(kù)反映了不同的數(shù)據(jù)類別,解釋了不同的數(shù)據(jù)內(nèi)容,具有相對(duì)獨(dú)立性,因此各種數(shù)據(jù)之間存在非線性關(guān)系,在數(shù)據(jù)的尺度特性、數(shù)據(jù)的多維化、數(shù)據(jù)的模糊度、數(shù)據(jù)采集度等方面存在缺失性因素,即數(shù)據(jù)與數(shù)據(jù)之間的內(nèi)涵關(guān)系很難形成“掛鉤”,這就導(dǎo)致了數(shù)據(jù)之間的內(nèi)在關(guān)系、規(guī)則和發(fā)展趨勢(shì)等潛在問(wèn)題很難被發(fā)現(xiàn)。但往往數(shù)據(jù)隱身背后的意義在實(shí)際應(yīng)用中更具有指導(dǎo)性意義和對(duì)于解決問(wèn)題更具有數(shù)據(jù)支撐的意義。土地定級(jí)也需要采用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)數(shù)據(jù)背后隱藏的秘密和資源,發(fā)現(xiàn)土地定級(jí)各項(xiàng)數(shù)據(jù)指標(biāo)之間的關(guān)系或者其他模式,需要數(shù)據(jù)挖掘技術(shù)才能得以實(shí)現(xiàn)。
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。通過(guò)對(duì)隨機(jī)的數(shù)據(jù),不同類別的數(shù)據(jù)進(jìn)行數(shù)據(jù)加工和分析,使得其變成具有價(jià)值性、可為相關(guān)決策人員提供支撐的有效數(shù)據(jù)。通過(guò)對(duì)數(shù)據(jù)的收集、存貯和清洗、分析等步驟挖掘數(shù)據(jù)的價(jià)值。一般包括描述性數(shù)據(jù)分析、預(yù)測(cè)性數(shù)據(jù)分析、相關(guān)性數(shù)據(jù)分析等等。
由于大數(shù)據(jù)比一般數(shù)據(jù)更為復(fù)雜,其數(shù)據(jù)群體龐大、挖掘角度多樣且數(shù)據(jù)清洗困難等原因,利用大數(shù)據(jù)進(jìn)行分析研究的方法近年也剛起步,因此目前從事大數(shù)據(jù)研究的領(lǐng)域依舊有限,就土地定級(jí)而言依舊有很大研究拓展空間。數(shù)據(jù)的挖掘離不開對(duì)大數(shù)據(jù)的分析,其中從紛亂的各類數(shù)據(jù)中挖掘有價(jià)值的信息需要各種知識(shí)背景,如數(shù)據(jù)知識(shí)和土地測(cè)繪知識(shí)等等,因此這是一種多學(xué)科的交叉。在數(shù)據(jù)挖掘時(shí)要采用不同的分析法對(duì)數(shù)據(jù)庫(kù)中的海量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)、分析和歸納,在此基礎(chǔ)上提取類似于趨勢(shì)、模式或相關(guān)性等有用的信息[1],再將信息進(jìn)行整合總結(jié)后用于輔助決策的制定。
一般而言數(shù)據(jù)挖掘需要包括如下幾個(gè)階段:第一階段是數(shù)據(jù)的準(zhǔn)備,這個(gè)階段主要是建立一個(gè)數(shù)據(jù)分析構(gòu)思或數(shù)據(jù)分析模型,確定最終的研究目標(biāo)和期望的結(jié)果,并針對(duì)目標(biāo)開始著手準(zhǔn)備各類數(shù)據(jù)。這種數(shù)據(jù)的準(zhǔn)備階段也叫做數(shù)據(jù)收集或者數(shù)據(jù)匯聚階段,既可以準(zhǔn)備現(xiàn)有手頭數(shù)據(jù)也可以通過(guò)購(gòu)買商業(yè)數(shù)據(jù)、政府?dāng)?shù)據(jù)等進(jìn)行數(shù)據(jù)匯聚。第二階段即數(shù)據(jù)挖掘階段,這個(gè)過(guò)程中值得注意的是需要在挖掘前對(duì)數(shù)據(jù)進(jìn)行清洗,把不同類別的數(shù)據(jù)統(tǒng)一數(shù)據(jù)格式,剔除無(wú)用的數(shù)據(jù)和具有不穩(wěn)定的、極值性的數(shù)據(jù)。待數(shù)據(jù)清洗后將“生數(shù)據(jù)”變?yōu)榫哂锌煞治鲂缘摹笆鞌?shù)據(jù)”就可以進(jìn)行各類的數(shù)據(jù)分析,既可以建立各種數(shù)據(jù)模型分析,也可以進(jìn)行各類基本分析。第三階段呈現(xiàn)分析成果,該階段主要是將數(shù)據(jù)分析的結(jié)果用文字進(jìn)行表達(dá)和解釋,并根據(jù)解釋的結(jié)果提出相對(duì)應(yīng)的策略以及下一步相關(guān)領(lǐng)域的研究對(duì)象。
土地定級(jí)最核心問(wèn)題反映的是土地的質(zhì)量和價(jià)值。這就好比商品的定級(jí),商品的質(zhì)量越高、越稀缺其價(jià)值越高,在土地定級(jí)中也是如此,需要根據(jù)土地的自然屬性和經(jīng)濟(jì)屬性,定級(jí)前通過(guò)對(duì)土地進(jìn)行調(diào)查、測(cè)算等技術(shù)手段來(lái)測(cè)量土地的價(jià)值和質(zhì)量。此外,不同用途的土地有不同的質(zhì)量和價(jià)值及價(jià)值評(píng)價(jià)指標(biāo),城鎮(zhèn)土地和農(nóng)用土地這兩種使用不同途徑的土地測(cè)算方法,所需要捕捉的數(shù)據(jù)差異很大。例如在農(nóng)田測(cè)算時(shí)其數(shù)據(jù)就需要考慮水田、農(nóng)田、林田等相關(guān)數(shù)據(jù),而在城鎮(zhèn)用地時(shí)卻對(duì)這些數(shù)據(jù)的指標(biāo)不需要考慮,需要考慮的是繁華程度、交通條件、基礎(chǔ)設(shè)施建設(shè)、人口狀況等數(shù)據(jù)指標(biāo)。
我國(guó)幅員遼闊,地形地勢(shì)氣候條件復(fù)雜多樣,土壤條件也各不相同,因此不同地區(qū)進(jìn)行土地定級(jí)有一定難度,不同評(píng)價(jià)工作中得到的土地等級(jí)在全國(guó)范圍內(nèi)無(wú)可比性[2]。加上我國(guó)部分土地信息不完整,土地定級(jí)估價(jià)中算法復(fù)雜,定性資料不能量化,計(jì)算效率低下,對(duì)于土地信息專業(yè)知識(shí)獲取仍有“瓶頸”。此外,現(xiàn)有針對(duì)土地定級(jí)的研究方法仍有不足,無(wú)論是最短距離分析法、基于柵格數(shù)據(jù)的空間分析法、基于矢量的緩沖區(qū)分析法等均存在各種短板。
目前,數(shù)據(jù)挖掘技術(shù)在投資、制造業(yè)、銀行和金融等行業(yè)已經(jīng)加以應(yīng)用,但在土地定級(jí)領(lǐng)域的運(yùn)用仍處于較新的應(yīng)用階段。通過(guò)對(duì)土地資源相關(guān)數(shù)據(jù)進(jìn)行挖掘和分析可以較好地評(píng)價(jià)土地位置、形狀、走向和坡度等地理數(shù)據(jù),使這些分布的數(shù)據(jù)在空間上和時(shí)間上形成一種相互關(guān)聯(lián)、相互制約、相互發(fā)展的數(shù)據(jù)集關(guān)系[2]。運(yùn)用數(shù)據(jù)挖掘技術(shù)進(jìn)行土地的定級(jí)不僅僅是對(duì)土地資源的最優(yōu)化配置,同時(shí)是對(duì)土地資源的經(jīng)濟(jì)價(jià)值及其商業(yè)價(jià)值進(jìn)行評(píng)估,有助于促進(jìn)該地區(qū)經(jīng)濟(jì)和社會(huì)的發(fā)展。
對(duì)于數(shù)據(jù)在土地定級(jí)中的挖掘而言,首先要考慮各類數(shù)據(jù)之間的聯(lián)系、數(shù)據(jù)的種類、特點(diǎn)及其相互之間的關(guān)系。因此在挖掘前,需要對(duì)數(shù)據(jù)有一個(gè)大致的判斷,判斷各類數(shù)據(jù)的屬性和基本價(jià)值與信息,并能預(yù)測(cè)所分析的結(jié)果,和采用分析的工具及其分析的方法。以城鎮(zhèn)土地為例,其土地定級(jí)是對(duì)不同區(qū)域的土地價(jià)格進(jìn)行區(qū)分,經(jīng)過(guò)對(duì)區(qū)域內(nèi)相關(guān)數(shù)據(jù)的采集、計(jì)算、驗(yàn)證、除錯(cuò)等計(jì)算出該區(qū)域版塊土地的價(jià)格,接著實(shí)施空間上的聚類,以此完成土地級(jí)別的確定[3]。
針對(duì)土地定級(jí),數(shù)據(jù)挖掘技術(shù)的基本方法主要是聚類分析法,傳統(tǒng)聚類分析主要包括:劃分方法、層次方法以及基于密度的方法、基于網(wǎng)格的方法和基于模型的方法。此外,基于上述方法的前提下,土地定級(jí)中也常用到遺傳分析法,這種方法的測(cè)定是由土地的效用所導(dǎo)致的并且不受到樣本集方差分布的影響,這種基于遺傳算法的空間聚類方法應(yīng)用廣泛。遺傳算法首先可將需要定級(jí)的土地進(jìn)行編碼,并采用二進(jìn)制、十進(jìn)制、灰度和DNA等方式進(jìn)行編碼,然后隨機(jī)選取構(gòu)成初始種群,接著計(jì)算適應(yīng)值并進(jìn)行復(fù)制,通過(guò)遺傳算子來(lái)產(chǎn)生新的種群,最后收斂到一個(gè)最適應(yīng)環(huán)境的個(gè)體上獲得最優(yōu)解,即選擇、交叉和變異3個(gè)操作。
其次,決策樹分類算法也應(yīng)用得比較多。通過(guò)構(gòu)建一個(gè)分類模型并建立一個(gè)決策樹模型,由此揭示土地?cái)?shù)據(jù)之間的分類規(guī)則,該方法在土地定級(jí)過(guò)程中得到廣泛認(rèn)可[4]。
在土地定級(jí)中,決策樹被表示為一種類似流程圖的模式,根據(jù)層次的不同分為根節(jié)點(diǎn)、分支節(jié)點(diǎn)和葉子節(jié)點(diǎn),其中根節(jié)點(diǎn)是整個(gè)決策的起點(diǎn)。決策樹的算法有很多,常見的決策樹結(jié)構(gòu)如圖1所示,決策樹算法見表1。

表1 決策樹常見算法

圖1 決策樹結(jié)構(gòu)
在數(shù)據(jù)挖掘中,可通過(guò)對(duì)4種算法在生成決策樹的結(jié)構(gòu)、對(duì)屬性采用的測(cè)試方法、屬性處理方式等方面的比較,確定土地定級(jí)的研究方法。決策樹算法還可以用于可視化空間數(shù)據(jù)的挖掘、空間目標(biāo)分類以及土地定級(jí)估價(jià)。
3.2.1 加大政策資金支持力度
相關(guān)主管部門要嚴(yán)格按照土地定級(jí)有關(guān)的法律法規(guī),嚴(yán)格執(zhí)行土地定級(jí)的標(biāo)準(zhǔn),部門之間開展跨部門合作,定級(jí)部門要和信息部門通力合作,積極獲取區(qū)域土地資源數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)需要配套的設(shè)備和人力資源,同時(shí)會(huì)產(chǎn)生一定的經(jīng)濟(jì)成本。相關(guān)部門可與高校、企業(yè)組織等展開合作,由政府部門牽頭,合理運(yùn)用高校的技術(shù)資源和社會(huì)組織的資金資源,為搭建土地頂級(jí)信息系統(tǒng)奠定基礎(chǔ)。
3.2.2 構(gòu)建土地定級(jí)信息系統(tǒng)
首先,在國(guó)土資源“一張圖”的背景下,立足于國(guó)土空間基礎(chǔ)信息平臺(tái),運(yùn)用高分辨率遙感影像進(jìn)行挖掘,以“三調(diào)”成果為統(tǒng)一底版,建立區(qū)域內(nèi)的土地資源數(shù)據(jù)庫(kù)。其次,將GIS與數(shù)據(jù)挖掘技術(shù)集成構(gòu)建土地定級(jí)專業(yè)信息系統(tǒng),通過(guò)GIS提供海量的數(shù)據(jù)資源平臺(tái),再通過(guò)數(shù)據(jù)挖掘技術(shù)進(jìn)行知識(shí)推理挖掘,開發(fā)面向數(shù)據(jù)挖掘技術(shù)和土地定級(jí)的系統(tǒng)模型,包括以下功能模塊:土地區(qū)域地理挖掘模塊、土地區(qū)域經(jīng)濟(jì)挖掘模塊、系統(tǒng)庫(kù)管理模塊和可視化表達(dá)模塊[4]、土地定級(jí)模塊,進(jìn)一步深化數(shù)據(jù)挖掘技術(shù)在土地定級(jí)中的應(yīng)用。在選擇并整合土地?cái)?shù)據(jù)的基礎(chǔ)上,獲取土地定級(jí)的關(guān)聯(lián)規(guī)則,并將這些規(guī)則和其他元素用于后期編碼和聚類實(shí)驗(yàn)。
大數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展過(guò)程中,其提供的時(shí)空大數(shù)據(jù)信息資源十分豐富,因此可采用多源時(shí)空數(shù)據(jù)進(jìn)行收集存儲(chǔ)、分類匯聚和關(guān)聯(lián)分析,通過(guò)海量模糊時(shí)空信息的挖掘、映射、反演獲取新型的數(shù)據(jù)產(chǎn)品,多維度進(jìn)行地表土地資源分析,參考“三調(diào)”分類方案實(shí)現(xiàn)結(jié)構(gòu)屬性編碼統(tǒng)一,并通過(guò)空間綜合映射土地的范圍和模型,結(jié)合多場(chǎng)景特征和分類權(quán)重進(jìn)行判斷,最后實(shí)現(xiàn)空間聚合分析,補(bǔ)充原有產(chǎn)品的不足,決策者可迅速獲得地區(qū)土地的相關(guān)模式及規(guī)則,運(yùn)用空間聚類分析進(jìn)行土地定級(jí),最終實(shí)現(xiàn)土地的科學(xué)定級(jí)[5]。
值得注意的是,在系統(tǒng)設(shè)計(jì)中,充分利用當(dāng)前計(jì)算機(jī)信息技術(shù)的優(yōu)勢(shì),將空間數(shù)據(jù)挖掘技術(shù)與數(shù)據(jù)庫(kù)、可視化、人工智能等多種相關(guān)技術(shù)相結(jié)合,建立一套完整的、具有復(fù)制性、可用性的信息系統(tǒng)。各級(jí)用戶可以通過(guò)可視化的信息操作系統(tǒng)進(jìn)行信息化處理,如“土地定級(jí)及基準(zhǔn)地價(jià)動(dòng)態(tài)更新系統(tǒng)”等可實(shí)現(xiàn)從宏觀到微觀。從縱向到橫向,增強(qiáng)了輔助決策和空間分析能力。
3.2.3 完善土地定級(jí)評(píng)價(jià)體系
土地定級(jí)是復(fù)雜的系統(tǒng)工程,在土地定級(jí)過(guò)程中不僅需要科學(xué)的土地評(píng)價(jià)體系,同時(shí)針對(duì)土地定級(jí)結(jié)果也需要有科學(xué)的后期評(píng)價(jià)體系,這是多個(gè)體系的融合才能得出既能在全國(guó)范圍內(nèi)反映宏觀地帶性分異規(guī)律又能在區(qū)域范圍內(nèi)反映非地帶性分異規(guī)律的土地定級(jí)成果[6],同時(shí)明確人為活動(dòng)對(duì)土地定級(jí)的短期影響,并將土地貨幣差異性的內(nèi)容納入土地定級(jí)考量中。
3.2.4 提升人員專業(yè)素質(zhì)
不論是土地資源數(shù)據(jù)的采集,還是土地資源數(shù)據(jù)庫(kù)的建立以及數(shù)據(jù)挖掘技術(shù)的實(shí)施,甚至是后期的數(shù)據(jù)更新維護(hù),都需要專業(yè)的技術(shù)人才。因此人員的專業(yè)素質(zhì)必須得到保證,定期的專業(yè)培訓(xùn)有助于提升相關(guān)人員的專業(yè)素質(zhì)。
本文以城鎮(zhèn)土地定級(jí)為例,探討數(shù)據(jù)挖掘技術(shù)的可操作性和應(yīng)用步驟。一般包括從數(shù)據(jù)源中搜集數(shù)據(jù)到數(shù)據(jù)庫(kù)里,并對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后成為待定數(shù)據(jù)集,通過(guò)對(duì)這些數(shù)據(jù)集的挖掘提取需要的信息并進(jìn)行相關(guān)模式的展示和評(píng)價(jià),最后得到有價(jià)值的知識(shí)。簡(jiǎn)而言之,就是選定土地區(qū)域后進(jìn)行樣本點(diǎn)的價(jià)格計(jì)算,并通過(guò)一定計(jì)算剔除異常數(shù)值,最后選取有效樣本得到土地定級(jí)和定價(jià)。
3.3.1 數(shù)據(jù)源采集
數(shù)據(jù)源是參與定級(jí)的土地的集合。以城鎮(zhèn)土地為例,所收集的數(shù)據(jù)包括:繁華程度、交通條件、基礎(chǔ)設(shè)施、環(huán)境條件和城鎮(zhèn)規(guī)劃等相關(guān)數(shù)據(jù)皆可作為數(shù)據(jù)源進(jìn)行采集。
3.3.2 獲取樣本空間
首先,對(duì)樣本進(jìn)行定價(jià)。對(duì)于城鎮(zhèn)土地,要將住宅或者商業(yè)服務(wù)的區(qū)域運(yùn)用樓面地價(jià)進(jìn)行展示,對(duì)于工業(yè)用地使用地面地價(jià)進(jìn)行展示,而農(nóng)用土地還要在地面地價(jià)的基礎(chǔ)上考慮農(nóng)產(chǎn)品的各類經(jīng)濟(jì)價(jià)值因素。
其次,剔除異常值。由于搜集數(shù)據(jù)的方式與樣本不同,因此樣點(diǎn)數(shù)據(jù)存在一定的差異,所以在數(shù)據(jù)利用之前需要“去除糟粕”,剔除異常數(shù)據(jù)是最常見的做法。異常值數(shù)據(jù)是相同片區(qū)范圍內(nèi)相同的土地運(yùn)用種類樣本里,由于外界環(huán)境干擾因素引起的與其他樣本之間產(chǎn)生的差異。
3.3.3 采用聚類法進(jìn)行土地定級(jí)解釋
土地定級(jí)中聚類法常常應(yīng)用于空間土地片區(qū)的測(cè)算。首先,在數(shù)據(jù)進(jìn)行初始化時(shí)需要以數(shù)據(jù)的聚類為核心,先對(duì)數(shù)據(jù)進(jìn)行分組,如果數(shù)據(jù)與數(shù)據(jù)的相似性較高,那么每個(gè)組的組間距就越大(反之亦然),間距越大的組其聚類效果就越好。其次,確定聚類的方法。由于聚類法也有多種操作方法,但就土地定級(jí)而言比較適用的方法為層次聚類法中的分裂層次聚類法,將土地的分類,自最頂層向下進(jìn)行分類,直到出現(xiàn)一個(gè)數(shù)據(jù)點(diǎn)只含有一個(gè)數(shù)據(jù)為止。比如最頂層為一片土地區(qū)域可以假設(shè)定義為耕地,將其拆分為水田、旱地、林地等等,再將水田拆分為山區(qū)水田、丘陵水田,再根據(jù)其數(shù)據(jù)指標(biāo)拆分為寬度、坡度、深度等具體指標(biāo)。最后計(jì)算每?jī)山M數(shù)據(jù)之間的最小距離,并將最小的兩個(gè)類別合成一個(gè)新類,直到合并成一類為止,通過(guò)這種方法可以較好地對(duì)土地分級(jí)進(jìn)行解釋,聚類水平越高其解釋度就越好。
3.3.4 路徑距離分析法
在結(jié)合聚類法的基礎(chǔ)上,可以采用路徑距離分析法進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行挖掘與處理。路徑距離分析法是計(jì)算一個(gè)源到每個(gè)像元的最低累計(jì)成本,以柵格的形式輸出。應(yīng)用到土地定級(jí)中不僅可以計(jì)算表面累計(jì)成本,也可以計(jì)算因地表起伏引起的實(shí)際曲面距離累計(jì)成本。其具體方法包括3種:計(jì)算相鄰節(jié)點(diǎn)成本;計(jì)算累計(jì)成本;計(jì)算對(duì)角線節(jié)點(diǎn)成本。通過(guò)這種方式結(jié)合所獲得的土地指標(biāo)數(shù)據(jù)可以計(jì)算出土地的等級(jí),如土地的經(jīng)濟(jì)價(jià)值、利用價(jià)值等。
在具體數(shù)據(jù)挖掘上,首先對(duì)相關(guān)數(shù)據(jù)進(jìn)行提取,分析數(shù)據(jù)的影響因子、障礙數(shù)據(jù)、DEM數(shù)據(jù)等,在確定各影響因子、作用半徑、作用分值和權(quán)重后,利用地形圖數(shù)制作數(shù)字高程模(Digital Elevation Model,DEM),實(shí)地考察確定不可直接通過(guò)的“障礙”因素;根據(jù)點(diǎn)線面影響因子的特性選擇衰減模型,得出單因子作用分值圖;其次選擇數(shù)據(jù)衰減模型(指數(shù)衰減、線性衰減、無(wú)衰減)。再次,計(jì)算作用分值并對(duì)各影響因子加權(quán)求和;最后,土地定級(jí)(利用多因素綜合法疊加得出總的作用分值圖,根據(jù)總分值頻率直方圖確定土地定級(jí)圖)。
隨著數(shù)據(jù)獲取方式的科技化,與空間區(qū)位有關(guān)的數(shù)據(jù)被搜集。在對(duì)數(shù)據(jù)的研究過(guò)程中,空間數(shù)據(jù)挖掘技術(shù)通過(guò)創(chuàng)新的空間聚類方式對(duì)土地進(jìn)行定級(jí)區(qū)分,這對(duì)土地定級(jí)環(huán)節(jié)有至關(guān)重要的作用,也影響著土地的利用效率。