文/嚴偉銘 潘善亮
在本文中,我們嘗試著使用異常數據挖掘的方法來進行國土行業的數據分析與策略支持研究,并希望該方法可以對未來的國土行業數據處理方面提供幫助。
在數據集中,通常會有一些不規律的數據我們稱之為異常數據,在很長的時間里,大家一直把這類異常數據當做噪聲或者是一些意外產生的數據;但在一些實際應用中,我們發現這些異常數據更有價值;對這些異常數據的分析被當做是異常數據挖掘。
為了闡明異常數據挖掘,我們引入了一個概念:異常數據索引。
對于集合Q,有一個P屬于Q,我們將點d(P,x)定義為在P和x之間的距離(x屬于Q),在集合Q的這些數據點,我們將其按序列大小收集起來,即(d(p,x),d(p,x)_d(p,x))。我們把d(P,x)的距離k稱為k(p)。而如果有一個點(屬于集合Q),它離點p的距離小于k(P),我們稱之為p點的近鄰;也就是說,:
定義1:對于給定的整數k,屬于集合Q的點p的可訪問距離可以被定義為:

定義2:定義點p和k-鄰位之間的可訪問的平均距離為點p的k-鄰位的分布密度,也就是:

指的是k-鄰位的5個點,而Rd k(p)指的是分布密度p點周圍的點。
定義3:指數的異常值。

它可以從異常值的定義中清楚地說明它提出了一個相對的異常值的定義。它利用了相鄰點的密度和密度之間的比值點的密度來定義具有不同分布密度的異常值的數據組。在相鄰與相鄰點之間的密度和它的數據點之間的密度應該大于其他正常數據點。這就是為什么異常值可以有效的定義異常值的原因。
異常數據挖掘。該方法基于國土風險管理數據的特點,我們設計了三個關鍵步驟,將異常數據挖掘與土地風險管理相結合。首先,收集和整理數據。其次,挖掘異常數據。最后,分析我們從這一步得到的異常數據。
最后,我們得出如下結論:
(1)每集的輸入點P,獲得通過k鄰點斑點,并保存所有k鄰點每個點和點之間的距離P;
(2)對于每一個輸入集點P,K鄰點獲得每個景點之間的距離和點P,在序列的大小和范圍;
(3)數據點p,計算它的可訪問距離和密度以及它的k-鄰居5;
(4)計算每個數據點的離群值,并在大小序列中進行范圍;
(5)將前n的位置設置為離群值數據點集并返回集合。根據離群值的時間序列數據,該算法可以大致劃分為兩個部分:一個是對數據點的k-鄰居的查詢;另一種是對離群值的計算。對數據點的k鄰居的查詢是基于MDIT的,時間的復雜性基于索引的算法是O(nlgn)。然后通過定義l和定義2,獲得位置5 k鄰居,計算朝臣的索引,算法的時間復雜度為0(n)。
國土行業是犯罪的高發區,主要是企業與政府內部貪腐造成的。具體表現如下:
(1)地價異常:某塊區域的地價呈現過低或者過高的表現。
(2)土地用途的異常:國土用地主要分為三類:建設用地、農用地、未利用地,三類用途的土地所需繳的費用不同,很多企業利用土地用途的變化進行犯罪。

表1

表2:異常數據點

圖1:價格位置分布圖

圖2:聚類點
(3)招拍掛異常:土地拍賣需要進行招拍掛,而對參與招拍掛的企業國土部門可以設置各類的準入條件,這種準入條件有時會被腐敗分子故意設置成篩選指定企業的工具,造成符合條件能參與招拍掛的企業只有極少數,從而造成招拍掛流程的弄虛作假。
(4)三公用費異常:這類異常主要是因為三公經費出現不符合規定的使用情況。
因此,國土部門應找到一種加強監管的正確和有效的途徑,對土地系統內部的數據進行分析,對國土行業內部的各類數據進行全面的了解,再根據這些了解分析來防范土地犯罪的產生。
數據來源:本文所使用的數據是寧波某地區的土地數據,本文選取了典型的31個樣本,用于模型試驗。
實證結果:我們可以通過對異常數據的分析和建模來進行土地數據的風險識別和評估。
根據圖1、圖2和表1、表2我們可以發現,通過對土地數據進行數據挖掘,我們得到一些異常數據,而這些異常數據的分析可以很清晰幫我們發現這些數據的重點。
(1)我們選擇兩個風險變量作為異常數據挖掘的輸出,即土地價格和土地位置。在接下來的階段,我們需要使用異常數據挖掘技術來分析數據。
(2)首先,我們將土地的價格和位置分配到圖1中,我們可以看到每塊地的的分布。其次,根據這些基本數據,我們發現異常的值并不超過五個,于是我們設n=O k=3,接著再自由地選擇6個沒有標記的點進行數據收集,并計算它們的離群值。找出異常值的位置是最小的,并將其放入正常的數據收集中。在原始的集合中標記位置。找到在新標記的區域周圍的周圍區域的其他區域。同樣的,把它放在非離群值的集合中,并記住標記它。最后,我們在表2中獲得了4個異常值。
(3)通過數據挖掘技術,我們得到表2中的4個離群值數據點。后通過對異常數據的分析,我們發現表2中的數據1和數據2的價格太低了。
我們可以推斷出他們是異常土地塊,我們的國土部門應該進一步調查。因此,該模型可用于幫助風險管理確定。
結合土地風險管理的理論與實踐,全面介紹了異常值和異常數據挖掘的風險識別與評價指標。首先,我們收集并組織一些有價值的數據,為下一步的工作奠定基礎。其次,我們利用離群挖掘技術找出四個異常數據。最后,我們測試上述情感作用模型實證分析。通過這種方式,可以有效的提高國土資源的監管。