呂曹芳
(解放軍炮兵學院,安徽合肥 230031)
基于GIS的空間數據挖掘研究進展
呂曹芳
(解放軍炮兵學院,安徽合肥 230031)
基于GIS的空間數據挖掘技術,歸納了空間數據挖掘所能發現的知識類型和主要方法,分析了其主要研究方向和成果,著重討論了基于GIS的空間數據挖掘的框架結構與基本流程,并給出了它的基本框架和流程圖,提出了基于GIS的空間數據挖掘未來的發展趨勢。
GIS;空間數據挖掘;空間關聯規則;空間聚類
空間數據挖掘(Spatial Data Mining,SDM)指的是從空間數據庫中抽取隱含的知識、空間關系或非顯式地存儲在空間數據庫中的其它模式等[1]??臻g數據是地理信息系統的重要數據,可以是地表在地理信息系統中的二維投影,也可以是多維的立體數據。由于雷達、衛星、傳感器等技術的飛速發展,空間數據的數量、大小和復雜性都在快速的增加。空間數據挖掘就是處理空間數據的技術方法,是挖掘出隱藏在空間數據庫中的非顯性知識、空間關系等。
空間數據挖掘是在空間數據庫的基礎上,綜合利用統計學方法、模式識別技術、人工智能方法、神經網絡技術等,從大量的空間數據、管理數據、經營數據或遙感數據中獲取人們可信的、新穎的、感興趣的、隱藏的、事先未知的、潛在有用的和最終可理解的知識,從而揭示出隱含在數據背后的規律、內在聯系以及發展趨勢[1]。概括的說,空間數據挖掘是指從空間數據庫中提取隱含的、用戶感興趣的空間和非空間的模式、普遍特征、規則和知識的過程。
GIS從本質說是一個空間數據管理系統,將空間數據挖掘技術應用于GIS,是將GIS中的數據轉化成知識的有效方法。
空間數據挖掘技術在 GIS中的應用,國內外已有不少學者做過研究。頗有代表性的有:加拿大的西蒙弗雷澤大學、德國的幕尼黑大學、芬蘭赫爾辛大學以及美國等許多研究機構和大學都有很多相關研究成果報道。這些成果主要是提高原有數據挖掘算法在空間數據庫上的執行效率,Ester等[2](P47-66)人在鄰接圖理論的基礎上提出了一個基于ID3算法的空間分類算法。Koperski[3](P45-55)提出了兩步分類算法:首先,用較少代價的空間計算獲得一個近似的空間謂詞并同時進行相關分析,其次,對模型進行更深的精化計算,從而獲得一個更精確、更小的決策樹。1994年在加拿大渥太華舉行的 GIS國際會議上,李德仁院士首次提出了從 GIS數據庫中發現知識的概念,他系統分析了空間知識發現的特點和方法,認為從GIS數據庫中可以發現包括幾何特征、空間關系和面向對象的多種知識,能夠把 GIS有限的數據變成無限的知識,可以精練和更新GIS數據,使GIS成為智能化的信息系統,并第一次從 GIS空間數據中發現了用于指導 GIS空間分析的知識[1]。Han和Kamber[4]在其數據挖掘專著中,系統講述了空間數據挖掘的概念和技術。Lu,Han和 Ooi[5](P275-289)提出了面向屬性歸納的基于概化的空間數據挖掘方法, Koperski和 Han[6](P47-66)提出了一種逐步求精的空間關聯規則挖掘方法。肖平等[7]人利用神經網絡技術建立了遙感影像分類方法,呂安民等[8-10]對調查統計數據的空間分布化進行了深入的研究并提出了若干計算模型。
另外,在空間數據挖掘系統的開發方面,國際上有代表性的通用SDM系統有:GeoMiner,Descartes和Arcview GIS的S-PLCS接口[11]。加拿大Simon Fraser大學計算機科學系的數據挖掘研究小組,建立了空間數據挖掘的原型系統 GeoMiner,實現了空間數據特征描述、空間區分、空間關聯、空間聚類和空間分類等空間數據挖掘方法。ESRI公司開發的Arcview GIS的S-PLCS接口,提供了工具分析空間數據中指定的類。Descartes支持可視化的分析空間數據,它和數據挖掘工具Kepler動態連接,把傳統數據挖掘與地圖可視化結合了起來。在國內,武漢大學、中科院地理所資源與環境信息系統國家重點實驗室、中科院遙感所、中科院軟件所、中國測繪科學研究院等都已經開展了空間數據挖掘的研究[12](P2-5)。
空間數據挖掘是數據挖掘的分支,主要挖掘的對象是空間數據庫,常用的方法有:空間分析方法、統計分析方法、歸納學習方法、聚類與分類方法、探測性的數據分析方法、粗糙集方法、云理論、空間特征和趨勢探測方法、空間關聯規則挖掘方法等[13]。
(1)空間分析方法:是利用 GIS的各種空間分析模型和空間操作對空間數據庫中的數據進行深加工,從而產生新的信息和知識。
(2)統計分析方法:是分析空間數據的常用方法,著重于空間物體和現象的非空間特性的分析。統計方法有較強的理論基礎,擁有大量成熟的算法。
(3)歸納學習方法:是對大量的經驗數據進行概括和綜合,歸納出高層次的規則和模式,其大部分算法來源于機器學習領域。
(4)聚類與分類方法:是按一定的距離或相似性系數將數據分成一系列相互區分的類。常用的經典聚類方法有 K-mean,K-meriod,等。
(5)探測性的數據分析方法:是李德仁、邸凱昌[1,3]等提出的探測性的數據分析,是采用動態統計圖形和動態鏈接窗口技術將數據及統計特征顯示出來,可發現數據中非直觀的數據特征及異常數據。
(6)粗糙集方法:是由波蘭華沙大學Z.Paw lak教授在1982年提出的一種智能數據決策分析工具,被廣泛研究并應用于不精確、不確定、不完全的信息的分類分析和知識獲取。
(7)云理論[1,14]:是李德仁、邸凱昌等為解決模糊集在隸屬度概念上的不確定性而提出的一種新理論,包括云模型、虛云、云運算、云變換和不確定性推理等主要內容。
(8)空間特征和趨勢探測方法:是 Ester等人在第4屆 KDD國際研討會上提出的基于鄰域圖(Neighborhood Graphs)和鄰域路徑(Neighborhood Path)概念的挖掘算法。
(9)空間關聯規則挖掘方法:關聯規則挖掘首先由Agrawal等提出,主要是從超級市場銷售事務數據庫中發現顧客購買多種商品時的搭配規律[5](P275-289)。
空間數據挖掘所能發現的空間知識主要包括空間的關聯、分類、聚類等規則。GIS數據庫是空間數據庫的主要類型,可以從中發現的知識主要有以下幾種:空間分布規律、空間關聯規則、空間特征規則、空間區分規則、空間分類規則、空間聚類規則等[1]。
(1)空間分布規律(Spatial Distribution Rules),是指地理目標(現象)在地理空間的分布規律。如高山植被的垂直分布規律,不同區域地物的差異等。
(2)空間關聯規則(Spatial Association Rules),是將空間數據庫的訪問技術與事物數據庫中常用的關聯規則挖掘算法相結合,可以有效地挖掘出隱藏在數據背后的知識、規則等。
(3)空間特征規則 (Spatial Characteristic Rules),空間特征規則是指對某類或幾類空間目標的幾何和屬性的共性特性。共性的幾何特征是指某類實體的位置、形態特征、坡度等普遍的特征??臻g屬性特征指對象的數量、大小、面積、周長等非幾何特性。
(4)空間區分規則(Spatial Discriminate Rules),指兩類或幾類空間目標之間幾何的或屬性的不同特性,即可以區分異類目標的特征。
(5)空間分類規則 (Spatial Classification Rules),是指根據目標的空間或非空間特征,利用分類分析將目標劃分為不同類別的規則。
(6)空間聚類規則(Spatial Clustering Rules),是指根據空間目標特征的相近程度將它們劃分為不同的類中。
空間數據挖掘不同于一般的數據挖掘,主要區別是空間數據挖掘比一般數據挖掘的發現狀態空間理論增加了空間尺度[2](P47-66)。文獻[15]提出了基于空間事務的空間關聯規則挖掘框架,本文在它的基礎上結合 GIS特點,設計了一個面向 GIS的空間數據挖掘的基本框架,如圖1所示。
面向GIS的空間數據挖掘的過程大致可分為:確定挖掘內容、數據獲取、數據預處理、挖掘方法選擇、過程處理、挖掘知識應用。

圖1 空間數據挖掘的基本框架圖
確定挖掘內容,是了解挖掘領域的知識和背景,選擇所要研究的內容,對預期結果有初步的了解;數據獲取,是從 GIS數據庫中搜索出與挖掘任務相關的空間數據或者屬性數據;數據預處理,一般是濾除噪聲、處理缺值或丟失數據等;挖掘方法選擇,是根據數據特點和應用要求等選擇適合的方法;過程處理是整個挖掘的關鍵步驟,它是從變換過后的數據中發現隱藏的知識、特征或者模型;最后將挖掘的知識應用當前的研究領域,也可以擴展應用于其它的領域[4]。
K.Koperski等[6](P47-66)人基于事務型數據庫的挖掘研究提出了挖掘空間數據的過程,對挖掘的過程進行系統結構化,大致分成3層結構:用戶界面、挖掘機、數據庫。用戶先通過空間查詢功能獲取與問題領域相關的數據,再利用空間數據挖掘技術中的方法分析數據,最后使用可視化工具將獲取的知識再反饋給用戶。借鑒了K.Koperski等人提出的體系結構,圖2給出了一種面向 GIS的空間數據挖掘的基本流程。

圖2 空間數據挖掘基本流程圖
首先用戶提出問題,系統接受用戶的要求,將其轉化為GIS數據庫模塊的輸入參數。挖掘向導接受用戶的命令,觸發空間數據挖掘核心模塊。用戶則根據需要選擇挖掘技術,對預處理后的數據進行挖掘。挖掘后的知識再通過提取反饋給用戶。
基于GIS的數據挖掘主要是空間數據和屬性數據一體化的挖掘模式,與按傳統的通過查詢方式獲得的知識相比,它是一種更深層次的數據處理分析。目前在這一領域的研究取得了一些成功,但未來的發展中,還有很多理論和方法有待進一步研究。
(1)改進挖掘的算法和效率:基于 GIS數據挖掘這一塊,因為有它自身領域的知識,如果用空間數據挖掘的通用技術,這必然導致地理數據庫中問題的維數較大,既增大了挖掘算法的搜索空間,也增加了盲目搜索的可能性。因此要結合GIS數據和領域本身的特點改進算法,提高算法的效率以及設計出更好的相關挖掘算法。
(2)綜合式挖掘模式:在面向 GIS挖掘其隱含知識規則方面,采用某種單一的方法往往挖掘出的知識甚微,比如經過空間分類、聚類后的數據再進行空間關聯規則的挖掘,比采用單一的方法獲得的知識更多更有效。因此需要通過幾種挖掘技術并行的綜合挖掘模式挖掘,才能從大量的 GIS數據中挖掘出更多更有用的知識。所以未來的研究還應該在幾種方法的融合方面繼續發展。
(3)挖掘結果的可視化顯示:基于 GIS數據的一些特點,人們習慣于接受它可視化的數據。因此對于挖掘者來說,僅僅挖掘知識規則是不夠的,還要能夠將知識規則轉化成易于被用戶理解的可視化的圖形(圖像)。
(4)GIS軟件、空間數據庫與數據挖掘技術的集成:當前的GIS軟件和空間數據庫還不能有效地支持數據挖掘,而是通過先提取相關數據,再利用挖掘技術對數據進行挖掘,這種方式可以說增大了挖掘的工作量,降低了挖掘的效率。所以未來的研究還會向實現三者的集成應用方面發展。
(5)與RS的集成挖掘:遙感獲得的地物電磁波特性數據綜合地反映了地球上許多自然、人文信息。空間數據庫如果真正實現了面向對象的數據模型,那么直接從面向空間實體的數據或多源空間數據中挖掘知識將可能實現。
空間數據挖掘技術對GIS數據進行更高層次的分析,能從空間數據庫中抽取隱藏的、為人們感興趣的空間模式和特征、空間和非空間數據之間的概要關系以及其它概要數據特征。本文主要研究了面向GIS的空間數據挖掘技術,描述了空間數據挖掘所能發現的知識類型和主要方法,研究了面向 GIS的空間數據挖掘的框架結構與基本流程,并給出了它的框架圖以及流程圖。在研究近年來本領域的文獻資料提出了基于GIS的空間數據挖掘未來的發展方向。
[1]李德仁,王樹良,史文中,等.論空間數據挖掘和知識發現[J].武漢大學學報(信息科學版),2001,26(6):491-499.
[2]M.Easter,H.P.Kriegel and J.Sanuer.Spatial Data Mining:A Database App roach[A].In:Proc 5th int Symposium on Large Spatial Database(SSD97,Lecture Notes in Computer Science[C].Berlin,Heideberg:Springer,1997.
[3]K.Koperski,J.W.Han and N.Stefanovic.An Efficient Two-Step Method for Classification of Spatial Data[A]. In:Proceedings of the International Symposium on Spatial Data Handling(SDH’98)[C].Vancouver,1998.
[4]J.W.Han and M.Kamber.數據挖掘概念與技術[M].北京:機械工業出版社,2001.
[5]W.Lu,J.W.Han and B.C.Ooi.Discovery of General Know ledge in Large Spatial Databases[A].In:Proc.Far East Workshop on Geographic Information Systems[C]. Singapore,1993.
[6]K.Koperski and J.W.Han.Discovery of Spatial Association Rules in Geographic Information Databases[A].In: Advance sin Spatial Databases,Proceedings of 4th Symposium(SSD’95)[C].Berlin,Heideberg:Springer,1995.
[7]肖平,李德仁.基于人工神經元網絡技術的土地利用覆蓋變化探測[J].武漢大學學報(信息科學版),2002,27(6): 586-591.
[8]呂安民,李成民,史文中,等.中國省級人口增長率及其空間關聯分析[J].地理學報,2002,57(2):143-150.
[9]呂安民,李成名,林宗堅.基于空間統計分析的關聯規則應用研究[J].計算機科學,2001,29(4):53-54.
[10]呂安民,李成名,林宗堅.基于相關數學模型的關聯規則應用研究[J].計算機科學,2002,29(5):104-106.
[11]蔣昊.基于空間數據庫的數據挖掘技術[J].武漢科技大學學報(自然科學版),2002,25(2):183-186.
[12]周海燕.空間數據挖掘的研究[D].鄭州:解放軍信息工程大學(博士學位論文),2003.
[13]李德仁,王樹良,李德毅,等.論空間數據挖掘和知識發現的理論與方法[J].武漢大學學報(信息科學版),2002,27 (3):221-233.
[14]張雪伍,蘇奮振,石憶邵,等.空間關聯規則挖掘研究進展[J].地理科學進展,2007,26(6):119-128.
A Study Summary of Spatial Data Mining Based on GIS
LV Cao-fang
(Artillery Academy of PLA,Hefei230031,China)
This thesis studies the technique of spatial data mining to GIS,enriches the theory and methods of spatial data processing.This thesis discusses spatial data mining that can discover the type and the primary means of know ledge,systematically studies the methods of GIS spatial data mining,and provides the flow chat of spatial data mining for GIS and the basic process suitable for GIS.The frontier research and the trends in future were brought out.
GIS;spatial data mining;spatial association rules;spatial clustering
TP274
A
1009-9735(2010)02-0043-04
2010-01-06
呂曹芳(1979-),女,安徽六安人,碩士,助教,研究方向:數據挖掘。