羅興賢+李巧玲+周智勇+高江錦
摘要:地質公園的地質遺跡具有高度的景觀價值,而公園的地質遺跡數據庫中保存有這些地質遺跡的位置數據;空間數據挖掘就是根據空間點的位置關系來獲取空間點的有價值信息;DBSCAN算法是一種基于密度的空間聚類方法;通過將地質遺跡數據庫中的地質遺跡的原始位置信息轉換為便于數據挖掘所使用的形式,采用DBSCAN算法對地質遺跡進行聚類,為地質公園制作景區劃分方案提供科學依據。
關鍵詞:地質公園;地質遺跡;景區;空間數據挖掘;DBSCAN
中圖分類號:TP39 文獻標識碼:A 文章編號:1007-9416(2017)07-0118-03
1 引言
地質公園是以具有一定規模和分布范圍的、有代表意義的地質遺跡為主體,并融合其他自然景觀或人文景觀構成的特定地區,它具有特殊的科學意義、稀有的自然屬性、優雅的美學觀賞價值。
對于以地質遺跡為本的地質公園,要以科學發展觀為指導思想,嚴格遵循“保護優先,科學規劃,合理利用”的原則,確保公園所在地區的經濟可持續發展的目標。對于地質公園獨特的自然遺產與文化遺產首先要進行妥善的保護,在此基礎上,再提供相應的科學研究、科普教育以及旅游經濟開發。
地質公園主要以地質遺跡為觀賞景點,而地質遺跡主要是由于自然或歷史原因而產生的,具有獨特的自然屬性,地理位置固定,具有人工難以構建的特點,決定了地質公園景區的劃分必須圍繞地質遺跡這個核心來進行合理規劃,在保護地質遺跡的前提下,提供其觀賞價值,來進行旅游經濟開發。
地質遺跡的相關信息一般存在于地質遺跡數據庫中,其中就包含了地質遺跡的空間位置信息,要從這些地質遺跡的空間位置信息中來劃分景區[1],利用空間數據挖掘技術是一個有效的手段。
2 空間數據挖掘
2.1 空間數據挖掘的概念
空間數據挖掘(Spatial Data Mining)是指在空間數據庫的基礎上,綜合利用統計學方法、模式識別技術、人工智能方法、神經網絡技術、粗集、模糊數學、機器學習、專家系統和相關信息技術等,從大量的空間生產數據、管理數據、經營數據或遙感數據中析取人們可信的、新穎的、感興趣的、隱藏的、事先未知的、潛在有用的和最終可理解的知識,從而揭示出蘊含在數據背后的客觀世界的本質規律、內在聯系和發展趨勢,實現知識的自動獲取,提供技術決策與經營決策的依據[2]。可見,它是利用數據挖掘方法,按照一定的度量值和臨界值從空間數據庫中抽取知識以及與之相關的預處理、抽樣和數據變換的一個多步驟相互鏈接、反復進行的人機交互過程。
2.2 空間數據挖掘的過程
空間數據挖掘包括四個主要的過程:數據預處理、數據挖掘、結果解釋、知識表示[3]。整個過程是一個不斷循環和反復的過程,因上可對所發掘出的知識不斷求精和深化,其挖掘過程可用圖1來表示。
2.3 空間數據挖掘的方法
常見的空間數據挖掘方法有:基于概率統計的分析方法、基于泛化和歸納的方法、基于聚類的方法、基于分類的方法、基于空間關聯的方法、決策樹方法、神經網絡方法、遺傳算法、支撐向量機(SVM)、圖像分析和模式識別、Rough集方法和云理論方法等[4]。
3 空間數據挖掘方案
3.1 挖掘方法的選擇
由于地質公園的地質遺跡數據庫在記錄地質遺跡的時候,通常把地質遺跡抽象為一個個的點來看,并記錄下這些點的經度和緯度等與位置相關的信息,因此,擬采用空間點聚類方法中的經典算法——DBSCAN算法來對地質遺跡分布進行景區劃分[5][6]。
3.2 DBSCAN算法簡介
在基于點聚類的空間聚類算法中,DBSCAN算法是一種經典算法,它是基于密度的空間聚類方法。它的基本原理是采用一定鄰域內包含空間實體的最小數目來定義空間密度,并通過不斷增長高密度區域進行空間聚類,能夠把具有足夠高密度的區域劃分為簇,并可在噪聲的空間數據庫中發現任意形狀的聚類。其算法過程如下:
輸入: 包含n個對象的數據庫,半徑Eps,最少數目MinPts;
輸出: 所有生成的簇,達到密度要求。
(1)Repeat;
(2)從數據庫中抽出一個未處理的點;
(3)IF抽出的點是核心點 THEN 找出所有從該點密度可達的對象,形成一個簇;
(4)ELSE 抽出的點是邊緣點(非核心對象),跳出本次循環,尋找下一個點;
(5)UNTIL 所有的點都被處理。
由于DBSCAN對用戶定義的參數很敏感,細微的不同都可能導致差別很大的結果,而參數的選擇無規律可循,只能靠經驗確定,因此,往往要通過多次實驗才能確定一個較滿意的結果。
3.3 數據的準備
從地質遺跡數據庫中抽取的地質遺跡的原始的經度與緯度數據如表1所示。
由于地質遺跡的位置數據采用的是度分秒的形式來記錄的,因此先通過轉換公式,將度分秒的坐標形式轉換為實數的坐標形式,如表2所示。
在表2的數據中可以看出,由于地質遺跡的位置常常集中于一個經緯度變化很小的范圍內,位置數據區分度太小,因此,可以將位置數據的實數放大,以便讓地質遺跡位置數據之間有明顯的區分度。將表2中的位置數據放大10000倍后得到如表3所示的結果,從中可以看出各地質遺跡的位置數據有著明顯的區別。這樣,就可以使用準備好的數據進行實驗。
4 實驗
將格式化好的數據按要求導出到指定的文本文件中,使用R語言[7]自帶的函數DBSCAN進行空間聚類,經過多次實驗,發現當MinPts=2,eps=180或eps=190時聚類結果較為理想,均只有一個噪聲點,其結果分別如圖2和圖3所示;當eps為180時,可以將53個點聚為5個類,而當eps取190時,DBSCAN將圖2中的④⑤兩個類聚為了一個類,從而縮減為4個類。
5 結語
由于地質公園均建設有地質遺跡數據庫,該數據庫中就包含了各地質遺跡的位置數據,因此,利用基于密度的空間聚類方法,根據地質遺跡數據庫中的位置信息來對公園內各地質遺跡進行聚類,聚類的結果可以作為地質公園管理者制定景區劃分方案的科學依據,如圖2和圖3。到底采用哪種景區劃分方案,可結合地質公園景區管理的實際需求來進行選擇和修訂。
參考文獻
[1]辜寄蓉,陳先偉,楊海龍.城市功能區劃分空間聚類算法研究[J].測繪科學,2011, (05):65-67+64.
[2]李德仁,王樹良,史文中,王新洲.論空間數據挖掘和知識發現[J].武漢大學學報(信息科學版),2001,(06):491-499.
[3]張志兵.空間數據挖掘及其相關問題研究[M].武漢:華中科技大學出版社,2011.
[4]柳盛,吉根林.空間聚類技術研究綜述[J].南京師范大學學報(工程技術版),2010,(02):57-62.
[5]張文元,談國新,朱相舟.停留點空間聚類在景區熱點分析中的應用[J].計算機工程與應用,2017,(02):1-9.
[6]李新延,李德仁.DBSCAN空間聚類算法及其在城市規劃中的應用[J].測繪科學,2005,(03):51-53+5.
[7]黃文,王正林.數據挖掘:R語言實戰[M].北京:電子工業出版社,2014.endprint