加那爾,陳川,吾克依拉·吾鐵樸
(1.新疆大學地質與礦業工程學院,新疆烏魯木齊830047;
2.新疆大學新疆中亞造山帶大陸動力學與成礦預測重點實驗室,新疆烏魯木齊830047)
基于DEM的空間數據信息挖掘及其應用
加那爾*1,2,陳川1,2,吾克依拉·吾鐵樸1,2
(1.新疆大學地質與礦業工程學院,新疆烏魯木齊830047;
2.新疆大學新疆中亞造山帶大陸動力學與成礦預測重點實驗室,新疆烏魯木齊830047)
基于ArcGIS應用平臺,選擇和什托洛蓋鎮白楊溝地區為研究范圍,從Aster衛星影像數據上提取DEM(數字高程模型),進行空間數據信息挖掘,建立適于研究區的空間數據處理流程,并將其結果應用到水文流域特征的自動提取中。通過對比研究和野外調研,證明選擇該套空間數據信息挖掘技術方法能有效提取DEM數據中隱含信息,提高工作效率。
數字高程數據(DEM);空間數據信息挖掘;ArcGIS
隨著空間技術在各個行業的應用以及數據挖掘、空間數據采集技術、數據庫技術的迅速發展,對從空間數據庫發現隱含知識的需求日益增長,出現了用于在空間數據庫中進行知識發現的嶄新研究領域——空間數據挖掘[1-3]。
空間數據挖掘和知識發現這一學科起源于國際GIS會議。1994年,我國學者李德仁院士在加拿大渥太華舉行的GIS國際學術會議上提出了從GIS數據庫中發現知識的概念[4],并系統分析了空間知識發現的特點和方法[5]。目前空間數據挖掘己成為國際研究的一個熱點,滲透到數據挖掘和知識發現、地球空間信息學和一些綜合性的學術活動中,成為眾多著名國際學術會議的重要研究專題。Koperski,Adhikary和Han[6]總結了空間數據挖掘的發展,認為巨量的空間數據來自從遙感到GIS、計算機制圖、環境評價和規劃等各種領域,空間數據的累積已經遠遠超出人們的分析能力,數據挖掘已經從關系數據庫和交易數據庫擴展到空間數據庫。
勘查區位于新疆維吾爾自治區西北部托里縣、額敏縣、和布克賽爾蒙古自治縣、克拉瑪依市四個行政區交界處。地勢北高南低,北部為低山、丘陵,南部為古爾班通古特沙漠,中部為山前沖積平原;調查區處于天山—興蒙造山系,東西準噶爾弧盆系,賽米斯臺—三塘湖復合島弧帶與唐古巴勒—卡拉麥里復合俯沖增生雜巖帶過渡地帶。區內沉積巖、火山巖、侵入巖廣泛發育,區內斷裂以北東—南西向、近東西向為主,地質構造十分復雜。
本文以Aster衛星影像數據中提取的和什托洛蓋鎮白楊溝地區15m×15m空間分辨率的數字高程模型(DEM)為主要數據源,空間數據挖掘信息引用到水文流域特征提取中。
空間數據挖掘是空間數據庫中知識發現過程的一個基本步驟。主要步驟是通過將有趣的模式提供給用戶,或者新的知識存儲在知識庫中,與用戶和知識庫交互的方式來進行的知識發現過程的最重要的一步,因為它可發現隱藏的不為人知的模式;是一個多步驟相互連接、反復進行的交互過程。一般可以分為數據準備、數據挖掘、結果的解釋與評價3個部分[7],本文建立了適于研究區的空間數據處理流程,如圖1所示。
3.1洼地填充處理
洼地指的是低于周圍柵格的區域。研究者普遍認為,被高程較高的區域圍繞的洼地是使用DEM進行水文分析的一大障礙,因為這些洼地的存在會阻礙自然水流朝流域出口流動,因此,在DEM提取水系特征之前要進行“填洼”預處理。其原理是:掃描每個網格時,比較該網格與相鄰的8個網格的高程,如果中心網格的高程比相鄰的8個網格的高程都低,則將相鄰8個網格中高程最低的那個網格的值賦予中心網格。

圖1 研究區空間數據處理流程
3.2水流方向提取
在填洼后的DEM中,每個柵格單元都有一個可以定義的水流方向值,某一個柵格單元的水流方向是指水流離開此單元格時的指向[8]。這一概念最早是由Mark等提出的[9]。
地表徑流在流域內總是從地勢高處流向地勢低處,最后經流域出口排出流域。流向的確定建立在流域3×3的DEM格網的基礎上。水流方向是指水流離開每一個柵格單元時的指向。它決定著地表徑流的方向及格網單元間流量的分配,是基于DEM的分布式水文模型中的一個十分關鍵的問題。水流的流向是通過計算中心柵格與鄰域柵格的最大距離權落差(即取距離權落差最大的柵格為中心柵格的流出柵格)來確定。如果鄰域柵格對中心柵格的方向值為2、8、32、128,則柵格間的距離為2的開平方根,否則距離為1。在ArcGIS中通過將中心柵格的8個鄰域柵格編碼,水流方向便可以其中的某一值來確定。
3.3河網的提取
得到每個網格流向與水流累計值后,以flowacc數據作為基礎數據,生成河網。預先設定一個閾值,該閾值表示河網中點的最小積水面積,將水流方向累計矩陣中數據高于此閾值的網格連接起來,便可形成排水網絡,當閾值減少時,網絡的密度便相應增加[10]。河網的生成基于如下假設:如果某單元格的匯流累積量大于閾值,則該單元格是河網的一部分[11]。閾值的設定在河網的提取過程是很重要的,并且直接影響到河網的提取結果。首先應該考慮到研究的對象,研究對象中的溝谷的最小級別,不同級別的溝谷所對應的不同的閾值;其次考慮到研究區域的狀況,不同的研究區域相同級別的溝谷需要的閾值也是不同的。柵格河網的形成是利用所設定的閾值進行整區域的分析并生成一個新的柵格圖層,是利用設定一個河網生成閾值來計算出所有大于設定閾值的柵格,這些柵格就是河網的潛在位置。最終提取矢量形式的河流網格。
3.4河網分級的生成
河網分級的建立在提取的河網基礎上[12],分級的時候首先確定流域的出水點,找到出水點之后,沿水流向上游搜索,一直搜索到了流域邊界[13],生成整個流域的河網系統后,不同的支干流連接怎樣用數字表示帶入分布式水文模型計算,即河網計算優先順序問題,就要考慮河網分級問題。河網分級是對一個線性的河流網絡進行分級別的數字標識,利用地表徑流模擬的思想,不同的級別的河網首先是它們所代表的匯流累積量也不同,級別越高的河網,其匯流累積量也越大,那么在水文研究中,這些河網往往是主流,而那些級別較低的河網則是支流。
流域河網的分級編碼方法有多種[14],本文采用Strahler[15]的河網分級系統對產生的河道進行分段和分級處理。
根據STRAHLER分級法可知,該區域河網分布較密集,河流等級可分為5級,河流方向主要為北西向至東南向。區域南部由于第四系隱伏斷層的影響,河流方向發生變化,形成似三角形。
3.5流域的提取
流域又稱集水區域,是流經其中的水流和其他物質從一個公共的出水口排出而形成的一個集成的排水區域[16]。提取子流域的第一步是確定子流域的出水口位置,出水口即流域水流的出口,是整個流域的最低處[16]。ArcGIS中以2個河道的交匯點作為流域出口,從出口沿河道向上游搜索每一河道的上游給水區,分別對搜索到的上游給水區邊界進行勾畫就得到了各個小流域的邊界。
3.5.1流域盆地(大流域)的確定
流域盆地是由分水嶺分割而成的匯水區域。它通過對水流方向數據的分析確定出所有相互連接并處于同一流域盆地的柵格。利用流域盆地分析,可以從很大的一個研究區域選擇感興趣的流域并將該流域從整個研究區域分割出來進行單獨的分析[17]。
在實際情況下,河流等級高低并不能準確表示河流流量的多少,還需要計算流域盆地的分布情況。流域盆地值8500~10500區間是河流網絡最發育的地段,但其中可能包括一些時令河流,主要匯水區域主要分布在流域水系等級最高的部分,反映了該處流域盆地是研究區內較優化的候選地。
3.5.2集水域(Watershed)的生成
在ArcGIS中,對于低級的集水區的生成,可以使用hydrology工具集中的watershed工具以水流方向和河網節點數據作為輸入,輸出分割后的集水區域。
集水水域是指地表水及地下水分水線所包圍的集水區域的總稱。根據計算結果,研究區集水水域值為98~170區域,分布在研究區的南部,呈東西走向的矩形。與實際野外調查結果一致。
從GIS中發現知識是GIS研究的一個重要方向,本文對空間數據挖掘技術以及地理信息系統進行系統的研究和探討的基礎上,結合地理信息系統的空間分析功能和數據管理功能及空間數據挖掘的特點,通過對比研究和野外調研,進行空間數據挖掘,實現了從GIS中進行空間數據挖掘的具有可行性技術方法。
本文利用DEM提取流域水文特征可以較快地提高工作效率并保證結果的準確性,為野外工作開展提供了極大的指導意義與科學依據。在此,以水流方向數據和自然水系的分級標識數據為依據,將同一級別每一條水系回水盆地內的柵格自動識別出來。然后根據不同水系回水盆地的柵格的標識數據,自動搜索回水盆地的邊界柵格。
該計算結果反映了該區域河網分布較密集,河流的等級,河流方向主要為北西向至東南向,區域南部由于第四系隱伏斷層的影響,河流方向發生變化,形成似三角形,計算出了流域盆地的分布情況來反映了該處流域盆地是研究區內較優化的候選地,與實際野外調查結果一致。本次論文采用的Arc GIS軟件的分析模塊較依賴DEM數據的準確性,并且無法準確地分析出研究區內某些河流的時令性,在今后的工作中需要在研究區內開展野外驗證工作。
[1]Shashi Shekhar,Yan Huang.Discovering Spatial Co-Location Pattens:A Summary of Results[A].In:Proceedings of the Seventh International SymPosium on SPatial and TemPoral Databases,Redondo Beaeh,CA,USA,2001:236-256.
[2]邸凱昌,李德仁,李德毅.空間數據發掘和知識發現的框架[J].武漢測繪科技大學學報,1997(4):27-31.
[3]劉君強.海量數據挖掘技術研究[D].浙江大學,2003.
[4]Li D R,Cheng T.kdg-Knowledge Discovery from GIS.The Canadian Conference on GIS,Ottawa,Canada,1994:1001-1012.
[5]李德仁,程濤.從GIS數據庫中發現知識[J].測繪學報,1995(1):37-44.
[6]Koperski K,Adhikary J,Han J.Spatial Data Mining:Process and Challenges Survey Paper.SIGMOD.96 Workshop on Research Issues on Data Mining and Knowledge Discovery(DMKD.96),Montreal,Canada,1996.
[7]Fayyad U M.Advances in Knowledge Discovery and Data Mining.Menlopark CA:AAAI/MIT Press,1996.
[8]JENSON S K,D.J.O.,Extracting Topographic Structure from Digital Elevation Data for Geographic Information System Analysis.1988:1593-1600.
[9]MARKS D M,D.J.F.J.Atomated Basin Delineation from Digital Elevation Data.1984:299-311.
[10]葉愛中,等.基于數字高程模型的河網提取及子流域生成[J].水利學報,2005(5):531-537.
[11]TARBOTON D G,B.R.L.R.On the Extraction of Channel Networks from Digital Elevation Data,1991:81-100.
[12]馮杰,解河海,成麗婷.基于子流域的TOPMODEL模擬研究[J].長江科學院院報,2009(4):4-8.
[13]黃娟,申雙,殷劍敏.基于DEM的江西潦河流域河網信息提取方法[J].氣象與減災研究,2008(1):49-53.
[14]李鐵鍵,王光謙,劉家宏.數字流域模型的河網編碼方法[J].水科學進展,2006(5):658-664.
[15]Strahler,AN.Quantitive Analysis of Watershed Geomorphology.Trans.Am.Geophys.Union.1957.
[16]唐從國,劉叢強.基于Arc Hydro Tools的流域特征自動提取——以貴州省內烏江流域為例[J].地球與環境,2006(3):30-37.
[17]劉淑春,李晶,張征,朱建剛,牟向玉.基于DEM的太湖流域水文特征提取[J].環境科學與管理,2009,34(5).
P31
A
1004-5716(2016)10-0154-03
2015-11-09
2015-11-18
自治區地質勘查基金項目,項目編號:S12-1-XJ02。
加那爾(1991-),女(哈薩克族),新疆木壘人,新疆大學地質與礦業工程學院在讀碩士研究生,研究方向:地球探測與信息技術。