劉美春,張 力,肖劍平
(1. 武漢市測繪研究院,湖北 武漢 430022; 2. 長江水利委員會,湖北 武漢 430010)
Study of Data Processing Technology of City Comprehensive
Atlas Compilation
LIU Meichun,ZHANG Li,XIAO Jianping
?
城市綜合性地圖集編制中數據處理技巧研究
劉美春1,張力2,肖劍平1
(1. 武漢市測繪研究院,湖北 武漢 430022; 2. 長江水利委員會,湖北 武漢 430010)
Study of Data Processing Technology of City Comprehensive
Atlas Compilation
LIU Meichun,ZHANG Li,XIAO Jianping
摘要:城市綜合性地圖集是綜合反映一個城市自然、經濟、文化、歷史、發展狀況的信息載體,是人們全面了解該城市最直觀、最全面的信息工具,需要通過方方面面的信息進行綜合與融合。本文以《武漢城市地圖集》為例,從城市綜合性地圖集的內容、資料和數據情況分析和處理、數據挖掘技術應用和知識表示效果等方面進行展開,充分體現了數據處理技術在綜合性圖集編制中的重要性。
關鍵詞:資料收集;資料分析與評價;數據倉庫;數據挖掘;知識表示
隨著地理信息技術和計算機、網絡等技術的趨向成熟,所有文字、圖片、數據等有形和無形的信息都能與地圖掛鉤,都能通過圖文形式進行有效表達,可以說人類活動、自然界所發生的所有信息都可以在圖集中充分體現。城市綜合性地圖集是一定時期內城市市容市貌及生產、生活信息的綜合體。資料的全面性、現勢性、權威性是地圖集實用性和綜合性的前提,圍繞圖集所要表達的內容進行資料分析和數據挖掘是關鍵所在,針對所挖掘的信息進行知識的表達,以及應該如何表達、表達到什么程度是圖集研究的最終目的。
一、城市綜合性地圖集內容構成
1. 城市綜合性地圖集常見內容形式
城市綜合性地圖集一般要反映城市的自然狀態、市政建設、人類活動、精神文化與城市管理等幾個基本方面,不僅包含資源環境地圖、人文地圖、經濟地圖和歷史地圖等內容,同時包含環境評價、區域規劃、預測預報等與經濟建設和人類生活直接相關的選題。如《重慶市地圖集》內容包含城市歷史、政區、地勢、交通、人口、資源、環境、經濟與社會、區縣圖和規劃等;《北京城市地圖集》包含北京區位、地勢、政區、交通機中心城區詳圖等信息。
2. 《武漢城市地圖集》內容情況介紹
《武漢城市地圖集》以武漢市主城區地圖數據為主,從區位、環境、資源、交通、地質結構、行政區劃6個方面著手,將武漢的地理位置、氣候、人口、行政區劃、面積、交通、人文、環境、歷史、發展、規劃等方面信息通過時間軸連接在一起,從時間和空間兩個方面,詳細反映一定時期城市的發展變化和人文、經濟、管理狀況;通過歷史與現狀、現狀與規劃、地圖與文字、圖片與圖表、符號與數字等相結合的方式細細描繪,共同表示武漢的歷史久、城市大、發展速、規劃全等特點,突出武漢市城市的特色及區位優勢。內容分以下4個圖組:
1) “極目楚天”圖組:突出武漢區位優勢,表示武漢在全國的位置圖、武漢在湖北省的位置圖、武漢城市圈地圖、武漢市政區圖、武漢市中心城區圖和武漢市影像圖,從地理定位方面讓讀者對武漢有一個框架性的了解。
2) “巍巍江城”圖組:從環境、資源、交通及發展現狀4個方面詳細表示城市面貌。這是圖集的主體內容,采取先整體后局部的形式,首先采用DEM與矢量相疊加的形式,突出武漢總的地貌特色;在此基礎上,結合歷年相關統計資料,用圖表、文字、專題圖等將武漢的氣候、地質、人口、交通、醫療衛生,以及各項自然和人文經濟指標進行縱向和橫向比較;然后將中心城區采取矢量和影像對照的形式、以大比例尺1∶4000~1∶16 000的圖幅詳細表示。
3) “覽勝三鎮”圖組:從城市歷史變遷、楚風漢韻、商貿重鎮、都市點睛等體現武漢發展歷程。通過歷史圖片、文字、效果圖、三維立體影像圖等對三鎮演變、城市擴展、風俗民情、風味美食、文娛生活、體育特色、商業網點、主要經濟開發區、示范生活小區、主要景點、景區等進行特色描述。
4) “展望武漢”圖組:通過城市近期和中遠期規劃圖件展示武漢未來發展方向。以規劃專題圖為主題,配合相應的文字說明和圖片,通過都市發展組團規劃、主城區特色景觀規劃等圖件和文字介紹的形式,展現若干年后武漢市的格局和面貌。
二、編圖資料與數據情況
城市綜合性地圖集所需資料和數據涵蓋城市發展過程中的方方面面,數據類型多種多樣,往往不是一個數據庫就能解決問題的,是基礎地理數據庫和各專題數據庫的集合體。從我國目前對于地理信息方面的管理模式來看,綜合性地圖集的編制少不了資料收集這一重要環節,需從各相關單位獲取最現勢、最完善的第一手資料。在收集資料的過程中,設計者必須做到心中有數、有的放矢,只有明白自己需要什么樣的資料、大概在什么地方獲得,將所要的資料列出詳細清單,才能保證信息的完備性和權威性。
《武漢城市地圖集》的編制資料以武漢市“十五”以來連續3個五年規劃1∶2000地形數據庫、“十一五”以來1∶500~1∶10 000系列比例尺地形數據庫和時間跨度達幾十年的遙感影像數據為基礎,并輔以各行各業文字、圖片、統計圖表等反映城市歷史、經濟、現狀、發展、規劃等與城市發展相關的專題信息,其數據類型涵蓋面向對象數據庫、空間數據庫、時間數據庫、文本數據庫、多媒體數據庫、專題數據庫和互聯網數據庫等。
三、資料分析與數據預處理
在圖集編制過程中,對資料的分析和數據處理是編輯制作的前期準備工作,是設計內容能否實現的關鍵。設計者首先從一堆雜亂無章的資料中將面向主題的信息篩選出來;然后對與時間相關的數據(如歷史數據)按時間軸進行整理,建立編制資料的信息庫;最后通過數據挖掘技術和制圖綜合技術將數據集成為成果圖集。圖集工作流程如圖1所示。

圖1 圖集工作流程
1. 資料的整理、分析與評價
(1) 資料的分類、分級整理
鑒于每類數據的來源和管理方式不同,不同的數據庫之間的數據存在穿插性,并且同類數據在不同數據庫中表現形式和時間段也存在偏差。為提高資料的使用效率,簡化作業流程,首先必須將收集到的資料進行分類、分級整理,根據數據的表現形式可分為地圖資料、遙感影像資料、數據資料、文字資料、圖片資料等幾類,在此基礎上將每一類資料又分為基礎資料、補充資料、專題資料等不同級別。在數據管理上,緊密結合圖集內容結構進行,基本上采取星形結構,在數據倉庫的統一集合下,將數據以圖組為單元建立數據庫,在各數據庫的基礎上再分專題逐級、逐層進行管理。
(2) 編圖資料的分析與評價
從地圖編制、審核和使用幾個方面來說,城市地圖集編制資料必須具備政治性、科學性、完備性、現勢性等特性,因此對所收集到的資料首先進行科學分析與評價,優先使用具備這些基本特性的資料,將政治性和現勢性不強的資料剔除出來,從源頭消除地圖成果的質量隱患。如對基礎地理數據進行數據格式、數據坐標系、數據質量等分析;對環境監測、氣候等動態變化的資料進行時間性評價;對統計圖表進行定位性、統一性等評價。
2. 數據預處理及數據倉庫的建立
從不同渠道收集到的資料經常會存在完整性和規范性不一致等特點。要想實現資料的有效利用,簡化數據處理過程,提高最終成果質量,在數據利用前必須進行數據預處理,對資料進行篩選,通過格式轉換、掃描、數字化等手段改變原有的分類、分級、規范表示方法,去除冗余數據,根據時間序列和已知的變化規律補充不完全數據等。在此基礎上進行數據集成和數據形式轉換,將數據轉換成統一的數據坐標、投影方式及統一存儲在便于挖掘的數據平臺,把不同來源、格式、特點性質的數據在邏輯上或物理上進行有機集中,將數據由多個源統一到數據倉庫進行存儲,在此基礎上分圖組、分專題進行整理。數據處理流程如圖2所示。

圖2 圖集數據處理流程
四、數據處理技巧與表達效果分析
1. 數據挖掘技術應用
任何一個數據都包含直觀表示的信息和潛在深層次的信息。直觀表現的信息在層面上一般讓人一目了然,這是一般讀者都能輕易獲取的信息;而潛在的信息往往容易被忽視,這些隱藏的、深層次的信息獲取一般需要有一定的數據庫作支撐,通過系列的專業技術,從大量的信息源中經過分析、對比、統計、歸納,提取隱藏于其中的、有效的信息和知識。所謂的的數據倉庫,實際上就是圖集所需資料數據的集合,包含基礎數據庫、統計圖表、文字信息,以及其他專題信息庫。在進行數據挖掘之前,首先建立數據倉庫等數據集中管理模式,然后分析數據,明確目標,確定需要挖掘什么樣的信息,根據信息源實際情況采取聚類分析、關聯分析、演變分析及統計等有效的方法,從各種非結構化數據(如文本、圖形、圖像等數據)中尋找最有用的數據。
在地圖集的編制過程中,使用頻率最多的是空間數據挖掘技術、文本挖掘技術、多媒體挖掘技術等,利用基礎地理數據庫編制地理底圖,在以研究范圍的地理底圖為背景的情況下,從各行各業的經濟和建設專題數據庫中獲取城市發展歷程、發展現狀和城市發展規律的知識和信息。
《武漢城市地圖集》編制的數據源主要是現實性較強的基礎地形矢量數據、多個時間段的航空數碼影像數據,以及各行各業、各專題的文字統計圖表等文本信息和圖像信息。從中獲取時空信息和統計信息是城市地圖集編制的目的之一。其中城市大比例尺基礎地形和影像數據中涵蓋現實世界一定時間段內幾乎所有信息。以1∶2000地形圖為例,包含水系、居民地、交通、管線、境界、地貌、土質與植被、注記8大類城市基礎地理信息資源及數據庫中各類經濟指標屬性信息,厘米級航攝影像圖中包含地表以上信息中除注記外的7大類信息。因此,數據源的信息挖掘空間很大,從中不僅可以獲取反映城市發展變化的時空信息,同時城市行政、建設、經濟、交通、土地利用等詳細情況都能從中分析和統計出來,如圖3所示。
2. 知識表示效果分析
雖然基礎數據庫包含十分豐富的信息資源,從中探索并提煉出大量隱藏的信息并非易事,將這些潛在的信息轉化為人們可接受的表現形式可以說是難上加難。如何將這些來源復雜、形式多樣、時空跨度長達幾年甚至幾十年的且基本上不能直接使用的資料轉化為設計者所要表達的內容形式,是地圖集設計過程中比較棘手的問題。
在數據挖掘過程中獲取圖集設計思路中所要表達的信息,通過制圖綜合和統計分析等方法進行知識提取和轉化,通過地圖語言以通俗、直觀、實用的圖片、文字、圖表、符號等進行特征化、可視化、模型化處理,從而實現知識合理及正確的表達;然后將數據進行整合、包裝和輸出成印刷圖件,完成資料—數據—數據庫—單幅圖—圖集的編制過程;最終形成圖幅信息的表示方式,以地圖集的形式展示給讀者。

圖3 專題信息挖掘

圖4 文本信息知識表示效果
在此過程中,將文本信息轉化為專題圖和統計圖表,以及時空信息的挖掘和表示難度較大,在很多情況下沒有確定的分界線和明確的分級指標,一般憑借人的知識積累和實踐常識來分析和評判。因此,在數據挖掘和知識表達的整個流程中,不僅需要計算機技術、多媒體技術、制圖綜合技術,同時人工智能技術、模糊分析、時空分析和神經網絡技術的使用也較多。以文本信息為例,同樣的信息內容在不同的專題中可以表示成專題地圖、統計圖表、文字與圖片穿插等不同的表達方式,如圖4所示。《武漢城市地圖集》將專題地圖、統計圖表、文字介紹、圖片信息等融合在一起,采取圖文并茂的形式進行表示,在表達上突出藝術性,效果如圖5、圖6所示。

圖5 專題地圖與文字圖片結合表示效果

圖6 專題地圖與統計圖表結合表示效果
五、結束語
綜合性地圖集的編制是一項系統工程和精細工
程,數據挖掘和信息表達技術在其中表現得特別充分,廣大地圖編制工作者必須在長期的生產實踐中進行積累,并與時俱進,利用先進的技術理念和方法來指導實踐。在當今的大數據時代,能充分利用和開發數據,才能引領時代。地圖學是站在時代最前沿的學科之一,各行各業的信息化建設都離不開地圖這個載體,地圖也是利用數據最多、最全面的學科,從現實世界中挖掘知識是地圖學發展的精髓所在,數據挖掘技術必將在這個領域得到更好的發揮和延伸。
參考文獻:
[1]HAN J,KAMBER M.數據挖掘概念與技術[M].范明,孟小峰,譯. 2版. 北京:機械工業出版社,2007.
[2]李新運.城市空間數據挖掘方法與應用[M]. 山東:山東大學出版社,2005.
[3]呂曉玲.數據挖掘方法與應用[M]. 北京:中國人民大學出版社,2009.
[4]汪前進.羅明堅編繪《中國地圖集》所依據中文原始資料新探[J]. 北京行政學院學報, 2013(3):120-123.
[5]唐靜,王貝,趙飛.城市專題地圖指標內容的分析和處理[J]. 地理信息世界, 2010(4),35-39.
[6]SOWA J F. 知識表示[M]. 北京:機械工業出版社,2003.
[7]龐玉華. 對地圖集總體設計的思考[J]. 測繪通報,2007(5):63-65.
[8]王秀斌. 區域綜合地圖集總體設計思路探討——《福建省情地圖集》總體方案設計研究[J]. 測繪通報,2008(1):59-61.
引文格式: 劉美春,張力,肖劍平. 城市綜合性地圖集編制中數據處理技巧研究[J].測繪通報,2016(1):128-131.DOI:10.13474/j.cnki.11-2246.2016.0032.
作者簡介:劉美春(1973—),女,高級工程師,主要從事地圖編研、數據處理等工作。E-mail: lmcwhkc@sohu.com
收稿日期:2014-10-17
中圖分類號:P283
文獻標識碼:B
文章編號:0494-0911(2016)01-0128-04