摘 要:利用數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術,針對城市生態(tài)系統(tǒng),設計評估指標體系,構建指標數(shù)據(jù)采集的網(wǎng)絡系統(tǒng),設計數(shù)據(jù)倉庫的體系結構,包括數(shù)據(jù)維表和事實表,在此基礎上建立數(shù)據(jù)倉庫的星形模型,搭建評估平臺,并進行模擬應用,結果令人滿意。
關鍵詞:城市生態(tài)系統(tǒng);數(shù)據(jù)倉庫;評估指標;星形模型;體系結構
中圖分類號:TP3l1.52 文獻標識碼:A
Estimate Modle of Urban Ecosystem Based on Data Mining
XU Gangqiang1,HU Fuxiang2
(1. Hunan Vocational College of Engineering,Changsha 410151,China;
2.Central South University of Forestry and Technology,Changsha 410004,China)
Abstract:This paper designed a evaluation system for urban ecological system ,built a network of indicators data collection system,use of data warehouse and data mining technology。Then designed the data warehouse architecture, including data dimension table and fact table. On this basis ,bult the Star model of data warehouse and built the evaluation platform.In simulated application, it achived satisfactory results.
Key words:urban ecosystem;data warehouse;estimate index;star model;system structure
1 引 言
城市生態(tài)系統(tǒng)(Urban Ecosystem)是以人為中心的一種特殊人工生態(tài)系統(tǒng),是由城市自然、經(jīng)濟和社會等子系統(tǒng)構成的有機復合體,與普通自然生態(tài)系統(tǒng)不同的是,城市生態(tài)系統(tǒng)是以人為中心,人為改變其結構、物質循環(huán)和能量轉化方式、長期受人類活動影響的陸生生態(tài)系統(tǒng)[1]。對城市生態(tài)系統(tǒng)進行科學評估,得到各個指標的當前值,與標準或者參考目標值相比,找出存在的差距,分析其原因,并確定將來的建設方向,制定有效的策略,是建立生態(tài)城市的必須途徑[2]。城市可持續(xù)發(fā)展的目標呈現(xiàn)多元化,既有人口、經(jīng)濟、環(huán)境目標,又有增長、結構優(yōu)化目標,還有公平、效率目標。因此,評價指標體系也具有指標多、層次復雜、關聯(lián)性大、數(shù)據(jù)動態(tài)化的特點,目前大多采用生態(tài)學及城市地理學方法[2]、專家咨詢法[3]、市場價值法[4],原始數(shù)據(jù)和統(tǒng)計數(shù)據(jù)一般通過數(shù)據(jù)庫分散保存,數(shù)據(jù)保存及評估方法分別進行,集成性差。而如果通過建立數(shù)據(jù)倉庫將數(shù)據(jù)保存與評估算法融合在一起,不僅可以高效準確地得到評估結論,還可以利用數(shù)據(jù)挖掘技術科學預測將來的趨勢,為決策服務。
2 需求分析
評估城市生態(tài)系統(tǒng)的目的是科學評價城市生態(tài)現(xiàn)狀,預測將來發(fā)展趨勢,為城市建設提供決策數(shù)據(jù)[1],所需要的數(shù)據(jù)非常廣泛,包括人口、工農(nóng)業(yè)生產(chǎn)、環(huán)保、交通、園林綠化,醫(yī)藥衛(wèi)生、國土、文化教育、保險救助等,涉及到城市生存發(fā)展的方方面面,單項信息來源于各個主管局,其匯兌數(shù)據(jù)主要由統(tǒng)計、環(huán)保和綠化管理等部門提供。實際情況是各行業(yè)采用的是不同的管理系統(tǒng),運行于不同的平臺,且具有不同的數(shù)據(jù)結構,要把這些分散的數(shù)據(jù)庫生成匯兌的綜合分析報表,需要較長的周期,隨著時間的增長,長期累積形成的歷史數(shù)據(jù)和分析統(tǒng)計信息呈現(xiàn)多樣化,保存與管理難度加大,處理復雜。數(shù)據(jù)的集中處理不僅能帶來業(yè)務處理效率的提高,更有利于各個指標的監(jiān)控,從中挖掘出決策數(shù)據(jù),這正是數(shù)據(jù)倉庫的優(yōu)勢,無疑是解決城市生態(tài)系統(tǒng)評估問題的理想方案。
數(shù)據(jù)倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合[6],主要用于支持管理決策。數(shù)據(jù)倉庫面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;同時,數(shù)據(jù)倉庫是對多個異構的數(shù)據(jù)源有效集成,集成后按照主題進行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。數(shù)據(jù)倉庫主要應用于決策支持系統(tǒng)[7],其主要目的是“提取”信息并加以擴展,用來進行處理基于數(shù)據(jù)倉庫的決策支持系統(tǒng)(DSS)的應用。基于數(shù)據(jù)倉庫的決策支持系統(tǒng)(DSS)由三個部分組成:數(shù)據(jù)倉庫技術(DW,Data warehousing),聯(lián)機分析處理技術(OLAP,On—Line Analytical Processing),數(shù)據(jù)挖掘技術(DM,Data Mining)。
3 評估指標的確定
城市生態(tài)系統(tǒng)的評估,涉及到城市的結構、功能和協(xié)調性,包括人口結構、收入結構、健康狀況、產(chǎn)業(yè)結構等多方面的因素,雖然專家學者在城市生態(tài)系統(tǒng)的評價領域作了大量的研究,取得不少階段性成果,但到目前為止,還沒有形成一個標準化的國家標準評估指標體系[8],通常是根據(jù)國家政策文本參考國外優(yōu)秀城市并集合每個地區(qū)的實際情況確定合適的指標體系。表1是目前國內較為流行的一種評價指標體系[1,3,4],在業(yè)界通用。
構建數(shù)據(jù)倉庫時,需要按照上表指標體系建立對應的數(shù)據(jù)庫表及數(shù)據(jù)集市,并以月、季、年度分別存貯原始數(shù)據(jù)和匯兌數(shù)據(jù)。
4 數(shù)據(jù)倉庫系統(tǒng)體系結構設計
基于數(shù)據(jù)倉庫的城市生態(tài)系統(tǒng)評估系統(tǒng)的總體目標是:充分利用現(xiàn)代信息技術整合城市生態(tài)系統(tǒng)數(shù)據(jù)資源,在統(tǒng)一的Web服務架構平臺上,以數(shù)據(jù)倉庫和網(wǎng)絡為依托,搭載社會、經(jīng)濟、資源、環(huán)境、生態(tài)和人口等信息,借助數(shù)據(jù)倉庫強大的數(shù)據(jù)整合分析能力,建立一個智能化、跨平臺的評估及決策支持系統(tǒng),為政府部門在社會發(fā)展和建設中重大問題的決策提供科學依據(jù),輔助政府工作,提高管理和決策水平,促進社會可持續(xù)發(fā)展。
4.1 功能結構設計
為了滿足管理部門對系統(tǒng)的應用需求,整個系統(tǒng)從功能角度可以設計為四個層次:數(shù)據(jù)獲取、數(shù)據(jù)管理、分析處理和信息服務,其功能結構如圖1所示。
數(shù)據(jù)獲取層用于從源數(shù)據(jù)庫中收集各類原始數(shù)據(jù),經(jīng)清洗后添加到數(shù)據(jù)倉庫,利用數(shù)據(jù)抽取算法生成事務庫,更新和提供給數(shù)據(jù)倉庫。數(shù)據(jù)管理層建立以評估指標體系為主題的多維數(shù)據(jù)模型,設置刷新機制,在保護原有數(shù)據(jù)的基礎上,及時刷新數(shù)據(jù)倉庫以反映數(shù)據(jù)庫的最新信息,并將數(shù)據(jù)轉存處理。分析處理層進行單指標和多維指標分析,運用數(shù)據(jù)挖掘算法提取分析和決策數(shù)據(jù),得到趨勢數(shù)據(jù),產(chǎn)生各指標體系的發(fā)展現(xiàn)狀。信息服務層為各類服務者提供所需數(shù)據(jù),確定生態(tài)指標閾值,建立預警機制,根據(jù)統(tǒng)計和預測數(shù)據(jù)為決策者提供全方面的信息服務,并給出生態(tài)改進建議。4.2 應用系統(tǒng)網(wǎng)絡結構設計
城市生態(tài)系統(tǒng)的評估系統(tǒng)的網(wǎng)絡建設與原有系統(tǒng)并不需要沖突,它們可以共存于一個網(wǎng)絡環(huán)境中,連接各數(shù)據(jù)源的是系統(tǒng)數(shù)據(jù)通信干線,核心是環(huán)保部門的管理網(wǎng)絡和災難備份中心。各指標源相應部門的內部網(wǎng)絡通過路由器實現(xiàn)與環(huán)保局及其它部門相連。環(huán)保部門控制中心同時架設遠程撥號備份服務器,系統(tǒng)出現(xiàn)故障時,自動啟動撥號備份程序,以避免信息的丟失,系統(tǒng)網(wǎng)絡結構如圖2所示。
本系統(tǒng)利用TCP/IP協(xié)議,在原有網(wǎng)絡的基礎上通過Internet和DDN或ADSL等廣域網(wǎng)技術將各指標對應部門的網(wǎng)絡互聯(lián)起來,從而實現(xiàn)數(shù)據(jù)的共享和集中處理。
5 城市生態(tài)系統(tǒng)數(shù)據(jù)倉庫的構建
常用的數(shù)據(jù)倉庫模型有星形模型,雪花模型,事實星座模型三種[10]。星形模式更能提高查詢性能,降低維表復雜度,以數(shù)據(jù)倉庫用戶最為關心的事實為中心,將數(shù)據(jù)倉庫連接組合為一個整體。由于每個維度表都利用關鍵字,通過事實表的外鍵約束于事實表的某一行,因此查詢工作可以從分析維度表中的數(shù)據(jù)開始,借助維度關鍵字,方便地鏈接到星形模型中心的事實表,保證了檢索效率,為最終用戶提供快捷的查詢、報表、分析等服務[11],適合于被本系統(tǒng)采用。雪花模式的維度表基于范式理論,部分數(shù)據(jù)組織通常采用第三范式的規(guī)范結構,部分數(shù)據(jù)組織采用星形模式的事實表和維表結構,在一定程度上減少了存儲空間,規(guī)范化的結構更容易更新和維護,但用戶理解困難,瀏覽內容不方便,額外的連接將使查詢性能下降,在數(shù)據(jù)倉庫中,查詢性能相對OLTP系統(tǒng)來說更加被重視,而雪花模式會降低數(shù)據(jù)倉庫系統(tǒng)的性能,因此不適合于本系統(tǒng)采用。事實星座模型通過多個事實表共享某一個或多個維表的方式實現(xiàn),但設計工作量大,管理復雜,在數(shù)據(jù)倉庫系統(tǒng)中往往不會采用這種模式。
5.1 維度表設計
時間維:評價城市生態(tài)系統(tǒng)狀況的周期通常包括有月度、季度、年度三種,指標數(shù)據(jù)的收集一般是以月為單位,每季度進行累計,每年度統(tǒng)計分析,得到年度之間生態(tài)環(huán)境的變化情況,從而為將來的投資方向、整治領域提供依據(jù)。
評價指標維:城市生態(tài)系統(tǒng)的評價體系包括結構、功能、協(xié)調三個一級指標,每個一級指標由3到5個二級指標構成,每個二級指標又包含若干三級指標,獲得指標數(shù)據(jù)時以每個二級指標為一個基本表,按三級指標分別收集相應數(shù)據(jù),作為表的列字段。
地區(qū)維:反映指標體系的地區(qū)信息,地區(qū)是具有父子層次架構的維度模型,指標體系的地區(qū)維度一般表現(xiàn)系統(tǒng)所應用區(qū)域的樹型結構。一個城市往往由幾個城區(qū)、郊區(qū)、郊縣等構成,其生態(tài)狀況不一定相同,應分別通過觀察站或主管部門統(tǒng)計產(chǎn)生。
所屬類別維:確定指標所屬的類別,可以設定為共享維度,即指定其底層指標類別數(shù)據(jù)表,城市生態(tài)系統(tǒng)評價系統(tǒng)中,一級評價指標即確定了各個二級指標的類別,二級指標向上匯兌得到在生態(tài)結構、城市功能和協(xié)調發(fā)展的總體水平,這就是類別維表。
5.2 數(shù)據(jù)模型設計
考慮到城市生態(tài)系統(tǒng)評估體系涉及到的各指標來源于不同部門,不少已經(jīng)建立了管理信息系統(tǒng),且大多采用關系數(shù)據(jù)庫,而星形結構數(shù)據(jù)模型的設計比較簡單,是基于關系型數(shù)據(jù)庫的面向OLAP的一種多維數(shù)據(jù)模型的數(shù)據(jù)組織形式,本系統(tǒng)采用星形模型,它由事實表和多個維度表組成,通過使用一個包括主題的事實表和多個包含事實的非正規(guī)化描述的維度表來執(zhí)行指標體系查詢,由于數(shù)據(jù)倉庫在存儲事實數(shù)據(jù)表時會自動計算指標數(shù)據(jù)的聚合值,因此可獲得比一般SQL語句分組查詢更高的查詢性能,星形模型的中心是指標數(shù)據(jù),對應實用指標事實數(shù)據(jù)表,四周是訪問的角度,對應維度表,每一個維度表通過一個關鍵字直接與事實表關聯(lián),事實表中每條記錄都包含指向各個維度表的外鍵和實用指標度量值,如圖3所示。
圖3 事實表與維表之間的星形結構數(shù)據(jù)模型
事實表和維表通過主外鍵建立關聯(lián),通過對任意指標的切片分析可以得到單項的基本狀況,按照指標的類別分類匯兌,可以得到本類別生態(tài)狀況的整體水平和等級。
6 結束語
基于數(shù)據(jù)倉庫技術的城市生態(tài)系統(tǒng)評價體系借助先進的數(shù)據(jù)倉庫技術,為政府進行城市生態(tài)狀況和城市環(huán)境質量評價決策提供了必要的輔助支持,在歷史數(shù)據(jù)保存的時限、采集數(shù)據(jù)的周期、評估速度和準確性、預測數(shù)據(jù)的科學性等方面均得到了大幅度提高。本系統(tǒng)是以評估指標數(shù)據(jù)倉庫的建立和評價方法的設計為核心,在考慮充分評價決策的理念、分析策略和趨勢預測等問題方面,尚需進一步研究,有待進一步探討。
參考文獻
[1] 宋永昌,由文輝.城市生態(tài)學[M].上海:華東師范大學出版社.2003:235-250.
[2] 徐曉霞,張吉獻.洛陽市城市生態(tài)系統(tǒng)評價[J].安陽師范學院學報,2006,4:99-102.
[3] 盛學良,王華.生態(tài)城市建設的基本思路及其指標體系的評價標準[J].環(huán)境導報,2001,1:5-8.
[4] 陳靜文.面向生態(tài)城市建設的城市生態(tài)系統(tǒng)評價—以上海市為例[D].上海:同濟大學.2007:38-45.
[5] 鄧建高,潘江波.基于數(shù)據(jù)倉庫的證券交易決策支持系統(tǒng)設計與開發(fā)[J].計算機工程與設計.2008,2:753-754
[6] 林宇.數(shù)據(jù)倉庫原理與實踐[M].北京:人民郵電出版社.2003.
[7] 劉黎志,陳傳波.基于指標體系的決策支持模型研究[J].武漢工程大學學報.2008,1:91-93.
[8] 張坤民,溫宗國. 生態(tài)城市評估與指標體系[M].北京:化學工業(yè)出版社,2003.
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文