■吳國華
(福州市勘測院 福建福州 350108)
數據庫ETL在房產信息系統數據遷移整合中的應用
■吳國華
(福州市勘測院 福建福州 350108)
本文通過對房產信息系統中多源異構數據現狀分析,接合數據庫ETL,提出了借助ETL工具FME Suite,通過對多種格式數據的提取、轉換,在轉換過程中重新構造數據以及屬性的掛接,從而實現數據無損轉換、遷移。[關鍵詞]數據庫ETL無損遷移圖屬合一
房地產管理信息化是我國當前數字城市建設的一項重要內容,房地產管理信息化的發展與我國數字城市的發展密切相關。數字城市的發展,為房地產管理信息化發展奠定了良好的基礎,一大批數字城市基礎設施可以為房地產管理信息化所直接使用。數字城市的建設也需要房地產信息化的發展和支持,因此房地產管理信息化是數字城市建設不可缺少的重要組成部分。為推動福州市房產信息化的發展,實現房地產業務審批環節圖形信息、權屬信息、檔案信息一體化管理和“以圖管房、以圖管證、以圖搜房、以圖發布”的目標。福州市房屋登記中心在信息化建設過程中特別強調了 “數據先行”的原則,以測繪圖形數據和產權產籍數據整理為先導,對歷史各分散數據庫中分布的異構數據進行整理,利用數據庫ETL技術構建全市統一房產數據庫。
福州市房屋登記中心原系統是基于空間庫、檔案庫、登記庫搭建的,由于系統是陸續建設起來的,因此系統間缺乏統一的規劃,各系統相對獨立且數據格式不一,致使管理系統不僅數據準確性無法得到保證,也無法在系統內形成統一的信息采集、上報機制、數據共享等,嚴重影響到業務的辦理效率與數據質量。
而房產測繪與房產GIS、MIS一體化集成是房地產行業現在和將來的發展趨勢,用空間數據庫技術正確存儲和表達測繪數據成果,以精準的測繪成果關聯各管理系統房產業務數據,是真正建立以圖管房、圖屬合一的房產GIS系統的意義所在。為了實現數據的一體化集成存儲管理,就必須完成對原有分散數據庫的遷移整合。
ETL(Extract-Transform-Load的縮寫,是數據抽取(Extract)、轉換(Transform)、裝載(Load)的過程)能夠按照統一的規則集成并提高數據的價值,是構建數據倉庫的重要一環,用戶從數據源抽取出所需的數據,經過數據轉換,最終按照預先定義好的數據倉庫模型,將數據加載到數據倉庫中去。整個數據遷移過程將從原有數據的分析、數據規劃與設計、數據遷移主體間關系、數據遷移的技術手段和數據遷移的措施、數據模擬遷移等六個方面對整個遷移過程進行設計。
3.1 原有數據的分析
通過對原有數據的結構和質量分析,可以預估在實際數據遷移的過程中將會遇到的難點問題,并且提前對這些可能出現的難點問題優先和重點解決。
3.2 數據的規劃與設計
針對目前數據方面存在的問題,提出新的信息庫應包括:基礎數據庫、從業主體數據庫、業務數據庫、統計數據庫和發布數據庫。新的數據庫設計將有效避免原來數據的冗余和關聯異常問題,為房產測繪與房產GIS、MIS一體化集成提供數據層面的保證,從而為構建圖檔一體化和以圖管房的業務系統奠定基礎。
3.3 數據遷移主體間關系
進行數據遷移的主要任務是分析清楚遷移主體間的關系,即原數據庫(空間庫、檔案庫、登記庫)與目前規劃建設的房地產市場信息庫之間的關系。根據數據規劃與設計思想得出如下對應關系:原空間庫與現基礎數據庫對應;原檔案庫主要與現業務庫和從業主體庫對應;原登記庫主要與現基礎庫中房地產權屬數據和業務庫中的數據對應。
3.4 數據遷移的技術手段
傳統的數據轉換工具只能支持數據格式級別的轉換,難以控制轉換過程的細節,因此多數情況下不能達到數據轉換遷移的目的;而采用FME平臺的SETL(空間數據的ETL),是基于語義轉換的GIS互操作無損遷移技術,通過對多種格式空間數據的提取、轉換,以及對轉換的空間數據進行操作和模型變換及屬性的掛接,可從根本上達到對原數據無損轉換、遷移。
3.5 數據遷移的措施
由于原數據庫和新數據庫在設計的結構差異,從原數據庫到新數據庫數據遷移極具挑戰性,一旦措施不當,珍貴的數據資源將面臨丟失的危險,要成功地實現數據庫數據平滑遷移,需要周密計劃、充分準備和安全備份,并按照一定的步驟來完成。
3.6 數據模擬遷移
根據數據遷移方案,建立一個模擬的數據遷移環境,它既能仿真實際環境又不影響實際數據,在數據模擬遷移環境中測試數據遷移的效果。數據模擬遷移前也應按備份策略備份模擬數據,以便數據遷移后能按恢復策略進行恢復測試。根據數據遷移測試方案檢測模擬遷移后數據成果和應用軟件是否正常,以及數據一致性測試、應用軟件執行功能測試、數據備份和恢復測試等。
根據ETL的流程設計及房產信息數據庫的特點,整個數據遷移實施工藝流程分為數據準備、數據抽取、數據清洗、數據過濾、數據處理、數據加載、數據校驗等七個主要部分。具體遷移實施流程圖如下圖。

4.1 數據準備
原數據整理是對空間庫、檔案庫、登記庫等進行依據國家統一標準的規范性整理、補齊數據內容的完整性整理和保持與檔案同步的一致性整理。并在整理過程中按照國家統一標準及本地需求,建
立結構規范的臨時數據庫(簡稱為整理庫),將原生產數據轉換導入該庫。
4.2 數據抽取
根據原數據庫接口及系統業務特點,數據抽取按年份以項目為單位進行分批,通過項目關聯樓、樓關聯戶、戶關聯權屬信息和業務流程數據等將對應樓盤所關聯的所有屬性信息、權屬信息,全部提取放入備份數據庫。增量數據的抽取采用時間戳方式進行增量抽取,時間戳方式是基于快照比較的變化數據捕獲方式,在源表增加一個時間戳字段,在系統變更表數據的時候,同時修改時間戳字段值。當進行增量數據抽取時,通過比較系統時間與時間戳字段的值來決定是否需要抽取數據。
4.3 數據清洗
在數據遷移過程中需對各類數據庫做一些必要的清洗操作,即把原先分散在不同環境中各種空間信息和屬性信息數據進行規范化、標準化,并去除其中錯誤數據。針對數據庫中數據的重復、錯漏等不規范情況,數據清洗的思路以樓盤表為核心展開,通過數據清洗確保數據庫中樓盤表的唯一性,并使樓盤表關聯的地塊、樓和單元合理準確、單元的辦證情況沒有重復且前后手數據不相互矛盾、房產抵押登記情況與樓盤上狀態一致、房產限制條目信息與樓盤上狀態一致同時清除各類表垃圾記錄、關鍵字段空值、房產樹信息無關聯等。
4.4 數據過濾
由于現狀數據庫存在遷移變更、系統變換、數據統計等原因,使得現狀數據庫的屬性庫數據表格存在大量臨時表、冗余表,經統計現狀庫數據表個數達493個,通過與新系統模板對照,把現狀庫中的屬性數據設定過濾條件把表分類為如下三類:
村長知道不能跟他一本正經,反正就是嘻嘻哈哈,說對了就當敲打他,說錯了也只當開玩笑打哈哈。動不動找什么鎮長書記,我還不曉得你。如今人家還說你呢。你上次去縣里找趙書記,說是趙書記還跟你說了話。人家問你,趙書記說什么,你說趙書記叫你滾開些。
與新系統有對照關聯關系的屬性表;
有參考價值而與新系統無對照關聯關系的屬性表;
沒有使用價值的臨時表和統計表等。
然后針對三類數據分別制定相應處理方案,重點遷移與新系統有對照關聯關系的屬性表數據;把有參考價值而與新系統無對照關聯關系的屬性表打包遷移到參考數據庫;把沒有使用價值的臨時表和統計表打包遷移到歷史數據庫。
4.5 數據處理4.5.1數據補錄
數據補錄主要是對住建部 《房地產市場基礎信息數據標準》所要求的以及新系統中需要擴充的業務數據,這些數據多數是非電子格式或非結構數據,或者原系統中已收錄但數據結構和格式與需求相差太大無法通過數據整理工具整合,則必須人工補錄或補錄工具軟件轉換補錄到新系統中。
由于新舊系統數據庫的各對應屬性表結構及其關聯方式各異,因此數據遷移工作的關鍵就是對新舊系統數據庫各對應屬性表字段建立一一對照關系,從原數據庫到目標庫的數據遷移近似于把原數據庫屬性表各字段重新打亂后關聯對照到目標庫對應屬性表中,同時通過原關聯關系重新建立起新的關聯關系。
4.5.3 數據融合
數據融合是把多源異構、格式不一的信息通過合適的方法結合起來得到一個更滿意的綜合信息的過程。原數據包含空間庫、檔案庫、登記庫等空間數據和非空間屬性數據,通過數據融合把不同的數據整合到統一的框架下。把非空間的屬性融合和空間幾何位置的融合結合起來進行,在幾何位置融合的同時從多種數據源中抽取所需的屬性組成新的屬性結構,按照語義轉換方法對屬性值進行轉換,從而把各類屬性信息與空間樓盤信息建立有機關聯。融合后新數據不僅改變了屬性結構,也從多個數據集中繼承了屬性內容。充分利用已有數據,降低成本,實現信息資源的共享,改進多源異構數據的可靠性和可維護性。
4.5.4 數據轉換
本項目數據庫基礎軟件平臺采用SQL server、轉換軟件采用基于語義轉換技術的空間數據處理軟件FME(Feature Manipulate Engineering)Suite。FME優點是不再將數據轉換看作是從一種格式到另一種格式的變換,而是將GIS要素同構化并提供組件能夠將數據處理為所需的表達方式,在轉換過程中重新構造數據及操縱數據。FME所執行的整個數據轉換過程都通過語義映射文件來控制,實現了不同空間數據格式(模型)之間的轉換,為進行大批量、快速度、高質量、多需求的數據轉換遷移提供了高效、可靠的手段和支持。
4.6 數據加載
本項目在數據整理、數據遷移過程中均以數據的穩定性、生產高效合理性、成本節約等多方面綜合考慮,采用基于語義轉換的GIS互操作數據無損轉換遷移技術,將各類異構數據裝載到目標數據倉庫中去,數據加載方式主要采用如下兩種方式進行裝載:
基本裝載:按照裝載的目標表,將轉換過的數據輸入到目標表中。
追加裝載:主要是增量數據的裝載采用此種方式。即目標表中已經存在數據,在保存已有數據的基礎上增加新數據。當一個輸入的數據記錄與已經存在的記錄重復時,輸入記錄可能會作為副本增加進去,或者丟棄。
4.7 數據校驗
數據校驗是為保證數據遷移的一致性、完整性,用一種指定的算法對轉換前后的數據進行對比校驗的過程。通過對轉換前后數據結構和屬性進行統計、對比分析,分別校驗空間數據的幾何位置和非空間數據的屬性值在轉換前后是否一致、完整,以及各類空間數據和信息數據的拓撲關系和邏輯關系是否正確等。并將目標數據庫中各類數據重新組合和關聯回遷到臨時庫與原數據庫進行字段校驗,確保整個數據遷移過程的質量。
一直以來房屋登記中心各類數據分散在不同業務處室,各自獨立管理,投入大量的人員及空間用于日常管理維護。通過數據庫ETL技術,把原有屬性數據、圖形數據以及空間基礎地理信息數據整合在統一數據平臺內,使得業務信息與圖形信息得以實時關聯與互訪。真正實現了房地產業務審批環節圖形信息、權屬信息、檔案信息一體化管理和“以圖管房、以圖管證、以圖搜房、以圖發布”。
數據整理遷移消除了大量冗余數據提高了管理效率,而統一標準的一體化集中管理則大大降低了日常管理維護成本。中心數據庫就像一臺交換機,有各種數據接口專門負責數據的采集與交換。某一房產應用子系統只需要和這個交換機建立數據通路,就可以和其他應用系統進行數據交換,而不必在兩個需要交換的部門之間建立一條單獨的數據通道。這樣極大地減少了數據交換通道的數量,節省了數據交換的花費。
[1]田揚戈空間數據倉庫的ETL研究 武漢大學學報 2007年4月.
[2]蒙迪 (Joy Mundy)Microsoft數據倉庫工具箱 (第2版):使用SQL Server 2008 R2和Microsoft BI工具集2012-05.
[3]蔣海琴 房產管理信息系統 科學出版社 2007年4月.
[4]房地產市場基礎信息數據標準 中國建筑工業出版社JGJ/T 252-2011.
P208[文獻碼]B
1000-405X(2015)-10-278-2