常超明
(海南國源土地礦產勘測規劃設計院,海口 570100)
《國土調查數據庫更新變更規則》要求,需對年初及年末調查區域內的數據進行非過程性變更,增量更新行政區、調查區界限,整個圖層更新有變化的地貌、數字模型、生態紅線等。土地變更調查數據庫主要包括土地基礎信息、邊界信息、質量信息、利用信息、交易信息及法律信息,其中包含大量的土地變更調查信息及數據(如土地面積、所有權、用途、邊界、地形、地貌、土地質量等)。該數據庫由政府部門、土地測繪公司、房地產開發公司、土地規劃設計公司等專業機構建立并維護。使用土地變更調查數據庫可實現對土地資源更加精準、有效的管理及利用,為建設生態、宜居、宜業城市提供重要支撐。
莫國明[1]利用多源元空間基礎數據,以人機交互方式采集更新數據,人工目視解譯正射影像,通過Linder Feature點云采集軟件及多窗口聯動,完成數據入庫。張婧[2]等采用增量更新技術,對1∶5萬數據庫進行更新及質量控制,通過實際生產數據分析認為,質量控制可在人工基礎上增加人機交互二級檢查,在所有數據全覆蓋檢查后對業內編輯數據及增量數據進行全面二級檢查。葉程[3]提出了基于三維全系數據的更新方法,包括要素級與范圍級兩種更新模式,更新后進行拓撲錯誤檢查及數據質檢。范維鋒[4]按照數據類型依據DOM影像數據進行內判更新,對多地理國情監測數據進行了套合更新,依據DOM影像與GROUND點云數據進行拓撲錯誤更新等,但該技術存在無法快速獲取點云數據的缺陷。楊艷靜[5]提出基于多節點距離測量的地理信息數據庫更新方法,從邊-端-云數據、三維時空動態數據、點云數據及遙感數據中采集更新數據,構建三維時空信息圖譜,利用移動測量、SLAM標定、多參量節點融合等方法,分析生成測量參數分布擬合模型,建立統計概率、地理信息空間分布模型,實現了數據庫更新。曹佳敏[6]等構建了基于GNSS數據的多元地質空間數據庫更新模型,該模型在更新過程中保存了歷史數據并對數據層關系進行維護,更新速度快,但精度有待提升。
數據庫在成果公示前由自然資源部編制年度國土變更調查數據庫更新數據規范與變更規則及國土變更調查縣級數據庫質量檢查規則、國土調查數據庫更新統計報表設計及說明等技術文件,并研發2022年度國土變更調查數據庫質量檢查軟件。本研究依據以上文件進行要素更新、數據代碼統一、統計報表設計,利用質量檢查軟件v1.0.0.9進行模塊檢查,并以全國1∶25萬公眾版基礎地理數據庫為例進行案例分析。
為防止數據格式問題產生沖突,更新前需對內容及要素分類編碼,對數據更新交換格式及元數據格式進行設置,以滿足數據庫上傳要求,結合云平臺進行數據傳輸及備份。
要素代碼與名稱基本不更新,若更新需符合數據庫標準中的規定。參考基礎地理信息要素分類與代碼及國土調查數據庫標準,更新要素代碼與名稱如表1所示。

表1 要素代碼與名稱更新表(部分)
空間要素采用分層方法管理,如表2所示。

表2 層名稱與各層要素(部分)
其他更新要素統計表基本類似,需要注意的是,根據歷史數據庫的數據上傳格式要求,對源數據進行預處理,包括數據清理、數據集成、數據規約及數據變換。
云平臺為保證安全性一般自建,并進行數據備份。Oracle數據庫是一種自治實時數據庫架構,有先進的多模型融合數據庫管理系統,提供內存數據庫、NoSQL數據庫及MySQL數據庫等。將核心歷史數據備份在數據云一體機上,可形成縣鎮土地變更調查數據庫中心,與原有數據庫一起提供服務,配套一個PaaS服務云計算模型,可對數據庫資源進行管理及批次處理等。
更新模式為離線更新與在線更新。當大量工作人員同時下載及安裝更新且上傳數據較大時,可能會造成服務器更新速度緩慢、安全性降低,故使用分布式服務器與CDN技術來加速更新過程,開發離線更新模式,消除網絡因素的影響,自行決定更新時間,安裝過程較快、較穩定。
離線更新前,需下載歷史數據庫,在上傳更新數據前進行相似度檢測,計算歷史文件與更新文件兩個集合的相似度。由于數據庫中文件的存儲均采用字符串形式,故假設原文件為W1,更新文件為W2,文件劃分定長字符串組H(w,s),s為則字符串個數。兩集合的相似度算法如式(1)所示:
(1)
其中,W1為歷史文件集合,W2為新增更新文件集合,H(w,s)為系統中集合存儲字符串。通過相似度檢驗后,對數據進行預處理,檢查無重復則進行數據沖突自檢。
縣級數據庫質量檢查軟件v1.0.0.9可在更新完成后對數據庫進行輔助檢查。常見的數據沖突類型包括INSERT導致的唯一性沖突、表結構不同步、字段順序不一致導致的數據寫入失敗、UPDATE更新記錄不完全匹配等。由于離線更新已下載歷史數據庫,不需要網絡,故沖突檢測步驟是進行數據讀寫,提取更新元素編碼及數據定位,在歷史數據庫中提取該元素的操作日志,已上傳則進行更新數據核查,根據日志代碼提取參數,用系統沖突判斷函數進行自檢。未上傳則進行數據更新,更新后進行檢查。
增量更新模式是一種軟件開發部署方法,只更改更新部分而不必更新整個軟件系統,適用于需要頻繁更新的軟件系統,可顯著縮短部署及更新時間,減少對系統的影響。在增量更新模式下的更新分為以下幾個步驟:針對需要更新部分進行修改、測試及驗證。將這些更改部分的代碼打包,部署到生產系統中。參考已有的增量更新模型,利用變更數據和已有的靜態數據庫挖掘結果,更新動態數據庫上的頻繁項集,模型如圖1所示。

圖1 增量更新模型Fig.1 Incremental update model
圖中橙色元素表示數據庫更新后的新增元素,淺灰色元素表示被更新替換掉的已刪除元素。模型定義如下:
對數據進行預處理:
(2)
(3)

添加增量:
(4)
其中,ARt表示新增元素集ATt的頻繁項集合,f()函數是一種頻繁項集的挖掘算法。
將增量導入數據庫中進行合并:
Rt=F(Rt-1,ARt,DTt)
(5)
其中,Rt表示DBt的頻繁項集合。
綜合公式(2)~(5)可得:
(6)

根據公式可知,增量更新模型包括預處理、增量及合并等步驟。預處理中,數據庫會識別新增及刪除元素。利用公式(2)、(3),將數據庫DBt中的所有元素都計算一遍,找出與輸入數據具有高度相似性及編號的元素集進行比較。將比對結果分為兩個集合:一個是更新后新增的元素集合,另一個是需要刪除的元素集合。預處理完成后,用f()函數挖掘新增元素集合中的頻繁項,并另建頻繁項集合。進行合并時,根據公式(5)得出挖掘結果,即新增數據。
對案例1∶25 萬數據庫的更新流程進行總結,步驟如圖2所示。

圖2 1∶25 萬數據庫的更新流程Fig.2 Update process of 1∶250 000 database
需要注意的是,進行沖突處理時,若系統自查不通過則返回最開始重新進行流程,循環直到自檢通過,形成新的1∶25萬地形要素更新增量成果數據及1∶25萬圖庫一體化存儲更新數據。
數據獲取技術:獲取地理信息的最基本方式是通過實地測量或遙感技術來獲取數據。對于基礎地理信息數據庫,數據獲取及整合是一個很重要的關鍵技術。
數據處理和整合技術:從不同來源收集到的地理信息可能存在格式、坐標系及精度差異,需使用適當的軟件和算法進行數據處理及整合,以確保數據的一致性及準確性(如5萬地形數據預處理)。
數據庫設計和管理技術:基礎地理信息數據庫需要設計及管理數據庫結構,包括數據表、索引、視圖及數據關系等。需使用數據庫管理系統(DBMS)進行管理并保證數據庫的穩定性及安全性(如根據各類要素特點完成數據庫聯動更新、符號庫聯動更新,點、線、面及文本符號的制作更新)。
數據標準化技術:為了確保數據的一致性及可交換性,需使用統一的數據標準(如數據庫中包含地名,需使用標準的地名拼寫法及地名分類)。
數據質量控制技術:基礎地理信息數據庫需經常進行數據質量控制及更新。需建立數據質量控制體系,對數據進行定期維護及更新,以確保數據庫的準確性及完整性。
土地變更調查數據庫的更新通常由政府或土地管理機構負責,在數據更新過程中涉及多種關鍵技術,如數據采集方面的GPS定位、衛星遙感、測繪技術等,數據處理方面的數據去重、格式化及標準化等,數據庫管理方面的數據存儲、數據備份等,數據分析方面的數據挖掘、數據可視化、數據統計等,以完成對土地變更調查數據庫的管理及維護。隨著計算機技術的發展,可利用機器學習、深度學習等人工智能技術對土地信息進行自動化處理及分析。需要注意的是,土地變更調查數據庫的更新需要一定的時間進行元數據收集,故進行數據庫聯合更新時可采用離線更新及歷史數據備份,以有效避免數據沖突造成的數據丟失,更新頻率由各單位自行安排。數據庫更新技術的優化體現了數據共享原則,避免了重復測繪,節約了大量資源,提高了數據庫更新效率,為土地資源利用提供了參考。