劉亞楠
(珠海市測繪院,廣東 珠海 519015)
自然資源是人類生存和發展的載體與基礎,自然資源管理效能的提高事關社會整體發展效率和質量[1]。自然資源測繪為自然資源管理提供了科學、準確的時空數據,是自然資源主管部門科學高效地履行管理職能的重要技術支撐[2]。隨著大數據、人工智能、“互聯網+”等新興科技的普及,各行各業融合、跨界進程加速。自然資源測繪技術正面臨著管理升級需求演化快,測繪生產集成難;數據復雜且分散,時空信息融合更新難;信息化服務要求高,智能服務難等測繪與信息技術的挑戰[3]。
本文通過分析研判各類型業務規則、涉及的數據內容、科學表達方法,構建知識庫,基于開源空間數據轉換庫(GDAL/OGR)的自然資源測繪矢量數據處理模型,自動匹配專家規則庫,解決傳統測繪跨平臺頻繁切換的關鍵技術,實現靈活的規則選擇及高集成度的測繪生產;將面向自然資源領域多數據來源、多數據格式、多時空數據、多比例尺、多語義的數據,采用跨平臺多源異構數據信息映射技術,構建實體對象間的映射關系,從而實現自然資源多源異構時空信息數據融合和統一管理。
研究中以自然資源測繪時空信息智能技術服務體系為目標,以集約數據生產→高效信息整合→智能定制服務為主線,從測繪數據集約生產、時空信息高效融合、網絡一體智能服務等方面建設“信息服務平臺”,構建一體化、智能化、精準化的測繪服務平臺。
新時代自然資源改革發展同時也帶來的業務規則多變難題。自然資源測繪涉及大量矢量數據的分析處理工作,傳統作業方法需依托多個GIS平臺,存在跨平臺頻繁切換、操作煩瑣、技術要求高的技術瓶頸。通過將業務需求的各類方法、策略和參數進行科學化的集成,形成業務專家規則庫,并建立知識規則處理模型,應用服務可以根據需求調用不同規則,自動構建數據處理模型,從而實現基于專家規則庫的自然資源測繪數據零向導定制[4]。
專家規則庫是一種測繪行業數據智能化定制策略,規則庫的質量好壞直接影響數據生產的質量好壞和可靠性。規則庫中最關鍵的部分就是知識存儲于表達,這些知識用于識別錄入的信息并給出匹配的規則[5]。從知識的本身來看,可分為兩種類型:一是基礎原理和理論,另一種是基于直接和間接經驗積累的專門知識。如果規則庫中的信息缺乏堅實的理論基礎,是很難做好經驗規則的轉化工作的,也就不可能對一個復雜的問題給予正確的解決方案。因此,在建立數據定制的專家規則庫時,不僅要求庫中包含大量的流程控制和信息處理原則,更重要的是要有能夠處理復雜問題所需的基本理論的深層知識作為基礎,對數據定制生產流程中需要解決的突發問題與矛盾能給出相應的判斷和人性化的提示。
專家規則庫的建立主要是從經驗豐富的自然資源審批測繪領域數據生產專家處獲得知識,并把它們以模型和規則的方式進行編碼,形成一套問題處理和流程控制機制。知識表示是用計算機能夠接受并進行處理的符號和方式來完成的。不同的表示方法大大地影響系統的工作效率。因此,規則表示是研制專家系統的重要問題,這就需要研究如何把相應的知識與規則形式化,并轉移給機器。自然資源審批測繪專家規則庫的設計主要包括問題信息知識化、知識概念化、概念形式化、形式規則化和規則合法化。一般規則庫由知識主表、業務知識主表、業務知識從表組成。知識主表:用抽象的方式存儲各類知識,包括知識ID,知識類型,知識描述,版本號,創建時間,審批時間,狀態等屬性。其中,知識類型用以劃分系統中各種類型的專家知識,知識描述用以描述各類專家知識的特性,其他屬性字段則適用于知識的發布和審批。業務知識主表:分別描述了故障診斷系統的多類專家知識,包括故障監測點知識主表,閉環測試知識主表,故障樹知識主表等。業務知識明細:是具體的專家知識的存儲結構。
通過上述三層層級結構,有效地構建了穩固、可靠并且方便擴充的專家知識數據庫模型,方便后續存儲更復雜的專家業務知識。
不同系統的數據格式對同一地理實體表述的方式存在差異性,但表達的內容或信息卻存在一致性。通過在傳統GIS地理要素編碼(主碼符號)的基礎上嵌套具有實際意義的地理要素子碼,使得符號化技術超出圖面表達的應用范疇,將地理要素按照可控打散與嵌套式組件化的新方法構建全息數據結構模型[6]。在具體的應用中,將構成主碼符號部件的子碼賦予是否打散(整體分解)和是否過濾(信息過濾)兩個簡單標志,在符號化技術層面將系統間復雜的對照關系拆解為簡單的“一對一”實體映射關系,從而實現一對多、細化到信息層面上的跨平臺多源異構數據轉換。自然資源數據轉換流程如圖1所示。

圖1 自然資源數據轉換流程
為滿足管理需要,響應用戶數據請求,需按規則對多源異構數據進行解析、空間數據識別和關鍵信息抽取,并對結果信息進行拓撲重構、信息重組,形成符合數據請求的數據結果,為統一管理和共享服務奠定基礎。
多源異構數據時空信息聚合,主要包含三個環節:數據格式解析、空間數據識別以及關鍵信息抽取。數據格式解析主要是通過定制數據格式解析服務,通過調用這些服務識別不同的錄入數據文件的格式并進行實時解析和關鍵性轉換;空間數據識別主要是針對解析后的數據,通過對比標準屬性庫模板判斷其屬性信息的含義,并檢驗空間數據的坐標參考以及圖形拓撲關系,并將不同坐標參考下的數據信息統一歸算到指定坐標參考下;關鍵信息抽取指的是根據空間數據識別結果,對其中重要的幾何圖形信息和屬性信息進行匹配和篩選,篩選后對結果進行信息重組,形成符合數據請求的轉譯數據結果[7]。時空信息聚合流程如圖2所示。

圖2 時空信息聚合流程
(1)自然資源多源異構數據結構解析與信息抽取
自然資源數據格式解析主要是通過定制數據格式解析服務,通過調用這些服務識別不同的錄入數據文件的格式并進行實時解析和關鍵性轉換;空間數據識別主要是針對解析后的數據,通過對比標準屬性庫模板判斷其屬性信息的含義,并檢驗空間圖形數據的坐標參考以及圖形拓撲關系,并將不同坐標參考下的數據信息統一歸算到指定坐標參考下;關鍵信息抽取[8]指的是根據空間數據識別結果,對其中重要的幾何圖形信息和屬性信息進行匹配和篩選,為后續篩選結果進行信息重組,形成符合數據請求的轉譯數據結果形成基礎。
(2)自然資源時空數據多層次模型建立
自然資源多源異構數據經過信息提取之后,將形成包含時間、空間在內的多個維度的信息流,將該信息流在數據結構層次展示出來,需要建立自然資源時空數據多層次模型[9]。這其中主要包括2個基本層次:信息的表達性可視化任務(taskV)、分析性可視化任務(taskA)。
信息流的表達性可視化任務主要以多模態時空數據、信息和知識的高效表達與傳遞為基本目標,重點包括信息的離散-連續、動-靜、真實感-抽象化的自適應表達,將不同特征下的信息流模型化、可讀化、可視化。
其形式化定義為:
taskV=。
分析性可視化任務旨在表達通過復雜計算分析所獲取的多模態時空數據中所隱含的信息,突出數據中所包含的特征與關聯關系,保持數據重構的完整性和可分析性特征。典型的應用包括實時計算與近實時模擬結果的動態可視化、空間格局與分布模式可視化、符號化與拓撲關系可視化等。其形式化定義為:
taskV=。
(3)在信息流模型庫中建立索引實現信息聚合
自然資源數據信息流模型庫主要是實現自然資源地理信息抽取與轉化的主要任務,是基于地理命名實體識別(Geo-NER)、地理命名實體消歧(Geo-Disambiguation)和地理空間求焦(Geo-Focusing),建立信息流模型中的關鍵數據索引,從而實現關鍵信息的抽取和聚合。
自然資源數據信息流模型庫索引的建立,通過對抽象的數據信息流模型庫進行交互式的可視化表達以增強感知,最小化認知負擔,是提高信息流模型庫索引性能與效果的主流方法。空間地理信息結構化的基本原理如圖3所示。

圖3 空間地理信息結構化的基本原理
自然資源審批測繪成果數據包含各類專題制圖工作,包括規劃總圖、規劃局部圖、現狀總圖、現狀局部圖的制作。通過集成預設好的專家規則庫,只需要上傳相應的制圖數據,選擇制圖模式,系統將自動在后臺匹配數據坐標系,查找對應年份對應圖幅的專題底圖數據,并通過空間運算給出符合要求的最優比例尺和制圖范圍,同時自動匹配符號庫標識出制圖圖例。制圖流程及應用實現如圖4、圖5所示。

圖4 基于專家規則庫的零向導制圖流程

圖5 基于專家規則庫的制圖
由于涉及的業務數據種類復雜格式多樣,想要將數據進行精確轉換需要對數據進行解析、抽取、轉換、重構,最終得到目標坐標系下數據。在本應用中基于多源異構數據信息映射及時空信息聚合技術,實現了各類數據的集中快速解析和關鍵信息抽取,將抽取出的信息流結果根據轉換要求進行了儲存與實時轉換,最終將轉換結構按照幾何數據類型進行聚合重構,得到目標坐標系下的數據結果。應用實現如圖6、圖7所示。

圖6 EDB格式數據政務轉換

圖7 自然資源測繪成果數據
面向自然資源土地審批測繪生產及管理服務需求,梳理編制生產標準,構建專家規則庫,并建立知識處理規則模型,實現了不同生產需求規則模型的自動選擇以及多源異構數據解析與轉換,突破了復雜多源異構數據整合的規則表達及轉換建模,聚合了自然資源時空信息,提升了土地審批測繪生產效率及服務能力,為自然資源管理部門進行土地資源管理夯實了基礎。