倪金生, 劉翔, 楊勁林, 潘健, 蘇曉玉
(1.北京航天泰坦科技股份有限公司,北京 100070; 2.中國地質大學(北京)土地科學技術學院,北京 100083)
多源動態異構空間標繪內容整合研究
倪金生1, 劉翔1, 楊勁林1, 潘健2, 蘇曉玉1
(1.北京航天泰坦科技股份有限公司,北京 100070; 2.中國地質大學(北京)土地科學技術學院,北京 100083)
為使復雜的海量多源空間標繪內容規范化、標準化,確保標繪內容的正確性,亟需對空間標繪內容進行整合。針對多源異構空間標繪信息中存在的同標異物、異標同物等情況,分析不同應用類型標繪數據的自身特點,以最大限度地消除差異性為標準,采用粗糙集理論對信息進行分類,通過建立語義本體庫進行源數據分析、提取和轉換等工作,建立數據整合標準與質量控制體系,突破數據源之間標準的差異以及異常數據的限制,實現了多源標繪內容的自動/半自動整合。以全球地名數據為例,隨機選取4組實驗數據進行屬性約簡和規則提取,并對相關數據進行整合。實驗結果表明,算法可行性強,數據整合流程具備高效性,能夠應用于大數據集的分類。
多源動態異構; 標繪信息; 內容整合
隨著計算機與網絡通信技術的飛速發展,類似于Google Earth這類可以提供標繪平臺的應用服務軟件深受大眾的歡迎。但是由于數以萬千的用戶在此類平臺上進行標繪,標繪信息類型數據量大,結構復雜,現勢性要求高,在一定程度上超出了人工分析的能力,因而會出現數據的不一致性以及對其準確性的質疑[1-2]。如何處理海量多種數據源的異構標繪信息,高效地去除同物異標、同標異物的內容,實現多尺度空間信息的整合,已成為當前標繪信息內容整合的研究熱點和主要技術難點。為此,針對標繪信息的內容整合研究,尋求一種能夠從繁雜的標繪信息中正確高效的去偽存真、去粗存精的技術勢在必行。
多源動態異構空間標繪內容整合的核心是從雜亂無章的數據中提取出標繪信息,通過對數據自組織模型的構建,實現不同數據類型(文字、圖像、聲音、視頻和三維模型等)的標繪信息按主題自動歸類; 同時針對不同標繪情況(同標同物、異標異物、同物異標和同標異物等)的自身特點,進行源數據分析、提取和轉換等工作,建立數據標繪信息整合標準與質量控制體系(容錯率和正確率),突破數據源之間標準的差異以及異常數據控制,實現面向應用的多尺度空間信息整合,從而保證標繪信息的唯一性與正確性。
1.1 標繪信息主題類別
標繪信息主題類別是依據人們所關心的熱點問題,參照目前國內網易、新浪和搜狐等門戶網站的分類體系,采用以主題立類為主,以學科立類為輔的分類方式,進行標繪信息的主題劃分,為后續雜亂無章的標繪信息自動分類提供依據。
參照中國網絡信息分類[3]編制意見,將標繪信息主題劃分為生活服務、經濟、資源、社會文化、自然災害、政法軍事和社會安全等16大類139中類。
1.2 標繪信息自動分類
標繪信息自動分類采用粗糙集理論[4-6]。粗糙集理論是一種新的數學工具,可以分析和處理模糊和不確定性知識,它是基于對于論域中的每一個元素都能找到某些信息與之相關聯的假定之上。
在論域U范圍內,對于子集x∈U和等級關系R,可以根據R的上、下近似集的描述來劃定集合,其中Φ 為空集[7-8]。定義如下:
1)x的R-下近似集為{x∈U: [x]R?X};
2)x的R+上近似集為{x∈U: [x]R∩X≠Φ};
3)x的正域為PosR(x)=R-x。
標繪信息自動分類算法是基于概率粗糙集,把正則條件熵作為評判屬性重要程度的指標,進行屬性簡化,最后輸出相應的標繪分類準則和置信度。
具體步驟如下: ①根據設置一定條件的屬性把標繪信息樣本數據分為一組等價類,即“X1,X2,...,Xn”,每個等價類是在一個所有條件屬性上取值相同的樣本集合。同樣,我們也可以重新劃分一組數據集合,即“Y1,Y2,...,Ym”,即一個類別對應一個等價類; ②分析Xi和Yj(1≤i≤n,1≤j≤m)的情況。如果Y的集合下近似集包含X的集合,則X是一條確定性的原則,那么可信度為100%。如果Y的集合上近似集包含X的集合,則X是一條非確定性規則,那么可信度等于Xi集合中屬于Yj集合的百分比; 如果它們的交集是空的,則不產生相應規則; ③將帶有標繪信息的樣本數據進行歸類; ④合并相關的規則[9]。其中,規則由X?Y可信度(confident)記為Pr(X∪Y)/Pr(X)=support(X∪Y)/support(X),表示包含X的集合,同時也有可能包含Y,記作con(X?Y)。
根據不同應用類型數據(文字、圖像和聲音)的自身特點,對源數據進行分析、提取和轉換等工作,建立數據整合標準與質量控制體系(容錯率和正確率),消除數據源之間標準的差異,實現面向應用的多尺度空間數據整合。
2.1 標繪內容差異性消除
為了實現多源動態異構空間數據的無縫整合,首先必須對獲取的標繪內容進行加工與整理,爭取能夠消除標繪內容的大多數差異性,減少后期工作內容。
2.1.1 語義性差異
地理信息的多種類特點決定了其多語義性,對同一地理信息的語義也可有不同的理解,因而會造成語義分異問題(如“同標異物、同物異標”問題)。語義性差異的解決更多依賴于人工干預,通過建立數據的語義映射表來實現。如圖1所示通過描述和規范河流的拓撲規則和地理關聯,可以讓不同部門、單位和個人之間進行語義共享[10]。

(a) 交通部門(b) 水利部門(c) 地理要素
圖1 語義差異性消除實例
Fig.1 Semantic difference to eliminate
2.1.2 時空尺度差異
空間數據的尺度是由時間尺度和空間尺度構成的: 在時間尺度上,不同時間標繪的數據在名稱與位置上均不相同; 在空間尺度上,不同用途、不同需求的標繪數據對地理信息描述的詳實度也是不同的。對于這2種尺度差異的消除,采用的原則是: 用來整合的地理數據應該具有相同的空間尺度,時間尺度的差異則根據語義定義進行選擇、過濾。
2.1.3 坐標體系差異
不同的部門標繪的數據根據各自的要求采用的坐標系不同,因此數據疊加時會帶來偏差。由于坐標系采用的橢球基準不同或者投影方式不同而無法整合到一起,甚至在相同投影方式下坐標基準、中央子午線和分帶方式等的不同也會造成坐標系之間存在很大的偏差。如果要把數據整合到一起,必須將不同坐標系的坐標通過坐標轉換模型轉換到同一橢球基準、投影方式和分帶方式的坐標系中。
2.1.4 數據精度差異
由于數據采集的來源不同,在面積、邊長和位置等方面存在差異。數據精度主要取決于圖形標繪人員的經驗水平和坐標數據的精確度,包括坐標點后的小數位數等。以WGS84坐標系為例,地球長半徑為6 378 137 m,則僅在緯度方向上,1″對應的弧長就有幾十m。所以,對于大地經緯度坐標,至少應精確至秒后的1位小數,最好保留2位小數。在數據精度與坐標體系和空間尺度差異同時存在時,通過坐標體系和空間尺度的差異性消除進行數據精度差異性的控制。
2.1.5 同名實體表達方式差異
使用不同的標識(點、線或面)對同一種地物要素(房屋、道路和湖泊等)進行表達將會產生差異。整合前用同一實體表示同一地物,通過空間拓撲關系檢查進行差異性消除。
2.2 標繪內容整合
標繪內容整合主要包括: 通過建立語義本體庫(建立規則),進行數據過濾,采用容錯機制進行數據管理,最后利用拓撲關系整合進行數據位置的顯示調整,具體流程如圖2所示。

圖2 標繪內容整合流程
2.2.1 語義本體庫建立
通過對概念的嚴格定義和概念之間的關系來確定概念的精確含義,表示共同認可的、可共享的知識,從而解決語義異構的問題。在建立語義本體庫時根據建立的術語約束來建立本體中的類、屬性和個體。
采用SWEET對地理信息及知識體系進行描述,采用ISO19115/ ISO19119標準規范分解元數據以及建立空間信息服務分類體系。SWEET定義了一個基礎概念,該概念是關于地理信息科學,不同的地理信息在此基礎上共享一個語義本體。該本體含有相當數量的術語以及與之相關的精準定義,同時對概念間的關系與聯系做出精確描述。其中還有一些以OWL為主要表達形式的本體,不僅含有正交意義(物理量、時間、空間和地球領域等),而且集納了相關知識概念(事件、現象等)。一般意義上,研究人員將SWEET設計為高級本體,允許創建地理信息各個相關領域的具體應用本體,以補充完善SWEET的內涵。因此,地理語義本體在被創建時,可以借鑒SWEET(圖3)并進行一定程度的調整和擴充,這將減少構建具體應用本體的工作量,并降低出錯的概率。

圖3 SWEET本體及其關系
SWEET本體類結構(SWEET 1.1)在構建本體庫的基礎上,采用SWRL(semantic web rule language)語言來進行各術語間不同邏輯關系(包含關系、等價關系等)的描述,并建立語義映射表。
2.2.2 數據過濾
元數據的衡量準則是規則元數據,它的作用是判斷元數據能否符合相關要求。質量控制的標準就是該數據文件對應的規則元數據,數據校驗則包括對規則和規則元數據的校驗。
2.2.3 容錯管理
在數據整理中,并不是所有數據都滿足規則的,需要在確保標繪內容完整性的條件下對不正確數據進行備份、消除等處理。因此有必要建立一個容錯數據庫,用來存儲各種邏輯錯誤和格式錯誤,實現容錯管理。具體原則如下:
1)根據數據類型確立容錯規則。針對同一類數據,設立相同容錯規則。例如國名的全稱和簡稱之間建立相等的容錯規則。
2)主要數據源優先原則。若2個或2個以上數據源就相同數據發生沖突時,采取主要數據源優先原則。例如稅務數據來自于國家稅務局和其他研究數據庫,則以國家稅務局為準。
3)接近數據真實性原則。對于來自不同數據源的同一數據項,當無法評定優先級別,且沒有辦法取得真實數據的情況下,求取平均數據以盡可能接近真實數據。建立容錯規則可以在一定程度消除數據沖突,但沒有辦法完全消除。建議根據實際情況修改數據規則或進行其他處理。
4)空間拓撲關系整合。空間拓撲關系相當復雜,主要分點與點、線與線、面與面、點與線、線與面的相離關系、鄰接關系、重合關系、包含關系和相交關系。多源空間數據的整合可能會導致空間關系不完全符合邏輯,比如房屋建到了馬路上、鐵路修到了城墻上等。必須檢查和分析空間拓撲關系,尋找邏輯有問題的數據,進行糾偏,使數據在邏輯上保持相應的合理性。
基于數據獲取的途徑,動態異構空間標繪信息分別通過地圖搜索引擎,人工標繪以及網絡數據截取等方式獲取。其中,地圖搜索引擎通過收集互聯網上眾多的網頁并對其中每個詞進行索引,建立索引數據庫的全文搜索引擎。利用地名自動識別及空間定位技術,將具有空間屬性信息的網頁依據標繪信息數據庫組織規則自動入庫。全球地名數據庫(whole world geographic names database,WWGNames)即是通過地圖搜索引擎獲取的一種數據,該數據以點矢量形式存儲,包括地名點名稱(中文或英文)、別名(中文或英文)、經度、緯度、國家代碼和行政區劃編碼等屬性(圖4)。

圖4 數據表


表1 實驗結果表
實驗結果表明,聯合粗糙集算法和數據整合,隨著數據集的增加,運行時間也會隨之增加。此實驗結果符合時間復雜度分析,證實了粗糙集算法和數據整合的可行性和高效性,非常適合大數據集的分析與分類。
本文主要采用了粗糙集的分類方法,以正則條件熵為衡量屬性的標準,以語義本體庫為規則,進行數據的語義差別消除,有效地實現了多源異構空間標繪內容的分類。
通過建立語義本體庫、數據整合標準與質量控制體系,開展了對文字、圖像和聲音等不同類型標繪信息的自動/半自動整合研究,并實現了面向應用的多尺度空間數據整合。研究表明,本文的空間信息整合方法耗時少,正確率高。
但是由于所建立的語義規則和整合標準不能涵蓋全部數據類型,可能導致少部分樣本記錄無法正確整合,因此在這一方面還有待進一步研究完善。
[1] 陳靜,龔健雅,向隆剛.全球多尺度空間數據模型研究[J].地理信息世界,2011(4):24-27,43. Chen J,Gong J Y,Xiang L G.Research on global multi-scales spatial data model[J].Geomatics World,2011(4):24-27,43.
[2] 謝遠飛,劉洋,李海軍.空間數據挖掘方法綜述[J].全球定位系統,2010,35(5):65-68,75. Xie Y F,Liu Y,Li H J.Summarization of spatial data mining methods[J].GNSS World of China,2010,35(5):65-68,75.
[3] 吳禮志.《中國網絡信息分類法》編制研究[D].武漢:武漢大學,2004. Wu L Z.Research on Establishing Chinese Network Information Classification[D].Wuhan:Wuhan University,2004.
[4] Pawlak Z.Rough sets[J].International Journal of Computer and Information Sciences,1982,11(5):341-356.
[5] 劉少輝,盛秋戩,吳斌,等.Rough集高效算法的研究[J].計算機學報,2003,26(5):524-529. Liu S H,Sheng Q J,Wu B,et al.Research on efficient algorithms for rough set methods[J].Chinese Journal of Computers,2003,26(5):524-529.
[6] 張文修,吳偉志,梁吉業,等.粗糙集理論與方法[M].北京:科學出版社,2001. Zhang W X,Wu W Z,Liang J Y,et al.Rough Set Theory and Method[M].Beijing:Science Press,2001.
[7] 林鵬,楊波.粗糙集理論與方法[M].北京:科學出版社,2002. Lin P,Yang B.Rough Set Theory and Method[M].Beijing:Science Press,2002.
[8] 王宏磊.基于粗糙集理論的自行炮營指揮系統效能分析[J].艦船電子工程,2011,31(3):45-47,55. Wang H L.Operational of self-propelled howitzer ability quantification analysis based on information system of rough fair theory[J].Ship Electronic Engineering,2011,31(3):45-47,55.
[9] 魏曉云.關聯規則挖掘方法的應用研究[J].電腦與信息技術,2007,15(3):17-19,36. Wei X Y.Application of data mining in introducing talents[J].Computer and Information Technology,2007,15(3):17-19,36.
[10]陳常松,張傳霞.GIS語義共享的實質及其實現途徑[J].測繪科學,2000,25(1):29-33. Chen C S,Zhang C X.The essence of GIS semantics sharing and its realization[J].Science of Surveying and Mapping,2000,25(1):29-33.
(責任編輯: 陳理)
Research on content integration for multi-dynamic plotting information
NI Jinsheng1, LIU Xiang1, YANG Jinlin1, PAN Jian2, SU Xiaoyu1
(1.BeijingAerospaceTITANTechnologyCo.,Ltd.,Beijing100070,China; 2.SchoolofLandScienceandTechnology,ChinaUniversityofGeosciences(Beijing),Beijing100083,China)
In order to deal with the multi-source and multi-scale spatial data content integration and ensure the plotting correctness of the content, the authors have handled the multi-dynamic plotting information in which there exist such cases as the plotting marked with the same thing, different standards for foreign body, synonymous standard, and the same standard for the foreign body. The key problem is to analyze the characteristics of plotting information for themselves, perform source data analysis, extraction and conversion, and build data integration standards and quality control system. In addition, the authors have broken through the restriction that data are always from different sources or with outlines. As a result, the authors have achieved the application-oriented multi-scale spatial data integration.
multi-dynamic; plotting information; content integration
10.6046/gtzyyg.2017.01.31
倪金生,劉翔,楊勁林,等.多源動態異構空間標繪內容整合研究[J].國土資源遙感,2017,29(1):208-212.(Ni J S,Liu X,Yang J L,et al.Research on content integration for multi-dynamic plotting information[J].Remote Sensing for Land and Resources,2017,29(1):208-212.)
2015-09-17;
2016-01-08
國家863計劃項目“星機地綜合定量遙感系統與應用示范”(編號: 2013AA12A303)和 “全球海量空間信息更新關聯與主動服務系統”(編號: 2013AA12A402)共同資助。
倪金生(1964-),男,博士,主要從事于遙感與地理信息系統方面的研究。Email: jasonni@apollotg.com。
TP 311
A
1001-070X(2017)01-0208-05