999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

多源地名實體融合算法研究

2024-07-01 00:00:00周逍杭
科技資訊 2024年8期

摘要:智慧城市的發展使人們對地名數據庫的要求越來越高,但用戶能從網絡爬取的地名數據往往存在數據質量不高、數據格式不一致、空間基準不一致、數據冗余等問題中研究了多源數據的獲取與數據的預處理、多源數據的匹配等方面,豐富地名數據數量和質量,提高了地名數據的現勢性,提高了地名數據庫的更新效率,促進了地名數據匹配融合的相關研究理論。

關鍵詞:多源地名""縮寫字檢測""相似度匹配""信息融合

中圖分類號:P208

Research"on"the"Fusion"Algorithm"of"Multi-Source"Geographical"Name"Entities

ZHOU"Xiaohang

(School"of"Geomatics"and"Urban"Spatial"Informatics,Beijing"University"of"Civil"Engineering"and"Architecture,Beijing,102612"China)

Abstract:The"development"of"smart"cities"leads"to"people's"higher"and"higher"requirements"for"the"geographical"name"database,"but"the"geographical"name"data"that"users"can"crawl"from"the"Internet"often"has"problems"such"as"low"data"quality,"inconsistent"data"formats,"inconsistent"spatial"benchmarks"and"data"redundancy."This"paper"studies"the"acquisition,"pre-processing"and"matching"of"multi-source"data,"which"enriches"the"quantity"and"quality"of"geographical"name"data,"improves"its"uptodate"state,"enhances"the"updating"efficiency"of"the"geographical"name"database,"and"promotes"the"research"theory"related"to"the"matching"and"fusion"of"geographical"name"data.

Key"Words:"Multi-source"geographical"name;"Acronym"detection;"Similarity"matching;"Information"fusion

當今城市發展日新月異,城市的規模也不斷擴大,數量也在逐年增多,新地名不斷涌現,舊地名頻繁變更,如何有效地提升地名數據的完整性、時效性以及權威性已經成為地名數據庫更新工作中必須解決的問題[1]。隨著網絡的發展,地理信息網站的地名數據來源也多種多樣,有很多地名來源于志愿者地理信息(Volunteered"Geographic"Information,VGI),VGI的數據來源于各種各樣的群體,用戶每天都在創建新的數據,但是這些數據一般是人們對空間地名的定性表達,這些地名往往不規范,有時還會使地名產生歧義,進而導致數據的可信度不高,因此需要對地名數據進行數據清洗、評價、匹配、融合等處理工作。通過地名融合可以實現地名各級結點數據資源的優勢互補,形成整體合力,提高數據質量,幫助人們獲取更加豐富的地名數據,同時也加快了地名數據庫的更新速度和維護效率,有利于保證地名數據的時效性;通過多源地名數據融合處理可以解決多源數據之間的語義差異、尺度差異、存儲格式差異等問題,提高地名數據可信度"[2]。

多源地名數據融合處理技術為地名數據采集提供了新手段,拓展了地名數據覆蓋范圍,豐富地名數據數量和質量,提高了地名數據的現勢性,提高了地名數據庫的更新效率,促進了地名數據匹配融合的相關研究理論。

1"多源地名數據融合處理技術

本文使用Python"3.7軟件進行廣度優先爬蟲爬取鄭州市中原區POI數據,由于從網絡上爬取的地理信息數據質量參差不齊、數據格式不統一、空間基準不統一,所以要對獲取到的數據進行數據預處理,通過數據清洗獲取高質量數據,本文采用基于地址分詞的相似度匹配算法對同名地名實體匹配,當兩地名數據匹配成功后進行幾何信息和屬性信息的融合,最終將融合后的數據在SuperMap中可視化顯示,并實現數據的查詢功能[3]。

2"多源地名數據獲取與預處理

2.1"多源地名數據清洗

從網站上爬取到的POI數據信息往往會存在信息缺失、錯誤拼寫、相似重復記錄等問題。在本文中主要介紹相似重復記錄問題,清除重復數據主要是通過POI名稱、地址信息等確認兩條記錄是否重復。清除重復數據的算法有根據編輯距離來計算兩條記錄的相似度、縮寫字段檢測。本文采用縮寫字段檢測算法。其基本思路如圖2所示,數據清洗前后結果對比如圖3所示。

2.2"格式統一及空間基準統一

多源數據的存儲格式多種多樣,常見的數據存儲格式有TXT文件、Excel文件、MySQL格式等,在本文中獲取的數據存入了Excel文件中便于后續的數據格式轉換,本文采用ArcGIS進行格式轉換,由于后續選用的SuperMap中的地圖SphereMercator(墨卡托投影),所以為了空間基準統一,投影選擇SphereMercator(墨卡托投影),格式選擇shapefile格式,以便后續在SuperMap地圖中可視化顯示。

2.3"基于地址分詞的相似度匹配

在多源地名融合算法研究中地名匹配起著至關重要的作用,在進行地名融合時首先要對多個來源的地名進行匹配,當匹配到是同一個地理位置時才進行多源地名的融合[4]。本文通過將地址信息拆分實現地址規范化,地址規范化的基本思路如下,其流程圖如圖4所示。

將地址信息分詞后通過對比兩數據源的相似度判斷兩地址字段是否為同一地名。首先比較POI數據的name字段,如果兩字段同時具有不同的方位詞或者一個具有方位詞一個不具有方位詞,那么匹配的兩字段不是同一地點進行下一條數據的匹配,因為如果具有不同的方位詞則代表不同的地點,但是相似度有可能非常高,例如:“汝河南路”“汝河北路”的相似度為0.75,但是兩字段并不是同一地點;如果兩字段同時具有相同的方位詞或者同時沒有方位詞,則比較兩字段的相似度,如果在閾值內則進一步判斷上一級字段的相似度,如果不在閾值內則表示所匹配的兩個字段不是同一地址。兩字段的相似度Sim(X,Y),R為兩字符串的重復字符串長度,公式為

3"多源地名數據融合算法

3.1"多源地名數據位置信息融合

在地名匹配成功的基礎上對經緯度進行融合,如果兩地址的經緯度精度不一樣,則選取經緯度精度高的坐標,如果兩地址的經緯度精度相同,則對于經緯度融合主要采用幾何中心融合方法,取同一地名的兩個坐標的中點作為最終融合的經緯度坐標。

其中,(X,Y)和(x,y)是地名匹配成功的兩個數據源的坐標,(m,n)是兩個數據源融合后的地名坐標。當所需融合的數據源多于兩個時,采用多邊形外心融合算法。

其中(A,B)"(a,b)"(α,β)為多個數據源的地名坐標,(c,d)為融合后的地名坐標。

百度地圖使用的是BD09,是在GCJ-02(火星坐標系)的基礎上進行二次加密得到的坐標;高德地圖使用的是WGS84,谷歌地圖使用的是GCJ-02(火星坐標系)[5],本文的實驗數據是采用廣度優先獲取的谷歌鄭州POI數據和高德鄭州POI數據。將兩數據源地圖的經緯度采幾何中心的坐標進行融合,融合結果如圖5所示。

3.2"多源地名數據專名信息及屬性融合

如果同一地名在不同數據源上有不同的表達方式,那么多源地名數據的專名融合可以根據數據來源的權威性、現勢性選擇融合,根據最近一次的修改日期判斷數據來源的現勢性,將權威性高、現勢性強的數據的專名作為主要選擇,添加到Modify_Name字段,權威性低、現勢性弱的數據的專名作為次要選擇放入Alt_Name字段供用戶參考[6]。在地名匹配一致的基礎上進行多源地名屬性數據信息的融合,如果權威性高的數據源中缺少地名的某項屬性,如人口、電話、占地面積等,通過匹配可以將另一數據源中的屬性添加至數據庫中,如果兩數據源都有屬性數據,則保留權威性高的數據源的屬性數據。

3.3"多源地名數據融合結果可視化顯示

將融合后的矢量數據導入SuperMap中,將數據格式轉化為SMWU工作格式以及UDD和UDB文件格式,將融合后的數據進行可視化顯示,并可以實現地名的查詢功能。多源地名數據融合結果可視化顯示如圖6所示。

4"結語

本文采用廣度優先爬蟲技術獲得地名數據,用了縮字檢測算法,剔除重復地名,從而提高數據質量。對興趣點的數據進行分詞處理,判斷興趣點地名的相似度,研究了多源地名專名、屬性以及幾何位置的融合,并對匹配融合后的地名數據結果進行可視化顯示。但是,在進行多源數據匹配時只采用了一種匹配方法,在今后的研究中將研究多種匹配算法,分析各種算法的準確率、召回率、效率等,從中準確率和效率最高的匹配算法。在數據融合時主要研究了多源地名數據的幾何融合,在屬性融合方面研究不夠透徹,在今后的研究中將深入研究屬性的匹配。在地名查詢時將采用R樹索引的方式進行地名的查詢,從而提高查詢效率。

參考文獻

[1] 趙文強.多源全球地名數據融合與更新方法研究[D].南京:南京師范大學,2021.

[2] 黃旭東.多源數據的多粒度信息融合方法研究[D].重慶:西南大學,2023.

[3] 秦鵬,賈洪杰,霍興瀛,等.融合大數據挖掘的用戶個性化POI推薦方法[J].計算機仿真,2022,39(6):355-358,385.

[4] 楊瑩,巢寧佳,胡盛濱.天地圖公共服務平臺地名地址數據融合探討[J].江西測繪,2022(3):38-41.

[5] 丁江,張國艷,魏子重,等.面向多源異構數據融合的隱私集合求交研究[J].信息網絡安全,2023,23(8):86-98.

[6] 葉芬,胡燕,楊琪琳,等.基于知識-規則的省級基礎地理實體多源數據融合轉換方法[J].測繪通報,2023(7):160-164.

主站蜘蛛池模板: 午夜欧美理论2019理论| 精品午夜国产福利观看| 72种姿势欧美久久久久大黄蕉| 呦视频在线一区二区三区| 麻豆国产在线不卡一区二区| 欧美综合一区二区三区| 香蕉色综合| 欧美一区国产| 日韩精品成人在线| 成年人国产网站| 成年人午夜免费视频| 亚洲精品午夜天堂网页| 久久久国产精品无码专区| 青青草一区二区免费精品| 全部免费毛片免费播放| 露脸国产精品自产在线播| 最新国产网站| 精品亚洲麻豆1区2区3区| 亚洲另类色| 国产成人精品一区二区不卡| 欧美高清视频一区二区三区| 91无码网站| 亚洲中文字幕手机在线第一页| 就去吻亚洲精品国产欧美| 日本尹人综合香蕉在线观看| 亚洲一级毛片免费看| 青青草欧美| 伊人久久大线影院首页| 欧美成人午夜在线全部免费| 亚洲国产理论片在线播放| 91精品国产无线乱码在线| 911亚洲精品| 国产香蕉国产精品偷在线观看| 精品一区二区三区视频免费观看| 欧美日韩导航| 免费无码网站| 一区二区在线视频免费观看| 超碰91免费人妻| 夜夜操狠狠操| 国产精品国产主播在线观看| 毛片视频网| 激情综合婷婷丁香五月尤物| 国产成人亚洲欧美激情| 久久99国产视频| 欧美日韩午夜| 宅男噜噜噜66国产在线观看| 中文字幕在线日本| 不卡午夜视频| 国产亚洲精品资源在线26u| 久久公开视频| 亚洲 欧美 中文 AⅤ在线视频| 亚洲午夜片| 久久免费视频6| 国产91丝袜在线播放动漫 | 动漫精品中文字幕无码| 亚洲欧美日韩动漫| 国产性生交xxxxx免费| 91小视频在线| 无码精品国产dvd在线观看9久| 亚洲男人天堂久久| 高清国产在线| 亚洲综合片| 国产精品一区二区无码免费看片| 福利小视频在线播放| 国产精品污视频| 伊人久久婷婷五月综合97色| 国禁国产you女视频网站| 亚洲精品日产AⅤ| 99视频在线观看免费| 国产精品一线天| 国产精品大尺度尺度视频| 亚洲天堂久久新| 国产av色站网站| 亚洲日本中文字幕天堂网| 日韩毛片视频| 国产精品一线天| 国产综合欧美| 亚洲无码视频图片| 亚洲愉拍一区二区精品| 一级毛片在线播放免费| 国产在线视频福利资源站| 东京热av无码电影一区二区|