999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于中文分詞的地址匹配技術在警用地理信息系統中的應用

2013-01-01 00:00:00劉廣濤向煜
科技創新導報 2013年2期

摘要:通過對基于盤古分詞的地址匹配研究,結合重慶市地址名稱的特殊性,對盤古分詞功能進行了擴展,并進行了詞庫的建設和索引的優化,并以此為基礎在警用地理信息系統中進行了成功的應用。

關鍵詞:盤古分詞 地址匹配 警用地理信息系統

中圖分類號:TP391.1 文獻標識碼:A 文章編號:1674-098X(2013)01(b)-00-03

地址匹配也稱地理編碼,是指將地址映射成地理坐標的過程,是用戶輸入一個地址串,即可返回其空間坐標,從而在可以將這個地址在地圖上進行定位。計算機無法通過文字敘述直接找到目標位置經緯度坐標。

例如,用“重慶市江北區電測村231號”來表示重慶市勘測院的位置,計算機無法從“重慶市江北區電測村231號”獲得重慶市勘測院的具體坐標位置。在使用地址匹配時,首先要建立一個標準地址庫作為基礎,標準地址庫包含了門牌地址、地名點等大量地址信息,并按照相應的標準規范進行了整理。地址匹配可以利用該標準地址數據庫來建立地址與地理坐標空間的對應關系,將各種興趣點或文本地址與標準地址數據庫進行匹配。

在公安信息化多年的建設過程中,各公安業務單位已經建立了大量的業務應用數據庫管理系統,業務數據量非常龐大,以重慶市為例,僅常住人口、重點單位、案發地點、POI等都有上百萬甚至于千萬條的信息,要將這些信息在地圖上進行空間定位,若采用人工手段直接將一條條信息按地址在電子地圖上進行標定,將耗費大量的人力、物力而且效果不準確。而地址匹配技術則正是快速實現大量業務數據向空間數據轉換的橋梁。結合重慶市地名的特殊性,該文采用全文檢索技術結合詞庫對重慶市地理數據庫進行地址標準化,并在此基礎上建立起了地址匹配服務。

1 中文分詞的實現

分詞(Word Segmentation)指的是將一個字符串切分成一個個單獨的詞。分詞是文本挖掘的基礎,對于輸入的一段文字成功的進行分詞,可以達到電腦自動識別語句含義的效果。

基于地址分詞的地址匹配是基于地址詞庫將地址字符串切分不同級別的地址單詞,如“重慶市/渝北區/黃龍路/555號/市公安局/”,然后利用分詞后的地址要素組成查詢條件在標準地址庫進行匹配。并返回標準地址庫中相應記錄的地理坐標。同時在匹配過程中對精準度進行加權計算。基于地址分詞的地址匹配實現流程如圖1所示。

傳統的分詞技術包括一元分詞,二元分詞,多元分詞和精確分詞等,一元分詞和二元分詞由于將簡單,且效率和精度都不滿足需求在此不再贅述。現在讓我們看看精確分詞和多元分詞。如下面這句話:“重慶市龍頭寺公園”,精確分詞由于不能包含重疊的詞,一般可以分成“重慶市/龍頭寺公園”,用這種分詞結果構建索引,輸入龍頭寺公園可以搜到,但輸入龍頭寺就無法搜到。而作為搜索用戶,往往需要既能搜到龍頭寺也能搜到公園,為了解決這個問題,我們必須對中文句子進行多元分解,即分解出合適的組合,比如上面的句子,如果分解為“重慶市/龍/龍頭/龍頭寺/龍頭寺公園/公園”那么無論我們輸入龍頭寺、公園還是龍頭,我們都可以搜索到這條記錄。

多元分詞和搜索引擎結合可以得到較多的匹配結果,但同時也增加了索引文件的大小和搜索的時間。另外由于將一些單詞進行了拆分,搜索結果的排序會受到影響。比如搜索龍頭寺,多元分詞后搜索的關鍵字組合為“龍+頭+龍頭+龍頭寺”,很可能會將只包含“龍”或者“寺”的記錄排在包含龍頭寺的記錄前面,這不是我們希望的結果。

為了解決上述問題,我們引入了盤古分詞,盤古分詞是一款開源的中文分詞系統,他提供了更加準確快速的多元分詞和精確分詞等類型,并通過控制多元分詞的冗余度和多元分詞結果的權重級別使分詞更加的快速精確。盤古分詞支持3級

冗余。

如“重慶市龍頭寺火車北站”,首先設置冗余度為1,只分解最佳的地名組合,結果為“重慶市/龍頭寺/火車北站/”;控制冗余度為1,地名更加細致,結果為“重慶/重慶市/龍頭寺/火車/北站/火車北站/”;控制冗余度為2,分詞達到最大細化,但結果也更臃腫“重慶/市/重慶市/龍頭/寺/龍頭寺/火車/北站/火車北站/”。

雖然通過多元分詞配合冗余度能大大的加快索引速度和精確度,但是依然不能滿足我們的需求,對應復雜的地名依然是很難對其進行很好的分詞,只有通過建立詞典,利用詞庫分詞,才能達到速度與精確度雙贏的效果。

2 詞庫建立與優化

詞庫是中文自動分詞的基礎,分詞詞庫機制的優劣直接影響到中文分詞的速度和效率。盤古分詞提供了詞庫管理接口,該文對其進行了擴展,可以對詞庫進行批量的增、刪、改操作。

2.1 詞庫內容

在保留字母詞庫、數字詞庫和量詞詞庫的基礎上添加當地地名地址詞庫和同義詞詞庫,方位詞詞庫,特殊符號詞庫等。地名地址詞庫保存城市特有地名、路名、機構名、小區名、興趣點(POI)和大地名一些常用城市大地名加入詞庫,如“龍溪”,“冉家壩”,“黃泥塝”等詞條;同義詞詞庫主要是對常用地址名的縮寫進行對比加入,如“重慶大學”對應“重大”,“重慶市動物衛生監督所”對應“市動監所”等;方位詞詞庫主要包含東西南北上下左右等表示方位的詞;特殊符號即為不常用的一些文字符號,如“⑨Ⅷ♂㊣R”等。

2.2 詞庫優化

隨著地名的增加詞庫會不斷變大,加載到內存的時間也會隨之變長。而通用地址庫,行政區庫和停止詞庫數據量相對較少,因此我們不將其加入到詞庫中,而是專門存放到單獨的文件中并行加載,從而可以大大減少詞庫加載的時間,提高了效率。此外,我們還對每個詞庫中的單詞搜索頻率賦予了不同的權值,在提高搜索速度的同時也提高了索引的精確度。

2.2.1 行政區詞庫優化

對于行政區詞庫,我們將所有區縣級行政區名稱加入到文該文件中。然后一次性將其讀入到內存中,在對地址進行行政區進行判斷后,調用相對應的行政區索引文件夾,大大提高了索引的效率。

2.2.2 添加過濾詞

過濾詞是語言中一些無關緊要的詞語,在索引時將被自動忽略。例如在漢字中“的,地,得”等都可以作為過濾詞。在大量文本信息中過濾詞的使用確實能增加檢索的精確度,但是對地名地址分詞來說,通常沒有這類過濾詞。如美的公司、天地集團中的“的”、“地”并非過濾詞。所以設計地名地址分詞算法時,沒有沿用一般的分詞算法設計特點,而是有針對性的不過濾掉任何詞。對于一些標點符號,連詞,助詞等有時候需要在分詞時過濾掉,盤古分詞提供一個的文該文件,用戶只要將需要過濾的詞添加到這個文件中,并將過濾詞開關打開,就可以過濾掉這些冗余詞,大大提高了分詞的效率。

2.2.3 使用通用地址庫

通用地址庫主要為一些地名通用詞,如“鄉、鎮、組、社、路、街、巷、弄、園、苑、沱、壩、坪”等。通用詞主要用于對詞典中有重復的詞或是分詞后的具有歧義或不準確的一些詞進行修復,如“中山三路”并未加入到詞典,但是“中山”卻在詞典中,“三”為數量詞,所以自動分詞結果為中山/三/路,這時會產生分詞冗余,降低了索引的效率和精確度。

這時我們可以對地址進行二次查找,當有單字存在于地名通名詞典中時,將其與前面未登錄單詞合并,形成二次分詞。如“路”存在于通用地址庫中,這時可以把路和其前面的單詞“三”合并,分詞結果為中山/三路。由于地名通名詞典容量比較小,可單獨存放在一個文該文件中,以二進制流的形式遍歷效率比較高,而且可以識別大部分具有規律的未登錄詞,簡單易行。

2.3 結果測試

根據上述的算法思想,在漢字詞典詞條為16萬的情況下,加載詞典到內存的時間為1031.25 ms,而分詞時間幾乎可以忽略不計。分詞結果如圖2所示。

以上分詞結果可見,加入詞典后明顯提高了分詞的速度精度。

3 地址匹配在警用地理信息系統中的應用

警用地理信息系統中地址編碼服務使用整理過后的標準地址庫,并在此基礎上,對外提供一個地址匹配的Web Service,即通過輸入一個普通的自然語言描述的地址,然后借助該Web Service獲取其空間坐標。可以支持批量匹配功能。主要包括如下幾個功能。

地址語義分析功能:首先對輸入地址信息進行文字整理,對地址信息補全,語句模式糾正,然后把對應地址通過分詞功能進行拆分,其中包括二義性處理,通用詞補充,停用詞過濾等。最終將地址整理成一個結構化的信息對象,方便后續模塊和模型進行判斷。

地址批量比對功能:通過比對分詞后的字符集相似度,通過兩個標準地址庫的比對結果,判定出兩個結構化標準地址庫的相似程度,從而為搜索排序奠定基礎。利用本系統對公安系統中存在的大量不包含空間位置信息的業務數據進行地址比對,為其添加坐標信息,進過測試,對比成功率達到80%以上。

標準地址庫存儲功能:通過對分詞整理后的標準地址庫建立索引,并將該索引優化后存儲在一個可快速讀寫的磁盤中,然后提供一個讀寫該索引的功能,以多鍵樹形式存儲,內涵結構地址比較器,可以隨時通過讀取索引信息,獲取地址數據,在有新的數據進入或修改時可對索引進行快速更新,提供了從標準地址庫中快速提取制定數量相關地址的能力。

地址匹配服務功能:提供一個Web Service通過查找地址索引獲取標準地址庫信息的能力,提供與網絡中使用的能力,其依靠TCP/IP(HTTP)協議進行數據訪問,依靠XML進行數據信息交互。如圖3所示。地址匹配服務管理功能:給用戶提供一個可操作的圖形界面,用戶通過該界面及功能對索引進行添加,更新和刪除,隨時保持與標準地址庫的同步。

4 結語

該文分析了基于盤古組件的地址分詞匹配機制,并將其成功應用于警用地理信息系統的建設中,大大提高了地址檢索的效率和準確度,并在實際應用中取得了良好的效果。但同時也存在一些亟待解決的問題。如標準地址庫中地名不完善或是數據沒有及時更新等。針對這些問題一是要嚴格規范地理編碼數據,完善數據采集流程,按標準化進行地理數據入庫,對不完整或歧義的地址進行篩選并修改或刪除;二是對地址數據錄入人員進行培訓,以保證數據錄入的準確性;三是要建立標準地址庫的更新機制,如定時更新索引庫,以保持地址庫和詞典的同步;四是將常用地名詞典歸納整理并入庫;相信在解決上述問題后,本系統在未來的工作中會發揮越來越大的作用。

參考文獻

[1]Clodoveu A,Davis J,Fonseca F T.Assessing the Certainty of Locations Produced by an Address Geocoding System[J].Geoinformatica,2007,11(1):103-129.

[2]姚盛江,吳潔,李樹坤,李榮.地理編碼技術及其在PGIS中的實現[J].警察技術,2011(3):14-17.

[3]馬照亭,李志剛,孫偉,等.一種基于地址分詞的自動地理編碼算法[J].地理與地理信息科學,2011,27(2):59-62.

[4]盤古分詞組件.http://pangusegment.codeplex.com.

[5]張林曼,吳升.地理編碼系統中地址匹配引擎的設計與實現[J].測繪信息與工程,2008,33(6):12-14.

主站蜘蛛池模板: 国产爽歪歪免费视频在线观看| 香蕉伊思人视频| 在线观看国产精美视频| 国产日本欧美亚洲精品视| 亚洲香蕉在线| 91精品网站| 国产黄网站在线观看| 在线精品亚洲国产| 国产精品吹潮在线观看中文| 2020亚洲精品无码| 伊人天堂网| 国产成人无码久久久久毛片| 欧美日韩国产在线人成app| 中文字幕无码电影| 99视频免费观看| 国产在线一区视频| 青青青国产视频手机| 国产成人凹凸视频在线| 亚洲欧美日韩动漫| 热思思久久免费视频| 久久综合色视频| 亚洲第一精品福利| 国产微拍精品| 成人国内精品久久久久影院| 免费精品一区二区h| 国产在线97| 美女亚洲一区| 欧美成人h精品网站| 凹凸国产分类在线观看| 免费国产黄线在线观看| 久久无码av一区二区三区| 国产av色站网站| 国产乱子伦视频三区| 久久国产亚洲偷自| 五月婷婷综合色| 天堂亚洲网| 真实国产乱子伦高清| 成人一区在线| 国产日本欧美亚洲精品视| 日本免费精品| 久久性视频| 色综合成人| 国产乱肥老妇精品视频| 国产亚洲精品自在线| 亚洲伊人天堂| 99精品一区二区免费视频| 欧美日韩高清在线| 免费不卡视频| 久久成人国产精品免费软件| 日韩人妻少妇一区二区| 国产欧美另类| 91精品国产情侣高潮露脸| 国产一区在线观看无码| 亚州AV秘 一区二区三区| 亚洲毛片在线看| 亚洲精品少妇熟女| 精品成人免费自拍视频| 国产成人夜色91| 欧美天堂在线| 国产成人91精品| 午夜国产大片免费观看| 女同国产精品一区二区| 香蕉久久国产超碰青草| 91在线激情在线观看| 天天色天天综合| 99久视频| 四虎永久免费在线| 538国产视频| 久久99精品国产麻豆宅宅| 美女被操91视频| 亚洲美女一区二区三区| 亚洲国产亚洲综合在线尤物| 九色综合伊人久久富二代| 最新无码专区超级碰碰碰| 欧美成人午夜视频免看| 欧洲成人在线观看| 国产超碰一区二区三区| 亚洲人成亚洲精品| 国产精品永久在线| 永久免费AⅤ无码网站在线观看| 久久性妇女精品免费| 亚洲日产2021三区在线|