王克永,劉紀平,羅 安,王 勇
(1. 山東農業大學,山東 泰安 271018; 2. 中國測繪科學研究院,北京 100830)
?
前后綴與特征詞相結合的地名地址提取
王克永1,2,劉紀平2,羅安2,王勇2
(1. 山東農業大學,山東 泰安 271018; 2. 中國測繪科學研究院,北京 100830)
Extracting Toponomy and Location Based on the Combination of Prefix and Suffix with Feature Words
WANG Keyong,LIU Jiping,LUO An,WANG Yong
摘要:隨著地理信息與計算機技術的發展,網絡中的非結構化地名地址數據越來越多,逐步成為地理信息更新的重要途徑之一。針對互聯網中地名地址的存在方式及結構特點,本文提出了一種前后綴與特征詞相結合的地名地址識別提取方法。首先利用HMM訓練進行分詞,接著通過地名地址前后綴詞庫進行候選地名切分與預提取,最后根據特征詞進行匹配過濾,實現對地名地址的準確提取。試驗結果證明,本文方法提高了地名地址識別的準確率和召回率,很大程度上解決了未登錄地址提取問題。
關鍵詞:前后綴;特征詞;HMM分詞;地名地址
隨著互聯網技術的發展,多源網絡中廣泛存在數量龐大、種類繁多的新聞、報道、軍事、生活信息,它們大多是文本數據,不容易被自動挖掘與提取。然而,蘊藏在文本中的地理信息不僅能為政府關注各類事件的分析、研究和決策提供支撐,而且還可以豐富地理信息的內容[1],可以利用GIS軟件進行空間分析與應用[2]。目前,地理信息中地名地址搜索大多利用關鍵詞[3-4]及其出現詞頻統計結果進行分析和應用,導致搜索數據存在模糊、歧義等問題,使地名地址識別的準確率降低。因此,從海量網絡資源中抽取準確的地名地址信息顯得格外重要。
地名地址識別是從文本數據中識別具有空間位置表達能力的地名地址要素,如帶有行政區劃的組織機構、門樓地址、餐飲、購物商場等。目前,國內外主要相關研究成果可以分為基于字典與統計的地名地址識別、基于規則的地名地址識別及基于機器學習的地名地址識別三方面。翟鳳文等提出了一種字典與統計相結合的中文分詞方法,提高了交集型歧義切分的準確率,并且在一定條件下解決了語境中高頻未登錄詞問題[5];李宏波提出的分詞詞典和統計分析相結合的解決方案,合理解決了歧義詞和未登錄詞兩大難題[6];趙偉等結合規則和語料庫統計兩種分詞方法進行分詞[7];張雪英等以大規模地名詞典和地址數據庫為數據源,提出了中文地址的數字表達方式,提高了識別的準確率[8];馬學峰分析了地名地址規律,整合了地名地址數據庫[9];潘正高在構造內部規則和外部規則的同時,采用了概率統計的中文命名實體的識別方法[10];李麗雙等提出了支持向量機(SVM)與規則相結合的中文地名自動識別方法,得到了SVM識別地名的機器學習模型[11]。
本文在研究國內外方法的基礎上,根據前人提出的隱馬爾可夫模型(HMM)進行語義訓練與分詞,將中文文本分成多個獨立詞語,并利用語義庫提取的前后詞綴對HMM分詞結果進行候選地名地址的預提取,再結合構建的地名地址特征詞庫對候選地名地址進行匹配過濾。
一、地名地址識別提取
網絡中涉及的地名地址具有種類繁多、樣式復雜及未登錄詞出現頻率高等特點,導致地名地址的提取難度大且識別精度低。結合網絡中中文地名地址的上下文特征,本文提出一種基于前后綴的地名地址識別與提取方法,具體技術流程如圖1所示。首先利用訓練出的HMM對中文文本信息進行自動分詞,將整個中文文本信息切分成若干個獨立的詞語;然后根據建立的地名地址前綴詞庫和后綴詞庫,對切分的文本信息進行前后綴匹配,從而將前后綴之間的文本提取出來作為候選地名地址,形成候選的地名地址庫;最后通過構建的地名地址特征詞庫,對候選地名地址庫進行一一比對和過濾,將其中不包含地名地址要素的文本信息剔除,實現中文地名地址的自動識別與提取,有效提高地名地址識別的準確率。

圖1 地名地址識別流程
1.基于隱馬爾可夫模型(HMM)的文本分詞
前后綴詞庫中的詞語涉及范圍大,格式不統一,為了避免前后綴詞將完整的地址進行切分,需要對網絡文本信息進行分詞預處理。本文采用隱馬爾夫模型(HMM)對網絡文本進行中文分詞,將整個中文文本信息切分成若干個獨立的詞語,為下一步基于前后綴的候選地名地址提供基礎。
隱馬爾卡夫過程是一種雙重隨機過程,結合傳統HMM的特征,本文利用海量網絡地名地址文本信息對HMM參數進行自學習訓練得到最佳分詞參數,確保分詞后地名地址的完整性。具體HMM描述與訓練過程如下。
隱馬爾夫模型是個五元組模型N、M、A、B、π,它們表現的意義分別是:
N={q1,q2,…,qN},表示狀態的集合,地名地址識別中,有單字成詞、詞首、詞中、詞尾4種狀態。
M={v1,v2,…,vM},表示觀察值的有限集合。
π={πi},表示狀態的初始概率。
A={aij},aij=P(qt=Sj|qt-1=Si),轉移概率矩陣,本文中為S的4種狀態之間的轉換,理論上有42種轉換,考慮到地名識別的實際情況,只有單字成詞→單字成詞、單字成詞→詞首、詞首→詞中、詞首→詞尾、詞中→詞中、詞中→詞尾、詞尾→詞首、詞首→單字成詞8種轉移。
B={bjk},bjk=P(Ot=vk|qt=Sj),為觀察值概率分布矩陣。
一般而言,A、B確定后,M與N也能夠確定,因此給定一系列觀察樣本,從而可以將HMM描述為λ(π,A,B)模型,滿足某種優化條件,使P(O|π)最大,具體重估迭代公式如下
2. 基于前后綴詞庫的候選地名地址預提取
在基于HMM分詞的基礎上,利用前后綴詞庫進行地名地址前后綴詞語的隊列匹配,即首先通過地名前綴詞語進行詞語的逐一匹配,然后根據與該前綴詞語對應后綴詞的權重進行地名地址后綴詞的匹配,只有當前后綴詞語完全匹配成功后,才將中間的文本信息串連起來,作為候選地名地址,最終形成候選地名地址庫。
由于候選地名地址提取的準確性在很大程度上依賴于前后綴詞庫的豐富程度,因此本文采用大量網絡文本信息作為語料庫,利用常伴隨地名地址同時出現的前綴詞與后綴詞的頻率與詞性,通過機器自學習的方式來自動豐富與完善地名地址前后綴詞庫(部分前后綴詞庫如圖2、圖3所示),并通過前后綴詞詞性與搭配情況,構建前后綴詞庫對應連接關系,即為前綴詞所對應的后綴詞賦予權重,提高后綴詞匹配分詞的速度與準確性,具體賦予權重公式如下



圖2 前綴詞庫部分前綴詞

圖3 后綴詞庫部分后綴詞
具體過程如下:本文以1998年1月一條新聞為例,首先去除語料庫中每條新聞開始的時間(如19980101-02-003-003/m),以避免時間造成的誤差;然后對專屬名詞與地名地址進行合并,有效統計地名地址的前后綴詞詞性及對應出現的頻率;最后統計后綴詞中相同詞出現的頻率,詞性頻率與詞的頻率相加作為前綴詞確定下后綴詞出現的權重。如“[那曲/ns 地區/n]ns”合并為“那曲地區/ns”,“[西藏/ns 自治區/n 政府/n]nt”合并為“西藏自治區政府/nt”,根據地址(ns)出現的位置提取前后綴,在“今晚/t 的/u 長安街/ns 流光溢彩/l”中,提取出地址“長安街/ns”的前綴是助詞(u)“的”,后綴是習用語(l)“流光溢彩”。在提取的過程中,根據前綴助詞(u)確定權重由大到小的后綴詞,并依次匹配,直至匹配到出現的后綴詞“流光溢彩”。
3. 結合特征詞的地名地址提取
利用地名地址元素特征對上文形成的候選地名地址庫中地名地址逐一進行匹配,剔除未包含地名地址要素及不符合地名地址構詞規則的噪音信息,提取包含地址元素特征詞的地名地址,確保地名地址識別與提取的正確性與效率,主要包括特征詞提取與特征詞過濾。
(1) 特征詞提取
1) 候選地名地址中包含行政區劃要素的則作為地名地址信息,具體公式為:AdminLib[i]∈Loc(wait)?Loc(y),其中AdminLib為行政區劃庫(精確到村級),如北京、濟南、海淀等,i為集合中的一個元素;Loc(y)為地名地址集合。
2) 提取包含專有地名名詞的候選地名地址作為地名地址:Loclist[i]∈Loc(wait)?Loc(y),其中Loclist為專有地名名詞集合,如河流、湖泊、道路等。
3) 候選地名地址中含有經緯度信息的作為地名地址:Lonlat[i]∈Loc(wait)?Loc(y),其中Lonlat[i]為經緯度詞,如東經、北緯、西經、南緯。
4) 含有企事業單位特征詞的候選地名地址作為地名地址:Unit[i]∈Loc(wait)?Loc(y),其中Unit[i]為企事業單位詞,如公司、學校、客運站、展覽館、銀行等。
(2) 特征詞過濾
1) 含有姓氏且含有人物描述詞的候選地名地址判斷為非地名地址:Familyname[i]∈Loc(wait)&&Figurelist[i]∈Loc(wait)?Loc(n)[11],其中Familyname為人名姓氏集合,如趙、錢、孫等;Figurelist為人物描述后綴詞,如女士、先生、叔叔、阿姨等;Loc(n)為非地名地址集合。
2) 候選地名地址中既含有人物代詞也含有人物描述后綴詞的被判斷為非地名地址:Pronlist[i]∈Loc(wait)&&Figurelist[i]∈Loc(wait)?Loc(n),Pronlist為人物代詞集合,如你們、我們、他等。
二、試驗與結果分析
由于新華社網站的新聞具有權威、報道精準、傳播范圍廣、涉及范圍大等優勢,本文選取新華社網站上的新聞文本作為試驗數據,利用Web爬蟲技術,采集新華社網站的1200條數據記錄。同時為了驗證本文提出方法的有效性和優越性,試驗將基于本文提出的方法與HMM分詞方法進行對比,并將試驗數據進行人工判讀,最終采用召回率R、準確率P、F值(F-Measure)來反映本文方法和HMM分詞方法的區別,具體計算公式如下
本試驗將1200條數據分為300條、600條、900條、1200條4種樣本進行對比試驗,采用前綴詞1483個,后綴詞2312個,企事業單位特征詞204個,專有地名名詞138個,姓氏名詞4100個,人物描述后綴詞86個,人物代詞52個,行政區劃庫數據精確到村級,試驗結果見表1。試驗結果顯示,1200條新聞信息時,本文提出的方法準確性為92.11%,召回率達到89.13%,F值達到90.60%,其中F值對比如圖4所示。

表1 兩種方法對比 (%)

圖4 4種樣本識別F值對比圖
本文方法對地名地址識別的準確率和召回率都高于HMM分詞方法。通過分析發現,其原因是在地名地址識別時,對于出現頻率不高的詞語,HMM分詞方法學習度不夠,從而引起錯分,而本文方法經過前后綴預提取與特征詞匹配過濾后,可以有效地將錯分地址組合到一起,并提取出來。同時,為了測試方法的應用效果,本方法已經在基礎地理信息更新中得到了相應的應用,通過識別并提取網絡上地理信息網站發布新聞中的地名地址數據,實現對地理信息數據庫中的原始數據更新,系統如圖5所示。

圖5 地名地址提取與定位效果
三、結束語
本文提出了前后綴與構詞規則相結合的地名地址識別方法,充分考慮了網絡地名地址前后綴詞庫及未登錄詞的結構特征,利用訓練的HMM分詞技術,實現了地名地址的自動識別與提取,提高了地名地址的識別準確率、召回率,最后通過與傳統地名地址識別方法的對比試驗,驗證了本文方法的有效性,并將本方法應用在基礎地理信息更新領域。
參考文獻:
[1]劉紀平,張福浩,王亮,等.電子政務地理信息服務[M].北京:測繪出版社,2014:136.
[2]馬照亭,李志剛,孫偉,等.一種基于地址分詞的自動地理編碼算法[J].測繪通報,2011(2):59-62.
[3]曾文,鄢軍霞.城市GIS地名定位工具的設計及應用[J].地球科學:中國地質大學學報,2006,31(5):725-728.
[4]王平,薄正權.地名地址數據采集方法與實踐[J].城市勘測,2013(2):54-57.
[5]翟鳳文,赫楓齡,左萬利,等.字典與統計相結合的中文分詞方法[J].小型微型計算機系統,2006,27(9):1766-1771.
[6]李宏波.詞典與統計相結合的中文分詞算法研究[J].武漢理工大學學報(信息與管理工程版),2010,32(6):907-913.
[7]趙偉,戴新宇,尹存燕,等.一種規則與統計相結合的漢語分詞方法[J].計算機應用研究,2004,21(3):23-25.
[8]張雪英,閭國年,李伯秋,等.基于規則的中文地址要素解析方法[J].地球信息科學學報,2010,12(1):9-16.
[9]馬學峰.湛江市地名地址數據庫設計與實現[J].測繪通報,2014(S1):288-291.
[10]潘正高.基于規則和統計相結合的中文命名實體識別研究[J].情報科學,2012,30(5):708-712.
[11]李麗雙,黃德根,陳春榮,等.SVM與規則相結合的中文地名自動識別[J].中文信息學報,2006,20(5):51-57.
[12]陳玉萍,張秀. 地名地址普查與建庫研究[J]. 測繪通報,2015(6):103-107.
[13]數字城市地理信息公共平臺地名/地址編碼規則.中華人民共和國行業標準:GB/T 23705—2009[S].北京:中國標準出版社,2009.
[14]鄒崇堯,朱貴方,趙雙明. 基于搜索引擎技術的地名地址定制查詢研究[J]. 測繪通報,2014(8):92-94.
[15]李榮,胡志軍,鄭家恒.基于遺傳算法和隱馬爾可夫模型的web信息抽取的改進[J].計算機科學,2012,39(3):196-199.
中圖分類號:P208
文獻標識碼:B
文章編號:0494-0911(2016)02-0064-05
作者簡介:王克永(1990—),男,碩士生,主要從事3S技術集成與應用。E-mail: yongkewang@126.com
基金項目:國家863計劃(2012AA12A402;2013AA12A403);中國測繪科學研究院基本科研業務費(7771403)
收稿日期:2015-01-27; 修回日期: 2015-11-06
引文格式: 王克永,劉紀平,羅安,等. 前后綴與特征詞相結合的地名地址提取[J].測繪通報,2016(2):64-68.DOI:10.13474/j.cnki.11-2246.2016.0050.