蔣言 劉?!∶┯?/p>



關鍵詞:地址數據;場所分類;中文地址分詞;依存句法分析;POI詞典
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2023)20-0083-04
0 引言
地址數據常見于生活中的方方面面,通常以文本的形式表示具體的地理空間[1]。在智慧城市的建設中,地址數據更是在城市安全、規劃、生活等相關業務中作為數據支撐[2-3]??爝f行業通過對收件人地址使用概率統計模型確定快遞的收取點[4]。在城市治理領域,通過將水電煤氣數據與地址數據進行關聯可檢測流動人口的聚集場所[5]。因此面對現實業務需求如何從業務地址數據中關聯出場所是需要解決的難點之一。日常生活中,人們往往選擇借助高德地圖去定位地址數據中的場所,然而隨著高德地圖開放資源的限制以及描述地址的復雜多樣性,需要人們從數據本身出發,探求新的方法實現地址數據關聯到具體場所的功能。
傳統的方法是基于規則對業務地址數據進行場所識別,確定地址數據中的場所實體[6]。然而此類方法是假設地址數據比較標準,描述方式為省、市、區到街道、路名、門牌號/POI場所實體的順序。然而現實場景下的業務數據描述方式靈活多樣,基于規則的識別方法不再適用,應用于業務場景中效果欠佳[7]。
然而從語言學的層面分析,文本是由詞構成,而地址數據的結構是由多個最小地址元素經過層層限定后指向唯一的最有效地址要素,即地圖上的某個點或區域,對于具體業務數據來說就是目標場所實體[8]。例如某條數據為“徐匯區宛平南路368號蝸牛網咖”是通過“徐匯區”“宛平南路”“368”“號”等最小地址元素的修飾限定,指向“蝸牛網咖”這一目標場所實體。因此分析出業務地址數據中各成分詞限定與被限定關系,即可獲取目標場所實體。在自然語言處理的各項技術中,依存句法分析旨在從語言學的層面解析語句中各成分詞之間的關系,從而輔助理解語句結構[9]?;诖朔矫娴膬瀯?,本文首先將業務數據分詞,隨后引入依存句法分析進行解析,獲取地址數據中的目標場所實體,進而通過場所類別詞典匹配得到場所類別。
本文主要工作如下:
1) 為了保證前期對業務數據分詞的準確性,本文通過添加上海市徐匯區道路名詞典以及通過高德API 獲取的場所類別詞典作為分詞輔助詞典。
2) 使用依存句法分析對分詞后的業務數據進行分析,獲取最優地址依存樹。
3) 設定規則,通過寬度優先搜索算法獲取目標場所實體。
4) 將獲取的目標場所實體與場所類別詞典匹配,得到目標場所實體的類別。
1 相關模型方法
1.1 場所類別詞典的構造
現實業務需求需要判斷獲取的目標場所實體的所屬類別例如“星游城”對應類別標簽為“商場”,因此為了有效地對場所實體進行分類,通過高德API接口獲取上海市徐匯區境內的所有POI地址數據,并根據高德地圖提供的類別標簽以及現實業務需要,按照一級行業分類與二級行業分類對POI場所數據進行詳細分類,構建場所類別詞典,具體類別如表1所示。
構建的場所類別詞典形式例如“{ 公司”:“光大物業”“上海電氣集團”,……,“國家電網”}。同時對一些場所的簡稱或別稱進行對應補充,例如“上海第六人民醫院”簡稱“第六人民醫院”“六院”。最終使用場所類別詞典與搜索到的場所實體進行匹配,得到場所類別,滿足具體的業務需求。
場所類別詞典前期可以作為自定義詞典輔助業務數據分詞,保證了分詞結果的正確性;同時與獲取的目標場所實體進行匹配,得到場所類別,滿足業務需求。
從圖2展示的最優依存樹結構圖中可以看出,“蝸牛網咖”是被“徐匯區”“宛平南路”“368”“號”層層限定,因此“蝸牛網咖”是本條業務地址數據中的目標場所實體,其在整棵依存樹中也處于核心關系(HED) 。同時百度DDParser工具提供14種依存關系標簽。
1.3 目標場所匹配規則
通過依存句法分析能夠得到地址數據中各成分詞之間的依存關系,通常依存樹中處于核心關系的場所實體詞即為目標場所實體,如圖2樣例所示。然而由于現實業務中地址數據的多樣性以及復雜性,業務地址數據中可能不包含場所實體,也可能場所實體經依存句法分析后不在核心關系所處位置,而是在最優依存樹的某個節點上。因此需要對生成的地址最優依存樹進行寬度優先搜索將可能的場所實體盡數列出,并根據現實業務需求,設定相關規則進行篩選。規則如下:
1) 在不同節點搜索到多個場所實體,取最小節點處對應實體。
例如業務數據為“天鑰橋路騰飛大廈對面全家超市”,經過DDParser依存句法分析后可生成的樹狀結構如圖3所示,經由寬度優先搜索可得到場所實體“全家超市”與“騰飛大廈”,從節點位置層面分析,“全家超市”處于節點1處,“騰飛大廈”位于節點3,因此選取節點1處的“全家超市”場所實體,即最小節點處的場所實體,從現實語義理解上來說,本條業務數據所指的場所為“全家超市”符合規則設定后的結果。
2) 在相同節點搜索到多個場所實體,且實體間存在包含關系,取被包含的場所實體。
例如業務數據為“天鑰橋路580號星游城付小姐在成都店里”,經過DDParser依存句法分析生成的依存樹的樹狀結構如圖4所示,經由寬度優先搜索可得到場所實體“星游城”和“付小姐在成都”,兩者位于同一節點,然而“付小姐在成都”被包含于“星游城”,從現實語義理解層面出發,也應選擇“付小姐在成都”場所實體。
3) 核心關系對應的詞匯類似“旁邊”“對面”“中間”等方位詞,舍棄搜索到的實體。
例如業務數據為“龍華中路卜蜂蓮花拆遷處對面”,經過DDParser依存句法分析后可生成的樹狀結構圖如圖5所示,核心關系對應的詞為方位詞“對面”,經由寬度優先搜索可得到場所實體為“卜蜂蓮花拆遷處”,然而在真實場景中,該業務數據指代的是“卜蜂蓮花拆遷處”對面的某個實體,該實體在業務數據中并沒有出現,因此將此類情況下搜索到的“卜蜂蓮花拆遷處”場所實體舍去。
2 實驗
為驗證本文提出的方法在現實場景下的有效性,實驗數據來源真實脫敏后的上海市徐匯區的業務地址數據共計18 126條。其中剔除掉不含有場所實體的地址共計3 604條,例如:徐匯區小木橋路440弄48 號402室、徐匯區衡山路東平路。保留地址數據中含有場所實體的作為實驗數據,共計14 522條。例如:徐匯區零陵路721號徐家匯派出所。
針對含有場所實體的14 522條實驗數據,本文在對地址數據進行分詞后,通過百度DDParser依存分析平臺解析,生成最優地址依存樹,繼而對地址依存樹進行寬度優先搜索,通過規則過濾獲取目標場所實體并匹配場所類別詞典得出目標場所實體類別。最終的匹配成功率為89.2,而對于無法匹配的數據,主要原因在于對場所描述時存在簡稱或俗稱以及錯別字,需要完善場所類別字典中對某些場所約定俗成的簡稱或俗稱,以及改善數據質量。
3 結論與展
本文引入依存句法分析對業務地址數據進行分析,得出最優地址依存樹,繼而通過規則確定業務地址數據中的目標場所實體,通過詞典匹配的形式得到目標場所實體對應的類別。然而由于業務數據中往往會使用場所實體的簡稱或俗稱,從而存在匹配失誤的情況,因此需要收集場所的簡稱或俗稱完善場所類別詞典。
同時對于不含有明確場所實體的數據,需要思考采用其他方法,挖掘出數據背后所表示的場所。