999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于全文索引知識圖譜的危化品運輸地址匹配研究

2022-01-01 00:00:00劉斐賀向陽鄒志云
計算機應用研究 2022年2期

摘 要: "地址匹配是危化品運輸交通起止點調查分析的關鍵技術之一。為解決復雜非標危化品道路運輸地址匹配精度較低的問題,通過構建自擴展中文分詞及自擴展的地址數據知識圖譜,基于全文索引知識圖譜進行危化品運輸中文地址的匹配,納入加權拼音全文搜索機制以提高拼寫錯誤地址的匹配準確率,結合在線地理解析接口構建危化品運輸地址多重匹配機制,并對少量疑難地址執行半監督匹配,形成了完整的危化品運輸地址匹配方法體系。針對危化品運輸電子運單地址數據的計算表明,算法能實現復雜中文危險化學品運輸地址匹配的高準確率及高精度。在隨機地址測試集中準確率達94.6%,在較難分類地址測試集中準確率達67.5%,在較難分類地址匹配的準確率及精度上均相比于通用匹配方法及地理搜索引擎有大幅度的提升。

關鍵詞: "危化品運輸地址匹配; 中文分詞; 全文搜索; 知識圖譜

中圖分類號: "TP391 """文獻標志碼: A

文章編號: "1001-3695(2022)02-014-0407-04

doi:10.19734/j.issn.1001-3695.2021.07.0299

Address matching based on full-text indexed knowledge graph for "hazardous materials transportation

Liu Fei1,2, He Xiangyang2, Zou Zhiyun1

(1.School of Civil amp; Hydraulic Engineering, Huazhong University of Science amp; Technology, Wuhan 430074, China; 2.Ningbo Transport Development Research Center, Ningbo Zhejiang 315042, China)

Abstract: "Address matching is one of the key technologies in the investigation and analysis of origin-destination in hazardous materials transportation.In order to help solving the problem of low accuracy of complex non-standard address matching for hazardous materials road transportation, this paper adopted self-expanding knowledge graph of address data,proposed a self-expanding Chinese word segmentation method and an address matching mechanism based on full-text index.Besides,this paper incorporated a weighted Pinyin full-text search mechanism to improve the matching accuracy for misspelling addresses.The online interface of geographic resolving and semi-supervised matching mechanism made the proposed address matching system a complete one.The matching results of the address data of the electronic waybill for the hazardous materials transportation show a high accuracy and high precision.The accuracy is over 94.6% for random address dataset and 67.5% for difficult-to-parse address dataset, both are much higher than the general matching methods and geographic search methods in terms of the accuracy and precision of address matching.

Key words: "address matching of hazardous materials transportation; Chinese word segmentation; full-text search; know-ledge graph

0 引言

危化品運輸的交通起止點(origin-destination,OD)分析是指通過一定的技術手段對危化品電子運單大數據中運輸起止點之間的流量、流向、流時等信息進行分析。通過OD分析挖掘危化品運輸的時空分布規律,可以更加精準地支撐危化品道路運輸行業規劃、運力審批及調度、危化品道路運輸管理政策的調整及優化等,以助力交通安全運行。

起止點地址匹配是危化品運輸OD分析的關鍵技術。受電子運單數據業務流程不規范、數據錄入標準不統一、運輸行業從業人員文化水平等因素的影響,目前危化品電子運單中的地址信息大多數為非標中文地址。以寧波市危化品電子運單數據為例,有超過50%的地址甚至不包含地理要素信息,此外還有大量地址數據中存在空值、拼寫錯誤、數據過時等現象,大大增加了地址識別及匹配的難度。

目前中文地址匹配任務的主要算法是基于分詞的地址匹配方法,其本質是將中文文本進行適當切分,再分單詞進行匹配,包括直接分詞法、統計分詞法及自然語言處理分詞法。直接分詞法依據現有的語料字典對地址進行切分,應用于地址成功匹配的前提是完善的字典庫,但是僅靠直接字符匹配及字典庫無法輸出標準的地址,也不能處理歧義切分[1]。基于統計方法的分詞則是基于歷史地址的數據,計算字符或詞組的詞頻,根據概率推測可能的詞組[2],在缺乏知識庫支撐的情況下,匹配結果的可靠性低。基于傳統機器學習的地址匹配方法實際上也主要依賴于統計分詞方法,但是采用了如隱馬爾可夫模型、最大熵模型、條件隨機場等序列標注模型進行分詞,其中以條件隨機場應用最為廣泛,著名的中文分詞算法框架jieba的核心算法就是基于條件隨機場[3]。自然語言處理是深度學習的主要應用之一,其優點是能在非人工干預的環境中自主學習中文文本的語義規則,除了能實現智能分詞,還可以通過學習實現接近于地址匹配任務的序列標注功能[4,5],但是在應用于地址匹配這種多標簽且標簽之間有樹型關系的地址分類任務時,需要對大量的標記數據進行訓練,準確率也難以保證。此外,僅僅依靠分詞無法處理大量不包括地理要素的復雜不規則地址[6]。

現有地址匹配方法強調匹配,不重搜索。實際上復雜地址匹配在一定程度上依賴于包括詞典、行政區域知識等知識庫的存在。知識圖譜是一種網狀數據庫,與地址結構有著天然的相似性,基于選擇注意力機制的知識圖譜中文地址匹配方法取得了較高的準確率[7],但是該方法知識圖譜是固定的,且對危化品運輸地址中較大量的異常地址無法處理。

本文針對危化品運輸地址結構復雜但是變化較小的特點,提出了一種基于全文索引知識圖譜的中文地址匹配方法,用于提高危運地址匹配的準確率和精度,以適應危化品道路運輸OD分析對地址精度提出的要求。該方法提出了從簡單的標準地址數據開始不斷擴展知識圖譜的技術框架,開發了漢字拼音加權全文搜索得分評價機制、在線地理解析地址匹配結果相互校驗機制以及針對少量疑難地址的半監督糾錯機制等多種技術來提高危化品道路運輸地址匹配的精度。實驗結果表明,本文方法能夠在少量人工干預的基礎上實現較高準確率及較高精度的地址匹配,可以滿足危險化學品道路運輸OD分析對地址識別和匹配的要求。

1 問題描述

危化品電子運單數據中保存的地址形式多樣,主要分類如表1所示。

在表1中,第0~3類及第10類地址屬于較易匹配地址,通過基礎的知識圖譜就能夠精確識別。 第4~9類及第11~13類地址通常需要有額外的字段或者背景知識作為補充才能識別,背景知識包括專家知識、互聯網地圖服務商提供的地理解析數據以及已通過其他方式解析的正確數據擴展后的知識圖譜,其中第13類地址必須借助其他字段的數據才能完成識別,以上屬于較難匹配地址。危化品運輸地址匹配任務可以描述為

[province,city,district,subdistrict]=f(input_address) ""(1)

其中: province、city、district、subdistrict分別表示輸出的省、市、區、子區(街道)。為了描述特定研究區域(一般是市級)危化品道路運輸的時空分布特征,研究區域以外的地址至少需要輸出province、city,研究區域以內的地址至少需要輸出province、city、district, 重點研究區域的地址則要求輸出province、city、district、subdistrict 。

2 基于全文搜索自擴展知識圖譜的地址匹配

2.1 半監督分詞方法

無論是建立中文全文索引還是對源地址進行預處理,都需要可信的中文分詞方法。本文結合詞典分詞及基于統計的分詞方法的優點,一方面利用統計分詞模型避免大量的訓練及龐大的字典構建需求,另一方面根據正確識別的數據及閾值判斷機制滾動擴展詞典。基本詞典由全國鄉鎮及以上地名的簡要名稱數據、行政區域及企業后綴詞、寧波市石化企業信息數據表構成,詞典的結構如下:

{v i=(w,f,t)} ""(2)

其中: i∈"Euclid Math TwoNAp

;v i 表示第 i 個單詞; w、f、t 分別表示地址短名、詞頻、詞性。建立基本詞典時,詞頻默認設置為10,后續成功的分詞結果及匹配會由程序自動增加。基本詞典僅考慮設置三類詞性,即 ns (地名)、 hm (企業,主要為化工廠)、 su (后綴詞,如省、市、區、自治區、有限公司等地名后綴詞)。

分詞前先構建前綴詞典,即Trie字典樹,這是哈希查找樹的一種,可以實現快速的字典查找。根據Trie樹對輸入地址進行詞典查找操作,得到其有向無環圖(directed acyclic graph,DAG)。DAG以字典的形式存儲,結構如下:

{P i:[n a+n b,…,n x]} ""(3)

其中: i,a,b,…,x∈"Euclid Math TwoNAp

;P i 表示輸入地址中第 i 個字的索引; n a 表示以 P i 為前綴的第 a 種詞頻大于0的劃分詞的末尾位置。這樣DAG就記錄了輸入地址的所有可能切分,下一步就是根據動態規劃查找最大概率的路徑。每一個詞出現的概率等于該詞在前綴詞里的詞頻除以所有詞頻之和,如果詞頻為0或者不存在,就設為1。每種分詞的概率計算方法如下:

p j=p j,a×p j,b×…×p j,x ""(4)

其中: j,a,b,…,x∈"Euclid Math TwoNAp

;p j 表示第 j 種切分或者第 j 條路徑的概率; p j,a 表示第 j 條路徑中第 a 個詞的詞頻。為方便計算,對式(4)取對數,得到

log "p j =log "p j,a+ log "p j,b+…+ log "p j,x ""(5)

在危化品電子運單地址文本中,語義的重點在前,使用動態規劃法從前往后計算所有路徑的概率,選擇其中概率最大的路徑,即得到適用于當前詞典的較優分詞結果。由于基礎詞典已經擁有了較為完善的數據,上述過程已經能對大多數的輸入得到正確的分詞結果了。為了彌補基礎詞典的不足,本文設定最低概率閾值 P min ,對于任一輸入地址的切分結果,如果有

max(log "p j)lt;P min ""(6)

則記錄該輸入地址,對該詞進行人工分詞,并將有效的結果加入詞典,插入待分地址的末端。若檢測到無效地址,則標記該地址為無效。根據對1 000組詞匯最大log "p j 的計算,按照2%的半監督介入率, P min 設置為80。

2.2 全文搜索匹配得分機制

全文搜索匹配得分機制基于TF-IDF(term frequency-inverse document frequency)技術構建,以計算全文搜索結果的匹配相關度,評分函數的計算方法如下:

s(q,d)=N(q)· coord (q,d)·∑ t "in "q "(tf( t "in "d )·idf( t )·norm (t,d)) ""(7)

其中: q、d 為查詢的文本及匹配的文檔; N(q) 是預設的標準化查詢語句,通常對于一個特定的查詢應用沒有影響;coord( q,d) 表示文檔中得到查詢響應的個數,越多的查詢項出現在一個文檔中,則表明查詢與文檔的匹配程度越高,主要應用于多條件查詢環境中。在地址查詢中,可以通過查詢成功的結果來建立完善分詞詞典,將單項查詢轉換為多項查詢以提高 q 的匹配準確率。

tf( t "in "d) 表示詞頻(term frequency,TF),來源于 q 中單詞 t 在 d 中出現的次數越多,詞頻就越高,表明相關度越高。由于地址中會有大量的單位詞,比如省、市、鎮、路、有限公司、石化園區、集團等標志,若文檔中存在大量的地址后綴會使得部分長后綴地址的匹配相關度異常的高,從而得到錯誤匹配。在危化品運輸中,后綴詞規模十分有限,可以建立后綴詞字典,通過分詞來剔除固定后綴詞,將去除后綴的短文存儲到知識圖譜特定的字段中,并建立單獨的索引,從而提高匹配的精確度。

idf表示逆向文檔頻率(inverse document frequency),其計算方法如下:

idf( t i )=log "|D| |{j:t i∈d j}| """(8)

其中: |D| 是文檔個數; |{j:t i∈d j}| 表示單詞 t i 在文檔 d j 中的總個數。某個單詞在單個文檔中出現的次數越少或者出現的文檔越多,匹配的相關度越高,可以一定程度地排除各種虛詞的影響。此外,該元素表明,某個地址出現在更多的實體中就會獲得較高的匹配率,因此后文在構建知識圖譜的過程中會不斷使用匹配成功的地址來擴展知識圖譜,使得部分偶然匹配到錯誤地址的概率隨著匹配過程的進行而減小。

norm( t,d) 表示字段長度歸一化值,與分詞的結果相關,一般可以簡化為詞數目平方根的倒數,意味著全文搜索優先匹配長字段,因此后文構建知識圖譜的過程中會建立長地址字段,以提高地址搜索及匹配的成功率。

2.3 知識圖譜

知識圖譜是結構化的語義知識庫,可以很好地描述物理世界中的概念及相互關系。在地址匹配任務中,知識圖譜的實體主要包括五種類型,即省(province,包括直轄市)、市(city,包括城市、地區、旗、盟、州等)、區縣(district,包括區、縣市級及省轄縣級行政單位)、子區(subdistrict, 包括街道、鄉鎮、社區、自定義片區等)、化工企業(factory)以及在更新知識圖譜中新建的其他類型實體(other)。

根據2.2節關于全文搜索匹配得分機制的研究,為提高地址匹配的準確率,按照如表2所示的字段構建知識圖譜。

為了能對危化品運單地址中存在較多的地址拼寫錯誤進行正確解析,本文通過建立字段對應的帶聲調拼音字段來獲取可信的搜索結果。為了使得全文搜索能夠獲得更精確的地址匹配,知識圖譜在構建的時候需要充分考慮到全文搜索匹配得分計算函數對全文索引結果的影響,本文設計了詳細地址字段location。詳細地址字段由當前行政級別之前的所有地名組成,比如寧波市的location字段為“浙江省寧波市”,而鎮海區的location字段為“浙江省寧波市鎮海區”,以及簡略地址字段(short_location),即省略了地名后綴的字段。location字段及short_location字段能夠使得地址全文搜索時更好地避免匹配到錯誤的重名地址。

知識圖譜實體間的關系包括從屬belong,其表達方式為

a-[rel:belong]-gt;b ""(9)

其中: a、b 表示實體; rel 是表示關系的標志詞; belong 表示該關系是從屬關系;箭頭表示關系的方向。在危運地址分析中,還涉及城市之間的導航距離關系:

a-[rel:distance]-b ""(10)

其中: a,b∈(city),(city) 表示所有類型為city的實體組合。距離關系不需要定義方向,其值為使用高德地圖導航API所計算得到的城市中心坐標點之間的導航距離。

基礎知識圖譜建立完成后,本文為知識圖譜所有實體中的中文字段及對應的拼音字段分別構建基于2.2節描述的全文搜索匹配得分機制為核心的中文、拼音全文索引,其中中文索引使用2.1節描述的半監督分詞方法,拼音索引使用簡單的空格(unicode-whitespace)分詞方法。

2.4 全文搜索應用于地址匹配

危化品電子運單單條地址數據中一般存在兩個中文數據項,分別是實際地址與企業地址。其中實際地址是較為可靠的信息,企業地址的可靠性則有限,只有在實際地址無法得到匹配結果時,才使用企業地址來進行地址搜索。

全文搜索結果的匹配得分數值計算方式如下:

score=w aS a+(1-w a)S c ""(11)

其中: S a、S c 分別是實際地址、企業地址的全文搜索匹配得分; w a 為權重,本文主要以實際地址的匹配結果為準,因此設置該值為0.8。 S a、S c 的計算方式如下:

S=S hanzi×w hanzi+S pinyin×(1-w hanzi) ""(12)

其中: S hanzi、S pinyin 分別為通過中文及拼音全文搜索得到的匹配得分; w hanzi 為中文全文搜索得分所占的權重,設為0.8。全文搜索若返回結果為空,則其得分設為0。

受限于危險貨物的高速管制及停車限制等多重安全因素,危險貨物的長途運輸占比較小。以寧波市為例,超過92.5%的道路危險貨物運輸距離不超過300 km,而且超過78%的貨物運輸發生在浙江省內,在存在大量同名地名的情況下,距離研究區域較近的地點相比于距離較遠的地點擁有更大的概率接近真實地址,因此,在計算匹配度數值時,加入距離調整系數,其計算方式如下:

S after=S before·θ ""(13)

其中: S after 、 S before 分別為調整前后的全文搜索匹配得分; θ 為距離調整系數。 θ 計算方式如下:

θ =1-e 0.25(D/100-20) ""(14)

其中: D 為匹配結果城市距離研究區域城市(本文為寧波市)之間的導航距離,單位為km。距離調整系數的函數如圖1所示。

從圖1中可以看出,在 d 值小于500 km時,調整系數接近于1,對匹配得分幾乎沒有影響,隨后呈指數衰減,若匹配到大于2 000 km的運輸目的地,其真實的得分值會趨近于0。加入距離調整系數之后,對遠距離同名區縣的匹配容錯率提高。

一次查詢得到的匹配結果可能多達上千條,為了減小冗余計算量,本文僅在每個查詢結果中保留得分排名前10%的結果。為了進一步減小匹配到同名區縣或者近似名區縣以及降低錯誤分詞結果的影響,本文對匹配結果按城市進行聚類,得到如下字典形式的輸出。

{C i:{l i,1:s i,1,l i,2:s i,2,…,l i,n:s i,n}} ""(15)

其中: C i 表示第 i 個城市; l i,n 表示隸屬于 C i 的第 n 個全文搜索匹配結果地址; s i,n 表示 l i,n 對應的全文搜索匹配得分。設

=aver (s i,1,s i,2,…,s i,n) ""(16)

s max =max (s i,1,s i,2,…,s i,n) ""(17)

設 m 表示 (s i,1,s i,2,…,s i,n) 中大于 ""的個數,則城市 C i 的匹配分值計算方式如下:

S(C i)=s max·2m/n ""(18)

從以上公式可知,匹配到結果個數越多,且分值越大, S(C i) 越大,對于部分偶然的錯誤匹配的容錯率越高。最終的匹配結果為 S(C i) 最大的城市匹配結果中最大 s i,n 對應的地址 l i,n 。

如果 s i,n≤3, 則認定匹配無效,跳過該條地址,將該地址加入到百度或高德地圖地理解析接口中,只有兩大服務商輸出的結果相一致才會確認搜索結果,否則加入到待監督分類地址中。若 s i,ngt;3 ,則輸入匹配結果,更新分詞詞典的詞頻并將結果推送到知識圖譜中形成新的實體。

綜上所述,本文用到的技術總結如圖2所示。中文地址分詞技術不僅應用在知識圖譜的構建和擴展更新中,更是中文地址全文搜索匹配的必要技術。中文地址全文搜索技術應用于知識圖譜中,既可以對輸入地址進行精確識別,又能對知識圖譜進行自動擴展。完整的地址搜索匹配的具體流程如圖3所示。

3 模擬計算與結果分析

實驗硬件CPU為Intel CoreTM i5-6500 CPU @ 3.20 GHz(3 192 MHz),內存12 GB(2 400 MHz);Python版本為3.9,NumPy版本為1.18.3,操作系統為Windows 10,知識圖譜基于neo4j-community-4.3.1構建,基礎知識圖譜擁有44 815個省、市、區及子區實體。本文選取了寧波市危化品運輸電子運單2018年6月至2019年10月的數據,合計1 467 469條數據,每條數據包括起運地址及目的地地址,超過292萬條數據。去除掉重復及全空數據,得到117 150條數據,去除空白地址及重復地址,剩余25 885條地址。本文使用具有有效行政區域代碼的地址數據經由知識圖譜匹配后的結果對基礎知識圖譜進行擴展,擴展了一共25 626個其他類型實體。

在25 885條地址中隨機選取1 000條地址,使用全文搜索進行處理。在宏觀準確率方面,實驗采用了基于Jaccard相似度的地址匹配方法、基于動態規劃的地址匹配方法、基于Sorensen Dice的全文檢索地址匹配方法、基于bert4kera預訓練的地址匹配方法以及基于擴展知識圖譜的中文地址匹配方法,值得注意的是,本文的測試地址數據數目要遠大于同類算法。

如表3所示,一般地址匹配算法在地址匹配中的準確率不到70%,應用知識圖譜的方法5也只是稍微高于70%,難以應對危化品運輸OD分析對地址匹配的精度要求。在對危化品道路運輸地址數據庫中隨機選取的1 000條地址匹配測試中,本文方法有94.6%的結果能得到正確的區縣級以上匹配結果,在危化品道路運輸地址匹配中具有高準確率的特點。表4是人工選取的120條非標較難分類地址進行處理并與百度及高德地理解析算法相比較的結果。

基礎知識圖譜的地址匹配結果與高德、百度等地理解析的結果準確率相當,其中較難分類地址的匹配準確率要高于兩者。擴展知識圖譜的地址匹配準確率則大幅度提升,比基礎知識圖譜、高德、百度的結果高了約26%。除此之外,擴展知識圖譜在各類地址中的優勢也很明顯,尤其在對包括無明確屬性的第11類地址以及拼寫錯誤的第12類地址等較難分類地址的匹配上,其準確率是其他方法的近2倍。由于引入了拼音全文搜索,對于因拼音輸入法普遍應用而產生的大多數錯誤地址都能夠正確識別。從表4還可以看出,基于知識圖譜的地址匹配在得到精確到區縣結果的數目方面有著明顯的優勢,其準確率是其他方法的2倍以上,可以為危化品運輸的OD分析提供更為可靠和詳實的數據支撐。表5提供了表4中的一些較難分類的經典測試數據,結果中僅標注匹配到的最小行政區。從表5中可以看出,本文算法在應對較難分類的危化品道路運輸地址上相比于地理解析搜索引擎有著較大的優勢,結果大多能精確到區縣乃至鄉鎮一級。未識別的較難分類地址可以通過半監督的方式不斷更新到擴展知識圖譜中。數據測試顯示,知識圖譜平均每更新一條數據,綜合模式下危化品運輸地址匹配準確率可以提高約0.03‰。

4 結束語

針對危險化學品道路運輸地址的特征,本文提出了一種基于全文索引知識圖譜的危化品運輸地址匹配方法,適用于危化品運輸OD分析應用。在可擴展的中文分詞算法的基礎上,本文提出的知識圖譜能在匹配過程中不斷擴展,結合獨特中文全文搜索及拼音全文搜索得分評價機制,本文方法不僅能夠識別絕大多數危險化學品道路運輸地址數據(94.6%),在較難分類地址中也有67.5%的準確率,且能夠識別匹配多數由于拼音輸入法造成的拼寫錯誤的同音或近音地址。實驗結果表明,該算法在處理各類地址,尤其是較難分類地址方面有著較高的準確率及匹配精度。

目前該算法的執行效率尚有待提升,雖然大多數地址都是重復的,但是對新地址的平均識別時間超過5 s, 雖然能夠處理大多數離線地址匹配應用,但是不適用于大規模或者分布式的在線地址匹配。在后續的研究工作中將致力于引入包括深度學習等在內的自然語言處理新技術,以進一步提高匹配進度和速度。

參考文獻:

[1] ""王佳楠,梁永全.中文分詞研究綜述[J].軟件導刊,2021, 20 (4):247-252. (Wang Jianan,Liang Yongquan.A summary of Chinese word segmentation research[J]. Software Guide ,2021, 20 (4):247-252.)

[2] Xue Nianwen.Chinese word segmentation as character tagging[J].I nternational Journal of Computational Linguistics amp; Chinese Language Processing ,2003, 8 (1):29-48.

[3] "莫建文,鄭陽,首照宇,等.改進的基于詞典的中文分詞方法[J].計算機工程與設計,2013, 34 (5):1802-1807. (Mo Jianwen,Zheng Yang,Shou Zhaoyu, et al. Improved Chinese word segmentation method based on dictionary[J]. "Computer Engineering and Design ,2013, 34 (5):1802-1807.)

[4] "Sutskever I,Vinyals O,Le Q V.Sequence to sequence learning with neural networks[C]//Proc of the 27th International Conference on Neural Information Processing Systems.Cambridge,MA:MIT Press,2014:3104-3112.

[5] 任智慧,徐浩煜,封松林,等.基于LSTM網絡的序列標注中文分詞法[J].計算機應用研究,2017, 34 (5):1321-1324,1341. (Ren Zhihui,Xu Haoyu,Feng Songlin, et al. "Sequence labeling Chinese word segmentation method based on LSTM networks[J] . Application Research of Computers ,2017, 34 (5):1321-1324,1341.)

[6] 孫士琦,湯鯤.基于BERT的中文地址分詞方法[J].電子設計工程,2021, 29 (9):155-159. (Sun Shiqi,Tang Kun.Chinese address segment method based on BERT[J]. Electronic Design Enginee-ring ,2021, 29 (9):155-159.)

[7] "陳雨暉,皮洲,姜滕圣,等.基于知識圖譜的中文地址匹配方法研究[J/OL].計算機工程與應用,2021.[2021-04-20].http://kns.cnki.net/kcms/detail/11.2127.tp.20210419.1437.065.html. (Chen Yuhui,Pi Zhou,Jiang Tengsheng, et al. Research on Chinese address matching based on knowledge graph[J/OL]. Computer Engineering and Applications ,2021.[2021-04-20].http://kns.cnki.net/kcms/detail/11.2127.tp.20210419.1437.065.html.)

[8] 陳俊月,郝文寧,張紫萱,等.基于改進句子相似度算法的釋義識別研究[J].計算機工程,2020, 46 (9):76-82. (Chen Junyue,Hao Wenning,Zhang Zixuan, et al. "Research on interpretation recognition based on improved sentence similarity algorithm[J]. Computer Engineering ,2020, 46 (9):76-82.)

[9] 陳細謙,遲忠先,昃宗亮,等.地理編碼在空間數據倉庫ETL中的應用[J].小型微型計算機系統,2005, 26 (4):628-630. (Chen Xiqian,Chi Zhongxian,Ze Zongliang, et al. "Application of geocoding in spatial data warehouse ETL[J]. Small and Microcomputer System ,2005, 26 (4):628-630.)

[10] 盧盛祺,何施晶,韓景倜.基于Apache Lucene的地址匹配技術研究[J].微型機與應用,2015, 34 (18):73-75,79. (Lu Shengqi,He Shijing,Han Jingti.Research on address matching technology based on Apache Lucene[J]. Microcomputer and Applications ,2015, 34 (18):73-75,79.)

[11] 李舟軍,范宇,吳賢杰.面向自然語言處理的預訓練技術研究綜述[J].計算機科學,2020, 47 (3):162-173. (Li Zhoujun,Fan Yu,Wu Xianjie.A review of pre-training techniques for natural language processing[J]. Computer Science ,2020, 47 (3):162-173.)

主站蜘蛛池模板: 国产肉感大码AV无码| 热热久久狠狠偷偷色男同| 少妇人妻无码首页| 欧美中出一区二区| 日韩国产亚洲一区二区在线观看| 国产九九精品视频| 亚洲一区二区无码视频| 中文成人在线视频| 国产成人91精品| 狠狠色香婷婷久久亚洲精品| 在线日本国产成人免费的| 色综合狠狠操| 一本久道久综合久久鬼色| 无码人中文字幕| 成人亚洲视频| 日本人真淫视频一区二区三区| 伊人婷婷色香五月综合缴缴情| 国产精品香蕉在线观看不卡| 一级毛片免费播放视频| 国产免费怡红院视频| 国产99久久亚洲综合精品西瓜tv| 亚洲精品欧美日本中文字幕 | 欧美亚洲国产精品久久蜜芽| 红杏AV在线无码| 久久99热这里只有精品免费看| 久久久成年黄色视频| 秋霞国产在线| 国产精品蜜芽在线观看| 久久精品无码国产一区二区三区| 久久精品亚洲中文字幕乱码| 国产激情影院| 成人亚洲国产| 天天躁夜夜躁狠狠躁躁88| 一级毛片免费不卡在线| www.精品视频| 国产美女叼嘿视频免费看| 精品视频第一页| 国产va在线| 国产成人精彩在线视频50| 国产一级裸网站| 色婷婷啪啪| 中文字幕在线视频免费| 免费av一区二区三区在线| 国产精品自拍合集| 亚洲日本中文字幕天堂网| 国产一区二区三区在线精品专区| 91欧美亚洲国产五月天| 99re在线视频观看| 91福利免费视频| 99re在线视频观看| 制服丝袜一区| 亚洲欧美综合精品久久成人网| 亚洲精品大秀视频| AV天堂资源福利在线观看| 国产免费福利网站| 呦女亚洲一区精品| 亚洲三级影院| 欧美劲爆第一页| 国产成熟女人性满足视频| 精品国产福利在线| 久久综合色视频| 永久免费av网站可以直接看的| 污网站在线观看视频| 黄色三级网站免费| 精品综合久久久久久97超人| 99在线视频网站| 无码中文AⅤ在线观看| 91在线免费公开视频| 91视频99| 日韩精品毛片人妻AV不卡| 日韩国产一区二区三区无码| 亚洲swag精品自拍一区| 国产精品香蕉| 久久这里只有精品2| 老汉色老汉首页a亚洲| 免费全部高H视频无码无遮掩| 亚欧美国产综合| 久久亚洲国产一区二区| 手机在线免费不卡一区二| 日韩精品专区免费无码aⅴ| 久久久成年黄色视频| 在线一级毛片|