饒珣 王加勝



摘要:地圖注記是地圖的核心內(nèi)容之一,地圖注記提取是計(jì)算機(jī)智能讀取掃描地圖信息的重要步驟。中文掃描地圖注記由于字符多樣、線條復(fù)雜、方向多變,給中文掃描地圖注記矢量化帶來(lái)了困難,目前少有研究。文章提出了一種基于深度學(xué)習(xí)的中文掃描地圖注記提取方法,分為注記特征提取和空間重建兩個(gè)部分。結(jié)果顯示,該方法能夠?qū)崿F(xiàn)地圖中文注記的檢測(cè)、識(shí)別和空間重建。
關(guān)鍵詞:地圖注記:深度學(xué)習(xí):矢量化:特征提取
中圖分類(lèi)號(hào):TP399
文獻(xiàn)標(biāo)志碼:A
0 引言
地圖是地理信息重要可視化表達(dá)方法,能夠提供地理對(duì)象和地點(diǎn)的有關(guān)情況的可視化信息[1]。地理信息系統(tǒng)( CJeographic Informacion SysLem.GIS)技術(shù)是近些年迅速發(fā)展起來(lái)的一門(mén)空間信息分析技術(shù),在資源與環(huán)境應(yīng)用領(lǐng)域中,發(fā)揮著技術(shù)先導(dǎo)的作用。地圖仍然是目前GIS的重要數(shù)據(jù)來(lái)源,同時(shí)又是GIS產(chǎn)品輸出的主要形式。
地圖符號(hào)是地圖的重要組成部分,不僅能傳達(dá)空間信息,還能傳達(dá)對(duì)象的內(nèi)在意義[2],而地圖注記是地圖符號(hào)主要形式之一。因此,地圖注記的特征提取是計(jì)算機(jī)智能讀取地圖信息的重要步驟,其主要對(duì)象是地圖上的注記信息,將地圖圖像上的注記從計(jì)算機(jī)無(wú)法直接獲取的圖像形式轉(zhuǎn)化為計(jì)算機(jī)可讀的文本形式[3],并獲取其主要特征。本文主要提取注記的3種特征:文本特征、空間特征和類(lèi)別特征。文本特征即地圖注記所包含的文本信息:空間特征即注記在地圖上的坐標(biāo)信息:類(lèi)別特征即注記在地圖上所代表的類(lèi)別信息。在提取到地圖注記的各種特征后,將這些特征融合投影到新的圖像上,即地圖注記的空間重建。地圖注記的特征提取與空間重建的結(jié)合能夠?qū)崿F(xiàn)地圖注記信息的智能獲取。而注記特征提取又是空間重建的重要信息來(lái)源,因此如何有效完成地圖注記特征提取的任務(wù),對(duì)于實(shí)現(xiàn)地圖信息智能獲取具有重要意義。
本文提出了一種基于3個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)融合的中文掃描地圖注記提取方法。
1 研究方法
本文將地圖注記矢量化分為注記特征提取和空間重建兩個(gè)部分,注記特征提取又主要分為注記檢測(cè)、注記識(shí)別和注記分類(lèi)3個(gè)部分,流程如圖l所示。注記檢測(cè)主要用來(lái)提取注記的空間特征:注記識(shí)別主要用來(lái)提取注記的文本特征:注記分類(lèi)主要是提取注記的類(lèi)別特征,又分為注記分離和注記分類(lèi)兩個(gè)部分。空間重建主要工作是融合提取到的注記特征,并將這些特征投影到新的圖像或者坐標(biāo)系上。
1.1 數(shù)據(jù)
本文從《2002年云南省地圖集》掃描得到5張掃描地圖。掃描得到的地圖尺寸均為8 160x6 064像素,由于原始地圖尺寸過(guò)大,不利于模型訓(xùn)練學(xué)習(xí),對(duì)原始圖像隨機(jī)裁剪為1 024xl 024像素圖像,得到最終樣本集。
1.2 基于AdvancedEAST的注記檢測(cè)模型
AdvancedEAST是一種檢測(cè)簡(jiǎn)潔、高效、準(zhǔn)確,并能實(shí)現(xiàn)多角度的文本行檢測(cè)模型,它是一種基于EAST改進(jìn)的文本檢測(cè)算法[4]。在EAST的基礎(chǔ)上對(duì)EAST的長(zhǎng)文本檢測(cè)缺陷進(jìn)行了改進(jìn),在EAST網(wǎng)絡(luò)框架的基礎(chǔ)上巧妙地設(shè)計(jì)了基于文本邊界框的損失函數(shù),將長(zhǎng)文本檢測(cè)的問(wèn)題轉(zhuǎn)換為檢測(cè)文本頭部和尾部邊界區(qū)的問(wèn)題,使得其在長(zhǎng)文本檢測(cè)得到的結(jié)果更為準(zhǔn)確。
在模型結(jié)構(gòu)上面,AdvancedEAST與EAST差別不大,都是由特征提取、特征融合、輸出3部分組成。特征提取部分,AdvancedEAST采用vgg16'5],而EAST在論文中采用PVANet[4].AdvancedEAST利用在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)參數(shù)初始化,在VGG16的4個(gè)階段輸出作為特征融合階段的輸入,其大小分別為輸入圖像的1/4. 1/8. 1/16和1/32。特征融合部分,AdvancedEAST沿用EAST結(jié)構(gòu),使用多尺度特征融合的辦法解決目標(biāo)檢測(cè)中的難題即多尺寸目標(biāo)檢測(cè)。將不同感受野的feature map進(jìn)行融合,可以補(bǔ)充不同尺寸目標(biāo)信息來(lái)實(shí)現(xiàn)對(duì)不同尺寸物體的檢測(cè)。輸出部分,是AdvancedEAST最大的改動(dòng)地方,為了解決Easc感受野的問(wèn)題,AdvancedEasc不再用所有的點(diǎn)預(yù)測(cè)頂點(diǎn),而是用頭部元素預(yù)測(cè)左上、左下點(diǎn),尾部元素預(yù)測(cè)右上、右下點(diǎn)。也就是說(shuō)vertex geo的輸出只對(duì)頭部和尾部元素有意義,且根據(jù)預(yù)測(cè)出的頭/尾元素進(jìn)行加權(quán)平均得到4個(gè)頂點(diǎn)。
本文將進(jìn)行過(guò)預(yù)處理的地圖圖像輸入到預(yù)先訓(xùn)練好的基于AdvancedEAST的注記檢測(cè)模型中,得到包含注記框坐標(biāo)信息的文件,即提取到的注記空間特征。為方便后續(xù)模型的訓(xùn)練與輸入,根據(jù)注記檢測(cè)模型得到的結(jié)果,將每一個(gè)注記從原圖像中裁剪出來(lái)得到獨(dú)立的注記圖像。
1.3 基于CRNN注記識(shí)別模型
CRNN是一種卷積循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[6],用于解決基于圖像的序列識(shí)別問(wèn)題.CRNN網(wǎng)絡(luò)實(shí)現(xiàn)了不定長(zhǎng)驗(yàn)證結(jié)合CNN和RNN網(wǎng)絡(luò)結(jié)構(gòu),使用雙向LSTM循環(huán)網(wǎng)絡(luò)進(jìn)行時(shí)序訓(xùn)練,并在最后引入CTC Loss實(shí)現(xiàn)端對(duì)端的不定長(zhǎng)序列識(shí)別。
CRNN網(wǎng)絡(luò)主要可分為3個(gè)部分:其一,CNN(卷積層),使用深度CNN,對(duì)輸入圖像提取特征,得到特征圖;其二,RNN(循環(huán)層),使用雙向RNN(這里用的是BLSTM)對(duì)特征序列進(jìn)行預(yù)測(cè),對(duì)序列中的每個(gè)特征向量進(jìn)行學(xué)習(xí),并輸出預(yù)測(cè)標(biāo)簽(真實(shí)值)分布;其三.CTC loss(轉(zhuǎn)錄層).使用CTC損失,把從循環(huán)層獲取的一系列標(biāo)簽分布轉(zhuǎn)換成最終的標(biāo)簽序列。
根據(jù)實(shí)際需要,本文將得到的標(biāo)簽序列與中文字符建立映射關(guān)系,即將標(biāo)簽序列轉(zhuǎn)化為目標(biāo)中文字符內(nèi)容。將獨(dú)立的注記圖像輸入到預(yù)先訓(xùn)練好的基于CRNN注記識(shí)別模型,得到每個(gè)注記圖像的文本內(nèi)容,即注記文本特征。
1.4 基于UNet++和kmeans的注記分類(lèi)模型
考慮到不同地圖之間的類(lèi)別數(shù)量和劃分存在很多差異,選用聚類(lèi)的方法進(jìn)行注記分類(lèi)工作,以此提高整個(gè)方法的泛化性。但是聚類(lèi)的方法能夠使用的特征較少(對(duì)于圖像來(lái)說(shuō)主要使用顏色特征),導(dǎo)致背景會(huì)干擾到聚類(lèi)結(jié)果。對(duì)此,本文在對(duì)注記分類(lèi)之前,先對(duì)注記進(jìn)行分離,將包含注記的所有像素點(diǎn)分離出來(lái),在進(jìn)行注記分類(lèi)時(shí)只對(duì)這些像素點(diǎn)進(jìn)行操作,以此盡可能地減少地圖背景對(duì)于注記分類(lèi)結(jié)果的影響。
1.4.1 基于UNet++的注記分離模型
UNel++繼承了UNet的結(jié)構(gòu),同時(shí)又借鑒了Dens的稠密連接方式[7]。UNet++通過(guò)各層之間的稠密連接,互相連接起來(lái),就像DenseNel那樣,前前后后每一個(gè)模塊互相作用,每一個(gè)模塊都能看到彼此,那對(duì)彼此互相熟悉,分割效果自然就會(huì)變好。在實(shí)際分割中,一次次地下采樣自然會(huì)丟掉一些細(xì)節(jié)特征,但這種稠密連接的方式,每一層都盡量多地保存這種細(xì)節(jié)信息和全局信息,一層層之間架起橋梁互相溝通,最后共享給最后一層,實(shí)現(xiàn)全局信息和局部信息的保留和重構(gòu)。
本文將獨(dú)立的注記圖像輸入到預(yù)先訓(xùn)練好的基于UNec++的注記分離模型中,得到分離后的注記圖像。
1.4.2 基于kmeans的注記分類(lèi)模型
kmeans算法又名k均值算法,kmeans算法中的k表示的是聚類(lèi)為k個(gè)簇.means代表取每一個(gè)聚類(lèi)中數(shù)據(jù)值的均值作為該簇的中心,或者稱(chēng)為質(zhì)心,即用每一個(gè)類(lèi)的質(zhì)心對(duì)該簇進(jìn)行描述。其算法思想大致為:先從樣本集中隨機(jī)選取k個(gè)樣本作為“簇中心”,并計(jì)算所有樣本與這k個(gè)“簇中心”的距離,對(duì)于每一個(gè)樣本,將其劃分到與其距離最近的“簇中心”所在的簇中,對(duì)于新的簇計(jì)算各個(gè)簇的新的“簇中心”。
本文將得到的分離后的注記圖像輸入到基于kmeans的注記分類(lèi)模型中,并根據(jù)原始地圖注記類(lèi)別設(shè)置簇?cái)?shù)量,就可以將輸入的圖像劃分到其對(duì)應(yīng)的類(lèi)別中,即得到注記的類(lèi)別特征。至此,就能夠得到注記的空間特征、文本特征以及類(lèi)別特征。最后對(duì)注記特征提取所提取的特征進(jìn)行融合,并將其可視化,投影到新的圖像上,得到空間重建結(jié)果。
2 實(shí)驗(yàn)結(jié)果與分析
使用所提出的基于深度學(xué)習(xí)的地圖注記矢量化方法,得到的結(jié)果如圖2、圖3所示。由圖2可以看出,注記檢測(cè)模型能夠有效地檢測(cè)出注記所在位置,只出現(xiàn)了少量漏檢的情況。整體上本文使用的注記識(shí)別模型能夠正確識(shí)別注記的文本信息,但在地圖注記與地圖線要素交匯重疊的地方會(huì)出現(xiàn)注記識(shí)別錯(cuò)誤的情況。
由圖3可以看出,空間重建結(jié)果有效地還原了注記在原始掃描地圖上的特征,對(duì)于注記的文本特征和空間特征都得到了較為準(zhǔn)確的還原,對(duì)于注記類(lèi)別特征雖然沒(méi)有達(dá)到預(yù)期效果,但是也基本能夠完成任務(wù)。
3 結(jié)語(yǔ)
本文針對(duì)中文掃描地圖注記矢量化的問(wèn)題,提出了一種基于深度學(xué)習(xí)的地圖注記矢量化方法,該方法能夠提取到掃描地圖上注記的文本特征、空間特征和類(lèi)別特征,并將這些特征融合,進(jìn)行可視化的空間重建,最終完成對(duì)中文掃描地圖注記的矢量化。
參考文獻(xiàn)
[1]王光霞,游雄,於建峰,等.地圖設(shè)計(jì)與編繪(第二版)[M].北京:測(cè)繪出版社.2014.
[2]翁敏,黃謙,蘇世亮,等.基于皮爾斯符號(hào)三元觀的專(zhuān)題地圖符號(hào)設(shè)計(jì)[J].測(cè)繪地理信息,2021(1):44-47.
[3] PEZESHK A. TUTWILER R L.Extended charac-.terdefect model for recognition of text from maps[Cl.Austin: 2010 IEEE Southwest Symposium on ImageAnahsis&Inlerpretation( SSIAI) ,2010.
[4]ZHOU X Y, YAO C. WEN H, et al. EAST: AnEfficient and Accurate Scene Text Detector[ Jl. 30thIeee Conference on Computer Vision and PaUernRecognition ( CVPR 2017) , 2017: 2642-51.
[5lSIMONYAN K, ZISSERMAN A. Very deepconvolutional networks for large-scale image recognition[ C] . San Diego: International Conference on LearningRepresentations ( ICLR) .2015.
[6lSHI B, XIAN(; B, CON(; Y. An end - to -endtrainable neural network for image - based sequencerecognition and its application to scene text recognition[J] . IEEE Transactions on PaUern Analysis & MachineIntelligem-.e, 2016 ( 11) : 2298-304.
[7lZHOU Z, SIDDIQUEE M, TAJBAKHSH N, et al.UNet + +: redesigning skip connec-.rions to exploitmuhiscale features in image segmentation [ Jl IEEETransactions on Medical Imaging, 2020( 6) : 1856-67.
(編輯沈強(qiáng) )