999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于高斯密度圖估計的自然場景漢字檢測

2022-01-01 00:00:00胡巧遇仝明磊
計算機(jī)應(yīng)用研究 2022年2期

摘 要: "針對自然場景下中文小文本難以定位的問題,提出了基于高斯密度圖估計的并行深度網(wǎng)絡(luò)對自然場景漢字進(jìn)行檢測。首先將中文數(shù)據(jù)集中的漢字位置信息轉(zhuǎn)換為高斯文字密度圖;其次引入一種多級并行連接結(jié)構(gòu),提高網(wǎng)絡(luò)細(xì)節(jié)信息捕捉能力;最后再融合網(wǎng)絡(luò)中的上采樣特征信息得到高精度文字密度圖,最終實(shí)現(xiàn)對文字區(qū)域的定位。在中文數(shù)據(jù)集CTW(Chinese text in the wild)上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明提出方法準(zhǔn)確率和召回率均有較大提升,證明了該方法的可行性和準(zhǔn)確性。

關(guān)鍵詞: "漢字檢測; 高斯密度圖估計; 特征融合; 自然場景

中圖分類號: "TP391.41 """文獻(xiàn)標(biāo)志碼: A

文章編號: "1001-3695(2022)02-053-0623-05

doi:10.19734/j.issn.1001-3695.2021.06.0262

Chinese character detection in natural scene based on "Gaussian density map estimation

Hu Qiaoyu, Tong Minglei

(School of Electronics amp; Information Engineering, Shanghai University of Electric Power, Shanghai 200090, China)

Abstract: "Aiming at the nodus of small Chinese text detection in natural scene,this paper proposed a parallel deep network based on Gaussian density map estimation to detect Chinese characters in natural scene.Firstly,it converted the position information of Chinese characters into a Gaussian text density map.Secondly,in order to improve the ability to capture network details,it used a multi-level parallel connection structure.Ultimately,the network combined the upsampling operation to fuse the feature information in the network to obtain a high-precision text density map,then realized the positioning of the text area through post-processing.This paper experimented on Chinese dataset CTW.The results show that the precision and recall rates of the method are both improved,demonstrate the feasibility and accuracy of the method.

Key words: "Chinese character detection; Gaussian density map estimation; feature fusion; natural scene

0 引言

場景文字檢測與識別是近年來計算機(jī)視覺領(lǐng)域的研究熱點(diǎn),在自動化生產(chǎn)中具有潛在的應(yīng)用價值。文字區(qū)域檢測作為文本識別的基礎(chǔ)環(huán)節(jié), 其準(zhǔn)確率將直接影響識別結(jié)果,在整個文字識別任務(wù)中占有舉足輕重的地位。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,涌現(xiàn)出一批基于深度學(xué)習(xí)的高精度場景文字檢測算法,但大多適用于英文數(shù)據(jù)集,對中文檢測的研究相對欠缺[1]。除了自然場景中普遍存在的環(huán)境干擾大、光照條件不穩(wěn)定等問題外,中文文字檢測還存在字體形態(tài)多變、文字總量大等特點(diǎn),復(fù)雜程度與其他語言相比更高,因此漢字檢測技術(shù)的研究仍有很大的提升空間[2]。

在深度學(xué)習(xí)出現(xiàn)之前,場景文本檢測主要采用自下而上的方式,以手工設(shè)計特征為基礎(chǔ), 包括基于連通域和滑動窗口兩種方法。這類方法根據(jù)人類視覺的特點(diǎn)提取圖像中具備區(qū)分能力的特征,如SWT(stroke with transform)[3]、MSER(maximally stable extremal regions)[4]等。傳統(tǒng)方法易于設(shè)計但其過于 依賴數(shù)據(jù)庫,需要適用不同數(shù)據(jù)集的特點(diǎn),對光線不均勻、形狀不規(guī)則的文字檢測效果不佳,其魯棒性和可靠性較差。

目前,傳統(tǒng)的文字檢測方法逐漸被基于深度學(xué)習(xí)的檢測方法所代替,主流方法大致可劃分為兩類:a)由目標(biāo)檢測發(fā)展而來的基于候選框的文本檢測方法,如CTPN(connectionist text proposal network)[5]、TextBoxes[6]等,其大致思想是根據(jù)設(shè)置的anchor產(chǎn)生一系列候選文本框,再調(diào)整和篩選獲得最終的文本邊界框,這類方法在運(yùn)算速度上很有優(yōu)勢,但在準(zhǔn)確率方面稍有欠缺;b)由語義分割發(fā)展而來的基于圖像分割的文本檢測方法,利用卷積神經(jīng)網(wǎng)絡(luò)對特征進(jìn)行提取,再對每個像素進(jìn)行前景與背景的分類,如CCTN(cascaded convolutional text network)[7]、PixelLink[8]、IncepText[9]等,這類方法能更好地對任意形狀文字進(jìn)行檢測,雖然準(zhǔn)確率得到提升,但耗時較長。

目前主流的文字檢測算法大多針對英文數(shù)據(jù)集,對中文數(shù)據(jù)集進(jìn)行的研究較少,且對于自然場景下尺寸較小的文字區(qū)域檢測效果不佳。本文針對這些問題,提出一種基于高斯密度圖估計(GDM)的文字檢測方法,將中文數(shù)據(jù)集中的位置信息轉(zhuǎn)換為高斯文字密度圖,設(shè)計多層并行深度卷積網(wǎng)絡(luò)結(jié)構(gòu),將算法模型中淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)相結(jié)合,結(jié)合池化及上采樣操作獲得多尺度融合的高質(zhì)量文本密度圖,經(jīng)過后處理實(shí)現(xiàn)高精度的自由的自然場景文字區(qū)域檢測。

1 高斯文字密度圖

1.1 高斯密度圖

高斯分布(Gaussian distribution)又稱做正態(tài)分布(normal distribution),是一個廣泛應(yīng)用在數(shù)學(xué)及工程領(lǐng)域的概率分布函數(shù)[10],其二維曲線為兩頭低、中間高、左右對稱的鐘型結(jié)構(gòu),如圖1所示。高斯函數(shù)曲線的物理意義是:一個隨機(jī)樣本與函數(shù)中心點(diǎn)的距離越近則代表其發(fā)生的概率越高。本文將這個特性應(yīng)用到文本檢測領(lǐng)域,每個文字所在區(qū)域都用一個高斯核函數(shù)進(jìn)行擬合[11],將文字位置信息轉(zhuǎn)換為該像素點(diǎn)文字區(qū)域的概率分布問題,整張圖片中所有字符信息整合起來就得到了高斯文字密度圖,利用密度圖對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)現(xiàn)文本密度分析。高斯核的數(shù)學(xué)表達(dá)式為

G(x,x′)= e -γ‖x-x′‖2 ""(1)

其中: x′ 表示核函數(shù)中心; γ 表示核函數(shù)超參數(shù); G 值在一定范圍內(nèi)隨著空間中任意一點(diǎn) x 距離核函數(shù)中心 x′ 的距離而減小,直觀反映了該點(diǎn)為函數(shù)中心的概率大小,其平滑程度由 γ決定。γ 越大,函數(shù)峰值越高,起伏越大; γ 越小,函數(shù)峰值越低,波動越小。

1.2 數(shù)據(jù)集真值圖

本文使用中文數(shù)據(jù)集CTW進(jìn)行實(shí)驗(yàn)。對于數(shù)據(jù)集內(nèi)的圖像,使用字符級的邊框來生成文本區(qū)域的真值映射。給定區(qū)域得分高低代表該像素為字符中心的概率大小,某像素點(diǎn)距離字符中心點(diǎn)越近則代表該點(diǎn)檢測為文字的概率越高。傳統(tǒng)二進(jìn)制標(biāo)記模式產(chǎn)生的標(biāo)記是離散的,當(dāng)文本密度高時將對檢測準(zhǔn)確率產(chǎn)生很大影響,本文采用高斯核卷積式生成的高斯分布將文字概率密度表達(dá)為一個連續(xù)的概率密度函數(shù)。如圖2所示,將 γ 為100的二維高斯分布圖像經(jīng)過仿射變換映射到真值圖中,實(shí)現(xiàn)對數(shù)據(jù)集的預(yù)處理。

2 多層融合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

針對自然場景圖像中背景復(fù)雜多變、小尺寸文本難以定位的問題[12],本文提出了一種多層融合的神經(jīng)網(wǎng)絡(luò)模型。圖3是對GDM估計法文字檢測網(wǎng)絡(luò)的高級概述,主要分為特征提取主干、特征融合模塊和特征加固模塊三部分。由圖3可以看到,輸入原圖像進(jìn)入特征提取網(wǎng)絡(luò),經(jīng)特征融合網(wǎng)絡(luò)融合成多尺度不同像素級別的特征圖,再通過特征加固模塊生成文本密度圖,密度圖經(jīng)后處理得到字符級文本框。網(wǎng)絡(luò)中特征融合模塊的目的在于提高網(wǎng)絡(luò)細(xì)節(jié)捕捉能力,特征加固模塊的目的在于提高密度圖局部相關(guān)性,它們的具體結(jié)構(gòu)如圖4所示。

2.1 特征提取主干

文字特征提取主干網(wǎng)絡(luò)使用的是VGG16的前10層,其中包含10個卷積層和3個最大池化層,卷積層采用大小為3×3的卷積核,池化層采用大小為2×2的最大池化核,步長為2。該主干網(wǎng)絡(luò)生成四個級別分辨率特征圖,如圖5所示。尺寸分別為輸入圖像的1、1/4、1/16、1/32倍大小,其通道數(shù)由輸入圖像的3通道分別變?yōu)?4通道、128通道、256通道及512通道。

2.2 特征融合模塊

目前大多數(shù)網(wǎng)絡(luò)為達(dá)到多尺度特征提取的目的,采用最大池化的方法生成低分辨率的目標(biāo)特征圖,再由低分辨率特征圖上采樣得到高分辨率圖片。顯然這種方法沒有考慮到淺層網(wǎng)絡(luò)邊緣、形狀等細(xì)節(jié)特征,當(dāng)文字尺寸較小或環(huán)境干擾較大時則無法較好地完成文字檢測任務(wù)。為解決這一問題,本文提出將深層網(wǎng)絡(luò)與淺層網(wǎng)絡(luò)并行連接起來,以實(shí)現(xiàn)將不同分辨率的特征圖相互融合,強(qiáng)化網(wǎng)絡(luò)捕捉圖像細(xì)節(jié)信息的能力。

相關(guān)研究[13,14]表明,尺度不同的特征圖包含了不同的圖像信息,且這些信息互補(bǔ)程度非常高,高級的語義信息可以從深層的特征圖像中提煉,而細(xì)節(jié)信息則需要通過淺層網(wǎng)絡(luò)獲取,將深淺層網(wǎng)絡(luò)并行連接起來使得網(wǎng)絡(luò)在處理數(shù)據(jù)的過程中可以從其他并行表示中獲得高階信息,提高像素定位的準(zhǔn)確率,獲得高精度字符區(qū)域密度圖。在特征融合模塊中,每個分支逐層融合從特征提取網(wǎng)絡(luò)中提取到的不同像素等級的特征圖像,其具體融合方式如式(2)所示。

m i= ""conv "3×3(n i:[ up (n i+1)]) "if "ilt;4

n i "if "i=4 """"(2)

其中: n i 代表特征提取主干生成的特征圖; m i 代表經(jīng)過特征融合后的特征圖;(,:,)代表特征圖之間進(jìn)行通道上的融合,up代表步長為2的上采樣操作。每層特征提取主干提取到的特征圖與下一層特征圖上采樣還原出的圖片相連接,再經(jīng)過一個conv 3×3模塊獲得特征加固模塊的輸入。

2.3 特征加固模塊

在文字檢測任務(wù)中,加強(qiáng)細(xì)節(jié)特征學(xué)習(xí)的同時也要注重學(xué)習(xí)全局特征,增強(qiáng)文字密度圖的局部相關(guān)性,在提高檢測準(zhǔn)確率的同時幫助網(wǎng)絡(luò)收斂。鑒于此,在網(wǎng)絡(luò)中添加特征加固模塊,其結(jié)構(gòu)如圖6所示。將特征融合模塊產(chǎn)生的像素級別不同的特征圖像作為該模塊的輸入,并對其進(jìn)行上采樣—融合連續(xù)操作,在上采樣同時,將上采樣得到的特征圖與特征融合模塊生成的特征圖交互融合,最后得到還原到原圖尺寸的特征圖,經(jīng)ReLU激活函數(shù)生成字符級文字密度圖。其具體操作方式如式(3)所示。

l i= "[m i: up (m i+1)] "if "ilt;3

[ conv "3×3(l i-2): up[conv "3×3(l i-1)]] "if "i=3 """"(3)

其中: m i 代表經(jīng)過特征融合后的特征圖; l i 代表特征加固模塊產(chǎn)生的特征圖。

表1對比不使用和使用特征加固模塊兩種情況下生成的文字密度圖與真值圖之間的結(jié)構(gòu)相似性指數(shù)(structural similarity index,SSIM),驗(yàn)證特征加固模塊對生成文字密度圖局部相關(guān)性的影響。SSIM的數(shù)值大小始終在0~1,數(shù)值越大,代表兩圖的結(jié)構(gòu)相似程度越高,通過實(shí)驗(yàn)結(jié)果的對比可知,特征加固模塊的添加使文字密度圖的局部相關(guān)特性得到了很大程度的加強(qiáng)。

3 損失函數(shù)

損失函數(shù)的作用是反映模型中預(yù)測數(shù)值與真實(shí)數(shù)值間的差異大小。由于在中文自然場景圖像中字符所占面積較小,文字檢測任務(wù)的難度隨之增大。為了實(shí)現(xiàn)精準(zhǔn)檢測中文字符,要針對網(wǎng)絡(luò)結(jié)構(gòu)選取適當(dāng)?shù)膿p失函數(shù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

圖像恢復(fù)相關(guān)研究如文獻(xiàn)[15]所述,使用基于像素獨(dú)立性假設(shè)計算的歐幾里德距離作為損失函數(shù)來反映密度圖與真值圖差異大小時,會忽略掉密度圖的局部相關(guān)特性,通過在2.3節(jié)中的實(shí)驗(yàn)結(jié)果得知,模型中的特征加固模塊能夠提高密度圖的局部相關(guān)性,因此選定損失函數(shù)時可以忽略密度圖局部相關(guān)特性的影響,采用最為常用、計算量不大、 代碼實(shí)現(xiàn)簡單的均方差(mean square error,MSE)函數(shù)作為模型損失函數(shù)。均方誤差是回歸損失函數(shù)中最常用的誤差,計算模型預(yù)測值與實(shí)際值之間的歐氏距離來反映預(yù)測值與真實(shí)值之間的接近程度,其函數(shù)表達(dá)式如下:

loss= 1 N ∑ N i=1 ( "i-y i)2 ""(4)

其中: N 代表樣本點(diǎn)總數(shù); ""i 代表模型預(yù)測值; y i 代表標(biāo)記值。

4 實(shí)驗(yàn)過程

4.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)使用的系統(tǒng)為Ubuntu 16.04,GPU型號為GTX Titan X,顯存為12 GB,核心頻率為1 075 MHz,深度學(xué)習(xí)前端框架選用Keras 2.2.4,后端框架選用TensorFlow-GPU 1.13.1。

4.2 實(shí)驗(yàn)用數(shù)據(jù)集

實(shí)驗(yàn)采用CTW數(shù)據(jù)集[16],CTW是由騰訊—清華大學(xué)聯(lián)合發(fā)布的大型自然場景中文文本數(shù)據(jù)集,主要來自清華—騰訊100K數(shù)據(jù)集和騰訊街景數(shù)據(jù)集,數(shù)據(jù)集由拍攝者在十幾個城市隨機(jī)拍攝獲取,其中共包含32 285張街景圖像,大小為2 048×2 048,每張圖像按字符級進(jìn)行標(biāo)注,其中分為訓(xùn)練集、測試集、驗(yàn)證集三部分,比例為8 :1: 1。圖7給出了CTW數(shù)據(jù)集中的部分樣本圖片。

4.3 實(shí)驗(yàn)評價指標(biāo)

為了客觀評價本文方法在漢字定位方面的實(shí)際效果,采用在ICDAR大賽中定義的準(zhǔn)確率(precision, P )、召回率(recall, R )以及綜合 F 值 (F -score)三項(xiàng)數(shù)值對模型表現(xiàn)情況進(jìn)行評估[17]。其中準(zhǔn)確率 P 是指在所有預(yù)測樣本中正確樣本的比例, P 越高誤報越少,其定義為

P= TP TP+FP """(5)

其中: TP 代表真陽性部分; FP 代表偽陽性部分。

召回率 R 是指真值樣本中被預(yù)測為正的部分在所有真值樣本中所占的比例, "R 越高假負(fù)越少,其定義為

R= TP TP+FN """(6)

其中: FN 代表偽陰性部分。

準(zhǔn)確率 P 與召回率 R 成反比,準(zhǔn)確率 P 增大則召回率 R 減小,同樣當(dāng)召回率 R 增大則準(zhǔn)確率 P 減小。鑒于此,引入 F -score來綜合評價網(wǎng)絡(luò)的檢測效果, F -score為準(zhǔn)確率 P 和召回率 R 的加權(quán)調(diào)和平均值,其定義為

F= 2PR P+R = 2TP 2TP+FP+FN """(7)

4.4 訓(xùn)練過程

4.4.1 數(shù)據(jù)集預(yù)處理

a)由于CTW數(shù)據(jù)集中測試集及驗(yàn)證集的標(biāo)記文件不完整,本文將24 290張訓(xùn)練集圖片按照8 :1: 1的比例重新分配,將其作為實(shí)驗(yàn)數(shù)據(jù)。

b)按照1.2節(jié)中提到的處理方式生成所有實(shí)驗(yàn)數(shù)據(jù)所需的真值圖。

c)數(shù)據(jù)集中單張圖片尺寸為2 048×2 048,由于整張圖片放入網(wǎng)絡(luò)訓(xùn)練難度較大,為了不犧牲字符區(qū)域的細(xì)節(jié)特征,將每張圖片掃描分塊讀入,每次讀入圖片尺寸為512×512,在下一次讀入時按輸入方向與上一次輸入圖像重疊128×512個像素,避免了圖像切割造成的邊緣像素的特征損失。

4.4.2 參數(shù)設(shè)置

a)為了使模型更快地收斂,在訓(xùn)練過程中使用了Adam優(yōu)化器。

b)為了使網(wǎng)絡(luò)更快地得到最優(yōu)解,在學(xué)習(xí)率方面利用回調(diào)函數(shù),在訓(xùn)練過程中對學(xué)習(xí)率進(jìn)行動態(tài)化調(diào)整,在前、后期學(xué)習(xí)率分別為10-3、10-4,加速網(wǎng)絡(luò)收斂且避免過擬合現(xiàn)象。其他具體參數(shù)如表2所示。

4.4.3 實(shí)驗(yàn)后處理

首先將文本得分圖二值化,將二進(jìn)制圖歸零初始化后進(jìn)行閾值分割,其表達(dá)式如下:

T(x,y)= ""1 T(x,y)≥τ 0 T(x,y)lt;τ """"(8)

其中: τ 代表文本區(qū)域分割閾值,參考預(yù)處理時真值框附近的像素值,本文實(shí)驗(yàn)選用 τ =0.4。

對分割后生成的二值圖膨脹處理后利用連通域分析(connected component labeling,CCL)進(jìn)行標(biāo)記;求得每個連通區(qū)域外接矩形,完成字符級漢字定位。

5 實(shí)驗(yàn)結(jié)果分析

5.1 CTW數(shù)據(jù)集對比實(shí)驗(yàn)

為驗(yàn)證提出模型的有效性,本文在相同實(shí)驗(yàn)條件下采用CTW數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。其中,CTPN[5]、SegLink[18]、EAST[19]、PSENet[20]為文字檢測領(lǐng)域的經(jīng)典模型。由于本文方法采用VGG16作為特征提取主干,為了保證對比實(shí)驗(yàn)的嚴(yán)謹(jǐn)性與可信性,在進(jìn)行對比實(shí)驗(yàn)時所有的對比方法均使用VGG16作為特征提取網(wǎng)絡(luò),且未調(diào)用任何預(yù)訓(xùn)練模型。由表3可知,本文模型較所列模型的 F -score分別提高了16.94%、8.82%、5.73%、2.03%,在準(zhǔn)確率和召回率方面的優(yōu)勢也很明顯。

為了測試提出的方法在英文數(shù)據(jù)集上的效果,在實(shí)驗(yàn)過程中也采用英文數(shù)據(jù)集進(jìn)行了相關(guān)探討性實(shí)驗(yàn)。由于英文語法機(jī)制與中文大相徑庭,實(shí)現(xiàn)其單個字母的檢測對于了解場景環(huán)境信息意義不大,無法采用字符級別的標(biāo)注;當(dāng)對數(shù)據(jù)集進(jìn)行單詞級別的真值圖映射時發(fā)現(xiàn)自然場景中遠(yuǎn)處的長單詞由于其幾何形狀十分細(xì)長,而本文方法對于文字區(qū)域?qū)捀咧迪嗖畈淮蟮男〕叽缥淖种行狞c(diǎn)的檢測效果較好,所以不適用于自然場景下英文數(shù)據(jù)集中小尺寸文本的檢測。

5.2 消融對比實(shí)驗(yàn)分析

為了驗(yàn)證本文網(wǎng)絡(luò)效果,對模型進(jìn)行了消融對比實(shí)驗(yàn),結(jié)果如表4所示。在核密度估計方法的基礎(chǔ)上進(jìn)行對比實(shí)驗(yàn)來驗(yàn)證網(wǎng)絡(luò)的結(jié)構(gòu)合理性,訓(xùn)練過程中未使用任何預(yù)訓(xùn)練模型,實(shí)驗(yàn)參數(shù)完全一致,由于數(shù)據(jù)集龐大,只選用了部分?jǐn)?shù)據(jù)集作為訓(xùn)練樣本。a)方法+使用VGG16網(wǎng)絡(luò)作為模型主要網(wǎng)絡(luò)結(jié)構(gòu),特征提取選用VGG16前10層,之后利用卷積+上采樣的方法還原圖像尺寸得到文本密度圖;b)方法+ +在特征提取主干后添加了特征融合模塊,將特征融合模塊得到的特征圖直接上采樣后融合,期間不進(jìn)行不同分辨率特征圖之間通道上的融合,去除了特征加固模塊,其實(shí)驗(yàn)結(jié)果中召回率較方法+提升了5.56%,說明特征融合模塊的添加對漏檢現(xiàn)象優(yōu)化明顯;c)方法+ + +將特征提取主干生成的特征圖不進(jìn)行不同分辨率之間的融合,去除了特征融合模塊直接將其作為特征加固模塊的輸入,其實(shí)驗(yàn)結(jié)果中,準(zhǔn)確率較方法+提升了2.71%,說明特征加固模塊的添加使模型檢測的正確性得到優(yōu)化。

5.3 實(shí)驗(yàn)結(jié)果可視化

5.3.1 本文方法

為使可視化更直觀,圖8中的結(jié)果都是從原圖大小的圖像中截取出的部分結(jié)果,其文字區(qū)域在原圖中所占比例非常小,實(shí)驗(yàn)結(jié)果可視化直觀地展現(xiàn)出了本文方法的性能。當(dāng)處于復(fù)雜的自然場景下時,遠(yuǎn)處較小的漢字也能夠被準(zhǔn)確定位,體現(xiàn)了模型的準(zhǔn)確性;且當(dāng)文字部分存在部分遮擋時,該模型仍實(shí)現(xiàn)了漢字區(qū)域的檢測,呈現(xiàn)出較好的魯棒性。

5.3.2 對比方法

圖9是對比實(shí)驗(yàn)可視化結(jié)果,為了突出本文方法在定位不同尺寸漢字時的優(yōu)越性能,選用不同尺寸的漢字目標(biāo)來進(jìn)行實(shí)驗(yàn)結(jié)果可視化分析,左圖代表中型漢字,其文字邊界長度在原圖中為80像素左右;右圖代表小型漢字,其文字邊界長度在原圖中為30像素左右。通過對比不同方法的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),CTPN模型由于只能實(shí)現(xiàn)水平方向的檢測,在面對自然場景中的傾斜文本時其檢測效果不佳,且受其anchor大小的限制導(dǎo)致其在定位小型文本時效果也不甚理想;SegLink模型在CTPN模型的基礎(chǔ)上增加了角度的檢測,可以實(shí)現(xiàn)傾斜文本的檢測,但由于其字符連接機(jī)制的限制,導(dǎo)致對漢字字符定位的效果不穩(wěn)定,對小型漢字檢測的效果也欠佳;EAST模型在英文數(shù)據(jù)集中利用不同尺度特征合并可以檢測不同尺度的文本,既能實(shí)現(xiàn)單詞級別的檢測也可以實(shí)現(xiàn)文本行的檢測,但其在中文數(shù)據(jù)集中表現(xiàn)欠佳,存在一定不足;PSENet模型在各方面的表現(xiàn)較其他對比方法更穩(wěn)定,但處于復(fù)雜場景中時也容易出現(xiàn)小字符定位不準(zhǔn)和遺漏的問題;本文方法更注重字符級特征,當(dāng)字符存在部分遮擋時仍能定位到字符區(qū)域,魯棒性與準(zhǔn)確性更強(qiáng)。通過以上對比,說明本文提出的文字密度圖與多級并行連接網(wǎng)絡(luò)相結(jié)合的模型結(jié)構(gòu),在中文自然場景字符級檢測任務(wù)中展現(xiàn)了優(yōu)越性能。

6 結(jié)束語

本文提出并介紹了一種基于高斯密度圖估計的自然場景漢字檢測模型,對自然場景中環(huán)境復(fù)雜、小尺寸文本漏檢率較高的問題,將文字密度估計方法與深度網(wǎng)絡(luò)特征融合相結(jié)合,添加特征融合模塊加強(qiáng)網(wǎng)絡(luò)對細(xì)節(jié)信息的捕捉能力,添加特征加固模塊提高文字密度圖局部相關(guān)性。實(shí)驗(yàn)表明,該方法在處理漢字檢測問題時較傳統(tǒng)方法更自由、更準(zhǔn)確,且能更好地應(yīng)對自然場景中小型文本的檢測問題。同時,該方法也有值得改進(jìn)之處,在后處理方面可以進(jìn)一步加強(qiáng),在實(shí)現(xiàn)字符級檢測的同時實(shí)現(xiàn)對文本行的準(zhǔn)確檢測,并可將該成果應(yīng)用于其他任務(wù)場景的檢測。

參考文獻(xiàn):

[1] "白志程,李擎,陳鵬,等.自然場景文本檢測技術(shù)研究綜述[J].工程科學(xué)學(xué)報,2020, 42 (11):1433-1448. (Bai Zhicheng,Li Qing,Chen Peng, et al .Text detection in natural scenes:a literature review[J]. Chinese Journal of Engineering, 2020, 42 (11):1433-1448.)

[2] 張正夫.基于深度學(xué)習(xí)的場景文字檢測與識別方法研究[D].深圳:中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進(jìn)技術(shù)研究院),2020. (Zhang Zhengfu.Deep learning based methods research on scene text detection and recognition[D].Shenzhen:University of Chinese Academy of Sciences(Shenzhen Institutes of Advanced Technology Chinese Academy of Sciences),2020.)

[3] Epshtein B,Ofek E,Wexler Y.Detecting text in natural scenes with stroke width transform[C]//Proc of IEEE Computer Society Confe-rence on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2010:2963-2970.

[4] Donoser M,Bischof H.Efficient maximally stable extremal region(MSER) tracking[C]//Proc of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2006:553-560.

[5] Tian Zhi,Huang Weilin,He Tong, et al .Detecting text in natural image with connectionist text proposal network[C]//Proc of European Conference on Computer Vision.Cham:Springer,2016:56-72.

[6] Liao Minghui,Shi Baoguang,Bai Xiang, et al .TextBoxes:a fast text detector with a single deep neural network[C]//Proc of the 31st AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017.

[7] He Tong,Huang Weilin,Qiao Yu, et al .Accurate text localization in natural image with cascaded convolutional text network[EB/OL]. (2016-03-31).https://arxiv.org/pdf/1603.09423.pdf.

[8] Deng Dan,Liu Haifeng,Li Xuelong, et al .PixelLink:detecting scene text via instance segmentation[EB/OL]. (2018-01-04).https://arxiv.org/pdf/1801.01315.pdf.

[9] Yang Qiangpeng,Cheng Mengli,Zhou Wengmeng, et al .IncepText:a new inception-text module with deformable PSROI pooling for multi-oriented scene text detection[C]//Proc of the 27th International Joint Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:1071-1077.

[10] 代文征,楊勇.基于改進(jìn)高斯—拉普拉斯算子的噪聲圖像邊緣檢測方法[J].計算機(jī)應(yīng)用研究,2019, 36 (8):2544-2547,2555. (Dai Wenzheng,Yang Yong.Noise image edge detection based on improved Gauss-Laplacian operator[J]. Application Research of Computers ,2019, 36 (8):2544-2547,2555.)

[11] 王振武,何關(guān)瑤.核函數(shù)選擇方法研究[J].湖南大學(xué)學(xué)報:自然科學(xué) 版,2018, 45 (10):155-160. (Wang Zhenwu,He Guanyao.Research on selection method of kernel function[J]. Journal of Hunan University:Natural Sciences ,2018, 45 (10):155-160.)

[12] 羅時婷,顧磊.基于深度神經(jīng)網(wǎng)絡(luò)損失函數(shù)融合的文本檢測[J].計算機(jī)工程與應(yīng)用,2020, 56 (16):90-96. (Luo Shiting,Gu Lei.Text detection based on depth neural network loss function fusion[J]. Computer Engineering and Applications ,2020, 56 (16):90-96.)

[13] Zeng Lingke,Xu Xiangmin,Cai Bolun, et al .Multi-scale convolutional neural networks for crowd counting[C]//Proc of IEEE International Conference on Image Processing.Piscataway,NJ:IEEE Press,2017:465-469.

[14] Zhang Lu,Dai Ju,Lu Huchuan, et al .A bi-directional message passing model for salient object detection[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:1741-1750

[15] Zhao Hang,Gallo O,F(xiàn)rosio I, et al .Loss functions for image restoration with neural networks[J]. IEEE Trans on Computational Imaging, 2016, 3 (1):47-57

[16] Yuan Tailing,Zhu Zhe,Xu Kun, et al .A large Chinese text dataset in the wild[J]. Journal of Computer Science and Technology ,2019, 34 (3):509-521.

[17] Van Pham K,Lee G S.Robust text detection in natural scene images[C]//Proc of the 29th Australasian Joint Conference on Artificial Intelligence.Cham:Springer,2016:720-725.

[18] Shi Baoguang,Bai Xiang,Belongie S.Detecting oriented text in natural images by linking segments[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Computer Society,2017:2550-2558.

[19] Zhou Xinyu,Yao Cong,Wen He, et al .EAST:an efficient and accurate scene text detector[EB/OL].(2017-07-10).https://arxiv.org/pdf/1704.03155v2.pdf.

[20] Wang Wenhai,Xie Enze,Li Xiang, et al .Shape robust text detection with progressive scale expansion network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Washington DC:IEEE Press,2019:9336-9345.

主站蜘蛛池模板: 国产亚洲精久久久久久久91| 欧美影院久久| 精品综合久久久久久97| 99re在线免费视频| 久久精品欧美一区二区| 久久人妻xunleige无码| 无码免费视频| 国产无码精品在线播放| 亚洲第一天堂无码专区| 一本大道香蕉中文日本不卡高清二区| 欧美日韩在线亚洲国产人| 99re在线观看视频| 中文字幕有乳无码| 成人在线观看不卡| 日韩欧美国产另类| 中国一级特黄视频| 伊人久久大香线蕉aⅴ色| 国产成人综合亚洲欧美在| 国产sm重味一区二区三区| 综合色在线| 国产老女人精品免费视频| 精品综合久久久久久97超人| 91午夜福利在线观看精品| 成年人免费国产视频| 五月天香蕉视频国产亚| 亚洲欧美国产视频| 欧美综合区自拍亚洲综合绿色 | 成人国产免费| 一级黄色网站在线免费看| 99er精品视频| 国产精品三级专区| 久久国产黑丝袜视频| 欧美区在线播放| 亚洲第一极品精品无码| 亚洲天堂免费| 成人在线综合| 找国产毛片看| 性视频久久| 亚洲第一色网站| 中文字幕久久亚洲一区| 免费女人18毛片a级毛片视频| 国产一区二区免费播放| 国产乱子伦一区二区=| 国产精品私拍在线爆乳| 国产91麻豆视频| 尤物亚洲最大AV无码网站| 91精品国产丝袜| 97久久人人超碰国产精品| 久久不卡精品| 激情六月丁香婷婷| 国产jizz| 国产三级国产精品国产普男人 | 暴力调教一区二区三区| 国产玖玖视频| 极品私人尤物在线精品首页| 美美女高清毛片视频免费观看| 欧美日韩另类在线| 国产在线观看人成激情视频| 成人91在线| 亚洲天堂777| 亚洲v日韩v欧美在线观看| 丰满的熟女一区二区三区l| 久一在线视频| 中文字幕首页系列人妻| 蜜桃视频一区| 日韩在线成年视频人网站观看| 久久精品视频一| 四虎在线高清无码| 丁香六月激情综合| 国产成人精品一区二区三区| 亚洲AⅤ综合在线欧美一区| 亚洲无码37.| 日韩少妇激情一区二区| 91无码国产视频| 亚洲va欧美ⅴa国产va影院| 国产成人1024精品| 热伊人99re久久精品最新地| 国产精品hd在线播放| 91精品国产福利| h网址在线观看| 欧美午夜性视频| 日本三区视频|