999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于十字感受野網(wǎng)絡(luò)的場景文本檢測

2021-06-09 05:59:02趙朝陽杜曉杰張振清劉松巖郭海云王金橋
無線電通信技術(shù) 2021年3期
關(guān)鍵詞:深度文本實驗

趙 旭,趙朝陽,杜曉杰,2,張振清,劉松巖,郭海云,唐 明,2,王金橋,2

(1.中國科學(xué)院自動化研究所,北京100190;2.中國科學(xué)院大學(xué),北京100049;3.鐵道警察學(xué)院,河南 鄭州450053;4.云南大學(xué) 信息學(xué)院,云南 昆明650504)

0 引言

場景文本檢測一般是指將文本目標(biāo)按矩形框或傾斜矩形框的形式定位出來,是文本識別的前序步驟。主流的場景文本檢測算法采用面向圖像分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)。本文認為,由于文本形狀的特殊性,現(xiàn)有方法所采用的主干網(wǎng)絡(luò)結(jié)構(gòu)并不適用于場景文本檢測任務(wù)。

一方面,圖像分類任務(wù)中的物體一般不會像文本有極大的寬高比。因此,圖像分類網(wǎng)絡(luò)的卷積核一般是方形的,例如3×3大小。在文本檢測任務(wù)中,目標(biāo)往往占據(jù)一塊寬高比懸殊的狹長區(qū)域。這時,直接沿用方形卷積核在神經(jīng)網(wǎng)絡(luò)的理論感受野中引入了背景噪聲,也會加大有效感受野[1]的收斂難度。

另一方面,圖像分類網(wǎng)絡(luò)一般層數(shù)越深準(zhǔn)確率越高[2-4],而本文認為由于文本目標(biāo)的小尺寸特點,網(wǎng)絡(luò)深度不宜過大,避免形成遠大于目標(biāo)尺寸的感受野。此外,文本檢測網(wǎng)絡(luò)的淺層網(wǎng)絡(luò)層的寬度應(yīng)該足夠?qū)捯匀菁{文本豐富的表觀特征。

基于上述分析,提出了面向文本檢測的十字感受野網(wǎng)絡(luò)(CrossNet),有效提高了文本檢測性能。

1 十字感受野網(wǎng)絡(luò)

十字感受野網(wǎng)絡(luò)(CrossNet)是一種根據(jù)文本檢測任務(wù)特點設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu),可以整合進任何現(xiàn)有的文本檢測方法中。本節(jié)對其搭建細節(jié)進行了闡述。

1.1 十字感受野模塊

為了處理文本檢測的目標(biāo)形狀與主干網(wǎng)絡(luò)感受野不匹配的問題,本文提出了采用不同寬高比的矩形卷積核來搭建網(wǎng)絡(luò)的基礎(chǔ)模塊,然后通過堆疊該基礎(chǔ)模塊組合成具備合適感受野的主干網(wǎng)絡(luò),優(yōu)化文本檢測器的性能。本文提出的基礎(chǔ)模塊為十字感受野模塊(Cross-Receptive-Field Block,CrossRecepBlock),其結(jié)構(gòu)如圖1所示。模塊內(nèi)包含3個分支通路:一個跨層連接和兩個由不同矩形卷積核(分別是3×1和1×3)開始的分支通路。通過堆疊CrossRecepBlock,可使神經(jīng)網(wǎng)絡(luò)通過選擇不同模塊的不同分支組合成多種感受野形狀。

圖1展示了3個面向神經(jīng)網(wǎng)絡(luò)不同位置的CrossRecepBlock。CrossRecepBlock-A是一般形式,CrossRecepBlock-B用來將特征圖進行寬、高維度的降采樣,來獲得更大的感受野,CrossRecepBlock-C用來增加輸出特征圖的通道數(shù)。

(a) 殘差模塊 (b) 十字感受野模塊-A (c) 十字感受野模塊-B (d) 十字感受野模塊-C圖1 CrossRecepBlock結(jié)構(gòu)示意圖Fig.1 Proposed CrossRecepBlock

1.2 網(wǎng)絡(luò)深度和寬度

本文認為分類網(wǎng)絡(luò)中常用的深度、寬度設(shè)置并不十分適用于文本目標(biāo)檢測任務(wù),有如下兩點。

第一,用于文本檢測任務(wù)的神經(jīng)網(wǎng)絡(luò)的深度不宜過深。在場景文本大多數(shù)目標(biāo)都是小目標(biāo),即高度較小。適當(dāng)深的網(wǎng)絡(luò)層數(shù)可提高網(wǎng)絡(luò)所提取特征的語義強度,而過于深的網(wǎng)絡(luò)意味著較大的理論感受野,也意味著引入了過多的背景噪聲來傷害最終的檢測性能。實際上,一些文本檢測[3,5-6]中的實驗也表明了在主干網(wǎng)絡(luò)從ResNet-50變?yōu)镽esNet-101后,準(zhǔn)確率并不提高。此外,在感受野較小的前幾個網(wǎng)絡(luò)階段(Stage)設(shè)置更多的層數(shù)有利于小文本目標(biāo)的檢測。

第二,網(wǎng)絡(luò)寬度就是每一層的通道數(shù)目,應(yīng)該設(shè)置得足夠大,特別是低層。網(wǎng)絡(luò)的寬度與網(wǎng)絡(luò)對樣本變化的容量正相關(guān)。而場景文本通常在字體、顏色以及排版等底層特征上變化比較豐富。因而網(wǎng)絡(luò)需要有足夠的容量來處理這些變化。

1.3 CrossNet的結(jié)構(gòu)細節(jié)

根據(jù)上兩節(jié)的思考,本節(jié)搭建了針對文本檢測任務(wù)的主干網(wǎng)絡(luò)CrossNet,詳細的網(wǎng)絡(luò)的結(jié)構(gòu)如表1所示。和ResNet的構(gòu)成方式類似,CrossNet由CrossRecepBlock堆疊而來。CrossNet在輸入側(cè)有兩個普通的卷積,用來將特征圖空間分辨率下采樣到原圖邊長1/4大小,在這兩個卷積之后有8個CrossRecepBlock。

表1 CrossNet 網(wǎng)絡(luò)結(jié)構(gòu)示意

初始的兩個卷積使得圖像分辨率快速縮小,為了能保留更多細節(jié)信息,參考了AlexNet[7]和ResNet[4]中的設(shè)置,第一個卷積的卷積核采用了7×7大小。CrossNet在第一層卷積后采用了跨度為2的卷積層來進行下采樣以保持更多細節(jié)。根據(jù)上面對于網(wǎng)絡(luò)深度和寬度的討論,4個網(wǎng)絡(luò)階段中CrossRecepBlock的數(shù)量設(shè)置為3、2、2、1。

1.4 基于CrossNet的文本檢測算法

為了驗證本文提出的CrossNet有效性,本節(jié)選取了當(dāng)前性能較高的EAST算法,并用CrossNet作為EAST的主干網(wǎng)絡(luò),和其他主干網(wǎng)絡(luò)對比,說明其有效性。圖2展示了基于CrossNet的EAST算法,EAST算法是一種基于分割的場景文本檢測算法,其在多個數(shù)據(jù)集上都有不錯的表現(xiàn)。FOTS[8]的工作更是表明,通過豐富的數(shù)據(jù)擴增、大尺度訓(xùn)練圖像尺寸等多種策略,EAST算法可以達到遠超其他算法的最優(yōu)水平。本文的主干網(wǎng)絡(luò)和這些策略是兼容的。

圖2 基于CrossNet的EAST算法結(jié)構(gòu)示意圖Fig.2 CrossNet based EAST text detector

EAST方法在主干網(wǎng)絡(luò)之后添加了一個類似于特征金字塔結(jié)構(gòu)(Feature Pyramid Networks,FPN)的模塊,用于將不同層的信息進行融合。最后在融合后的最大空間分辨率特征圖上,輸出分類和回歸兩個任務(wù)的預(yù)測結(jié)果。

2 實驗結(jié)果與分析

2.1 數(shù)據(jù)集及實驗設(shè)置

本節(jié)在ICDAR2015數(shù)據(jù)集[9]上進行了實驗。各個模型采用了統(tǒng)一的超參數(shù)設(shè)置。所有模型均在ICDAR2015和ICDAR2013的訓(xùn)練圖像上訓(xùn)練,在ICDAR2015的測試圖像上測試。除非額外說明,本節(jié)的實驗均是將網(wǎng)絡(luò)權(quán)重隨機初始化后,從頭開始訓(xùn)練的。

2.2 關(guān)鍵策略的有效性分析

為了驗證CrossNet設(shè)計思路的有效性,在ICDAR2015上,對基于CrossNet的EAST的算法的各種結(jié)構(gòu)變種做了一系列對比實驗。同時,也對比了基于ResNet-50的EAST算法。

基礎(chǔ)對比:表2對比了基于CrossNet的EAST文本檢測器和基于ResNet-50的EAST文本檢測器的性能。由表2可以看出,在參數(shù)量大致相同的情況下,CrossNet比ResNet-50提高了8.36%的準(zhǔn)確率。為了對比FLOPS一致情況下的性能,將CrossNet每一層的通道數(shù)降為原通道數(shù)的1/2,得到0.5CrossNet。實驗結(jié)果表明,0.5CrossNet依舊比ResNet-50高出3.86%,可見,CrossNet的結(jié)構(gòu)在FLOPS和ResNet-50大致相同、參數(shù)量遠小于ResNet-50的情況下,依然有明顯的優(yōu)勢。這主要是由于本文提出的CrossRecepBlock使得網(wǎng)絡(luò)可以學(xué)到更貼合文本區(qū)域的有效感受野,并且CrossNet有著更合理的深度、寬度設(shè)置,如圖1所示。

表2 ICDAR2015數(shù)據(jù)集上,采用不同的主干網(wǎng)絡(luò)的評測結(jié)果比較

CrossRecepBlock對比:表3單獨驗證了CrossRecepBlock的作用。CrossRecepBlock中,最重要的部分是兩個由矩形卷積核(3×1和1×3)的卷積分別開頭的通路分支。這也是它和ResNet網(wǎng)絡(luò)基礎(chǔ)模塊的區(qū)別。因而,將矩形卷積改成1×1的卷積,將這兩個分支替換為ResNet的1×1-3×3-1×1單分支,同時保持每一層的通道數(shù)和對應(yīng)的CrossRecepBlock一致,形成用殘差網(wǎng)絡(luò)基本模塊搭建的CrossNet-ResNet’,來對比兩種模塊的性能。由于0.5CrossNet在FLOPS上和ResNet-50更接近,并且顯存占用和速度上更高效,本組實驗采用了0.5CrossNet進行修改和對比。實驗結(jié)果表明,0.5CrossNet+ResBlock’比0.5CrossNet低了2.16%,而二者的參數(shù)量和FLOPS相似。所以,CrossRecepBlock中的矩形卷積核在文本檢測主干網(wǎng)絡(luò)中十分重要。

表3 ICDAR2015 上,采用不同基礎(chǔ)模塊搭建主干網(wǎng)絡(luò)的評測結(jié)果比較

網(wǎng)絡(luò)深度對比:表4驗證了上文中關(guān)于文本檢測主干網(wǎng)絡(luò)的深度不必要太深的觀點,并列舉了 CrossNet和ResNet不同深度時的檢測性能。為了避免顯存不足,本組實驗將ResNet和CrossNet的每層通道數(shù)砍至原網(wǎng)絡(luò)1/4、1/2進行實驗。首先,0.5CrossNet-double-D是把0.5CrossNet的每個網(wǎng)絡(luò)階段的CrossRecepBlock數(shù)翻倍,使得網(wǎng)絡(luò)總深度也翻倍。由此可以看出,深度翻倍后,F(xiàn)-score略有提高,但是相對CrossNet比0.5CrossNet的提高要少很多。

為了說明結(jié)論的一般性,表4在ResNet上進行了對比實驗。其中,0.25ResNet-50-half-D代表將0.25ResNet的每個網(wǎng)絡(luò)階段的模塊數(shù)砍一半后得到的網(wǎng)絡(luò),該網(wǎng)絡(luò)相對0.25ResNet-50有略微降低,但也不多,和CrossNet上的結(jié)論類似。而繼續(xù)將0.25ResNet的每個網(wǎng)絡(luò)階段的模塊數(shù)翻倍,得到0.25ResNet-50-double-D,實驗結(jié)果表明,深度變深后,F(xiàn)-score反而有很明顯的降低。為了說明這不是由于每個網(wǎng)絡(luò)階段的模塊數(shù)配置不合理導(dǎo)致的,本文還評測了參數(shù)量和深度與0.25ResNet-50-double-D差不多的0.25ResNet-101網(wǎng)絡(luò),0.25ResNet-101比0.25ResNet-50-double-D略好,但仍比0.25ResNet-50差。并且,需要指出,這不是由于參數(shù)量大帶來的過擬合導(dǎo)致的,因為ResNet-50、CrossNet比本組實驗的100層左右的網(wǎng)絡(luò)(0.25ResNet-50-double-D,0.25ResNet-101)參數(shù)量大很多,但是有著遠遠高于這些網(wǎng)絡(luò)的評測得分。

表4 ICDAR2015 數(shù)據(jù)集上,采用不同的主干網(wǎng)絡(luò)深度的評測結(jié)果比較

網(wǎng)絡(luò)寬度對比:由表5可以看出,不管是CrossNet結(jié)構(gòu)還是ResNet結(jié)構(gòu),增大網(wǎng)絡(luò)寬度(即網(wǎng)絡(luò)每層特征圖通道數(shù))可以明顯增強檢測器性能。

表5 WICDAR2015 數(shù)據(jù)集上,采用不同的主干網(wǎng)絡(luò)寬度的評測結(jié)果比較

2.3 與其他算法的準(zhǔn)確率比較與分析

本節(jié)在ICDAR2015數(shù)據(jù)集上將基于CrossNet的文本檢測算法和當(dāng)前最優(yōu)算法進行對比。為了進一步提高性能,還將主干網(wǎng)絡(luò)CrossNet在ImageNet上進行了預(yù)訓(xùn)練。

基于不同主干網(wǎng)絡(luò)的EAST算法在ICDAR2015數(shù)據(jù)集上的評測結(jié)果如表6所示,可以看出在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練之后再在文本檢測數(shù)據(jù)集ICDAR2015上訓(xùn)練的模型EAST-CrossNet-Pretrain達到了82.5%的F-score。這表明,盡管CrossNet不是針對分類任務(wù)設(shè)計的,在ImageNet上預(yù)訓(xùn)練依然可使其獲得更好的初始化權(quán)重,相比隨機初始化提升了4.23%。值得一提的是CrossNet可以用在其他任何文本檢測框架中,表6中所有基于深度學(xué)習(xí)的方法都可以將其主干網(wǎng)絡(luò)替換為專門針對文本檢測任務(wù)設(shè)計的CrossNet來獲得進一步提高。

表6 ICDAR2015數(shù)據(jù)集上,多種方法的評測結(jié)果比較

2.4 可視化分析

圖3對比了基于CrossNet的EAST[11]文本檢測算法和基于ResNet-50的EAST算法各自訓(xùn)練完畢后形成的有效感受野。其中,有效感受野是指在網(wǎng)絡(luò)預(yù)測層上對應(yīng)原圖紅點位置處的有效感受野,可視化采用了文獻[13]的方法。有效感受野利用文獻[13]的方法進行可視化。通過圖3可以看出,基于CrossNet的EAST方法感受野比基于ResNet-50的EAST方法的感受野更好地聚焦在文字區(qū)域上。

圖3 基于ResNet-50和CrossNet時的兩種EAST方法有效感受野對比Fig.3 Visualization of effective receptive fields of EAST based on ResNet-50 and the proposed CrossNet respectively

3 結(jié)束語

本文提出了一種針對文本檢測任務(wù)設(shè)計的主干網(wǎng)絡(luò)結(jié)構(gòu),即CrossNet。首先設(shè)計了CrossNet的基礎(chǔ)模塊“CrossRecepBlock”。 CrossRecepBlock包含3個卷積通路,其中兩個通路中包含了不同形狀的矩形卷積核的卷積層,通過堆疊此模塊,可以使搭建的主干網(wǎng)絡(luò)形成更貼合文本區(qū)域的感受野。之后討論了關(guān)于文本檢測主干網(wǎng)絡(luò)的寬度和深度的設(shè)置策略,發(fā)現(xiàn)主干網(wǎng)絡(luò)應(yīng)該足夠?qū)挼灰颂睢;谏鲜鰞煞N策略,搭建了CrossNet。實驗結(jié)果表明,CrossNet相比當(dāng)前普遍采用的針對圖像分類任務(wù)設(shè)計的主干網(wǎng)絡(luò)更適合文本目標(biāo)檢測任務(wù),在同等參數(shù)量或同等計算量條件下均比圖像分類網(wǎng)絡(luò)有顯著的準(zhǔn)確率提升。

猜你喜歡
深度文本實驗
記一次有趣的實驗
深度理解一元一次方程
在808DA上文本顯示的改善
做個怪怪長實驗
深度觀察
深度觀察
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
深度觀察
NO與NO2相互轉(zhuǎn)化實驗的改進
實踐十號上的19項實驗
太空探索(2016年5期)2016-07-12 15:17:55
主站蜘蛛池模板: 啪啪国产视频| 狠狠干欧美| 日本精品视频| 一级香蕉视频在线观看| 日本五区在线不卡精品| 伊人久久久大香线蕉综合直播| 免费毛片a| 日韩毛片在线播放| 亚洲Av激情网五月天| 高清免费毛片| 人妻丝袜无码视频| 国产成人你懂的在线观看| 伊人国产无码高清视频| 中国丰满人妻无码束缚啪啪| 成年A级毛片| 无码国产伊人| 97视频免费在线观看| 又爽又大又黄a级毛片在线视频| 国产成人亚洲精品蜜芽影院| 亚洲日韩精品欧美中文字幕| 免费 国产 无码久久久| 欧美日韩国产精品综合| 久久精品人人做人人爽电影蜜月| 亚洲久悠悠色悠在线播放| 精品無碼一區在線觀看 | 国产欧美日韩另类精彩视频| 国产三级视频网站| 在线日韩一区二区| 黄色一及毛片| 88av在线| 超清无码一区二区三区| 8090午夜无码专区| 国产福利在线免费观看| 亚洲精品手机在线| 理论片一区| 亚洲一区二区黄色| 精品国产自在在线在线观看| 国产成人综合在线视频| 国产免费观看av大片的网站| 手机成人午夜在线视频| 在线永久免费观看的毛片| 久久久久久尹人网香蕉| 欧美日韩一区二区三| 最近最新中文字幕在线第一页 | 中文字幕天无码久久精品视频免费| 亚洲成网站| 亚洲另类第一页| 日韩国产精品无码一区二区三区| 国产成人av大片在线播放| 亚洲高清无码久久久| 国产精品冒白浆免费视频| 国产91丝袜| 999在线免费视频| 九九久久精品免费观看| 国产在线97| a毛片免费看| 亚洲综合专区| 亚洲国产看片基地久久1024| 亚洲伊人电影| 欧美黑人欧美精品刺激| 欧美翘臀一区二区三区| 欧美国产日韩在线观看| 精品伊人久久久大香线蕉欧美 | 国产成人精品免费av| 国产精品自在在线午夜| 91福利在线看| 99爱视频精品免视看| 97se亚洲综合在线韩国专区福利| 亚洲无限乱码一二三四区| 被公侵犯人妻少妇一区二区三区| 欧美爱爱网| 欧美午夜在线观看| 亚洲三级成人| 国产99热| 亚洲人成影院在线观看| 亚洲视频无码| 日韩精品成人在线| 国产成人精品无码一区二| 国产精品亚洲天堂| av一区二区三区高清久久| 国产微拍一区二区三区四区| 91po国产在线精品免费观看|