基于十字感受野網(wǎng)絡(luò)的場景文本檢測

2021-06-09 05:59:02趙朝陽杜曉杰張振清劉松巖郭海云王金橋

無線電通信技術(shù) 2021年3期

趙旭，趙朝陽，杜曉杰,2，張振清，劉松巖，郭海云，唐明,2，王金橋,2

(1.中國科學(xué)院自動化研究所，北京100190;2.中國科學(xué)院大學(xué)，北京100049；3.鐵道警察學(xué)院，河南鄭州450053；4.云南大學(xué) 信息學(xué)院,云南昆明650504)

0 引言

場景文本檢測一般是指將文本目標(biāo)按矩形框或傾斜矩形框的形式定位出來，是文本識別的前序步驟。主流的場景文本檢測算法采用面向圖像分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)。本文認為，由于文本形狀的特殊性，現(xiàn)有方法所采用的主干網(wǎng)絡(luò)結(jié)構(gòu)并不適用于場景文本檢測任務(wù)。

一方面，圖像分類任務(wù)中的物體一般不會像文本有極大的寬高比。因此，圖像分類網(wǎng)絡(luò)的卷積核一般是方形的，例如3×3大小。在文本檢測任務(wù)中，目標(biāo)往往占據(jù)一塊寬高比懸殊的狹長區(qū)域。這時，直接沿用方形卷積核在神經(jīng)網(wǎng)絡(luò)的理論感受野中引入了背景噪聲，也會加大有效感受野[1]的收斂難度。

另一方面，圖像分類網(wǎng)絡(luò)一般層數(shù)越深準(zhǔn)確率越高[2-4]，而本文認為由于文本目標(biāo)的小尺寸特點，網(wǎng)絡(luò)深度不宜過大，避免形成遠大于目標(biāo)尺寸的感受野。此外，文本檢測網(wǎng)絡(luò)的淺層網(wǎng)絡(luò)層的寬度應(yīng)該足夠?qū)捯匀菁{文本豐富的表觀特征。

基于上述分析，提出了面向文本檢測的十字感受野網(wǎng)絡(luò)(CrossNet)，有效提高了文本檢測性能。

1 十字感受野網(wǎng)絡(luò)

十字感受野網(wǎng)絡(luò)(CrossNet)是一種根據(jù)文本檢測任務(wù)特點設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu)，可以整合進任何現(xiàn)有的文本檢測方法中。本節(jié)對其搭建細節(jié)進行了闡述。

1.1 十字感受野模塊

為了處理文本檢測的目標(biāo)形狀與主干網(wǎng)絡(luò)感受野不匹配的問題，本文提出了采用不同寬高比的矩形卷積核來搭建網(wǎng)絡(luò)的基礎(chǔ)模塊，然后通過堆疊該基礎(chǔ)模塊組合成具備合適感受野的主干網(wǎng)絡(luò)，優(yōu)化文本檢測器的性能。本文提出的基礎(chǔ)模塊為十字感受野模塊(Cross-Receptive-Field Block,CrossRecepBlock)，其結(jié)構(gòu)如圖1所示。模塊內(nèi)包含3個分支通路：一個跨層連接和兩個由不同矩形卷積核(分別是3×1和1×3)開始的分支通路。通過堆疊CrossRecepBlock，可使神經(jīng)網(wǎng)絡(luò)通過選擇不同模塊的不同分支組合成多種感受野形狀。

圖1展示了3個面向神經(jīng)網(wǎng)絡(luò)不同位置的CrossRecepBlock。CrossRecepBlock-A是一般形式，CrossRecepBlock-B用來將特征圖進行寬、高維度的降采樣，來獲得更大的感受野，CrossRecepBlock-C用來增加輸出特征圖的通道數(shù)。

(a) 殘差模塊 (b) 十字感受野模塊-A (c) 十字感受野模塊-B (d) 十字感受野模塊-C圖1 CrossRecepBlock結(jié)構(gòu)示意圖Fig.1 Proposed CrossRecepBlock

1.2 網(wǎng)絡(luò)深度和寬度

本文認為分類網(wǎng)絡(luò)中常用的深度、寬度設(shè)置并不十分適用于文本目標(biāo)檢測任務(wù)，有如下兩點。

第一，用于文本檢測任務(wù)的神經(jīng)網(wǎng)絡(luò)的深度不宜過深。在場景文本大多數(shù)目標(biāo)都是小目標(biāo)，即高度較小。適當(dāng)深的網(wǎng)絡(luò)層數(shù)可提高網(wǎng)絡(luò)所提取特征的語義強度，而過于深的網(wǎng)絡(luò)意味著較大的理論感受野，也意味著引入了過多的背景噪聲來傷害最終的檢測性能。實際上，一些文本檢測[3,5-6]中的實驗也表明了在主干網(wǎng)絡(luò)從ResNet-50變?yōu)镽esNet-101后，準(zhǔn)確率并不提高。此外，在感受野較小的前幾個網(wǎng)絡(luò)階段(Stage)設(shè)置更多的層數(shù)有利于小文本目標(biāo)的檢測。

第二，網(wǎng)絡(luò)寬度就是每一層的通道數(shù)目，應(yīng)該設(shè)置得足夠大，特別是低層。網(wǎng)絡(luò)的寬度與網(wǎng)絡(luò)對樣本變化的容量正相關(guān)。而場景文本通常在字體、顏色以及排版等底層特征上變化比較豐富。因而網(wǎng)絡(luò)需要有足夠的容量來處理這些變化。

1.3 CrossNet的結(jié)構(gòu)細節(jié)

根據(jù)上兩節(jié)的思考，本節(jié)搭建了針對文本檢測任務(wù)的主干網(wǎng)絡(luò)CrossNet，詳細的網(wǎng)絡(luò)的結(jié)構(gòu)如表1所示。和ResNet的構(gòu)成方式類似，CrossNet由CrossRecepBlock堆疊而來。CrossNet在輸入側(cè)有兩個普通的卷積，用來將特征圖空間分辨率下采樣到原圖邊長1/4大小，在這兩個卷積之后有8個CrossRecepBlock。

表1 CrossNet 網(wǎng)絡(luò)結(jié)構(gòu)示意

初始的兩個卷積使得圖像分辨率快速縮小，為了能保留更多細節(jié)信息，參考了AlexNet[7]和ResNet[4]中的設(shè)置，第一個卷積的卷積核采用了7×7大小。CrossNet在第一層卷積后采用了跨度為2的卷積層來進行下采樣以保持更多細節(jié)。根據(jù)上面對于網(wǎng)絡(luò)深度和寬度的討論，4個網(wǎng)絡(luò)階段中CrossRecepBlock的數(shù)量設(shè)置為3、2、2、1。

1.4 基于CrossNet的文本檢測算法

為了驗證本文提出的CrossNet有效性，本節(jié)選取了當(dāng)前性能較高的EAST算法，并用CrossNet作為EAST的主干網(wǎng)絡(luò)，和其他主干網(wǎng)絡(luò)對比，說明其有效性。圖2展示了基于CrossNet的EAST算法，EAST算法是一種基于分割的場景文本檢測算法，其在多個數(shù)據(jù)集上都有不錯的表現(xiàn)。FOTS[8]的工作更是表明，通過豐富的數(shù)據(jù)擴增、大尺度訓(xùn)練圖像尺寸等多種策略，EAST算法可以達到遠超其他算法的最優(yōu)水平。本文的主干網(wǎng)絡(luò)和這些策略是兼容的。

圖2 基于CrossNet的EAST算法結(jié)構(gòu)示意圖Fig.2 CrossNet based EAST text detector

EAST方法在主干網(wǎng)絡(luò)之后添加了一個類似于特征金字塔結(jié)構(gòu)(Feature Pyramid Networks,FPN)的模塊，用于將不同層的信息進行融合。最后在融合后的最大空間分辨率特征圖上，輸出分類和回歸兩個任務(wù)的預(yù)測結(jié)果。

2 實驗結(jié)果與分析

2.1 數(shù)據(jù)集及實驗設(shè)置

本節(jié)在ICDAR2015數(shù)據(jù)集[9]上進行了實驗。各個模型采用了統(tǒng)一的超參數(shù)設(shè)置。所有模型均在ICDAR2015和ICDAR2013的訓(xùn)練圖像上訓(xùn)練，在ICDAR2015的測試圖像上測試。除非額外說明，本節(jié)的實驗均是將網(wǎng)絡(luò)權(quán)重隨機初始化后，從頭開始訓(xùn)練的。

2.2 關(guān)鍵策略的有效性分析

為了驗證CrossNet設(shè)計思路的有效性，在ICDAR2015上，對基于CrossNet的EAST的算法的各種結(jié)構(gòu)變種做了一系列對比實驗。同時，也對比了基于ResNet-50的EAST算法。

基礎(chǔ)對比：表2對比了基于CrossNet的EAST文本檢測器和基于ResNet-50的EAST文本檢測器的性能。由表2可以看出，在參數(shù)量大致相同的情況下，CrossNet比ResNet-50提高了8.36%的準(zhǔn)確率。為了對比FLOPS一致情況下的性能，將CrossNet每一層的通道數(shù)降為原通道數(shù)的1/2，得到0.5CrossNet。實驗結(jié)果表明，0.5CrossNet依舊比ResNet-50高出3.86%，可見，CrossNet的結(jié)構(gòu)在FLOPS和ResNet-50大致相同、參數(shù)量遠小于ResNet-50的情況下，依然有明顯的優(yōu)勢。這主要是由于本文提出的CrossRecepBlock使得網(wǎng)絡(luò)可以學(xué)到更貼合文本區(qū)域的有效感受野，并且CrossNet有著更合理的深度、寬度設(shè)置，如圖1所示。

表2 ICDAR2015數(shù)據(jù)集上，采用不同的主干網(wǎng)絡(luò)的評測結(jié)果比較

CrossRecepBlock對比：表3單獨驗證了CrossRecepBlock的作用。CrossRecepBlock中，最重要的部分是兩個由矩形卷積核(3×1和1×3)的卷積分別開頭的通路分支。這也是它和ResNet網(wǎng)絡(luò)基礎(chǔ)模塊的區(qū)別。因而，將矩形卷積改成1×1的卷積，將這兩個分支替換為ResNet的1×1-3×3-1×1單分支，同時保持每一層的通道數(shù)和對應(yīng)的CrossRecepBlock一致，形成用殘差網(wǎng)絡(luò)基本模塊搭建的CrossNet-ResNet’，來對比兩種模塊的性能。由于0.5CrossNet在FLOPS上和ResNet-50更接近，并且顯存占用和速度上更高效，本組實驗采用了0.5CrossNet進行修改和對比。實驗結(jié)果表明，0.5CrossNet+ResBlock’比0.5CrossNet低了2.16%，而二者的參數(shù)量和FLOPS相似。所以，CrossRecepBlock中的矩形卷積核在文本檢測主干網(wǎng)絡(luò)中十分重要。

表3 ICDAR2015 上，采用不同基礎(chǔ)模塊搭建主干網(wǎng)絡(luò)的評測結(jié)果比較

網(wǎng)絡(luò)深度對比：表4驗證了上文中關(guān)于文本檢測主干網(wǎng)絡(luò)的深度不必要太深的觀點，并列舉了 CrossNet和ResNet不同深度時的檢測性能。為了避免顯存不足，本組實驗將ResNet和CrossNet的每層通道數(shù)砍至原網(wǎng)絡(luò)1/4、1/2進行實驗。首先，0.5CrossNet-double-D是把0.5CrossNet的每個網(wǎng)絡(luò)階段的CrossRecepBlock數(shù)翻倍，使得網(wǎng)絡(luò)總深度也翻倍。由此可以看出，深度翻倍后，F(xiàn)-score略有提高，但是相對CrossNet比0.5CrossNet的提高要少很多。

為了說明結(jié)論的一般性，表4在ResNet上進行了對比實驗。其中,0.25ResNet-50-half-D代表將0.25ResNet的每個網(wǎng)絡(luò)階段的模塊數(shù)砍一半后得到的網(wǎng)絡(luò)，該網(wǎng)絡(luò)相對0.25ResNet-50有略微降低，但也不多，和CrossNet上的結(jié)論類似。而繼續(xù)將0.25ResNet的每個網(wǎng)絡(luò)階段的模塊數(shù)翻倍，得到0.25ResNet-50-double-D，實驗結(jié)果表明，深度變深后，F(xiàn)-score反而有很明顯的降低。為了說明這不是由于每個網(wǎng)絡(luò)階段的模塊數(shù)配置不合理導(dǎo)致的，本文還評測了參數(shù)量和深度與0.25ResNet-50-double-D差不多的0.25ResNet-101網(wǎng)絡(luò)，0.25ResNet-101比0.25ResNet-50-double-D略好，但仍比0.25ResNet-50差。并且，需要指出，這不是由于參數(shù)量大帶來的過擬合導(dǎo)致的，因為ResNet-50、CrossNet比本組實驗的100層左右的網(wǎng)絡(luò)(0.25ResNet-50-double-D，0.25ResNet-101)參數(shù)量大很多，但是有著遠遠高于這些網(wǎng)絡(luò)的評測得分。

表4 ICDAR2015 數(shù)據(jù)集上，采用不同的主干網(wǎng)絡(luò)深度的評測結(jié)果比較

網(wǎng)絡(luò)寬度對比：由表5可以看出，不管是CrossNet結(jié)構(gòu)還是ResNet結(jié)構(gòu)，增大網(wǎng)絡(luò)寬度(即網(wǎng)絡(luò)每層特征圖通道數(shù))可以明顯增強檢測器性能。

表5 WICDAR2015 數(shù)據(jù)集上，采用不同的主干網(wǎng)絡(luò)寬度的評測結(jié)果比較

2.3 與其他算法的準(zhǔn)確率比較與分析

本節(jié)在ICDAR2015數(shù)據(jù)集上將基于CrossNet的文本檢測算法和當(dāng)前最優(yōu)算法進行對比。為了進一步提高性能，還將主干網(wǎng)絡(luò)CrossNet在ImageNet上進行了預(yù)訓(xùn)練。

基于不同主干網(wǎng)絡(luò)的EAST算法在ICDAR2015數(shù)據(jù)集上的評測結(jié)果如表6所示，可以看出在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練之后再在文本檢測數(shù)據(jù)集ICDAR2015上訓(xùn)練的模型EAST-CrossNet-Pretrain達到了82.5%的F-score。這表明，盡管CrossNet不是針對分類任務(wù)設(shè)計的，在ImageNet上預(yù)訓(xùn)練依然可使其獲得更好的初始化權(quán)重，相比隨機初始化提升了4.23%。值得一提的是CrossNet可以用在其他任何文本檢測框架中，表6中所有基于深度學(xué)習(xí)的方法都可以將其主干網(wǎng)絡(luò)替換為專門針對文本檢測任務(wù)設(shè)計的CrossNet來獲得進一步提高。

表6 ICDAR2015數(shù)據(jù)集上，多種方法的評測結(jié)果比較

2.4 可視化分析

圖3對比了基于CrossNet的EAST[11]文本檢測算法和基于ResNet-50的EAST算法各自訓(xùn)練完畢后形成的有效感受野。其中，有效感受野是指在網(wǎng)絡(luò)預(yù)測層上對應(yīng)原圖紅點位置處的有效感受野，可視化采用了文獻[13]的方法。有效感受野利用文獻[13]的方法進行可視化。通過圖3可以看出，基于CrossNet的EAST方法感受野比基于ResNet-50的EAST方法的感受野更好地聚焦在文字區(qū)域上。

圖3 基于ResNet-50和CrossNet時的兩種EAST方法有效感受野對比Fig.3 Visualization of effective receptive fields of EAST based on ResNet-50 and the proposed CrossNet respectively

3 結(jié)束語

本文提出了一種針對文本檢測任務(wù)設(shè)計的主干網(wǎng)絡(luò)結(jié)構(gòu)，即CrossNet。首先設(shè)計了CrossNet的基礎(chǔ)模塊“CrossRecepBlock”。 CrossRecepBlock包含3個卷積通路，其中兩個通路中包含了不同形狀的矩形卷積核的卷積層，通過堆疊此模塊，可以使搭建的主干網(wǎng)絡(luò)形成更貼合文本區(qū)域的感受野。之后討論了關(guān)于文本檢測主干網(wǎng)絡(luò)的寬度和深度的設(shè)置策略，發(fā)現(xiàn)主干網(wǎng)絡(luò)應(yīng)該足夠?qū)挼灰颂睢；谏鲜鰞煞N策略，搭建了CrossNet。實驗結(jié)果表明，CrossNet相比當(dāng)前普遍采用的針對圖像分類任務(wù)設(shè)計的主干網(wǎng)絡(luò)更適合文本目標(biāo)檢測任務(wù)，在同等參數(shù)量或同等計算量條件下均比圖像分類網(wǎng)絡(luò)有顯著的準(zhǔn)確率提升。