趙 旭,趙朝陽,杜曉杰,2,張振清,劉松巖,郭海云,唐 明,2,王金橋,2
(1.中國科學(xué)院自動化研究所,北京100190;2.中國科學(xué)院大學(xué),北京100049;3.鐵道警察學(xué)院,河南 鄭州450053;4.云南大學(xué) 信息學(xué)院,云南 昆明650504)
場景文本檢測一般是指將文本目標(biāo)按矩形框或傾斜矩形框的形式定位出來,是文本識別的前序步驟。主流的場景文本檢測算法采用面向圖像分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)作為主干網(wǎng)絡(luò)。本文認為,由于文本形狀的特殊性,現(xiàn)有方法所采用的主干網(wǎng)絡(luò)結(jié)構(gòu)并不適用于場景文本檢測任務(wù)。
一方面,圖像分類任務(wù)中的物體一般不會像文本有極大的寬高比。因此,圖像分類網(wǎng)絡(luò)的卷積核一般是方形的,例如3×3大小。在文本檢測任務(wù)中,目標(biāo)往往占據(jù)一塊寬高比懸殊的狹長區(qū)域。這時,直接沿用方形卷積核在神經(jīng)網(wǎng)絡(luò)的理論感受野中引入了背景噪聲,也會加大有效感受野[1]的收斂難度。
另一方面,圖像分類網(wǎng)絡(luò)一般層數(shù)越深準(zhǔn)確率越高[2-4],而本文認為由于文本目標(biāo)的小尺寸特點,網(wǎng)絡(luò)深度不宜過大,避免形成遠大于目標(biāo)尺寸的感受野。此外,文本檢測網(wǎng)絡(luò)的淺層網(wǎng)絡(luò)層的寬度應(yīng)該足夠?qū)捯匀菁{文本豐富的表觀特征。
基于上述分析,提出了面向文本檢測的十字感受野網(wǎng)絡(luò)(CrossNet),有效提高了文本檢測性能。
十字感受野網(wǎng)絡(luò)(CrossNet)是一種根據(jù)文本檢測任務(wù)特點設(shè)計的網(wǎng)絡(luò)結(jié)構(gòu),可以整合進任何現(xiàn)有的文本檢測方法中。本節(jié)對其搭建細節(jié)進行了闡述。
為了處理文本檢測的目標(biāo)形狀與主干網(wǎng)絡(luò)感受野不匹配的問題,本文提出了采用不同寬高比的矩形卷積核來搭建網(wǎng)絡(luò)的基礎(chǔ)模塊,然后通過堆疊該基礎(chǔ)模塊組合成具備合適感受野的主干網(wǎng)絡(luò),優(yōu)化文本檢測器的性能。本文提出的基礎(chǔ)模塊為十字感受野模塊(Cross-Receptive-Field Block,CrossRecepBlock),其結(jié)構(gòu)如圖1所示。模塊內(nèi)包含3個分支通路:一個跨層連接和兩個由不同矩形卷積核(分別是3×1和1×3)開始的分支通路。通過堆疊CrossRecepBlock,可使神經(jīng)網(wǎng)絡(luò)通過選擇不同模塊的不同分支組合成多種感受野形狀。
圖1展示了3個面向神經(jīng)網(wǎng)絡(luò)不同位置的CrossRecepBlock。CrossRecepBlock-A是一般形式,CrossRecepBlock-B用來將特征圖進行寬、高維度的降采樣,來獲得更大的感受野,CrossRecepBlock-C用來增加輸出特征圖的通道數(shù)。

(a) 殘差模塊 (b) 十字感受野模塊-A (c) 十字感受野模塊-B (d) 十字感受野模塊-C圖1 CrossRecepBlock結(jié)構(gòu)示意圖Fig.1 Proposed CrossRecepBlock
本文認為分類網(wǎng)絡(luò)中常用的深度、寬度設(shè)置并不十分適用于文本目標(biāo)檢測任務(wù),有如下兩點。
第一,用于文本檢測任務(wù)的神經(jīng)網(wǎng)絡(luò)的深度不宜過深。在場景文本大多數(shù)目標(biāo)都是小目標(biāo),即高度較小。適當(dāng)深的網(wǎng)絡(luò)層數(shù)可提高網(wǎng)絡(luò)所提取特征的語義強度,而過于深的網(wǎng)絡(luò)意味著較大的理論感受野,也意味著引入了過多的背景噪聲來傷害最終的檢測性能。實際上,一些文本檢測[3,5-6]中的實驗也表明了在主干網(wǎng)絡(luò)從ResNet-50變?yōu)镽esNet-101后,準(zhǔn)確率并不提高。此外,在感受野較小的前幾個網(wǎng)絡(luò)階段(Stage)設(shè)置更多的層數(shù)有利于小文本目標(biāo)的檢測。
第二,網(wǎng)絡(luò)寬度就是每一層的通道數(shù)目,應(yīng)該設(shè)置得足夠大,特別是低層。網(wǎng)絡(luò)的寬度與網(wǎng)絡(luò)對樣本變化的容量正相關(guān)。而場景文本通常在字體、顏色以及排版等底層特征上變化比較豐富。因而網(wǎng)絡(luò)需要有足夠的容量來處理這些變化。
根據(jù)上兩節(jié)的思考,本節(jié)搭建了針對文本檢測任務(wù)的主干網(wǎng)絡(luò)CrossNet,詳細的網(wǎng)絡(luò)的結(jié)構(gòu)如表1所示。和ResNet的構(gòu)成方式類似,CrossNet由CrossRecepBlock堆疊而來。CrossNet在輸入側(cè)有兩個普通的卷積,用來將特征圖空間分辨率下采樣到原圖邊長1/4大小,在這兩個卷積之后有8個CrossRecepBlock。

表1 CrossNet 網(wǎng)絡(luò)結(jié)構(gòu)示意
初始的兩個卷積使得圖像分辨率快速縮小,為了能保留更多細節(jié)信息,參考了AlexNet[7]和ResNet[4]中的設(shè)置,第一個卷積的卷積核采用了7×7大小。CrossNet在第一層卷積后采用了跨度為2的卷積層來進行下采樣以保持更多細節(jié)。根據(jù)上面對于網(wǎng)絡(luò)深度和寬度的討論,4個網(wǎng)絡(luò)階段中CrossRecepBlock的數(shù)量設(shè)置為3、2、2、1。
為了驗證本文提出的CrossNet有效性,本節(jié)選取了當(dāng)前性能較高的EAST算法,并用CrossNet作為EAST的主干網(wǎng)絡(luò),和其他主干網(wǎng)絡(luò)對比,說明其有效性。圖2展示了基于CrossNet的EAST算法,EAST算法是一種基于分割的場景文本檢測算法,其在多個數(shù)據(jù)集上都有不錯的表現(xiàn)。FOTS[8]的工作更是表明,通過豐富的數(shù)據(jù)擴增、大尺度訓(xùn)練圖像尺寸等多種策略,EAST算法可以達到遠超其他算法的最優(yōu)水平。本文的主干網(wǎng)絡(luò)和這些策略是兼容的。

圖2 基于CrossNet的EAST算法結(jié)構(gòu)示意圖Fig.2 CrossNet based EAST text detector
EAST方法在主干網(wǎng)絡(luò)之后添加了一個類似于特征金字塔結(jié)構(gòu)(Feature Pyramid Networks,FPN)的模塊,用于將不同層的信息進行融合。最后在融合后的最大空間分辨率特征圖上,輸出分類和回歸兩個任務(wù)的預(yù)測結(jié)果。
本節(jié)在ICDAR2015數(shù)據(jù)集[9]上進行了實驗。各個模型采用了統(tǒng)一的超參數(shù)設(shè)置。所有模型均在ICDAR2015和ICDAR2013的訓(xùn)練圖像上訓(xùn)練,在ICDAR2015的測試圖像上測試。除非額外說明,本節(jié)的實驗均是將網(wǎng)絡(luò)權(quán)重隨機初始化后,從頭開始訓(xùn)練的。
為了驗證CrossNet設(shè)計思路的有效性,在ICDAR2015上,對基于CrossNet的EAST的算法的各種結(jié)構(gòu)變種做了一系列對比實驗。同時,也對比了基于ResNet-50的EAST算法。
基礎(chǔ)對比:表2對比了基于CrossNet的EAST文本檢測器和基于ResNet-50的EAST文本檢測器的性能。由表2可以看出,在參數(shù)量大致相同的情況下,CrossNet比ResNet-50提高了8.36%的準(zhǔn)確率。為了對比FLOPS一致情況下的性能,將CrossNet每一層的通道數(shù)降為原通道數(shù)的1/2,得到0.5CrossNet。實驗結(jié)果表明,0.5CrossNet依舊比ResNet-50高出3.86%,可見,CrossNet的結(jié)構(gòu)在FLOPS和ResNet-50大致相同、參數(shù)量遠小于ResNet-50的情況下,依然有明顯的優(yōu)勢。這主要是由于本文提出的CrossRecepBlock使得網(wǎng)絡(luò)可以學(xué)到更貼合文本區(qū)域的有效感受野,并且CrossNet有著更合理的深度、寬度設(shè)置,如圖1所示。

表2 ICDAR2015數(shù)據(jù)集上,采用不同的主干網(wǎng)絡(luò)的評測結(jié)果比較
CrossRecepBlock對比:表3單獨驗證了CrossRecepBlock的作用。CrossRecepBlock中,最重要的部分是兩個由矩形卷積核(3×1和1×3)的卷積分別開頭的通路分支。這也是它和ResNet網(wǎng)絡(luò)基礎(chǔ)模塊的區(qū)別。因而,將矩形卷積改成1×1的卷積,將這兩個分支替換為ResNet的1×1-3×3-1×1單分支,同時保持每一層的通道數(shù)和對應(yīng)的CrossRecepBlock一致,形成用殘差網(wǎng)絡(luò)基本模塊搭建的CrossNet-ResNet’,來對比兩種模塊的性能。由于0.5CrossNet在FLOPS上和ResNet-50更接近,并且顯存占用和速度上更高效,本組實驗采用了0.5CrossNet進行修改和對比。實驗結(jié)果表明,0.5CrossNet+ResBlock’比0.5CrossNet低了2.16%,而二者的參數(shù)量和FLOPS相似。所以,CrossRecepBlock中的矩形卷積核在文本檢測主干網(wǎng)絡(luò)中十分重要。

表3 ICDAR2015 上,采用不同基礎(chǔ)模塊搭建主干網(wǎng)絡(luò)的評測結(jié)果比較
網(wǎng)絡(luò)深度對比:表4驗證了上文中關(guān)于文本檢測主干網(wǎng)絡(luò)的深度不必要太深的觀點,并列舉了 CrossNet和ResNet不同深度時的檢測性能。為了避免顯存不足,本組實驗將ResNet和CrossNet的每層通道數(shù)砍至原網(wǎng)絡(luò)1/4、1/2進行實驗。首先,0.5CrossNet-double-D是把0.5CrossNet的每個網(wǎng)絡(luò)階段的CrossRecepBlock數(shù)翻倍,使得網(wǎng)絡(luò)總深度也翻倍。由此可以看出,深度翻倍后,F(xiàn)-score略有提高,但是相對CrossNet比0.5CrossNet的提高要少很多。
為了說明結(jié)論的一般性,表4在ResNet上進行了對比實驗。其中,0.25ResNet-50-half-D代表將0.25ResNet的每個網(wǎng)絡(luò)階段的模塊數(shù)砍一半后得到的網(wǎng)絡(luò),該網(wǎng)絡(luò)相對0.25ResNet-50有略微降低,但也不多,和CrossNet上的結(jié)論類似。而繼續(xù)將0.25ResNet的每個網(wǎng)絡(luò)階段的模塊數(shù)翻倍,得到0.25ResNet-50-double-D,實驗結(jié)果表明,深度變深后,F(xiàn)-score反而有很明顯的降低。為了說明這不是由于每個網(wǎng)絡(luò)階段的模塊數(shù)配置不合理導(dǎo)致的,本文還評測了參數(shù)量和深度與0.25ResNet-50-double-D差不多的0.25ResNet-101網(wǎng)絡(luò),0.25ResNet-101比0.25ResNet-50-double-D略好,但仍比0.25ResNet-50差。并且,需要指出,這不是由于參數(shù)量大帶來的過擬合導(dǎo)致的,因為ResNet-50、CrossNet比本組實驗的100層左右的網(wǎng)絡(luò)(0.25ResNet-50-double-D,0.25ResNet-101)參數(shù)量大很多,但是有著遠遠高于這些網(wǎng)絡(luò)的評測得分。

表4 ICDAR2015 數(shù)據(jù)集上,采用不同的主干網(wǎng)絡(luò)深度的評測結(jié)果比較
網(wǎng)絡(luò)寬度對比:由表5可以看出,不管是CrossNet結(jié)構(gòu)還是ResNet結(jié)構(gòu),增大網(wǎng)絡(luò)寬度(即網(wǎng)絡(luò)每層特征圖通道數(shù))可以明顯增強檢測器性能。

表5 WICDAR2015 數(shù)據(jù)集上,采用不同的主干網(wǎng)絡(luò)寬度的評測結(jié)果比較
本節(jié)在ICDAR2015數(shù)據(jù)集上將基于CrossNet的文本檢測算法和當(dāng)前最優(yōu)算法進行對比。為了進一步提高性能,還將主干網(wǎng)絡(luò)CrossNet在ImageNet上進行了預(yù)訓(xùn)練。
基于不同主干網(wǎng)絡(luò)的EAST算法在ICDAR2015數(shù)據(jù)集上的評測結(jié)果如表6所示,可以看出在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練之后再在文本檢測數(shù)據(jù)集ICDAR2015上訓(xùn)練的模型EAST-CrossNet-Pretrain達到了82.5%的F-score。這表明,盡管CrossNet不是針對分類任務(wù)設(shè)計的,在ImageNet上預(yù)訓(xùn)練依然可使其獲得更好的初始化權(quán)重,相比隨機初始化提升了4.23%。值得一提的是CrossNet可以用在其他任何文本檢測框架中,表6中所有基于深度學(xué)習(xí)的方法都可以將其主干網(wǎng)絡(luò)替換為專門針對文本檢測任務(wù)設(shè)計的CrossNet來獲得進一步提高。

表6 ICDAR2015數(shù)據(jù)集上,多種方法的評測結(jié)果比較
圖3對比了基于CrossNet的EAST[11]文本檢測算法和基于ResNet-50的EAST算法各自訓(xùn)練完畢后形成的有效感受野。其中,有效感受野是指在網(wǎng)絡(luò)預(yù)測層上對應(yīng)原圖紅點位置處的有效感受野,可視化采用了文獻[13]的方法。有效感受野利用文獻[13]的方法進行可視化。通過圖3可以看出,基于CrossNet的EAST方法感受野比基于ResNet-50的EAST方法的感受野更好地聚焦在文字區(qū)域上。

圖3 基于ResNet-50和CrossNet時的兩種EAST方法有效感受野對比Fig.3 Visualization of effective receptive fields of EAST based on ResNet-50 and the proposed CrossNet respectively
本文提出了一種針對文本檢測任務(wù)設(shè)計的主干網(wǎng)絡(luò)結(jié)構(gòu),即CrossNet。首先設(shè)計了CrossNet的基礎(chǔ)模塊“CrossRecepBlock”。 CrossRecepBlock包含3個卷積通路,其中兩個通路中包含了不同形狀的矩形卷積核的卷積層,通過堆疊此模塊,可以使搭建的主干網(wǎng)絡(luò)形成更貼合文本區(qū)域的感受野。之后討論了關(guān)于文本檢測主干網(wǎng)絡(luò)的寬度和深度的設(shè)置策略,發(fā)現(xiàn)主干網(wǎng)絡(luò)應(yīng)該足夠?qū)挼灰颂睢;谏鲜鰞煞N策略,搭建了CrossNet。實驗結(jié)果表明,CrossNet相比當(dāng)前普遍采用的針對圖像分類任務(wù)設(shè)計的主干網(wǎng)絡(luò)更適合文本目標(biāo)檢測任務(wù),在同等參數(shù)量或同等計算量條件下均比圖像分類網(wǎng)絡(luò)有顯著的準(zhǔn)確率提升。