劉光輝,張鈺敏,孟月波,占華
(西安建筑科技大學 信息與控制工程學院, 陜西 西安 710055)
由于圖像文本中包含著大量的信息[1],會出現在許多應用領域包括教育、物流、旅游等,故場景文本檢測在日常生活中發揮著重要的作用[1-2]。在自然場景中圖像文本形狀任意,文本顏色和字體也不同,還存在不同程度的遮擋和文本行模糊不清的情況,其多樣性和多變性給文本檢測帶來了巨大的挑戰。
近年來,基于深度學習的場景文本檢測因良好的檢測效果而逐漸成為主流方向,其主要分為基于回歸和基于分割的方法。基于回歸的方法是根據文本特點對通用目標檢測算法進行改進,使用回歸文本框獲取文本。Tian 等[3]提出CTPN 算法是基于Faster RCNN(region-based convolutional neural networks)框架,用一個固定寬度大小的錨框通過雙向長短記憶神經網絡進行文本檢測,能準確定位水平文本,但無法處理多方向文本;Shi等[4]提出Seglink 算法,將CTPN 小尺度候選框和SSD 算法融合,能處理多方向文本,但其合并算法采用線性回歸方式,只能擬合直線無法擬合曲線,不能檢測曲線文本;Wang 等[5]提出Contour-Net 算法,在文本輪廓點上建模提取特征信息,用臨界點來表示文本區域,能對不同曲線文本進行檢測,但其pipeline 較長,計算成本較大,且效果過于依賴超參數。基于回歸的方法需要設計錨框,易受文本邊界坐標限制,在任意形狀文本檢測時具有局限性。
基于分割的方法是從圖像分割中吸取經驗,在像素級別預測分割出圖像文本,能檢測任意形狀文本。Wang 等[6]提出PSENet 算法,利用漸近式擴展方法將文本進行像素級分類,檢測多個不同尺度的文本區域,該方法能描述任意形狀文本,但其后處理很復雜,模型預測速度慢;Wang 等[7]設計了輕量級骨干網絡和低成本FPN 來預測文本區域,雖明顯提高了推理速度,但仍依賴于遍歷文本實例的所有像素,當圖像文本中有較多文本實例時,會導致計算負擔增大;Liao 等[8]在DBNet 中提出一種可微分二值化模型,將其插入到分割網絡中進行聯合優化,降低了后處理算法的計算成本,但對網絡中的語義信息利用不充分,其檢測性能受到限制;文獻[9]對多級通道注意力信息進行適當編碼,構建判別特征圖,從而提高文本檢測的性能;文獻[10]通過多維度卷積融合的方法來減少信息損失,提升檢測性能,但對于高度彎曲形狀的文本建模能力有限;文獻[11]提出一種透視輪廓連接算法來生成區間區域輪廓,可以有效擬合高度彎曲文本輪廓;FARNet[12]提出TFS 和DGAT 的聯合模塊來推斷文本片段之間的鏈接關系,提高長彎曲文本的分組能力,進而提升檢測性能;FCENet[13]針對高度彎曲形狀文本提出傅里葉輪廓嵌入方法對文本進行建模,能夠靈活擬合各種不規則文本,但在常規文本檢測上其效果略有下降;文獻[14]利用B-Spline 曲線直接預測輪廓點的方法,能檢測任意形狀文本;文獻[15]采用Sigmoid Alpha 函數來建模邊界與內部像素之間的距離關系,減少噪聲和缺陷,完整的重建出任意形狀的文本區域;同時文獻[16]利用空間自適應卷積來提升文本檢測性能,并提高對任意形狀文本檢測在實際應用中的魯棒性,但文本圖像質量不同仍會造成文本區域定位不準確和文本漏檢誤檢。
基于以上分析,本文提出一種雙分支跨級特征融合的自然場景文本檢測方法。首先,設計跨級特征分布增強模塊(cross-level feature distribution enhancement module,CFDEM),從初始特征中分別提取全局和局部信息進行編碼,實現跨級特征交互,增強特征的表達能力;然后,提出自適應融合策略(adaptive fusion strategy,AFS),以雙分支的結構分別構建空間維度和通道維度來計算相關權重,加強不同尺度特征之間的聯系,能夠自適應地選擇過濾非文本或冗余特征,降低誤檢率和漏檢率;最后,采用可微分二值化的方法對文本進行處理生成文本檢測結果。
本文方法整體結構如圖1 所示,包括特征提取部分、自適應融合部分和可微分二值化部分。特征提取部分以Resnet50 為骨干網絡,輸入圖像以前向傳播方式進行采樣,得到初始特征{F2,F3,F4,F5} , 將 {F3,F4,F5}輸入到跨級特征分布增強模塊中,增強跨級特征文本信息的交互性,得到增強后的特征 {M3,M4,M5};自適應融合部分為了幫助網絡能自適應地過濾非文本或冗余特征,降低誤檢和漏檢,通過雙分子結構構建不同維度特征之間的權重關系,進行自適應的融合;可微分二值化部分利用融合的特征圖預測概率圖和閾值圖并進行可微分二值化,得到最終的文本檢測結果。
在網絡訓練中由于Resnet50 的網絡層數較淺,會造成提取的特征缺乏語義信息,導致文本檢測效果差,且出現檢測目標誤檢漏檢的現象。基于此,本文設計如圖2 所示的跨級特征分布增強模塊,提取不同層級特征信息,同時增強跨級特征文本信息的交互性。

圖2 跨級特征分布增強模塊Fig.2 Cross-level feature distribution enhancement
由于骨干網絡提取的初始特征 {F3,F4,F5}分辨率為原始圖像的 {1/8,1/16,1/32}且包含較多語義信息,故將 {F3,F4,F5}作為跨級特征分布增強模塊的輸入。首先,為了增強任意形狀文本的適應性,利用可變形卷積使卷積核的形狀跟隨不同文本形狀而發生改變,將其特征進行逐元素相加得到特征和FD,過程如下:
式中:fDCN為 可變形卷積,Fi為初始特征。
然后,為了提取不同層級特征信息,增強跨級特征文本信息的交互性,通過雙分支框架來捕獲更多的特征信息。一個分支為全局分支,結構如圖2 所示,輸入特征和FD通過全局平均池化來捕獲全局上下文信息,并且利用1 ×1卷積和ReLU 激活函數來增強網絡對特征信息的表達能力,其過程為
式中:FD為經可變形卷積后進行逐元素相加的特征和,fGAP為全局平均池化,fConv1×1為 1 ×1卷 積,fReLU為ReLU 激活函數。為了獲取更多特征信息,將式(2)與FD進行逐元素相加。同時空間位置信息對定位文本邊界非常重要,可以有效提升文本檢測能力,為了突出文本空間位置,將其進行深度可分離卷積處理,即
式中:F1為 全局分支中增強后的特征,F1′為全局分支輸出的特征,fDConv為深度可分離卷積。
另一個分支為局部分支,該分支先通過深度可分離卷積來捕獲局部上下文信息,利用ReLU激活函數增強網絡對局部特征信息的表達能力,再經過卷積核為 5×5的深度可分離卷積層,深化網絡的同時擴大感受野感知特征交互關系,過程為
式中:fDConv5×5為 卷積核為 5 ×5的深度可分離卷積。同理該分支為了獲取更多的特征信息,將式(4)與FD進行逐元素相加,具體為
式中:F2為 局部分支中增強后的特征,F2′為局部分支輸出的特征。
最后,為了收集不同層級特征信息,將雙分支輸出特征分別與輸入特征進行逐元素相乘來促進跨級特征的有效使用,提高任意形狀文本檢測能力。其中為了使雙分支輸出特征與輸入順利進行逐元素相乘,通過全局平均池化和全局最大池化來完成。跨級特征分布增強模塊輸出結果為
特征融合是提高檢測性能的一個重要手段[17],在融合過程中由于場景文本圖像包含大量環境信息,會導致特征中包含冗余信息,降低場景文本檢測效果。同時文本多尺度特征圖感受野會造成特征信息之間存在差異,直接融合多尺度空間特征信息易形成噪聲等,造成檢測時出現混淆定位或漏檢誤檢的問題。基于此,本文提出自適應融合策略,通過構建空間維度和通道維度來捕獲像素的相關性和通道的依賴關系,優先將更多注意力專注于重要元素上,自適應地判斷冗余部分,實現特征充分融合,生成更加豐富的特征圖。
本文的自適應融合策略整體結構如圖3。

圖3 自適應融合策略Fig.3 Adaptive fusion strategy
給定特征圖X,維度大小為 [C,H,W],其中通道數為C、高度為H、寬度為W。首先,使用1×1 卷積調整通道,從信道維度將X分成通道維度分支(channel dimension branch,CDB)和空間維度分支(spatial dimension branch,SDB),維度大小為X1=X2=[C/2,H,W],分別處理通道維度和空間維度。然后,將通道維度分支和空間維度分支兩個不同的層級輸出經卷積后連接,生成大小為[C,H,W]的綜合特征圖;最后,為確保融合過程中網絡不會過度關注感興趣的區域,從而導致其他區域的權重不合理,增加了一條殘差連接,來提高融合效果。具體過程如下:
式中: ξ1為 空間維度分支, ξ2為通道維度分支,F為融合網絡輸出的結果。
1.3.1 通道維度分支
通道維度分支中原始特征圖各通道權重相同,會削弱文本重要特征,本文提出的通道維度分支專注于獲取不同通道之間的重要性,賦予每個通道相應的權重,可以更加準確地關注重要文本信息,削減一些不必要的參數,使模型更加準確地預測文本位置,并降低計算負擔。結構如圖4所示。

圖4 通道維度分支Fig.4 Channel dimension branch
首先使用全局平均池化獲取通道重要性u,即
式中fGAP為全局平均池化。為防止網絡過度關注感興趣區域,添加一個殘差連接來防止通道被過度放大或抑制,避免其他區域權重不合理,更好地對通道重要性進行建模。然后利用激活函數為每個通道生成權重集合,進而反應通道相關性,最后輸出為
式 中:fsig(u)為Sigmoid 函 數,X1′為 通 道 維 度 分 支輸出。
1.3.2 空間維度分支
通道維度分支主要關注特征圖中的通道權重,缺乏空間相關性。空間維度分支可以通過捕獲像素之間的相關性來重新分配文本區域中字符和非字符區域之間的權重,使模型更加關注有用的特征區域,減少無用信息的干擾,提高文本區域的檢測精度。空間維度分支通過對文本的空間信息編碼,能適應多尺度文本,既能滿足大尺度文本的需求,又能提高小尺度文本的檢測效果。結構如圖5 所示。

圖5 空間維度分支Fig.5 Spatial dimension branch
空間維度分支在水平和垂直方向上對X2進行編碼,分別使用大小為 (H,1) 和 (1,W)卷積核進行卷積和全局平均池化,此時高度h和寬度w處輸出為
式中:X2h為高度方向的變換,X2w為寬度方向的變換。這兩個變換被聚合成沿空間的兩個方向,即高度和寬度方向的單獨的方向感知特征。由于兩個變換的方向不同,當AFS 在一個方向上捕獲要素的更長依賴性時,不會影響另一個方向上的位置信息。
將X2h和X2w連接,經過1×1 卷積層后發送到激活功能層,生成維度大小為 [C,1,H+W]的特征,將其沿寬度維度分成兩個子張量,其維度大小分別為xhc=[C/2,1,H]、xcw=[C/2,1,W]。 將Xhc經JT轉 置 為[C/2,H,1], 讓Xhc和Xwc分別進入1×1 卷積層,進一步建立空間映射,此時輸出特征上加入sigmoid 函數,以獲得水平和垂直方向上的權重特征圖,即
式中:fC為串聯操作,Qh為水平方向權重特征圖,Qw為垂直方向權重特征圖。
最后為了調整水平和垂直方向的權重分布,更好地捕獲空間維度中的重要區域,將Qh和Qw擴展到和X2一樣大,然后將兩個權重特征圖和X2相乘,輸出的結果為
可微分二值化如圖1 右部分所示,采用DBnet[8]中的二值化方法。利用融合后的特征圖預測概率圖和閾值圖,再進行處理生成近似二值化圖,即
式中(i,j)表示像素點,Bi,j、Pi,j、Ti,j分別為近似二值化圖、概率圖、閾值圖上(i,j)點的值;k為放大因子,根據經驗設置為50。
本文所有實驗均在Ubuntu 系統下進行,GPU型號為RTX2080Ti,環境配置為CUDA9.0+anacond-a3+Python3+Tensorflow1.8.0。主干網絡ResNet50選擇ImageNet 預訓練結果作為初始化參數,其余模塊的初始化參數采用隨機生成方式。使用帶動量的隨機梯度下降算法(SGD)來優化模型,能夠處理大量文本數據,提高模型的性能和訓練效率。初始學習率能加速優化算法的收斂速度,其設置過小如0.001 時,loss 會無法收斂,設置過大會導致訓練不穩定,無法收斂,故本文將初始學習率設置為0.005。動量為0.9,減少訓練過程中的梯度震蕩現象,權重衰減系數為0.000 1,防止模型過擬合。損失函數采用交叉熵損失。Batch-Size 設置為8,迭代次數為5×104時,能獲得最優的檢測結果。采用準確率P(Precision)、召回率R(Recall)和F值(F-score)來評價模型的精度,使用參數量(parameters,Param) 和浮點運算次數(floating point operations,FLOPs)對模型的復雜度進行評估。
本文在ICDAR2015、Total-Text、CTW1500 和ICDAR2017 等4 個數據集下進行實驗,結果如表1~4所示,部分檢測效果對比如圖6 所示。

表1 ICDAR2015 多算法性能指標結果對比Table 1 Comparisons of performance index results of multiple algorithms in the ICDAR2015

圖6 部分檢測效果圖Fig.6 Partial detection effect diagram
ICDAR2015 數據集是文本檢測任務中最常用的數據集,共包含1 500 張圖像。根據表1 分析可知,本文提出的方法準確率達到91.9%,在主干網絡一致的情況下,與TextMountain 相比,準確率提高了3.4%,且與其他主干網絡一致的算法相比,本文算法的準確率均有一定的提升,在主干網絡不一致的情況下,本文算法的準確率仍優于其他算法;召回率比DBnet、PSENet 等經典算法提高5.8%、8.8%,優于其他算法;F值分別超過DBnet、PSENet 等算法4.7%、9.5%,且本文方法優于大多數先進的方法,說明本文模型更有效果。同時本文模型的總參數量達到82.2×106,FLOPs 為96.1×109,在提高文本區域定位準確率的過程中,犧牲了一定的模型復雜度性能。由于Param 和FLOPs 主要和模型本身有關,因此只在一個數據集上進行實驗結果說明。
Total-Text 數據集是2017 年提出的用于任意形狀場景文本的數據集,該數據集從各種場景中采集,包含文本場景復雜度和低對比度背景,總共包含1 555 張圖像。由表2 數據分析可知,本文算法準確率達到90.3%,召回率達到83.1%,F值達到86.8%,與較近的STKM 算法相比,準確率提高了4%,召回率提高了4.8%,F值提高了4.6%,相較于其他算法均有提升,驗證了本文方法對Total-Text 數據集中任意形狀場景文本圖像都具有較好的檢測能力,且對于Total-Text 數據集中復雜度高和低對比度背景的文本圖像具有穩定的檢測效果。

表2 Total-Text 多算法性能指標結果對比Table 2 Comparisons of performance index results of multiple algorithms in the Total-Text %
CTW1500 數據集是用于任意形狀場景文本的數據集,文本包含多方向和任意形狀,主要側重于彎曲文本,包含1 500 張圖像。由表3 分析可知,本文方法在CTW1500 數據集上準確率達到87.3%,比DBnet 算法高了0.4%,高于表3 中的所有算法;F值達到了84.1%,比PAN 算法高0.4%。驗證了本文方法對彎曲文本檢測效果較好,充分表明本文方法具有很強的檢測能力和較強的魯棒性。

表3 CTW1500 多算法性能指標結果對比Table 3 Comparisons of performance index results of multiple algorithms in the CTW1500 %
ICDAR 2017 數據集是任意形狀文本檢測數據集,包含水平、傾斜、垂直、彎曲和長文本,由12 263 張圖片組成。根據表4 分析可知,本文方法在ICDAR 2017 數據集上準確率達到81.2%,比FOTS算法高1.7%;召回率達到73.2%,比CharNet 高出3.2%;F值達到74.9%,比CharNet 高出1.5%。通過比較表明本文方法在準確率、召回率和F值上都優于表4 中的其他算法,驗證了本文方法檢測文本得有效性。

表4 ICDAR2017 多算法性能指標結果對比Table 4 Comparisons of performance index results of multiple algorithms in the ICDAR2017 %
由圖6 可看出,與其他檢測效果對比。在ICDAR 2015 數據集中,圖6(a)存在誤檢漏檢現象,其誤檢現象是由于其外形類似文本目標,在特征映射過程沒有明確重點特征,導致信息損失,造成非文本目標的誤判。而本文方法優先將更多注意力專注于重要元素上,賦予文本區域更多的權重,使模型更加準確地關注重要文本信息,減少文本誤檢現象。圖6(b)存在漏檢現象,圖6(d)存在文本區域定位不準確的現象,而圖6(c)、(f)能夠準確檢測出文本區域的具體位置,表明本文方法能夠提高文本定位的準確性,準確捕獲漏檢誤檢文本。在Total-Text 數據集中,圖6(a)存在定位不準確的現象,這是由于網絡感受野不夠大導致的,本文模型在特征提取部分使用可變形卷積,能增強任意形狀文本的適應性。圖6(d)、(e)存在漏檢的現象,而圖6(c)、(f)文本檢測效果較好,表明本文方法能夠準確定位文本區域,改善漏檢現象,且在任意形狀文本檢測中具有一定的競爭力。在CTW1500 數據集中,圖6(a)、(b)存在漏檢現象,這是由于小目標文本經多次采樣后會變得模糊和失真,被一些模型當成噪聲給過濾掉。而本文更注重捕獲像素之間的相關性,重新分配字符與非字符區域之間的權重,使模型更加關注有用的文本區域,提高文本檢測精度,減少漏檢現象。圖6(d)存在文本區域定位不準確的現象,而圖6(c)、(f)能夠準確檢測彎曲文本圖像,表明本文方法能夠準確檢測曲線文本,提高任意形狀文本的檢測效果。在ICDAR2017 數據集中,圖6(a)、(b)、(d)、(e)存在漏檢現象,而圖6(c)、(f)能夠準確檢測文本區域,表明本文方法能夠準確定位文本區域,改善任意形狀文本檢測漏檢現象,具有一定的競爭力。
1) 為驗證本文方法模塊的有效性,在ICDAR 2015、ICDAR2017、Total-Text 和CTW1500 等4 個數據集上進行消融實驗,結果如表5 所示。

表5 ICDAR2015、ICDAR2017、Total-Text 和CTW1500 消融實驗結果Table 5 Comparison of performance index results of multiple algorithms in the ICDAR2015、ICDAR2017、Total-Text and CTW1500
根據表5 可以看出,采用CFDEM 時,ICDAR 2015 的準確率、召回率和F值分別提升了1.2%、0.2%和0.5%;ICDAR2017 的準確率、召回率和F值分別提升了0.2%、2.2%和0.7%;Total-Text 的準確率提升了0.7%,驗證了CFDEM 的有效性。采用AFS 時,ICDAR2015 的準確率、召回率和F值分別提升了2.9%、1.9%和2.3%;ICDAR2017 的準確率、召回率和F值分別提升了1.9%、3.9%和1.9%;Total-Text 的準確率和F值分別提升了1.5% 和0.5%;CTW1500 的準確率、召回率和F值分別提升了0.1%、0.2%和0.3%,驗證了AFS 的有效性。同時采用CFDEM 和AFS 時,ICDAR2015 的準確率、召回率和F值分別提升了3.7%、4.8% 和4.7%;ICDAR2017 的準確率、召回率和F值分別提升了2.2%、5.3%和3.2%;Total-Text 的準確率、召回率和F值分別提升了3.2%、0.6% 和2.1%;CTW1500 的準確率、召回率和F值分別提升了0.4%、1.8%和0.7%,證明了本文方法能夠顯著提高任意形狀文本檢測性能。
2) 為研究本文方法中各模塊的空間復雜性和時間復雜性,對各模塊的參數量(Param)和浮點運算次數(FLOPs) 進行度量,如表5 右側所示。可以看出單獨引入CFDEM 時,Param 增加2.7 M,FLOPs 升高1.7 G;單獨引入AFS 時,Param增加3.3 M,FLOPs 升高3.1 G;CFDEM 和Param同時采用時,Param 增加6.0 M,FLOPs 升高4.8 G。
3) 為驗證本文方法的性能,分別以Resnet18、Resnet50、Resnet101 為骨架網絡進行測試,以Total-Text 數據集為例,測試結果如表6 所示。根據表6 可以看出本文方法在不同深度的骨架網絡上都具有良好的性能,Resnet18 網絡層數較淺,檢測速度表現良好,而Resnet50 的模型相比Resnet18模型的評價指標具有較大的提升,而Resnet101 由于數據提升較小,檢測速度相對慢,考慮到服務器設備的情況,本文方法主要以Resnet50 為主。

表6 本文方法在Total-Text 上的性能對比Table 6 The performance comparison of this method on Total-Text
本文提出了一種雙分支跨級特征融合的自然場景文本檢測方法,該方法通過設計跨級特征分布增強模塊能夠提取不同層級特征信息,從而增強了跨級特征文本信息的交互性;提出的自適應融合策略,通過雙分支結構來加強不同尺度特征之間的聯系,自適應地選擇過濾非文本或冗余特征,能夠降低誤檢率和漏檢率;在不同數據集下的實驗結果表明本文方法能夠準確的定位文本區域,改善漏檢誤檢,提高檢測精度。