高戰(zhàn) 王國棟



摘要:針對現(xiàn)有文本檢測算法缺少具有對文本特征空間化描述的問題,基于DBNet文本檢測網(wǎng)絡,將空間位置特征信息強化模塊嵌入到特征提取網(wǎng)絡中的殘差模塊中以增強文本特征。殘差模塊中的特征圖輸入到強化模塊后,拆分為2個空間方向的聚合特征,能夠保持通道間遠程依賴和捕捉精確的特征位置信息。利用可形變卷積強化這兩種特征,將特征圖進行分割識別。實驗結(jié)果表明,本算法在多方向數(shù)據(jù)集和多語言數(shù)據(jù)集的平均精度分別為88.8%、86.4%,相比于其它算法均有一定的提升。
關鍵詞:圖像處理;卷積神經(jīng)網(wǎng)絡;注意力機制;可形變卷積
中圖分類號:STP291???????? 文獻標志碼:A
近年來,場景文本檢測在場景解析、即時翻譯、盲導航、自動駕駛等領域有著廣泛的應用,場景文本檢測的目標是定位圖像中每個文本實例的區(qū)域或邊界框。由于文本在比例、形狀、字體樣式和縱橫比方面具有多樣性,因此文本檢測仍然是一個富有挑戰(zhàn)性的課題。隨著深度卷積神經(jīng)網(wǎng)絡(CNNs)[1-8]的發(fā)展,出現(xiàn)了很多優(yōu)秀的文本檢測算法[9-19]。根據(jù)檢測原理,文本檢測可分為基于回歸和基于分割的檢測方法,由于文字形狀具有任意性,基于回歸的文本檢測算法最初使用參數(shù)化的Bezier曲線自適應地擬合任意形狀的文本[9],但曲線擬合存在文本細節(jié)點位上的檢測誤差,于是提出一種尺度不敏感的自適應區(qū)域建議網(wǎng)絡(Adaptive-RPN)來生成文本,用一組輪廓點表示文本區(qū)域[10],缺點是無法獲得文本組件之間更豐富的關系,無助于文本實例的劃分。因此文獻[11]通過推理中心節(jié)點與鄰近節(jié)點的關系,使用深度關系網(wǎng)絡進一步推斷出文本組件與其相鄰組件之間的鏈接可能性,最終根據(jù)推理結(jié)果將文本組件聚合為整體的文本實例。基于分割的文本檢測算法核心在于區(qū)分相鄰的文本實例,通過設定固定的閾值大小,對文本像素進行兩個階段的正負區(qū)分,實現(xiàn)了從分割圖中分割出密集文本實例[16],缺點是閾值設定固定,不能靈活的對文本進行區(qū)分。隨后在閾值分割的基礎上引入了上下文本信息,利用文本間的關系調(diào)整像素的正負區(qū)分,進一步提升了檢測精度[17]。以上兩種算法都是對像素進行整體的區(qū)分,但無法區(qū)分兩個相鄰的文本實例,在進行最終的文本框調(diào)整時不能很好的擬合文本邊緣。為此,文獻[18]提出了一種漸進尺度擴展算法,在像素級別上通過大小不同的核對整個文本區(qū)域逐步區(qū)分構(gòu)造文本實例,缺點是使用固定閾值來判斷前景背景,無法使用網(wǎng)絡將該部分流程放入網(wǎng)絡中訓練。因此引入Threshmap,使用可微操作將閾值轉(zhuǎn)換放入到網(wǎng)絡中訓練,得到的閾值更靈活精確,從而更好的判斷文本的前景和背景,提升檢測精度[19]。基于分割的文本檢測方法由于對任意形狀的文本具有很強的魯棒性而成為主流,但與基于回歸的方法相比,需要更精細的文本實例細節(jié)以便于定位,這一觀點已被最新的場景文本檢測方法所證實。如,DBNet[19]利用可變形卷積[20]為模型提供了一個靈活的感受野,可以保持文本實例的形狀特征。然而,由于缺乏考慮特征的空間距離信息和特征位置信息,對特征的強化能力較弱。針對上述問題,本文設計了一種文本檢測框架SPDNet。借鑒文獻[20-21],采用注意力機制與可形變卷積相結(jié)合的模塊(SPD)對文本信息進行處理,即利用H和W兩個方向的1×1卷積生成了通道間的交互信息和文本特征位置信息,通過可形變卷積操作強化了這兩種文本信息。
1 算法分析
1.1 基于回歸與基于分割的算法
基于深度學習的文本檢測算法可分為基于回歸和基于分割的算法。基于回歸的算法通過CNN直接預測得出文本的邊界框;基于分割的算法將文本圖像中每個像素都賦予相應的值,將大于預先設定閾值的像素作為文本區(qū)域,將小于預先設定閾值的像素作為背景區(qū)域。基于回歸的算法一般先得到一個預測框,模型通過學習不斷的調(diào)整參數(shù),最終判斷得出包含文本區(qū)域的框,但通常情況下文本區(qū)域是一個狹長的條形區(qū)域,即長寬比較大,預定義的邊界框很難完全覆蓋這種文本區(qū)域。而基于分割的算法擺脫了邊界框的束縛,直接作用于像素,對被檢測圖像中每一個像素進行預測分類,逐漸向外擴展,進而得到更精確的文本檢測框。在自然場景中,文本信息通常以更為復雜的形式出現(xiàn):彎曲、排列不規(guī)則、藝術字體等,由于基于回歸的算法需要預先設定邊界框,這種水平和垂直方向的矩形框無法擬合復雜的文本形狀。而基于分割的算法能夠在像素級別上對每一個像素進行預測,將大于預設定閾值的同一文本像素點進行連接,逐步擴展得到任意形狀的文本檢測框。基于回歸的文本檢測算法在處理復雜的本文時很難做到精確的檢測,而基于分割的算法能夠克服文本檢測中文本形狀任意,文本排列不規(guī)則的不利因素,因此實驗選用分割算法作為基礎算法。
1.2 注意力機制
深度學習中的注意力和人類視覺的注意力機制類似,在眾多信息中把注意力集中在重點上,選出關鍵信息而忽略次要信息。對于一幅圖像,注意力機制作用于生成圖像描述,采用“編碼—解碼”的方式。編碼器為一個卷積網(wǎng)絡,提取圖像的高層特征,表示為一個編碼向量;解碼器為一個循環(huán)神經(jīng)網(wǎng)絡語言模型,初始輸入為編碼向量,生成圖像的描述文本。在圖像描述生成的任務中,同樣存在編碼容量瓶頸以及長距離依賴這兩個問題,因此可以利用注意力機制來有效地選擇信息,如在圖像分割和圖像分類中注意力機制的應用能夠更好的幫助網(wǎng)絡學習圖像信息,更有針對性的學習圖像中的敏感信息。
在文本檢測任務中,自然場景下的文本信息多處于較為復雜的背景中,如何減弱無用信息的干擾并增強對文本特征信息的關注顯得尤為重要。注意力機制的使用對于提升模型性能具有顯著效果,但以往的注意力機制只關注了通道間的相互依賴關系,忽視了特征的精確位置信息,因此,引入具有捕獲位置信息和通道關系注意力機制的特征增強模塊SPD。一方面利用兩個空間方向聚合特征,得到一對方向感知的特征圖,這種轉(zhuǎn)換允許注意力模塊捕捉到沿著一個空間方向的長期依賴關系,并保存沿著另一個空間方向的精確位置信息,有助于網(wǎng)絡更準確地定位感興趣的目標。另一方面,通過加入可形變卷積操作將識別感受野更好的集中在物體周圍,且降低了背景信息的干擾。既有效收集了精確位置信息的通道間的關系信息,又對收集到的特征信息進行了強化處理,更準確地定位感興趣對象的確切位置,從而幫助整個模型更好地識別文本。
2 算法實現(xiàn)
2.1 總體結(jié)構(gòu)
1)為了增強文本特征,本文將原始圖像輸入到圖1(a),由SPD模塊生成特征,SPD模塊分別用50層和101層的ResNet作為主干網(wǎng)絡,殘差模塊作用在ResNet中,對殘差模塊輸入x,使用尺寸為(H, 1)或(1,W)的卷積核進行平均池化(Average pooling layer),生成大小為C×1×W和C×H×1的一維特征,對兩個一維特征分別沿著水平和垂直方向進行擴充,擴充后兩個特征圖尺寸相同,對擴充后的特征圖對應相同位置進行逐像素求和得到C×H×W的特征圖,然后使用ReLU進行變換操作,對新生成的特征圖通過BatchNorm進行歸一化處理,最后使用可形變卷積生成新的特征圖與殘差模塊輸入x進行融合,生成大小為C×H×W新的特征圖作為殘差模塊的輸出。
2)經(jīng)過BiFPN生成特征圖{C1,C2,C3,C4,C5}融合生成特征圖,使用Sigmoid函數(shù)將特征圖I歸一化到0~1范圍內(nèi),得到分割圖,用特定閾值對分割圖像進行二值化處理,其中,文本像素為1,背景像素為0。
3)處理二值圖時,使用逐尺度擴張算法(PSEA)[22],區(qū)分二值圖中不同的文本行,最終得到分割結(jié)果。
2.2 特征增強模塊
本文提出的特征增強模塊SPD由空間位置特征聚合模塊和可形變卷積特征增強模塊兩部分構(gòu)成,在空間位置特征聚合模塊中,對于全局池化方法通常用于通道注意編碼空間信息的全局編碼,但由于將全局空間信息壓縮到通道描述符中,導致難以保存特征位置信息。為了促使注意力模塊能夠捕捉具有精確特征位置信息的通道間的關系信息,分解了全局池化,轉(zhuǎn)化為一對一維特征編碼。
1)如圖2所示,對給定輸入x,使用尺寸為(H,1)或(1,W)的池化核(pooling kernel)分別沿著水平坐標和垂直坐標對每個通道進行編碼,垂直坐標即為特征的位置信息。因此,高度為h的第c通道的輸出
ghch=1W∑0≤i 2)寬度為w的第c通道的輸出 gwcw=1H∑0≤j 3)對這兩種特征進行擴充融合形成新的同時具有空間、位置信息的特征圖 yci,j=ghci+gwcj(3) 4)為了充分利用捕獲到的特征位置信息和通道間的關系信息,對新的特征圖經(jīng)過可形變卷積操作進一步強化這兩種文本特征信息,生成的結(jié)果與x進行融合 X=xc(i,j)+yc(i,j)(4) 其中,得出殘差模塊的輸出結(jié)果。通過可形變卷積操作,有效增強了特征位置信息和通道間關系信息。 2.3 優(yōu)化函數(shù) 對于訓練SPDNet,采用多任務學習策略,將邊界二值映射的損失LΒ,概率映射的損失LP和融合二值映射的損失LF聯(lián)合起來作為加權(quán)求和,損失函數(shù)為 L=λ×LP+μ×LB+ν×LF(5) 其中,λ,μ,和v是控制損失平衡的3個超參數(shù),根據(jù)損失的數(shù)值,分別設置為1、10和5。 在概率映射和邊界二值映射上使用了二值交叉熵損失(BCE)[23],在二值交叉熵損失中應用難分樣本挖掘,克服了正負數(shù)的不平衡。因此,概率映射的損失LP LP? = ∑i∈Sl? yl lg xi? + (1-yi )lg (1-xi )(6) 其中,Sl是正負比為1:3的采樣集。 融合二值映射的損失由Dice系數(shù)[24]損失計算 Lf (Di,Gi ) = 2∑x,y (Di,x,y ×Gi,x,y )∑x,y D2i,x,y + ∑x,y G2i,x,y(7) 其中,Di,x,y和Gi,x,y分別表示融合二值圖和標注圖中像素(x,y)的值。 此外,還要區(qū)分圖案,如柵欄、格子等,這些圖案與文字筆劃相似。使用在線困難樣本挖掘(OHEM)[25]來提高檢測器的識別能力。將OHEM設為O,最終融合二值映射的損失可表示為 LF=1-Lf(Di·O,Gi·O)(8) 3 實驗結(jié)果與分析 3.1 數(shù)據(jù)集 ICDAR 2019MLT數(shù)據(jù)集[26]是一個真實的自然場景文本數(shù)據(jù)集,由20 000個圖像組成,其中包含10種語言的文本(每種語言2 000個圖像)。這些圖像中,10 000張用于訓練(每種語言1 000張圖像),10 000張用于測試,且只在訓練前使用數(shù)據(jù)集。 MSRA-TD500數(shù)據(jù)集[27]是一個包含中文和英文的多語言數(shù)據(jù)集,由300幅訓練圖像和20幅測試圖像組成。文本實例由文本行級別的轉(zhuǎn)錄和旋轉(zhuǎn)的矩形進行注釋。遵循自然場景文字定位技術的原理[28],使用HUST-TR400[29]額外的400個圖像來訓練模型。 ICDAR 2015數(shù)據(jù)集[30]由Google眼鏡捕獲,不考慮定位、圖像質(zhì)量和視點,包括1 000個訓練圖像和500個測試圖像,其中僅包含英語。文本實例在單詞級別使用四邊形框進行標記。 3.2 實驗參數(shù) 對于所有的模型,使用ResNet-50[31]作為主干網(wǎng)絡,經(jīng)過ImageNet [32]預訓練,并采用兩種訓練過程,首先使用IC 2019-MLT訓練圖像對檢測器進行600個epochs的訓練,然后對每個基準數(shù)據(jù)集上的模型進行1 200個epochs的微調(diào)。在4個NVIDIA Tesla V100 GPU上訓練所有批次大小為16的模型。在所有的訓練過程中使用SGD優(yōu)化器,動量為0.9。采用以DBNet[19]為基礎的poly學習率策略,其中每次迭代的學習率等于初始學習率乘以1-itermax_itepower,當初始學習率設置為0.007時,動量為0.9。max_iter表示最大迭代次數(shù),其值取決于最大epoch。 對訓練數(shù)據(jù)的數(shù)據(jù)增強包括:(1)角度范圍為的隨機旋轉(zhuǎn);(2)隨機翻轉(zhuǎn)圖像;(3)隨機裁剪圖像。為了提高訓練效率,將訓練圖像的大小調(diào)整為640×640。在推斷期間,測試圖像保持寬高比,通過設置適當?shù)母叨葋碚{(diào)整每個基準的輸入圖像大小。使用單個線程在單個NVIDIA 1080Ti GPU上測試批次大小為1的模型。 3.3 評估指標 本文通過一些指標來評估方法的性能。精確度(Precision)表示為P,用于計算預測文本實例中可以匹配到ground truth標簽的比例。召回率(Recall)記為R,是ground truth labels在預測結(jié)果中有對應的比例。平均精度(F-measure)記為F=2×P×RP+R,用來表示新算法檢測文本的精度。 3.4 對比實驗 為了驗證本方法的有效性,在兩個標準測試平臺上進行了實驗,并與其他方法做性能比較,其中包括一個多語言文本數(shù)據(jù)集、一個多方向文本數(shù)據(jù)集。(1)多方向文本檢測(Multi-oriented text detection)。考慮到icdar2015數(shù)據(jù)集包含大量小而低質(zhì)量的文本實例,在推理過程中,將測試圖像的短邊調(diào)整為1 152,長邊保持相同的長寬比。其他方法的定量結(jié)果見表1。可知,在分別使用Resnet-50和Resnet-101作為主干網(wǎng)絡時的F-測度,比現(xiàn)有的方法分別高出0.7%和1.5%。 (2)多語言文本檢測(Multi-language text detection)。為了驗證SPDNet在多語種文本中的性能,在MSRA-TD500數(shù)據(jù)集上與現(xiàn)有方法的性能進行比較。測試時,測試圖像的短邊調(diào)整為736。部分實驗結(jié)果見表2。本方法的F-測度為86.1%和86.4%,比其他方法更高,本方法對多語言具有魯棒性。 3.5 實驗結(jié)果分析 網(wǎng)絡中的特征圖如圖3所示。在網(wǎng)絡提取特征階段即編碼階段,使用空間位置聚合模塊,增加了文字區(qū)域的權(quán)重,導致文字特征對卷積核的響應更敏感;同時使用可形變卷積將識別感受野更好的集中在物體周圍,原圖中的文本區(qū)域都能在特征圖和二值圖中框出,且能夠緊密貼合文本區(qū)域,對于彎曲復雜的文本有著很好檢測能力,通過與已有的文本檢測算法進行精度的對比,本文提出的基于特征增強的文本檢測網(wǎng)絡具有更好的檢測效果。 4 結(jié)論 本文通過提取特征的空間位置特征信息,將特征圖拆分為2個空間方向的聚合特征與原有特征信息進行融合,在保持通道間遠程依賴的同時能夠捕捉精確的特征位置信息,實現(xiàn)對文本特征的增強。實驗過程中發(fā)現(xiàn)加入可形變卷積能夠?qū)⒆R別感受野更好的集中在物體周圍,降低了背景信息的干擾,因此融合后的特征可通過可形變卷積進一步的得到增強。文本數(shù)據(jù)集的實驗結(jié)果表明,本算法的平均精度均高于其他算法,充分驗證了本算法的魯棒性。下一步研究將對算法作優(yōu)化處理,使其檢測速度能夠達到實時的效果。 參考文獻 [1]ZHANG H W, ZHA Z J, YAN S C, et al. Attribute feedback[C]//20th ACM international conference on Multimedia, New York, 2012: 79-88. [2]LIU A A, SU Y T, NIE W Z, et al. Hierarchical clustering multi-task learning for joint human action grouping and recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 39(1): 102-114. [3]XU N, LIU A A, WONG Y K, et al. Dual-stream recurrent neural network for video captioning[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2019, 29(8): 2482-2493. [4]WANG Y J, WANG G D, CHEN C L Z, et al. Multi-scale dilated convolution of convolutional neural network for image denoising[J]. Multimedia Tools and Applications, 2019, 78(14): 19945-19960. [5]WANG Y J, HU S Y, WANG G D, et al. Multi-scale dilated convolution of convolutional neural network for crowd counting[J]. Multimedia Tools and Applications, 2020, 79(1-2): 1057-1073. [6]LI D, HU J, WANG C H, et al. Involution: Inverting the inherence of convolution for visual recognition[C]//34th IEEE/CVF Conference on Computer Vision and Pattern Recognition, Kuala Lumpur, 2021: 12321-12330. [7]HU S Y, WANG G D, WANG Y J, et al. Accurate image super-resolution using dense connections and dimension reduction network[J]. Multimedia Tools and Application, 2020, 79(1-2):1427-1443. [8]HE K M, ZHANG X, REN S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, 2016: 770-778. [9]LIU Y L, CHEN H, SHEN C H, et al. ABCNet: Real-time scene text spotting with adaptive bezier-curve network[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Nagoya, 2020: 9806-9815. [10] WANG Y X, XIE H T, ZHA Z J, et al. Contournet: Taking a further step toward accurate arbitrary-shaped scene text detection[C]//33rd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Online, 2020: 11753-11762. [11] ZHANG S X, ZHU X B, HOU J B, et al. Deep relational reasoning graph network for arbitrary shape text detection[C]//33rd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Online, 2020: 9699-9708. [12] TIAN C W, XU Y C, ZUO W M, et al. Coarse-to-fine CNN for image super-resolution[J]. IEEE Transactions on Multimedia, 2021, 23: 1489-1502. [13] WANG W J, XIE E Z, LIU X B, et al. Scene text image super-resolution in the wild[C]//16th European Conference on Computer Vision, Springer,2020: 650-666. [14] ZHU Y X, DU J. Textmountain: Accurate scene text detection via instance segmentation[J]. Pattern Recognition, 2021, 110: 107336. [15] 陳磊,王國棟.用于人群密度估計的多級融合卷積神經(jīng)網(wǎng)絡[J].青島大學學報(自然科學版), 2020, 33(4):31-36. [16] TIAN Z T, SHU M, LYU PY, et al. Learning shape-aware embedding for scene text detection[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, 2019: 4229-4238. [17] XIE E Z, ZANG Y H, SHAO S, et al. Scene text detection with supervised pyramid context network[C]// 33rd AAAI Conference on Artificial Intelligence, Honolulu, 2019: 9038-9045. [18] WANG W H, XIE E Z, LI X, et al. S. Shape robust text detection with progressive scale expansion network[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019: 9328-9337. [19] LIAO M H, WAN Z Y, YAO C, et al. Real-time scene text detection with differentiable binarization[C]// 34th AAAI Conference on Artificial Intelligence, New York, 2020: 11474-11481. [20] DAI J F, QI H Z, XIONG Y W, et al. Deformable convolutional networks[C]// 16th IEEE International Conference on Computer Vision (ICCV), Venice, 2017: 764-773. [21] HOU Q B, ZHOU D Q, FENG J S. Coordinate attention for efficient mobile network design[C]//34th IEEE/CVF Conference on Computer Vision and Pattern Recognition, Kuala Lumpur, 2021: 13713-13722. [22] WANG W H, XIE E Z, LI X, et al. Shape robust text detection with progressive scale expansion network[C]// 32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Long Beach, 2019: 9328-9337. [23] DE BOER P T, KROESE D P, MANNOR S, et al. A tutorial on the cross-entropy method[J]. Annals of Operations Research, 2005, 134(1): 19-67. [24] MILLETARI F, NAVAB N, AHMADI S A. V-Net: Fully convolutional neural networks for volumetric medical image segmentation[C]// 4th IEEE International Conference on 3D Vision, Stanford, 2016: 565-571. [25] SUTSKEVER I, MARTENS J, DAHL G, et al. On the importance of initialization and momentum in deep learning[C]//30th International Conference on Machine Learning, PMLR, 2013: 1139-1147. [26] NAYEF N, PATEL Y, BUSTA M, et al. ICDAR 2019 Robust Reading Challenge on Multi-lingual scene text detection and recognition[C]//2019 International Conference on Document Analysis and Recognition, Sydney, 2019: 1582-1587. [27] YAO, C, BAI X, LIU W Y, et al. Detecting texts of arbitrary orientations in natural images[C]//25th IEEE Conference on Computer Vision and Pattern Recognition, Providence, 2012: 1083-1090. [28] LYU P Y, YAO C, WU W H, et al. Multi-oriented scene text detection via corner localization and region segmentation[C]// 31st IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Salt Lake City, 2018: 7553-7563. [29] YAO C, BAI X, LIU W Y. A unified framework for multi-oriented text detection and recognition[J]. IEEE Transactions on Image Processing, 2014, 23(11):4737-4749. [30] KARATZAS D, GOMEZ-BIGORDA L, NICOLAOU A, et al. ICDAR 2015 competition on robust reading[C]// 13th IAPR International Conference on Document Analysis and Recognition (ICDAR), Nancy, 2015: 1156-1160. [31] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//29th IEEE Conference on Computer Vision and Pattern Recognition, Seattle, 2016: 770-778. [32] DENG J, DONG W, SOCHER R, et al. ImageNet: A large-scale hierarchical image database[C]//22nd IEEE Conference on Computer Vision and Pattern Recognition Workshops, Miami Beach, 2009: 248-255. [33] LIAO M H, SHI B G, BAI X. Textboxes++: A single-shot oriented scene text detector[J]. IEEE Transactions. Image Processing, 2018, 27(8):3676-3690. [34] LIAO M H, ZHU Z, SHI B G, et al. Rotation-sensitive regression for oriented scene text detection[C]//31st IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 5909-5918. [35] LIU Z C, LIN G S, YANG S, et al. Learning markov clustering networks for scene text detection[C]//31st IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, 2018: 6936-6944. [36] LONG S B, RUAN J Q, ZHANG W J, et al. Textsnake: A flexible representation for detecting text of arbitrary shapes[C]//15th European Conference on Computer Vision, Munich, 2018: 19-35. [37] XIE E Z, ZANG Y H, SHAO S, et al. Scene text detection with supervised pyramid context network[C]//33rd AAAI Conference on Artificial Intelligence, Honolulu, 2019, 33:9038-9045. [38] BAEK Y, LEE B, HAN D, et al. Character region awareness for text detection[C]//32nd IEEE/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, 2019: 9357-9366. [39] MA J Q, SHAO W Y, YE H, et al. Arbitrary-oriented scene text detection via rotation proposals[J]. IEEE Transactions? on Multimedia, 2018, 20(11):3111-3122. [40] DENG D, LIU H F, LI X L, et al. Pixellink: Detecting scene text via instance segmentation[C]//32nd AAAI Conference on Artificial Intelligence, New Orleans, 2018, 6773-6780. [41] XUE C H, LU S J, ZHAN F N. Accurate scene text detection through border semantics awareness and bootstrapping[C]// 15th European Conference on Computer Vision (ECCV), Munich, 2018, 370-387. [42] XUE C H, LU S J, ZHANG W. MSR: multi-scale shape regression for scene text detection[C]//28th International Joint Conference on Artificial Intelligence, Macao, 2019: 989-995. Text Detection Algorithm Based on Spatial Location Feature Enhancement GAO Zhan,WANG Guo-dong (College of Computer Science and Technology,Qingdao University,Qingdao 266071,China) Abstract: Existing text detectors lack spatial description of the text features. Based on the DBNet text detection network, the spatial location feature information reinforcement module was embedded into the residual module of the feature extraction network to enhance the text features. After the feature map of the residual module was input into the reinforcement module, it was divided into aggregated features in two spatial directions, which maintained the remote dependence between channels and capture accurate feature location information. Deformable convolution was used to reinforce these two features. The new algorithm divided and identified the feature map. The experimental results show that the average accuracy of this algorithm in multi-directional data set and multi language data set is 88.8% and 86.4% respectively, which is better than other algorithms. Keywords: image processing;convolutional neural network;attention mechanism;deformable convolutional networks 收稿日期:2021-07-09 基金項目: 山東省自然科學基金(批準號:ZR2019MF050)資助;山東省高等學校優(yōu)秀青年創(chuàng)新團隊支持計劃(批準號:2020KJN011)資助。 通信作者: 王國棟,男,博士,副教授,主要研究方向為變分圖像科學、人臉識別、三維重建和醫(yī)學圖像處理和分析等。E-mail: doctorwgd@gmail.com