基于改進TextBoxes++的多方向場景文字識別算法的研究

2019-01-23 08:15:56李偉沖

現(xiàn)代計算機 2018年36期

關(guān)鍵詞：特征檢測

李偉沖

（四川大學計算機學院，成都 610065）

0 引言

自然場景文字識別有著諸多潛在的應用，例如文檔分析、圖像檢索、情景理解以及機器導航等，因此其在計算機視覺已成為一個熱點研究領(lǐng)域。傳統(tǒng)光字符識別技術(shù)（OCR）主要面向高質(zhì)量的文檔圖像。此類技術(shù)假設輸入圖像背景干凈、字體簡單且文字排布整齊，在符合要求的情況下能夠達到很高的識別水平。與文檔文字識別不同，自然場景中的文字識別則面臨著圖像背景復雜、分辨率底下、字體多樣、分布隨意等挑戰(zhàn)，傳統(tǒng)光學識別技術(shù)在此類情況下幾乎無法被應用。近年來基于深度神經(jīng)網(wǎng)絡（DNN）技術(shù)在圖像識別及計算機視覺各領(lǐng)域取得重大進展，相關(guān)方法也被逐步應用到自然場景文字識別中并大大提高識別的效率和精度。作為大量相關(guān)技術(shù)的基礎(chǔ)工作，自然場景文字識別的不斷發(fā)展和突破具有深遠的研究意義和實際價值。

過去的研究通常將自然場景文字識別視為兩個按順序執(zhí)行的單獨的子任務：文字檢測和文字識別。文字檢測通常使用卷積神經(jīng)網(wǎng)絡提取場景圖像特征，然后通過目標回歸（例如文獻[1、2、3]）或使用基于語義分割的方法（例如文獻[4、5]）確定文字位置。而文字識別被視作序列標簽問題，其中為了提高識別準確度有些方法加入了注意力機制，例如文獻[6、7]。分別訓練兩個任務，會導致大量的時間開銷，特別是對于具有多個文字區(qū)域的圖像。此外，單獨檢測和識別不能共享卷積特征。

經(jīng)上分析，本文通過改進TextBoxes++[1]算法，提出一種端到端可訓練的多方向場景圖像文字識別方法（即EX-TextBoxes++）。相比兩階段文字識別方法，本文提出的方法在檢測和識別之間共享卷積特征，并通過多任務學習進一步提高檢測和識別的精度。綜上所述，本文的主要貢獻如下：

（1）本文通過添加一個文字識別分支擴展TextBoxes++算法，提出一個端到端可訓練的多方向場景圖像文字識別算法。

（2）為了將檢測和識別統(tǒng)一到端到端管道中，并從卷積特征映射中提取定向文字區(qū)域，本文引入RoIRotate模塊。

（3）本文提出的方法在多方向文字數(shù)據(jù)集ICDAR 2015和ICDAR 2017 MLT上進行評估。實驗結(jié)果表明：本文提出的方法在以上數(shù)據(jù)集上達到先進水平。

1 相關(guān)工作

TextBoxes++是基于SSD[9]改進的端到端全卷積網(wǎng)絡，通過四邊形或者傾斜的矩形來表示圖像中文字框，因此具有檢測任意方向文字的能力。TextBoxes++在數(shù)據(jù)集ICDAR 2015的檢測F-measure值為0.829，屬于最先進的多方向場景文字檢測方法之一。其網(wǎng)絡結(jié)構(gòu)如下圖1所示，Conv_n#c中的k，n和#c分別表示卷積層索引，卷積單元個數(shù)和網(wǎng)絡輸出特征圖通道數(shù)。主干網(wǎng)絡繼承流行的VGG-16[10]架構(gòu)，保持Conv1_1到Conv4_3，并用兩個卷積層（Conv5_1和 Conv6_1）替換最后2個全連接層。在Conv6_1之后附加另外10個卷積層（Conv7_2到Conv10_2），以及6個連接到6個中間卷積層的文字框（text-box）層。文字框?qū)拥拿總€位置預測每個默認框的n維向量，包括文字存在分數(shù)（2維），水平邊界矩形偏移（4維）和旋轉(zhuǎn)矩形邊界框偏移（5維）或四邊形邊界框偏移（8維）。在本文中剪除旋轉(zhuǎn)矩形邊界框偏移的維度，并添加對旋轉(zhuǎn)角度的預測。改變后的文字框?qū)拥拿總€位置預測每個默認框的n維向量，包括文字存在分數(shù)（2維），水平邊界框偏移（4維），四邊形邊界框偏移（8維度）和四邊形邊界框旋轉(zhuǎn)角度（1維）。在測試階段應用非最大抑制以合并所有6個文字框?qū)拥慕Y(jié)果。網(wǎng)絡受到SSD啟發(fā)，使用多尺度輸出以適應小目標檢測。TextBoxes++是一個僅包括卷積和池化層的全卷積神經(jīng)網(wǎng)絡，因此，可以在訓練和測試階段適應任意大小的圖像。

圖1 TextBoxes++的網(wǎng)絡體系結(jié)構(gòu)

2 本文提出的方法

2.1 EX-TextBoxes++網(wǎng)絡結(jié)構(gòu)

如圖2所示為本文提出的網(wǎng)絡結(jié)構(gòu)（EX-TextBoxes++），由圖可知本文擴展了TextBoxes++的網(wǎng)絡結(jié)構(gòu)，添加了連接用于文字識別分支（recognition-branch）和檢測分支與識別分支的RoIRotate模塊，其中檢測分支如圖2所示。首先使用共享卷積提取圖像特征，并在檢測分支和識別分支共享特征。卷積特征經(jīng)過檢測分支輸出文字的水平邊界矩形框，四邊形邊界框及其旋轉(zhuǎn)角度。RoIRotate模塊結(jié)合檢測分支的邊界框信息提取文字區(qū)域?qū)木矸e特征，并通過仿射變換后輸入到識別分支。由于網(wǎng)絡中所有模塊都是可區(qū)分的，因此可以對整個網(wǎng)絡進行端到端的訓練。

圖2 EX-TextBoxes++的網(wǎng)絡體系結(jié)構(gòu)

2.2 RoIRotate

圖3 RoIRotate作用解釋圖

RoIRotate首先由FOTS[8]提出，對定向的特征區(qū)域應用仿射變換來獲得與坐標軸平行的特征圖，如圖3所示。在本文中使用固定的輸出高度并保持縱橫比不變以處理不同長度的文字。RoIRotate使用雙線性插值來計算輸出值，從而避免了提取的特征之間的未對準的情況。RoIRotate操作后輸出特征的長度是可變的，這更適合于大小不定的文字識別。RoIRotate仿射變換的過程可分為兩個步驟。首先，通過文字檢測分支預測的水平邊界框或真實邊界框的坐標計算仿射變換參數(shù)。然后，對于每個區(qū)域，將仿射變換應用于共享特征圖。由此，可獲得文字區(qū)域?qū)乃教卣鲌D。第一步的公式如下：

其中M為仿射變換矩陣，wt，ht表示仿射變換后特征映射的寬高（在本文的實驗中ht設置為8），w，h表示預測或真實的文字水平邊界框的寬高，tx，ty表示對于邊界框內(nèi)共享特征映射中的點的坐標，θ為文字框旋轉(zhuǎn)的角度，在測試時w，h，θ由檢測分支預測，在訓練時取值為真實標注值。在得到仿射變換矩陣后，利用放射變形可以輕松生成最終的水平特征，其公式如下所示：

對?i∈[1...ht]，?j∈[1...wt]，?c∈[1...C]有：

其中是通道 c中位置（i，j）的輸出值是通道c中位置（n，m）的輸入值。h，w表示輸入的高度和寬度，Φx，Φy表示普通的采樣核k()的參數(shù)，其定義了插值的方法。由于提取文字區(qū)域特征的寬度大小可能不同，因此本文使用最長寬度進行填充，對于小于最長寬度的部分填充0，而在識別時損失函數(shù)中則忽略補0的部分。

一節(jié)課的回顧總結(jié)同樣也是一個提升學生數(shù)學交流的重要環(huán)節(jié)。教師引導學生回顧總結(jié)，喚起學生對整節(jié)課內(nèi)容的回憶，幫助他們整理學習過程，理清新內(nèi)容與舊知識之間的聯(lián)系，讓學生體會到學習數(shù)學的快樂。讓學生談收獲與感受，有意識地交流，在交流中不斷進步。

2.3 文字識別分支

表1 文字識別分支網(wǎng)絡結(jié)構(gòu)

文字識別分支旨在使用從共享卷積特征提取的，并由RoIRotate仿射變換的文字區(qū)域特征來預測文字標簽，其網(wǎng)絡結(jié)構(gòu)如上表1所示，其中conv_bn_relu表示依次經(jīng)過卷積，批量正則和ReLU函數(shù)激活的卷積單元，height_max_pool表示僅沿高度軸減小特征尺寸。首先，經(jīng)過仿射變換的水平空間特征圖依次通過卷積和池化。然后，將提取更高層的特征圖L∈RC×H×W從寬度方向展開轉(zhuǎn)換為時間序列l(wèi)1...lw∈RC×H，并饋入雙向RNN進行編碼。本文使用雙向LSTM，每個方向256個維度，以捕獲輸入特征間的長短依賴。接著，將在兩個方向的每個時間步長的隱藏狀態(tài)h1...hw∈RD相加并饋入|S|維的完全連接網(wǎng)絡，其中|S|表示字符字典中字符的個數(shù)。完全連接網(wǎng)絡每個節(jié)點輸出每個狀態(tài)在字符類S上的分布xt∈R|S|。最后，CTC(Connectionist Temporal Classification)[14]用于將網(wǎng)絡輸出的分類分數(shù)轉(zhuǎn)換為標簽序列。對于給定每個狀態(tài)ht在字符類S上的概率分布xt，及真實標簽序列y*={y1，...，yT}，T≤W，標簽y*的條件概率是所有路徑π的概率之和，可表示為下式：

其中β定義了從具有空白和重復標簽到y(tǒng)*的可能標記集合中的多對一映射。訓練階段文字識別損失就是對于整個訓練集取公式（4）的最大似然。本文采用文獻[14]的損失函數(shù)如下式：

其中N為輸入圖像中文字區(qū)域的數(shù)量，y*n表示預測的字符標簽。

2.4 損失函數(shù)

EX-TextBoxes++損失函數(shù)由檢測損失和識別損失組成，如下式：

其中Lrecog由上式（5）給出，λ為檢測和識別損失平衡因子，本文實驗中λ取值為1。Ldetect的損失由置信度，幾何框（水平矩形框和四邊形框）和旋轉(zhuǎn)角度損失組成。更具體地，令x為默認框和真實最小外接矩形框的匹配指示矩陣。對于第i個默認框和第j個真實框，xij=1表示兩者重疊匹配（本文實驗中IOU>0.5認為重疊匹配），否則xij=0，此時幾何形狀損失為0。讓c表示置信度，l為預測位置，g為真實位置。檢測損失函數(shù)定義為：

其中N是與真實框匹配的默認框的數(shù)量，?設置為0.2以便快速收斂。對Lloc采用平滑L1損耗[15]，對Lconf采用2分類Softmax損失。

3 實驗及結(jié)果分析

3.1 實驗數(shù)據(jù)集

ICDAR 2015[15]附帶的文字數(shù)據(jù)集來自ICDAR 2015 Robust Reading Competition的挑戰(zhàn)。該數(shù)據(jù)集有1000個訓練圖像和500個測試圖像組成。這些圖像由Google Glass以隨機的方式拍攝，因此，場景中的文字可以處于任意方向，或者具有運動模糊和低分辨率。ICDAR 2015提供了3個特定的單詞列表作為詞典，分別為“Strong”，“Weak”和“Generic”。“Strong”詞典每個圖像提供100個單詞，包括圖像中出現(xiàn)的所有單詞。“Weak”詞典包括出現(xiàn)在整個測試集中的所有單詞。而“Generic”詞典是一個90k字的詞匯。在訓練中，首先使用ICDAR 2017 MLT[16]訓練和驗證集中的9000個圖像訓練本文的模型，然后使用1000張ICDAR 2015訓練集的圖像和229張ICDAR 2013[17]訓練集圖像來微調(diào)模型。

ICDAR 2017 MLT[16]是一個大型多語言文字數(shù)據(jù)集，包括7200張訓練圖像，1800張驗證圖像和9000張測試圖像。數(shù)據(jù)集由來自9種語言的自然場景圖像組成。該數(shù)據(jù)集中的文字區(qū)域可以處于任意方向，因此具有更加多樣性和挑戰(zhàn)性。該數(shù)據(jù)集沒有文字識別任務，因此僅比較文字檢測結(jié)果。

3.2 實現(xiàn)細節(jié)

本文使用ImageNet[11]數(shù)據(jù)集訓練的模型作為我們預先訓練的模型。訓練過程包括兩個步驟：首先使用Synth800k數(shù)據(jù)集[12]訓練網(wǎng)絡10次，然后采用對應的實驗數(shù)據(jù)集對模型進行微調(diào)直到收斂，如3.1小節(jié)所述。數(shù)據(jù)增強能增強網(wǎng)絡的魯棒性，本文使用了與文獻[8]類似的數(shù)據(jù)增強方式。首先，圖像的較長邊從640像素到2560像素調(diào)整大小。接著，圖像隨機旋轉(zhuǎn)-10°到10°。然后，圖像的高度以0.8到1.2的比例隨機縮放，同時寬度保持不變。最后，從變換的圖像中裁剪640×640個隨機樣本。為了解決目標的不均衡分布問題，本文采用Hard Negative Mining處理訓練圖像[13]。更確切地說，對相應數(shù)據(jù)集的訓練分為兩個階段。第一階段的負數(shù)和正數(shù)之間的比例設定為3:1，然后第二階段的比例變?yōu)?:1。

本文的實驗在配備單個Titan Xp GPU的PC上使用TensorFlow框架完成。使用Adam[18]對網(wǎng)絡進行端到端的訓練。為了加快訓練速度，取最小批量的大小為24，學習率從1e-3開始，每訓練27300個小批量學習率衰減十分之一，最終停在1e-5。在訓練階段輸入文字識別分支的幾何框和角度為真實標簽值。在測試階段輸入文字識別分支的幾何框和旋轉(zhuǎn)角度為文字檢測分支預測的并經(jīng)過NMS提取的結(jié)果。

3.3 實驗結(jié)果分析

圖4-5為EX-TextBoxes++的部分測試樣例，可以看出EX-TextBoxes++能夠處理各種具有挑戰(zhàn)性的場景，例如非均勻照明、低分辨率、任意方向和透視失真。

圖4 EX-TextBoxes++在ICDAR 2015數(shù)據(jù)集上的測試樣例

圖5 EX-TextBoxes++在ICDAR 2017 MLT數(shù)據(jù)集上的測試樣例

圖6

表2-3分別為在ICDAR 2015和ICDAR 2017 MLT數(shù)據(jù)集的對比實驗結(jié)果，單位為百分比，其中“P”，“R”，“F”分別代表精度，召回率和 F-measure。“S”，“W”，“G”分別表示對應數(shù)據(jù)集的“Strong”，“Weak”和“Generic”的 F-measure。ICDAR 2017 MLT沒有文字識別任務，因此僅比較文字檢測結(jié)果。在ICDAR 2015數(shù)據(jù)集的文字檢測上本文提出的方法優(yōu)于其他先進的單步檢測方法，對此本文給出如下解析：如圖6（b）所示為錯誤識別的結(jié)果。由于網(wǎng)絡共享卷積特征，識別誤差通過反饋傳播輔助檢測的修正。而在ICDAR 2015數(shù)據(jù)集的端到端的識別任務和ICDAR 2017 MLT的檢測任務，本文的方法效果不如FOTS，但是優(yōu)于其他先進的方法。經(jīng)過分析，F(xiàn)OTS采用實例分割的方法進行檢測，在對小文字的檢測上優(yōu)于本文采用的基于區(qū)域建議框的目標回歸方法。綜上分析，本文提出的方法在端到端文字識別上達到先進水平，而在檢測方面優(yōu)于其他先進的單步檢測方法。

表2 在ICDAR 2015數(shù)據(jù)集的對比實驗結(jié)果

表3 在ICDAR 2017 MLT數(shù)據(jù)集的對比實驗結(jié)果

4 結(jié)語

本文通過改進目前先進的多方向場景文字檢測算法TextBoxes++，提出一個統(tǒng)一的端到端可訓練的多方向文字識別方法，用于文字的同時檢測和識別。為了適應多方向文字的識別，在TextBoxes++文字檢測分支添加了對四邊形文字框角度的預測；并且通過添加文字識別分支擴展TextBoxes++的網(wǎng)絡結(jié)構(gòu)，用于文字的識別；最后本文引入RoIRotate以在檢測和識別之間共享卷積特征。在公開數(shù)據(jù)集ICDAR 2015和ICDAR 2017 MLT上的實驗證明本文提出的方法的有效性。