徐富勇
(四川大學計算機學院,成都610065)
近年來,由于自然場景文字識別在廣泛應用中的重要性,其引起了學術界和工業界的廣泛關注。很多應用都受益于場景文字的豐富語義信息,例如:交通標志的識別[1]、產品識別、圖片搜索和無人駕駛等。隨著場景文字檢測方法的發展,場景文字識別也成為當前研究的前沿課題,也是一個開放性和極具挑戰性的研究課題。
目前,規則的文字識別[2]取得了顯著的成功。基于卷積神經網絡的方法[2]得到了廣泛的應用。有很多研究方法將遞歸神經網絡[3-4]和注意機制[5-8]結合到識別模型中,并且還取得了很好的效果。然而,目前大多數的識別模型仍然不穩定,無法處理來自環境的多種干擾。不規則文字的各種形狀和扭曲模式對識別造成了更大的困難。如圖1 所示,透視和曲線形狀等不規則的場景文字仍然很難識別。
因此,我們提出了一種注意力增強網絡(Attention Enhanced Network,AEN),它可以識別自然場景中縮放和拉伸的文字,AEN 將含有文字的圖像作為輸入,直接輸出預測的單詞。

圖1 規則和不規則場景文字例子
當前的文字識別網絡存在一些問題,例如Cheng等人[5]發現現有的基于注意力的方法會出現注意力偏移的情況。因此,根據他們所提出方法的啟發,我們針對自己的模型,提出了注意力增強的方法來改進和訓練AEN。提出了基于相鄰注意力權重的雙向LSTM 解碼器。由于注意力增強的作用,AEN 對于上下文的變化更加魯棒。簡而言之,本文的主要貢獻如下:第一我們提出了一種基于注意力增強的解碼器方法,本方法可以解決注意力偏移的問題。第二我們提出的方法可以以弱監督的方式進行訓練,只需要提供文字標簽,這樣省去了大量的標注工作。
隨著遞歸神經網絡(RNN)的廣泛應用,基于CNN(Convolutional Neural Network)與RNN(Recurrent Neural Network)結合的方法可以更好地學習上下文信息。施等人提出了一個具有CNN 和RNN 的端到端可訓練網絡,稱為CRNN。此外,注意力機制側重于信息區域以實現更好的性能。李等人[7]提出了一種基于注意力機制的遞歸網絡,用于場景文字識別。Cheng 等人[5]使用聚焦注意網絡(FAN)來糾正注意力機制的變化,實現更準確的注意力位置預測。
與規則場景文字識別工作相比,不規則文字識別更加困難。一種不規則的文字識別方法是自底向上的方法[8],它搜索每個字符的位置然后連接它們。另一種是自頂向下的方法[4]直接從整個輸入圖像識別文本,而不是檢測和識別單個字符。我們提出的AEN 方法采用的是自頂向下的方法。注意力增強方法被用于提高注意力的準確度。
AEN,由帶有注意力增強解碼器的CNN-BLSTMLSTM 架構構成,直接處理和識別文字圖像,輸出預測結果。

圖2 AEN整體架構
如圖2 所示,AEN 的主要結構是CNN-BLSTMLSTM 框架。編碼器部分我們采用的是CNN-BLSTM架構。目前方法的解碼器是基于LSTM 直接生成目標序列(y1,y2,…,yT)。解碼器生成的最大步數為T。解碼器在預測到序列結束標記EOS 時停止處理。在時間步t,輸出yt如下:

公式中,st是時間第t 步隱藏層狀態,我們使用LSTM 來更新st,由如下公式計算更新:
st=LSTM( )yprev,gt,st-1(2)
yprev代表的是前一個時間段的輸出yt-1的嵌入向量,gt代表注意力權重向量。

在公式(4)中hi代表的是序列特征向量,L 是特征圖的長度。而第一項αt,i是注意力權重向量,計算如下:
4、移民安置監測。監測結果表明:6個移民安置點規劃建設總規模為3415.76畝,實際建設規模為4100.40畝,超規劃建設684.64畝;規劃人均建設用地面積84.36 m2,超出規劃要求的人均建設面積4.36 m2。2017年實際監測人均建設用地面積101.26 m2,相比于水區淹沒區人均建設用地面積108.97 m2,移民集中安置點人均建設用地減少了7.71 m2,新建設的城鎮移民安置點比淹沒前的居住建設更能體現出合理用地與集約節約用地。

在上述的公式中Wout,bout,Ws,Wh和b 都是可訓練的參數。注意:在訓練階段yprev是來自最后一步的真實標記。然而,在測試階段使用最后一步的預測輸出作為yt-1。本文解碼器是基于注意力增強的解碼器,借鑒于文獻[5]的思想,本文提出了相鄰注意力權重和雙向LSTM 解碼器方法,在2.2 小節詳細說明。AEN 的架構詳細信息見表1。

表1 AEN 架構
解碼器通過正確注意力的反饋,可以增強選擇正確注意力區域的能力。但是,自然場景圖像中存在著各種類型的噪聲。在實際應用中,解碼器可能會被欺騙以關注模糊背景區域。如果解碼器生成不正確的注意力區域,選擇非對應的特征,這將會導致預測失敗。
我們使用了一種稱為相鄰注意力權重的訓練方法,它在訓練階段每一個時間步都獲取一對相鄰的特征。通過此方法訓練的注意力解碼器可以感知相鄰的字符。我們在解碼器的每個時間步選擇和修改一對注意力。在時間步t,αt,k和αt,k+1以如下方式更新:

上式中的β 是(0,1)之間隨機生成的小數,k 是[1,T-1]之間隨機生成的整數。T 代表的是解碼器的最大步長。
基于相鄰注意力權重方法的解碼器,在αt,k和αt,k+1中都加入了隨機性。這意味著:即使對于相同的圖像,在訓練階段的每個時間步長,αt的分布都會發生變化。如等式(4)中所述,注意力向量gt根據αt的各種分布來獲取序列特征向量hi,其等同于特征區域在變化。 β 和k 的隨機性不僅可以避免過擬合,并且可以增強解碼器的魯棒性。注意:αt,k和αt,k+1是相鄰的。在不使用相鄰注意力權重方法時,序列特征向量hk的誤差項是:
δhk=δgtαt,k(8)
上式中δgt是注意力向量gt的誤差項,δhk僅與αt,k有關。但是,使用相鄰注意力權重方法,誤差項變為:

其中αt,k+1與hk相關,如等式(5)和(6)所示,這意味著δhk受相鄰特征決定,因此,反向傳播的梯度能夠在更寬范圍的相鄰區域上動態地優化解碼器。
使用上述方法訓練的AEN 在每個時間步驟產生更平滑的αt。所以,我們不僅可以提取目標字符的特征,而且還提取了前景和背景上下文的特征。如圖3所示,使用此方法能夠正確地預測目標字符。
網絡訓練的優化算法使用Adadelta,本文通過Adadelta 分別計算每個參數上的學習率。在實際使用中,Adadelta 的收斂速度更快。

圖3 是否帶相鄰注意力權重方法訓練的比較
在本節中,我們將在各種基準數據集上進行廣泛實驗,包括規則和不規則文字數據集。所有方法的性能都是通過單詞級的精度來衡量的。
IIIT5K-Words(IIIT5K)[9]包含用于測試的3000 張裁剪單詞圖像。每張圖像都有一個50 詞的詞匯表和一個1000 詞的詞匯表。詞匯表由一個正確的單詞和其他隨機選擇的單詞組成。
ICDAR 2003(IC03)是ICDAR 2003 競賽所使用的數據集。本文只使用其識別數據集。包含非字母數字和長度小于3 的文字圖片被從數據集中剔除。過濾后的識別數據集包含860 張裁剪圖片。
Street View Text(SVT)[10]采集自Google Street View,其測試集包含647 張裁剪后的圖片。許多圖片都受到噪聲的嚴重影響,或者分辨率很低。每個圖像都與一個50 詞的詞匯表相關聯。
ICDAR 2013(IC13)[11]的 大 部 分 樣 本 都 繼 承 自IC03,它包含1015 個裁剪文字圖像。沒有與此數據集關聯的詞匯表。
網絡結構:有關AEN 的詳細信息分表1 中給出。解碼器中LSTM 的隱藏單元數為256。
模型訓練:AEN 以端到端的方式進行訓練。訓練數據由Jaderberg 等人發布的800 萬張合成圖像[21]和Gupta 等人發布的600 萬合成圖像構成[22]。使用Adadelta 自適應學習率調整的優化方法,我們在開始時將學習率設置為1.0。
實現:我們基于PyTorch 1.0 框架實現了我們的方法。我們的實驗中使用NVIDIA RTX-1060 GPU、CUDA 9.0 和CuDNN v7 后端,所有圖像尺寸都調整為32×100。
我們在常用規則文字數據集上進行評估,這些數據集中大多數測試樣本是規則文字,其中有一小部分是不規則文字。我們將本文方法與之前4 種方法進行比較,結果如表2 所示。AEN 在沒有詞匯表的模式下優于所有當前最好的方法。
為了公平比較和良好的可重復性,我們選擇了廣泛使用的訓練數據集進行測試。我們發現由于場景文字背景復雜,當文字彎曲角度太大時,本文方法可能會失效,其可能會錯誤地將復雜背景視為前景。上述實驗均基于裁剪文字識別,沒有文字檢測器的AEN 不是端到端場景文字檢測識別系統。在更多應用場景中,不規則和多方向的文字對于檢測和識別都具有很大的挑戰性。所以,任意形狀場景文字識別仍然是一個等待解決方案的挑戰性問題。
在本文中,我們提出了一個用于場景文字識別的注意力增強網絡。本文方法使用基于相鄰注意力權重的雙向解碼器的序列識別網絡來識別文字圖像并預測輸出。我們在規則和不規則文字數據集上進行了大量實驗,都表現出了優異的識別性能。將來,我們有必要擴展這種方法來處理任意方向和任意弧度的文字識別問題,由于文字和背景的多樣性,這個問題更具挑戰性。由于端到端文字識別性能的改進不僅取決于識別模型,還取決檢測模型。所以,找到一種將AEN 與場景文字檢測器結合起來的正確有效方法也是值得研究的方向。

表2 AEN 在規則文字測試集上的準確率