孫潔,朱玉全,黃承寧
(1.南京工業大學浦江學院 計算機與通信工程學院,江蘇南京,211200;2.江蘇大學 計算機科學與通信工程學院,江蘇鎮江,212013)
自然場景文本是指存在于任意自然場景下的文本內容,例如車牌、路標、廣告牌、店鋪招牌等。自然場景下的文本識別不同于光學字符識別(Optical Character Recognition,OCR)[1],前者難度較大,例如清晰文本在通過圖像展示后變成傾斜、密集且模糊的文本,文本具有完全不同的字體、顏色和大小等[2],背景復雜使得背景物體和文本很難區分等。自然場景下的文本識別(scene text recognition,STR)[3]通常先利用文本檢測技術得到文本位置信息,再使用文本識別技術得到根據位置信息裁剪的圖像中的文本內容。自然場景文本識別算法很多,其中基于循環神經網絡(recurrent neural network,RNN)的文本識別算法主要有兩個框架,分別是卷積循環神經網絡(convolutional recurrent neural network,CRNN)[4]+連接時序分類(connectionist temporal classification, CTC)模型和基于注意力(Attention)機制的序列到序列(sequence to sequence,Seq2Seq)模型。CRNN+CTC的收斂速度相對較快,但存在識別精度低,解碼信息丟失問題,又因為CTC模型所需要的特征序列的高度為1,文本在高度上的變化限制了該方法的識別能力。基于注意力機制的Seq2Seq模型識別精度高于CRNN+CTC模型,英文識別率較高,但存在收斂速度慢,對于自然場景下的中文文本識別效果一般等問題。針對上述問題,提出一種基于二維CTC和注意力機制序列的文本識別模型。
以往的大多數算法主要是通過設計CTC或基于注意力的編碼解碼器框架,將文本視為一維信號,并將轉換場景文本識別視為序列預測問題。……